CN114021732B - 一种比例风险回归模型训练方法、装置、系统及存储介质 - Google Patents
一种比例风险回归模型训练方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN114021732B CN114021732B CN202111156675.1A CN202111156675A CN114021732B CN 114021732 B CN114021732 B CN 114021732B CN 202111156675 A CN202111156675 A CN 202111156675A CN 114021732 B CN114021732 B CN 114021732B
- Authority
- CN
- China
- Prior art keywords
- local
- global
- data provider
- regression model
- survival
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Pure & Applied Mathematics (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Algebra (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例公开了一种比例风险回归模型训练方法、装置、系统及计算机可读存储介质,该方法包括:根据各数据提供方提供的最大生存时间和最小生存时间确定全局生存时间递增序列;然后,由各数据提供方以该全局生存时间递增序列作为扩展后的时间维度,生成与所述全局生存时间递增序列中的生存时间对应的生存分析中间结果;之后,再根据各数据提供方提供的生存分析中间结果进行多方安全计算确定全局的生存分析中间结果。如此,各数据提供方无需暴露其全部的生存时间;而且无需经过多次通讯即可使各数据提供方在相同的时间维度(全局生存时间递增序列)上进行中间结果的计算,大大节约了通讯资源。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种比例风险回归模型训 练方法、装置、系统及计算机可读存储介质。
背景技术
在医学领域,由于对医学数据具有较高的隐私保护要求,但每个医院自有 的医学数据又非常有限,这就使得可以用于机器学习和人工智能模型训练的医 学数据非常有限且质量不佳,从而制约了人工智能技术在医学领域的推广和应 用。
横向联邦学习(Federated Learning)方法可以通过服务器设定初始模型和 初始模型参数;各个数据提供方从服务器下载模型,然后利用私有数据训练模 型,之后返回给服务器需要更新的参数;服务器聚合各数据提供方返回的模型 参数,更新模型,再把最新的模型下发到各个数据提供方,如此迭代直到达到 预期精度地模型,正好可以解决上述问题。
然而,在利用现有的横向联邦学习方法对多方医学数据进行数据分析时, 例如生存分析,往往需要主控方和多个数据提供方之间进行频繁的数据交换和 多方安全计算,特别是当网络延迟较高、数据提供方数量较多时,极有造成耗 时长,响应慢,计算资源占用严重的技术问题。
发明内容
本申请实施例为了解决上述问题,创造性地提供一种比例风险回归模型训 练方法、装置、系统及计算机可读存储介质。
根据本申请实施例第一方面,提供了一种比例风险回归模型训练方法,应 用于主控方,该方法包括:将第一比例风险回归模型发送至各数据提供方,比 例风险回归模型包括至少一个解释变量;根据各数据提供方提供的本地最大生 存时间和本地最小生存时间确定全局生存时间递增序列;将全局生存时间递增 序列发送至各数据提供方,以供各数据提供方根据全局生存时间递增序列、第 一比例风险回归模型和本地医学数据中解释变量的样本值,进行生存分析得到 与全局生存时间递增序列对应的本地生存分析中间结果;根据各数据提供方提 供的本地生存分析中间结果进行多方安全计算得到全局生存分析中间结果;根 据全局生存分析中间结果对第一比例风险回归模型进行更新,以确定第二比例风险回归模型。
根据本申请实施例一实施方式,根据各数据提供方提供的本地最大生存时 间和本地最小生存时间确定全局生存时间递增序列,包括:根据各数据提供方 提供的本地最大生存时间和本地最小生存时间确定全局最大生存时间和全局最 小生存时间;根据生存时间步长、全局最大生存时间和全局最小生存时间确定 全局生存时间递增序列。
根据本申请实施例一实施方式,根据终端全局生存分析中间结果对第一比 例风险回归模型中参数进行更新,包括:根据全局生存分析中间结果计算模型 损失函数相对于各解释变量的梯度;根据梯度对第一比例风险回归模型中参数 进行更新,以使终端模型损失函数值持续收敛。
根据本申请实施例一实施方式,生存分析中间结果为加密后的值,相应地, 根据各数据提供方提供的本地生存分析中间结果进行多方安全计算得到全局生 存分析中间结果,包括:对各数据提供方提供的本地生存分析中间结果进行解 密得到解密后的本地生存分析中间结果;根据解密后的本地生存分析中间结果 进行多方安全计算得到全局生存分析中间结果。
根据本申请实施例一实施方式,该方法还包括:根据各数据提供方提供的 本地解释变量参考值,进行多方安全计算得到全局解释变量参考值;将全局解 释变量参考值发送至各数据提供方,以供各数据提供方对本地医学数据中解释 变量的样本值进行标准化。
根据本申请实施例一实施方式,本地解释变量参考值为加密后的值,相应 地,根据各数据提供方提供的本地解释变量参考值,进行多方安全计算得到全 局解释变量参考值,包括:对各数据提供方提供的本地解释变量参考值进行解 密得到解密后的本地解释变量参考值;根据解密后的本地解释变量参考值进行 多方安全计算得到全局解释变量参考值。
根据本申请实施例一实施方式,标准化为z-score标准化,相应地,根据各 数据提供方提供的本地解释变量参考值,进行多方安全计算得到全局解释变量 参考值,包括:根据各数据提供方提供的本地样本个数和本地样本的解释变量 值的和,计算得到全局解释变量平均值;将全局解释变量平均值发送至各学数 据提供方,以供各数据提供方计算本地解释变量样本方差;相应地,将全局解 释变量参考值发送至各数据提供方,以供各数据提供方对本地医学数据中解释 变量的样本值进行标准化,包括:根据各数据提供方提供的本地解释变量样本 方差进行多方安全计算得到全局解释变量样本方差和全局解释变量标准差;将 全局解释变量标准差返回给各数据提供方,以供各数据提供方对本地医学数据 中解释变量的样本值进行z-score标准化。
根据本申请实施例一实施方式,标准化为最大最小标准化,相应地,根据 各数据提供方提供的本地解释变量参考值,进行多方安全计算得到全局解释变 量参考值,包括:根据各数据提供方提供的本地解释变量最大值和本地解释变 量最小值,计算得到全局解释变量最大值和全局解释变量最小值;相应地,将 全局解释变量参考值发送至各数据提供方,以供各数据提供方对本地医学数据 中解释变量的样本值进行标准化,包括:将全局解释变量最大值和全局解释变 量最小值发送至各数据提供方,以供各数据提供方对本地医学数据中解释变量 的样本值进行最大最小标准化。
根据本申请实施例第二方面,提供一种比例风险回归模型训练方法,应用 于数据提供方,该方法包括:接收主控方发送的第一比例风险回归模型,比例 风险回归模型包括至少一个解释变量;向主控方提供本地最大生存时间和本地 最小生存时间;接收主控方发送的全局生存时间递增序列;根据全局生存时间 递增序列、第一比例风险回归模型和本地医学数据中解释变量的样本值,进行 生存分析得到与全局生存时间递增序列对应的本地生存分析中间结果;向主控 方提供本地生存分析中间结果。
根据本申请实施例一实施方式,在向主控方提供本地最大生存时间和本地 最小生存时间之前,该方法还包括:对本地最大生存时间和本地最小生存时间 进行加密得到加密后的本地最大生存时间和加密后的本地最小生存时间;相应 地,向主控方提供本地最大生存时间和本地最小生存时间,包括:向主控方提 供加密后的本地最大生存时间和加密后的本地最小生存时间。
根据本申请实施例一实施方式,在向主控方提供本地生存分析中间结果之 前,该方法还包括:对本地生存分析中间结果进行加密得到加密后的本地生存 分析中间结果;相应地,向主控方提供本地生存分析中间结果,包括:向主控 方提供加密后的本地生存分析中间结果。
根据本申请实施例一实施方式,该方法还包括:向主控方提供本地医学数 据中解释变量的参考值,以供主控方计算全局解释变量参考值;根据主控方提 供的全局解释变量参考值对本地医学数据中解释变量的样本值进行标准化。
根据本申请实施例一实施方式,标准化为z-score标准化,相应地,根据主 控方提供的全局解释变量参考值对本地医学数据中解释变量的样本值进行标准 化,包括:根据主控方发送的全局解释变量平均值计算本地解释变量样本方差; 向主控方提供本地解释变量样本方差;根据主控方发送的全局解释变量标准差 对本地医学数据中解释变量的样本值进行z-score标准化。
根据本申请实施例一实施方式,标准化为最大最小标准化,相应地,根据 主控方提供的全局解释变量参考值对本地医学数据中解释变量的样本值进行标 准化,包括:根据主控方发送的全局解释变量最大值和全局解释变量最小值对 本地医学数据中解释变量的样本值进行最大最小标准化。
根据本申请实施例第三方面,还提供了一种比例风险回归模型训练方法, 其特征在于,该方法包括:主控方将第一比例风险回归模型发送至各数据提供 方,比例风险回归模型包括至少一个解释变量;各数据提供方向主控方提供本 地最大生存时间、本地最小生存时间、地样本个数和本地样本的解释变量值的 和;主控方根据各数据提供方提供的本地最大生存时间和本地最小生存时间确 定全局生存时间递增序列,将全局生存时间递增序列发送至各数据提供方;各 数据提供方根据主控方发送的全局生存时间递增序列、第一比例风险回归模型 和本地医学数据中解释变量的样本值,进行生存分析得到与全局生存时间递增 序列对应的本地生存分析中间结果,向主控方提供本地生存分析中间结果;所 主控方根据各数据提供方提供的本地生存分析中间结果进行多方安全计算得到 全局生存分析中间结果,根据全局生存分析中间结果对第一比例风险回归模型 中参数进行更新,以确定第二比例风险回归模型。
根据本申请实施例第四方面,还提供了一种比例风险回归模型训练装置, 应用于主控放,该装置包括:模型分发模块,用于将第一例风险回归模型发送 至各数据提供方,比例风险回归模型的模型参数包括至少一个解释变量;全局 生存时间递增序列确定模块,用于根据各数据提供方提供的本地最大生存时间 和本地最小生存时间确定全局生存时间递增序列;全局生存时间递增序列下发 模块,用于将全局生存时间递增序列发送至各数据提供方,以供各数据提供方 根据全局生存时间递增序列、第一比例风险回归模型和本地医学数据中解释变 量的样本值,进行生存分析得到与全局生存时间递增序列对应的本地生存分析 中间结果;全局生存分析中间结果计算模块,用于根据各数据提供方提供的本 地生存分析中间结果进行多方安全计算得到全局生存分析中间结果;模型更新 模块,用于根据全局生存分析中间结果对第一比例风险回归模型进行更新,以 确定第二比例风险回归模型。
根据本申请实施例第五方面,还提供了一种比例风险回归模型训练装置, 应用于数据提供方,该装置包括:模型接收模块,用于接收主控方发送的第一 比例风险回归模型,比例风险回归模型包括至少一个解释变量;本地生存时间 提供模块,用于向主控方提供本地最大生存时间和本地最小生存时间;全局生 存数据接收模块,用于接收主控方发送的全局生存时间递增序列;本地生存分 析模块,用于根据全局生存时间递增序列、第一比例风险回归模型和本地医学 数据中解释变量的样本值,进行生存分析得到与全局生存时间递增序列对应的 本地生存分析中间结果;生存分析中间结果提供模块,用于向主控方提供本地 生存分析中间结果。
根据本申请实施例第六方面,又提供了一种计算机可读存储介质,存储介 质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的比例风 险回归模型训练方法。
本申请实施例提供了一种比例风险回归模型训练方法,该方法利用联邦学 习方法,基于多方医学数据对分布式比例风险回归模型进行训练,具体地,在 训练过程中:首先,根据各数据提供方提供的最大生存时间和最小生存时间确 定全局生存时间递增序列;然后,由各数据提供方以该全局生存时间递增序列 作为扩展后的时间维度,生成与全局生存时间递增序列中的生存时间对应的生 存分析中间结果;之后,再根据各数据提供方提供的生存分析中间结果进行多 方安全计算确定全局的生存分析中间结果。
由于在联邦学习的过程中,各数据提供方仅需要提供的最大生存时间和最 小生存时间而无需暴露其全部的生存时间,可更进一步保护各数据提供方私有 数据的私密性;而且,使用全局生存时间递增序列作为扩展后的时间维度,使 得各数据提供方均可在相同的时间维度上进行中间结果的计算,而无需进行多 次通讯,大大节约了通讯带宽,减少了计算次数,进一步缩短了响应时间。
需要理解的是,本申请实施例的教导并不需要实现上面的全部有益效果, 而是特定的技术方案可以实现特定的技术效果,并且本申请实施例的其他实施 方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本申请实施例示例性实施方式的上述 以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性 的方式示出了本申请实施例的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本申请实施例比例风险回归模型训练方法的系统结构及应用场 景示意图;
图2示出了本申请一实施例比例风险回归模型训练方法在主控方的实现流 程示意图;
图3示出了本申请一实施例比例风险回归模型训练方法在数据提供方的实 现流程示意图;
图4示出了本申请另一实施例比例风险回归模型训练方法在主控方和数据 提供方的交互流程示意图;
图5示出了本申请一实施例比例风险回归模型训练装置在主控方的组成结 构示意图;
图6示出了本申请一实施例比例风险回归模型训练装置在数据提供方的组 成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请实施例的原理和精神。应当 理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现 本申请实施例,而并非以任何方式限制本申请实施例的范围。相反,提供这些 实施方式是为使本申请实施例更加透彻和完整,并能够将本申请实施例的范围 完整地传达给本领域的技术人员。
在以下实施例的说明中:
联邦学习,指在建立一个基于分布式数据的联合学习模型,在模型训练过 程中,模型的相关信息能够在各方之间交换,而原始数据不直接参与交换,该 过程能够有效地保护用户或数据隐私。
横向联邦学习,也称为按样本划分的联邦学习,参与方的数据集含有相同 的特征空间和不同的样本空间。
纵向联邦学习,也称为按特征划分的联邦学习,各个参与方包含相同的样 本空间、不同的特征空间。
生存分析,指对一个或多个非负随机变量进行统计推断,研究生存现象和 响应时间及其统计的规律;既考虑结果又考虑生存时间的一种统计方法,并能 够充分利用截尾数据提供的不完全信息,对影响生存时间的主要因素进行分 析。
起始事件,指反应生存时间起始特征的事件。
失效事件,指在生存分析随访过程中,一部分研究对象可观察到死亡,可 以得到准确的生存时间,这种事件称为失效事件,也称之为死亡事件、终点事 件。
生存时间,指某个起点事件开始到终点事件发生所经历的时间。
解释变量,又称自变量、说明变量,按照一定的规律对模型中的因变量产 生作用。
结果变量,指由于解释变量变动而直接引起变动的量。
半参数模型,模型中同时包含参数部分和非参数部分。
比例风险回归模型,是一种半参数回归模型,可以用来描述不随时间变化 的多个特征对于在某一时刻死亡率的影响,常用于生存分析中。
z-score标准化,数据标准化之后符合标准正态分布,即均值为0,标准差 为1。
最大最小标准化,利用数据列中的最大值和最小值进行标准化处理,标准 化后的数值介于【0,1】之间,计算方式为数据与该列的最小值作差,再除以极 差。
梯度,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数 在该点处沿着该方向变化最快,变化率最大。
海森矩阵,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部 曲率。
下面结合附图和具体实施例对本申请实施例的技术方案进一步详细阐述。
图1示出了应用本申请实施例比例风险回归模型训练方法的一种分布式比 例风险回归模型训练系统。
在本申请实施例中,分布式比例风险回归模型是一种横向联邦的比例风险 回归模型,该模型使用至少一个解释变量,例如,患者自身基因、用药情况和 治疗手段等,作为模型参数。接收的输入主要有带有解释变量数值的患者数据, 输出的结果为是否发生了起始事件和失效事件,以及该患者的生存时间。
分布式比例风险回归模型的训练系统也是分布式的,包括一个主控方101 和多个数据提供方(例如,数据提供方102和数据提供方103等,为节约篇幅, 图中仅示出两个数据提供方,但在实际在应用中,数据提供方通常指两个及以 上的数据提供方)。
其中,主控方101主要负责协调各数据提供方进行联邦学习,以实现对比 例风险回归模型1011的分布式模型训练。各数据提供方,例如,数据提供方 102,不会向主控方101或其他数据提供方(例如,数据提供方103)直接发送 医学数据,而是从主控发101下载比例风险回归模型1011得到本地比例风险回 归模型1021,将本地医学数据1022输入到本地比例风险回归模型1021中得到 本地生存时间;之后,数据提供方会针对本地生存时间进行统计和计算得到本 地生存分析中间结果,例如,死亡个体数,死亡个体对应的解释变量之和、风 险个体对应的解释变量的和等;然后,将本地生存分析中间结果发给主控发 101,再由主控方101根据各数据提供方提供的本地生存分析中间结果进行多方 安全计算,最终得到全局生存分析中间结果;随后,主控方101就可以根据全 局生存分析中间结果,计算模型损失函数相对于各解释变量的梯度和海森矩阵, 再采用牛顿法对模型参数进行更新,并将调整后的比例风险回归模型1011及其 模型参数下发各数据提供方;各数据提供方再据此更新的比例风险回归模型进 行下一次模型训练。如此,进行多次迭代直至比例风险回归模型1011收敛,以 达到较高的模型精度或实现较好的模型效果。
在实际应用中,除了上述模型优化方法,还可以使用其他任意适用的优化 方法,例如,梯度下降法、拟牛顿法或共轭梯度法等。
图2示出了在上述应用本申请比例风险回归模型训练方法进行分布式生存 模型训练时,主控方101所执行的操作。
参考图2,本申请比例风险回归模型训练方法,在主控方101所执行的操 作主要包括:操作210,将第一比例风险回归模型发送至各数据提供方,比例 风险回归模型包括至少一个解释变量;操作220,根据各数据提供方提供的本 地最大生存时间和本地最小生存时间确定全局生存时间递增序列;操作230, 将全局生存时间递增序列发送至各数据提供方,以供各数据提供方根据全局生 存时间递增序列、第一比例风险回归模型和本地医学数据中解释变量的样本值, 进行生存分析得到与全局生存时间递增序列对应的本地生存分析中间结果;操 作240,根据各数据提供方提供的本地生存分析中间结果进行多方安全计算得 到全局生存分析中间结果;操作250,根据全局生存分析中间结果对终端第一 比例风险回归模型进行更新,以确定第二比例风险回归模型。
在本实施例中,比例风险回归模型使用的是分布式的COX回归模型,在 实际应用中,实施者还可以根据实施情况使用其他任何适用的比例风险回归模 型,例如,Weibull回归模型、对数logistic回归模型、Gamma模型等。
在操作210中,第一比例分析回归模型是待分发给各数据提供方进行本轮 分布式训练的初始模型。
解释变量为不随时间变化的、会对生存时间产生影响的各种因素。例如, 对于患者生存期模型来说,患者自身基因、用药情况和治疗手段等都是影响患 者生存期的主要因素,可以作为患者生存期模型输出(患者生存时间)的解释 变量,这些变量的值通常是代表影响程度的比例值。
将至少一个解释变量设置为比例风险回归模型的模型参数,并在对比例风 险回归模型进行初始化时,根据专家经验或领域知识赋予一些初始值,随后通 过联邦学习对比例风险回归模型的分布式训练,可以不断调整解释变量的值, 使比例风险回归模型持续收敛。当比例风险回归模型收敛后,这些解释变量就 可以作为研究生存时间影响因素及其影响程度的依据。在操作220中,生存时 间是进行生存分析所设置的一段时间长度,例如,1年、3年或5年等等。每一 方数据提供方,根据不同需要可能会设置不同的生存时间进行生存分析。
例如,数据提供方102主要研究1年、3年和5年的生存率,所以将生存 时间设置为1、3和5(年);而数据提供方103主要研究2年、4年和6年的生 存率,所以将生存时间设置为2、4或6(年)。
在进行联邦学习时,通常是对生存时间相同的数据进行统计和多方计算。 为此,需要获取一个可以适用于所有数据提供方的时间维度,即该时间维度上 的生存时间节点可以覆盖所有数据提供方本地医学数据所对应的生存时间,例 如,对于数据提供方102和数据提供方103来说,该时间维度至少要包含1、2、 3、4、5和6(年)的生存时间节点,以便各数据提供方在相同的生存时间节点 上进行统计或多方安全计算。
在现有的联邦学习方案中,为了获取该的时间维度,至少需要主控节点和 每一提供方进行通信以获取可以适用于所有数据提供方的时间维度;有时还需 要数据提供方之间进行多轮通信以获取其他数据提供方的生存节点,以及与某 一生存时间节点对应的统计数值等。如此,一方面,数据提供方所适用的生存 期不得不暴露给主控方或其他数据提供方,造成了安全隐患;另一方面,由于 需要频繁往往需要主控方和多个数据提供方之间进行频繁的数据交换和多方安 全计算,就会造成耗时长,响应慢,计算资源占用等技术问题。
为此,本申请比例风险回归模型训练方法,摒弃了上述方法,而仅根据各 数据提供方提供的本地最大生存时间和本地最小生存时间,即可确定全局生存 时间递增序列。
如此,数据提供方102仅需要向主控方101提供本地最大生存时间“5年” 和本地最小生存时间“1年”;数据提供方102仅需要向主控方101提供本地最 大生存时间“6年”和本地最小生存时间“2年”;主控方101在收到上述本地 最大生存时间和本地最小生存时间来确定全局最大生存时间“6年”和本地最 小生存时间“1年”;之后,以“1年”为步长,就可以确定如下以年为单位的 全局生存时间递增序列:{1,2,3,4,5,6}。
此外,除了采用“1年”为步长,也可以根据某些时间点的分布规律推测 全局生存时间递增序列。假设,某些出现故障的时间点是符合某一分布函数F (min,max),则可以根据该函数来推测全局生存时间递增序列。
如此,各数据提供方仅需通过暴露本地最大、最小生存时间,而无需暴露 本地的全部生存时间;主控方101即可根据上述本地最大、最小生存时间,仅 需1轮通讯就可以确定上述全局生存时间递增序列作为统一的时间维度。大大 减少了各数据提供方暴露数据的风险,减少了通讯次数。
在操作230中,主控方101将该全局生存时间递增序列发送至各数据提供 方,则各数据提供方即可根据该全局生存时间递增序列、第一比例风险回归模 型和本地数据中解释变量的样本值,进行生存分析得到与全局生存时间递增序 列对应的本地生存分析中间结果。
其中,生存分析中间结果主要指用于计算最终生存结果的中间结果,例如, 对于计算患者生存率的生存分析系统来说,如死亡个体数,死亡个体对应的解 释变量之和、风险个体对应的解释变量的和等,都是计算患者生存率所需的生 存分析中间结果。
生存分析中间结果通常包括两部分,一部分是由本地医学数据计算得到的 统计值,例如,风险个体对应的解释变量的和;另一部分是将本地医学数据输 入到本地比例风险回归模型得到的输出结果。
得到本地生存分析中间结果之后,个数据提供方仅需将本地生存分析中间 结果,填入到全局生存时间递增序列中本地生存时间对应的数据集中。
如此,就无需再为了确定其他数据提供方所设置的生存时间而得不与其他 数据提供方之间再进行通讯,更无需将本地生存时间对应本地生存分析中间结 果发送给生存时间设置相同的其他数据提供方。
而通过操作240,主控方101收集到数据提供方102和数据提供方103提 供的、与全局生存时间递增序列对应的本地生存分析中间结果,即可以全局生 存时间递增序列中的生存时间节点作为统一的时间维度,分别进行多方安全计 算,即可得到全局生存分析中间结果。
在操作250中,根据全局生存分析中间结果对第一比例风险回归模型进行 更新和优化,主要指根据全局生存分析中间结果计算模型损失函数,并根据模 型损失函数的值对模型参数进行调整和更新以使模型损失函数值持续收敛,达 到预期的模型精度。
其中,第二比例风险回归模型是训练后得到的精度更高的模型,其使用的 预测方法和预测目标与第一比例风险回归模型相同,但经过训练后模型参数发 生变化,在预测过程中所使用的一些参数会相应改变,因此得到的结果也与第 一比例风险回归模型得到的结果不同,比第一比例风险回归模型得到的结果更 准确。
经过上述描述不难看出,由于在联邦学习的过程中,各数据提供方仅需要 提供的最大生存时间和最小生存时间而无需暴露其全部的生存时间,可更进一 步保护各数据提供方私有数据的私密性;而且,使用全局生存时间递增序列作 为扩展后的时间维度,使得各数据提供方均可在相同的时间维度上进行中间结 果的计算,而无需进行多次通讯,大大节约了通讯带宽,减少了计算次数,进 一步缩短了响应时间。
图3示出了示出了在上述应用本申请比例风险回归模型训练方法进行分布 式生存模型训练时,数据提供方101或数据提供方103所执行的操作。
参考图3,本申请比例风险回归模型训练方法,在数据提供方101或数据 提供方103所执行的操作主要包括:操作310,接收主控方发送的第一比例风 险回归模型,比例风险回归模型包括至少一个解释变量;操作320,向主控方 提供本地最大生存时间和本地最小生存时间;操作330,接收主控方发送的全 局生存时间递增序列;操作340,根据全局生存时间递增序列、第一比例风险 回归模型和本地医学数据中解释变量的样本值,进行生存分析得到与全局生存 时间递增序列对应的本地生存分析中间结果;操作350,向主控方提供本地生 存分析中间结果。
以数据提供方102为例:
在操作310中,数据提供方102会接收主控方101发送的比例风险回归模 型1011得到本地比例风险回归模型1021。需要说明的是,本地比例风险回归 模型1021与主控方101发送的比例风险回归模型1011(第一比例风险回归模 型)是完全相同的且仅供本次训练使用,在下次训练开始时又会从主控方101 再次获取更新后的比例风险回归模型1011。
在操作320中,本地最大生存时间和本地最小生存时间是数据提供方主要 研究的生存时间中的最大值和最小值。例如,数据提供方102主要研究1年、3 年和5年的生存率,所以将生存时间设置为1、3和5(年),则其中1年为本 地最小生存时间,5年为的本地最大生存时间。
向主控方101提供本地最大生存时间和本地最小生存时间,主要用于获取 全局生存时间递增序列。
在本申请比例风险回归模型训练方法中,数据提供方102并不需要提供本 地的全部生存时间,仅需要向主控方101提供本地最大生存时间“5年”和本 地最小生存时间“1年”,大大减少了暴露数据的风险。
在操作330中,接收到的全局生存时间递增序列就是主控方101根据各数 据提供方提供的本地最大生存时间和本地最小生存时间确定的。如此,数据提 供方102就无需再和其它数据提供方,例如数据提供方103,进行通讯了,大 大减少了与其它数据提供方通讯的次数。
随后,数据提供方10就可通过操作340,使用本地比例风险回归模型1021 进行计算,得到与全局生存时间递增序列对应的本地生存分析中间结果,并将 本地生存分析中间结果发送给主控方101,主控方101即可根据各数据提供方 提供的本地生存分析中间结果计算得到全局生存分析中间结果。
需要说明的是图2和图3所示的实施例仅为本申请比例风险回归模型训练 方法最基本的一个实施例,实施者还可在其基础上进行进一步细化和扩展。
图4示出了本申请比例风险回归模型训练方法的另一个实施例,该实施例 在图2和图3所示的实施例的基础上,还对各数据提供方对本地医学数据进行 标准化的过程进行了优化;并对各数据提供方发送至主控方的数据增加了加解 密的操作。
具体的,在图4所示的另一实施例中,在主控方和数据提供方所执行的操 作及其之间的交互主要包括:
操作4010,主控方将初始化或更新后的第一比例风险回归模型及模型参数 发送至各数据提供方,比例风险回归模型的模型参数包括至少一个解释变量;
操作4020,各数据提供方向主控方提供本地最大生存时间、本地最小生存 时间、地样本个数和本地样本的解释变量值的和,其中,发送的各数据均为加 密后的值;
操作4030,主控方对接收到的数据进行解密,根据各数据提供方提供本地 最大生存时间和本地最小生存时间确定全局生存时间递增序列,根据各数据提 供方提供的本地样本个数和本地样本的解释变量值的和,计算得到全局解释变 量平均值;
关于确定全局生存时间递增序列,请参照前述实施例操作220的描述,在 此不再赘述。
举例说明主控方如何计算得到全局解释变量平均值。假设数据提供方A的 本地样本解释变量(例如,患者年龄)的医学数据为:【50,20,70】,样本数 目为4,样本值总和为140;数据提供方A的同一本地样本解释变量的医学数 据为:【40,40,60,80】,样本数目为4,样本值总和为210。
此时,根据各数据提供方提供的本地样本个数和本地样本的解释变量值的 和,计算得到全局解释变量平均值的具体方法包括:
1)分别获取数据提供方A和B的样本数目和解释变量值总和进行安全 求和得到全局样本数目7和全局解释变量值总和45 0;
2)用全局解释变量值总和450除以全局样本数目7得到全局解释变量平 均值50。
操作4040,主控方将全局解释变量平均值发送至各数据提供方,以供各数 据提供方计算本地解释变量样本方差;
操作4050,各数据提供方根据主控方提供的全局解释变量平均值计算本地 解释变量样本方差;
其中,本地解释变量样本;为全局解释变量平均值;n为本地解释变量样 本数;为本地解释变量样本方差。
操作4060,各数据提供方向主控方提供本地解释变量样本方差,其中,各 数据提供方提供的本地解释变量样本方差为加密后的值;
操作4070,主控方对接收到的数据进行解密,根据各数据提供方提供的本 地解释变量样本方差进行多方安全计算得到全局解释变量样本方差和全局解释 变量标准差;
操作4080,主控方将全局解释变量标准差和全局生存时间递增序列返回给 各数据提供方;
操作4090,各数据提供方对本地医学数据中解释变量的样本值进行z-score 标准化,根据全局生存时间递增序列、第一比例风险回归模型和标准化后的本 地医学数据中解释变量的样本值,进行生存分析得到与全局生存时间递增序列 对应的本地生存分析中间结果;
举例说明,各数据提供方得到全局解释变量标准差si后,进行如下计算即 可对本地医学数据中结合变量地样本中进行标准化:
1)求出本地医学数据中解释变量的样本值xi;
2)使用如下公式进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3)将逆指标前的正负号对调。
z-score准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于 0说明低于平均水平。
操作4100,各数据提供方向主控方提供本地生存分析中间结果,其中,各 数据提供方的本地生存分析中间结果为加密后的值;
其中,加密方法可以使用任何适用的加密方法,例如,满足加法同态的加 密方法。满足加法同态的加密方法主要指满足f(A)+f(B)=f(A+B)的加密方法, 例如,Paillier算法、Gentry算法等。
操作4110,主控方根据各数据提供方提供的各数据进行解密,根据各数据 提供方提供的本地生存分析中间结果进行多方安全计算得到全局生存分析中间 结果,根据全局生存分析中间结果对第一比例风险回归模型进行更新,以确定 第二比例风险回归模型。
在本实施例中,通过操作440至操作460,主控方101可以协同数据提供 方102和数据提供方104通过本地样本个数和本地样本的解释变量值的和获取 全局解释变量平均值;通过本地解释变量样本方差获取全局解释变量标准差; 然后再使用全局解释变量平均值和全局解释变量标准差对本地医学数据中解释 变量的样本值进行z-score标准化。
如此,在进行本地医学数据样本的标准化的过程中,数据提供方仅需提供 本地样本个数、本地样本的解释变量值的和以及本地解释变量样本方差即可对 本地医学数据中解释变量的样本值进行z-score标准化。而无需暴露原始的医学 数据或统计值。
其次,由于对各数据提供方发送至主控方的数据,例如,最大生存时间、 全局最小生存时间、本地样本个数、本地样本的解释变量值和生存分析结果增 加了加解密的操作,还进一步减低了数据暴露的风险。
此外,除了z-score标准化方法之外,还可以使用如下步骤进行最大最小标 准化:
根据各数据提供方提供的本地解释变量最大值和本地解释变量最小值,计 算得到全局解释变量最大值和全局解释变量最小值;
将全局解释变量最大值和全局解释变量最小值发送至各数据提供方,以供 各数据提供方对本地医学数据中解释变量的样本值进行最大最小标准化。
上述替代方案,均可取到类似的技术效果,实施者可根据具体实施需求和 实施条件灵活确定。
基于同一发明思想,基于上文比例风险回归模型训练方法,本申请实施例 还提供一种数据的比例风险回归模型训练装置,应用于主控方,如图5所示, 该设备50包括:模型分发模块501,用于将第一比例风险回归模型及模型参数 发送至各数据提供方,比例风险回归模型的模型参数包括至少一个解释变量; 全局生存时间递增序列确定模块502,用于根据各数据提供方提供的本地最大 生存时间和本地最小生存时间确定全局生存时间递增序列;全局生存时间递增 序列下发模块503,用于将全局生存时间递增序列发送至各数据提供方,以供 各数据提供方根据全局生存时间递增序列、第一比例风险回归模型和本地医学 数据中解释变量的样本值,进行生存分析得到与全局生存时间递增序列对应的 本地生存分析中间结果;全局生存分析中间结果计算模块505,用于根据各数 据提供方提供的本地生存分析中间结果进行多方安全计算得到全局生存分析中 间结果;模型更新模块505,用于根据全局生存分析中间结果对第一比例风险 回归模型进行更新,以确定第二比例风险回归模型。
根据本申请实施例一实施方式,全局生存时间递增序列确定模块502包括: 全局最大生存时间和全局最小生存时间确定子模块,用于根据各数据提供方提 供的本地最大生存时间和本地最小生存时间确定全局最大生存时间和全局最小 生存时间;全局生存时间递增序列确定子模块,用于根据生存时间步长、全局 最大生存时间和全局最小生存时间确定全局生存时间递增序列。
根据本申请实施例一实施方式,模型更新模块505包括:模型损失函数梯 度计算子模块,用于根据全局生存分析中间结果计算模型损失函数相对于各解 释变量的梯度;参数更新子模块,用于根据终端梯度对第一比例风险回归模型 中参数进行更新,以使终端模型损失函数值持续收敛。
根据本申请实施例一实施方式,生存分析中间结果为加密方法进行加密后 的值,相应地,全局生存分析中间结果计算模块505包括:第一解密子模块, 用于对各数据提供方提供的本地生存分析中间结果进行解密得到解密后的本地 生存分析中间结果;全局生存分析中间结果计算子模块,用于根据解密后的本 地生存分析中间结果进行多方安全计算得到全局生存分析中间结果。
根据本申请实施例一实施方式,该装置50还包括:全局解释变量参考值计 算模块,用于根据各数据提供方提供的本地解释变量参考值,进行多方安全计 算得到全局解释变量参考值;全局解释变量参考值发送模块,用于将全局解释 变量参考值发送至各数据提供方,以供各数据提供方对本地医学数据中解释变 量的样本值进行标准化。
根据本申请实施例一实施方式,本地解释变量参考值为加密后的值,相应 地,全局解释变量参考值计算子模块包括:第二解密单元,用于对各数据提供 方提供的本地解释变量参考值进行解密得到解密后的本地解释变量参考值;全 局解释变量参考值计算单元,用于根据解密后的本地解释变量参考值进行多方 安全计算得到全局解释变量参考值。
根据本申请实施例一实施方式,标准化为z-score标准化,相应地,全局解 释变量参考值计算子模块包括:全局解释变量平均值计算单元,用于根据各数 据提供方提供的本地样本个数和本地样本的解释变量值的和,计算得到全局解 释变量平均值;全局解释变量平均值发送单元,用于将全局解释变量平均值发 送至各数据提供方,以供各数据提供方计算本地解释变量样本方差;全局解释 变量标准差计算单元,用于根据各数据提供方提供的本地解释变量样本方差进 行多方安全计算得到全局解释变量样本方差和全局解释变量标准差;相应地, 全局解释变量参考值发送模块,具体用于将全局解释变量标准差返回给各数据 提供方,以供各数据提供方对本地医学数据中解释变量的样本值进行z-score标 准化。
根据本申请实施例一实施方式,标准化为最大最小标准化,相应地,全局 解释变量参考值计算子模块,具体用于根据各数据提供方提供的本地解释变量 最大值和本地解释变量最小值,计算得到全局解释变量最大值和全局解释变量 最小值;相应地,全局解释变量参考值发送模块,具体用于将全局解释变量最 大值和全局解释变量最小值发送至各数据提供方,以供各数据提供方对本地医 学数据中解释变量的样本值进行最大最小标准化。
本申请实施例还提供一种数据的比例风险回归模型训练装置,应用于数据 提供方,如图6所示,该设备60包括:模型接收模块601,用于接收主控方发 送的第一比例风险回归模型,比例风险回归模型包括至少一个解释变量;本地 生存时间提供模块602,用于向主控方提供本地最大生存时间和本地最小生存 时间;全局生存数据接收模块603,用于接收主控方发送的全局生存时间递增 序列;本地生存分析模块604,用于根据全局生存时间递增序列、第一比例风 险回归模型和本地医学数据中解释变量的样本值,进行生存分析得到与全局生 存时间递增序列对应的本地生存分析中间结果;生存分析中间结果提供模块605,用于向主控方提供本地生存分析中间结果。
根据本申请实施例一实施方式,该装置60还包括:加密模块,用于对本地 最大生存时间和本地最小生存时间进行加密得到加密后的本地最大生存时间和 加密后的本地最小生存时间;相应地,本地生存时间提供模块602具体用于向 主控方提供加密后的本地最大生存时间和加密后的本地最小生存时间。
根据本申请实施例一实施方式,加密模块还用于对本地生存分析中间结果 进行加密得到加密后的本地生存分析中间结果;相应地,本地生存分析中间结 果提供模块605具体用于向主控方提供加密后的本地生存分析中间结果。
根据本申请实施例一实施方式,该装置60还包括:本地医学数据中解释变 量的参考值提供模块,用于向主控方提供本地医学数据中解释变量的参考值, 以供主控方计算全局解释变量参考值;样本值标准化模块,用于根据主控方提 供的全局解释变量参考值对本地医学数据中解释变量的样本值进行标准化。
根据本申请实施例一实施方式,标准化为z-score标准化,相应地,样本值 标准化模块包括:样本方差计算子模块,用于根据主控方发送的全局解释变量 平均值计算本地解释变量样本方差;变量样本方差发送子模块,用于向主控方 提供本地解释变量样本方差;z-score标准化子模块,用于根据主控方发送的全 局解释变量标准差对本地医学数据中解释变量的样本值进行z-score标准化。
根据本申请实施例一实施方式,标准化为最大最小标准化,相应地,样本 值标准化模块具体用于根据主控方发送的全局解释变量最大值和全局解释变量 最小值对本地医学数据中解释变量的样本值进行最大最小标准化。
此外,本申请实施例还提供了一种计算机可读存储介质,存储介质包括一 组计算机可执行指令,当指令被执行时用于执行上述任一项的比例风险回归模 型训练方法。
这里需要指出的是:以上对针对比例风险回归模型训练装置实施例、比例 风险回归模型训练系统实施例和计算机可读存储介质实施例的描述,与前述方 法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做 赘述。对于本申请实施例比例风险回归模型训练装置实施例、比例风险回归模 型训练系统实施例和计算机可读存储介质实施例未披露的技术细节,请参照本 申请实施例前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者 装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物 品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可 以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所 述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式, 如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽 略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦 合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可 以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为 单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可 以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来 实现本实施例方案的目的。
另外,在本申请实施例各实施例中的各功能单元可以全部集成在一个处理 单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元 集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用 硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可 以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储 介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介 质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者 光盘等各种可以存储程序代码的介质。
或者,本申请实施例上述集成的单元如果以软件功能模块的形式实现并作 为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基 于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或 者网络设备等)执行本申请实施例各个实施例所述方法的全部或部分。而前述 的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代 码的介质。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范 围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术 范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。 因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种比例风险回归模型训练方法,其特征在于,所述方法包括:
将第一比例风险回归模型发送至各数据提供方,所述比例风险回归模型包括至少一个解释变量;
根据各数据提供方提供的本地最大生存时间和本地最小生存时间确定全局生存时间递增序列;
将所述全局生存时间递增序列发送至各数据提供方,以供各数据提供方根据所述全局生存时间递增序列、所述第一比例风险回归模型和本地医学数据中所述解释变量的样本值,进行生存分析得到与所述全局生存时间递增序列对应的本地生存分析中间结果;
根据各数据提供方提供的本地生存分析中间结果进行多方安全计算得到全局生存分析中间结果;
根据所述全局生存分析中间结果对所述第一比例风险回归模型中参数进行更新,以确定第二比例风险回归模型。
2.根据权利要求1所述的方法,其特征在于,所述根据各数据提供方提供的本地最大生存时间和本地最小生存时间确定全局生存时间递增序列,包括:
根据所述各数据提供方提供的本地最大生存时间和本地最小生存时间确定全局最大生存时间和全局最小生存时间;
根据生存时间步长、所述全局最大生存时间和所述全局最小生存时间确定全局生存时间递增序列。
3.根据权利要求1所述的方法,其特征在于,根据所述全局生存分析中间结果对所述第一比例风险回归模型中参数进行更新,包括:
根据全局生存分析中间结果计算模型损失函数相对于各解释变量的梯度;
根据所述梯度对所述第一比例风险回归模型中参数进行更新,使所述第一比例风险回归模型的损失函数值持续收敛。
4.根据权利要求1所述的方法,其特征在于,所述生存分析中间结果为加密后的值,
相应地,所述根据各数据提供方提供的本地生存分析中间结果进行多方安全计算得到全局生存分析中间结果,包括:
对各数据提供方提供的本地生存分析中间结果进行解密得到解密后的本地生存分析中间结果;
根据所述解密后的本地生存分析中间结果进行多方安全计算得到全局生存分析中间结果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据各数据提供方提供的本地解释变量参考值,进行多方安全计算得到全局解释变量参考值;
将所述全局解释变量参考值发送至各数据提供方,以供各数据提供方对本地医学数据中所述解释变量的样本值进行标准化。
6.根据权利要求5所述的方法,其特征在于,所述本地解释变量参考值为加密后的值,
相应地,根据各数据提供方提供的本地解释变量参考值,进行多方安全计算得到全局解释变量参考值,包括:
对各数据提供方提供的本地解释变量参考值进行解密得到解密后的本地解释变量参考值;
根据所述解密后的本地解释变量参考值进行多方安全计算得到全局解释变量参考值。
7.根据权利要求5所述的方法,其特征在于,所述标准化为z-score标准化,
相应地,所述根据各数据提供方提供的本地解释变量参考值,进行多方安全计算得到全局解释变量参考值,包括:
根据各数据提供方提供的本地样本个数和本地样本的解释变量值的和,计算得到全局解释变量平均值;
将所述全局解释变量平均值发送至各数据提供方,以供各数据提供方计算本地解释变量样本方差;
根据各数据提供方提供的本地解释变量样本方差进行多方安全计算得到全局解释变量样本方差和全局解释变量标准差;
相应地,将所述全局解释变量参考值发送至各数据提供方,以供各数据提供方对本地医学数据中所述解释变量的样本值进行标准化,包括:
将所述全局解释变量标准差返回给各数据提供方,以供各数据提供方对本地医学数据中所述解释变量的样本值进行z-score标准化。
8.根据权利要求5所述的方法,其特征在于,所述标准化为最大最小标准化,
相应地,所述根据各数据提供方提供的本地解释变量参考值,进行多方安全计算得到全局解释变量参考值,包括:
根据各数据提供方提供的本地解释变量最大值和本地解释变量最小值,计算得到全局解释变量最大值和全局解释变量最小值;
相应地,将所述全局解释变量参考值发送至各数据提供方,以供各数据提供方对本地医学数据中所述解释变量的样本值进行标准化,包括:
将所述全局解释变量最大值和全局解释变量最小值发送至各数据提供方,以供各数据提供方对本地医学数据中所述解释变量的样本值进行最大最小标准化。
9.一种比例风险回归模型训练方法,其特征在于,所述方法包括:
接收主控方发送的第一比例风险回归模型,所述比例风险回归模型包括至少一个解释变量;
向所述主控方提供本地最大生存时间和本地最小生存时间;
接收所述主控方发送的全局生存时间递增序列;
根据所述全局生存时间递增序列、所述第一比例风险回归模型和本地医学数据中解释变量的样本值,进行生存分析得到与所述全局生存时间递增序列对应的本地生存分析中间结果;
向所述主控方提供所述本地生存分析中间结果。
10.一种比例风险回归模型训练方法,其特征在于,所述方法包括:
主控方将第一比例风险回归模型发送至各数据提供方,所述比例风险回归模型包括至少一个解释变量;
各数据提供方向所述主控方提供本地最大生存时间、本地最小生存时间、本地样本个数和本地样本的解释变量值的和;
所述主控方根据各数据提供方提供的本地最大生存时间和本地最小生存时间确定全局生存时间递增序列,将所述全局生存时间递增序列发送至各数据提供方;
各数据提供方根据所述主控方发送的所述全局生存时间递增序列、所述第一比例风险回归模型和本地医学数据中解释变量的样本值,进行生存分析得到与所述全局生存时间递增序列对应的本地生存分析中间结果,向所述主控方提供所述本地生存分析中间结果;
所主控方根据各数据提供方提供的本地生存分析中间结果进行多方安全计算得到全局生存分析中间结果,根据所述全局生存分析中间结果对所述第一比例风险回归模型中参数进行更新,以确定第二比例风险回归模型。
11.一种比例风险回归模型训练装置,其特征在于,所述装置包括:
模型分发模块,用于将第一比例风险回归模型发送至各数据提供方,所述比例风险回归模型包括至少一个解释变量;
全局生存时间递增序列确定模块,用于根据各数据提供方提供的本地最大生存时间和本地最小生存时间确定全局生存时间递增序列;
全局生存时间递增序列下发模块,用于将所述全局生存时间递增序列发送至各数据提供方,以供各数据提供方根据所述全局生存时间递增序列、所述第一比例风险回归模型和本地医学数据中所述解释变量的样本值,进行生存分析得到与所述全局生存时间递增序列对应的本地生存分析中间结果;
全局生存分析中间结果计算模块,用于根据各数据提供方提供的本地生存分析中间结果进行多方安全计算得到全局生存分析中间结果;
模型更新模块,用于根据全局生存分析中间结果对所述第一比例风险回归模型进行更新,以确定第二比例风险回归模型。
12.一种比例风险回归模型训练装置,其特征在于,所述装置包括:
模型接收模块,用于接收主控方发送的第一比例风险回归模型,所述比例风险回归模型包括至少一个解释变量;
本地生存时间提供模块,用于向所述主控方提供本地最大生存时间和本地最小生存时间;
全局生存数据接收模块,用于接收所述主控方发送的所述全局生存时间递增序列;
本地生存分析模块,用于根据所述全局生存时间递增序列、所述第一比例风险回归模型和本地医学数据中所述解释变量的样本值,进行生存分析得到与所述全局生存时间递增序列对应的本地生存分析中间结果;
生存分析中间结果提供模块,用于向所述主控方提供所述本地生存分析中间结果。
13.一种比例风险回归模型训练系统,其特征在于,所述系统包括:
主控方,用于执行权利要求1-8中任一项所述的比例风险回归模型训练方法;
至少两个数据提供方,用于执行权利要求9所述的比例风险回归模型训练方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111156675.1A CN114021732B (zh) | 2021-09-30 | 2021-09-30 | 一种比例风险回归模型训练方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111156675.1A CN114021732B (zh) | 2021-09-30 | 2021-09-30 | 一种比例风险回归模型训练方法、装置、系统及存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN114021732A CN114021732A (zh) | 2022-02-08 |
| CN114021732B true CN114021732B (zh) | 2022-07-29 |
Family
ID=80055215
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111156675.1A Active CN114021732B (zh) | 2021-09-30 | 2021-09-30 | 一种比例风险回归模型训练方法、装置、系统及存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114021732B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116523081B (zh) * | 2023-04-07 | 2024-02-13 | 花瓣云科技有限公司 | 数据标准化方法和装置 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111401433A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 用户信息获取方法、装置、电子设备及存储介质 |
| CN112418444A (zh) * | 2020-05-15 | 2021-02-26 | 支付宝(杭州)信息技术有限公司 | 用于联盟学习的方法、装置及联盟学习系统 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20200065713A1 (en) * | 2018-08-24 | 2020-02-27 | Adobe Inc. | Survival Analysis Based Classification Systems for Predicting User Actions |
-
2021
- 2021-09-30 CN CN202111156675.1A patent/CN114021732B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111401433A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 用户信息获取方法、装置、电子设备及存储介质 |
| CN112418444A (zh) * | 2020-05-15 | 2021-02-26 | 支付宝(杭州)信息技术有限公司 | 用于联盟学习的方法、装置及联盟学习系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114021732A (zh) | 2022-02-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11902413B2 (en) | Secure machine learning analytics using homomorphic encryption | |
| CN110929886B (zh) | 模型训练、预测方法及其系统 | |
| EP3903247B1 (en) | Method, apparatus and system for secure vertical federated learning | |
| CN110990871B (zh) | 基于人工智能的机器学习模型训练方法、预测方法及装置 | |
| CN110189192B (zh) | 一种信息推荐模型的生成方法及装置 | |
| AU2019448601B2 (en) | Privacy preserving oracle | |
| CN112347500A (zh) | 分布式系统的机器学习方法、装置、系统、设备及存储介质 | |
| CN109685536B (zh) | 用于输出信息的方法和装置 | |
| CN114696990A (zh) | 基于全同态加密的多方计算方法、系统及相关设备 | |
| CN110245514B (zh) | 一种基于区块链的分布式计算方法及系统 | |
| CN111079153B (zh) | 安全建模方法、装置、电子设备及存储介质 | |
| CN114881247A (zh) | 基于隐私计算的纵向联邦特征衍生方法、装置、介质 | |
| CN114021732B (zh) | 一种比例风险回归模型训练方法、装置、系统及存储介质 | |
| CN113935050A (zh) | 基于联邦学习的特征提取方法和装置、电子设备、介质 | |
| CN113989036B (zh) | 一种不暴露入模变量的联邦学习预测方法及系统 | |
| US20250068658A1 (en) | Synthetic generation of data with many to many relationships | |
| Mansourvar et al. | An additive–multiplicative restricted mean residual life model | |
| CN116579020B (zh) | 基于隐私保护的校园风险预测方法、装置、设备及介质 | |
| WO2019171119A1 (en) | Device for predicting body weight of a person and device and method for health management | |
| EP4296897B1 (en) | Machine learning device, machine learning system, machine learning method, and machine learning program | |
| WO2022238948A1 (en) | Method and system for transforming personally identifiable information | |
| JP2022122660A (ja) | 秘匿演算方法、秘匿演算システム及び秘匿演算管理装置 | |
| CN114003951A (zh) | 信用评分方法、装置以及计算机可读存储介质 | |
| US20230394303A1 (en) | Machine learning system, client terminal, aggregated server device and method | |
| CN118364503B (zh) | 农业科研模型训练方法、装置、电子设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |