APP下载

基于联邦学习的多囊卵巢综合征预测平台的构建

2023-08-26孙烨任健田琪袁梦琪徐岩

青岛大学学报(医学版) 2023年3期
关键词:多囊卵巢综合征预测

孙烨 任健 田琪 袁梦琪 徐岩

[摘要]多囊卵巢综合征是临床常见的内分泌系统疾病,其发病机制至今尚未明确,但已知与遗传、环境等因素相关。本文根据预防为主、防治结合的诊疗思路,采用联邦学习技术融合多种算法构建平台,通过信息数据采集及管理、预测模型建立、实施风险评估和健康指导3个基本环节,在保证女性医疗隐私数据安全的前提下,以期实现对女性健康状态的连续追踪、反馈和疾病的精准预防、高效治疗。

[关键词]多囊卵巢综合征;联邦学习;预测

[中图分类号]R711.75[文献标志码]A[文章编号]2096-5532(2023)03-0458-04

doi:10.11712/jms.2096-5532.2023.59.083[开放科学(资源服务)标识码(OSID)]

[网络出版]https://kns.cnki.net/kcms2/detail/37.1517.R.20230726.1033.001.html;2023-07-2616:29:45

CONSTRUCTION OF A PREDICTION PLATFORM FOR POLYCYSTIC OVARY SYNDROME BASED ON FEDERATED LEARNING  SUN Ye, REN Jian, TIAN Qi, YUAN Mengqi, XU Yan (College of Traditional Chinese Medicine, Shandong University of Chinese Medicine,Jinan  250355, China)

[ABSTRACT]Polycystic ovary syndrome is a common endocrine system disease in clinic. Its pathogenesis has not been clarified yet, but it is known to be related to genetic and environmental factors. Based on the diagnosis and treatment idea of prevention first and prevention and treatment combination, this paper integrates various algorithms using the federated learning technology to build a platform. Through three basic links of information data collection and management, prediction model establishment, and implementation of risk assessment and health guidance, continuous tracking and feedback of female health status and accurate prevention and efficient treatment of diseases are expected to be achieved under the premise of ensuring the security of female medical privacy data.

[KEY WORDS]polycystic ovary syndrome; federated learning; forecasting

多囊卵巢综合征(PCOS)是一种育龄期女性高发的代谢紊乱性内分泌疾病,发病率高达5.61%[1],受遗传、环境、生活方式和心理情志等多种因素影响[2] 。临床上主要表现为多毛及痤疮、月经稀发等[3],还可引起高血压、2型糖尿病等并发症以及焦虑、抑郁等精神性疾病[4]。有研究发现,PCOS是一种病因多样、表现极不均一的临床综合征,具有高度异质性与持续进展性[5],且不可治愈,严重危害女性的身心健康和生活质量。2015年美国雄激素学会 (AES) 和PCOS学会联合发布的PCOS诊疗操作指南指出,对于月经初潮后2~3年内的疑似PCOS病人应该进行定期随访[6-7]。有研究结果显示,青春期卵巢功能紊乱是基于月经稀发和(或)不排卵,初潮后2~3年的持续月经稀发可以用于预测青春期PCOS[8]。因此,针对PCOS危险人群的发病危险因素及时采取相应的预防和治疗措施,能够有效预防PCOS的发生。故亟需建立PCOS预测平台,以实现PCOS的精准防控。本文研究采用联邦学习(FL)技术,构建PCOS预测平台。

1PCOS危险因素研究

疾病危险因素是流行病学层面的病因,是指与疾病的发生发展存在因果关系,但无确实证据证明其致病效应的因子[9]。PCOS发病受危险因素的影响,危险因素能增加女性成为PCOS危险人群或PCOS病人的概率,且在一定程度上加大了PCOS的治疗难度。PCOS危险因素可以归纳为人口学特征、相关症状、疾病史、生活方式、心理状态5个方面。人口学特征方面,研究发现肥胖与PCOS的发病具有相关性,体质量指数(BMI)偏高的女性患病率明显升高[10]。此外,初潮年龄、月经情况等与PCOS发病相关,月经初潮时间提前或延迟可能是PCOS的发病危险因素[11];月经周期紊乱也与PCOS的发生密切相关[12]。疾病史方面,PCOS与遗传基因存在关系,表现为发病具有家族聚集现象,家族中有患糖尿病、高血压者,同性亲属不孕的女性PCOS发病率明显增加[13]。生活方式方面,晚睡或睡眠不规律对PCOS的发生也存在一定影响。研究发现,睡眠障碍导致的交感神经活动水平提高和胰岛素敏感性降低均可影響PCOS的发生[14-15]。此外,饮食习惯、运动情况、是否吸烟、饮酒等也可能与PCOS的发病存在关联,但是否为PCOS危险因素仍需进一步研究分析。心理状态方面,长期的焦虑、抑郁等不良情绪也可能是诱发或加重PCOS的因素[16]。

2隐私保护问题与FL的提出

由于互联网、物联网等移动信息技术的迅猛发展,利用医疗健康数据进行疾病预测成为可能,但医疗健康数据敏感程度较强,隐私安全性要求较高。欧盟于2017年出台了《通用数据保护条例》(GDPR)[17]用于保护数据隐私。但2018年腾讯智慧安全情报中心发布的报告显示,我国有7成以上的三级甲等医院所接入的第三方医疗服务平台存在隐私泄露问题[18]。出于医疗数据隐私泄露的担忧和相关数据保护法规的限制,现有医疗数据通常以“孤岛”的形式存储于不同医疗机构及设备无法共享,形成了数据壁垒。如何让数据量有限的医疗机构在数据资源安全共享的同时实现疾病的预测,FL的出现和发展解决了这一难题[19]。作为一种分布式机器学习方法和人工智能技术,FL由Google在2016年最先提出,应用于Gboard输入法系统,实现候选词的预测[20]。与传统的集中式学习相反,在FL过程中,各参与方不交换原始数据,通过交换模型参数实现多个参与方数据蕴含知识的融合和敏感数据的隐私保护[21]。其模型训练效果等同于各方聚合数据所建立的最优模型。LEE等[22]在FL环境中为不同医疗机构的相似病人提供隐私保护,用于预测5种疾病的发病率。BRISIMI等[23]提出通过存储在智能手机和医疗设备的健康数据建立FL模型,分析预测心脏病病人的住院情况。

3基于FL的PCOS预测平台

3.1平台构建预期

针对各医疗机构收集到的PCOS病人、PCOS危险女性、健康人群的医疗数据信息,以FL为依托,融合多种算法深度挖掘处理构建PCOS预测平台,在医疗资源共享和医疗数据不出本地以保证数据安全的前提下,实现PCOS的高危因素定位和发病风险预判,为PCOS危险女性、PCOS病人提供智能预测、辅助诊断、高效防治、随访跟踪和个性化健康指导,以改善女性健康状况,促进PCOS医疗服务体系的進一步完善。

3.2平台功能架构

本平台可分为医疗机构用户端与总服务端两部分,其中用户端由社区医院、二级及三级医院等医疗机构组成,总服务端由具备一定计算和存储能力的云端服务器构成,由本平台设计研发人员操作运行。平台构建的要点在于信息数据采集及管理、FL预测模型建立、实施风险评估和健康指导3个基本环节。

3.2.1信息数据采集及管理本平台中各用户端采用医疗站点式、远程控制式等调查方式,应用纸质或电子调查问卷、手机App、可穿戴式智能设备等,对PCOS病人、健康女性进行信息数据采集。采集信息的内容包括人口学资料、初潮年龄、月经周期、经量、体质量指数(BMI)、毛发分布情况、痤疮情况、个人病史、家族病史、居住环境、饮食习惯、生活方式、心理状态等已知的PCOS发病高危因素,以及可能与PCOS发病相关、需要进一步研究分析是否属于PCOS高危因素的信息。见表1。考虑到单个数据库集中存储数据规模较大、存在计算延迟的可能和单点攻击数据泄露风险的问题,每个医疗机构作为一个用户端,将采集到的女性信息汇总储存在本地形成数据集,在进行数据集成、数据清洗等预处理后,为FL模型的训练做好准备。

3.2.2FL预测模型的建立数据预处理完成后流程进入本地模型训练阶段。用于概率预测的自然梯度提升机(NGBoost)[24]是通过级联多个回归树模型来产生最终预测模型的一种机器学习技术,它可以在得到预测值的同时获得置信区间,即显示“预测分布”及实值预测和概率预测的区别。见图1A、B。与其他机器学习算法相比,NGBoost拥有更高的预测准确率,并且在小样本集上有着同样优秀的性能。因此,利用NGBoost算法对数据集进行特征大小排序、特征分割、拟合自然梯度、建立回归树模型后得到本地预测模型。沙普利可加性特征解释方法(SHAP)[25]用于解释NGBoost预测模型,根据SHAP值来量化每个特征对于模型预测的贡献度,可以实现危险因素的可视化分析。借助同态加密(HE)[26]算法进行联邦模型加密,用云端服务器公布的公钥加密预测模型的各项参数,并将加密的模型参数和计算梯度通过TCP-IP[27]网络技术传送到云端服务器进行进一步分析。云端服务器作为远端大数据处理中心,云计算模型能够高效地运算和分析上传数据并且确保数据传输的安全性和免受恶意攻击。目前,云计算已经应用在各大企业当中,拥有相当丰富的应用模型,如腾讯云、阿里云等。云端服务器利用私钥对收到的加密参数进行解密,使用联邦平均(FA)[28]算法聚合梯度和参数信息,在进行加权平均后得到权重更新的全局模型参数并加密返传给用户端,用户端通过HE算法获得全局模型参数更新优化本地模型。迭代上述步骤直至本地模型收敛或达到手动设定的训练次数阈值,完成整个训练过程(图2)。在模型训练过程中,用户端数据始终保留在本地,训练中的数据交互不会导致隐私泄露,因此各用户端在FL的帮助下实现隐私保护的全局合作模型训练。国内的WeBank银行已将FL技术落地,可基于此开源框架,迅速搭建PCOS预测模型[29]。

3.2.3实施风险评估和健康指导各用户端在本机构云平台上设立PCOS危险因素特征库和PCOS风险评估客户端,特征库收纳了经全局模型训练后与PCOS发病密切相关的危险因素。PCOS风险评估客户端用于收集PCOS危险人群的人口学资料、生活方式、相关病史等信息,并自动上传数据与PCOS危险因素特征库对比、筛查,生成PCOS发病风险评估报告,为PCOS危险人群及PCOS病人分配网络健康档案,并利用手机APP、可穿戴式智能设备等对人群实施持续追踪、实时反馈的连续医疗服务模式和人群与医生间双向的信息交流反馈互动模式,及时反馈预测信息和提供相应危险因素干预措施及个性化健康指导。

对于PCOS危险人群的早期症状应及时采取有效的治疗干预措施,如使用孕激素、雌激素等药物治疗或者运用中药膏方、针灸推拿等中医特色养生调理方法调节月经周期、纠正内分泌代谢异常等症状,并指导PCOS危险人群远离危险因素,如采取减轻体质量、调畅情志等措施。利用移动应用程序和传感器健康监测数据等生成人群健康数据,并对其相关危险因素情况进行跟踪随访和预警提醒,以预防PCOS的发生。

由于PCOS无法治愈,对于PCOS病人最好的治疗方法是建立长期健康管理策略,除了选择合适的治疗方案之外,还应注意定期体检及重视预防远期并发症的出现。主要的基础治疗是生活方式干预,包括饮食控制、运动计划和行为干预[30]。近年来,国内外多家医疗机构利用各类移动智慧医疗手段对PCOS病人进行生活方式管理,取得了良好的效果[31-32]。此外,医疗专业人员可通过网上平台向大众普及PCOS相关知识,引导女性关注自身健康状况,自觉采取健康的饮食、运动和行为习惯,以期减低患病风险。3.3不足与展望

在研究的过程中发现,由于训练机器学习模型需要依赖于充足的数据量才能达到预期效果,因此数据规模的提高是FL模型性能提升的关键。要想吸引更多的医疗机构参与到PCOS预测平台的建立中,就要建立起一个完善的激励和分配机制[33],这将是未来研究的重点。其次,在PCOS预测模型的训练过程中,云端只有在收到所有医疗机构参与方的模型信息后,才会进行信息聚合和全局模型训练。如果遇到机构参与方掉线或通信阻滞的情况,会导致云端陷入长时间等待状态,影响模型聚合以及信息反馈效率。因此,设计一种智能化的云端服务器管理系统,使云端能够自适应地高效训练模型,减少训练中不必要的等待时间,使平台资源的利用率最大化,这也将是后续研究延伸的方向。

4结语

PCOS对女性健康的危害伴随终生,为降低PCOS发病率,改善女性健康状况,运用FL技术构建PCOS预测平台,在保障医疗隐私数据安全的前提下实现疾病的精准预防、高效治疗,展现现代化科学技术防治PCOS的独特优势,这对完善我国PCOS防治体系具有重要意义,也是推动我国移动医疗、智慧医疗、远程医疗服务模式等发展的有力探索[34]。

[参考文献]

[1]FENICHEL P, ROUGIER C, HIERONIMUS S, et al. Which origin for polycystic ovaries syndrome: genetic, environmental or both[J]?  Annales Dendocrinologie, 2017,78(3):176-185.

[2]喬杰,李蓉,李莉,等. 多囊卵巢综合征流行病学研究[J].  中国实用妇科与产科杂志, 2013,29(11):849-852.

[3]李昕. 多囊卵巢综合征心理问题及管理[J].  中国实用妇科与产科杂志, 2019,35(3):295-297.

[4]BEDNARSKA S, SIEJKA A. The pathogenesis and treatment of polycystic ovary syndrome: whats new[J]? Advances in Clinical and Experimental Medicine: Official Organ Wroclaw Medical University, 2017,26(2):359-367.

[5]TOOSY S, SODI R, PAPPACHAN J M. Lean polycystic ovary syndrome (PCOS): an evidence-based practical approach[J].  Journal of Diabetes and Metabolic Disorders, 2018,17(2):277-285.

[6]GOODMAN N F, COBIN R H, FUTTERWEIT W, et al. American association of clinical endocrinologists, American college of endocrinology, and androgen excess and pcos society disease state clinical review: guide to the best practices in the evaluation and treatment of polycystic ovary syndrome: part 1[J].  Endocrine Practice: Official Journal of the American College of Endocrinology and the American Association of Clinical Endocrinologists, 2015,21(11):1291-1300.

[7]GOODMAN N F, COBIN R H, FUTTERWEIT W, et al. American association of clinical endocrinologists, American college of endocrinology, and androgen excess and pcos society disease state clinical review: guide to the best practices in the evaluation and treatment of polycystic ovary syndrome-part 2[J].  Endocrine Practice: Official Journal of the American College of Endocrinology and the American Association of Clinical Endocrinologists, 2015,21(12):1415-1426.

[8]RACKOW B W, VANDEN BRINK H, HAMMERS L, et al. Ovarian morphology by transabdominal ultrasound correlates with reproductive and metabolic disturbance in adolescents with PCOS[J].  The Journal of Adolescent Health: Official Publication of the Society for Adolescent Medicine, 2018,62(3):288-293.

[9]刘续宝,孙业桓. 临床流行病学与循证医学[M].  5版.北京:人民卫生出版社, 2018:88.

[10]杨丽玫,王小蔓,蔡余,等. 琼海地区育龄女性PCOS患病调查及危险因素分析[J].  中国计划生育学杂志, 2021,29(5):881-884.

[11]于婧璐,侯丽辉,孙淼,等. 不同体重指数的多囊卵巢综合征患者的临床特征差异性分析[J]. 中国医药导报, 2020,17(26):75-78.

[12]BOZDAG G, MUMUSOGLU S, ZENGIN D, et al. The pre-valence and phenotypic features of polycystic ovary syndrome: a systematic review and meta-analysis[J].  Human Reproduction (Oxford, England), 2016,31(12):2841-2855.

[13]段宁霞. 多囊卵巢綜合征患者月经周期紊乱与内分泌代谢失调的关系[J].  实用妇科内分泌电子杂志, 2015,2(12):62-63.

[14]ROE A H, PROCHASKA E, SMITH M, et al. Using the androgen excess-PCOS society criteria to diagnose polycystic ovary syndrome and the risk of metabolic syndrome in adolescents[J].  The Journal of Pediatrics, 2013,162(5):937-941.

[15]周丽端,杨秀娥. 运动干预对多囊卵巢综合征患者激素水平的影响[J].  中国卫生标准管理, 2018,9(24)160-163.

[16]谭秋晓,张红梅,李洁明,等. 多囊卵巢综合征患者抑郁和焦虑发病现状及影响因素分析[J]. 实用医学杂志, 2020,36(23):3288-3292.

[17]GODDARD M. The EU general data protection regulation (GDPR): European regulation that has a global impact[J].  International Journal of Market Research, 2017,59(6):703-705.

[18]刘炜,彭宇飞,田钊,等.基于区块链的医疗信息隐私保护研究综述[J]. 郑州大学学报(理学版), 2021,53(2):1-18.

[19]ZHANG C, XIE Y, BAI H, et al. A survey on federated learning[J].  Knowledge-Based Systems, 2021,216:106775.

[20]张佳佳,叶菁华. 青春期与育龄期多囊卵巢综合征患者临床特点分析[J].  中国妇幼健康研究, 2021,32(6):896-899.

[21]BONAWITZ K, EICHNER H, GRIESKAMP W, et al. Towards federated learning at scale: system design[EB/OL]. 2019: arXiv:1902.01046. https://arxiv.org/abs/1902.01046.

[22]LEE J, SUN J M, WANG F, et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis[J].  JMIR Medical Informatics, 2018,6(2): e20.

[23]BRISIMI T S, CHEN R D, MELA T, et al. Federated lear-ning of predictive models from federated Electronic Health Records[J].  International Journal of Medical Informatics, 2018,112:59-67.

[24]姚俊明,邢丹,邵婷婷. 移动边缘计算环境下基于联邦机器学习的医联体慢病管理[J].  医学信息学杂志, 2020,41(11):17-21.

[25]卢云,张梦月,夏赫,等. 基于LightGBM及SHAP对1 055例新型冠状病毒肺炎重型患者中西医结合及西医治疗的多中心回顾性研究[J].  北京中医药大学学报, 2021,44(12):1098-1110..

[26]DING Y, LI X M, L? H F, et al. A novel fully homomorphic encryption scheme bsed on LWE[J].  Wuhan University Journal of Natural Sciences, 2016,21(1):84-92.

[27]黄云婷,江南,杜承烈. 一种跨平台的实时TCP/IP协议栈设计[J].  计算机工程, 2014,40(9):134-137,154.

[28]MA X, WEN C L. An asynchronous quasi-cloud/edge/client collaborative federated learning mechanism for fault diagnosis[J].  Chinese Journal of Electronics, 2021,30(5):969-977.

[29]李盼盼. 微众银行开启互联网金融新时代[J].  中国战略新兴产业, 2015(4):74-75.

[30]王路路,尹楠林,刘政,等. Smad3在未足月胎膜早破中的表达及其影响羊膜上皮细胞增殖和凋亡的作用机制研究[J].  实用妇产科杂志, 2020,36(8):621-625.

[31]卢堃,朱海英,骆晓荣,等. 多囊卵巢综合征与脂肪分布的研究进展[J].  中华生殖与避孕杂志, 2017,37(12):1031-1037.

[32]唐玉珠,苏椿淋,王经纬,等. 基于人体成分测定进行互联网线上生活方式干预在多囊卵巢综合征患者治疗中作用的多中心前瞻性研究[J].   中华生殖与避孕杂志, 2019,39(3):177-184.

[33]张沁楠,朱建明,高胜,等. 基于区块链和贝叶斯博弈的联邦学习激励机制[J].  中国科学(信息科学), 2022,52(6):971-991.

[34]赵维婷. 中共中央、国务院印发《“健康中国2030”规划纲要》 建设健康中国须充分发挥中医药独特优势[J].  中医药管理杂志, 2016,24(21):F0004.

(本文编辑黄建乡)

猜你喜欢

多囊卵巢综合征预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
不可预测
不必预测未来,只需把握现在
胰岛素抵抗与非胰岛素抵抗多囊卵巢综合征的临床治疗分析
青春期多囊卵巢综合征经达英—35及妈富隆治疗的效果观察
孙跃农健脾补肾化痰方治疗多囊卵巢综合征经验
用于治疗多囊卵巢综合征的中药药理学作用机制研究进展