移动边缘计算环境下基于联邦机器学习的医联体慢病管理*
2021-01-15姚俊明邵婷婷
姚俊明 邢 丹 邵婷婷
(济宁医学院医学信息工程学院 日照 276826)
1 引言
随着生活水平提高,大众对健康和个性化健康服务需求日益增强,医疗健康领域由以医院为中心转变为以患者为中心的全生命周期、全过程、系统连续的精准医疗健康服务模式。同时由于移动互联网、物联网及信息技术等迅猛发展,采用电子病历和医学图像等医疗健康大数据进行远程医疗决策和疾病预测成为可能。通常数据来源包括自我量化、电子健康记录、医学研究或疾病监测、生物标本和基因测序的生物信息等,其来源于不同健康医疗机构及设备,常以孤岛形式存在。以往应用人工智能算法的数据处理模式是将数据收集到单个数据库中再进行处理、清洗并建模,无法满足不断持续增长的数据可扩展需要,同时还存在单点攻击或失效风险。近年来由于智能可穿戴设备、智能手机、智能医疗设备兴起,可随时随地获取个人医疗健康数据。通过在设备和云之间增加边缘计算节点的移动边缘计算模式,具有延时低、充分利用资源、可减轻骨干网压力等优点被广泛应用。借助边缘计算物联网设备可以将繁重任务交给边缘节点,利用通信平衡计算性能,使其节能并增强性能。通过网络边缘架起云容量和设备需求的桥梁,可加速内容交付并提高移动服务质量。医疗健康数据敏感程度较强,信息安全要求较高,现有隐私保护措施尚有待完善,例如在对多源数据进行分析时仍可通过数据关联分析挖掘出更多信息。相关研究指出少数特征组合可唯一标识某些个体,如基因检测数据与病理数据结合较易匹配到具体个人。本文在移动云环境下,采用联邦学习[1]方式建立具有安全和隐私保护功能的慢病管理模型并进行探讨,为提高医疗健康数据信息安全水平提供参考。
2 相关研究
2.1 应用数据进行慢病管理
2.1.1 国外 目前各国对应用数据进行慢病管理进行了积极探索。美国使用信息技术构建以家庭为基础的慢性病远程管理模式;以色列将各医疗机构数据推送至前置端并接入国家健康信息交换平台,对糖尿病大数据进行分析、建立管理模型,帮助患者控制病情;韩国利用国家脱氧核糖核酸(Deoxyribo Nucleic Acid,DNA)管理系统将DNA和患者医疗数据结合并提供个性化诊断和治疗[2]。
2.1.2 国内 我国医疗信息化建设前期,医院各业务系统由于未采用统一标准而形成大量信息孤岛,体现在医院各科室内部、医院之间、医院与社区及区域之间。由于医疗数据产生具有大量性和复杂性特征,医院内数据传输、交换任何环节出现问题均可能导致数据泄露[3]。在人工智能领域,传统数据处理模式是一方收集数据转移到另一方进行处理、清洗并建模,最后将模型移交第3方。随着法规完善和监控严格,如果数据离开收集方或者用户不清楚模型具体用途,运营者可能触犯法律。传统机器学习模型将不同数据整合到一方,由于涉及隐私和数据安全等法律问题通常难以实施。
2.2 医疗健康数据隐私和安全问题
2.2.1 概述 现有基于机器学习的隐私保护方法包括加密方法(以多方安全计算、同态加密为代表)和扰动方法(以差分隐私为代表),但数据加密过程计算量较大,复杂情况下将产生巨大性能开销,而差分隐私在一定程度上会对模型的预测准确性造成影响[4]。为了应对数据隐私和安全问题,欧盟出台首部数据隐私保护法案《通用数据保护条例》,但需要从技术上解决数据孤岛问题,联邦学习则能让人工智能更加高效、准确地共同使用各自数据,在小数据和弱监督条件下建立更好的模型[5]。
2.2.2 研究进展 Brisimi等提出通过存储在智能手机和不同医院设备的健康信息,分析预测心脏病患者的住院治疗,使多个数据持有者在无需直接交换原始数据情况下协作[6]。Lee等探讨在联邦学习环境中为跨机构相似患者提供隐私保护平台,用于疾病和临床试验志愿者监测[7]。Ren等提出在移动边缘计算环境下,通过在边缘节点上部署多个深度强化学习代理为物联网设备提供决策;使用联邦学习对深度强化学习代理进行训练,降低物联网设备与边缘之间的传输成本[8]。Qian等探讨通过部署移动边缘云为用户提供延迟敏感服务,提出隐私感知位置方案以解决具有隐私保护的服务位置问题[9]。杨强等提出针对医联体脑卒中患者建立协同防止服务模式[10]。
2.2.3 联邦机器学习算法应用 传统医疗健康机器学习将数据集中到服务器端,通过运行机器学习算法训练相应模型。而联邦机器学习能够保证不进行数据交换的同时开展模型训练。本文在移动边缘环境下采取联邦机器学习算法,使数据不出本地通过交换加密的参数进行模型训练,突出个人对数据的控制权,大幅降低用户数据泄露风险,实现慢性病数据共享和智能疾病预测、预诊、辅助诊断、随访跟踪和质量控制等目的。为保证区域医疗数据安全共享,将联邦学习应用于医联体分级诊疗内部,形成安全、具有隐私保护功能的机器学习。
3 系统框架设计
3.1 概述
随着智能可穿戴设备、物联网和移动互联网兴起,医疗健康数据由集中存储在医疗机构内部的传统模式向分散存储模式转变,存储设备包括医生办公室终端、家用设备、患者智能手机等,数据处理呈现分散性。健康医疗大数据高速、大量产生,单个数据库集中存储管理方式已无法满足需求。一是考虑数据规模和隐私问题而无法将数据汇总在单个数据库中;二是集中存储存在信息泄露风险,如单点攻击或故障导致可能数据泄露;三是建立数据中心需要大量基础架构。分散式管理联邦学习方式将数据视为中心数据库一部分,避免数据集中收集、处理和原始数据交换。一旦数据存在标签缺失严重问题,通过迁移学习可对标签进行补全,扩大可用数据规模,进一步提高模型效果[11]。
3.2 设计目的
针对医联体内慢病患者、慢病高危人群、健康个体的健康医疗数据,通过联邦机器学习方式,建立慢病预测分析模型,使数据不出本地以保证安全,实现导致慢病发生的高危因素定位、针对健康个体的健康管理指导、针对高危人群的健康危险评估和预警干预。如进行非药物干预,则可通过手机推送保健计划,包括建议科学饮食结构、健康生活方式等;如进行药物干预,可建议使用药物种类、剂量等。
3.3 系统架构
由医联体和健康云端组成。医联体是由同区域内村卫生院、社区医院、二级及三级医疗机构联合组成的医疗团体。医联体由用户端、边缘服务器和云端服务器组成。用户端为基层医疗机构(村卫生院、社区医院),负责收集、存储基层用户健康数据。边缘服务节点由二、三级医院服务器充当,见图1。
图1 移动边缘环境下联邦学习架构
3.4 框架及功能(图2)[12]
3.4.1 服务层 位于最高层,为医联体内二、三级医疗机构提供服务,包含所需软件组件。使用下层算法层组件根据具体需求实现逻辑功能。基于形成的慢病分析模型,面向医疗机构、患者等用户提供慢病风险评估、慢病高危筛查、精准健康管理、管理效果评估等应用服务。该层包含以下组件:一是用户服务组件,支持用户访问和使用联邦学习服务。典型功能包括用户界面、任务提交、数据与模型导入与导出工具、数据发布与发现。二是参与方协调服务组件,功能包括参与方身份和配置文件管理、对服务活动和使用的监控、事件处理和问题报告、安全管理服务。三是通用算法服务组件,提供通用算法功能,使得算法可应用到数据中。常见通用服务组件包括分类、聚类和回归。四是场景服务组件,提供与业务耦合性较强的功能组件,随着业务或用户需要变化而变更。典型应用场景包括语音识别、生物特征识别、计算机视觉和自然语言处理。五是数据服务组件,包括数据发布、数据发现。六是任务管理组件,用于管理联邦学习活动中的建模与预测活动。支持新建联邦学习任务;查询联邦学习任务状态与日志;结束正在运行的联邦学习任务;在可能情况下回复部分失败任务;提供联邦学习任务管理能力。
3.4.2 算法层 实现联邦学习的基本算法,使用算子层组件,为服务层提供支持,是实现联邦学习算法的逻辑,独立于具体业务。主要具有以下功能:样本对齐;特征对齐;联合特征工程;领域自适应;通用联邦学习算法实现;算法评估;加密建模与预测。
3.4.3 算子层 为实现联邦学习算法逻辑所需的高抽象通用组件。使用下层基础架构层提供功能,向算法层提供高抽象组件,算法开发者可利用其快速实现联邦学习算法。包含以下组件:多方安全计算算子、聚合算子、激活函数、正则化处理器、代价函数、优化方法、梯度处理器。多方安全计算是联邦学习底层安全机制的核心,在联邦学习参与方进行活动时对数据进行加密或脱敏,保障源数据不被泄漏。实现方式包括同台加密、秘密共享、遗忘传输、混淆电路、RSA加密算法、可信执行环境。
3.4.4 基础架构层 运行基础架构,向上提供通用计算、存储、通信的能力。包括以下功能:提供编程接口;提供计算、运行建模或预测任务;提供存储机制,对产出模型与必要数据进行存储,以及提供数据导入/导出实用工具;提供资源调度与管理机制,跟踪与记录资源状态;提供通信基础设施,在各参与方之间安全地传递信息;数据清理,即清理冗余信息及不完整信息;数据集成,确定预测参考值及相关属性,建立影响权重;数据转换,将非布尔属性的人体生理数据转换成布尔属性数据,进行离散化处理。
3.4.5 跨层功能 包括一系列功能组件,与上述4层组件进行交互以提供支撑能力,具有以下功能:训练能力;运营能力;数据安全能力,包括账户、身份认证、授权和安全策略、数据完整性管理、数据销毁及隐私泄露防护;监督和评估能力。
图2 联邦学习框架功能
3.5 模型训练过程
以线性回归训练为例,分4步进行。第1步:边缘服务器根据慢病管理任务向各医疗健康客户端下发学习模型,分发公钥给用户端,用以对训练过程中交换数据进行加密。第2步:用户端之间以加密形式交互用于计算梯度的中间结果。第3步:用户端之间分别基于加密梯度值进行计算,同时某一用户端根据其标签数据计算损失,将结果汇总至边缘服务器。边缘服务器通过汇总结果计算总梯度值并解密。第4步:边缘服务器将解密后梯度分别回传 至用户端,用户端根据梯度更新各自模型参数。数据设备端训练的模型参数通过无线网络传输至边缘服务层,基站收集各用户参数并存储在边缘服务器上。边缘服务器端聚合上述参数并更新整体模型参数。迭代上述步骤直至损失函数收敛以完成整个训练过程。在样本对齐及模型训练过程中,用户端数据均保留在本地,训练中数据交互不会导致数据隐私泄露。因此双方在联邦学习帮助下实现合作训练模型。将该模型下发至各参与用户可开始新一轮训练学习。将训练好的模型参数向上聚集在云端可进行进一步医疗健康数据共享。
3.6 系统优点
以医联体为单位配备具有人工智能的边缘服务器节点计算可将云计算与海量数据结合,各医联体内用户设备组成强大的人工智能实体,提高认知能力。系统核心优势在于无需集中训练数据,不同数据拥有方在不交换彼此数据情况下建立虚拟共有模型,其效果等同于各方聚合数据建立的最优模型。联邦学习是解决数据孤岛问题的可行方案,本课题所研究的在移动边缘环境下实现跨医疗机构、医联体内慢病患者预测模型,可感知用户设备和边缘服务器中的数据,还可灵活减少训练次数,降低通信开销。
4 结语
联邦机器学习具有数据样本非独立同分布、各节点数据量不平衡、超大规模分布式网络、通信受限等特点。与集中学习相比联邦学习更强调对个人数据的控制权。医疗健康慢病管理包含大量个人敏感信息且受政策与法律的制约不可传播与共享,有限的数据使模型性能提升面临瓶颈[4]。在医联体中利用移动边缘云对慢病患者数据建模,同时多个医联体还可在健康云中心建立更广泛的模型,实现数据不出本地通过交换加密参数进行模型训练,大幅降低用户数据泄露风险。但联邦学习技术处于起步阶段,尚存在通信负载、参与方提供参数缺乏相应质量验证机制、传输及存储过程隐私性保护等安全风险,此外参与用户的异构性、模型参数聚合算法、用户通信链路可靠性等方面尚待深入研究[13-14]。