基于联邦学习的边缘计算隐私保护
2022-02-21何韵诗
何韵诗
(华南理工大学,广东 广州 510641)
0 引 言
联邦学习本质上是1种分布式机器学习框架。联邦学习中的参与实体掌握着一部分训练数据和计算资源,能够保护自身数据的隐私安全,通过合作训练得出反映全局数据特征的模型[1-3]。联邦学习与传统学习的本质差异在于实体间的互相信任问题。在联邦学习过程中,基于对自身利益的保护,各实体方的信任度不同。联邦学习提供的共享学习模式能够使数据保持原有的状态,使系统具有高效性、隐私性以及可用性[4]。
边缘计算是目前主流的1种分布式计算技术,能够弥补云计算运行中造成的能耗大和隐私泄露问题。随着边缘计算的不断发展,它能够为云计算模式中敏感隐私数据提供保护机制。相关研究表明,基于联邦学习的边缘计算能够利用数据建模解决数据隐私方面存在的安全问题[5]。
联邦学习是一种机器学习框架,在保障数据信息安全的状态下,可以实现数据共享和数据参与方之间的协作训练。参与方能够通过互联网技术与边缘服务器建模,构建出全局模型[6]。因此,联邦学习能够使边缘计算应用于安全级别更高的场景。基于联邦学习的边缘计算构建的模型能够实现数据信息的传输[7]。
1 联邦学习相关概述
1.1 联邦学习定义
联邦学习的概念最初是由谷歌的McMahan于2017年提出的,我国在2018年人工智能大会上详细地介绍了联邦学习的具体研究方向。1年后,我国成为了世界上第1个联邦学习框架的开创者,至今已为国内外多家企业提供了相关服务,实现了联邦学习的广泛应用[8]。
联邦学习能够为参与方提供协同合作和安全学习的协议。作为新型的学习机制,联邦学习能够在保障数据隐私不被侵害的情况下,统一建模多个参与方的数据,使多个客户端能够在同一中央服务器中进行协同训练,同时保证各参与方的数据隐私不被公开[9]。联邦学习在未来的发展中具有十分广阔的应用前景,其模型如图1所示。
图1 联邦学习模型
1.2 联邦学习过程
联邦学习中,将海量数据的参与方设为N,其中各参与方拥有的数据用{D1,D2,…,DN}表示,以构建1个模型MFED。传统的学习方法是将所有参与方拥有的海量数据集中在一起,用D={D1∪D2…DN}来表示,以构建出1个模型MSUM。联邦学习的过程可以表述如下。第一,系统初始化。系统服务器明确学习目标和学习模型后,能够发布到全局模型中,并指定参数效率。第二,模型训练。联邦学习参与方能够使用本身的数据在全局模型中进行模拟训练,通过最小化损失函数推算本地模型,将梯度参数上传至服务器。第三,服务器聚合。服务器接收到各参与方上传的模型参数,进行联邦学习得到1个全新的全局模型,然后更新全局模型参数。第四,全局模型。当参与方使用全新的全局模型参数更新本地模型后,再上传本地模型的梯度参数。重复操作上述步骤,将获得全局模型。相关研究表明,上述联邦学习过程能够使参与方达到理想模型场景。
1.3 联邦学习的安全隐私问题
保护参与方的隐私安全是联邦学习的重要目的。在联邦学习过程中,所有参与方共享1个参数模型,因此参与方实际的数据处于隐藏不被公开的状态。然而,因为参与方加入或退出时的数据信息处于公开状态,所以存在隐私被窃取或被泄露的风险。相关研究人员证实,根据参与方的加入与退出信息能够检测相关的隐私信息。由于服务器没有权限访问参与方,会使恶意扮演参与方的不法之人伪装进入开展联邦学习,进而窃取其他参与方的隐私。此外,联邦学习的服务器存在一定的安全风险[10]。例如,当联邦学习的服务器出现故障时,恶意参与方往往有机可乘,利用故障服务器窃取或泄露其他参与方的相关隐私。参与联邦学习的参与方拥有的数据和价值存在一定差异,如果参与方掌握大量的数据且数据价值较高,那么应该做好隐私保护工作。
2 边缘计算相关概述
随着互联网技术的发展,产生的数据量成倍增长,网络存储空间面临着巨大压力,而互联网技术对网络服务的响应速度和数据隐私性有着极高的要求。云计算技术快速高效地分析大量网络数据,而将数据安全有效地传输至云计算中心却有一定难度。在传输海量数据的过程中,云计算通常会因为数据处理耗费大量的时间,降低了用户的体验感。
移动终端设备连接互联网会产生海量的数据信息。基于传统的云计算技术无法及时有效地处理海量的数据信息,因此边缘计算的概念首次被提出。边缘计算是1种在接近智能手机或移动终端的地方提供云计算能力的新型技术。边缘计算能够将计算能力下沉到无线侧,是1种给用户提供数据计算和数据储存的新型计算模型,能够极大程度上提高云计算技术的数据存储处理能力和用户请求的响应速度,减少网络带宽的损耗,进而保证数据信息的隐私与安全。边缘算法模型如图2所示。
图2 边缘算法模型
3 解决方案
参与联邦学习的参与方和服务器的可信度不同,因此数据信息面临的安全隐私风险也不相同。按照参与方的可信任程度,将信息安全的领域划分为理想模型和恶意模型。理想模型是指各参与方都能够严格按照联邦学习的相关协议进行计算,不违反规则做过多的运算,并且不使用隐私保护技术隐藏敏感信息。但是,理想模型是不存在的。要通过隐私保护技术解决恶意参与方带来的敏感信息,需要加大联邦学习的力度,完善联邦学习的相关制度。联邦学习是目前及未来互联网数据信息隐私安全的主要研究方向。
3.1 单个参与方的隐私保护
针对单一个体参与方的隐私保护来说,联邦学习采用的是最理想且先进的差分隐私法。差分隐私最初是由DWORK于2006年提出的,是联邦学习隐私保护模型的1种,用于保障参与方信息安全。差分隐私不会只针对某1个恶意的攻击者,即便攻击者事先掌握了系统中的某1条数据信息,也不能推断出其余未知的信息内容。差分隐私有着强大的数学计算方法,能抵挡入侵者的攻击,从而保护单个参与者的隐私安全。
ROBINC于2007年提出了关于差分隐私的用户级算法,能够隐藏参与方在联邦学习过程中产生的数据信息。为有效保护参与方的隐私安全,设计1种差分隐私的协议机制,只需在参与方联邦学习的数据信息上添加1个噪声即可。
RYU于2008年提出了关于差分隐私应用于联邦学习模型的方法,利用差分隐私的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM),解决参与方之间通信受到的外来恶意攻击。有学者提出利用差分隐私方法构建新型的联邦学习框架,能够给参与联邦学习用户方的数据信息提供更高级别的隐私保护。结合联邦学习技术与差分隐私算法,不仅能使单独的参与方隐私安全受到更好的保护,还能够有效防止恶意参与方的攻击。
3.2 恶意参与方的隐私保护
联邦学习过程中,服务器没有权限直接访问参与方,因此无法保证每1个参与方的可信度,其中难免会有恶意的参与方潜入联邦学习中盗取或泄露相关隐私。联邦学习通过差分隐私添加噪声干扰的方式,保护单一参与方的隐私。但是,经过噪声干扰的数据,二次传输时会存在一段空白,因此存在一定的隐私风险。
传统的加密技术十分复杂且计算量较大,无法应用于存储空间小或者计算能力差的设备。为防止有恶意参与方盗取隐私行为,需采用更加精密的加密技术。同态加密是1种能够实现多方计算的技术,不需要解密密文,只需通过代数运算便能够加密。同态加密经过一系列运算加密后的结果与经过破译后的效果相同。
差分隐私算法与同态加密技术能够极大程度上提高隐私保护效率。针对单一的参与方使用差分隐私方法中的噪声干扰,结合同态加密技术能够在联邦学习过程中消除部分噪声的干扰,从而更好地保护隐私,防范恶意参与方与不可信的服务器联合窃取隐私,保护参与方在联邦学习的过程中加入或退出相关信息。
3.3 激励机制隐私保护
联邦学习仅通过传输模型的参数,不需要共享实际的数据,能够解决各参与方的数据孤岛问题。大数据环境下,海量的数据信息出现在互联网中,需要保护参与方的隐私,提高联邦学习的效率。目前,许多专家及学者结合先进的区块链技术与联邦学习,通过适当的激励机制,大大提高了参与方联邦学习的主动性与积极性。
此前,联邦学习中的激励机制和公平研究多以区块链技术开展。激励机制是为了吸引更多掌握着有价值数据的参与方加入联邦学习,提高联邦学习的模型的完整性。区块链技术作为目前先进的信息技术,能够给联邦学习的激励机制提供安全保障。目前,这方面的研究尚未成熟,需要不断探索和研究区块链技术与联邦学习。
4 结 论
边缘计算成为代替云计算的1种新型计算技术,能够精确计算海量数据,经过存储、传输、共享以及隐私保护等方式严格保密数据。联邦学习是1种新型分布式机器学习方式,将其应用在边缘计算中能够让边缘设备的数据信息保持原有的状态,并协同相关的机器模型共同训练。联邦学习技术能够为边缘计算的数据信息提供隐私保护,而边缘计算能够基于联邦学习实现互联网技术的新跨越。因此,基于联邦学习的边缘计算是目前及未来科学技术领域中的重要研究方向。