面向数据共享交换的联邦学习技术发展综述

2019-05-22王亚珅

无人系统技术 2019年6期

王亚珅

（中国电子科技集团公司电子科学研究院，社会安全风险感知与防控大数据应用国家工程实验室，北京100041）

1 引言

从2017年首次提出概念、2018年崭露头角，到2019年被学术界和产业界重点关注，联邦学习（Federated Learning）已经成为当前人工智能研究与应用领域的热门技术，展现出强大的打破“数据孤岛”能力和用户隐私保护能力。2019年被业界称为“联邦学习元年”。在当前强调数据安全和隐私保护的大环境中，联邦学习技术作为一种新的人工智能技术范式，有望成为下一代人工智能协作网络架构的基础，建立跨域异构参与者之间的数据信任，并促进科学技术的发展与演进。

2 联邦学习兴起背景

在当前人工智能和深度学习浪潮中，存在两个突出而尖锐的难题——“数据孤岛”难题和隐私安全难题[1-2]。更严重的是两者之前存在一定程度的制衡。

（1）“数据孤岛”难题

大多数实际应用领域均存在数据量有限、质量较差的问题，在某些专业性很强的细分领域更是难以获得足以支撑人工智能和机器学习模型进行训练的标注数据；同时在不同数据源之间存在着难以打破的壁垒，难以跨域共享交换，导致当前大数据在某种意义上越来越多地成为“数据孤岛”的总称。

（2）隐私保护难题

重视数据隐私和安全已经成为一种世界性共识和趋势，以2018年5月欧盟出台的《通用数据保护条例》（General Data Protection Regulation，GDPR）为代表的一系列对于数据收集、传输、保留或者处理过程进行约束的条例规定更是加大了数据获取和共享交换的难度，给众多人工智能技术与应用的落地带来了前所未有的挑战。

面对上述挑战，联邦学习技术应运而生，成为解决传统机器学习和人工智能方法在获取标注数据以落地过程中所面临的“数据孤岛”和隐私安全难题而进行的全新尝试。联邦学习是人工智能领域的一项新的基础性技术，其基础便是保护数据隐私并满足法律法规要求，在此基础上它可以在多个参与者或计算节点之间执行高效的机器学习。此外，联邦学习提供“闭环”学习机制，其有效性取决于数据提供者对自己和他人的贡献，这有助于激励更多参与者加入整个数据“联邦”生态。联邦学习具有以下优势与特点[1，4]：

（1）数据保存在终端设备本地以避免数据泄露，满足用户隐私保护和数据安全的需求。

（2）所有参与者都有平等的地位，可以实现公平的合作；确保参与者可以在保持独立性的同时以加密方式交换信息和模型参数，并且可以同时成长。

（3）模型建模效果类似于传统的深度学习算法，尤其是在联邦迁移学习过程中，可以做到最大限度无损训练，避免迁移学习存在性能损失的负面迁移。

3 联邦学习机理概述

联邦学习是机器学习和人工智能面对更加严格的数据管理规定的解决方案。在联邦学习框架中，中央服务器保存可以初始共享的全局数据；每个客户端（参与者或者边缘设备）都保存本地数据，并根据本地数据训练本地机器学习和人工智能模型。然后，根据某种通信机制，客户端将模型参数和其他数据传输到中央服务器（在该过程中，客户端的完整原始数据将不会传输）。中央服务器收集每个客户端上传的数据并进行训练以构建全局模型，每个客户在整个联邦学习机制中都具有相同的角色和地位[3]。联邦学习有效解决了客户端作为使用实体在两个或多个数据之间共享数据而又不贡献数据的问题，因此在很大程度上解决了“数据孤岛”的问题。更重要的是，联邦学习的全局模型可以在每个客户端数据特征对齐的前提下，实现与集中式数据存储相同的建模效果。

图1是联邦学习概念示意图。为了保护文本数据的私密性并减轻通信网络的压力，联邦学习以分布式策略训练预测变量，而不是将原始数据（即参与者的本地数据）发送到中央服务器进行集中训练。在这种情况下，远程客户端设备与中央服务器定期通信以建立全局模型，在每个通信回合中，所选定参与者客户端的子集对其非独立同分布的参与者数据执行本地训练，并将这些局部参数更新发送到中央服务器。中央服务器在融合和更新后将最新的全局模型发送回选定参与者客户端。该迭代训练过程将在整个联邦学习网络中不断进行，直到满足收敛或某些终止条件为止[5]。上述过程中，联邦学习的数据汇总与合并并不只是简单地合并各参与者的数据，而是各参与者数据不出本地、采用加密机制完成数据传输，从而在各参与者的客户端均建立高质量的模型。

图1 联邦学习概念示意图Fig.1 The concept sketch of Federated Learning

总体而言，联邦学习可以分为以下三步：第一步，联系和学习通过加密而不是用户数据本身来交换所有参与者的用户标识符；第二步，参与联邦学习的双方可以根据用户标识符找到同类参与者，并以这些参与者的不同特征作为输入，迭代训练模型和交换参数，在此过程中，任何一方无法破解对方具有但己方没有的特征，因此可以保护数据隐私[4]；第三步，联邦学习的参与者可以在不共享己方数据的前提下，利用多方数据优势来实现自己的模型赋能[1]。根据数据样本的不同类型，联邦学习通常被分为横向联邦学习、纵向联邦学习、联邦迁移学习三类[2]。其中，横向联邦学习针对具有相同业务类型和不同区域的场景，参与者之间无需交换信息，对深度学习有很好的支持；纵向联邦学习针对具有相同区域和不同业务类型的场景，参与者之间需要交换中间结果；联邦迁移学习针对不同区域和不同业务类型的场景，解决单侧数据规模和标注样本数据不足的问题，参与者之间需要交换中间结果[6]。相对而言，大规模纵向联邦学习和大规模联邦迁移学习的系统复杂度更高。

4 技术革新与标准化工作同步推进

联邦学习的概念最早由谷歌公司在2017年提出。联邦学习最初的形态是为了解决安卓移动用户个人终端设备上训练模型（例如输入法预选的推荐模型等）产生的数据安全和大量数据传输问题。为此，谷歌公司在2017年提出了联邦学习的原始方案，使参与者（安卓手机用户）在使用安卓手机时可以在本地更新模型参数（如梯度信息等），并将模型参数上传到云，从而使具有相同特征维度的参与者可以联手训练和建立全局模型，并从全局模型中获益。

2019年8月，在第二十八届国际联合人工智能大会（IJCAI 2019）上举办的首届联邦学习国际研讨会是联邦学习的一个重要里程碑和时间节点，标志着联邦学习国际社区的正式成立，联邦学习进入了一个新阶段。2019年12月举办的深度学习与神经网络国际会议（NeurIPS 2019）同样举办了联邦学习研讨会。2019年2月，谷歌公司提出不可知联邦学习架构，全局模型针对由各参与者客户端分布聚合而成的任意目标分布进行优化，以克服经典联邦学习的全局模型训练结果可能会倾向于某些参与者客户端上载的更新参数的问题。2019年5月，日本京都大学团队提出一种全新联邦学习架构，能够根据联邦学习参与者客户端资源条件实现动态管理客户端设备，从而突破具有资源约束的客户端选择问题，允许中心服务器聚合尽可能多的参与者更新信息，并加速改进联邦学习全局模型的性能。2019年6月，美国IBM 公司提出了针对贝叶斯非参数神经网络训练的联邦学习架构，每个参与者客户端基于本地数据计算神经网络参数进而构建本地模型，利用联合概率神经匹配策略完成全局神经网络模型的构建，实现了在没有额外监控、数据池等信息且只执行一轮通信的情况下，生成效果更优的全局神经网络模型。2019年6月，美国苹果公司提出面向联邦学习的“本地隐私”机制，实现了在中心服务器或其他参与者的模型能够观察到数据之前，对这些数据进行差异化处理和模糊化处理，从而无法在一定的误差范围内重建数据，进而提升对个人数据的保护。2019年6月，微众银行开源全球首个工业级联邦学习技术框架（Federated AI Technology Enabler，FATE），提供了一系列联邦学习算法以及实现联邦学习算法和系统的范本，致力解决计算架构可并行、信息交互可审计、接口清晰可扩展等工业应用常见数据治理与隐私保护问题。

为了提供联邦学习落地应用的技术规范，为学术界和产业界共建联邦生态提供合作依据，IEEE联邦学习国际标准项目应运而生。2018年12月，IEEE 标准协会审批通过关于建立联邦学习标准的提案《联邦学习基础架构与应用标准》（《Guide for Architectural Framework and Application of Federated Machine Learning》）；IEEE P3652.1（《联邦学习基础架构与应用》）标准工作组已于2019年2月、6月、8月和11月分别召开了第一次、第二次、第三次和第四次会议；中国作为联邦学习的先行者，已在标准化领域产生诸多重要举措，例如2019年6月，中国人工智能开源软件发展联盟发布国内首个关于联邦学习的团体规范标准《信息技术服务联邦学习参考架构》；联邦学习标准草案预计将于2020年2月推出，正式标准预计将于2020年上半年出台。联邦学习进入国际标准流程，标志着加入联邦学习联盟的参与者（企业或者机构等）可以在同一框架范畴内进行交流，同时意味着如果新的参与者希望加入联邦学习生态，则必须根据标准的规定应用相同的框架。联邦学习标准化工作的不断推进，是整个联邦学习生态建设的基础，可以促进联邦学习生态的扩展。

5 基于联邦学习技术的数据共享交换

以公共文化服务领域为示范验证场景，介绍基于联邦学习技术的数据共享交换应用。公共文化服务通常是指由政府主导、社会力量参与，以满足公民基本文化需求为主要目的而提供的公共文化设施、文化产品、文化活动以及其他相关服务。现阶段我国公共文化服务领域数据壁垒突出、面临无法实现跨系统、跨地域、跨部门、跨层级、跨业务的数据共享交换。在该典型应用案例中，建立基于联邦学习技术的文化大数据生态系统，突破基于统一逻辑标准体系的分析、交换、应用技术，融合文化场馆、设施设备、演出活动、专家人员、教学活动、演出节目、人员（视频）行为、群体情绪、愉悦指数等多源异构数据资源，实现跨系统、跨地域、跨部门、跨层级、跨业务的公共文化服务领域数据交换共享，形成覆盖文化原生数据、文化衍生数据的大数据采集应与汇聚融合用体系，在公共文化服务领域内实现“数据分布存储、全领域逻辑一体”，增强业务协同能力、创新智能业务。最终开展基于跨域共享交换的公共文化服务数据采集分析与效能评估示范应用，以联邦学习技术为手段解决以往公共文化效能评估等业务执行与协同过程中普遍存在的跨域数据无法充分汇聚融合进而难以产生综合研判与全要素量化结果的痛点。

基于公共文化服务领域联邦学习技术实现不少于多类型公共文化服务数据共享交换任务，涵盖跨系统、跨地域、跨部门、跨层级、跨业务的公共文化服务数据的共享交换任务：

（1）跨系统共享交换

实现跨图书馆图书借阅管理相关系统、博物馆/美术馆策展相关系统、文化活动中心报名预约管理相关系统和公共文化资源信息管理相关系统、博物馆/美术馆藏品信息管理相关系统、剧场演出系统等多类型系统的公共文化服务数据共享交换任务。

（2）跨地域共享交换

实现跨某地级市某辖区华阳路街道、某地级市某辖区北新泾街道、某地级市某辖区仙霞新村街道、某地级市某辖区古北市民中心等街道社区（镇）以及某地级市其他辖区等多地域的公共文化服务数据共享交换任务。

（3）跨部门共享交换

实现跨文化局、文化艺术中心、民俗文化中心、图书馆、街道社区文化活动中心等多部门的公共文化服务数据共享交换任务。

（4）跨层级共享交换

实现跨某地级市某辖区层级、某地级市某辖区区属街道社区（镇）层级、某地级市某辖区区属街道社区（镇）下辖场馆/群团层级等多层级的公共文化服务数据共享交换任务。

（5）跨业务共享交换

实现跨文化服务推荐、文化资源策展、藏品信息管理、资源底数管理、文化服务效能评估、文化活动报名预约、文化资源借阅、演出展映管理等多类型业务的公共文化服务数据共享交换任务。

最终，建设联邦学习技术驱动的公共文化服务领域数据共享交换平台，融合文化场馆、文群团队、专业人才、演出节目、教学课程等多类型数据资源，实现跨系统、跨地域、跨部门、跨层级、跨业务的公共文化服务领域信息交换共享。在此基础上，完成面向“数据抽取-信息加工-知识融合-认知评估”全流程的异构数据表达组织与存储检索方法，进一步构建大规模公共文化服务资源知识图谱及推理模型，为构建和拓展文化大数据的全新价值链提供基础性智库支撑和决策辅助。

6 联邦学习面临的困难与挑战

经典的联邦学习问题是基于存储在数以千万计的远程客户端设备中的全局数据学习模型，在训练模型参数过程中，客户端设备需要定期与中央服务器通信。当前，联邦学习面临的困难与挑战可以概述为以下四个方面：

（1）通信费用高。在联邦学习问题中，原始数据被本地存储在远程客户端设备中，需要与中心服务器不断交互，才能完成全局模型的构建（包括参数训练等）。一般来说，整个联邦学习网络可能包含数量庞大的终端设备（即客户端），因此很容易造成较高的通信成本，该问题成为联邦学习的关键瓶颈[3，7]。

（2）统计异构性。终端设备通常以不同的分发方式在网络上生成、处理和收集数据，跨终端设备的数据体量和特征可能会有很大差异。因此，联邦学习网络架构中的数据是非独立同分布的[8]。然而，主流的机器学习和人工智能算法主要基于数据独立同分布假设。因此，如何对非独立同分布数据特征的异构性数据进行建模、分析和评估，是联邦学习进一步推广所必须解决的关键问题。

（3）系统异构性。由于硬件条件（CPU、内存等）、网络连接（3G、4G，5G、WIFI等）和供电（电池电源）的变化，联邦学习网络架构中每个终端设备的存储、计算和通信功能可能会有所不同，联邦学习网络体系架构和终端设备本身的局限性可能导致仅有部分设备在特定时间处于活动状态[9]。此外，与边缘计算所面临的困难一样，数量庞大的终端设备需要特定的空间和环境来部署电力供应资源，因此联邦学习网络架构中的终端设备可能会出现电源故障、网络访问故障和其他紧急情况，从而导致瞬时无法连接。这种异构的系统架构会影响联邦学习的整体效能。

（4）隐私问题。联邦学习共享模型参数更新（例如梯度信息、参数特征等），而不是客户端设备中的原始数据（终端设备中的原始数据依然存储在终端设备中），因此在数据隐私保护方面，联邦学习优于其他分布式学习方法[3]。虽然拥有该优势，但是在训练过程中仍然存在将敏感信息暴露给第三方或中央服务器的风险，因此隐私保护依然是联邦学习的主要关注点。

7 结论

在当前大数据和人工智能时代背景下，如果无法实现参与者之间的交换数据，除了少数拥有巨体量用户、产品和服务进而坐拥“顶端数据优势”的参与者之外，大多数参与者无法以合理合法且低成本、高效率的方式跨越人工智能的数据“鸿沟”——人工智能应用中对数据的多方集成的需求达到了前所未有的水平。未来人工智能的主要挑战之一仍在于数据，随着互联网的发展和5G技术的突破以及廉价传感器带来的边缘计算及物联网的普及和广泛应用，未来数据将出现不可阻挡的大规模“碎片化”的趋势。联邦学习正是在现有机制规则无法改变的条件下，通过技术手段建立一个虚拟的全局通用模型，以达到与“每个参与者通过汇总数据而建立最优模型”这种方式相同的效果，实现跨域数据共享交换。联邦学习的优势和潜能对于打破“数据孤岛”和促进人工智能在更多行业中的实施具有重要意义。此外，联邦学习对隐私保护、大规模机器学习以及人工智能方法和分布式优化有特殊要求，由此产生了新的跨学科交叉研究方向，包括机器学习、系统架构设计、分布式计算等，这对于推动人工智能理论和基础进一步延伸与拓展具有极为重要的意义。同时，联邦学习国际标准的制定将进一步为其在各行业中的应用提供一个标准化的系统。未来在统一技术标准的基础上，社会各界将建立“联邦”生态，促进联邦学习发挥更大的效能，进而为人工智能产业的发展开辟新的方向。