隐私计算在大规模通信数据场景中的架构研究及应用
2023-11-22倪高伟孙苑苑樊巧云
倪高伟 孙苑苑 樊巧云
中国移动通信集团江苏有限公司
0 引言
随着通信技术迅速发展,社会对数据安全保护的需求不断增长。近年来,由于移动通信技术的快速升级,数据传输速度不断提高,5G 时代的到来已使得更多数据通过各种渠道飞速传播。在此过程中,运营商沉淀了客户基本信息、行为数据、位置数据以及用户终端信息等海量数据。这些数据具备准确性、连续性、高保真性、丰富性等特点,不仅在运营商领域内的价值高,还能为金融、政务等行业发挥刻画用户画像、挖掘潜客群体等可观的应用价值。然而,移动通信大数据包含用户基本信息及行为等隐私信息,具有高敏感性,若在应用中的安全保护措施不当,极易造成用户隐私泄露。在数据安全保护法律趋严的背景下,如何实现数据隐私保护和数据价值挖掘并重,成为运营商的重要挑战。对此,隐私计算技术能够将各方数据的明文信息和计算价值分离,保障数据的隐私安全和计算结果的准确性。但行业实践显示,隐私计算涉及大量的密码运算和数据通信,在很多应用场景中其性能与安全性难以得到有效兼顾(而安全性通常被作为数据流通和应用的一种底线要求),再加上运营商数据体量大,系统稳定性、实时性要求高,隐私计算在许多业务应用中面临极大挑战。
针对上述问题,本文结合移动通信数据维度高、体量大、变化快等属性,提出能够兼顾数据安全性、结果准确性、业务时效性和系统稳定性的隐私计算技术架构和解决方案,实现多方数据价值的高效利用,为移动运营商及其合作伙伴的用户提供更优质、更精准的个性化服务,同时帮助机构提升数据使用合规能力,推动全行业健康发展。
1 隐私计算简介
1.1 技术简介
隐私保护计算(Privacy-preserving computation,本文简称“隐私计算”)是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,实现数据在流通和融合过程中的“可用不可见”[1]。从技术原理来看,隐私计算主要包括基于密码学的多方安全计算和同态加密,基于硬件隔离的可信执行环境,以及源于机器学习领域的联邦学习技术等。
多方安全计算理论由Yao(1982)[2]通过提出并解答著名的“百万富翁问题”而创立。多方安全计算是一种基于多方数据协同完成计算目标,实现除计算结果及其可推导出的信息之外不泄露各方隐私数据的密码技术[3]。其安全性和和准确性有密码学领域的严格证明,能够让多个参与方的数据通过密码技术处理后(可以简单认为是一种“密文”形式)进行输入并协同计算一个指定函数,同时保证计算结果的正确性和输入数据的隐私性。多方安全计算常采用的技术包括不经意传输(Oblivious Transfer,OT)、混淆电路(Garbled Circuit,GC)、秘密分享(Secret Sharing,SS)、零知识证明(Zero-Knowledge Proof,ZKF)等。
同态加密(Homomorphic Encryption,HE)由Rivest 等(1978)[4]提出,保证了数据在密文上运算后解密的结果和在明文上进行对应运算的结果一致。具体来说,通过使用公钥pk对两个数据x、y加密后产生密文[x]、[y],在密文上进行运算,比如[x]+[y],也就是求和,得到的密文结果进行解密后与x+y的值保持一致。Goldwasser 和Micali(1982)[5]、Paillier(1999)[6]、Boneh 等(2005)[7]及Gentry(2009)[8]对同态加密方案进行不断探讨,最终实现了支持无限次加法和乘法运算的同态加密方法。后来,一些同态加密技术,如基于门限的全同态加密(Threshold Fully Homomorphic Encryption)、基于多比特全同态加密[9],被用于构造多方安全计算协议(Asharov,2012)[10]。
可信执行环境的概念源自Open Mobile Terminal Platform(OMTP)于2006 年提出的一种保护移动设备上敏感信息安全的双系统解决方案[11],在传统系统运行环境(Rich Execution Environment,REE)之外,提供一个隔离的安全系统用于处理敏感数据。2010 年7 月,Global Platform(致力于安全芯片的跨行业国际标准组织,简称GP)起草制定了一整套可信执行环境系统的体系标准[12],成为当前许多商业或开源产品定义其各种功能接口的规范参考。可信执行环境的最本质属性是隔离,通过芯片等硬件技术并与上层软件协同对数据进行保护,且同时保留与系统运行环境之间的算力共享。目前,国际上可信执行环境的代表性硬件产品主要有Intel SGX、ARM TrustZone 等,一些国内厂家也在尝试提供可信执行环境硬件方案,如兆芯ZX-TCT、海光CSV(ChinaSecurity Virtualization)等。
联邦学习的本质是分布式的机器学习,旨在联合多方数据实现共同建模,提升模型的效果。2016 年,针对手机终端的隐私问题,谷歌公司提出了“联邦学习”(Federated Learning)算法框架[13]。杨强教授团队与微众银行随后提出了基于“联邦学习”的系统性的通用解决方案,可以解决个人(2C)和公司间(2B)联合建模的问题[14]。根据数据集的不同类型,联邦学习分为横向联邦学习(适用于两个数据集的用户特征重叠较多而用户重叠较少的情况)、纵向联邦学习(适用于两个数据集用户特征重叠较少,但用户重叠较多的情况)与联邦迁移学习(适用于两个数据集的用户特征和用户都重叠较少的情况)等。联邦学习通常需要结合多方安全计算[15]、同态加密[16]、可信执行环境[17]、差分隐私[18]等安全技术来保护训练过程中被交互的模型信息。
1.2 应用价值
许多数据密集型行业虽然有一定用户数据基础,但仅依赖存量客户数据,面临着数据量小、维度不全导致的业务精度低下的痛点。对此,诸多机构近年来积极探索基于大数据、人工智能等的新兴技术方案,希望依托运营商数据提升业务发展水平。然而,数据在传统的明文流通模式中会暴露信息,易于被复制并进行传播,再加上数据权属界定尚不清晰,导致其流通和使用过程难以有效管控。一直以来,由于缺乏数据在计算过程中的隐私保护技术,数据共享的参与机构往往需要通过制定严格的数据共享规范来约束数据使用方式、落实数据保密责任。而仅依靠管理手段的数据安全保护实施成本和风险都较高,同时造成基于跨域数据的人工智能、机器学习应用难以进行,限制了运营商数据对外赋能的应用落地。
2022 年12 月《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》对外公布,提出“建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”,以建立基于数据价值流通的数据要素共享新模式。数据融合应用的需求驱动了隐私计算技术的创新应用。这些技术基于密码学、统计学及硬件安全等不同方法,能够实现不同程度上的数据“可用不可见”,解决其在流通过程中信息暴露的问题。以多方安全计算技术为例,从上述数据产权的角度看,该技术能够有效分离数据要素的持有权和使用权,即在数据要素持有权不变的情况下,对其在特定场景中的使用价值进行流通(如图1 所示)。这就规避了数据明文流通使用容易带来的持有权变更问题。
图1 多方安全计算有效分离数据持有权和使用权
一些隐私计算技术由于涉及数据加解密、数据密文计算和通信等过程,其计算效率有所下降。因此在实践中,隐私计算技术的应用需要综合考虑隐私保护程度、数据处理量、时效性等实际业务需求,通过合理的系统架构设计实现落地,在保障数据安全性和系统可靠性的同时,满足业务对海量数据计算的性能要求。
2 通信数据隐私计算技术架构
数据是运营商的立身之本。江苏移动积累了PB 级的用户数据,包括身份、上网、位置、社交、支出、通信、终端、时序等多种类型,数据实时性强,准确性高,具有高保真性,能够为金融、电商等领域相关业务带来巨大价值赋能。
2.1 隐私计算平台功能架构
为实现海量用户数据的安全高效利用,江苏移动深入研究并优化隐私计算理论和应用思路,开发建设了“AnDFusion安数聚”(简称“安数聚”)隐私计算平台。该平台建立在企业的数据、网络、存储等基础设施之上,向上提供保护用户隐私的联合营销、风控、监管等业务应用,其架构如图2所示。平台内部主要功能模块包括场景应用、应用服务、计算引擎、数据服务和系统管理,各模块功能如下:
图2 安数聚隐私计算平台功能架构
(1)场景应用模块将企业内部以及外部业务合作方的多种类型数据进行安全融合,面向金融、互联网等行业客户提供联合风控、联合营销、集团监管等业务;
(2)应用服务模块涵盖从多个业务中抽象出来的场景能力,包括基于多方数据的隐匿查询、安全求交、联合统计、联合建模(联邦学习)等。隐匿查询是指查询方隐藏被查询对象关键词,数据提供方匹配查询结果却无法获知具体对应哪个查询对象,同时保护查询方的查询意图和数据提供方的数据;隐私求交是在不泄漏参与方各自原始数据的前提下协同计算输出集合的交集,一方或两方能够得到交集结果,但是双方都无法获知交集以外的对方集合数据的任何信息,实现保护隐私安全的数据求交;联合统计是在保护各方数据的前提下,利用多方数据联合统计分析,只向需求方输出统计结果;联合建模为参与方不直接交互原始数据,但是能得到和明文数据汇聚建模相同效果的模型。
(3)计算引擎模块包括若干个通过网络互连的计算节点,各个计算节点之间通过安全通信方式实现互联互通,对外提供密文计算接口,按照多方安全加密协议在计算节点之间实现密文计算。加密协议主要负责密文计算任务的执行,提供多方安全计算协议,包括秘密分享、混淆电路、同态加密、不经意传输等。同时平台提供多方计算的密文函数库和算法库,支持编写类Python 代码,实现类Python 的科学计算函数库(Numpy),深度学习函数库(Pytorch),机器学习算法库(Pai)等函数库,上层应用可基于多方计算密文函数库和算法库灵活定义应用算法,满足不同应用场景的多方数据计算需求。
(4)数据服务模块负责对接用户的数据源和明文计算服务,支持接入多种数据源、多种数据类型,并与本地明文计算服务对接进行预处理和本地计算。数据接入后形成数据目录根据权限进行发布管理和使用授权,在计算过程中对提供的数据加密后发送给计算引擎进行计算,计算完成后从计算引擎获取密文结果进行解密。
(5)系统管理模块包括任务管理、用户管理、证书管理、配置管理、资源管理和日志管理等,为安数聚平台提供基础服务功能;负责整体计算资源的管理,计算任务管理和调度功能,驱动数据接入和计算引擎进行相应工作;并根据数据的隐私性要求以及任务的实际情况灵活进行明文计算以及密文计算,对计算任务和计算资源进行有效组织、划分和调度,在保证数据隐私性的前提下最大限度的提升计算效率。
2.2 隐私计算平台部署架构
安数聚平台基于微服务技术架构,实现系统功能灵活组装。通过数据、算法和算力的解耦,平台能够支持每个参与方在系统运行过程中动态地接入或退出平台,适配实时任务数量变化动态扩展,具有非常高的可伸缩性,满足不同参与角色的价值需求。
平台根据参与方间的关系,如数据提供方和计算方是否重叠、是否有独立的调度方,灵活提供点对点对等模式、统一控制模式和代理计算模式三种部署模式(如图3 所示)。三种部署方式既可以独立部署,又可以混合部署。参与方可以根据多方计算的实际运营要求进行选择或组合,以点对点部署模式为主实现去中心化运营,以统一控制部署模式为主实现中心调度,以代理计算模式为主实现集中式运营。
图3 安数聚隐私计算平台部署架构
(1)点对点模式一般适合两方计算的场景,两个参与方各自在本地部署一套对等的多方计算平台,各自有完整的控制面,任何一方都可以独立运行。该模式中,多方计算的两方同时扮演任务调度方、数据提供方和计算方,并由其中一方发起多方计算任务。需要完成多方计算任务时,通过控制面配置参与两方为对等关系,协调调度两方的计算资源以及数据资源,实现多方计算。
(2)统一控制模式在点对点模式的基础上增加一个统一控制面,一般存在一个主动建设方部署该控制面,实现对所有参与方统一任务管理与调度。该模式中,多方计算的各实例都同时扮演任务数据提供方和计算方,而调度方则独立部署,统一调度各方资源并发起多方计算任务。统一控制模式便于各个参与方的数据资源、计算资源的共享与发现,以及多个参与方的任务管理与调度,因此其易于支持超过两方的多方计算任务,也可灵活的实现参与方的新增与移除。
(3)代理计算模式将密文计算的资源从各个参与方的部署环境中独立出来,各参与方本地只进行数据加解密,不直接参与密文计算。该模式中,多方计算的各实例扮演任务数据提供方,而计算方和调度方则独立部署,发起多方计算任务并调度各方资源,同时执行密文计算任务。这种将密文计算过程放到独立资源池中进行的模式,简化了对各个参与方的部署要求,并实现了密文计算资源的共享。此模式适合集团公司部署场景,在集团公司总部部署密文计算资源池以及统一的控制面,从而实现对整体平台的管控,快速构建共享的多方计算平台。
2.3 隐私计算平台安全架构
安全是隐私计算平台的根本,安数聚平台遵照系统通用安全设计要求和行业隐私技术应用规范,从通信安全、存储安全、数据隐私安全、计算过程安全等多个方面,提供了可靠的安全技术方法,支撑整个平台的应用安全,如图4 所示。
图4 安数聚隐私计算平台安全架构
系统通用安全参考了网络安全等级保护中的相关要求,这些安全要求在一般信息系统中都会使用,这里不做详细展开(比如其中涉及大量的安全管理方面的内容),仅对图4 中抽取的计算环境安全中的重要部分进行说明。
(1)通信安全:平台各参与方之间通信的安全协议参照SSL 协议进行实现,SSL 协议符合标准《GM/T 0024-2014 SSL VPN 技术规范》。各参与方都需要持有具有相同信任根的证书链,使用证书链建立SSL 安全通道,在建立安全通道前会进行双向认证,确定对方身份。安全通道通过密钥交换技术产生双方共享的传输保护密钥,对传输数据进行机密性、完整性保护和验证,可以避免因传输协议受到攻击而出现信息被窃取或篡改等风险。在出现通信延时、中断等情况时,采用超时重试机制完成安全通信通道的恢复,当检测到数据完整性被破坏时,会中断此次通信,并重试。
(2)存储安全:平台对一些重要、敏感数据(比如业务数据、个人信息相关的数据等)在存储时进行机密性和完整性保护,防止被窃取和篡改。
一些常见的技术类型,比如身份认证、访问控制、数据加密、数字签名等,其中底层的标准密码算法(如SM 系列)也会被这些技术所依赖。
毫无疑问,系统通用安全是隐私计算过程安全和平台应用安全的重要保障。而隐私计算过程安全是整个隐私计算平台的安全核心所在,其包括数据隐私安全和数据使用安全两个重要方面。
(3)数据隐私安全:包括原始输入数据的隐私安全以及计算结果的隐私安全。平台的每个数据提供方都在任务开始时将原始数据加密后发给计算引擎,在整个计算过程中都以加密的方式存在于计算引擎中,在计算结束后,结果以密文形式发送至结果接收方环境,结果接收方在本地进行解密(其本地环境包含一个数据解密模块),转换为结果明文。结果解密机制能够保证当结果密文进入接收方环境之后再进行解密。结果仅能由指定的结果方取走。因此整个计算过程中,数据节点是看不到中间数据的,结束后也看不到其他参与方拿到的结果。获取结果的参与方也无法获得除结果外的其他信息。安数聚隐私计算平台采用多方安全计算(MPC)协议,该协议具有严格的密码学理论证明,能够保证整个计算过程中数据的隐私安全。
(4)数据使用安全:包括数据授权使用以及使用过程可追溯。数据提供方能够对自身数据的用法(即运行在什么算法上)、用量(使用多少次、使用期限等)进行授权,只有经过授权的数据才能被输入运行。由于隐私计算过程中“数据不可见”,因此需要对数据滥用、违规使用等情况具备过程追溯能力。安数聚隐私计算平台通过计算合约技术,将数据用法、用量记入合约,并通过相关方签名生效,在计算过程中严格核验,保证数据在授权范围内使用,并按月将相关信息上传到业务存证平台,以备相关监控审计使用。
在系统通用安全和计算过程安全的双重保重下,安数聚隐私计算平台采用无安全漏洞、知识产权明确、自主可控的应用类算法对外提供应用服务。
2.4 解决方案优势
本方案采用密码算法改进、系统架构优化和软硬件结合等理论和工程化创新手段,使得平台在保障数据安全性的同时,具备计算高性能、场景可通用、数据规模和算力易扩展、平台高可用等特点,能够支持跨机构及跨行业的数据交换、联合建模及联合统计等通用功能。具体地,安数聚隐私计算平台采用算法、算力和数据层层解耦合的部署架构,此架构实现的平台优势如下:
(1)计算性能高:通过优化应用层面算法设计,对消耗资源较多的密文模块进行分析,从而设计出针对密文算法有效的优化方式;同时,在计算引擎层面,通过算法逻辑分析解构明文本地计算和密文交互计算,实现明密文混合计算,最大程度优化计算效率;支持在数据标签保密的情况下达到亚秒级模型预测;同时在接入端侧使用专用半同态加速芯片,模幂性能达到9 万次/秒,约等于1000 核CPU;另外,通过优化计算并行度,实现对CPU、网络带宽等计算资源的有效利用。例如,密码学层面提高加解密模块的并行度,使得CPU 达到最大使用率。算法层面实现任务并行,例如可以按数据集特征或样本批次,将算法划分为多个子任务,以实现线程或进程级别的并行。调度层面进行优化,以保证各个参与方都可以最大程度参与到任务中,减少因调度问题造成的资源闲置。
(2)场景通用性强:底层密文算法模块综合运用同态加密、秘密分享、不经意传输等密码学协议,构造通用密文计算;在此基础上构造高通用性密文算子库,包括400 余个函数和200 余个建模算法,实现隐匿查询、安全求交、联合统计、联合建模等多种应用服务功能,可面向客户画像、联合风控等通用性业务场景,在客户现场定制开发业务,缩短app 上线时间,获得市场先发优势。
(3)参与方易扩展:平台支持从两方到任意数据参与方的动态加入,支持多种部署方式,如计算引擎与数据接入既可一起部署或分开部署,系统管理可以部署在一方也可以部署在多方。灵活的部署方式和丰富的场景能力可以广泛满足多个参与方对于联合统计、计算、AI 建模等业务场景需求。
(4)支持海量数据集建模:最大可支持百亿级建模(行数乘以列数)。
(5)安全性强:平台兼顾全方位、多维度的数据安全设计;支持高安全等级建模,如基于多方安全计算技术进行纯密文建模和预测,对算法、交集、模型、衍生变量、标签可提供高级别保护,支持联合预测时对ID 进行隐匿等;
(6)多种建模架构可选:参与方可灵活选择多方安全计算纯密文建模或联邦建模(明密文混合计算);
(7)平台架构高可用:支持系统级的两地三中心部署架构;支持节点级的双活和负载均衡。
3 落地案例
3.1 应用背景
电商行业近年来迫于新业务增长压力和客户需求变化,亟待通过隐私计算技术实现与运营商数据的安全融合计算,根据运营商数据中的用户通信及消费特征补全自身用户画像,并进一步进行分析筛选,提升精准获客营销能力,同时降低新客拓展成本,实现运营商数据赋能业务提质增效。
电商平台作为建模需求方,江苏移动作为数据提供方,共同基于安数聚隐私计算平台进行联合建模,共享数据应用价值。联合模型充分利用江苏移动的大数据优势和电商平台行业经验,有效识别潜在高价值用户,定点投放,提升营销回报。
3.2 建模过程
江苏移动与电商平台应用安数聚隐私计算平台的模型训练业务流程分五个阶段。
(1)算法准备:电商平台导入算法。
(2)求交数据准备:电商平台和江苏移动准备双方的求交数据集,创建并且发布数据集。江苏移动提供7000 万条全量数据,数据字段包括手机号MD5 值(ID 列),用于求交;电商平台提供10 万条训练数据,数据字段包括手机号MD5值(ID 列)、label(y 列)、用户平台访问及消费信息等195个特征列。
(3)安全求交:电商平台创建安全求交合约后提交审批;江苏移动审批后,电商平台执行求交任务,得到交集手机号MD5 值、label(y 列)和195 个特征列;江苏移动得到交集手机号MD5 值。
(4)训练数据准备:电商平台将求交结果文件发布为训练数据集,数据字段包含手机号MD5 值(ID 列)、label(y 列)、用户平台访问及消费信息等195 个特征列;同时,江苏移动基于求交结果补充特征数据后在平台发布训练数据集,数据字段包括手机号MD5 值(ID)、用户通话及流量使用行为信息等271 个特征列。
(5)模型训练:电商平台作为建模发起方,创建纵向逻辑回归算法训练合约,江苏移动审批通过后,电商平台执行模型训练任务,进行模型训练和模型评估,模型训练成功后发布在电商平台和江苏移动两方,存储在双方各自的服务器路径中。
3.3 建模效果
经验证,江苏移动与电商平台联合建立的模型AUC 值≥0.8,其准确性较常规建模提高近40%,相关建模耗时如表1所示。
表1 基于安数聚隐私计算平台的联合建模任务耗时
4 结束语
面对各行各业广泛多样的数据融合应用需求,运营商数据在不同领域的业务场景均有广阔应用空间。在如供应链金融等诸多体系内,通信运营商作为支持性机构,沉淀的企业、个人等不同主体的行为等数据能够作为银行评判客户风险的补充信息,助力提升银行信贷融资服务水平,对于促进国家普惠金融健康发展、助推实体经济高质量发展具有重要意义。
展望未来,大数据与实体产业深度融合将具有可观的市场空间和前景。江苏移动基于多样场景下的数据流通实践,与合作伙伴协同建立数据生态,进一步支撑大数据和人工智能等新兴技术应用,形成广泛的价值链闭环,促进从“内部服务”向“外部链接、构建生态”转型,实现数据生态真正转变为业务价值,推动我国产业优化升级、形成高质量发展新格局。