隐私计算在金融领域的合规性分析
2021-07-09强锋薛雨杉相妹
强锋薛雨杉相妹
(中国工商银行软件开发中心,上海 200100)
0 引言
对于银行、保险、信托券商等金融领域企业,有大量和外部开展数据共享交易的业务需求,数据流通对金融业的业务有着极为重要的价值。近年来,数据泄露事件频发,明确数据的所有权,并将所有权与使用权进行分离,成为开展普遍数据流通业务的前提[1]。如何从最底层的技术手段,将数据的所有权和使用权进行分离,从源头保证数据协作的合规性,能够真正做到数据的“可用不可得、可用不可见、可用不可拥”[2],在旺盛的业务需求面前成为最大的挑战。在众多学术界和工业界的尝试中,隐私计算(Privacy Preserving Computing)技术被日益关注。对于数据及隐私保护问题,隐私计算通过综合密码学、统计学等基础学科理论及工程优化实现,可以有针对地解决目前数据协作中所遇到的各项技术挑战。本文将对数据流通相关的法律法规进行梳理,并结合隐私计算原理及其具体应用场景,对隐私计算在金融领域的合规性进行分析和研究,最后给出隐私计算相关技术落地过程的建议。
1 数据流通相关法律法规
目前,各国对于数据流通、协作等方面的立法正逐步完善[3-4]。2018年欧盟委员会《通用数据保护条例》(General Data Protection Regulation,GDPR)、2020年美国《加州消费者隐私法案》(California Consumer Privacy Act,CCPA)明确了个人数据可应用的范围及应用中用户的知悉权[5];在发展中国家,印度、巴西等国也已为个人信息保护立法;我国也相继出台了《数据安全法(草案)》《个人信息保护法(草案)》等法律法规。另外,在我国最新通过的《民法典》《网络安全法》中,对个人信息传输和使用过程中的安全问题都提出了明确的要求。由此可见,数据安全、个人隐私保护的法制化已迈向全方位的阶段[6]。
金融领域在个人信息保护的立法和实践已实行多年[7]。在《中华人民共和国中国人民银行法》《中华人民共和国商业银行法》《中华人民共和国证券法》《中华人民共和国保险法》中,均明确提出了保护个人金融信息的要求[8]。金融标准化技术委员会也于2020年2月推出了《个人金融信息保护技术规范》(简称《规范》)[9]。《规范》对个人金融信息全生命周期(收集、传输、存储、使用、删除、销毁等各环节)的保护措施提出了安全防护要求,包括事先告知金融数据主体共享或转让其金融数据的目的,并已征得主体同意;对数据进行去标识化处理,且确保数据接收方无法复原并重新识别数据主体[10-11]。同时,根据金融产品或服务的需要,将收集的个人金融信息委托给第三方机构(包含外包服务机构与外部合作机构)处理的情况,对第三方机构等受委托者也提出了明确的要求:委托处理的信息应采用去标识化(不应仅使用加密技术)等方式进行脱敏处理;对委托行为进行个人金融信息安全影响评估,并确保受委托者具备足够的数据安全能力,且提供了足够的安全保护措施[12-15]。
通过对以上法律法规的总结,可以发现:个人信息数据的共享、开放、交易,应遵循数据“不可还原”“不可重标识”的基本原则;对已授权数据或无需授权数据的使用合规性,相关的法律法规及技术规范明确要求了数据协作过程涉及的各个环节,各参与方需要承担相应的职责。
2 隐私计算技术
隐私计算技术主要分为联邦学习(Federated Learning)、多方安全计算(Secure Muti-Party Computation)、同态加密(Homomorphic Encryption)及差分隐私(Differential Privacy)4个主要方向。虽然这4种技术原理不同,但是对于“可用不拥”“不可还原”“不可重标识”的合规性要求,均具有天然的契合优势。
2.1 联邦学习
联邦学习是指多个参与方在互不公开原始数据的前提下,通过传输加密的梯度参数等模型训练中间参数,共同训练AI模型的技术,实现同时使用但不泄露各方数据,将各方数据价值最大化利用。联邦学习是机器学习技术和多种隐私保护技术的有机结合,包括多方安全计算、差分隐私等。按照参与方之间的数据特点,联邦学习可以分为横向联邦学习、纵向联邦学习和联邦迁移学习(见图1)[16-17]。
图1 联邦学习分类示意图
与直接汇集各参与方数据进行建模的技术方案相比,联邦学习避免了原始数据的传输,并对模型训练和推理过程中的参数进行保护和控制,从根本上保证数据的“可用不拥”“不可还原”“不可重标识”,从而满足各项法律法规对合规性的要求。
2.2 多方安全计算
多方安全计算是密码学的重要分支,通过一系列经过严格证明的密码学协议(如秘密共享、不经意传输等),实现了互不信任的多个参与方在不泄露自身原始数据的前提下,得到准确的计算结果。
在通过多方安全计算技术处理数据的过程中,各处理者所能获取的信息都被限定在了尽可能小的范围,同时通过对这些信息进行加密,就能从技术上限定这些信息仅能被用于当前处理的目的,从而满足监管对数据要素流通和协作的合规性要求。
2.3 同态加密
同态加密是指满足密文同态运算性质的加密算法。明文数据经过同态加密后,可以基于得到的密文进行特定的计算。密文计算的结果通过解密,等同于明文数据直接计算的结果,实现数据的“可算不可见”(见图2)。
图2 同态加密示意图
同态加密技术可以避免数据处理者接触明文数据,与“可用不拥”“不可还原”“不可重标识”的合规性要求相通,同样能够避免数据泄露的现实风险。
2.4 差分隐私
差分隐私是一种通过对原始数据加入噪声,在损失部分数据精度的前提下保护数据隐私的技术。最早由Dwork在2006年提出[18],是针对统计数据库的隐私泄露问题的一种隐私保护技术。在这个场景下,差分隐私技术能最大限度减少个体被识别的机会,同时有效控制对计算结果的影响。差分隐私不仅仅被应用到统计数据库安全领域,也被广泛应用于数据隐私发布与数据隐私挖掘中。通过对差分隐私技术进行相关的本地化工程实践,并对需要进行联合建模的数据进行安全处理,差分隐私技术也能够保护特定用户的隐私信息不被泄露。
在利用隐私计算技术完成场景建设时,通常会根据不同场景的需求和合规性要求,综合利用多种隐私计算技术实现数据联合应用合规。
3 隐私计算在金融领域应用如何满足数据应用合规
金融领域的数据共享交易,在数据安全及应用合规性的保障,以往只能通过法务及商务上的约定。当数据输出后,数据所有方则完全失去了对数据的控制,即使在法务和商务上具备事先的约定。但是如果出现输出数据被泄露的情况,对于数据所有方也会造成无法挽回的损失。
而隐私计算技术,可以做到数据的“可用不拥”,即完成双方约定的计算目标,但双方原始数据均不输出。实现法律法规对数据协作过程中的要求,并且在此基础上,可以为数据协作的各方提供更加安全的数据保障。以金融领域的5个常见案例,介绍其具体原理。
3.1 信用评分卡模型
信用评分卡模型作为金融业一项重要的风险控制手段在行业中被广泛应用。基于联邦学习的信用评分卡建模,可以实现银行和外部数据方合作建立申请评分卡。在此场景中,银行拥有部分特征和标签,数据方拥有部分特征。
首先,利用隐私保护集合求交技术,在双方不公开各自数据的前提下确认共有的交集用户,不暴露用户差集。然后,对共有样本的原始数据进行分箱,通过结合同态加密,秘密分享等隐私计算技术,计算分箱的证据权重值(Weight of Evidence,WOE),解决特征之间量纲化问题。在联邦学习的建模过程中,只能得到群体(如分箱)的统计信息,例如WOE和IV(Information Value,信息价值),但并不暴露任何个人原始数据及分箱结果。并且,在对预处理后的数据进行训练过程中,双方各自的数据均保留在本地。隐私计算技术以数据最小化为原则,将中间梯度通过秘密碎片、加密等形式进行传递,保证参与方在整个计算的过程中难以得到除计算结果之外的额外信息,也难以逆推原始输入数据和隐私信息。在最后模型应用的过程中,只获取由多个特征分箱统计结果的组合构成的预测违约概率,但无法反推出概率计算的过程和用户的原始数据。
联邦信用评分卡建模在整个过程中用到了联邦学习、同态加密等隐私计算技术,使得用户个人信息“不可还原”,从而满足了《规范》中对于个人金融信息使用时的安全防护要求。
3.2 匿踪要素核验
三要素核验是指通过验证个人用户姓名、手机号、身份证三要素是否一致,也是金融领域广泛应用的身份验证的重要手段。
目前,三要素的实现是由查询方将待查询人的姓名、手机号、身份证信息以明文方式发送给数据商或中间服务商,中间服务商可以通过与数据商进行匹配后,将查询三要素是否一致的结果返回给查询方。在这种操作方式中,由于直接采取明文数据传输和匹配,会存在两方面风险:一方面会造成被查询者的个人信息可以被定位和标识;另一方面企业查询清单可能被留存,造成用户行为及企业信息泄露。与法规中对传输数据“不可被标识”原则相违背。
基于隐私计算的匿踪要素核验,通过将双方数据进行“不可被标识”“不可还原”处理,通信运营商仅可以获取查询方的查询次数,但无法获取用户的任何查询条件(要素信息),并实现三要素核验结果的返回。
隐私计算技术,避免了用户的业务查询数据被服务商和中间商获取,从技术手段保证了法律法规中对于个人信息处理“不可被标识”的要求。
3.3 贷款客户不动产信息风险监测
在银行贷中监测系统中,银行信贷客户经理通过使用“贷款客户不动产信息风险监测”模块,可以对客户在不动产领域的风险予以监测及评估,从而识别优质的和风险的企业并给予合理的普惠扶持及监控管理。在该场景中,金融机构与地方金控集团合作,通过联邦学习引入政务数据,可以在确保数据隐私的前提下,显著提升银行对企业的贷中监测能力。银行更加全面准确地掌握企业的实时资产负债水平,对于临近资不抵债状态的企业实现及时提示预警,在加强实体经济扶持的同时进一步确保贷款质量。
该场景使用隐私集合求交技术实现样本对齐,在不泄露双方交集客户的前提下,完成双方共有客户的筛选工作。然后,通过联邦学习平台的隐私数据探查技术,在不暴露双方数据的前提下,采用双方特征和银行机构的标签,共同训练纵向联邦的逻辑回归模型。在整个训练过程中,数据不出域也不参与交换。建模完成后模型分片存储在银行机构和企业的节点中。模型的线上推理也是通过隐私计算技术协作完成。
在整个过程中,各算法任务遵从不传输原始数据的原则,利用联邦学习、多方安全计算等隐私计算技术,确保个体数据“不可被还原”,个体ID“不可被标识”,从而使此数据合作场景符合《网络安全法》及《个人金融信息保护技术规范》的法规要求。
3.4 个人风险偏好模型
个人风险偏好模型作为个人金融业务中较为重要的客户风险评测参考,在实践中会结合客户的风险测评等级和购买行为进行双重验证。基于联邦学习的风险偏好预测模型,可以实现银行和外部数据方合作建立个人风险偏好预测。在此场景中,银行拥有部分特征和标签,其中标签定义可分为以客户实际购买产品的风险等级或以客户测评得到的风险等级为准,分别用于“预测客户未来最近一次的风险测评等级”的场景和“预测客户在未来3个月内购买的产品的最高风险级别”的场景。另外,数据方也拥有部分特征。
该场景采用了基于集成树模型等方法,训练多分类模型;在训练中,双方原始数据均保留在本地,将中间梯度通过加密形式传递,实现隐私计算技术中的数据最小化原则,保证各参与方在整个计算过程中难以得到除计算结果之外的额外信息,也难以逆推原始输入数据和隐私信息。在模型应用过程中,获取由多个特征最优分箱结果的组合,构成预测用户风险等级的模型,但无法反推出概率计算的过程和用户原始数据。
在该案例中,联邦学习平台通过采用混淆样本分箱方案和混淆样本分裂方案,解决了有标签一方不想暴露真实标签的痛点,能够在双方数据都得到保护的情况下,结合双方的数据对模型效果进行提升。在建模过程中,对模型训练和推理过程中的参数进行保护和控制,保证双方数据的“可用不拥”“不可还原”“不可重标识”,避免了数据泄露的风险,实现了合法合规。
3.5 反洗钱涉赌涉诈场景建设
随着不法分子的洗钱手段日趋智能和隐蔽,新的洗钱形式不断涌现,银行自有数据样本量和丰富度面临着挑战。以往的反洗钱模型是基于核实后是否为洗钱客户的正负样本标签以及行内样本数据训练二分类模型,并用来评估一笔交易为洗钱案件的概率,对概率较高的交易进行人工核实,发掘风险名单。通过隐私计算技术,可以合规引入外部数据,构建更高效的反洗钱模型。
在该场景中,通过使用联邦学习技术与外部数据进行联合数据建模。在样本对齐阶段,无需传输原始用户信息,而是使用密码学算法计算中间掩码,确保除共有用户可根据掩码匹配外,其余用户信息不可反推,保护了全量用户信息。在交集数据的基础上,对双方变量的IV值、相关性等指标进行分析,评估外部数据对反洗钱联邦模型的贡献和业务解释性。在整个过程中,使用同态加密等密码学技术,不暴露银行建模标签和各方数据。建模过程使用联邦学习技术,确保数据的不出域,仅需传输部分同态加密的梯度和模型参数等。最后,在模型的应用过程中,使用分布在银行和数据提供方的模型联合计算,模型预测结果在银行汇总。
在该场景中,联邦学习和多方安全计算技术的应用实现了数据深度挖掘的同时也保护了原始数据的隐私性,并采用了多项隐私计算技术确保了合规要求中对用户个人信息的保护。
4 隐私计算应用尚需注意的潜在风险
隐私计算技术最大程度降低了数据泄露的风险,但仍存在部分潜在风险。
隐私计算应用应确保数据协同使用过程中授权联调的完整性。《个人金融信息保护技术规范》规定了“金融业机构应遵循合法、正当、必要的原则,向个人金融信息主体明示收集与使用个人金融信息的目的、方式、范围和规则等,获得个人金融信息主体的授权同意。”由此可见,从个人信息的收集、使用到金融机构和其他参与方的协同使用均需获得授权[19]。
从技术上来说,隐私计算给原来不能融合的数据提供了联合计算的机会,但在业务应用的过程中,仍然需要确保用户授权链条的完整性,即用户既需要授权给金融机构查询其外部数据的权限,也需要授权给数据生产方在不泄露隐私的前提下,应用和分享其数据的权力。
5 结束语
隐私计算在金融领域的应用还属于初期阶段,隐私计算相关技术也涉及复杂的前沿理论知识,开发、使用门槛较高。因此,在隐私计算相关技术的落地过程时有如下建议。
(1)数据方应该对原始数据拥有绝对的控制权。数据是企业的核心资产,同时企业也是数据泄露的责任主体。在没有数据方参与的情况下,要确保其他方无法恢复数据方的原始数据。
(2)控制接口调用次数和数据的用法用量。无限制地调用接口可能造成隐私信息的泄露,比如无限制调用预测接口可能会造成模型参数或样本数据的泄露;对于支持自定义运算(通用)的场景,也需要对具体的运算进行审核和确认,防止通过不同的运算恢复原始数据。
(3)根据数据敏感程度进行分级管理和保护。例如,《个人金融信息保护技术规范(JR/T 0171)》将《工业数据分类分级指南(试行)》等行业技术规范均规定了信息敏感度的分级分类方法,因此对不同等级的数据应采用不同级别的安全保护。