浅析金融领域的隐私计算应用
2023-05-30朱之伟张锡安
朱之伟 张锡安
一、隐私计算的产生背景
数字经济时代,融合多维数据并充分挖掘和利用其内在价值,成为金融业发展的重要战略方向。随着数据合作共享的深入,数据滥用、隐私泄露等事件频频发生,为此我国相继出台《数据安全法》《个人信息保护法》《征信业务管理办法》等法律法规,严格要求在数据使用过程中做好隐私保护,这在一定程度上给金融数据的融合应用设置了刚性底线。由于法律法规对个人金融数据保护的严格要求和金融机构之间的竞争关系,机构之间无法直接共享原始数据,造成各机构间数据彼此孤立、无法流通,金融数据无法发挥出最大价值。金融机构迫切寻求一种可靠的技术,能够在保证合法合规的基础上打破数据壁垒,实现数据融合应用。应运而生的隐私计算技术能够让金融行业在满足保护数据安全和个人隐私的前提下,最大化挖掘金融数据价值。
二、隐私计算的技术路径
隐私计算是“隐私保护计算”的简称,是指能够实现“隐私保护+数据共享”技术的集合。目前金融业应用的隐私计算核心技术包括多方安全计算、联邦学习、可信执行环境、差分隐私等。
(一)多方安全计算
多方安全计算(简称MPC)是指各参与方在不依赖第三方提供可信环境,且不泄露自身原始信息的情况下,通过网络协同共同完成某一计算任务。其特点是即使参与各方输入的数据只有自己知道,仍可以通过加密算法分析,各自得到自己想要的计算结果,且其他各方无法推断出原始数据信息,从而保障了隐私安全。目前学术界针对各种多方安全计算模型设计了多方安全计算协议,涉及秘密分享、不经意传输、混淆电路、同态加密等技术。
1. 秘密分享。秘密分享也被称为秘密分割,是一种秘密信息管理方式。典型的秘密分享方案由秘密分割算法和秘密重构算法两部分组成。分割阶段,将一条秘密(信息)进行拆分,拆分后的每一个子秘密由不同的多个参与者管理,单个参与者无法恢复秘密信息。重构阶段,信息的重构需要至少t(1 2. 不经意传输。不经意传输是一种可保护各方隐私的秘密选择协议。在不经意传输协议中,消息接收者根据一个选择信息,从消息发送者那里获得对应的消息。其特点是消息接收者仅能获得其选择的那条消息,对于剩余的其他消息无从所知;消息发送者仅能知晓其提供了一次服务,但是无法获知哪一条消息被接收,从而保护了参与者的隐私。 3. 混淆电路。混淆电路利用计算机模拟集成电路的方式来实现安全计算,将计算任务转化为门电路的形式,并且对每一条线路进行加密打乱,然后发送方将加密电路即计算逻辑和加密后的标签输入给下一个参与方,接收方筛选标签,选择对应加密电路,解密后获取计算结果。 4.同态加密。同态加密是基于数学难题的计算复杂性理论的密码学技术,它能够实现加密信息间的计算功能,且计算结果和原始数据直接计算为等价关系,通俗来说,先计算后解密可与先解密后计算两种方式画等号。根据运算类型可以将同态加密分成半同态加密和全同态加密两个大类。其中全同态加密指的是能够同时支持加法与乘法运算的同态加密方案。半同态加密是对只能支持或者加法、或者乘法一种运算的同态加密方案的统称。 (二)联邦学习 联邦学习(Federated Learning),是一种人工智能与密码学相融合的技术。通常可以理解为是由两个或以上参与方共同参与,在保证数据不出安全域的前提下,通过构建一个模型网络,使参与者可以在自己的终端使用本地数据对模型进行迭代,并将模型的优化内容进行上传汇总,将不同终端的模型更新进行融合,以此优化计算模型,是一种只通过交换模型参数进行联合训练机器学习模型方法。联邦学习始终将参与数据存储在本地,最大限度地避免数据泄露风险。 联邦学习网络架构分为有中心服务器架构和无中心服务器架构。一是有中心服务器的联邦学习。网络架构为中心服务器——参与者客户端,利用各方信任的中间节点服务器,向各参与方客户端发送任务模型参数,各参与方利用自有数据对模型进行训练,将参数传回中心服务节点,中心服务器对各方传回参数进行聚合运算,反复几次,最终训练得到一个优质的全局模型。二是无中心服务器的联邦学习。网络架构为参与者1客户端——参与者2客户端。参与各方按照顺序进行模型训练,由于对等网络架构中不存在中心服务器,安全聚合由参与各方通过彼此间交换参数、自行进行聚合运算得出。 (三)可信执行环境 可信执行环境(TEE)是一种基于计算机硬件的隐私计算技术,在计算机硬件平台上利用安全芯片架构,构建出与外部隔离的安全计算环境,各方数据统一汇聚到该区域内进行运算分析。其特点是将数据和操作系统隔离,但保留与系统运行环境之间的算力共享。目前主流的可信执行环境有英特尔的SGX(Software Guard Extensions)技术、ARM的TrustZone技术以及AMD的安全内存加密技术等。 SGX技术是英特尔公司通过提供一系列CPU指令码,允许用户创建具有高访问权限的私有内存区域,该区域数据只能通过特定CPU硬件解密,其他手段均无法访问。TrustZone技术是ARM公司在硬件处理器层面设置了安全域和普通域兩大区域,两个域之间有硬件隔离和不同权限等属性,任何时刻处理器仅在其中的一个环境内运行。一般来讲普通域用于提供正常的操作环境,安全域提供机密数据的访问和存储。AMDZen技术是由AMD于2016年提出硬件内存加密机制,在原有的CPU中引入了新的片上芯片系统,将SME与SEV与现有的虚拟化技术进行了结合。 (四)差分隐私 差分隐私指利用加入随机噪声的方式,最大化数据查询的准确性,减少推断或识别个人隐私的可能性,从而达到即便攻击者已经掌握了除某一条信息以外的其他信息,该攻击者仍然无法推测出这条信息的目的,主要用于数据库统计信息的安全查询。差分隐私分为全局差分隐私和本地化差分隐私两大类。其中,全局差分隐私是用户将原始数据直接存储在一个可信服务器上,通过加入很小的噪声来达到保护数据集的目的;本地化差分隐私是指用户在本地随机化原始数据后再发送给服务器,使用户得到更强的隐私保护,但这一过程中加入的噪声远大于全局差分隐私。 三、隐私计算在金融领域的应用场景 随着隐私计算技术研究推广应用,在金融领域的实践也日渐增多,金融机构和金融科技公司开展隐私计算平台建设,在智能风控、精准营销、反洗钱、供应链金融等领域进行试点并产生了很好的经济和社会效益。 (一)智能风控 银行等金融机构在对客户进行信贷风险控制时,为了得到更加精准的信用风险预测结果,需要综合分析客户各方面数据情况,训练风控数据模型,对客户信贷风险进行多方位评估。隐私计算帮助银行等金融机构无须交换明细级原始数据即可联合社保、税务、司法等其他数据源共同建立贷前、贷中、贷后的全流程风控模型,提高资源配置效率,促进风控管理差异化和精细化。如工商银行山东省分行运用多方数据学习、同态加密、机器学习等技术,构建普惠信贷风控平台,在联合建模参与方数据不出库的前提下,将工商银行经验风控规则、流水信息等与移动运营商数据标签相融合,打造出一套持续动态自适应风险管控生态,丰富小微企业的信息维度,提升银行在普惠信贷场景的风控能力和对小微企业的授信精度,实现金融服务实体经济的“精准灌溉”。 (二)精准营销 近几年结合大数据、人工智能等技术描绘用户画像的精准营销方式已在金融行业内广泛开展。隐私计算技术可以以密态方式整合多机构间多维度的数据,构建更立体的用户画像,帮助金融机构共享各自的用户数据进行营销模型计算,根据建模结果制订营销策略,以达到资源优势互补、开拓市场广度和挖掘服务深度等精准营销目的。如南京银行上海分行综合运用大数据人工智能、多方安全计算等技术构建差异化营销平台,以差异化营销平台为支撑,通过对行内存量客户内外部数据的分析评估,细化推演客户的权益偏好,缩小营销产品匹配范围,为不同风格类型的存量客户提供定制化、差异化的营销产品,提升营销服务响应率,增强金融服务质量及用户黏度。 (三)反洗钱 近年来,不法分子依托人工智能等高科技手段,使洗钱行为呈现出更隐蔽、成本更低的趋势,传统的基于规则的模式反洗钱机制已无法满足当前监管的需求。基于隐私计算技术,打破数据壁垒,实现数据安全共享,搭建行业级数据安全融合平台,可帮助监管部门更精准地获取洗钱风险评级信息,实现交易时序及资金流向的全链路监测和分析,精准挖掘具有反洗钱嫌疑的异常资金结构和反洗钱团伙,对洗钱等犯罪行为进行有效打击,有利于保障我国金融体系的安全稳定。 (四)供应链金融 通过隐私计算,在数据可用不可见前提下,将税务、电力、其他领域数据与企业交易流水、票务数据等金融数据相融合,实现上下游企业间数据的安全联合统计分析,为银行对小微企业供应链融资中风险防控等场景的模型补充数据内容,增强小微企业信用评估的准确度,扩大银行供应链金融服务半径。如工商银行青岛分行采用多方数据学习,在确保各方数据安全隐私的前提下,将经过客户授权的银行内部数据(贷款信息、抵质押信息、供应链单据等)与海关、仓储、物流(水运、海运、陆运以及铁路)等三方数据进行共享与核验,打破供应链融资的核验盲区,為银行在“互联网+”形式下通过新型供应链融资平台赋能提供系统依托。 (五)智能运营 通过联邦学习、多方安全计算等隐私计算手段安全合规地利用第三方数据,实现对客户群的分类、客户特征描述、产品需求偏好分析等,形成对客户的全维度画像,充分发掘客户与金融机构间的关联行为以及需求状况,进而为特定群体客户、特定业务引流,提升促活效率,实现数据运营的全流程把控。如瑞莱智慧公司与多家银行合作,利用隐私计算技术建立智能运营全流程把控平台,为银行各地分支机构部署隐私保护机器学习节点,实现内部以客户为中心的信息互联,极大提升了用户在运营场景的效率,为银行机构创造价值。 四、促进隐私计算在金融领域应用的思考与建议 隐私计算在金融领域有许多可落地的应用场景,但由于隐私计算技术仍在研究发展过程中,金融行业的隐私计算应用需要不断完善进步。 (一)完善隐私计算技术标准体系 2020年11月,中国人民银行发布的《多方安全计算金融应用技术规范》,规定了多方安全计算金融应用产品的基础要求、安全要求、性能要求。除此之外,在其他隐私计算技术和应用标准领域还存在着大片规范空白,监管部门和金融机构在开展隐私计算应用时缺乏相关依据,容易各自发展、自成体系,不利于技术的融合发展。监管部门应在多方安全计算标准的基础上,继续从技术基础、互联互通、技术安全、性能要求等方面健全标准,明确技术的方法、性能、可靠性等问题,形成完整的隐私计算技术标准体系,制定隐私计算技术在金融领域应用的实施指南,促进隐私计算技术在金融行业的发展应用。 (二)提升隐私计算技术伦理治理水平 近年来金融科技伦理问题受到广泛关注,有关客户数据资料处理、客户生物信息采集、训练数据信息运用的基本规则较为模糊,金融服务数据化、智能化升级的背后隐藏着严峻的数据道德危机。金融监管部门应积极探索建立算法备案制度,增强对算法的审核管理,确保算法可追溯性和可审核性,设置歧视控制机制,防止出现针对特定群体的偏见评价和服务。同时,金融机构应建立伦理审计制度与信息披露制度,将伦理道德纳入金融机构全面风险管理和内部控制流程,培养金融科技工作者伦理意识,转变重技术、轻伦理的观念。 (三)制定隐私计算技术检测认证机制 权威认证能为行业树立技术发展和应用的标尺,我国目前在金融领域缺乏权威规范的隐私计算技术认证方案和机构。在隐私计算产品和平台的认证方面,建议金融监管部门制定隐私计算技术认证机制,建立官方认证白名单,帮助金融机构选择合适的技术服务商,最大程度减少隐私计算技术的后顾之忧。 (四)提升隐私计算技术的应用成熟度 目前隐私计算技术在技术本身的安全和可靠性方面有待提高。其中,可信执行环境由于其中心化可信程度,导致其在硬件的安全性、依赖性、可扩展性方面饱受诟病;联邦学习技术模型在用户之间传递,存在模型梯度泄密的可能性。为此,下一步应加强密码算法建设,支持国家密码管理部门认证的密码算法,免受恶意程序和特殊权限的破坏;不断优化隐私计算算法,增加算法复杂度,大力研发易用通用的隐私计算产品。 (五)打造权威认可的应用案例 示范推广对于新技术发展具有非常重要的意义,近年来,金融科技应用试点、金融科技赋能乡村振兴示范工程、金融数据综合应用等金融科技试点开展得如火如荼。政府部门应借试点“东风”,筛选一批具有代表性的隐私计算示范项目,总结和宣传使用效果和经验教训,为技术的大规模推广打好坚实基础。金融机构应搭“示范便车”,深入挖掘隐私计算技术的应用场景,加快自身数字化转型进程。 (责任编辑 刘西顺;校对 XS,WY)