基于隐私计算技术的数据安全应用研究
2021-04-12杨晶
杨 晶
(上海仪电集团有限公司,上海 200233)
1 隐私计算技术概述
隐私计算技术是包含密码学、安全芯片、数据科学等众多领域的交叉技术,在满足保护数据安全的基础上,确保原始数据不出库,数据价值和知识出库,真正做到数据“可用不可见”。隐私计算技术主要包括:多方安全计算、可信执行环境、联邦学习等。
1.1 多方安全计算
多方安全计算由一系列基于密码学的隐私增强技术协议栈组成,至少两方持有私密数据的参与者,联合计算一个安全函数,得到各自预定输出、保证计算结果正确的同时,不泄漏任何参与方的原始数据。多方安全计算技术具有正确性、隐私性、公平性等安全特性,主要包括:秘密分享、不经意传输、混淆电路等。
(1)秘密分享:把数据拆散分割成多个无意义的碎片,并将数据碎片分发给参与方,每个参与方仅能拿到原始数据的一部分,只有把足够数量的数据碎片拼接在一起,才能还原出原始数据。
(2)不经意传输:数据发送方持有多条数据,数据接收方只接收其中一条数据,并且不能获取其他数据,同时发送方并不知道接收方选择接收的是哪一条数据。
(3)混淆电路:将多方安全计算协议的计算逻辑编译成布尔电路,并对电路中每个门的所有可能输入生成对应秘钥,使用该秘钥加密整个真值表,并打乱加密真值表顺序完成数据混淆。
1.2 可信执行环境
可信执行环境是基于硬件特性与系统软件安全架构的隐私计算技术,能够在计算机中构建多个安全运算环境。每个可信执行环境内部都能运行通用算法逻辑,并对数据实现机密计算。可信执行环境技术可确保任何外部攻击者,包括系统管理员,无法窃取运算环境内部的机密数据,也无法恶意控制运算环境算法的执行,充分保证了机密数据的隐私性、完整性与计算正确性。
1.3 联邦学习
联邦学习是通过一个中央服务器协调众多结构松散的智能终端实现模型更新,由至少两个数据方共同参与,保证各自原始数据不出其安全控制范围,协作构建并使用机器学习模型的隐私计算技术。联邦学习以数据收集最小化为原则,确保训练数据分布式存储,实现参与方数据隐私保护的特殊分布式机器学习架构。联邦学习分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习[1]。
(1)横向联邦学习:两个参与方的用户重叠部分很少,但是两个数据集的用户特征重叠部分比较多。
(2)纵向联邦学习:两个参与方的用户重叠部分很多,但是两个数据集的用户特征重叠部分比较少。
(3)联邦迁移学习:两个参与方的用户重叠部分很少,并且两个数据集的用户特征重叠部分比较少,个别数据还存在标签缺失。
2 隐私计算技术保障数据安全
十九届四中全会决议通过《中共中央关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定》,数据被增列为生产要素,国家高度肯定数据的价值和地位[2]。《中华人民共和国数据安全法》经十三届全国人大常委会第二十九次会议表决通过,要求加强全社会对数据安全防护的重视,这为国内数据应用行业提供了新的行为准则。
隐私计算为数据安全应用提供了有力的技术支撑,运用隐私计算技术,能够合理解决和高效处理数据安全领域的难题与痛点。作为数据协作过程中隐私保护的重要工具,隐私计算对保障数据安全具有积极意义,有助于降低数据协作风险、保护公共数据机密、落实数据安全责任。
2.1 隐私计算有助于降低数据协作风险
利用隐私计算技术,在无需转移数据物理存储服务器的情况下,可实现数据建模分析,减少数据协作过程中的潜在安全风险。多方安全计算、联邦学习等隐私计算技术秉承“数据可用不可见、数据不动模型动”的理念,确保原始数据不流通,只传输数据计算模型,实现数据价值安全出库。通过隐私计算技术可有效保证加密算法强度、加密密钥长度、密钥管理的安全性,继而实现数据合法匿名化。在隐私计算技术的助力下,能够实现数据合作双方或多方的建模分析,不需要将原始数据共享或存储到某一方服务器,极大降低数据协作风险。
2.2 隐私计算有助于保护公共数据机密
我国《个人信息保护法》与欧盟《通用数据保护条例》规定,保证数据最小化、完整性、机密性是处理个人数据的重要原则,这是国际社会公认的公共数据收集与处理要求[3]。隐私计算技术可充分满足这三项原则:数据最小化要求,对数据的处理数量以满足业务需要的最小数量为限;数据完整性和机密性要求,避免数据被非法处理、篡改、毁损或者不当泄漏。利用隐私计算技术,可保证公共数据的真实性与准确性,有效防止数据被无权限人员随意访问、修改、导出等,从而保障数据的完整性和机密性,高度契合当前国内外关于公共数据安全保护的立法目的与实施原则。
2.3 隐私计算有助于落实数据安全责任
通过隐私计算技术,可证明企业是否履行数据安全义务,企业履行法定数据安全义务需要制定周密的数据安全管理制度、执行严格的国际规范与标准、采取有效的数据安全保障措施等。利用隐私计算技术,可以清晰地反映企业是否履行数据安全保障、预防数据泄漏的法定义务。如果发生数据泄漏,能够及时提出相应证据,确定数据在哪个环节遭到泄漏,以及哪个主体泄漏了数据,从而避免发生因为难以查清泄漏原因和主体,导致企业可能承担举证责任倒置义务,实际又无法证明数据是否由该企业泄漏而承担相应法律责任。
3 隐私计算在数据安全领域的典型应用场景
隐私计算技术面向隐私保护与数据安全,涵盖数据的生产、存储、计算、应用等信息传输全过程,保证原始数据隐私与安全的同时,实现对数据的计算和分析。多方数据流通融合中,隐私计算技术在保护数据安全层面具备显著优势,金融征信、智慧城市、医疗健康等行业存在典型应用场景。
3.1 金融征信
在金融领域,数据的渠道联合与风险控制是业务实施的重要环节。互联网数字时代,传统金融需要不断与新兴数字化技术融合,外界数据的流通需求日益增加,跨领域的融合应用不断强化,数据的共享与开放正成为金融行业发展新趋势。隐私计算技术作为数据安全的重要保障,在金融领域中应用前景广阔,尤其是在征信系统中能发挥关键作用。
征信系统的生态圈层较为复杂,一般涉及到数据流通方、数据加工方、数据使用方三方数据融合,商业银行需要通过多个信息渠道对历史数据进行多维度计算。单个金融机构往往无法实现足够安全可靠的综合信息传输管控技术,自身的隐私性功能也有限,无法保证对外信息传输的安全性与真实性。征信系统通过引入多方安全计算与联邦学习等隐私计算技术,针对性解决多方数据流通、价值交换、隐私保护、操作授权等问题,促使海量金融数据得以高效利用[4]。
3.2 智慧城市
近年来,城市数字化转型加速推进,智慧城市规划与政务大数据建设不断完善,全国多省市设立大数据发展局、大数据管理局、大数据中心等管理单位,不断加强基于大数据的智慧城市规划与设计,完善管理制度体系。由于智慧城市涉及范围的广泛性与管理权属的分散性,在多部门数据协同过程中,容易因信息不对称与不共享形成政务数据孤岛。
智慧城市建设需要通过以互联网技术为基础的新一代信息技术应用,实现全面感知、泛在互联、普适计算与融合应用,涉及安保、能源、交通、规划、环保、文旅等各个领域,业态复杂多变,需要大量跨部门、跨行业、跨时空的政务数据流通与安全共享[5]。政务大数据平台通过引入多方安全计算与可信执行环境等隐私计算技术,切实保证司法、社保、公积金、税务等方面的数据隐私性与安全性,为智慧城市建设提供可信任的数据安全基础,结合传统的数据脱敏和加密手段,可以有效打破信息壁垒,在多方协同的情况下,保证数据的真实性、完备性与安全性。
3.3 医疗健康
随着医疗健康行业的快速发展,目前已建立一定规模的大数据应用,通过对大规模病例数据与病情数据进行深入挖掘、机器学习、模型训练,能够有效提高医学研究与病情诊断的工作效率,促进医疗服务精确度有效提升。隐私计算技术在医疗健康领域的应用会越来越广泛,通过多方安全计算与可信执行环境等隐私计算能力,可以在医疗数据不离开私有域的条件下,完成高效数据统计分析,保障隐私数据的安全性。
采用联邦学习技术,医疗数据可以进行安全可信联合分析,基因组数据、医学影像数据、临床数据可以被安全可靠地分享和计算。利用多方安全计算技术,能够实现患者电子病历数据跨域安全共享,有效解决医疗健康数据孤岛问题。
4 隐私计算数据安全应用展望
当前全球数字经济快速发展,我国已进入大数据时代,对数据要素的掌控和利用能力,已成为衡量国家之间科技竞争力的核心要素[6]。数据安全是数字经济的零因子,建设数据安全应用意义深远。利用多方安全计算、可信执行环境、联邦学习等隐私计算技术,实现原始数据不出本地,只交换数据计算结果,安全传输数据价值,有效解决数据安全与隐私保护等难题,流动的数据成为驱动数字经济发展的新动能。
“十四五”规划纲要指出,加快数字化发展,建设数字中国。为了进一步发展数字经济,数据安全产业已经在政策层面被确定为国家安全战略的重要组成部分。随着“十四五”规划纲要的逐步落地,数据资源会迸发出更强的经济活力,数据安全必将成为社会数字化发展的重中之重。通过隐私计算技术赋能数据安全应用,有效实现数据“可用不可见”的安全目标,持续为数字经济发展贡献力量。 (文责自负)