浅析隐私保护计算技术对数据交易流通模式的影响
2022-06-01周建平郑培钿王云河靳晨时代
周建平 郑培钿 王云河 靳晨 时代
(1.中国工商银行软件开发中心,珠海 519085;2.华控清交信息科技(北京)有限公司,北京 100084)
0 引言
随着数字时代的来临,数据作为生产要素,在生产和经济活动中的贡献持续提高。加快数据要素市场化、激活数据要素潜能,早已成为我国国家战略,并被写入“十四五”规划纲要。政策和市场的双向驱动力,带动了国内的数据要素市场高速发展,全国各地纷纷开展数据交易平台等产业化的实践工作。据国家工业信息安全发展研究中心测算[1],“十四五”期间,我国数据要素市场规模将突破1 749 亿元。当前,数据交易中采用的交易机制(本文简称为“传统数据交易”)主要呈现两大特点:一是参与数据交易的各方角色被简单分为数据提供方、数据需求方以及服务平台三类,直接或通过交易平台以点对点的模式进行交易;二是交易的交付主要通过数据包或API接口形式传递明文数据。传统数据交易模式并未引起数据要素流通市场的蓬勃发展。近两年来,随着隐私保护计算技术产业化应用的迅速发展,在技术层面为数据要素流通带来了新思路,以“数据可用不可见、数据使用可控可计量”的共享流通新范式,影响了包括参与方、交易形式、收益分配、信任模型以及监管方式等在内的各个方面,也为数据交易流通带来了革新的曙光。本文从数据交易流通的技术应用层面出发,通过分析隐私保护计算技术对数据交易流通的影响,总结有别于传统的新型数据交易范式,并在此基础上进一步展望未来数据交易流通的发展趋势。
1 数据交易流通现状
1.1 国外数据交易流通现状
纵观海外,美国、欧洲及日本等地区的数据交易相关研究及实践较为突出,但总体均采用传统数据交易模式,即基于传统交易合同并应用数据包或API接口形式进行数据传输,具体情况如下。
(1)美国的数据流通体系构建可追溯至其2009年成立的联邦政府政务数据开放平台。该平台提供可免费下载的联邦政府数据以及API接口,可支持丰富的第三方应用开发。该平台的运行促进了大量市场化机构对数据流通的探索和实践。当前,各大企业采用多种不同的数据交易方式,包括C2B、B2B以及混合模式等,建立了包括personal.com、微软Azure、Acxiom等交易平台和数据经纪人(Data Broker)机制,主要以API接口方式提供数据获取及应用开发服务。
(2)日本基于其强大的个人征信体系,建立了个人“数据银行”的交易模式,以个人数据商店(Personal Data Store)的形式进行个人数据的管理、交易、流通等基本业务及个人信用评分业务。数据银行在开展上述业务中,须获得个人明确授权,并依据其政府制定的《个人信息保护法》,界定数据流通中的权属和流通范围。在2021年5月颁布的《个人信息保护法》最新修订案中,通过整合其他法案,对齐民间组织和政府公共部门的规则差异,为数据流动提供了共同规则和统一监管。
(3)欧盟着力于解决成员国众多、数据市场分裂等问题,通过规划单一的数据流通市场和机制,建立自身的“数据主权”,推动欧盟内部数字经济发展。2018年,欧盟发布的《通用数据保护条例》强调数据权利保护与数据自由流通的平衡,但其中严苛的条款在一定程度上阻碍了数据流通机制的建设进程。为进一步推动数据流通,欧盟后续发布了《欧洲数据战略》等一系列数据共享相关条例,具体举措包括由新型数据中介机构作为可信的数据共享第三方来提升成员国之间信任度的措施,以及在各个专有领域构建数据空间,包括工业、环保、交通、医疗等九大数据空间,以统一的参考框架(IDS-RAM)和数据生态机制拓展数据流通范围等。
(4)英国自2016年以来积极推动开放银行等战略,以金融机构和市场为突破口,通过API方式将金融数据授权给第三方使用,促进金融业务创新,并以提供降本增效服务等手段换取其他中小企业的数据。当前,已有超过100 家企业参与了开放银行计划。
1.2 我国数据交易流通现状
1.2.1 在政策层面
2019年10月,党的十九届四中全会首次将数据纳入生产要素。2020年3月,国务院提出加快培育数据要素市场、推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护等指导要求。2020年5月,国务院再次加快培育发展数据要素市场,建立并完善管理机制、数据权属界定、开放共享、交易流通等标准和措施。2021年5月,国家发展和改革委员会发布的《全国一体化大数据中心协同创新体系算力枢纽实施方案》为建设数据流通基础设施进一步提出可施行的建设方案。而国务院办公厅在其2022年1月印发的《要素市场化配置综合改革试点总体方案》中,更是将建立健全数据流通交易规则、拓展规范化数据开发利用场景、加强数据安全保护等进行了更细化的要求。
1.2.2 在法律层面
《中华人民共和国网络安全法》(简称《网络安全法》)、《中华人民共和国数据安全法》(简称《数据安全法》)和《中华人民共和国个人信息保护法》(简称《个人信息保护法》)的正式颁布,构建了一整套数据管理规范要求,补齐了数据流通交易中所缺乏的法律依据,为数据的合规使用提供指导,建立了中国式数据安全策略。
我国数据交易产业早在2014年就开始起步,主要可分为以各地方政府为主导的大数据交易所(平台、中心)、以市场需求为导向的大数据企业和产业联盟性质的数据交易平台三大类,但各地交易机构的运营情况远低于预期,部分大数据交易平台自2016年后基本处于“半停滞”状态,直到2019年后才出现转机(见图1)。大数据交易所通常可提供多种产品及服务,包括经过清洗及脱敏的原始数据、API接口实时更新数据、数据分析报告以及数据分析挖掘等技术应用服务。在2021年3月落地的北京国际大数据交易所新增了基于多方安全计算等隐私保护计算技术的数据融合服务,为数据需求方提供更安全的多方数据融合应用解决方案。
2 传统数据交易的特点与困境
通过分析GB/T 37932-2019 《信息安全技术 数据交易服务安全要求》,传统数据交易主要有以下特点(见图2)。
(1)数据来源:除了各级政府、机构对外开放的数据外,传统交易模式中的数据主要来自线上或线下收集的数据,包括政务公开数据、企业共享的数据、网络抓取的数据以及通过“数据提供商”采集或购买的数据等。
(2)服务架构:多在数据提供方、数据需求方和交易平台之间,以两点或三点一线的方式,进行直接或通过特定平台的交易。
(3)交付方式:遵循所签署的交易合同,以在线、离线或托管方式主要流通:原始明文数据;经过去标识或脱敏的明文数据;由明文数据经过预处理加工(如API接口)形成的“中间结果”或“数据产品”。
传统数据交易模式所需的技术门槛和平台建设成本较低,可在一定程度上满足特定场景中的应用需求,但由于其架构和交付方式上的局限性,导致无法满足数据要素时代大规模数据交易流通的需求,具体分析如下。
(1)明文数据流通易导致交易价值丧失:通过明文形式的数据包进行交易,交易后明文数据即脱离了数据提供方的控制,难以从技术上限制数据需求方对数据的再次交易和流通。明文数据一旦“被看见”即暴露信息,即可被无限复制传播。由于数据的价值在于其承载信息的不对称性,明文数据不加限制的复制和传播,就是其价值灭失过程。
(2)明文数据交易引发数据滥用风险:数据交易产生收益,在利益驱使下,仅靠合同管理很难约束数据的使用方式和使用目的,数据需求方(或机构内部的从业人员)很可能将数据用作他途,甚至再次倒卖。在这个交易链条上,出现法律事件后(如违反《个人信息保护法》)也很难追责。
(3)API接口形式限制业务应用:数据提供方以API接口方式对本地数据处理后提供结果,其计算类型和计算方式相对固化,降低了多方数据融合计算的可能性,与真正的业务需求存在偏差。
(4)平台运营难:传统数据交易只能为平台带来“一次性”收益,很难形成稳定的收入来源。而通过法律合同加交易规则的方式进行管理,增加了人工审核和维护合同的工作量,也使得交易的协商和监管的过程被排除在技术流程之外,无法通过机器自动化降低成本,难以达到规模化效益。
为了符合数据要素时代的需求,只有在保障各方权益和数据安全、扩大数据流通和应用场景的前提下,才能充分发挥数据的价值,打破“数据孤岛”“信息霸权”,保障整个社会都能从中获益。这就需要对传统数据交易方式进行改变,从根本上解决以上数据交易流通中的核心问题。
3 隐私保护计算技术
近两年来,隐私保护计算技术产业化应用发展迅速,市场局面逐步打开。在国际上与“隐私保护计算”相关的概念主要有两个,一是隐私增强技术(Privacy Enhancing Technologies,PETs),二是隐私保护计算(Privacy-Preserving Computation)。其中,PETs[4]出现较早,一般涵盖的范围比较宽泛,把从系统层面实施数据保护协议的技术都囊括其中,而隐私保护计算则可定位到具体技术。例如,在欧盟网络安全局(ENISA)的定义中,除了隐私保护计算,PETs还可包括匿名化、假名化以及访问、通信、存储过程中各种可达隐私保护技术。而联合国大数据工作组发布的技术手册中则将两种概念合并使用[5]。
国内学者对隐私保护计算概念的研究可参考由李凤华等[6]在《隐私计算研究范畴及发展趋势》中的论述,该文章中的“隐私计算”英文译为“Privacy Computing”,覆盖隐私信息全生命周期,如隐私信息的产生、感知、度量与分析、销毁等,而不仅仅是隐私保护。相比之下,目前在产业界盛行的“隐私保护计算”更多关注的是“保护隐私的技术或方案”,就如中国信息通信研究院在其白皮书中提到的,隐私保护计算是指在计算环节能够保护隐私信息的一系列技术[7]。本文所论述的“隐私保护计算”指的是后者(业界有时也简称为隐私计算)。
从数据要素交易流通的角度看,隐私保护计算的内涵可包括以下几个方面。
(1)多方:隐私保护计算需要始终保证一方的隐私数据对其他方“不可见”,最简单的应用场景(如匿踪查询)也至少需要两方参与。
(2)融合计算:大多数隐私保护计算的应用场景都涉及多个数据源的融合应用,这也是数据要素市场化对数据交易的重要需求。
(3)算法灵活:应用隐私保护计算,不应该带来对应用场景的局限性,在兼容所有可在单数据源上运行的算法类型之外,为满足数据要素市场的丰富需求,还应支持需求方在多个数据源上自主开发或者选择应用算法。
显而易见,隐私保护计算的实践应用,通常出于兼顾和平衡数据安全与数据融合应用的目的。关于隐私保护计算技术种类繁多,其分类可参考工商银行近期发布的白皮书[8](见图3),从安全信任基础的角度将隐私保护计算技术划分为:基于密码学、基于统计学、基于硬件安全以及其他传统技术几大类。在实际应用中,参与方应根据数据交易流通的具体场景,从安全、性能、成本、技术成熟度等维度进行分析,灵活选择并组合不同的隐私保护计算技术,以期结合各技术的优势,满足不同交易业务的需求。
国务院办公厅在《要素市场化配置综合改革试点总体方案》中,提出探索 “原始数据不出域、数据可用不可见”的交易范式,实现数据使用“可控可计量”。隐私保护计算技术对推动该文件落地具有重要作用。
隐私保护计算与“数据可用不可见”。在大多数应用中数据需求方真正期望获得的不是原始数据本身,而是对数据处理后的结果。数据“可用不可见”指通过信息学、机器学和密码学技术,使得除数据提供方以外的其他参与方在数据交易流通时仅获得数据的使用价值,但无法得到数据本身承载的其他额外信息。而以多方安全计算为代表的隐私保护计算技术无疑是其中一种有效的手段。
隐私保护计算与数据使用“可控可计量”。在《数据安全法》《个人信息保护法》中多次提到,需要对数据的使用方式和使用目的进行控制。由于明文形式的数据流通难以有效控制数据的用途用量,因此“数据可用不可见”的非明文流通方式成为了实现数据使用“可控可计量”的重要前提保障。隐私保护计算实现“数据可用不可见”,最终目标是实现数据使用的“可控可计量”。
隐私保护计算与“原始数据不出域”。“域”是数据提供方对数据具有完全控制能力的一个逻辑边界,在该边界内数据提供方对数据的使用目的和方式有决定权。在数据要素交易市场中,数据要对另一方“可用”,必须进行信息交互,即需要以某种方式“出域”。为保证无法反推出原始数据,首先需要的就是让“出域”的数据“不可见”。因此,从技术上看“不出域”是一个安全问题,如多方安全计算技术通过计算因子的方式[9]传递数据的使用价值,可规避数据流通中的安全风险。
同时需要注意到,在数据交易流通的场景中,隐私保护计算技术还需要结合其他的技术和非技术方法,支撑《数据安全法》等法律落地。在技术层面,可结合与访问控制、权限管理、电子计算合约、可信存证、操作日志等,提出完备的技术解决方案;在非技术层面,可运用运营管理、安全评估、估值定价、纠纷处置等完善交易流通机制,吸引更多企业加入到生态建设中来。
4 基于隐私保护计算的新型数据交易流通范式
将隐私保护计算技术应用于数据交易流通时,可根据各方关系简单分为以下几种模式。
(1)两方合作运营模式。使用隐私保护计算技术在合作双方的数据上进行应用开发,达到优势互补、资源共享的目的。在架构选择上,双方可以直接连通,也可以接入第三方中立机构(如行业协会)的数据融合平台,而在利益分配方面则可通过相互置换来实现。
(2)外部数据源依赖模式。与第一种模式不同,对数据的需求是单向的,其中一方使用另一方的数据并结合自身数据进行应用开发,并同时进行付费。
(3)数据开放模式。一般指政府部门或其他公共机构对外开放其数据,并授权指定的第三方机构,结合开放数据和机构本身的业务数据进行数据融合应用开发。政府部门的开放数据可能包含纳税、社保等大量信息,可为第三方机构业务赋能。
(4)交易所模式。所有参与方接入具备交易资质的平台进行交易,每一次交易的参与方可能都不相同。其中,数据提供方实现数据价值变现,数据需求方获得业务价值提升,算法提供方提供多样的数据服务。各方收益的分配方式既可由所签订的合同确定,也可按各方的贡献进行动态分配。
通过对以上模式进行综合提炼,可得出基于隐私保护计算的数据交易流通范式(见图4)。
在数据交易流通新范式中,通过多方安全计算等技术将数据的“可见信息”部分和不用可见就可用于计算(交易流通)的部分区分开来,流通对象不再是承载“可见信息”的数据本身,而是数据的使用价值(计算价值)。也就是说,将数据的所有权和使用权分离,实现数据“可用不可见”。同时,采用计算合约和存证机制对数据的用途用量进行控制,实现数据使用“可控可计量”。
数据交易新范式可以引入更多的参与方,通过规范各方的角色与工作,构建数据流通的“生态空间”。
• 数据需求方:向数据交易提出数据使用需求或选择特定算法服务,申请发起数据交易,并获得交易结果。
• 数据提供方:为数据交易提供所需数据资源。
• 平台管理方:运营数据交易平台和资源,提供相关服务,并根据数据需求方的需求,配置、协调服务所需资源,完成数据交易服务。
• 算法提供方:通过研发算法和数据产品,提供特定算法服务。
• 计算方:为数据交易提供计算资源,其可由平台自身提供,也可通过外部计算资源提供。
• 监管方:为数据交易过程提供审查和审计。
• 第三方服务:为数据交易提供各类专业评估、资质认证等服务。
汾河灌区是山西省最大的引水灌区,但是近些年由于农业水价格高、水质污染严重、没有合理的灌溉计划,使得灌溉面积逐渐减少,农业总产量增产幅度较小。同时由于周边地区大量采用机井灌溉,使得灌区内的地下水位大度降低,地下水漏斗逐年增加,灌区农业生产环境有恶化趋势[7-8]。在气候变化背景下,每年的土壤含水量变化极大,这严重影响了农业生产和水资源的配置。
注意在实际中,一个实体可能同时承担多个角色。
其次,以上角色通过各种技术相互配合使用构建数据交易新框架。
• 应用隐私保护计算技术。实现数据在加工、处理过程中的隐私保护,保证各方隐私数据不外泄。
• 拆分数据、算法和算力。一方面可通过对算法逻辑的安全性、可解释性等进行独立审查,进一步将数据的使用透明化;另一方面,交易平台可灵活应用不同算法封装数据服务产品,丰富平台营收方法的同时,也降低了对特定数据源的依赖。
• 推行机器可读的计算合约机制。通过“事前磋商签约”“事中监控履约”“事后审核清算”实现数据交易全链条管控。一方面作为标准法律合同的补充,解决了签约方数量、合同承载内容、机器可读性等局限;另一方面可利用机器自动化审批方式,降低维护合同成本,提升交易流程效率,保障交易参与各方的公平和利益。
• 留存操作日志和可信存证。对数据在加工处理过程和得到的中间数据、结果进行记录,并利用区块链、数据库加密等技术,进行可追溯、不可篡改的存储,确保整个过程“有迹可循”。
通过以上一整套的数据交易技术体系可夯实以“隐私保护计算+计算合约”为中心的信任基础。以隐私保护计算技术保护数据交易流通中的安全;以计算合约形成以各方签字、相互监督、共同维护的新型数据交易机制;以可信存证和操作日志为数据交易提供了“无死角”的审查、审计依据,在便于监管方管理的同时,也可在发生纠纷时佐证各方对合同的履约情况。因此,数据交易新范式可有效地解决传统数据交易中存在的核心问题,为建设数据要素市场补上最重要的一块短板。这种新型的数据交易范式已经在政务数据、金融数据、企业数据等要素市场中进行了尝试。
2021年9月30日上线的北京国际大数据交易所(以下简称“北数所”)数据交易平台,即采用了“数据可用不可见、使用可控可计量”的新型数据交易范式,是国内首家利用多方安全计算等技术探索数据交易创新模式的新平台。北数所金融数据和政务数据融合应用案例如图5所示。
金融机构在进行业主贷业务时,需要根据客户的个人信息结合不动产估值等政务数据,对客户授信额度进行综合评估。在传统的模式中,客户需线下银行柜台签署授权协议和申请表格,并提交身份证、房屋所有权证明、结婚证等个人信息。银行经过人工核验,再根据对其不动产的估值公式进行测算,得到可贷款区间。客户接到电话或短信通知后还需到银行进行二次线下办理,手续相对复杂,流程时间较长,效率较低。
采用新型数据交易范式,通过使用多方安全计算技术,融合个人的不动产数据、银行区域房屋均价和个人授权URL数据,形成可执行的计算合约,在客户个人授权的条件下,实现了自动化联合计算个人不动产资产授信贷款额度,在最大程度保护客户个人隐私的情况下,获得精准的个人消费贷款中房产风控相关数据。本项目简化了办理手续、减少了银行人工审核成本,也提高了银行个贷风控模型的精度,同时实现全流程可验证、可追溯、可审计和可监管,对个人、银行、监管部门及资产管理业务本身均具有积极意义,有助扩大业务规模、提升机构风控能力、增强监管效能,促进行业规范健康发展。
在金融行业,工商银行探索利用隐私保护计算技术将政务数据、金融数据、企业数据进行融合应用,率先在交管领域落地突破,打造了安全便捷的驾校资金托管系统[8],该系统以工商银行多方安全计算平台为依托,具体参见图6。
具体过程为,工商银行收到驾校资金划转请求后,向多方安全计算平台发起相应学员的密文查询核验,平台根据计算合约向业务数据提供方(包括珠海政务数据管理局、珠海交通管理局、工商银行、驾协驾校)发出数据使用请求,数据方审批数据使用请求后将本地数据转以密文形式输入到多方安全计算平台进行安全联合统计,最后平台将密文计算结果发送至工商银行,由后者根据计算结果触发托管资金的自动化结算。平台对以上计算合约的执行过程进行存证,保证资金托管全流程可追溯、可审计。该业务场景落地后,银行能够在保护用户隐私的前提下加强机构资金过程性管理,实现了学车费用第三方监管模式,保证驾校学员学车资金安全,有效防范驾校“先收费”“乱收费”“携款跑路”等风险,开辟了数据要素流通过程中的资金监管新范式。
当然,将隐私保护计算技术完全融入数据交易流通,使之成为数据交易流通的核心支撑力还面临不少挑战。首先,隐私保护计算技术虽然在近年来得到迅速发展,但全社会对其了解仍然不够深入,能否成为数据交易流通的新模式仍需要得到广泛共识。其次,经隐私保护计算技术处理后的数据,对其隐私性的评估仍需相关指引,是否达到匿名化的要求还需要进一步讨论。此外,隐私保护计算目前普遍面临性能效率较低、标准不统一、平台间互操作性差等关键问题仍需进一步克服,才能带来数据交易流通的长远发展。
5 结束语
在国家培育数据要素市场的大趋势下,基于《要素市场化配置综合改革试点总体方案》等国家政策,各地方政府纷纷出台数据交易相关条例、细则,其他诸如估值定价等问题也将逐步明朗,而通过对数据资源特定使用价值进行定性定量的可控运营,才能真正实现数据资源向数据资产的转化。通过数据密文化和计算合约形成的数据资产价值,是合理、合规利用数据,形成合法数字经济利益的有效手段。因此,基于隐私保护计算技术的数据要素流通新范式迎来了新的发展机遇,为建设有序流通的数据生态提供了可行的技术路径,也将成为实现数字经济快速发展的助推器。