数据如何实现要素化:数据流通的新机制
2023-06-15王正位贺裴菲杨祖艳
王正位 贺裴菲 杨祖艳
数据并不等于数据要素。数据要素存在“准公共品”性、信息不对称性与负外部性等经济特征,这些特征是当前阶段阻碍数据大规模流通的主要因素。本文构建了“数据可用不可见、数据使用可控可计量”的数据要素交易新机制,从技术角度探讨解决数据经济特征的可能性。
数据如何才能成为数据要素
从2019年党的十九届四中全会正式把数据列为生产要素以来,我国正式拉开了以数据为关键生产要素的数字经济发展新序幕。在此基础上,国家和地方政府密集出台了一系列政策来鼓励推动数据行业的发展。2022年12月,国家重磅发布了“数据二十条”,这是我国第一份系统构建数据基础制度的政策文件。以这份“数据二十条”文件为标志,我国数字经济发展从技术引领进入数据驱动的新阶段。在这里,我们需要理解,数据古已有之,但它在什么时候才能成为一种生产要素——数据要素——来推动经济的发展呢?
什么是数据?实际上,从古代的“结绳记事”,到文字发明以后的“文以载道”,再到现代科技的“数据建模”,这其中用到的信息记录都叫作数据。而我国在2021年颁布的《数据安全法》,第一次从法律意义上明确了数据的定义,即“任何以电子或者其他方式对信息的记录”。在金融领域,金融业本身在一定意义上就是数据处理行业,金融数据直接反映了参与主体的金融行为,具有极高的信息量。近年来,异军突起的另类数据已快速发展并得到了广泛应用。另类数据是区别于传统金融数据、同时又能辅助人们做经济金融决策的相关数据。另类数据包括但不限于个人活动的相关数据、商业活动的数据及传感器的相关数据等。据统计,全球另类数据的市场规模在2022年已达约44.9亿美元,而在2030年估计将增长为1490亿美元。
数据是否就等于数据要素?就像钱不等于资本、人不等于人力一样,数据也不等于数据要素。数据要成为数据要素,需要具有两个条件:一是数据可读。“可读性”在社会生活中很关键,可读性差的语句会导致理解歧义、信息无法传递等。随着计算机技术的发展,数据的读取对象已经从人变成了计算机,因此需要把原始数据加工成机器可读的、具备投入生产使用条件的生产数据。二是数据流通,即让数据可以通过流通进入社会化大生产中,如同其他生产要素可以被社会化配置和利用。目前来看,数据流通正是数据要素化的难点。流通环节中的数据泄露、数据滥用、数据孤岛等问题阻碍了数据价值进一步释放。例如,电信诈骗近年来开始利用大数据行骗,但它并不是数据要素化,反而是数据要素化的障碍,其中涉及的数据泄露、数据滥用等问题阻碍了数据的正常流通。
数据要素化的难点:数据流通瓶颈
从经济学角度来看,数据难以流通的主要原因是数据具有“准公共品”、信息不对称性和负外部性等特征,其导致了传统数据流通交易实践的失败。
第一, “准公共品”性。数据要素具有非竞争性和非排他性,即数据要素是一种经济学传统意义上的公共品。一般来说,数据要素的非竞争性并无异议,主要问题在于数据的非排他性。数据的获取、流通与使用等行为产生的成本,使数据具有一定的排他性。因此,数据具有“准公共品”属性是一种更准确的说法,即数据具有非竞争性和有限的排他性,是一种“共享品”或“俱乐部产品”。“准公共品”性意味着数据要素的权属并不具有完全的私人产品特征,因此总可以被一部分数据使用者不受限制地使用,造成数据滥用。对数据的控制与权益随着流通而降低,数据的安全责任与义务却因供给而增加,最终导致权责因流通而更加模糊,这“一减一增”使得数据要素供给方的意愿进一步降低,极大地限制数据要素的流通规模。
第二,信息不對称性。数据要素的信息不对称性包含两方面,即数据要素使用的信息不对称与数据要素价值的信息不对称。其一,数据要素使用的信息不对称体现在数据要素供给方可能无法了解数据要素需求方的真实用途,且难以在数据要素使用后进行监管与追责,这就造成供给方倾向于在数据要素定价中纳入“风险补偿”,从而使得数据要素价格难以成为价值的有效反映。其二,数据要素价值的信息不对称体现在数据需求方可能在获取数据要素前无法了解其价值。在此基础上,信息不对称导致需求方的支付意愿降低,这使得价格信号无法反映真实的供给与需求,难以进行市场化的调节,导致供求机制失灵。
第三,负外部性。负外部性是指数据要素的使用对其他数据主体产生了负面影响或价值损失,例如数据在使用中可能会泄露个体隐私或集体机密,侵犯他人权利或集体(国家)利益。一方面,数据要素负外部性的存在使得私人成本低于社会成本,数据要素的价格并未真实反映社会资源配置最优情况下的边际成本,这将导致社会资源配置出现效率损失,即错位定价。另一方面,在需求方使用数据要素的边际成本无法真实反映社会边际成本的情况下,将无法通过市场调节机制达到数据要素配置的社会最优,使得数据要素难以通过市场“看不见的手”进行自发调节、形成有效配置,从而极大地制约数据要素市场的发展。因此,要有效减少或消除负外部性,需要保证敏感信息在数据流通中不被泄露。
数据要素化的路径:以技术构建流通交易新机制
如何实现数据安全可控的流通交易,已成为数据要素推动数字经济高质量发展的关键所在。如上所述,在传统交易模式中,数据作为“准公共品”的非竞争性、有限排他性充分暴露,导致价格机制失灵与数据滥用风险;传统交易模式主要通过合同或者采用应用程序编程接口(Application Programming Interface,简称API)调用方式来限制数据的用途与用量,无法有效消除数据使用的“黑箱”及潜在危害,即信息不对称性与负外部性,也存在事后监管难执行、监管成本高等问题。因此,有效的数据要素流通交易机制需要充分解决这些问题。
早期的时候,人们更多的是基于某种制度设计,例如中心化的监督,来解决这些问题,而中科院姚期智院士在40年前提出的多方安全计算这一密码学隐私保护计算技术理论,为从技术上解决这些问题提供了理论基础。多方安全计算作为现代密码学的重要分支,可实现在没有可信第三方的前提下进行不暴露明文数据的融合计算,使得明文数据不必暴露即可参与流通。这一理论由姚期智院士提出“百万富翁问题”而创立,是在保护隐私信息及没有可信第三方的前提下,为解决一组互不信任的参与方协同计算的问题。近年来,经学者与研究人员在密码学、安全协议、分布式计算、系统、算法、编译、芯片等软硬件结合的全方位持续优化与创新,多方安全计算性能得到了大幅提升,计算成本显著下降,达到了规模化应用的要求。多方安全计算的应用使得数据要素在一定程度上恢复了竞争性与排他性,不再具有“准公共品”性;同时,因为承载敏感信息的数据并未暴露,多方安全计算技术也有效限制了数据要素负外部性。
在这一部分,笔者试图以数据可控流通技术为抓手,结合多方安全计算、区块链等技术,提出“基于多方安全计算的数据要素流通交易新机制”,来探讨数据要素化的关键技术路径。
“基于多方安全计算的数据要素交易新机制”主要包含多方安全计算技术、计算合约与区块链存证,是技术与管理相结合的系统化机制,如图1所示。数据要素流通交易各方通过多方安全计算平台的数据融合计算实现数据要素流通,过程中通过计算合约进行全流程的控制与调度,通过区块链存证记录所有操作行为。参与方主要分为数据提供方、算法提供方、计算方、结果使用方、任务发起方和调度方。
基于多方安全计算的数据要素流通交易新机制的常规交易流程如下:首先,数据提供方(一般情况下为数据卖方)将原始数据通过密码学技术加密生成计算因子参与交易。其次,算法提供方、计算方,为数据要素交易提供算法或算力支持,在数据要素交易过程中为数据要素赋能、增值。最后,结果使用方(一般情况下为数据买方)通过多方安全计算平台获取计算结果并解密,完成数据要素交易。除多方安全计算外,整个交易流程还须辅以计算合约与区块链存证共同实现。计算合约由各方共同签署,以规定各方的角色与交易内容、交易中使用的数据与算法(含模型及参数),以及使用目的、次数或期限等。任务发起方与调度方履行交易任务的发起、管理和协调等职责,确保各方按照交易前约定的计算合约严格执行,并通过区块链存证记录所有操作行为。
新机制的主要原理在于:一是“数据可用不可见”解决“准公共品”性问题。计算因子的保密性与随机性带来了竞争性和排他性,从而有效解决由“准公共品”性带来的价格机制失灵的问题。多个参与方可通过计算因子进行协同计算,但除计算结果及其可推导出的信息外,不泄露各方任何其他信息(包括明文数据或计算因子)。二是“数据使用可控可计量”解决信息不对称性与负外部性问题。计算合约与区块链存证通过明确权责、严控用途用量,消除交易过程中的负外部性与不确定性,解决了数据用途用量“不可控、不可计”的問题,使得数据要素在交易中“可控可计量”。
总结
数据并不等于数据要素。数据要素化能够推动我国数据资源通过市场化配置实现在全社会范围内的广泛流通,推动数据资源全面进入社会化大生产。区别于传统生产要素,数据要素存在“准公共品”性、信息不对称性与负外部性等经济特征,这些特征是当前阶段阻碍数据大规模流通的主要因素。因此,我们将多方安全计算和计算合约技术相结合,构建了“数据可用不可见、数据使用可控可计量”的数据要素交易新机制,从技术角度探讨解决数据经济特征的可能性。
“基于多方安全计算的数据要素流通交易新机制”具有以下意义:一是防止数据要素滥用,打开数据交易“黑箱”。通过多方安全计算技术与计算合约及区块链存证,实现“事前”“事中”“事后”全流程可控可查。二是带来多元化的数据流通定价机制。基于多方安全计算的数据要素交易新机制,本质上是一个通过配置与整合多方数据资源(包括算法、模型、参数),利用计算资源(算力和带宽)进行加工,最后把计算结果交给结果使用方的过程。在此过程中,以计算因子形式参与交易的数据、算法、模型、参数、算力、带宽等可被分离为独立产品,从而被独立定价并参与收益分配。三是拓展交易边界,创造多方、多边的新型市场结构。基于多方安全计算的新机制,可将独立的算法提供方、计算方融入数据要素交易流程中,打破传统的“数据提供方—数据使用方”的双方交易模式,这种多方、多边的新型市场结构也适用于大数据交易所等基础设施的设计理念。
(王正位为清华大学五道口金融学院党委副书记、副院长、副教授;贺裴菲为清华大学金融科技研究院院长助理,杨祖艳为华控清交信息科技(北京)有限公司副总裁。本文编辑/孙世选)