数据流通市场中数据产品的特性及其交易模式
2022-05-13黄丽华窦一凡郭梦珂汤奇峰李根
黄丽华,窦一凡,郭梦珂,汤奇峰,李根
1. 复旦大学管理学院,上海 200433;
2. 上海数据交易所有限公司,上海 201203
0 引言
自从党的十九届四中全会提出将数据作为新型生产要素以来,数据的要素价值已经成为社会共识,相关政策和立法也成为当前的制度改革焦点。2020年4月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,首次提出加快培育数据要素市场。2022年1月国务院发布的《“十四五”数字经济发展规划》再次指出,数据对提高生产效率的乘数作用不断凸显,已成为最具时代特征的生产要素。与此同时,《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》三大法律陆续出台,为数据要素市场稳健发展构筑了法律边界。各地政府也在积极跟进,推动数据市场的建设。
我国的数据交易机构最早于2014年出现,各地先后设立了40多家数据交易所(或称数据交易中心、数据交易平台),然而发展态势不一。同时,一大批商业机构也在陆续进入数据流通与数据服务市场。然而,这个趋势一方面存在跟风之嫌,另一方面也始终未能解决“确权难、定价难、入场难、互信难、监管难”的五难困境,导致数据产品“不能流通、不可流通、不易流通”的现实问题一直存在。
商品是市场的核心,倘若没有可供交易的商品,市场将不复存在。我国数据要素市场的前期探索遇到的困难很大程度上是因为对可供交易的数据产品及其交易模式的认识和界定不清晰。从根本上看,数据产品本身的独特之处导致其市场组织比传统商品的市场更加复杂。在这些独特之处中,除了广为人知的大数据特性(如规模大、增长速度快、类型多样化等)、高固定成本和低复制成本的成本特性、非竞争性、非稀缺性、非均质性、非排他性、无限衍生性、外部性、内生性等特性, 本文提出的数据产品的可计算性(computability)也给数据产品参与市场化配置的过程带来了新的挑战[1]。
基于此,本文将结合电子市场的经典理论框架和交易成本、交易模式等领域的相关文献展开分析,力争为数据要素市场的长期健康发展提供更加全面的理论基础。需要说明的是,本文的研究目标是从市场视角认识数据产品特性及与之匹配的交易模式,因此分析的前提是数据产品本身达到合规合法的有关要求,后续讨论中不涉及数据确权和隐私保护等相关法律议题。
1 数据产品的流通过程分析
1.1 数据产品的基本特性
随着过去十多年以来电子商务和大数据、人工智能的发展,数据开始作为产品参与交易。一般来讲,数据产品是指作为产品的数据集,或者从数据集中衍生出来的信息服务[2]。与数据产品接近的一个概念是数字产品[2]。数字产品通常是指那些通过电子设备或渠道来使用或消费的无形商品,比如电子书、可下载的音乐、软件等。二者名称相似,但存在诸多差异。首先,数字产品的商品形态更加成熟,故生产和消费单位通常是固定的商品单位,例如一本电子书或一部电影;而数据产品本身更接近原材料,目前也并未形成普适的计量体系。其次,数字产品的生产和交易之间的边界较为清晰,反观数据产品则具有可聚合性和可编辑性,通常在交易阶段依然需要根据客户进行各种调整,例如数据的聚合和筛选等。再次,数字产品的价值通常可以根据市场的反馈进行评估,例如电影的票房、电子书的阅读量等,而数据产品可能被投入后续算法的训练中,最终价值的体现在一定程度上和后续算法的表现有关。最后,数据产品流通的另一个独特之处是“可用不可见”的交易过程,我国数据市场实践中也正在积极探索。例如北京国际大数据交易所将数据要素解构为可见的“具体信息”和不可见的“计算价值”,为数据供需双方提供可信的数据融合计算环境,实现数据“可用不可见、用途可控可计量”。此外,区块链技术和联邦学习的结合也是实现数据互联互通的一种方式[3-4],但上述方法都处于早期的探索阶段[5-6]。
1.2 从交易成本看数据产品流通
市场是资源进行有效配置的主要手段,而交易成本会阻碍市场充分发挥配置作用。Coase R H[7]最早将交易成本分为价格发现成本、谈判成本和合约执行成本等。 Williamson O E[8]在此基础上把交易成本分成事前和事后两类。基于企业之间组织交易的方式不同,陈郁[9]提出了一系列市场规制,而影响这些市场规制的主要因素包括交易的不确定性、交易频率和资产专用性。其中,资产专用性是指资产能够被用于其他用途并由其他使用者重新配置而不牺牲其生产价值的程度。Williamson O E[10]提出的资产专用性包括3个维度 ,即场地专用性、实物资产专用性和人力资产专用性。如果一个商品难以被其他企业使用,则该商品具有更高的资产专用性,这一概念后期被进一步拓展到更多的维度[11]。
数据产品的交易成本首先体现为高度的不确定性,主要是指数据质量预期的模糊性和随机性,这导致买卖双方都没有明显的信息优势。尤其特殊的是,即使在交易的数据被用于分析后,都很难测度这个数据到底对算法带来了多大改进和帮助——类似于多米诺骨牌,虽然每一块都离不开,但并不能说最后结果全靠某一块骨牌。因此测量数据产品价值的方式需要提前约定,这就不可避免地涉及复杂的谈判过程[12-13]。部分情况下,也可以由供方在交易前提供数据样品来简化这个过程。
许多数据产品也具有较为显著的资产专用性。从Williamson O E[10]提出的资产专用性3个维度来看,数据作为生产要素也存在场地专用性、实物资产专用性和人力资源专用性[14]。当数据驱动的决策模型用于某个业务流程或价值链中的协作决策时,就会产生场地专用性。例如,实时竞价广告市场中交易的各类数据就带有典型的场地专用性。而当某个数据源对算法性能的影响至关重要时[15],数据就会表现出特定的实物资产专用性。人力资产专用性则更加明显,不同行业不同领域不同算法的专家都可能存在不同的知识积累要求和学习过程,从而使得数据产品往往属于具有高资产专用性的产品。
1.3 从电子市场框架看数据产品流通
电子市场指采用电子化的手段构建开放式的市场,使得供需双方能够彼此发现和形成交易。与电子市场并列的另一个概念是电子层级,指在不同的组织之间通过电子化的手段实现彼此之间的协调活动,如连接供应链上不同公司的数据库。Malone T W等人[16]认为,随着信息技术的广泛应用,企业选择电子市场还是电子层级来获取外部的资源,取决于产品的描述复杂性和资产专用性,如图1所示。其中,描述复杂性是指卖家为了说服潜在买家而需要提供的产品信息量。关于资产专用性,除了Williamson O E[10]提出的3个维度,Malone T W等人[16]还提出了时间维度的资产专用性。也就是说,如果商品价值高度依赖于在特定的、相对有限的时间内到达用户,那么该商品存在时间维度的资产专用性。基于这两个维度,Malone T W等人[16]指出,随着信息技术的叠加应用,研究人员可以不断地通过丰富的产品展示手段来降低产品的描述复杂性,同时信息技术的应用可以减少特定人员的参与,也降低了资产专用性,因此信息技术的应用使得市场从层级控制走向电子市场,即图1中间的横实线或竖实线可以向上或向右移动。
图1 Malone T W等人[16]提出描述复杂性和资产专用性的降低使得电子市场更加有效
相比于传统的实体商品和软件等数字产品,笔者认为数据产品进入市场流通时还存在的一个显著特点是数据产品的可计算性。可计算性体现的是一个数据产品被购买方用于清洗、重构、与其他数据融合并最终产生新的分析的可能性。从测度上来看,可计算性是一个综合的指标,基于笔者团队的前期研究成果,许多与数据相关的基础指标都能够影响数据的可计算性,如数据的维度、颗粒度、观测量等,随着这些基础指标的增加,数据产品被用于其他分析的可能性,即可计算性逐渐提高,所带来的价值通常也会提高[17]。从购买方式来看,可计算性与营销学文献中的“消费者参与创造”也有类似之处[18],例如乐高积木这类商品,消费者购买后获得的乐趣很大一部分来自自身参与设计和搭建的过程,并且最终搭建的商品的可能形态也不固定,与消费者本人的创造力、耐心、兴趣都有关系。在数据场景中,这个过程就是计算。可计算性最终导致数据产品在进入市场时存在比较高的描述复杂性和资产专用性。一方面,数据市场的产品大多来自供方的业务信息系统的输出或统计结果,每项数据的采集过程、抽样方法、详细定义、处理流程等说明过程都涉及供应方的业务细节或机密,尤其是多源数据之间如何形成连接、缺失数据的合理处理方式等,都给数据产品的描述工作带来了额外复杂度,往往需要借助数据样本和数据沙箱等才能让数据的需求方充分理解。另一方面,不同的数据需求方在将购买数据用于计算的过程中,数据来源、数据质量、融合方式、模型设定、测试过程等可能都存在专用化的需求,对一个公司毫无作用的数据被另一个公司加以利用后可能产生巨大价值。这一点体现了数据的可计算性可能导致数据的资产专用性变得更高。
遵循图1,本文将可流通的数据产品分为4个象限,即“低描述复杂性-低资产专用性”“高描述复杂性-低资产专用性”“低描述复杂性-高资产专用性”“高描述复杂性-高资产专用性”4个产品类别。
1.4 从交易模式视角看数据产品流通
随着信息技术的发展,企业之间的交易基于电子方式实现数据的共享和流通,从而形成了多种电子交易的模式。从产品逻辑来看,电子交易市场模式主要有5种[19-20],如图2所示。其中第一类是看似简单的“数据管道(1对1)”模式,即单个数据供应商和单个客户之间建立了交易,是典型的电子层级。第二类是“客户主导的数据集市(n对1)”模式,即某个客户有多个数据供应商,客户通过建立数据中心并邀请多个供应商提供数据产品(比如某个银行有60多个数据供应商)。第三类是“供应商主导的数据集市(1对n)”模式,即某个数据供应商为多个客户提供数据(如彭博市场数据传输服务、百度API)。第四类是“数据平台市场(n对m)”模式,即允许数据供应商和客户之间进行多对多的交易(如上海数据交易所、AWS Data Exchange)。在这种模式中,数据产品不确定,交易双方存在信任障碍,因此需要平台提供额外的“产品试用”服务或提供“经纪商”角色服务。第五类是“做市商市场(n对1对m)”模式,即由一个独立代理商来完成数据买卖双方的交易业务。对于不同的数据产品,最匹配的数据交易模式可能不同,而通常提到的数据交易所和交易中心大多符合第四类的情形——即平台不持有数据,只连接供需双方[21-23]。
图2 电子交易市场的5种模式
2 国内数据流通市场的数据产品分析
2.1 国内数据流通市场的数据产品现状
自2014年我国最早的3家数据交易机构(中关村数海大数据交易平台、北京大数据交易服务平台和香港大数据交易所)建立以来,目前已有40多家数据交易机构先后成立,如图3所示。然而,已有不少机构停止业务。2020年4月,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,明确提出引导培育大数据交易市场,依法合规开展数据交易。全国各地开启了新一轮的数据交易市场建设,2021—2022年先后有15家机构成立。上海数据交易所于2021年11月成立,标志着我国数据流通市场的发展进入新的阶段。除上述由地方政府推动组建的数据交易所外,许多由商业机构设立的数据流通场所也不断涌现。
图3 我国数据交易机构成立情况
上述市场的建设思路大致可以分为两类。第一类是平台类市场,如贵阳大数据交易所和上海数据交易所。第二类则是单边市场(或称为数据集市),即由数据密集型企业主导建立的数据交易或服务市场(如中国电信、国家电网、阿里巴巴等);或是由“采销一体”型专业数据服务企业主导的交易市场,这类机构往往面向特定市场的需求,采集特定资源,根据业务需要组织成数据产品,如万得(Wind)数据、聚合数据、数据堂、京东万象等。
本文收集了25家数据交易机构在经营规则或机构说明中披露的数据产品和服务类别,归纳出现有数据要素市场上的七大类数据产品:数据集(或称为数据包)、基于API的信息服务类产品、基于许可证(license)使用的数据产品、以清洗加工处理为主的数据处理服务、以分析和建模为主的数据应用服务、数据分析工具服务和行业研究报告,见表1。在这7类产品中,数据处理服务和数据应用服务往往需要根据客户的具体要求,按项目制方式提供一对一长时间的服务与互动,本文暂未将其作为可供交易的数据产品,而是作为交易机构的增值服务(在后文的分析中作为数据服务来分析)。而行业研究报告按前文所述,属于数字商品,因此后文也不再涉及。
表1 全国25家数据交易机构的产品情况
2.2 国内数据流通市场的数据产品及其服务的交易模式
结合图1,对我国现有数据流通市场上出现的数据产品或数据服务进行分析,见表2。其中,数据集产品往往可以结合统计指标进行描述,因此描述复杂性不高,但某个数据集通常可以用于多个不同的领域,因此资产专用性依赖于场景。API和许可证类的商品往往需要具体的操作说明,并且与设备、接口以及结果代码含义等有关,通常对需方的数据对接能力有一定要求,因此描述复杂性略高于数据集产品。数据处理服务、数据应用服务通常需要根据客户的具体要求定制化实施,因此资产专用性较高或很高。
将表2中的数据产品或数据服务按照图1和图2所示框架归类,如图4所示。可以看出,上述这些数据产品或服务并非均适合数据平台市场。适合在数据平台上进行交易的数据产品是可计算、具有一定通用性(排除高度定制化服务)、可以描述清楚、可以重复交易以及符合国家法律规定的数据产品。目前只有数据集这一类产品适合在数据平台市场或交易中心进行自主交易(即n对m的形式)。买卖双方在没有占主导地位的市场参与者的情况下,根据平台提供的合约模板达成双方均可以接受的交易内容、交易价格和交易成本分担方法,从而带来平台市场的流动性。然而,由于数据产品本身的不确定特性,平台运营商需要建立一套科学的交易规则和服务,促进买卖双方的信任交易行为。而对于那些需要大量业务知识或技能进行处理才能使用的数据集产品,可以采用数据平台市场、做市商市场模式进行交易。
图4 数据产品及其服务的交易模式与两维度之间的匹配逻辑
表2 不同类别数据产品或数据服务的两维度差异
目前我国数据市场中数量最多的是行业应用类数据服务,即提供针对特定行业的解决方案。例如华东江苏大数据交易中心网站上在售的品牌营销解决方案、政企行研解决方案、企业创新解决方案、电商风控解决方案等,其购买途径需要通过管家咨询匹配,深度了解诉求,定制解决方案,并最终在特定企业应用。这一类数据服务并不适合数据平台市场,而更加适合电子层级的交易形式,即一对一服务的模式。同样,贵阳大数据交易所、山西数据交易平台所列的数据处理服务也适合电子层级的交易形式。
相较而言,API产品、许可证产品属于描述复杂性较高、资产专用性较低的数据产品,比较容易以集市交易模式进入数据流通市场。例如,北部湾大数据交易中心的数据产品主要为数据API,截至2020年年底(其成立4个月时),交易规模已突破1 500万元,登记注册企业已超过120家,数据服务调用次数已超过1.2亿次。然而,这一类数据的资产专用性不断提升,容易导致数据产品的流通模式从数据平台市场向其他方式转变,出现去平台化的现象(即从图4左下角向其他区域转移)。比如,企业工商数据作为描述复杂性低、应用范围广的数据产品,更加适合在数据平台市场上进行交易。然而伴随企查查、天眼查等数据服务商逐渐将数据聚合,形成个人和企业征信等数据产品,这些数据服务为特定领域带来的价值也更加凸显。此时数据服务商就可以将客户带离平台,无须再通过数据市场进行交易,而是自己直接联系客户。更为困难的是,由于数据的可计算性,原先适合于电子市场的数据产品有可能出现去平台化的发展规律。例如天气和交通等公共数据,本身描述复杂性低,也不存在特定的专用领域,然而,一旦此类数据被封装成面向特定行业领域的数据产品,如用于旅游、金融、互联网地图服务等领域,资产专用性随之提高,数据的供应方理论上可以单独形成产品的售卖渠道,不需要再依附于任何外部的电子市场。为此,数据交易平台运营商需要建立一系列科学的制度以及创新的技术支持手段,降低已经进入平台的参与者去平台化的可能性。而那些描述难度过高(如未经加工清洗的原始数据)且并不面向任何专用领域和场景的数据,往往在数据价值评估、处理成本分担、数据隐私保护等方面存在各种问题或风险,难以加入交易过程中[14]。数据流通交易市场的运营者需要提供数据清洗加工、数据分析建模应用、数据产品的存储服务等增值服务,让原本不能进入交易市场的数据产品可以进入市场,增强数据市场的有效供给。对于每一个数据产品,最好建立各类应用场景的“示范样本”,不断降低数据产品的描述复杂性和资产专用性,从而使图4中的两条实线不断向上或向右移动,扩大数据交易平台上可交易的数据产品规模。
3 结束语
本文以电子市场、交易成本经济学和电子交易模式等领域的相关理论为分析基础,提炼了针对数据产品电子市场的交易模式基本规律,指出只有描述复杂性和资产专用性足够低、交易频率比较高的产品才属于数据平台市场的交易产品类型。在此基础之上,本文进一步结合数据的可计算性进行拓展,提出数据的可计算性使得数据有可能从低资产专用性逐渐过渡到高资产专用性,以符合垂直领域对数据使用的需求。然而,这样的变化规律会导致数据交易过程离开交易市场,即去平台化现象,最后导致数据交易市场只能长期面向低价值的数据产品展开交易。本文对国内现有数据市场的详细产品信息进行了汇总和分析。结果表明,现有数据交易市场大多仅限于特定的数据类型,而数据一旦被广泛接受,供应商就可以不借助市场进行销售,逐渐形成自身的销售渠道。同时,定制化的数据服务从特征上看和数据市场并不匹配。这些结论对于我国未来的数据要素市场建设具有一定的参考意义。
本文对于数据交易平台商而言有3个方面的启示。首先,数据交易平台商需要根据市场建设的战略目标、交易的复杂性、交易的频率、平台商与供方的关系、市场结构、需方的相对实力等因素[24]来选择平台的主要交易模式,或者采取多板块的策略同时选择几种交易模式。其次,对于数据交易平台商而言,在建设初期,设立做市商的交易模式可能更有助于扩大市场规模。需要大力培养一批有技术能力、市场能力和经营能力的做市商,通过专业化的做市商来帮助买卖双方降低数据产品的描述复杂性和资产专用性。最后,对于数据交易平台商而言,提高市场的流动性最重要的任务并不是发现高质量的数据供应,这是因为需方可以发挥自身的聪明才智和探索能力不断寻找适合自身的数据。相较而言,平台更重要的任务是探索合理的机制防止或减缓去平台化。例如国外知名的数据交易市场大多依附于云计算和数据仓库厂商(如Snowflake和Amazon)等,也可以从平台自身出发,通过服务能力的建设来提高数据供需双方对平台的依赖性——把好的数据产品“请进”市场,更要“留在”市场。