大数据定价方法的国内外研究综述及对比分析
2021-11-22刘枬郝雪镜陈俞宏
刘枬,郝雪镜,陈俞宏
1.重庆交通大学经济与管理学院,重庆 400074;2.重庆市轨道交通(集团)有限公司,重庆 401120
1 引言
随着人工智能、物联网、云计算等技术的发展,全球数据量正以指数型增长。据国际数据公司(IDC)预测,到2025年,全球数据量将增至175 ZB[1]。与此同时,数据经济应运而生,大数据正成为数据时代的重要财富。2011年,IDC和麦肯锡研究院对大数据的潜力和关键技术等进行了分析[2-3],指出数据为企业带来决策价值,将成为企业的关键竞争力。数据价值在企业中直观的体现是财务报表中日趋扩大的“账面价值”和“市场价值”之间的差距,如Facebook首次公开募股时,实际估值高出报告的传统资产(977亿美元)的部分即为数据价值[4]。对于此,Mayer-Schönberger V等人[4]指出数据被纳入资产负债表是必然的。为了释放数据价值,美国政府2012年启动“大数据研发计划”,投资2亿美元来改进从数据中获取价值的能力。2015年我国国务院颁布《促进大数据发展行动纲要》,将大数据战略上升为国家战略。2019年十九届四中全会更是将数据列为一种生产要素。由此可见,大数据的发展势不可挡,如何分析利用海量数据以创造价值成为社会各界关注的重点课题。
尽管数据量级巨大,但是目前对数据的使用却极为有限。数据领域存在天然的割据和垄断现象,“数据孤岛”和供需错配仍阻碍着数据价值的兑现[5]。如Naisbitt J[6]所言,数据是海量的,但真正有用的知识却很匮乏。因此,亟待形成规范化的数据定价机制,以促进数据资源流通、合理分配以及数据价值释放。而价格是由价值决定的,大数据价值具有密度低[7]、不确定性和共享性等特点[8]。大数据价值密度低体现在大数据中通常包含大量的无用内容,且数据价值随着数据量的增加呈现边际效用递减甚至变为负增长,因此数据价值密度与数据量成反比[9]。价值不确定性主要表现于3个方面。首先,大数据价值必须以数据的分析和处理为前提[10]。其次,大数据价值具有双向不确定性:一方面,数据成本信息仅由卖方掌握,交易信息不透明导致“柠檬市场”(信息不对称下的好商品被淘汰、劣等品占领市场,最后导致市场萎缩的情况)[11];另一方面,数据价值取决于买方对数据的具体用途[12-13]。最后,大数据价值难以从企业原有的产品和服务收益中单独分割出来[8]。此外,由于大数据所有权和使用权分离且边际成本低[14],不同主体可共享同一份数据而不影响各自的效用,数据具有“共享品”属性[15]。这些独特的价值特征造成大数据定价的诸多困难。目前市场最普遍的是协议定价,即交易双方通过反复协商达成一致价格,如中关村数海大数据交易平台的买卖双方自由定价,贵阳大数据交易所的平台撮合、买方定价。协议定价简单可行,但交易效率低、信息严重不对称,交易也多由卖方主导。因此,如何建立有效的数据定价方法,释放数据价值,是亟待解决的问题。
2 国外数据定价方法研究现 状
大数据固定成本高且为沉没成本,边际成本趋近于零[16-17],导致传统商品定价机制失效。众多研究者对大数据定价进行了研究。国外研究成果主要分为大数据服务定价、大数据产品定价两方面。
2.1 大数据服务定 价
随着人们对大数据概念的深入理解,数据即服务(data as a service,DaaS)被人们广泛接受。数据被视作一种宝贵的资源,经分析处理后被提供给具有不同数据需求的系统及用户[18],带来决策价值。基于此,一些企业开始转型,开始发展数据分析服务的业务,数据市场逐渐发展起来。DaaS定价多是在实践中发展起来的定价策略,主要分为以下3种类型[19]。
● 公司订阅[19]是市场上最流行的定价模式,即提供商向商业组织收取订阅费,提供指定时间段内和订阅范围内的数据服务产品。例如,数据公司AggData以固定价格销售位置数据,但同时也以订阅的形式为用户提供公司其他业务的数据;Datacoup通过收取每月费用来提供不同来源的数据,如Facebook、LinkedIn和Google等公司对用户在线账户的访问。这种定价模式类似捆绑定价[20],不是针对单一产品进行定价,而是将多个数据以打包的方式进行标价,从而以同质的数据在吸引更多用户的同时,获取更高的利润。但随着客户需求的多样化和复杂化,此方法将不可避免地出现数据资源浪费的情况。
● 基于数据类型的定价[19]是一种细粒度的定价模型,其按数据类型或自身属性将DaaS定价层分开。例如微软Azure为研究人员提供COVID-19研究数据集,美国国家海洋和大气管理局(NOAA)为气象学家提供不同价格的综合地面数据等。此模型难点在于分类管理复杂,需要找到针对性的细分市场和客户,实施和推广难度 大。
● 基于容量的定价[19]是基于提供的数据量进行分层定价的。该定价模式适用于数据使用量低的用户[21]。例如,亚马逊网络服务/弹性计算云(EC2)按传输量(以GB为单位)或每小时使用的随机存取存储器(RAM)收费;微软Azure按小时收取处理能力费,按传输量收取存储费。基于容量的定价有利于维护卖方利益,如通过双重费率[22]能保证供应商对成本的回收。此外,有研究显示,按用量付费在垄断条件下能产生更高的利润[23]。此方法的优势在于容易实施,能避免对数据质量的直接量化[18]。但如果边际成本收敛到零,基于容量的方法将失去说服力,且该方法缺乏从需求角度对用户利益的考 虑。
此外,Schomm F等人[24]对数据市场上的数据服务提供商进行了调查,总结了一些定价模式,除上述提到的3种外,还有免费、统一费率、免费增值等模式。其中,免费模式通过提供免费数据吸引潜在客户,且较为灵活,但不具有营利性;统一费率模式则收取固定费用,允许用户在该时间段内无限制地使用服务,此方法交易成本低,但对于用户来说缺乏灵活性;免费增值模式通过免费的基础服务吸引用户,再以收费的附加服务实现盈利。
2.2 大数据产品 定价
随着各行各业对数据需求的日益增长,越来越多的数据产品在网上交易,人们对数据的需求也越来越多样化。数据市场活跃不仅能缓解“数据孤岛”现象,还能发挥规模经济效应,释放更大的价值。在DaaS定价的基础上,研究者提出了一些新兴的数据产品定价方法,分为以下两大类。
(1)基于版本的定价
基于版本的定价是基于数据垄断者实施的价格歧视策略,营利性和交易效率较高[25]。数据产品版本的划分依据可以是数据特征或用户需求[26],两者均能实现市场细分、增加利润。如广联达科技股份有限公司将其推行的软件划分为低价的学习版和高价的专业版,这便是对不同用户群体实施的价格歧视策略。此外,数据的低复制成本和买方异质性使得捆绑定价应用普遍[27-28],如将不同数据质量的商品进行捆绑[29],以获取更高的利润。为了实现进一步的市场细分,Balazinska M等人[30]将数据版本看作视图,按用户选择的任意组合的视图来分配一个价格。此后,Koutris P等人[31]将基于版本的定价进行了扩展,提出了基于查询的定价模式,通过预设视图价格实现了对买方任意查询的自动定价,避免了套利和折扣。Li C等人[32]进一步提出线性聚合交互式查询定价模式,该模式满足无套利、非披露、无后悔3个属性。为了突破上述基于查询的定价中只能通过预定义视图查询数据这一限制,Li C等人[33]开发了一个基于扰动查询的定价模型,并建立了更加灵活的无套利定价函数。而TANG R M等人[34]则为元组设定价格,由元组生成满足用户查询最小的视图,从而为任意查询定价。但此改进后的基于查询的定价仍存在诸多障碍。首先,单个元组本身几乎无价值,以此组合而成的数据价格无说服力;其次,如何选择视图并对其进行定价缺乏明确的方法,从而造成实际操作中的障碍;最后,该模型是离线交易模型,而数据的更新是迅速的,预设价格视图无法覆盖新生成的数 据。
(2)基于效用的定价
基于效用的定价即基于数据自身属性和效用对其进行定价。前文定价多由卖方主导,强调供应商的利润,缺乏对数据效用的考虑。鉴于此,Heckman J R等人[35]和Harmon R等人[36]分别基于数据的内在价值和客户感知价值建立了数据定价模型,均强调了定价时对用户利益的考虑。Liang F等人[37]指出基于客户支付意愿的定价有利于供应商更长远的利益,关键在于如何对此意愿进行量化[20]。而数据质量的高低通常决定了用户的支付意愿,因此质量因素常被用作数据效用的度量标准[38-39]。数据质量维度之间存在线性和集成两种关系,线性关系表示各质量维度对数据质量的独立影响,集成关系[40]表示数据质量维度之间的相互影响。基于数据质量的定价考虑了数据本身的价值和消费者效用,公平且透明,但仍然存在一些不足。首先,它只考虑了质量因素,忽略了数据容量等其他重要因素[11];其次,数据质量维度及维度之间的关系是难以量化 的。
3 国内数据定价方法研究 现状
2012年李国杰等人[41]率先指出了大数据对未来发展的重大意 义。大数据价值引起了各行各业的重视,数据交易和数据定价成为研究热点。而数据价值化是按照资源化、资产化、资本化3个进程推进的[42]。本文从数据产品定价和数据资产定价两方面进行总结。
3.1 数据产品 定价
王文平[43]梳理了数据产品的标准化和确权问题,并整理出平台预订价、固定定价、协议定价、实时定价以及拍卖定价5种常用的定价模式。陈筱贞[44]研究了数据交易的市场类型和定价,提出生成级别、信息领域以及应用端用途3类数据价格决定因素。赵子瑞[45]指出当前定价策略中缺乏对数据成本的考虑,构建了基于成本论的大数据价格指标体系。胡燕玲[46]认为数据定价的难点在于其价值不确定性,并提出大数据预处理定价策略。在以上研究的基础上,数据产品定价研究取得了不少成果。
(1)基于生命周期理论的定价
数据的价值是随时间波动的。闵华松等人[47]最早提出数据的生命周期管理概念,构建了一个动态价值评估模型。王卫等人[48]分析了数据产品的生命周期价值特征,对数据进行了分阶段定价。基于生命周期理论的定价灵活性高,且能提高数据资源的利用效率和社会总体效益。但在实践中操作复杂,技术要求和实施成本较 高。
(2)基于效用的定价
由于使用者对数据价值具有决定性作用,效用价格论应用广泛。刘朝阳[10]以成本价格和效用价格为上下限,在区间内通过定价策略来确定最终价格。熊励等人[49]指出基于用户感知价值的定价有利于满足用户的个性化需求。李贵孚等人[50]构建了信息商品的价格特征模型,得到了使厂商利润和消费者效用同时最大化的最优价格。孙玲芳等人[51]提出将用户效用纳入企业目标函数,并立足于客户的版本偏好进行动态定价。缪方瑜[52]指出了消费者效用的影响因素,构建了定价函数。由于传统的基于效用的定价多依赖于线性效用函数这一假设,而现实中,消费者的边际支付意愿通常是递减的。因此,周木生等人[53]提出了非线性支付意愿假设,并基于此构建了更具普适性的定价模型。此外,韩海庭等人[54]指出数据的价值在于其减少不确定性的决策效用,以“信息熵”进行了数据定价。基于效用的定价常以数据本身的特征、质量以及客户感知价值为定价基础,兼顾了数据本身的价值和消费者需求。如贵阳大数据交易所就将数据质量作为价格的决定性因素,数据质量包括数据品种、时间跨度、数据深度、数据完整性、数据覆盖性和数据时效性6类。然而,在实践中,由于大数据效用的预先客观量化是十分困难的,此定价方法有待进一步的研 究。
(3)基于博弈论的协议定价
数据的共享性允许交易双方以协议定价的方式促进成交量[8],这是目前应用最广泛的数据定价方法[55]。刘洪玉等人[56]考虑了成本价格、商品特性以及买方价格承受能力等因素,建立了鲁宾斯坦模型用于数据定价。张晓玉[8]给出了交易平台、买方、卖方三方的静态博弈过程,构建了讨价还价模型,得到了数据均衡价格。赵森[57]在用成本法和收益法得到的价格区间内,通过“一对一”讨价还价模型进行定价。陈俞宏[58]建立了基于机器学习的效用函数,用斯坦伯格博弈模型实现大数据定 价。此外,汪靖伟等人[59]指出,借助区块链技术能实现数据市场的去中心化,减少第三方干预,实现买卖双方直接交易,有助于协议定价的进一步发展。可以看出,协议定价方法的目标性和数据的针对性较强,沟通机会多,成交率高。但协议定价方法也存在一些弊端,首先,数据交易双方漫长的博弈过程会增加时间成本,降低交易效率,如武汉长江大数据交易所通常需要长达数月的时间才能撮合一个交易[45],交易的时间成本极高;其次,数据领域的垄断性导致卖方主导,忽视了数据的真实效用;最后,信息不对称导致数据的真实价值难以评估,价格偏差会引发非法套利。另外,拍卖的定价策略能同时兼顾卖方利润和市场原则,常用于不能进行广泛传播或买家想获取一定独占性的大数据产品,实施此模式的有贵阳大数据交易所等。基于此,陈志注等人[60]修改了传统Vickrey拍卖模型和序贯拍卖定价模型,能在确定拍卖数量的同时实现收益最大 化。
(4)捆绑定价
数据产品的低边际成本使得捆绑定价成为常用的销售策略,作为版本定价的一种特殊形式,其包括纯捆绑、不捆绑、混合捆绑3种类型[61]。如杭州钱塘大数据交易中心和数据堂等借助定制化或半定制化的数据交易模式,将多种互补或相互关联的数据产品进行打包出售,以降低用户支付意愿的分散度,获得更多用户剩余,占有更多市场份额[62]。但此方法可能导致用户购入不需要的数据,损害消费者利 益。
3.2 数据资产 定 价
数据资产现已成为企业的重要资产。其与无形资产有许多相似特性,如无实物形态、价值不确定性、时效性、非竞争性[63]等,因此,一些学者主张将成本法、收益法和市场法等无形资产评估方法沿用到数据资产中。
(1)成本法
在无形资产的评估中,成本 法是反映企业经济效益的最基本方法[64]。其以生产费用价值论为理论基础,将数据资产的重置成本作为其价值计量基础,适用于市场不活跃的情况。刘玉[65]对数据的无形资产属性进行了确认,认为对于企业外购和主动获取的数据资产,应将成本法作为会计计量。成本法虽简单易操作,但存在许多局限。首先,数据边际成本趋近于零,且高固定成本难以实现单位产品均摊,数据成本量化难;其次,数据成本与价值之间的对应关系弱,仅靠成本并不能衡量其获益能力,成本法估值偏低;最后,由于数据独特的生产过程,数据资产不存在平均化的社会必要劳动时间,衡量数据价值不能仅考虑成本而忽视具体使用情境。此外,也有研究指出,数据资产难以计量的功能性贬值也是成本法的应用障碍之一[66]。
(2)收益法
由于数据资产不具有物理功能,其价值取决于其带来的收益[67]。收益法是评估大数据资产价值的首要方法[7],以效用价值论为理论基础,将待估数据资产的预期收益现值作为价值计量。此方法的前提是已知数据预期收益、折现率和效益期限,这也是该方法的障碍所在。首先,由于数据价值的不确定性,数据的效益依赖于数据处理技术等具体条件,预期收益难以量化;其次,信息不对称导致数据难以得到不同主体都认可的合理价值,评估主观性较大[68];最后,折现率的确定难度 大。鉴于此,目前多数企业将数据使用热度作为收益的计量维度[69],具体指标有数据使用次数、调用频数 等。
(3)市场法
市场法从市场获取指标,考虑了市场供求,更具客观性和公平性。以均衡价格论为理论基础,参照市场上类似数据交易案例的价格,利用技术水平、价值密度、评估日期、数据容量等[70]可比因素进行修正,以得到待估资产价格。随着数据市场的日趋活跃,市场法更具适用性[71]。但目前市场法仍然存在诸多挑战。首先,我国的数据交易尚处初期实践中,市场不成熟,交易案例少,且案例多为协议定价,主观性强,参考性低;其次,大数据产品个性化程度高,难以寻找具有相似特性的交易案例;最后,修正系数确定困难,某些修正项(如数据质量)难以量化,且难以确保数据差异修正全 面。
(4)实物期权法
实物期权法适用于不确定性较大的无形资产,本质是对资产生命周期内的潜在价值进行动态评估。鉴于此,翟丽丽等人[72]建立了数据资产的B-S期权定价模型。但由于数据资产本身成本特殊、风险高、价值不确定等特点,期权模型并不完全适用于数据资产评 估。
多数学生自己做动作时,往往不转身或转身不充分,身体正对来球做击球动作没有利用协调转身加速的力量。练习方法:原地做转身,双臂自然上举前臂与上臂成90°做转身挺胸动作,重复练习到下肢与上肢相协调使学生学会转身挺胸动作,包括掷球游戏、蹬转跳。
鉴于单一方法难以量化数据价值因 素,戴炳荣等人[73]指出应在无形资产评估方法的基础上,考虑数据的价值密度、应用场景等因素,制定综合定价方法。针对这个方面,黄乐等人[74]对成本法、市场法以及收益法的结合应用进行了初步尝试。此外,考虑到数据资产本身的价值特征,一些研究者 指出数据资产的评估应体现其特殊性,需设置单独的“数据资产”会计计量科目和专门的数据资产评估模型[75-76]。因此,张志刚等人[77]指出数据资产价值取决于其成本和应用,利用层次分析法构建价值评估模型。王建伯[78]则通过构建神经网络 得到反映实际数据资产应用价值的客观价格。
4 国内外数据定价方法总结及 对比
大数据定价这一研究领域由于研究时间较短,研究体系尚不完整。但随着研究的不断开展,也呈现出比较丰富的研究成果。从上述对国内外相关研究的梳理可以看出,按照对数据属性的界定,大数据定价客体可被划分为数据服务、数据产品以及数据资产3类。而定价方法上,以导向型定价法为理论基础,大数据定价主要被划分为成本导向、顾客导向、市场导向、利润导向、基于生命周期5种定价类型。
● 成本导向型:以成本为依据,将成本补偿放在首位的定价方式,多由卖方主导。包括大多数据服务定价,如固定费率、基于容量的定价、免费增值等;国内数据资产中的成本法等。目前较为主流的是国内的数据资产成 本法。
● 顾客导向型:以价值为基础,将消费者对产品价值的理解和需求强度作为定价依据,强调从需求端考虑用户效用,如国内外数据产品中基于效用的定价和国内数据资产中的收益法。关于基于效用的定价,国外文献多从数据本身属性出发,常将数据质量作为衡量用户支付意愿和数据效用的指标,且能够实现量化;而国内则更加注重用户对数据价值的决定作用,研究客户的感知价值,且大多在定性层面。此类型中国内研究较多的是数据资产中的收益法,而较先进的是国外基于质量的 定价。
● 市场导向型:以市场上相互竞争的同类型商品价格为定价依据,考虑市场供求状况,在较成熟和活跃的交易市场中具有较强的适用性。国内数据产品中基于博弈论的协议定价和数据资产中的市场法定价属于 此类型。
● 利润导向型:以企业自身利润最大化为目标进行定价。在大数据定价中主要表现为数据垄断者针对客户偏好和支付意愿实施的差异化定价,最大限度榨取消费者剩余的价值,如国外数据产品中的版本定价中基于查询的定价,将同质的数据产品针对不同消费者制定不同的价格。这很容易引起“大数据杀熟”[79]的问题,在这里不 做阐述。
● 基于生命周期:根据数据在生命周期内的不同特点进行动态定价,如国内数据产品中的生命周期分阶段定价、数据资产中的实物期权法等。由于数据本身的价值随着时间会呈现较大的波动,动态定价法具有重大意义。
数据定 价方法分类 见表1。
表1 国内外大数据定 价方法
目前具有代表性的较主流的方法有成本法、协议定价、市场法、收益法、基于质量的定价方法以及基于查询的定价方法6种,下面对这些方法进行对比分析,见表2。
表2 主流大数据定价方法 对比
前文对数据定价方法进行了对比,为今后合理地制定数据价格指明了思路和方向。为了更好地展现不同定价方法在不同视角下具有的特点及优势,下面 根据前述定价方法的指导,初步构建一个确定价格区间在前、实施定价策略在后,考虑市场供求和价格反馈实时性的大数据定价流程,并且根据上述对定价方法的分类将定价流程划分为需求、成本、利润、市场、动态5个模块,如图1所示。首先,数据供应商进行数据供给的前提是数据的生产成本能得到充分补偿,因此,基于成本导向法得到的价格是卖方避免亏损的价格下限。与此同时,需求对价格的决定性作用是不可忽视的。通过分析用户自身的需求以及数据对用户的效用,进而把握消费者的支付意愿,并据此来制定数据价格上限是必要的。在上述价格区间中,供应商可以通过进一步的定价策略来获取最大利润,这部分涉及的主要是版本定价、捆绑定价等利润导向型定价方法。此外,随着大数据市场日趋成熟,市场会根据供求状况对价格发挥调节作用。此时,应将市场上其他同类数据的价格作为参考,因为只有当定价不高于市场价格时,该数据才具有出售的竞争力。上述4个模块通常也适用于传统商品的定价,而对于大数据还需考虑其价值的时效性,因此必须保证及时对数据进行定价并反馈,此处可以依据基于查询的定价方法等。
图1 大数据定价流程分析
5 结束语
大数据为企业带来了机遇,同时也使其面临更激烈的竞争环境、更分散的市场和更个性化的消费者偏好,数据定价成为企业获取竞争优势的关键。目前的研究主要依赖于一些特定假设,许多实际问题并未得到解决,如评估人员的主观性和定价所需的实时性。国内研究还存在一些不足,今后可以从以下几方面进行研究。
● 完善数据定价理论框架:鉴于单一的指标或模型在数据定价中存在的不足, 目前亟待构建一种考虑利润、市场供求、数据产品特征和成本结构等的多指标体系,从而为数据定价提供可靠的支持。 数据定价应以成本导向的定价为价格下限,顾客导向的定价为价格上限,以市场导向的定价为价格参照,以利润和消费者福利最大化为目标。在实际工作中,需根据大数据本身的价值特点,在数据经济和产品定价以及资产评估的理论指导下,建立大数据定价的理论体系,综合利用多种定价手段联合进行,实现数据的科学客观定价。
● 满足多样化和复杂化的用户需求:针对用户偏好的差异化定价将是大数据市场化发展的必然趋势。 通过对潜在客户进行问卷调查以及访谈等,对客户的个性化需求进行深入分析,再借助捆绑定价、基于查询的定价、基于数据类型的定价等方法,形成差异化的定价机制。
● 量化用户效用:从更加长远的角度来看,用户效用不应该被忽视。基于此,应注重数据的本身价值和用户效用。可将数据质量等数据特征作为用户效用的度量指标,建立普适的、可解释的数据质量评价体系和数据质量量化模型。
● 实现大数据动态定价。目前大多数定价方法为静态定价,而大数据的价值是随着时间波动的。为了提高实际性和合理性,可以假定数据价格是时间的函数。对于如何将价格及时反馈给用户,可以通过创建在线数据查询服务并开发相应模型来实现。
总体来说,大数据定价需要确定价格区间,然后通过各种定价策略,实现大数据市场的规范化和透明化。