数据平台:智能经济时代的关键基础设施及其规制
2020-08-31杜传忠刘志鹏
杜传忠 刘志鹏
(南开大学,天津 300071)
一、引言
近年来,随着人工智能技术的迅速发展和应用,各产业从数字化逐步走向智能化,我国经济开始进入智能经济时代。受到目前人工智能算法的技术特性所限,主流的人工智能模型只有在利用大规模的数据样本进行训练的前提下,才能达到产业化所需性能,因此数据成为智能经济在当前发展阶段的核心生产要素。与此相对应的是,数据平台作为数据供给的主要渠道之一,成为智能经济时代的关键基础设施。要发展新一代人工智能产业、推动人工智能与实体经济深度融合,就必须打破各行业、各企业、政府各部门之间存在的“信息孤岛”问题,围绕数据平台打造智能产业创新生态,从而支撑、驱动智能经济快速发展。这一过程既需要政府的主动引领,也需要市场的内生发展。目前,我国从政府的角度正在大力推进地方政府数据平台的建设,以“云上贵州”、贵州大数据交易所等为代表的政府数据平台蓬勃发展。各级政府在不断推进电子政务建设的过程中积累了大量数据资源,其中包括3000余个数据库,李克强总理指出,这些数据要“尽最大可能地公开”[1]。从市场的角度,阿里巴巴、腾讯等互联网巨头凭借自身积累的数据资源,也在积极发展数据平台业务。
数据平台的发展给经济、社会带来了广泛而深刻的影响,其中既起到了正面的推动作用,也产生了一定负面效应。正面推动主要体现为对智能化进程的加速。规模庞大的互联网及移动互联网用户和丰富的应用场景给我国的经济智能化带来了重要的比较优势。尽管目前我国在算法领域与美国等发达国家还存在一定差距,但在某些特定的智能应用领域已经居于世界领先水平。例如,天网工程所积累的数据资源助力海康威视研发了智能安防系列产品,在视频监控行业的市场份额居全球第一。负面效应则包括企业利用信息不对称侵犯用户数据产权及隐私权、通过价格歧视攫取消费者福利等等。针对这些问题,政府应建立和完善数据定价机制,并采取必要的规制手段,确保经济智能化发展过程中的分配公平,使智能化带来的发展红利能够惠及大众。
本文将结合经济智能化发展需求和我国数据平台产业的发展现状,对数据平台加以界定,并揭示其作为关键基础设施推动产业智能化转型的内在机理,进而通过对不同类型数据平台的分析、比较来刻画其产业生态特征及影响,同时分析数据平台的负面效应以及政府应采取的规制方式,最后提出相应政策建议。
二、数据平台推动产业智能化转型升级的作用机理
(一)数据平台的基本内涵
人工智能作为新一轮技术革命的先导产业,目前正处于实现广泛应用、深入推进产业化的初期,其发展需要数据、算法、算力三大要素的支撑。其中数据,特别是质量达到一定标准的数据,是智能经济发展的前提和基础,而数据平台则是各产业特别是各传统产业在推进智能化转型过程中获取高质量数据资源的主要渠道,因此数据平台可视为智能经济发展过程中最重要的基础设施之一。此外,由于大部分企业不可能独立建立足够的算力来支撑智能化算法对大数据的处理,所以它们对数据平台的需求不仅仅是数据资源本身,还有处理数据所需的算力。也就是说,数据平台将提供数据资源及其处理过程中的算力支持,这也正是当前我国数据平台企业较为普遍的运营模式,部分数据平台还可以提供相对基础的标准化算法模块服务。随着人工智能技术的不断进步,企业所需的智能化支持服务也在不断变化,从产业转型升级的角度出发,数据平台的标准取决于其供给是否能够满足企业的智能化需求。因此可以对数据平台作出如下定义:数据平台是指以提供数据资源及其处理过程中所需的算力和标准化算法模块等支持服务为核心业务,以满足企业智能化需求作为产品和服务标准的平台型企业。
(二)数据平台:智能经济时代的关键基础设施
早在1894年,恩格斯就提出,商业周期在几十年的尺度上进行规律变化,而这种规律变化的一个可能原因是运输和通讯系统的扩张(Engels,1894)。[2]运输和通讯系统正是第一次和第二次工业革命中最重要的基础设施,数据平台则会成为智能经济时代的关键基础设施。
根据经济长波理论,自第一次工业革命以来,世界经济共经历了五次长波周期,而创新集群与技术变革则是长波演进的根源与基础(Rosenberg & Schumpeter,1940)。[3]技术革命的发生既依赖于围绕新的通用性技术建立的产业集群,也依赖于一个乃至多个基础设施网络(Perez,2007)。[4]近年来各主要经济体经济增速趋缓,贸易摩擦增大;从我国的产业发展情况来看,互联网企业的利润出现较大下滑。在2018年第四季度,阿里巴巴和腾讯的净利润分别同比下滑33%和32%,百度净利润的下滑则高达50%。(1)数据来源:各公司2018年第四季度财报。这些现象说明以互联网技术为核心的第五次技术革命已经十分成熟,主要产业的市场趋于饱和,各企业乃至各国进入存量博弈阶段,第五次长波周期步入尾声,利润的消失将导致长波转折点的出现与“创造性破坏”时期的到来(Schumpeter,1942)。[5]新的通用性技术和相应的关键基础设施应成为当前阶段产业发展的重点方向。近年来引起高度关注的人工智能技术被普遍认为是新的通用性技术(Brynjolfsson et al.,2017),[6],数据平台作为与之互为补充的新型基础设施,将与人工智能技术共同推动新一轮的技术变革和长波周期。
数据是人工智能产业发展和传统产业智能化转型过程中的核心生产要素,但这一过程所需要的是规模和质量达到一定标准,从而可以被智能算法所利用的数据。数据被誉为智能经济时代的“新石油”不仅仅因为其重要性,还因为数据和石油一样,在投入应用前需要“提炼”,对于一家缺乏数据处理能力的公司而言,数据无法为其创造价值(Varian,2018)[7]。虽然传统产业在长期经营和发展的过程中也会产生大量原始数据,但部分数据由于企业的忽视而未得到有效采集,即使被采集的数据往往也因未经清洗和整合而无法被智能化算法和技术直接使用。数据平台则提供数据的采集、清洗、整合、处理等服务,此外,还可以通过其交易中介功能帮助企业获得其他相关产业的数据,来满足深度学习等智能算法对多维度数据的需求,因而是传统产业在推进智能化转型过程中获取大规模、高质量数据资源的主要渠道,可以视为智能经济发展过程中最为关键和重要的基础设施之一。
(三)两部门模型分析
与此前历次产业革命中关键基础设施不同的是,其他基础设施在建设过程中往往高度依赖于某些自然资源,而数据平台受到的类似硬性约束相对较弱。数据平台所承载的数据是人类经济、社会活动的一种副产品,其产生、更新和进一步扩张均依赖于数据平台所能够采集的生产和消费行为的范围。并且除较为基础的数据存储工作需要一定的硬件基础外,进一步的数据清洗、标注和初步分析都属于以人力资源为主要成本的软件技术。数据平台下游的智能化改造更是属于典型的知识驱动、人才驱动型产业,在传统产品向智能化产品的升级过程中,最为关键的是具有较强技术能力的复合型人才。
据此本文建立一个侧重于人力资源研究的两部门模型来分析智能经济发展中数据平台的作用机理。该模型由一个完全竞争的智能产品部门和一个垄断型市场结构的数据平台部门组成。其中数据平台作为关键基础设施,在平台企业特性、数据资源特性和分布式存储、云计算的技术特性等因素影响下,呈现显著的网络效应,存在一定的自然垄断特性,在产业实践中则通常表现为行业性、区域性垄断企业或卡特尔组织,因此将数据平台部门设定为垄断。
1.智能产品部门
智能产品部门采用Cobb-Douglas生产函数,所投入的两种生产要素分别是智能算法所需的数据资源和研发智能产品所需的人力资源,即
(1)
2.数据平台部门
由于数据平台部门处于垄断状态,垄断企业所面临的利润最大化问题如下:
(2)
(3)
其中wd为数据平台部门的工资率水平,并且la+ld=L,L为总人口数。对(3)求一阶条件,可得
wd=α2[d(ld)]α-1(L-ld)βd'(ld)-αβ[d(ld)]α(L-ld)β-1
(4)
3.均衡分析
在均衡状态下,两部门的工资率水平一致,因而可得
(5)
根据α+β=1,将(5)进一步整理为
(6)
(7)
方程(7)说明,智能产品部门和数据平台部门之间的人力资源分配由智能产品生产函数的系数与数据资源网络效应的规模弹性共同决定。由网络效应函数的性质可知,在前期积累阶段,数据资源网络效应的规模弹性较强,网络发展到较大规模后弹性则会变弱。也即是说,智能经济的发展可以划分为两个阶段:在智能经济的发展初期,人才及相关资源应向数据平台部门倾斜,数据资源的规模也随之加速扩张,对于智能化转型的价值迅速提升,但当数据资源的网络效应达到一定程度后,则进入第二阶段,人才及相关资源开始向智能产品部门流动,智能经济的发展重心也由积累数据和智能算法的初步应用转向进行智能算法创新和在此基础上的产品开发。从我国的实际情况来看,经济智能化转型目前仍处于第一阶段,因而应将数据平台建设视为智能经济发展的重中之重。
三、数据平台的产业生态构成
数据平台可以基于不同的标准划分为不同的类别,如从数据来源的角度分为政务数据平台、商业数据平台和工业数据平台等;从对数据的使用模式角度分为封闭式数据平台和开放式数据平台,等等。各类平台共同实现良性运营是数据平台产业生态形成和完善的必要条件。一般而言,在数据资源的产生、采集、交易和使用过程中,数据平台的核心业务集中在采集和交易两个环节,同时也会为数据的使用提供一定支持服务。但从产业生态的角度出发,上下游环节中任何因素的变化都可能对数据平台产业产生影响,如上游数据产生者的数据产权和隐私保护意识、下游数据使用者进行智能化的方向等。数据平台的产业生态结构如图1。
图1 数据平台产业生态结构
在智能经济时代,数据产生于用户,最终又会通过智能化产品或服务的形式使用户受益。一个健康的数据平台产业会按照用户的要求收集数据,按规定的用途使用数据。本文将用户(包括个人和企业等)根据对数据产权和隐私权的敏感程度分为高隐私型和低隐私型两类。其中高隐私型用户要求其数据只能用于针对自身的产品或服务优化;而低隐私型用户在出让数据后,不对数据的使用方式做进一步限制。由此,本文将数据平台分为封闭式数据平台和开放式数据平台两类,其中封闭式数据平台的上游为高隐私型用户,其数据用于针对用户自身的智能化改造;开放式数据平台的上游为低隐私型用户,其数据用于通用性智能化,因而会产生一定的溢出效应,使所有用户受益。下面分别对两类数据平台进行分析。
(一)封闭式数据平台——以智能制造为例
制造业企业在生产过程中会产生大量数据,并且大多数制造业企业将这些数据看作企业内部的关键信息,属于典型的高隐私型客户。针对制造业的数据平台通常被称为工业云,当前大部分制造业企业的智能化改造主要是基于工业云中的私有云完成的,即数据平台帮助企业利用自身所积累的数据对生产情况进行分析,从而实现大规模定制、预测性维护等智能制造模式,但数据不与其他企业进行共享。
本文假定数据平台对制造业企业的收费根据其产量进行,即在第t期,制造业企业在数据平台的帮助下每生产一个产品,数据平台收取服务费pt。而数据平台的成本一方面来源于实现当前产量下智能化生产的服务成本r(Qt)qt,一方面来源于存储、维护、分析历史数据的边际成本c(Qt)=Qt。其中Qt为t期初数据平台的数据积累,qt为t期企业的当期产量。综上所述,针对制造业提供智能化服务的数据平台的利润最大化问题为:
maxπt(Qt)=ptqt-r(Qt)qt-c(Qt)+βπt+1(Qt+1)
(8)
s.t.Qt+1=Qt+qt
(9)
(10)
qt≥0,t=1,2,……
(11)
(12)
对方程(12)中的Qt+1求偏导,得
(13)
对方程(12)中的Qt求偏导,得
(14)
采用待定系数法,设Qt+1=mQt+n,则Qt+2=m2Qt+mn+n,代入并整理得
(15)
(二)开放式数据平台
根据本文定义,开放式数据平台要求卖方较为彻底地让渡其数据权利,因而开放式数据平台本质上即为数据产权交易平台。目前我国的数据交易机制还在摸索阶段,虽然贵阳、上海等地先后成立大数据交易中心,但各交易中心的规模和其所面向的用户群体都还相对较小。真正能够面向普通用户、有能力承载大规模数据交易的开放式数据平台还有待建设,而建立此类平台的关键在于数据资源的交易机制设计。
与传统的交易中介平台根据双方报价简单地撮合交易不同,同样的数据资源对于不同企业的价值具有较大差异。如一个用户的数据对于Facebook而言价值4美元,但对于Google则价值高达24美元(Brustein,2012)。[8]由于信息不对称的原因,消费者很难准确认知自身数据的价值,经常轻易地让渡其数据产权及相关隐私权,而未能得到合理补偿。为消除信息不对称可能造成的不公平性,拍卖机制是对于开放式数据平台而言较为理想的一种交易机制,拍卖机制下的数据交易流程如图2。
图2 数据资源拍卖机制流程图
首先,用户向开放式数据平台给出小规模的数据样本、数据资源的总规模和保留价格,开放式数据平台对数据样本进行匿名化处理,发布处理后的数据样本和数据总规模,有意向的企业向数据平台报价,数据平台进行密封拍卖。如果最终报价高于用户的保留价格则交易达成,若低于用户的保留价格则交易失败。开放式数据平台将交易结果告知用户,若交易达成,用户在确认交易后对数据平台开放数据采集接口,而数据平台则在采集后提供匿名化处理服务,并将处理后数据资源交付智能企业。在这一流程中,用户为匿名化服务向数据平台付费,而智能企业为交易服务向数据平台付费,数据平台则要承担确保用户隐私、保证交易达成后双方履约等责任。尽管诸多学者已经就数据平台进行拍卖的具体机制及其原理进行了比较充分的研究(Riederer et al.,2011;Ghosh & Roth,2015),[9][10]但由于大多数国家关于数据产权的相关法律法规尚不完善,相关保障体系尚未建立,数据资源交易的科学化、合规化成为新产业革命中少数产业实践落后于理论发展的领域。
四、数据平台的潜在负面效应与规制
(一)数据平台的潜在负面效应分析
伴随着第四次工业革命的不断发展和深入,经济社会发展的技术—经济范式正在发生根本性变化,越来越多的经济学家开始意识到,假设技术红利必然渗透到经济、社会发展的各个方面并使所有社会群体从中获益的“涓流效应”并不成立,技术进步导致的经济转型并不能自然而然地使社会各阶层各群体受益,反而可能使收入分配进一步恶化,福利不均衡问题愈加凸显(蔡昉,2019)。[11]因此,有必要对数据平台以及在其基础上进行的智能化转型的潜在负面效应进行分析,并提出相应的规制措施。
在上文的分析中,对经济智能化转型的研究主要侧重于生产过程和产品本身的智能化,并未考虑智能经济时代产品定价机制可能发生的变化。在智能经济时代,用户数据产权和隐私权被侵犯的表现不仅仅是企业在未经同意的情况下非法采集用户数据或利用信息不对称低价获取用户数据,还表现为对合法采集的用户数据的不当使用。智能企业在获得用户数据后,除用于研发新产品、提供个性化服务外,最直接的应用领域就是营销,即所谓“大数据杀熟”——根据用户的历史消费记录和其他相关数据对其进行价格歧视。随着数据资源的丰富和智能算法的进步,部分企业已经具有了估计消费者保留价格的能力,以往仅在理论上存在的一级价格歧视逐渐在现实中变得可行,部分智能化企业正在通过这种手段最大限度攫取消费者剩余[12]。
但对于大多数传统企业而言,由于企业对数据的处理能力和对智能算法的掌握都相对落后,往往需要借助于数据平台的资源和技术实施价格歧视,由此产生相应的委托-代理问题,被攫取的消费者剩余最终会归于数据平台而非委托企业。下面建立模型对这种情况进行研究。为简化分析,首先假定在进行智能化之前,企业已经处于垄断地位;除需为数据平台提供的服务支付费用外,忽略企业的其他成本;数据平台的成本函数和企业面临的需求函数沿用上文封闭式数据平台模型中的相应假设。通过智能化,企业实现对消费者的一级价格歧视,而数据平台帮助企业估计消费者的保留价格并就每次估计(即企业的每个销量单位)向企业收费Pd,则可得委托-代理模型如下:
(16)
s.t.PdQ2-r(Q1)Q2-max(Q1,Q2)≥0
(17)
π2(Q2)≥π1(Q1)
(18)
(19)
Pd=argmax[PdQ2-r(Q1)Q2-max(Q1,Q2)]
(20)
Q1=argmax[P(Q1)Q1]
(21)
图3 智能化前后社会福利变化
(二)对数据平台负面效应的规制方式
在当前经济智能化转型的背景下,消费者福利和传统企业利润受到压缩的根本原因在于数据产权和隐私权的相关法律法规不完善,当前我国对最基本的数据所有权归属问题都尚无明确的法律规定,法学界对数据产权应属于数据的产生者还是采集者存在争议(徐洁,2016)。[13]目前,在我国的产业实践中,数据产权事实上是属于数据采集者的。虽然数据采集者会按照有关规定先征求用户的同意,但由于大多数采集者,特别是互联网企业,都将用户同意其采集作为提供产品和服务的必要条件,从而通过默契合谋使得这一“征求同意”的环节名存实亡,同意被采集数据成为用户无力抗拒的霸王条款,消费者权益受到一定侵害。
对此,现阶段一个较为可行的规制方式是要求数据平台企业保持独立运营的同时,对其采取成本加成定价的回报率规制,且要求支付给消费者以获取数据产权的费用必须在总成本中占到一定比例。采用这种规制方式的优势在于,将企业通过开发数据资源所得利润与消费者因让渡数据权利所得补偿直接关联起来,从而确保消费者能够以一个合理的比例分享到“智能化红利”,如图4。
图4 成本加成规制前后社会福利变化
通过成本加成规制(如图4-c),政府可以规定数据平台支付给消费者的数据产权费用与其总收入之比达到一定标准,即保证S□B''F''GH=SΔADE。此时,消费者剩余等于智能化之前的水平,传统企业利润始终不变(S□BDEF=S△A'D'E'=S△A''D''E''),数据平台虽然与规制前相比利润有所减少,但仍然为正,优于智能化改造前(图3-a)的情况(S□E''D''GH>0)。综上所述,在成本加成规制下,社会总产量和总福利与不进行规制的智能化改造后的情况相等,而各方相对于智能化改造前的福利改变均为非负,也就是说,成本加成规制不会损害产业智能化转型的整体进程,同时可以使得智能化改造成为一种帕累托改进。
之所以要求数据平台企业保持独立运营,是为采取回报率规制创造可行的条件。在新一轮产业革命中,智能化转型将在各行各业深入开展,如果大量的智能企业本身兼具数据平台的功能,那么监管部门出于整体经济效率的考虑,不可能要求所有智能化行业都采取成本加成的方式进行定价,也就无法对这些企业是否给予消费者合理补偿进行监管。但如果数据平台的独立性得到保障,那么其作为原始数据转化为高质量数据的主要渠道,就可以成为政府针对数据交易实施成本加成规制的主要对象和福利分配的调节工具。
五、结论与对策建议
本文以数理模型作为主要分析工具,针对数据平台产业在智能经济中的关键基础设施作用、不同类型数据平台影响经济智能化进程的作用机制、可能产生的负面效应及其规制等,分别进行分析,得到的主要结论是:第一,数据平台作为智能经济中的关键基础设施,在当前经济智能化转型初期,应得到人才及相关资源的倾斜,未来随着智能化的深入发展,这些资源将流向智能产品行业;第二,对于封闭式数据平台而言,其发展速度主要取决于自身贴现率和所服务用户的初始规模,在同一细分行业内,封闭式数据平台具有自然垄断特征,而开放式数据平台理论上较为理想的数据定价机制是拍卖机制;第三,由于目前数据产权相关法规尚不完善,数据平台的发展可能带来社会福利向智能经济部门过度集中的负面效应,对此,综合考虑对消费者权益的保护和企业进行智能化转型的积极性,可以通过要求数据平台企业保持独立运营,并采取成本加成定价的规制方式确保智能化改造成为帕累托改进。
基于以上分析结论,为加速推进我国经济智能化转型,建立并完善数据采集和交易市场,防范潜在的负面效应,本文提出以下对策建议:
第一,鼓励并引导数据平台发展,建立可以吸纳多层次劳动力的数据平台产业。鼓励并支持数据平台通过数据标注、清洗和分析岗位吸纳不同层次劳动力,从而在加速经济智能化转型的同时,保障社会各阶层均衡受益。
第二,对于智能制造等需要进行针对性智能化的领域,降低数据平台企业的融资成本,帮助数据平台建立与传统企业的合作对接,从而提升数据平台的用户规模,加速数据平台企业的成长。
第三,建立并完善保护数据产权及相关隐私权利的法律法规。借鉴欧美国家对于数据产权保护的相关经验教训,既要加速推动相关立法,又要避免因过度保护隐私而阻碍经济智能化转型进程。
第四,采取市场准入与回报率规制相结合的规制方法,并逐步过渡至数据产权的拍卖制度。当前阶段,政府应推动数据平台的独立运营,为进一步监管创造可行性,并对数据平台产业实施成本加成规制,确保用户为让渡其数据权利而得到一定补偿。