APP下载

数据要素研究脉络与热点
——基于知识图谱的分析

2023-10-10杨春蕾吴俊鹏

生产力研究 2023年9期

杨春蕾,吴俊鹏

(南通大学 经济与管理学院,江苏 南通 226019)

一、引言

随着新一代信息技术在社会各领域的深入渗透,数据作为重要的生产要素与经济资源,对经济活动的贡献越来越突出。数据要素指的是在数字化经济时代,被用于生产过程中计划、控制、监测、优化等环节的数字资源。据统计,2021 年全球范围内创建、捕获、复制和消费的数据总量已高达79ZB,数据所蕴含的经济价值已不容忽视[1]。自2012 年美国发布《大数据研究和发展倡议》后,世界各国纷纷加快了建设数字平台的步伐,大数据也在中国的“十三五”规划中作为国家级战略被提出。近年来,国内学者已对数据开放、数据产权和数据保护等领域进行了一定的探索和经验积累。

以2020 年数据要素正式成为第五大生产要素为节点,数据要素的研究内容与主题不断丰富并逐渐深入,但研究方向分散化、碎片化特征明显,缺乏对数据要素研究成果的系统性梳理,缺失对数据要素研究趋势与热点的宏观把握,对深入认知该领域内部知识结构存在一定的局限性。只有全面掌握数据要素研究领域的热点主题演变,才能更好地把握研究动态与未来的发展方向。本文利用2013—2022 年间在中国知网(CNKI)发表的数据要素主题相关核心文献,用科学文献计量的方法回顾数据要素领域的发展历程,研究热点和前沿,为实现数据要素更好的市场化配置提供参照依据,为后续科研工作提供参考。

二、数据来源与研究方法

研究数据来源于中国知网(CNKI)核心数据库中的中文社会科学索引(CSSCI),数据检索与下载日期为2022 年10 月22 日。在确保文献质量的同时兼顾全面性,本文以“数据要素”为第一关键词,“数据要素市场”为第二关键词,并补充以“数据要素”为主题进行检索,共获得数据1 005 条。通过对与研究主题关系不大的文献和书评、征稿通知、会议等无效数据进行人工方式筛选与核准,保证文献选取的权威性。经清洗后最终得到适用于本研究的共计376 篇中文CSSCI 论文题录的集合。

本文使用Citespace(5.8.R3)与VOSviewer(1.6.18)知识图谱软件,对符合条件的数据要素主题CSSCI 文献进行科学计量,展示知识内部结构,对论文关键词等信息进行共现与聚类分析,绘制时间线谱与突现词表,客观阐述领域内论文产出、主要作者、合作机构特征,以及未来研究热点趋势等信息。

三、数据要素研究的可视化分析

(一)文献数量分析

根据2013—2022 年数据要素相关文献发文数据,本文绘制了研究文献数量分布图。图1 可见近十年国内学术界对于数据要素研究呈现明显的阶段性特征,大致分为萌芽阶段(2013—2015 年)、探索研究阶段(2016—2019 年)和快速发展阶段(2020—2023 年)。

图1 2013—2022 年数据要素研究发文数量分布图

文献统计显示,2016 年之前数据要素相关核心文献发文量较少,年均发文量仅2 篇,这一时期数据要素还未得到学者的广泛关注。在初步探索阶段,核心文献年发文量上涨至10 篇上下,可能的原因是2015 年国务院颁布了《关于印发促进大数据发展行动纲要的通知》(下文简称《通知》),明确将数据作为一种新的国家资源,吸引部分学者开始将目光投向数据要素。进入快速发展期后,发文量年均增加55 篇左右,直至2022 年最新数据达到173 篇。究其原因在于2020 年4 月,中共中央首次出台的要素市场化配置文件《关于构建更加完善的要素市场化配置体制机制的意见》明确提出将数据列为第五种生产要素,加快培育数据要素市场,此后,数据要素一跃成为学者们的研究热点。研究文献数量呈“前期缓慢萌芽、后期急速上升”的总体趋势,发文趋势变化是由于新形势下相关政策与制度的完善,为数据要素领域提供了理论基础、政策依据与方向把握。

对文献的期刊来源进行统计,发现376 篇文献总共来自182 种CSSCI 刊物,表1 展示了研究期内数据要素研究领域发文量排名前7 的期刊,发文量均超过5 篇。其中《电子政务》发文数量最多,改革影响因子最高,分别为28 篇与11.807。数据要素相关的研究成果主要发布在电子政务学、情报学、经济学等领域的相关刊物,且影响因子均高于3。这些权威期刊的关注说明数据要素受到国内高水平期刊的重视,进一步突出了数据要素的研究价值,数据要素的交叉学科研究也已成为热点。

表1 数据要素研究领域高发文量期刊

(二)研究者分析

经由VOSviewer 对文献作者分布进行图谱化处理,以更好地展示该研究领域内的核心学者及其合作关系。作者合作网络分析共形成了188 个节点、109 个连接,其中节点代表文献作者,连接代表作者合作关系。图2 对核心研究者合作网络进行绘图展示。

图2 数据要素研究领域核心研究者合作网络节点图

核心作者的发文数量可以体现数据要素领域研究的深度与广度。根据美国学者Price 提出的核心作者公式运算,得出发表文献数量为3 篇或大于3篇系核心作者的量化标准指标,满足公式条件的核心作者有14 人。发文量最多的作者是南开大学法学院的陈兵,累计发文8 篇。符合条件的作者发文总量为53 篇,占全部作者发文总数的14.1%,这表明在数据要素研究领域的核心团队正在初步形成,并且规模在持续扩张。

合作网络节点图中较大的研究团队有王建冬等(2020)、林镇阳等(2022)、戚聿东等(2020)、朱扬勇等(2020)。总体看来本领域研究作者间的相互联系大多仅限于合作的内部团队,不同团队间联系甚少,其余研究者较为零散地分布在合作网络中,多为独立创作者或是导师“传帮带”学生。可以看出研究领域内未形成严格意义上的核心作者群,需要通过克服地域和增进学缘等方式,以促成更为紧密的核心作者团队。

(三)研究机构分析

2013—2022 年间数据要素研究领域研究成果较为显著的研究机构如表2 所示。其中以中国政法大学民商经济法学院为最主要的贡献机构,占样本比重为1.86%,但总体优势不大;可以看出,我国关于数据要素领域的研究比较散乱,但这同时也表明,各地都在积极为数据要素领域贡献智慧与方案。从地域来看学术研究还呈现明显的地区特点,京津冀地区是数据要素的主要学术阵地,该地区研究力量相对突出。中西部地区科研院所参与度不高,影响力相对较小。

表2 数据要素研究领域核心机构及发文量

四、数据要素研究热点分析

通过关键词共现与聚类图谱分析,可以直观了解数据要素领域的知识结构、热点话题与研究走向。本文运用VOSviewer 与Citespace 软件对检索到的核心文献进行分析,得到相关聚类视图。

(一)关键词共现分析

通过VOSviewer 软件可生成关键词共现科学图谱。图3 中节点代表关键词,其大小代表关键词的频次高低;节点间连线粗细代表两者联系的密切程度,关键词中介中心性数值越高表明影响力越大。可以看出,研究已大致形成了“数据要素”“数字经济”“数据治理”“数字政府”“数据交易”和“数据权属”为核心的几个方向,核心关键词之间连线密集,关联性强,但研究分支多,研究方向较为分散。

图3 数据要素领域关键词共现图谱

通过Citespace运算总结出现频率最高的前9 的高频关键词,可以划分为三类。第一类是与主题研究相关的“数据要素”“大数据”“数字政府”关键词,代表了数据要素研究的重点,大数据技术和公共数据开放属于数据要素研究的基础部分,多数研究都是基于此展开,是关键词的主干,可以与其他关键词形成密切的联系,所以其频次和中心性较高。第二类以数据流通面临的问题为研究主题,如“数据治理”“数据安全”“数据确权”等关键词。数据流通绕不开主权归属问题,而脱离了安全与治理的数据市场也无法高效长久地运行下去,这些主题正日益成为学者们研究的重点,与核心关键词有较高的共线强度。第三类包括“数据要素市场”“数据交易”“数字经济”等关键词,是数据要素研究继续深入所需具体路径,反映出数字经济高质量发展的新要求,同时也蕴含着国家政策的与时俱进。

(二)研究关键词聚类分析

为进一步发掘数据要素领域的不同研究关注点,本文绘制了关键词聚类图谱。图4 中聚类模块值Q=0.5102(>0.3),说明聚类结构显著、结果合理;平均轮廓值S=0.8126(>0.7),聚类结果可信度高。研究的关键词共生成7 个大类别的聚类,这些聚类存在不同程度的内在联系。一般来讲,聚类的排序体现了该类主题的热门程度,从图4 来看依次是“数据要素”“开放数据”“生产要素”“数据交易”“数据权利”“数字治理”“数字技术”等7 个聚类,代表了我国数据要素领域的研究热点,如图4、表3 所示。

表3 数据要素研究热点主题与聚类表

图4 数据要素领域关键词聚类图谱

由图4 图谱聚类对数据要素的研究热点及研究主题进行总结,能够发现国内学者对数据要素领域的相关研究在遍地开花的同时也存在趋同性,主要体现在以下五点:

一是数据要素供给的研究,包括聚类#1“开放数据”,具体包括“数据开放战略”的内容。数据要素在市场的作用下通过信息化向价值转换,而加大数据开放力度是促进数据源源不断进入市场的前置条件[2]。“数据孤岛”问题由来已久,大量潜在数据资源未进入市场,对数据要素的市场化配置形成了阻碍。早期学者在大数据战略的背景下,调研数据开放水平高的英美政府,为数据标准与规范提供参考[3]。亦有学者对数据开放平台、政策和技术进行探讨,提出要建立数据标准与共享协议,将数据的开放共享延伸到更细致的领域,政府数据向社会开放及国家大数据综合实验区成为学者们越来越关注的话题[4-5]。

二是数据要素权利的研究,包括聚类#4“数据权利”。数据要素进展突飞猛进的同时也带动了数据确权与保护等概念的研究。在数据要素化和数据产权交易过程中,所有权、使用权和收益分配权的明确归属缺一不可。然而确权的实施面临着难题:一方面,数据要素权属的划分要听取各方观点,认定上有部分灰色地带;另一方面,由于数据交易中仅交付使用权,同时信息不对称问题严重,需求方试错成本不菲[6]。但可以明确的是,数据确权应在强化个人隐私权保护的前提下,对有重要或创造性贡献的衍生数据持有人强化其财产权的保护[7]。同时,有学者强调反向确权方案可以为市场主体自发形成数据确权与数据交易规则提供空间,这为数据确权提供了更加清晰的方向[8]。

三是数据要素交易研究,包括聚类#0“数据要素”和#3“数据交易”。我国的社会与政务数据极为丰富,但在数据定价、交易模式等方面仍处于探索阶段,数据定价的合理性还有待提高[9]。国内目前的定价方式主要依托于大数据交易平台的协商定价与可信第三方定价,尚且缺乏透明的数据定价机制[10]。有学者运用博弈论方法,从平台、买方和卖方角度对大数据的价格确定过程做了详细建模分析,为数据商品买卖双方交易价格机制的形成完善贡献了理论支撑[11]。定价是交易的前提,流通则是交易的关键一步。现阶段还需要划定可交易数据的范围,提升公开交易数据的质量与数量,加速建立合适的交易流通机制,围绕数据流通产业链出台专项政策,促进价值的增值与变现[12]。

四是数据要素监管的研究,包括聚类#5“数字治理”。数据要素的监管漏洞会给社会发展带来阻碍,应正确引导管理数据要素,使其更好地服务社会。数据安全方面可尝试建立数据开放风险识别与评估机制,预防数据泄露、侵权、操纵和黑客攻击等风险[13]。而数据治理目前面临数据匮乏、数据驱动力不足等困难,各部门更应该形成效力协同机制,完善有侧重的数据分类分级治理体系[14]。伴随数据市场竞争的进一步加剧,我国急需出台针对数据竞争行为的法规,维护一个公平竞争的数据要素环境[15]。

五是数据要素利用的研究,包括聚类#2“生产要素”和#6“数字技术”。该类研究旨在挖掘数据为经济增长与高质量发展提供的新动能,并分析作用机理。数据作为要素加入能够显著改变企业要素投入模式,有效发挥数据要素的倍增效应,加快企业乃至行业的数字化进程[16-17]。数据通过要素驱动、融合激发、协同提升、反馈正配机制,正改变中国经济运行的微观基础,实现产业结构优化、模式创新,推动着生产、组织、交易效率等方面提升[18-20]。

(三)关键词时间线分析

1.时间线图谱分析

本研究通过时间线图谱来刻画时间序列下各聚类之间的演进关系和文献的热点变迁。图6 展示了不同时期数据要素相关文献的研究偏好,有助于掌握数据要素领域研究推进的动态过程。

由图5 可知,自2013 年起“开放数据”“数据权利”和“数据要素”等聚类陆续出现。其中公共服务、信息公开和政府数据在很长一段时间内成为研究的热点话题,而政府信息公开为数据要素市场的供给端提供核心支撑,是数据要素流通的关键。两大聚类结果的相似性证明了数据流通的必要性和重要性,在数据要素市场培育过程中,数据流通制约是亟待解决的难题,也是数字经济高质量发展的关键。2014—2015 年间没有新的热点研究聚类,说明在此时期数据要素相关研究数量较少,研究方向较为分散。2016 年“生产要素”“数据交易”和“数字治理”等聚类开始出现,反垄断、数据定价和数据安全等热点话题带来了不小的研究热度,表明学者们开始将研究拓展到数据要素的细分领域。在2019 年前后,伴随着大量热点关键词的爆发,数据要素领域内开始形成规模化的研究方向,且聚类内与聚类间连线不断增加。“数字技术”这一聚类出现较晚,这是因为近年来人工智能、区块链、云计算和新通信技术等数字技术开始进入落地应用阶段。虽然我国的数字技术发展起步相对晚于国外发达经济体,但凭借市场规模、人才优势和政策的大力支持,我国已在多领域实现对国外的赶超。

图5 数据要素领域关键词时间线图谱

2.时区图谱分析

从图6 可以看出,随着时间的推移数据要素研究领域趋于多样化,相关细分方向理论因经济形态的转变而丰富。2013 年“大数据”关键词首次出现,该阶段相应的典型文献是2013 年的《大数据创新:欧盟开放数据战略研究》,数据开放与流通相关的议题开始得到关注;2016—2019 年间,代表性的核心文献有《数据保护的三重进路——评新浪微博诉脉脉不正当竞争案》《论数据用益权》,研究重心开始向数据要素流通中可能出现的数据保护与权利归属问题倾斜;伴随着我国拥有的数据规模与价值的不断提升,学者们开始尝试从理论上构建科学可行的数据要素市场体系,数据治理与数据交易预计成为目前及未来几年的学术界前沿的研究热点,值得学者们进一步探索。

图6 数据要素领域关键词时区图谱

(四)关键词突现分析

在关键词突现图谱中(见图7),大数据的突现时间长达7 年,成为持续型的研究热点,而开放数据、数据主权、数据权等词的突现时长次之,为5~6年。从突现强度看,大数据位列第一(4.57),说明大数据技术是数据要素市场的基石,符合直观事实。突现强度排序后可以看到,紧接着的关键词为开放数据(4.5)、数据开放(2.45),这也均是受到学界前沿高度关注的研究热点与难点。进一步观察突现的时间发现,2015 年开始数字经济的蓬勃发展引发了学术界对于大数据技术、开放数据以及数据主权的研究热情。同年国务院发布的《通知》是中国首个关于开放政府数据的宏观政策,受此影响,学者们将研究范围扩大到政府数据、电子政务、开放政府和数据开放等方面。2016 年,随着数据开放研究的持续推进,数据权属、数据保护、数据管理等现实问题开始涌现出来。2020 年,针对数据要素研究进入瓶颈期的现状,中共中央、国务院明确提出要加快培育数据要素市场,加强数据资源整合,使得国家治理、数据市场开始成为新的热点词汇。可以预见的是,未来国内1~2 年的研究不仅会关注数据要素在国家层面的管理与应用,还会继续探究数据要素带来的价值创造及其尚未被学界揭示的“黑箱”。总之,不同时期的研究热点与我国在数据要素方面的政策方针有着强关联度,同时研究热点及重难点也逐步细化。

图7 数据要素领域突现词信息图

五、研究结论与展望

我国数据要素市场的培育已成为必然趋势,通过知识图谱分析发现数据要素核心研究主题主要集中在数据开放、数据监管与数据交易三方面。随着研究的深入,可以看出研究热点迁移伴随着明显的政策导向性,关键词突现的动态调整往往伴随着政策的落地和完善。数据要素研究是一个综合性的课题,未来还需要多部门、多领域和多学科的协同创新与融合。最后本文对将来的研究作出以下建议与展望:

其一,深化数字企业案例研究。我国在数据的流通与使用等方面仍存在法律内容空白,需要相应的法律法规来确保数据得到安全、合理地利用。后续研究可从案例入手,对国内典型数据垄断企业进行深度剖析,并上升到理论高度以拓展研究成果的可用性。其二,加快数据价值体系研究。数据要素存在价值难以准确量化的交易特点,学者还应积极完善数据要素定价理论体系,探索合理的价值度量方法。数据要素要在经济社会发展中发挥作用,找到其科学合理的价值评估方法是迫切需要解决的问题。其三,完善微观层面政策研究。参考先行国家数据要素发展相关政策经验,对各细分领域进行深入研究。在保障各方数据相关者利益的基础上,因地制宜出台相应的市场激励措施,为我国数据产业高效健康、积极创新发展提供配套政策支持。