APP下载

区块链研究热点及知识结构的文献计量分析*

2021-08-04朱士超

科技促进发展 2021年4期
关键词:发文图谱聚类

■ 李 健 朱士超 张 文

1.北京工业大学经济与管理学院北京现代制造业发展研究基地 北京 100124

2.北京工业大学区块链研究中心 北京 100124

0 引言

2008年,化名为“中本聪”(Satoshi Nakamoto)的学者在邮件组中发表了题为《Bitcoin:A peer-to-peer elec‐tronic cash system》的工作论文,提出了一种不依赖中心机构,完全通过点对点技术实现的电子现金系统,详细的介绍了区块链的共识机制、特点和技术组成。随着比特币价格不断上升,区块链也开始进入大众视野。与业界相同,学术界对于区块链的研究也是从比特币开始的。学者们逐渐发现区块链作为比特币的底层技术,本质上是一个去中心化的数据库,是分布式技术、点对点技术、非对称加密以及共识机制等几种技术的新型应用模式,具有去中心化、去信任化、时序数据、不可篡改等特点[1]。国内政府有关部门、企业对于区块链技术也越来越重视,进一步刺激了国内学者、从业人员对于区块链技术的研究和探索。2019年10月24日,中共中央政治局就区块链技术发展现状和趋势进行第十八次集体学习。中共中央总书记习近平在主持学习时强调,区块链技术的集成应用在新的技术革新和产业变革中起着重要作用。这意味着区块链技术已经成为我国核心技术自主创新的重要突破口,成为亟需发展的战略性技术。

在区块链技术的发展进程中,与其他科学技术的结合是其真正落地应用的关键。通过与不同技术的结合,区块链技术有潜力为社会生产关系带来颠覆性的变化。物联网、大数据、人工智能等技术的发展为区块链技术的创新应用带来了新的机遇。以区块链、大数据以及物联网的关系为例分析技术之间的融合性,物联网和大数据分别可以作为区块链的输入和输出端。区块链本质上是一个分布式数据库,物联网技术可以为区块链数据库提供可靠的数据源,区块链技术提供数据存储的安全性和私密性,而大数据技术通过分析区块链提供的高质量数据,指导社会生产实践。三者各司其职,高效配合。

正是由于具有以上优势,区块链技术逐渐被应用至现代生活的各个领域,包括法律[2]、能源[3]、供应链[4][5][6]、金融[7]、溯源[8][9][10]、商业模式[11]等。区块链技术相关研究为交叉学科,既包括对于区块链技术本身的优化改进,又包括区块链技术的应用研究,涉及信息科学、经济与管理科学、法学等多个领域。多位学者对区块技术的相关研究进行了综述,其中袁勇和王飞跃[1]、韩秋明和王革[12]对区块链技术的国内外发展和研究现状进行了全面的综述,Pournader 和Shi[13]、祝烈煌等[14]、斯明雪等[15]分别从运营管理、隐私保护以及安全性角度进行了区块链相关应用综述。考虑到现有综述更多属于定性研究,文献挑选具有主观性且文献样本量较小。为了更加准确的把握区块链相关文献的外部特征、知识结构以及研究现状,厘清研究脉络,为后续研究提供参考。本文通过CiteSpace 软件,使用更加严谨的定量化和可视化方法,基于CNKI 和WOS 数据库,对区块链相关研究文献进行计量分析。本文组织架构如下:首先介绍本文的数据来源和研究方法;然后从作者、机构的论文产量及相互之间的联系角度阐述相关文献的数据特征;进一步,通过共词分析和关键词聚类探索文献的知识结构;最后对文章进行总结。

1 数据来源及研究方法

1.1 数据来源

本文分别以CNKI 数据库和WOS 数据库为文献来源,构建了国内国外两个区块链相关文献数据集。具体的检索方法为:

(1)以CNKI 为数据检索源,在CNKI 平台中使用高级检索,令主题等于“区块链”或“区块链技术”,选择“期刊类”文献类型,来源类别选择“CSSCI”和“CSCD”数据库。在此检索条件下,去重并筛去不规范数据,共得到有效期刊文献945 篇,作为CNKI 数据源。检索时间为2020年2月6日。

(2)以WOS 为数据检索源,令主题等于“Block‐chain”,文献类型为“Article”或“Review”,语种为“Eng‐lish”,时间跨度为“2008~2020”。在此条件下,去重并筛去不规范数据,共得到有效文献1565 篇,作为WOS 数据源。

1.2 研究方法

学者们常通过文献综述和文献计量方法来探索某一领域或主题下的文献外部特征和知识框架。[16]其中文献计量法通常用来展示某一领域或主题的研究现状,辨识领域内的重要期刊、学者和研究机构,追踪发展动态。[17]CiteSpace 是一种信息可视化软件,基于科学计量学、可视化数据,通过共现、共被引、耦合方法,以可视化图谱的方式沿时间维度探索某一领域或主题下的发展脉络、特点主题、突变词以及发展趋势。[18]本文借助CiteSpace(5.6.R5 版本)信息可视化软件,使用文献计量中的共现分析和聚类方法展开研究。

2 区块链相关研究的文献外部特征

2.1 论文数量

区块链作为比特币的底层技术,由中本聪(化名)在2008年提出。在区块链提出的前几年,并没有引起学术界的广泛关注。由区块链相关研究文章数量年份分布图(图1)可知,截至检索日,共有相关英文文献1565 篇,中文文献945 篇。2015年以前,有关区块链技术的文献的发文量仅有3 篇。2016年开始,区块链相关的中英文文献数量开始迅速增长,2016-2019年的中(英)文文献发文量分别为33 篇(10 篇)、102 篇(52 篇)、275 篇(274篇)和414 篇(825 篇)。从2020年部分数据来看,区块链相关文献数量仍然处于较高水平。从增长速度来看,中英文文献都保持较高的增长速度,英文文献增速更快。区块链相关文献的发文量与政府部门的政策息息相关,这也符合产学研结合的技术创新体系。2016年起,国内外政府开始认识到区块链技术的重要性,逐步颁布一系列政策,区块链相关文献的发文量也相应迅速增长。2019年10月24日,中央政治局就区块链技术发展现状和趋势进行集体学习,强调区块链技术的集成应用在新的技术革新和产业变革中起着重要作用。这意味着区块链技术将成为我国核心技术创新的重要突破口,必然会推动学术界区块链相关文献发文量进一步增长。

图1 2014~2020年区块链相关文献发文量分布

2.2 期刊分布

表1和表2分别为CNKI和WOS 两个数据集中发文量较高的期刊及各自的发文量,前10种期刊的发文量占总发文量的比例分别为26.88%和43.19%。相比CNKI数据集,WOS数据集区块链相关研究分布更为集中。从发表期刊所属领域来看,学术界区块链相关研究大部分集中于计算机科学、信息技术领域,其次为经济与管理科学、法学、政务等领域。

表1 区块链相关文献发文量高载期刊分布(CNKI数据集)

表2 区块链相关文献发文量高载期刊分布(WOS数据集)

2.3 高产作者及合作网络分析

在同一主题中,半数的论文为一部分高产作者所撰,这是普莱斯定律的主要思想。学术界通常用普莱斯定律来确定某一领域或某一主题的核心作者,其公式为:

其中,m为核心作者最后一名的论文数量,nmax为该主题下核心作者第一名的论文数量。将论文数量大于m的作者成为该主题下的核心作者。在CNKI 数据集中,发文量最多的为王飞跃,数量为10 篇,由此得到m为2.4。即,发文量在2.4 篇以上的作者为该主题下的核心作者。核心作者群共包括107 位作者,共发表文章413 篇,占总文章数的42.4%,接近普莱斯定律规定的50%,说明区块链相关文献的核心作者群已经初步形成。

在WOS 数据集中,发文量最多的为KIMKWANG RAYMOND CHOO,数量为28 篇,由此得到m为3.96。即,发文量在3.96 篇以上的作者为该主题下的核心作者。核心作者群共包括156 位作者,共发表文章926 篇,占总文章数的59.2%,已经超过普莱斯定律规定的50%,说明区块链相关文献已经形成具有较大规模的核心作者群。

将两组数据集导入CiteSpace软件,进行作者合作网络分析,参数设置为Time Slice=1,Selection Criteria=top 50。图2~3分别显示了两个数据集中符合条件的作者以及他们之间的合作关系,其中节点大小表示该作者发文数量,节点间的连线粗细表示作者之间的合作次数。为了方便查看,图谱中没有显示部分孤立节点。观察图谱可以发现,CNKI 数据集相比WOS 数据集,合作网络更加稀疏,且以小规模网络为主。而WOS 数据集中合作网络更加密集,已经呈现出链式结构。通过作者合作网络图谱特征量(表3)可以看出,WOS 数据集相比CNKI数据集密度(Density)更大。因此可以得到结论:WOS数据集相比CNKI数据集,作者之间的合作更为紧密,研究团队规模较大。而CNKI数据集中存在大量两人或三人的小规模团队,说明尽管学者间存在一定的交流合作,但研究团队规模较小,团队间有待于进一步联系合作。

图2 区块链相关文献核心作者及作者间合作关系图谱(CNKI数据集)

表3 作者合作网络图谱特征量

图3 区块链相关文献核心作者及作者间合作关系图谱(WOS数据集)

从CNKI数据集高产作者信息(表4)来看,中文文献中区块链相关文献发文量最高的作者是中国科学院自动化研究所的王飞跃,共发文10 篇。排在第二、三位的是中央财经大学的朱建明(9 篇)、中国科学院自动化研究所的袁勇(8 篇)。从引用量来看,位于前三位的分别是王飞跃、袁勇、于戈,分别为1547 次、1511 次、233 次。其中文章《区块链技术发展现状与展望》引用量达到1333 次,王飞跃、袁勇为该文章的联合作者。通过以上分析可以看出在CNKI 数据集中,高产作者和高被引作者基本匹配。

表4 高产作者信息(CNKI数据集)

表5列出了WOS 数据集中的高产作者信息。在上榜的8 位作者中,2 位来自美国,2 位来自中国,挪威、卡塔尔、韩国、新加坡各一位。针对WOS 数据集,还做出了共被引网络图谱(图4)。其中,文章《Blockchains and Smart Contracts for the Internet of Things》(Christidis 等,2016)被引用频次为640 次,位于WOS 数据集高被引文章第一位。另外,高被引作者与高产作者鲜有重叠,存在高产作者和高被引作者失配的情况。

表5 高产作者信息(WOS数据集)

图4 共被引网络图谱(WOS数据库)

3 区块链相关文献知识结构分析

文献计量中通常用关键词共现(共词分析)的方法来研究一个研究领域或主题的知识结构。关键词共现的原理是统计一组关键词在同一篇文章中同时出现的次数,从而反映关键词之间的关系,进而分析每个关键词代表的学科和主题的结构变化和发展趋势。本研究通过对关键词共现的结果进行可视化分析,并在此基础上进行聚类分析,从而探索该领域的知识结构和发展趋势。“区块链(Blockchain)”为本文研究的主题词,在学术文献检索时以“区块链(Blockchain)”作为检索词,因此,“区块链(Blockchain)”、“区块链技术(Blockchain tech‐nology)”无法反映该研究领域内的研究趋势,故在下文中不予分析。

3.1 关键词共现

利用CiteSpace 软件对每年出现频次最高的30 个关键词进行共现分析,并对结果进行路径查找(Pathfinder)和修剪切片网络(Pruning sliced network)处理,得到两个数据集中区块链相关文献关键词共现网络(图5-6)。

图5 区块链相关文献关键词共现网络(CNKI数据集)

图6 区块链相关文献关键词共现网络(WOS数据集)

国内相关文献关键词共现网络呈现以“智能合约”关键词为核心的辐射结构,出现频率较高的关键词包括“智能合约”、“去中心化”、“比特币”、“共识机制”、“数字货币”等。高频关键词如表6所示。进一步,利用CiteSpace 软件的最大似然法(LLR 算法)对关键词进行聚类,并使用关键词对聚类进行命名,最终确定了7个聚类(图7)。聚类图谱模块度(Modularity)为Q=0.6942,聚类内部指标值(Mean silhouette)为S=0.7109,说明聚类效果较好,各聚类群内相似度高,群间差异大。由聚类图谱,7 个聚类主题分别智能合约、跨境电商、区块链技术、财政金融、分布式账本、金融科技、虚拟货币。这7个主题为CNKI 数据集区块链相关文献研究的主要内容,构成了区块链技术相关文献的知识结构。

图7 区块链相关文献关键词聚类图谱(CNKI数据集)

表6 频次前10位的关键词(CNKI数据集)

国外相关文献关键词共现网络呈现以“Internet of thing”、“Internet”、“Security”、“Smart contract”多个关键词向四周发散的网络结构,高频关键词如表7所示。进一步,利用CiteSpace软件的最大似然法(LLR算法)对关键词进行聚类,并使用关键词对聚类进行命名,最终确定了8个聚类(图8)。聚类图谱模块度(Modularity)为Q=0.5618,聚类内部指标值(Mean silhouette)为S=0.6436,说明聚类效果较好,各聚类群内相似度高,群间差异大。由聚类图谱,8 个聚类主题分别Anti-quantum transaction authentication approach(非对称交易验证方法)、Robust fair payment(稳定的点对点支付)、Smart contract(智能合约)、Meat traceability(肉类溯源)、Research agenda(研究进程)、Ledger technologies(记账技术)、Smart manu‐facturing system(智能制造体系)、Reputation-based sys‐tem(声誉系统)。这8个主题为WOS数据集区块链相关文献研究的主要内容,构成了区块链技术相关文献的知识结构。

图8 区块链相关文献关键词聚类图谱(WOS数据集)

表7 频次前10位的关键词(WOS数据集)

3.2 聚类结果分析

从聚类结果来看,区块链的研究可以分为四类,与区块链技术的发展进程高度相关,是区块链1.0/2.0/3.0的体现。分别为区块链技术的优化创新、数字货币相关研究(区块链1.0)、区块链金融与智能合约相关研究(区块链2.0)、区块链技术应用研究(区块链3.0)。

区块链技术的优化创新。学术界对于区块链技术本身的研究主要集中在区块链的网络层、数据层、共识层以及控制层。其中,网络层的研究集中在匿名分析、隐私保护和安全等几个主题,数据层的研究集中在高效验证和隐私保护,控制层的研究集中在可扩展性优化层面,共识层的研究则主要集中在共识机制的开发,除了传统的共识机制,还产生了许多混合类的协议,包括PoX-BFT混合协议,PoX之间的混合协议。

数字货币相关研究。数字货币相关研究集中在对于数字加密货币以及ICO 这种集资方式的监管。数字货币存在监管漏洞,洗钱、毒品、恐怖主义等犯罪行为可能会通过数字货币逃避法律的追踪。根据Foley 等[19]的研究,大约有23%的比特币用户与非法活动相关联,数字货币为这些违法犯罪行为提供了温床。因此许多研究聚焦于数字货币的监管方式,如运用监管沙盒、监管科技等。

区块链金融与智能合约相关研究。国内区块链在金融领域的应用场景主要包括银行业、供应领金融、普惠金融、保险业、证券业等。去中心化、不可篡改性是区块链应用于金融领域的主要依据。去中心化可以实现点对点交易,降低交易成本,而不可篡改性确保信息的真实性,为银行与企业间、企业之间的贷款提供征信保障,从而降低了违约风险。关于智能合约的研究聚焦于其安全性、并发性、可扩展性以及可维护性,Ethereum 和Hyperledger是具有代表性的两个智能合约项目。

区块链的应用研究。目前区块链技术的应用不止局限于数字货币和金融领域。区块链与人工智能、云计算、大数据、物联网等共同被应用于社会发展的各行各业,成为经济发展的新动能,电子政务、版权保护、食品溯源、供应链管理、隐私保护等都是区块链的典型应用场景。同时,这些技术的发展也为区块链技术的发展起到促进作用。

4 结束语

4.1 结论

本文采用文献计量的方法,对CNKI/WOS 数据库中有关区块链技术的文献外部特征、知识结构进行分析,得到以下结论:

(1)从外部特征来看:相关论文的发表数量迅速增长,并将会在2020年进一步爆发增长;区块链相关文献主要发表在计算机科学、信息技术、经济与管理科学领域。

(2)从合作网络来看:国外学者之间交流密切,合作较多,国内学者尽管存在一定的交流合作,但研究团队规模较小,有待于进一步联系,加强合作;国内高产作者和高被引作者基本匹配,国外高产作者和高被引作者失配。

(3)从科技发展角度:关键词共现网络图谱中多次出现物联网、大数据、云计算等关键词。这些技术的发展推动了区块链技术的科技创新和进步,多种技术的融合创新应用是今后科技发展的重要方向。

(4)从文献知识结构来看:主要包括四类研究,与区块链技术的发展进程高度相关,是区块链1.0/2.0/3.0 的体现。分别为区块链技术的优化创新;数字货币(区块链1.0);区块链金融与智能合约(区块链2.0);区块链的其他应用研究(区块链3.0),包括电子政务、版权保护、食品溯源、供应链管理以及隐私保护等。

4.2 未来研究建议

针对现有研究中存在的短板和不足,提出以下研究建议。

(1)区块链技术短板的理论研究。区块链技术自出现以来不断改进和升级,但目前仍存在许多问题需要解决。首先,“不可能三角”问题。即区块链的“去中心化”、“安全性”和“可扩展性”三种特性不可兼得。第二,原始数据的真实性问题。目前区块链技术可以保证数据上链后不可篡改,但难以保证原始数据的真实性,是其落地应用的瓶颈之一。第三,区块链的审计监管问题。公有链用户匿名、信息不可篡改,难以追溯区块链上的异常行为,包括欺诈、非法买卖、洗钱等。最后,区块链相关标准的制定。区块链标准的缺失会导致项目之间互联互通受阻,商业布局被拖缓。以上问题需要科研人员进一步探索,寻找妥当的解决方法和技术方案。

(2)区块链的应用研究。根据已有研究,区块链技术已经应用于法律、能源、供应链、金融、溯源等多个领域,但目前研究不够深入,未来可以在以下几个方面进行扩展。第一,基于区块链的商业模式在运营管理领域的研究,探索区块链的应用为企业商业模式带来哪些改变。第二,区块链相关行业的实证分析。通过对应用区块链技术的行业数据进行实证分析,判断区块链技术的应用条件和应用效果。第三,区块链对行业网络生态的影响分析。

综上所述,区块链作为一种具有巨大潜力的新兴技术,已经成为学术界的研究热点。未来将会出现更多的相关研究团队和机构,研究内容也会向着区块链3.0 方向发展,逐渐的将区块链技术应用至更多的应用场景,为实现创新驱动发展战略目标、建设世界科技创新强国助力。

猜你喜欢

发文图谱聚类
一种傅里叶域海量数据高速谱聚类方法
基于图对比注意力网络的知识图谱补全
绘一张成长图谱
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
面向WSN的聚类头选举与维护协议的研究综述
图表
改进K均值聚类算法
主动对接你思维的知识图谱
基于Spark平台的K-means聚类算法改进及并行化实现