区块链研究现状的文献计量分析
2018-03-01倪晓春曾帅袁勇王飞跃
倪晓春 曾帅 袁勇 王飞跃
摘 要:随着以比特币为代表的数字加密货币的快速发展,区块链成为热门的研究领域,获得了越来越多研究人员的关注。论文以EI数据库和CNKI数据库为文献检索源,搜索了2011年1月至2018年9月间发表的区块链研究文献。基于这些文献,采用文献计量分析方法,从作者/机构的产量、合作以及熱门研究主题等方面,比较与分析国内外区块链研究现状。论文研究发现:论文产量方面,国内后发先至,但是高被引作者与高产作者失配;合作方面,国外作者/机构间呈普遍性合作关系,而国内合作匮乏,亟待加强;热门研究主题方面,则呈现逐渐从“比特币”转向“区块链”,从理论走向实践的趋势。
关键词:区块链;比特币;文献计量;主题分析
中图分类号:G353.1 文献标识码:A
1 引言
2008年全球金融危机之际,化名为“中本聪”(Satoshi Nakamoto)的学者在密码学邮件组陈述了他对电子货币的新设想[1],不受央行和任何金融机构控制的比特币就此面世。随着比特币近年来的快速发展与普及,研究者发现其底层的区块链技术具有更为重要,甚至是颠覆性的应用价值[2]。区块链是运行于更为复杂、开放和缺乏信任的互联网环境下一种全新的去中心化基础架构与分布式计算范式[3,4]。2016 年7月,区块链技术已经快速攀升到Gartner 技术成熟度曲线的顶端[5],相关研究也已呈现出爆发式增长态势,被认为是继大型机、个人电脑、互联网、移动/社交网络之后计算范式的第五次颠覆式创新,是人类信用进化史上继血亲信用、贵金属信用、央行纸币信用之后的第四个里程碑[6]。
国外对区块链技术的研究,最初是作为比特币研究的一部分,局限于比特币系统及其衍生问题,如比特币交易。研究者逐步发现,比特币背后的区块链技术提供了没有可信第三方的安全性、匿名性和数据完整性,区块链逐步成为一个独立的研究领域[7]。国内对区块链技术也日益重视。2016年12月,区块链被国务院列入《“十三五”国家信息规划》战略性前沿技术当中;2018年5月,习近平总书记在中科院院士大会上首次提到区块链技术,标志着区块链技术已经与人工智能、量子信息和物联网等技术共同成为我国亟待发展的战略性前沿技术,进一步刺激了国内科研人员和业界人士对区块链技术及应用进行探索[8-14]。目前,国内已形成了计算机科学、工程学以及电信科学、自动化技术为依托的基础技术学科群和以金融、能源与动力工程、工业制造、供应链、文化教育、医药卫生等应用学科群,但研究成果尚未形成体系[15,16]。
为了更好地把握国内外区块链研究现状、演进,有必要对该研究领域的高产/高被引的重要研究者/研究机构及其合作关系、热门研究主题等进行比较和分析。为此,本文选择了工程索引(Ei Compendex,EI)数据库和中国国家知识基础设施(China National Knowledge Infrastructure,CNKI)数据库作为文献检索源。由于Web Of Science(WOS)作为检索源的搜索结果少,且与EI重合率非常高,本文以EI为代表。EI是世界上最广泛和最完整的工程文献数据库之一,包括来自77个国家的190多个工程学科的超过2200万条记录。CNKI是中国著名的在线出版平台,它提供的中国知识资源综合数据库(CIKRD)涵盖了90%以上的中国知识文献。因此,本文以这两个数据库文献为基础分析获得的结论具有非常好的普适性和代表性。
本文基于文献计量等方法,从作者/机构的产量、合作以及热门研究主题等方面,比较与分析国内外区块链研究现状。组织结构如下:首先对本文采集的文献数据集与采用的文献计量分析方法进行介绍;然后从作者/机构的论文产量、作者/机构的合作模式、研究主题等方面详细阐述对数据集的计量分析结果;最后是本文的总结。
2 数据与方法
本节将对采集的文献数据集与采用的文献计量分析方法进行介绍。
2.1 文献数据集
本文分别以EI数据库和CNKI数据库为文献检索源,构建了国外和国内两个区块链文献数据集,前者称为EI数据集,后者称为CNKI数据集。具体的构建方法有几种。
(1)以EI为文献检索源,以“Title”包含“blockchain”或“bitcoin”为检索条件,文献检索时间范围始于建库起始,截止时间为2018年9月进行检索,去除无标题/发表年份/作者/机构的不规范数据,并经过基于“作者+篇名”的去重筛选后,共保留相关文献1342篇,作为EI数据集。
(2)以CNKI下属的中国期刊全文数据库为文献检索源,以“篇名”包含“区块链”为检索条件,其他条件同EI,并进行相同的数据过滤处理,共获得相关文献1475篇。此外,还通过定制网页爬虫从CNKI网站上获取每篇文献的下载次数、引用次数以及被引详情。经过上述步骤,生成CNKI数据集。因以“比特币”为CNKI 检索词搜索结果大多非学术著作,故未予以采用。
两个数据集都包含文献的标题、作者、作者机构、发表日期及关键词等字段。为了方便文献计量分析,对数据集进行了预处理:(1)在对个人发表文献进行分析时,根据作者全名与所属机构,识别同一作者;(2)在对机构发表文献进行分析时,对同一研究机构(包括大学/学院/银行/企业)下属子机构进行了归约,例如“中国人民银行营业管理部”“中国人民银行天津分行”等多个机构被合并为“中国人民银行”。
基于上述规整后的数据集,本文分别从研究者/研究机构层级构建其合作关系网络图(无向图),图中节点代表研究者/研究机构,节点相连的边代表论文合作关系,表1是从网络拓扑度量角度对上述数据集的基本统计。
2.2 文献计量分析方法
本文构建了量化评估作者/机构的指标体系,如表2所示,除了基本的统计,还采用了网络分析方法和文本分析方法。
(1)网络分析:合作关系直观反应科研人员之间的协作[17,18];引用关系则更为明显反应引文与被引文的关联,突显被引文的影响力[19,20]。本文从两个层级分析区块链研究领域中的合作关系:作者与机构,并分别为之构建合作关系网络。EI数据库并不提供被引信息,构建了CNKI相关文献被引网络,并利用Cytoscape[21]工具来分析与可视化这些网络。
(2)文本分析:论文的标题与关键词是文章核心主旨所在,通过对标题与关键词的分析,可以挖掘文献研究的热点。本文将EI数据根据时序划分算法[22]进行分组,挖掘不同阶段区块链研究领域的热点主题,并分析其演化进程。
3 数据分析与结论
对EI与CNKI两个数据集进行了统计分析,具体数据如表3所示。可以看出,两个数据集的论文数虽然很接近,但EI数据集中的作者数量远超过CNKI数据集,而且EI数据集中孤立作者占比(3%)与孤立机构占比(23%)也远低于CNKI数据集(30%、56%)。这都说明EI论文呈现多人合作模式,其作者相比CNKI作者更具合作意愿,国内研究者应加强合作交流。
图1是EI/CNKI数据集中每年的论文数量变化曲线,可从“量”的角度,判断区块链研究增长趋势和爆发时间。二者虽都呈现明显的上升趋势,但增长模式显著不同。EI论文的数量保持相对稳定的增长速度,而CNKI中比国际滞后了4年,2015年才起始发表了5篇论文,但从2016年起呈现井喷式发展,从数量上一直保持领先EI。在国家政策支持下,中国是有可能在区块链这个尚未成熟的研究领域获得国际性竞争优势。
3.1 论文数量分析
表4列出了EI数据集的高产作者TOP10。其中,有4位作者来自近几年成立的两个新兴区块链研究机构,即美国纽约的区块链联盟IC3(Initiative for Cryptocurrencies and Contracts)和澳大利亚联邦科学与工业研究组织(Commonwealth Scientific and Industrial Research Organisation, CSIRO)的Data61,并且排名靠前,表明了这些“产业机构”对区块链的研究推动巨大。此外,从作者所属的国家/地区来看,在上榜的15位作者中,6位来自美国,4位来自欧洲,2位来自澳大利亚,3位来自中国,欧美在区块链研究领域占据第一阵营,起着主导作用。
表5列出了CNKI数据集中的高产作者TOP10。蔡维德(北京航空航天大學)、李彬/祁兵(华北电力大学电气与电子工程学院)、许金叶(上海大学管理学院)、秦谊(德勤中国)五人并列第一,均发表了6篇论文。因为起步晚,比EI上榜门槛略显差距。从机构分布来看,虽然大部分作者来自大学和传统研究机构,然而排名第一的秦谊是公司从业人员。这表明国内在产业界着手深入区块链技术的同时,研究人员反而反应滞后了。
表6为EI数据集的高产机构TOP10。其中,排名第一的苏黎世理工大学共发表了35篇论文,遥遥领先位列第二的北京邮电大学(26篇)和第三的北京航空航天大学(20篇)。在上榜的10个机构中,中国研究机构占5位,体现中国研究者逐步在国际舞台展现活力。表7是CNKI数据集中的高产机构TOP10排行榜。金融机构占比较大,说明国内区块链的研究仍侧重金融、银行、数字货币等相关方面,区块链在其他领域的创新与应用有待加强。
对于CNKI数据集,还构建了一个论文被引网络,如图2所示。在论文被引网络中,每个节点代表一篇论文,每条边代表论文之间的被引关系。此外,论文的被引次数越高,其节点越大。该网络包括1657个节点,4183条边,分为26个连通分支,没有孤立节点。最大连通分支包括1600个节点,占全部节点的97%,说明大部分论文都建立了直接或间接的被引关系。此外,在图2中标出了排名前五的高被引论文。论文《区块链技术发展现状与展望》以被引400余次、下载45000余次排在高被引论文第一位,其作者袁勇与王飞跃来自中国科学院自动化研究所复杂系统管理与控制国家重点实验室和青岛智能产业技术研究院。在表5中,列出了CNKI高产作者的合计被引数,其中被引数最高的为蔡维德(北京航空航天大学),6篇文章合计被引55次。通过对比,发现最高产作者与高被引论文作者重叠率较低。进一步以三元组(表示论文被引最小值、平均值与最大值)分析Top5高被引作者论文被引数与高产作者平均论文被引数,结果依次为 与 ,说明在重视论文数量的同时,亟待需要提高论文质量,以提高论文影响力。
3.2 合作模式
本文构建了研究者和研究机构的合作网络(如图3、图4、图5、图6所示)并采用网络拓扑分析方法,详细分析EI/CNKI数据集中的研究者/研究机构合作模式。在这些合作网络中,每个节点代表一个作者/机构,每条边代表作者/机构间的合作关系。节点大小与论文数量之间有正相关性,即发表论文数量越多,节点越大。此外,还标出了高产作者/机构。为了方便查看,图中没有显示孤立节点。
(1)研究人员合作分析:图3为EI数据集的研究者合作网络,图4为CNKI数据集的研究者合作网络(详细网络参数可参见表1),从网络图形上看,CNKI作者合作网络更为稀疏,EI作者合作网络已经呈现多个聚簇,聚簇是团状、环状形态,而CNKI网络聚簇少且规模很小,并且多呈链式结构,这都说明EI作者之间的合作更为紧密,并呈团簇成大的社群之势。
从网络特征量来看,相比与论文[23]提出公式 L(G)=0.35+2.06log(N),EI与CNKI合作网络的平均路径长度都相对较小,有利于知识的传播,而EI合作网络比CNKI具有更高的聚类系数(0.807 vs. 0.592),聚类系数越高,相应合作网络中的作者更趋于协作。
EI合作网络最大连通分支包含182个节点,占比5.2%,CNKI最大连通分支仅包含31个节点,占比1.9%,总体来说,两者占比均不高,可能的知识扩散的范围仍然有限,只有加强合作才能形成更大的社群,更能有效地促进知识的传播。
此外,发现Xu、Xiwei是EI数据集中合作者数量最多的节点,其度为53。其次为Zhu、 Liming和Weber、Ingo。744对合作者的合作次数超过1次。其中,合作次数最多的一对合作者为Wattenhofer、Roger和Decker、Christian,共合作9次。CNKI数据集中孙毅,李彬和祁兵是合作者数量最多的节点,度分别为20、18、17。119对合作者的合作次数超过1次。其中,合作次数最多的一对合作者为李彬和祁兵,共合作5次。上述数据,从侧面也说明EI作者比CNKI作者的合作更为普遍。
(2)研究机构合作分析:参照作者合作网络分析方法,分别对EI与CNKI的研究机构进行了分析(详细网络参考可参见表1),图5、图6分别为其研究机构合作网络图。EI研究机构合作网络,包括1272个节点与297个孤立节点,对比CNKI是1005个节点与561个孤立节点,CNKI超半数机构都是孤军奋战,国内研究机构间的合作严重匮乏;从最大连通分支角度来看,与EI网络相比,CNKI网络包括大量小规模的连通子图,此外CNKI聚类系数为0.311,小于EI(0.497),这都说明国内研究机构合作的缺乏,不能有效促进知识扩散。
EI机构合作网络中Data61, CSIRO是与其他机构合作最多的节点,其度为33。其次为北京邮电大学和IBM研究院。三者均为最大联通子图中的关键节点。153对机构的合作次数超过1次。其中,合作次数最多的一对机构为ETH和NEC 实验室,共合作8次;CNKI机构合作网络中国家电网,中国科学院大学和清华大学是与其他机构合作次数最多的节点,度分别为21、19、16。三者均为最大联通子图中的关键节点。42对机构的合作次数超过1次。其中,合作次数最多的一对机构为国家电网和华北电力大学,共合作7次。综上所述,机构层级的合作,EI也比CNKI更多,更紧密,国内机构应提高合作意识,避免处于研究孤岛状态,并加强与世界合作,以快速融入国际研究第一阵营。
3.3 研究主题
相比CNKI文献,EI文献更能代表区块链研究领域前沿成果,因此基于文本分析方法,基于EI数据集进行了热点主题挖掘。
首先,将EI提供的Classification Code代表论文主题特征,基于K Nearest Neighbors算法(Dynamic Time Warping方法为距离函数)进行时序数据分类,发现主题显著变化发生在2014-2015年与2016-2017年。因此,将EI数据集划分为三个阶段:2011-2014年、2015-2016年、2017年-至今。表7展示了各个时段的主要研究方面。
从研究分类层级可以看出区块链研究从最初的加密安全领域转向社会经济再到工业制造及更为广泛应用的演进过程,这说明区块链研究逐渐从理论走向实践。
进而,基于EI文献的标题对各阶段热点进行了挖掘。图7展示了每个阶段的研究热点。发现2011-2014年,“Bitcoin”占据绝对的主导地位;2015-2016年,“Blockchain”迅猛发展,一跃至第二热门研究主题,与“Bitcoin”不分伯仲;2017年起,“Blockchain”呈爆发式增长态势,越发成为领域内炙手可热、重中之重的研究主题,“Bitcoin”则逐步热度退却。这种明显的研究主题的切换,清晰的证实了越来越多的研究者从追捧比特币热潮,逐步重视其底层支撑技术——区块链,区块链成为主导的新研究热点。
再者,基于EI文献的关键词进行了各阶段热词发现。图8展示了每个阶段的研究热词。第一阶段,区块链的概念难觅踪迹,比特币价格的飞涨引起众多学者的兴趣,此阶段大家都只是专著于比特币相关的加密算法、P2P网络、电子货币的研究;2015年起,比特币底层的区块链技术逐渐显露锋芒,并在截至2106年期间长足发展;此后区块链以绝对优势占据研究热潮的中心。
4 结束语
本文基于EI和CNKI数据库中截至2018年9月的区块链相关文献进行了计量分析。从作者/机构的产量、合作以及热门研究主题等方面,比较与分析国内外区块链研究现状。论文产量方面,国内区块链研究后发先至,于2016年开始高速增长,在数量上超过了国外,并一直保持(数量)领先态势,但是高被引作者与高产作者失配;合作方面,国外作者/机构间呈普遍性合作关系,而国内合作匮乏,亟待加强;此外,还基于EI数据集进行时序划分与热门主题挖掘,发现区块链研究呈现逐渐从“比特币”转向“区块链”,从理论走向实践的趋势。下一步的工作将基于更多的网络分析指標(例如中介中心性)深度挖掘研究圈子与热点方向,以期更好地跟踪国内外区块链研究团体与动态,为下一步区块链研究提供有益的启发与借鉴。
参考文献
[1] Nakamoto S. Bitcoin: A peer-to-peer electronic cash system[J].2008.
[2] 袁勇,王飞跃.平行区块链: 概念,方法与内涵解析[J].自动化学报,2017,43(10): 1703-1712.
[3] 袁勇,王飞跃.区块链技术发展现状与展望[J].自动化学报,2016,42(4): 481-494.
[4] 袁勇,倪晓春,曾帅,王飞跃.区块链共识算法的发展现状与展望[J/OL].自动化学报,https://doi.org/10.16383/j.aas.2018.c180268.
[5] 袁勇,周涛,周傲英,等.区块链技术: 从数据智能到知识自动化[J].自动化学报, 2017, 43(9): 1485-1490.
[6] Swan M. Blockchain: Blueprint for a new economy[M]. USA: O'Reilly Media, Inc., 2015.
[7] Yli-Huumo J, Ko D, Choi S, et al. Where is current research on blockchain technology?—a systematic review[J]. PloS one, 2016, 11(10): e0163477.
[8] Wang S, Wang J, Wang X, et al. Blockchain-Powered Parallel Healthcare Systems Based on the ACP Approach[J]. IEEE Transactions on Computational Social Systems, 2018 (99): 1-9.
[9] Ni X C, Zeng S, Han X, Yuan Y, Wang F Y. Organization management using software-defined robots based on smart contracts[C]. Proceedings of 2018 IEEE Intelligent Vehicles Symposium, Changshu, Jiangsu, China. 2018: 274-279.
[10] Yuan Y, Wang F Y. Towards blockchain-based intelligent transportation systems[C]. Intelligent Transportation Systems (ITSC), 2016 IEEE 19th International Conference on. IEEE, 2016: 2663-2668.
[11] Qin R, Yuan Y, Wang F Y. Research on the Selection Strategies of Blockchain Mining Pools[J]. IEEE Transactions on Computational Social Systems, 2018 (99): 1-10.
[12] 曾帥,袁勇,倪晓春,王飞跃.面向比特币的区块链扩容: 关键技术, 制约因素与衍生问题[J].自动化学报.
[13] Li J J, Yuan Y, Wang S, Wang F Y. Transaction queue game in bitcoin blockchain[C]. Proceedings of 2018 IEEE Intelligent Vehicles Symposium, Changshu, Jiangsu, China. 2018:114-119.
[14] Yuan Y, Wang F Y. Blockchain and Cryptocurrencies: Model, Techniques, and Applications[J].IEEE Transactions on Systems Man & Cybernetics Systems, 2018, 48(9):1421-1428.
[15] 汪园,王学东,李金鑫.基于文献计量的我国区块链研究的知识网络与结构分析[J].现代情报,2018,38(01):147-153.
[16] 王发明,朱美娟.国内区块链研究热点的文献计量分析[J].情报杂志,2017,36(12):69-74+28.
[17] Newman M E J. Scientific collaboration networks. I. Network construction and fundamental results[J]. Physical review E, 2001, 64(1): 016131.
[18] Newman M E J. Coauthorship networks and patterns of scientific collaboration[J]. Proceedings of the national academy of sciences, 2004, 101(suppl 1): 5200-5205.
[19] Liang Y, Li Q, Qian T. Finding relevant papers based on citation relations[C]. International Conference on Web-Age Information Management. Springer, Berlin, Heidelberg, 2011: 403-414.
[20] Liu H, Kong X, Bai X, et al. Context-Based Collaborative Filtering for Citation Recommendation[J]. IEEE Access, 2015, 3(1).
[21] Shannon P, Markiel A, Ozier O, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks[J]. Genome research, 2003, 13(11): 2498-2504.
[22] Guralnik V, Srivastava J. Event detection from time series data[C]. Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 1999: 33-42.
[23] Albert R, Jeong H, Barabási A L. Internet: Diameter of the world-wide web[J]. nature, 1999, 401(6749): 130.