基于知识图谱的区块链专利数据挖掘
2020-12-08邵泽宇孟天宇
邵泽宇 孟天宇
摘 要:为响应习近平总书记关于学习区块链技术的号召,协助企业对区块链落地产业进行精准投入和科学布局,为相关决策者与研究人员提供新思路。文中基于德温特专利数据库(DII)中2014—2019年区块链相关专利数据,利用CiteSpace对区块链技术前沿热点、演化路径、专利权人以及发明人进行深入挖掘分析,并构建知识网络图谱,对现有存量区块链技术做分析,对区块链技术的应用与技术前沿进行了重点梳理并提出相关建议。结果发现区块链在分布式数据库、数据加密和解密等方面应用趋于成熟,车辆微处理器系统等应用占据关键地位,业务路由等为区块链新兴方向,区块链技术由早期重点研究的数据库、密码学等演化至今出现了法律法规、识别等重要方向,区块链相关公司在其国内之间合作紧密,但缺乏跨国之间的交流联系。
关键词:知识图谱;德温特专利数据;CiteSpace;专利挖掘;区块链
中图分类号:G 255.53;TP 309 文献标识码:A 文章编号:1672-7312(2020)06-0588-08
Block Chain Patented Data Mining Based on Mapping KnowledgeSHAO Ze-yu1,MENG Tian-yu2
(1.Institute of Science and Technology Information,Jiangsu University,Zhenjiang
212013,China;
2.School of Management,Jiangsu University,Zhenjiang 212013,China)
Abstract:In response to General Secretary Xi Jin-pings call for learning about block chain technology,assist companies to make accurate investment and scientific layout of the block chain industry,and provide new ideas for relevant decision makers and researchers,the paper,based on the 2014—2019 blockchain-related patent data in the Derwent Patent Database(DII),uses CiteSpace to conduct in-depth mining and analysis of blockchain technology frontiers,evolution paths,patentees,and inventors,and builds a knowledge network Atlas,analyzes the existing existing block chain technology,focuses on the application of block chain technology and the technical frontier,and puts forward relevant suggestions.The results show that the application of blockchain
in distributed database,data encryption and decryption tends to mature,and applications such as vehicle microprocessor system occupy a key position.Business routing is the emerging direction of blockchain.Blockchain technology has evolved from database and cryptography,which were mainly studied in the early stage,to present important directions such as laws and regulations,identification,etc.Blockchain-related companies cooperate closely within their own countries,but lack cross-border communication links.
Key words:knowledge atlas;derwent patent data;CiteSpace;patent mining;blockchain
0 引言
2019年10月24日中共中央政治局就區块链技术发展现状和趋势进行第十八次集体学习。习近平总书记着重强调,要把区块链作为核心技术自主创新的重要突破口,明确主攻方向,加大投入力度,着力攻克一批关键核心技术,加快推动区块链技术和产业创新发展。习近平总书记的重要讲话,深入浅出地阐明了区块链技术在新技术革新和产业变革中的重要作用,对区块链技术的应用和管理提出了具体要求。习近平总书记的重要讲话,对各部门各地方全面和深刻认识区块链技术发展现状和趋势、提高运用和管理区块链技术的能力必将起到巨大推动作用。陈晓菡[1]等学者认为,区块链是一项颠覆性技术,目前其触角已探入众多领域,具有深刻的研究意义。区块链本质是一个去中心化的分布式账本[2],它最早起源于“中本聪”(Satoshi nakamoto)在2008年11月发表的论文《比特币:一种点对点电子现金系统》[3]。通过对区块链相关专利进行多维度、深层次的挖掘剖析,可帮助企业对区块链落地产业进行精准投入和科学布局,为相关决策者与研究人员提供新思路。
1 数据来源与研究方法
1.1 数据来源囿于区块链技术成型较晚,自2008年发明起至2013年有关区块链的专利数据量过少,文中选取2014—2019年德温特专利数据库(DII)中区块链相关专利作为来源数据。在德温特专利数据库中,采用主题检索,检索词为“Blockchain”,时间跨度设置为“2014—2019年”,检索日期为2019年12月31日,共检索到相关专利数据5 047条。
1.2 研究方法CiteSpace是一款由陈超美[4-5]教授研发的科学计量分析可视化的工具软件。已有诸多学者利用CiteSpace工具开展知识图谱、文献计量分析等方面的研究。顾佳依[6]利用CiteSpace软件对区块链论文进行计量分析,揭示了区块链研究现状及未来发展趋势;赵佳[7]将物联网技术的关键专利数据导入CiteSpace进行分析,成功找出其中的核心专利;宗利永[8-9]等学者多次利用CiteSpace软件对德温特专利数据进行挖掘,对柔性版印刷技术、可穿戴设备技术等专利数据进行深度剖析,成功探测出技术应用热点及发展趋势;黄鲁成[10]等学者通过CiteSpace软件,对家用空调的技术热点、前沿趋势进行了剖析;刘桂锋[11]等学者通过对国内专利情报分析方法体系进行综述研究,发现CiteSpace在专利数据的可视化计量分析方面具有突出优势,该学者[12]也曾利用CiteSpace和专利地图,对大数据领域的专利信息进行计量分析,并成功识别出该领域的研究前沿。由此可见,CiteSpace在知识图谱、文献计量分析等方面应用效果显著。故文中选取CiteSpace软件对区块链相关专利数据进行可视化计量分析,分析框架见图1,其具体分析步骤为第一步,对德温特手工代码(MC)进行可视化计量分析,构建德温特手工代码共现网络[13]及聚类图谱[14],并对其频次、中心性、突显值进行排序统计,做进一步分析。其中,德温特手工代码是德温特专利数据库独有的一种分类体系,相对于我们熟知的IPC分类号,其定义的技术领域范围更加具体。对其进行剖析,有助于我们准确探测和把握技术热点。第二步,构建德温特手工代码时区图[15],以此来挖掘和观测区块链技术的演化趋势,有助于我们观察技术热点的迁移情况,并发掘出新兴主题。第三步,对于专利权人与发明人的合作关系进行分析,并构建专利权人及发明人合作网络图谱。以此分析区块链技术的相关研究者之间的合作关联,找出他们之间的合作存在的不足或待改进之处,并提出相应的改进措施。
2 研究结果及分析
2.1 德温特手工代码共现分析将采集到的5 047条区块链专利数据进行格式转换,转换成CiteSpace可识别格式[16]。以Category(MC)为节点构建共现网络,时间间隔(Time Slices)设置为1,即时间切片为1年,阈值(Thresholding C,CC,CCV)设置为5,5,20;3,2,20;5,4,20。运行软件,得到一个节点数N=249,网络密度E=549(Density=0.017 8)的德温特手工代码共现网络图谱,如图2所示。
在共现网络图谱中,包围节点的圆圈大小表示关键词(MC)出现的频次多少[17],节点外侧的紫红色圆环厚度越大,表示该节点的中心性越高,节点之间的连结线条粗细表示它们之间的关联性强弱,线条颜色与图中上方年份相对应,用于标记该年份的主要关键词(MC)。
由图1可知,德温特手工代码共现网络中各个节点间关联密切,鲜有孤立点存在。区块链相关专利主要分布在德温特手工代码的T大类中,T大类代表的是计算和控制(Computing and Control)领域,此外也有相当数量的专利漫衍在W大类中,W大类表示的是通信(Communications)领域,而区块链专利在其他大类的分布则相对较少。对此有3个原因,一是区块链技术主要依靠计算机系统、数据算法搭建实现其应用落地;二是由于区块链技术目前属于“导入期”[18],该技术转化的应用研究主要还停留聚集在计算、控制以及通信领域,对于其他应用领域的研究刚刚起步、不够深入;三是因为其他区块链应用领域本身的研究即比较单薄。为厘清区块链专利更为具体的分布情况,分别依“频次前20位德温特手工代码”、“节点中心性前10位德温特手工代码”以及“突显值前10位德温特手工代码”,绘制表格,并附上该关键词(MC)首次出现的年份与对应的德温特手工代码的释义(Translation),见表1。对节点中心性和突显值排名仅取10位列表,原因是这两部分在第11位之后的数据不具有统计意义(数据值极低或者无数据)。
由表1可知,在频次(Fred)前20位的德温特手工代码中,覆蓋了数据库、密码学、金融、安全、电子文件、服务器、行政、互联网商业、身份验证等。这部分的应用领域研究开展的时间相对较早(2015、2016年),且根据频次判断,区块链在这些领域的研究成果相对比较显著。进一步细化分析,频次分布在前3位的德温特手工代码分别是T01-J05B4A、T01-D01、T01-N02B1B,即分布式数据库(Distributed Database)、数据加密和解密(Data Encryption and Decryption)和用户权限/密码系统(User Privileges/Password Systems),说明目前区块链在这3个领域的研究最为成熟。按照节点中心性排序,统计前10位德温特手工代码并构建表2。
从节点中心性(Centrality)的排序表(表2)中可以清晰看到,中心性最高的三个节点是T01-J07D1、T01-N01D1B、W01-C01D3C,即车辆微处理器系统(vehicle microprocessor system)、视频传输(video transfer)、便携式与手持式(portable;hand-held),说明这3个应用节点在整个共现网络体系中占据关键地位。
统计突显值前10位的德温特手工代码分布情况,见表3。
综合突显值(Burst)前10位德温特手工代码分布情况(表3)与频次前20位分布情况(表1),其中重合的仅有T01-J05B4P、T01-J05B2B、T01-N02A3C,即数据库应用(database applications)、数据和目录结构(data and directory structures)、伺服器(servers),说明这3个2015—2016年突现的热点,其研究已比较深入,而对于表3中其他7个突现的热点,还需要进一步探索。
2.2 德温特手工代码聚类分析基于德温特手工代码共现网络(图2),选取Log-likelihood ratio算法,运行CiteSpace,得到一个模块度(Modularity Q)=0.665 3,轮廓值(Mean Silhouette)=0.524 7的聚类图谱,如图3所示。其中模块度(Modularity Q)>0.3说明本次聚类结果是可信服的,轮廓值(Mean Silhouette)>0.5说明此次聚类是合理的[19-20]。另外聚类区域的色块颜色越深,代表其对应主题出现的年份越早,颜色越浅,表示该区域对应的研究主题越新。
聚类得到了12个相关主题(Cluster#0-11),分别是个人数据(personal data)、区块链票据(block chain ticket)、生物识别数据(biometrics data)、源车(source vehicle)、数据记录(data record)、区块链条目(blockchain entry)、移动闭塞(moving block)、业务路由(traffic route)、公钥(public key)、固定架(fixing frame)、智能合约(smart contract)、使用数据处理系统(using dataprocessing system)。其中第7和第9主题的区域色块颜色最浅,表示其对应的“业务路由”、“固定架”主题,为区块链新兴应用领域。对应的聚类详情见表4。
2.3 区块链前沿主题演化路径分析基于德温特手工代码共现网络(图2),构建时区分布(timezone)图谱,如图4所示。其中时区之间的连线表示对应的关键词(MC)之间的传承关系,且关键词(MC)只会分布在它首次出现的时区内。
由图4可知,2017年新出现的德温特手工代码的种类最多,与2016、2018年出现的德温特手工代码之间的传承关系最强,另外根据包围节点的圆圈大小分析,首次出现在2015、2016年的德温特手工代码,经时间的积淀,已愈渐成熟。第一次出现在2019年的德温特手工代码多承自2017年的德温特手工代码,但其数量较少,原因有二,一是专利公开存在18个月的滞后期,二是对于区块链新应用领域的开拓出现瓶颈。按照每个时区的最高和次高频次排序,绘制德温特手工代码时区分布表,见表5。
根据表5分析,区块链在数据加密和解密(data encryption and decryption)、用户权限/密码系统(user privileges/password systems)、分布式数据库(distributed database)、金融(financial)方面的应用研究开始最早(2015、2016年),现已较为深入,2017年新出现且成为该时区频次最高的2个德温特手工代码分别是T01-J12C1、T01-J05B3,即认证方式(authentication)、搜索和检索(search and retrieval),目前属于新兴研究方向的有加密演算法(encryption algorithm)、法律法规(legal and regulatory),领域识别(recognition)、同步化(synchronisation)等方面。
2.4 专利权人与发明人分析基于采集到的5 047条区块链相关专利数据,以Institution(专利权人)为网络节点,运行CiteSpace,得到一个节点数N=166,网络密度E=211(Density=0.015 4)的专利权人合作网络图谱,如图5所示。其中,包围节点的圆圈大小与专利权人拥有的专利数量呈正相关,节点外侧的紫红色圆环厚度与对应的专利权人的关键程度(中心性)呈正相关。
由专利权人共现网络图谱(图5)可以看出,专利拥有量最多的专利权人为INT BUSINESS MACHINES CORP(IBMC-C)和ALIBABA GROUP HOLDING LTD(ABAB-C),且包围它们节点的圆圈远大于其他专利权人,说明这两家公司在区块链方面的研究已遥遥领先。此外,根据节点外侧的紫红色圆环判断,ALIBABA GROUP HOLDING LTD(ABAB-C)与TENCENT TECHNOLOGY SHENZHEN CO LTD(TNCT-C)这两家公司在整个专利权人共现网络中处于关键地位。为进一步探测专利权人合作网络图谱成因,依照专利数量(Fred)排序,将排在前10位的专利权人进行罗列,并标注其所属国家,见表6。
根据表6分析,区块链专利拥有量前10位的专利权人,有80%是属于中国的企业,美国的公司只占了一成,而跨地区,尤其跨国家之间的合作是相对困难的。这也解释了美国INT BUSINESS MACHINES CORP(IBMC-C)公司的专利数量(Fred)最多,但在合作网络节点中的重要程度(Centrality)却远低于中国的ALIBABA GROUP HOLDING LTD(ABAB-C)和TENCENT TECHNOLOGY SHENZHEN CO LTD(TNCT-C)公司的原因。同樣,基于采集到的区块链相关专利数据,以Author(发明人)作为节点构建发明人合作网络图谱,如图6所示。
从发明人合作网络图谱(图6)可以看出,发明人之间相互联系紧密,形成一个个簇群并连结在一起。合作网络中的主要发明人大多来自中国,这与针对专利权人的分析结果保持一致。主要专利权人均为企业,由此判断,大部分发明人应是来自具有区块链技术业务的相关公司的职工,其发明也应当为职务发明。
3 结语习近平总书记发表的关于大力发展区块链技术的重要讲话,大大激发了国内各行业对区块链技术发展的兴趣和热情。目前中国区块链专利数量已经领跑世界,但仍需要在专利质量上严格把关,切勿盲目追逐专利数量,要做到真正把区块链技术落到实处,推动产业创新。此外,研究还发现以下几方面问题
1)区块链相关专利目前主要布局在计算和控制、通信大类,其具体在分布式数据库、数据加密和解密、用户权限/密码系统方面的应用已趋于成熟。
2)车辆微处理器系统、视频传输、便携式与手持式应用,在整个德温特手工代码共现网络中占据关键地位。
3)由LLR算法生成的聚类图分析可推知业务
路由、固定架为目前区块链新兴方向,需要重点关注。
4)通过挖掘其主题演化路径发现,区块链研究重点从较早期的数据库、密码学、金融演变到近期的法律法规、识别、同步化相关方向,对于近期出现的区块链技术主题要格外关注。
5)通过构建专利权人网络发现,ALIBABA GROUP HOLDING LTD(ABAB-C)和TENCENT TECHNOLOGY SHENZHEN CO LTD(TNCT-C)公司在整个区块链专利的申请和合作方面占据关键地位,而美国INT BUSINESS MACHINES CORP(IBMC-C)公司的区块链专利申请量虽居于前列,可在专利合作方面,远不及前两家公司,另外专利权人的合作基本上都是在本国之间,中外的合作联系比较薄弱,建议国内公司可以在政府的引导和支持下,尝试区块链技术的跨国合作。
6)针对发明人来看,区块链相关专利的发明人之间合作紧密,大部分发明人应是来自具有区块链技术业务的相关公司的职工。
参考文献:
[1]陈晓菡,解学芳.颠覆式创新:区块链技术对文化创意产业的影响[J].科技管理研究,2019,39(07):140-146.
[2]高政风,郑继来,汤舒扬,等.基于DAG的分布式账本共识机制研究[J].软件学报,2020,31(04):1124-1142.
[3]Jag deep Sidhu.Sys coin:a peer-to-peer electronic cash system with blockchain-based services for e-business[C]//2017 26th International Conference on Computer Communication and Networks.
[4]Chen C.Searching for intellectual turning points:progressive knowledge domain visualization[J].PNAS,2004,101(01):5303-5310.
[5]Chen C.CiteSpace:detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(03):359-377.
[6]顧佳依.基于文献计量的区块链热点及趋势分析[J].技术与创新管理,2020,41(01):46-50.
[7]赵佳.专利视阈下物联网领域知识图谱及产业引导政策研究[D].南京:南京邮电大学,2013.
[8]宗利永,肖颖,麻祥才,等.基于知识图谱的柔性版印刷技术应用专利数据挖掘[J].包装工程,2019,40(13):259-267.
[9]宗利永,白韬韬,张飞相,等.文化创意产业科技需求视角下的可穿戴设备技术发展研究——基于知识图谱的分析方法[J].科技管理研究,2015,35(07):23-27.
[10]黄鲁成,王凯,王亢抗.基于CiteSpace的家用空调技术热点、前沿识别及趋势分析[J].情报杂志,2014,33(02):40-43.
[11]刘桂锋.国内专利情报分析方法体系构建研究[J].情报杂志,2014,33(03):16-21.
[12]刘桂锋,卢章平,宋新平.专利地图和知识图谱视角的大数据比较研究[J].图书情报知识,2015(05):89-98.
[13]沈君,高继平,滕立.德温特手工代码共现法——一种实用的专利地图法[J].科学学与科学技术管理,(01):14-18.
[14]刘远超,王晓龙,刘秉权,等.信息检索中的聚类分析技术[J].电子与信息学报,2006,28(04):606-609.
[15]陈昱,马子涵,古洁灵,等.环境成本研究:合作、演进、热点及展望——基于CitespaceV的可视化分析[J].干旱区资源与环境,33(06):13-24.
[16]郑娜,邵党国.信息可视化分析工具的比较分析——以CiteSpace、SATI分析关键词共现为例[J].软件,2017,38(10):39-46.
[17]栾春娟,贺高红,卢中昌,等.专利多学科演进及对知识产权人才培养的启示[J].技术与创新管理,2018,39(06):682-688+720.
[18]张维冲,王芳,赵洪.多源信息融合用于新兴技术发展趋势识别——以区块链为例[J].情报学报,2019,38(11):1166-1176.
[19]章梦霞,郑新奇,王开建.国内外城市地下空间研究知识图谱分析[J].测绘科学,2018,43(07):180-186.
[20]刘姝宁,杨朝均.中国低碳创新的研究脉络演进及热点领域分析[J].技术与创新管理,2020,41(01):24-33.
(责任编辑:严 焱)