基于LDA的国内外区块链主题挖掘与演化分析*
2021-10-08周健张杰屈冉闫石
周 健 张 杰 屈 冉 闫 石
(1. 安徽财经大学 管理科学与工程学院 蚌埠 233000;2.北京邮电大学 计算机学院 北京 100876)
0 引 言
自中本聪于2008年提出区块链技术后[1],其作为一种去中心化、节点之间共同维护的分布式数据系统[2],由于安全性、数据可追溯性、数据防篡改等特点和优势[3],备受人们的青睐。2016年年初,联合国社会发展部(UNRISD)发布了题为《加密货币以及区块链技术在建立稳定金融体系中的作用》的报告,提出拟利用区块链技术构建更加稳固的金融体系,同年,我国发布《中国区块链技术和应用发展白皮书》,并在国务院发布的《国务院关于印发“十三五”国家信息化规划的通知》首次将区块链技术作为战略性前沿技术和颠覆性技术。2019年10月,习近平总书记在中央政治局第十八次集体学习时强调,要把区块链作为核心技术自主创新的重要突破口,加快推动区块链技术和产业创新发展。随着区块链技术在各行各业的深入应用及一系列政策的支持,其已成为国内外研究人员共同关注的焦点。自党中央提出“创新驱动发展战略”以来,科研机构和研究人员通过探究行业的前沿热点主题及动态演化过程,以作为科研方向与项目决策的支撑,实现学术资源的合理配置,推动行业进步[4]。期刊文献作为重要的科研成果,对于行业发展和技术进步具有一定的指导和推动作用,然而随着期刊数量迸发,如何从大量的期刊文献中科学地挖掘出研究主题及其演化路径,全面揭示区块链的研究现状,是推动行业发展进步的重要举措。
近些年,众多学者在热点主题挖掘与识别、演化分析等进行了诸多研究,如Kleinberg在早期时提出可利用词频分布特征挖掘热点主题[5];郝晓玲等人利用文本频数、文本聚合度及粘联度提取高频词汇,并采用词共现分析方法对微博主题词进行聚类,挖掘热点话题[6];王丽培等人通过词频统计等方法对中美两国图书自律规范进行比较分析[7]。然而词共现分析等传统的主题分析方法在面对现如今数量激增、内容丰富的文本信息时显得心余力绌,随着研究发展,主题分析方法逐渐形成了基于社会网络分析[8]和基于主题模型分析[9]。社会网络分析法由图论发展而来,用于揭示个体之间以及个体同网络整体之间的关系特征,Aggarwal等人通过社会网络分析印度企业董事会的演变,有效地探究政府干预政策对精英群体集中度的影响[10];Chouchani等人利用社会网络分析高效地对线上兴趣社区进行识别和分类[11],杨勇等国内学者构建了国内发明专利合作网络,通过对网络中心度、结构洞等特征指标进行测度,分析国内发明专利合作网络的演化趋势[12]。基于网络关系挖掘出的主题虽然可信度高,但对主题的无权重区分导致无法科学地表现主题强度。基于主题模型的分析方法用于对文本中潜在的语义关系和主题信息进行挖掘,潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是当下主流的主题模型之一,最初由Blei于2003年提出[13],其作为一种非监督机器学习方法,被广泛应用于文本挖掘方向,能够挖掘出初始文档中的潜在主题,但由于LDA 模型忽略了主题词之间的潜在语义联系,因而在短文本中的挖掘效果较为有限[14],故许多学者将其进行优化,如Shuo Xu等人将时间维度当作LDA模型的内生变量并结合著者属性生成动态主题模型[15];Tajbakhsh等人结合了词语共现提出优化的LDA 模型用于对Twitter短文本进行聚类[16]。国内外也有许多学者利用该方法对学科进行主题挖掘,如Suominen 等学者利用LDA 模型通过专利数据对企业研发方向进行分析和预测[17];张子振等人基于期刊论文、硕博士论文、专利文献等多源文献,利用LDA模型对机器学习进行主题挖掘并进行差异性分析[18];谭春辉等基于LDA模型对国内外数据挖掘进行热点主题挖掘和演化对比分析[19]。
鉴于目前区块链的飞速发展,国内外学者亦针对区块链文献计量及前沿主题进行了相关研究。如王发明等以CNKI期刊库中2015-2017年5月的区块链论文作为检索对象, 使用知识图谱展现国内区块链研究的时空分布特征、研究热点及前沿问题[20];Firdaus等以Scopus数据库中2013-2018年间发表的文章为研究对象,利用文献计量展示区块链文献中的国家合作网络和关键字共现网络,以探讨该间的时空联系和前沿主题[21];花敏等以近五年国内外区块链的相关文献为对象,利用文献计量和科学知识图谱对揭示了区块链的研究热点和趋势等方面[22]。
综上所述,当前已有研究主要从区块链合作网络、主题词共现网络、研究热点及趋势等方面进行梳理与分析,且大部分对于热点主题的研究仍以词共现方法为主,少部分利用主题模型的方法也仅为区块链主题识别研究,缺乏对主题强度和内容演化的分析。针对上述问题,本文以国内外区块链相关文献为基础,将文献按时序划分为不同的时间窗口,对不同时间窗口下的文献数据进行 LDA 主题挖掘和识别,通过计算余弦距离值的方法测度不同主题间的相似度,以确定不同主题间的演化关系,并以可视化的方法对其主题强度变化和演化路径进行展示,进一步,引入新颖度指标和热度指标来界定热点主题,以更为客观全面地揭示国内外区块链研究主题及其异同,并展望未来国内外区块链的发展趋势,为推动国内区块链的创新与发展形成有效的参考。
1 研究思路及关键技术
1.1研究思路为有效地分析国内外区块链研究主题和演化关系,本文从中国知网(CNKI)和Web of Science上收集文献数据,并将文献标题及文献摘要作为数据来源,同时基于时间线对时序进行时间窗口分割,挖掘不同窗口下的研究主题,并以可视化的形式展现国内外区块链主题热度变化及演化路径,引入新颖度和热度指标识别热点主题,以更为全面地比较分析国内外对该研究的异同,研究思路如图1所示。
图1 研究思路图
1.2关键技术
1.2.1 主题抽取技术 目前,已有不少方法应用于主题提取方面,诸如基于词频与逆文档频的TF-IDF方法、基于网页推荐系统的Textrank算法以及非监督主题抽取算法PageRank等常见的方法,但这些方法更适合噪声较多或输出单一的场景,也无法科学地揭示主题之间、主题与文本之间的潜在联系。本文采用LDA主题模型对文本进行主题提取,这是一种文档主题生成模型,共包含词、主题、文档三层结构[23]。作为一种非监督机器学习方法,与传统的主题挖掘方法相比,LDA 主题模型在分析文本语义等方面具有良好的效果,可以有效地分析大规模非结构化文档集[24]。同时,在不需要预先对初始文档进行人工标注的条件下,通过LDA主题模型即可挖掘出潜在主题。因此,将LDA模型运用于文档内容分析中在一定程度上可以更好地保留文档内部关系,更为科学地揭示主题间的演化路径,具体模型如图2所示。
图2 LDA主题模型结构图
其中,α和β分别是主题分布θ和主题词分布φ的先验分布参数,z和w分别表示模型生成的主题及最终的主题词,D表示文档数量,S表示文档的词语数量。主题模型的生成过程主要如下:首先,从全局中选取长度为N的文档,接着,分别从参数为α的先验分布和参数为β的先验分布中取样生成文档在主题上的分布θ和主题在主题词上的分布φ;最后,分别从参数为θ和参数为φ的多项式分布中采样主题z和主题词w,模型的联合分布如公式(1)所示。
(1)
通常,LDA模型的超参数α、β选取默认值[25],主题z和主题词w可通过变分推断算法[13]或Gibbs采样算法[26]得到,因为Gibbs采样算法实现简单,故本文采用Gibbs采样算法求得全局的主题z分布和主题词w分布。在LDA模型中,主题数需要预先设定,为了得到最为合适的主题数,本文采用困惑度评价法求得最优主题数k,其计算公式如公式(2)所示:
(2)
困惑度表示文档所属的主题的不确定性(信息熵),故而当困惑度最小时,主题数最优,一般情况下,当困惑度下降趋势不再明显或处于拐点处时,此时的k值为最优主题数。
1.2.2 主题演化分析技术 通过LDA模型对不同时间窗口的文档进行挖掘所得到的主题间可能存在联系和差异,为描述相邻时间窗口下文档主题的相似度和演化关系,本文采用计算余弦距离值的方法来确定主题间的演化关系。余弦距离值以向量空间中两个向量夹角的余弦值作为衡量标准,其计算公式如下:
(3)
余弦距离值范围在0~1中,当距离值越接近1,则表明两个向量越相似,距离值越小,则表明两个向量差异越大。通过LDA模型输出的主题词集,构建主题空间向量,通过计算可以得到两个主题间的相似程度,以确定主题的演化程度。
1.2.3 热点主题识别技术 热点主题的识别是识别在特定时间内具有较高关注度的主题。本文根据模型输出的结果,借鉴已有的热点主题识别方法[19],结合主题的时序特征,通过主题新颖度和主题热度判别指标,以生命周期理论为理论基础,定量和定性地识别处于热点阶段的主题。
a.主题热度指标。主题热度指标主要用于揭示主题的受关注程度,其表现形式为同一时间窗口下该主题下文档的数量多少。以LDA模型输出结果为基础,定义主题热度指标计算公式如下所示:
(4)
式中,HT(t)为时间窗口t下的主题T的主题热度,ST(t)为时间窗口t下该主题的文档数量,SW(t)为时间窗口t下所有主题的文档数量。当主题热度越大,则表明该主题所受到的关注程度越高。
b.主题新颖度指标。主题新颖度指标用于揭示某个主题下的新颖程度,即该主题所出现的年份越近,则新颖程度越高,本文参考范云满等人采用的新颖度计算公式[27],如下所示:
(5)
式中,NIT(t)为时间窗口t下主题T的新颖度,t为当前时间窗口,Tbegin表示该主题首次出现的时间,故随时间的推移,主题的新颖程度下降。在该新颖度计算模型中,斜率逐渐减小,即新兴主题老化速度快,得以保留的有价值的主题老化速度慢,符合文献老化规律。
c.主题二维尺度分析。本文通过不同时间窗口对主题进行挖掘,以LDA模型输出结果为基础,主题的热度和新颖度得以确定。为更好地识别热点主题,本文借鉴已有的主题二维尺度分析方法[28],基于主题热度指标和新颖度指标计算结果,构建主题生命周期,分别为潜在主题阶段、新兴主题阶段、热点主题阶段和衰退主题阶段,并通过新颖程度与热度程度定量地识别主题所属的阶段。其中,设定新颖程度与热度程度的判定阈值;若主题为潜在主题,该类主题通常新颖度高但相关文档较少,主题处于潜在期或发展遇到瓶颈;若主题为新兴主题,此类主题文档增加较快,主题新颖度较高且热度也较高,主题进入快速发展时期;若主题为热点主题,通常此类主题新颖度较低但热度最高,主题进入成熟期,此时主题经过一段时间发展并得以保留,具有较高的研究价值;若主题进入衰退阶段,则主题新颖度低且研究热度也很低,主题文档数减少,主题衰落老化并逐渐进入消亡阶段。
2 实证研究
2.1数据来源及预处理本文的实证研究对象为国内外区块链,国内文献源为中国知网(CNKI),使用高级检索,设定检索条件为“主题=区块链”,为保证文献来源的科学性,限定文献为期刊,文献来源为SCI期刊、EI源期刊、核心期刊、CSCD期刊、CSSCI期刊,时间跨度为2014-2020年,检索日期为2020年10月31日(2020年未记录完整)。导出全记录文献信息,筛去重复和信息不全的文献,最后得到2 380篇文献。国外文献源为Web of Science(WOS),同样采用高级检索,检索式为“SU=blockchain”, “SU”表示研究主题,文献类型设定为“Article”,语言设定为“English”,索引条件为SCI和SSCI,时间跨度为2015-2020年,检索日期同样为2020年10月31日(2020年未记录完整)。导出全文献信息,经过筛选,去除重复和不完整的文献信息,最终得到2 826篇文献。
为更好地分析区块链研究主题和演化路径,本文在检索结果的基础上,结合文献增长的趋势,按照时间线对文献进行时间窗口划分。考虑到区块链相关文献出现年份较迟,且前期发文量低,近期文献量增长迅速,为平衡每个时间窗口的发文量,故将国内区块链划分为2014-2017年、2018年、2019年以及2020年四个时间窗口,将国外区块链划分为2015-2018年、2019年、2020年三个时间窗口。
从导出的文献信息中选取标题与摘要作为模型的语料来源,对于中文语料,调用中文分词工具Jieba库对中文语料进行分词,分词前添加区块链的专业词汇作为自定义词典,以提高分词效果,分词过程中,结合中文停用词表,去除虚词或无实际意义的符号等。对于英文语料,调用NLTK自然语言处理工具包,对句子进行标记、词形还原、词干提取等。为提高模型的准确度,对语料进行同义词合并,比如“BTC”与“bitcoin”同义,统一为“bitcoin”;“共识协议”与“共识机制”同义,统一为“共识机制”等。对分词后的文本进行特征提取,作为LDA模型的输入来源。
2.2主题挖掘在进行主题挖掘之前,通过计算困惑度获得不同时间窗口下的最优主题数,计算结果如图3所示。一般情况下,当困惑度最小时或处于拐点处时,挖掘出的主题数最佳,此时的k值为最优主题数。根据计算结果,确定2014-2017年国内文献最优主题数为7个,2018年国内文献最优主题数为11个,2019年国内文献最优主题数为20个,2020年国内文献最优主题数为30个。同理,确定2015-2018年国外文献最优主题数为11个,2019年国外最优主题数为21个,2020年国外最优主题数为21个。
图3 不同时间窗口下国内外主题困惑度
LDA主题模型作为一种无监督机器学习方法,可以挖掘初始文档中的潜在主题,挖掘效果与迭代次数相关。迭代次数越高,模型收敛效果越好,考虑算力与收敛效果,本文将收敛次数定在500次。随后,对国内外每个时间窗口下输出的主题进行筛选,如去除由虚词组成的主题聚类、去除与区块链研究无关或相关度较小的主题聚类,去除文献数量为 0 的主题等[29],对筛选后的结果进行主题命名,为精确保留主题语义,中文主题标签参考中图分类法,英文主题标签则参考 Web of Science的研究方向,对每个主题进行人工命名,结果如表1和表2所示。
表1 国内区块链不同时间窗口下的主题分布
表2 国外区块链不同时间窗口下的主题分布
对比表1和表2,可以将国内外区块链研究主要划分为5个:包括共识机制、智能合约等在内的区块链架构研究;包括金融科技、供应链、能源交易、资源共享、版权保护等行业应用研究;包括隐私安全、数据溯源、交易攻击等区块链安全研究;包括物联网、人工智能、云计算、神经网络等高新技术研究;社会治理、数字城市等公共管理研究等。
2.3主题强度分析基于LDA模型输出结果,计算各时间窗口下的国内外区块链研究主题强度,绘制主题热度图。热度图中,颜色深的是热度较大的主题,颜色浅的为热度较小的主题,主题编号与国内外区块链主题分布表中的主题排序一致,结果如图4和图5所示。
图4 国内主题热度图
图5 国外主题热度图
从内容上看,国内区块链研究主要集中于金融科技、能源交易、数据安全、资源共享、共识机制、数字货币、供应链和社会治理等研究,国外区块链研究主要集中于数字货币、数据系统、共识机制、金融科技、隐私安全等研究。国内区块链研究相较于国外更偏向与区块链和行业技术的结合应用,国外研究更偏向于区块链架构和区块链安全等理论的研究。
从时间上看,国内区块链研究早期多是对数字货币、金融服务、供应链等传统应用和智能合约、数据安全、共识机制等理论等展开研究,随着学者的不断深入研究和政策的支持,区块链技术被应用的更多,衍生出包括智能制造、版权保护、电子档案、产品追溯等在内的细分以及与人工智能、云计算等高新技术结合的相关。2019年10月,习近平总书记提出要加强和创新社会治理,将最新科技成果应用于社会治理[30],区块链用于社会治理开始备受学者关注,可以料想,未来区块链结合社会治理的研究热度会继续提升。同样,国外区块链研究多是从对数字货币、供应链、智能合约、隐私安全等理论和应用衍生出车辆互联网、数字城市、知识发现、医疗健康等细分,近段时间,国外区块链研究由理论研究逐步向应用研究发展,且与智能工业、人工智能等高新技术联系紧密。
2.4主题演化分析本文通过对相邻时间窗口下挖掘出的主题及主题词间进行余弦距离值的计算,得到主题间的演化关系。余弦距离值越高,主题间出现存在演化关系的概率越大。为了使演化路径更为客观,根据相关研究,确定0.3为相似度阈值[31]。认定相邻时间窗口间余弦距离值高于0.3的主题具有演化关系,利用开源ECharts开源图表库将主题演化关系绘制成桑基图,结果如图 6和图7所示。其中,每个元素块都具有对应主题,主题间的连线表示主题间的流动方向以及联系,连线的粗细表示相似度的高低,连线越粗,则表明主题间的演化关系越紧密。
图6 国内区块链主题演化图
图7 国外区块链主题演化图
国内外区块链研究中,共识机制等区块链架构一直是区块链研究主题的重点和热点,且不同时间窗口的主题相似度较高,主题相关文献较多,主题研究延续性较强。基于文本主题词分布,区块链架构研究随着研究的深入和技术应用的发展,研究重点从网络节点共识的安全性演化为与行业应用的结合,提高行业应用的安全性和效率。
不同于区块链架构的研究,区块链行业应用的研究呈现出热度高、演化路径多。行业应用研究不仅存在行业内部的演化,如金融科技的演化,从主题词来看,金融科技研究从金融交易和风险控制等应用向如何构建稳定的金融科技市场演化。行业间也存在演化关系,如供应链与能源交易间的演化、版权保护和图书馆与档案管理间的演化等等。同时,行业应用研究也呈现出跨间的演化,比较显著的演化如金融科技与社会治理间的演化,随着区块链技术在金融科技中的普及,如何规范金融市场、设立相关法律法规是社会治理的一大难题。
区块链安全与区块链架构、行业应用、高新技术、公共管理的主题关联性与相似性都较高。 原因在于区块链技术具有数据防篡改、安全性高的特点,针对不同的区块链问题,安全性都是不可忽视的研究方向,许多学者基于共识机制、交易攻击、行业应用、合约漏洞、隐私安全等去研究区块链安全问题。
相较于国外,国内区块链应用研究与理论研究间的主题联系更为紧密,主题间的演化和衍生性更强,而国外主题研究的延续性更强。
2.5热点主题识别基于LDA主题模型得到的信息,通过计算主题的热度和新颖度,基于已有的主题二维尺度分析方法,将主题新颖度较低但热度最高的主题定义为热点主题。根据公式(3)计算得出每个主题的热度值,取国内外所有主题的热度平均值作为热度指标的阈值,根据计算得出,国内主题热度阈值为0.0357,国外主题热度阈值为0.0370。同时,根据“二八定律”,通过公式(4)确定新颖度阈值为0.2。界定主题热度和新颖度同时大于阈值的主题为热点主题,得出国内区块链热点主题为9个,国外区块链热点主题为7个,主题及对应主题词的结果如表3和表4所示。
表3 国内区块链的热点主题分布
表4 国外区块链的热点主题分布
根据界定的热点主题,不难发现国内外区块链的研究方向大体相似,结合研究的划分和演化过程,从各个主题的主题词和具体内容探究,以更客观地揭示国内外区块链研究热点的异同。
2.5.1 区块链架构 关于区块链架构研究,国内外主要都聚焦于共识机制的研究。共识机制作为区块链技术中的底层机制,是节点对接受到的交易进行排序、模拟执行、保证节点在分布式网络中达成共识的关键[32]。在国内外,该主题的热度都呈上升趋势,且文献数量较多,主要涉及共识机制的安全性、效率性的优化等,随着研究的深入,共识机制的研究逐渐演化为与行业应用的结合,随着应用的不断落地,可以预见,共识机制的研究仍将持续且不断由理论研究向应用研究演化。不同于国内,智能合约是国外区块链架构的研究热点,智能合约实质上是部署在区块链系统上的去中心化、可信任的共享代码[33]。相较于国内大部分智能合约的研究都存在于行业应用,国外对于智能合约的研究包括了安全漏洞[34]、代码克隆[35]等理论研究。
2.5.2 行业应用 在行业应用,金融科技和供应链都是国内外的研究热点。金融科技将新兴科技应用于金融行业,技术驱动金融创新,创造新的商业模式、业务流程来提高传统金融效率[36],供应链管理是通过对供应链运作使其达到最优化,以最优的方案满足企业需求。在金融科技和供应链管理中,数据量十分庞大,且数据对该的重要性不言而喻,由于区块链技术具有数据防篡改等优点,金融科技与供应链等结合区块链技术,可以在海量数据的基础上发挥区块链的优势,确保数据的安全性,提高运行效率。观察演化路径,金融科技的演化和衍生路径多,行业间的联系紧密,随着研究的发展,金融科技更强调金融监管、市场治理等,供应链金融也成为了行业内研究的热点。不同于国外区块链研究,国内更偏向于区块链技术与应用的结合,国内区块链研究热点主题中,还包括例如与高校数字教学资源共建共享结合的资源共享行业研究[37]、以比特币为代表的数字货币研究、能源交易尤其是电力交易模型研究、版权保护应用研究等。
2.5.3 区块链安全 区块链安全一直是区块链安全研究的热点,随着大数据时代的来临,海量数据存在泄露、篡改等一系列安全问题,国内区块链安全以数据安全研究为主,研究包括审计、金融监管等信息平台的安全等等。相较于国内,国外区块链安全研究不仅聚焦于数据系统的安全,还包括隐私安全。尽管区块链技术被认为是具有匿名性的技术,不足但想要做到完全的匿名是十分困难的,多数区块链系统都存在着匿名性的安全问题[38],主要包括身份隐私安全和交易隐私安全等。
2.5.4 高新技术 区块链技术与物联网、人工智能、云计算等高新技术的结合也成为国内外区块链研究的趋势方向。同时,物联网也是国外区块链领域研究的热点之一,物联网是在互联网基础上扩展的网络,通过将信息传感设备与互联网结合起来形成的网络,实现跨越时空的人与设备间的互联互通。区块链技术与物联网技术的结合,尤其是车辆互联网、能源物联网等,涉及物联网系统[39]、物联网隐私[40]等都是区块链技术结合物联网领域的研究热点。从主题强度来看,国内外关于区块链技术和人工智能、云计算等的结合研究呈上升趋势,但目前国内大部分研究多与应用和监管等有关,涉及理论算法研究相对较少。可以预见,区块链技术与高新技术的研究将仍会持续。
2.5.5 公共管理 自中央政治局第十八次集体学习召开以来,有关将区块链技术应用到公共管理中成为众多学者研究方向,将区块链技术应用到社会治理等方面也是国内的研究热点之一。包括市场监管[41]、法律法规[42]、政府治理[43]等。如何将区块链技术合理地运用到社会治理中,推动各行各业的发展,提高政府的运行效率,完善监管体系,以实现高质量发展是区块链技术在公共管理的研究趋势。
3 研究结论
本文基于LDA主题挖掘模型,对国内外区块链核心期刊进行主题挖掘,并通过主题强度分析、演化分析及热点主题识别对区块链研究进行分析,得到以下结论:
a.国内外区块链研究主要涉及包括共识机制、智能合约等在内的区块链架构机制;包括金融科技、供应链、能源交易、资源共享、版权保护等行业应用;包括数据系统安全、隐私安全、交易攻击等区块链安全;包括物联网、人工智能、云计算、等高新技术;社会治理、数字城市等公共管理等。
b.从主题强度来看,国内区块链研究更偏向于行业应用、公共管理等应用的研究,国外区块链研究更偏向于区块链架构、区块链安全及高新技术等理论的研究。国内外区块链研究早期多是对数字货币、金融服务、供应链等传统应用和智能合约、数据安全、共识机制等理论等展开研究,随着研究的深入,衍生出包括智能制造、版权保护、电子档案、产品追溯等在内的细分以及与人工智能、云计算等高新技术结合的相关。从内容演化来看,共识机制等区块链架构主题研究延续性较强,区块链行业应用研究呈现出热度高、演化和衍生路径多的特点,区块链安全与区块链架构、行业应用、高新技术、公共管理的主题关联性与相似性都较高,跨结合研究更为紧密。国内相较于国外,区块链应用研究与理论研究间的主题联系更为密切,主题间的演化和衍生性更强,而国外主题研究的延续性更强。
c.从热点主题来看,共识机制、金融科技、数据安全、供应链等研究主题是国内外区块链研究共同的热点主题。不同于国外,国内区块链研究更偏向于应用的研究,包括资源共享、数字货币、能源交易、版权保护等行业应用以及社会治理等公共管理。国外的研究热点更偏向于理论的研究,包括物联网、智能合约、隐私保护等。
4 总结及展望
本文通过LDA主题模型,对区块链的国内外核心期刊论文进行主题抽取,同时利用可视化的方法展现主题强度及主题演化路径,并通过新颖度指标和热度指标识别国内外区块链研究的热点主题,对比分析国内外区块链研究的异同,以更为客观地揭示区块链的研究现状。通过研究发现国内外区块链的研究主题在内容和结构上具有一定的差异。国外更偏向于区块链理论的研究,且主题研究的延续性较强,与物联网等高新技术的研究更为密切,国内则更注重区块链技术与应用的结合,且研究主题更为丰富,差异更为明显,更注重区块链技术在公共管理中发挥的作用。根据研究结果,学者在国内外区块链的核心期刊文献的基础上,可以了解感兴趣的研究的发展史及最新发展动态,为研究制定科学合理的方向。
本文的研究还存在以下不足:一是在于数据只提取了文献的标题与摘要部分,未对关键词和全文分析进行比较;二是在于主题抽取中缺乏一定的专家指导,可能会影响到主题挖掘结果的准确性,导致本文的结论与实际情况可能存在一定的偏差。下一步研究工作将综合专利文献探索区块链研究的实际应用情况。