APP下载

数字林业研究的可视化分析
——基于CNKI的知识图谱分析

2023-08-11

安徽农学通报 2023年12期
关键词:发文图谱可视化

毕 陈

(云南森林自然中心,云南昆明 650225)

林业的价值观、定义和实践因国家而异,并且一直在变化。最早的林业定义之一出现在1916年,将林业定义为森林目的(用于木材供应和森林影响)连续管理森林的科学和艺术。该定义在20世纪被多次修订。1998 年,美国林业协会(SAF)将林业(由IUFRO 采纳,2000 年)定义为以可持续的方式创造、管理和保护森林及相关资源以满足预期目标、需求的科学、艺术、商业、价值观[1]。数字林业一词是在1998 年提出数字地球计划之后出现的。在过去的几年里,数字林业的框架和定义受到了广泛关注。中国学者就数字林业定义、如何将传统林业转变为数字林业、数字林业的未来发展方向等进行了讨论。

CiteSpace 是一个基于Java[2-3]的应用程序,用于分析和可视化科学文献的趋势和模式,包括计量学、共现分析和聚类分析。本研究采用CiteSpace,从共同作者、国家和机构的合作网络,联合引用文献情况,共现关键词与聚类以及关键词爆发方面探索了数字林业的研究热点和趋势。

1 数据来源和研究方法

1.1 数据来源

数据来源于中国知网(CNKI)数据库。鉴于CNKI 的收录刊物繁多,期刊差异很大,为了更好地体现我国数字林业研究情况,以“数字林业”为主题进行搜索,时间设置“1991—2022 年”。检索后有748 篇文献符合筛选条件,删除与数字林业无关的研究。审查标题和摘要后,剩余551 篇文献。

1.2 研究方法

采用Citespace[2-3]分析每年出版物的数量和增长趋势,探索作者、机构、国家之间的合作网络,确定共同引用的参考文献以及随着时间的推移捕获引用强度高的关键词,探讨数字林业的研究前沿和新兴趋势。各种可视化知识图中存在不同的节点和链接,高中心性的节点通常被识别为该领域的热点或转折点。本研究下载了CNKI 检索到的记录,并将这些数据转换成纯文本格式并导出,包括完整的记录和引用,命名为download_xxx。最后导入到CiteSpace 5.8.R3,用于文献计量和可视化分析。使用CiteSpace 进行共现关键词数据聚类,显示主要主题。剪影函数通常用来评估簇的大小。通常,如果聚类的轮廓值大于0.7,说明聚类成员具有较高的同质性,聚类结果有意义;如果轮廓值大于0.5,聚类通常被认为是合理的。

2 研究概况

2.1 年度发文量

文献数量变化的时间图可以直观地反映学科领域的发展。图1 为1991—2022 年数字林业研究领域发表的论文数量和论文引用次数的时间分布。从整体上看该领域的发文量可以分为3 个阶段:1991—2006 年,发文量处于增长状态,说明数字林业领域的研究尚处于快速发展阶段;2007—2010年,该领域的发文量呈快速下降趋势,2010 年出现了低谷,说明这一阶段学者对数字林业领域的关注度降低;2010—2022 年,发文量处于平稳状态,但发文量在减少,说明数字林业领域的研究达到了饱和状态。

图1 年度发文量统计

2.2 研究机构

通过CiteSpace 对551 篇文献的研究机构进行分析,获得研究机构合作网络图谱,见图2。图谱中研究机构的节点越大,说明研究机构出现的次数越多,线条越粗,说明机构间的联系越紧密。图谱中共有392 个节点。发文量较多的是东北林业大学、中国林业科学研究院资源信息研究所、辽宁省林业厅信息中心,分别为16、14 和7 篇,其余机构出现次数较少,并且机构间的线条少且细。表明数字林业领域研究机构间的联系与合作较弱,学术合作次数较少,应加强学术间的交流与合作。

图2 研究机构合作网络

数字林业研究领域发文量在5 篇及以上的共有8 所(表1),其发文量占所统计论文总数的11.4%。表明在数字林业研究领域,发文机构集中度较高。

2.3 发文作者

利用CiteSpace 对论文作者进行大数据分析,获得了1991—2022 年数字林业领域作者共现图谱,见图3。图中的结点数量表示论文作者的共现频次,而线条多少和粗细则体现了论文作者间的学术关系和协作程度[3]。该图谱共有565 个节点、480 个链接,网络密度为0.003。从研究领域作者共现图谱可以看出,作者之间的联系比较集中,形成了几个核心的研究团队。

图3 发文作者合作网络

数字林业研究领域中发表论文数量在4篇以上的研究者共计12名作者,如表2所示。这12名作者发表的论文数量约占统计论文总量的14.0%。这也说明在数字林业领域中,发文者集中度很高。

表2 发文量4篇以上的作者

3 研究热点与前沿

3.1 关键词共现分析

关键词共现图谱中,每个节点代表数字林业研究的一个关键词,出现的频次越多,节点就越大[4]。由图4 可知,图谱中共有439 关键词节点,节点之间的连线代表关键词的彼此关联,有1 052 条连接线,网络密度为0.008 7。图谱中的节点越大,代表关键词共现频率越高,图中线条越粗,代表关键词的彼此联系越密切。其中代表关键词“数字林业”的节点数量最大,共现频率也最高。此外,从表3 可以看出,关键词共现频次在10 个以上的有:“数字林业”256次、“林业”29次、“森林资源”26次、“gi”24次、“应用”19次、“智慧森林”18次、“3s技术”15次、“林业管理”15次等,表明进入新世纪以来数字林业研究热点主要集中在以上8个方面,其中关键词“数字林业”“林业”和“森林资源”的关注度均远远高于其他关键词。仅仅分析关键词的出现频次容易造成焦点交叉和问题遗漏,因此,需要开展更深入的问题分析。

表3 关键词共现频次表(30次以上)

3.2 研究前沿——关键词突变与时间线图谱分析

关键词突现图是指关键词出现的频率在特定时间或节点内突然变高,并且变化热度又延续了很久,在关键词突现图中以红线作为突变的时间长度,绿线则表示时间间隔[5]。利用关键词突变分析能够看出当前研究主题的发展态势,可以回顾这些关键词在哪个时间节点形成了热点,并延续了多长时间,而且还能够预见未来的研究发展趋势。有关数字林业相关研究排名前4 位的关键词突现如图5所示,1991 年首次出现引用爆发的关键词有“数字地球”“gi”“智慧林业”和“退耕还林”等。从关键词突现强度来看,“智慧林业”一词的突现程度最高,达到7.37,之后是“gi”“退耕还林”和“数字地球”分别为5.38、3.71 和3.67。这些关键词在一定程度上代表了数字林业相关的研究热点及前沿内容。

图5 关键词突现分析

关键词时线图谱能够揭示研究主题的时间跨度与发展途径,并由此能够找到什么关键词将进一步成为前沿研究的热门话题[6-7]。综合关键词突现图和关键词时间线图谱,可以将2012—2022 年森林资源研究划分为4 个阶段。关键词时间线如图6所示。

图6 关键词时间线

4 结论与展望

4.1 结论

(1)研究概况。通过CiteSpcace 软件系统对1991—2022 年的中国知网数据,国内“数字林业”文献的全面知识图谱分析,通过对各研究学者的关联分析以及研究机构的关联分析,发现各研究学者与研究机构多为独立研究,并且彼此间的合作密度较低。为了营造更好的学术氛围,未来有望加强各学者以及研究机构之间的学术交流与合作。

(2)研究热点。通过关键词共现分析与关键词聚类图谱分析,1991—2022 年数字林业研究热点主要集中在“数字林业”“林业”和“森林资源”等研究主题。通过聚类和突现图谱分析,关于林业的研究大多仍集中在智慧林业和退耕还林这2个主题。并且在该研究领域一直都是研究热点。

4.2 展望

基于上述图谱的分析,笔者认为未来数字林业研究的热点主要集中在数字林业、智慧林业等方面。

(1)数字林业不是数字森林或三维森林信息系统,而是维护森林种植、管理、使用和保护的数字化框架。数字林业是促进森林可持续发展的管理学科。

(2)数字林业在很大程度上仍然是一个概念,还有很多工作要做。随着21世纪的发展,预计数字林业概念将为林业教育、研究和实践的发展提供概念基础。

(3)聚焦数字林业技术,通过为森林清查、规划、管理和保护提供新的学科整合机制和虚拟环境,帮助林农实现既定目标和价值方向。

(4)数字林业最终将改变我们传统林务员的思维、工作和文化。

(5)可视化技术在森林管理中发挥着重要作用。通过可视化技术,系统可以将数据对象之间的关系、多维空间的实时状态变化等信息直观地呈现给用户。此外,用户还可以通过与系统实时交互并将结果可视化,简单高效地分析大量复杂数据。目前,空间数据的可视化技术得到了广泛的应用,例如GoogleEarth。林业数据可视化能力是林业大数据框架的重要功能。可视化的主要目的是将大数据系统计算和分析的结果呈现给用户。通过与林业实时监测系统和林业决策支持系统相结合,为林业数据分析和林业管理提供了极大的便利。

猜你喜欢

发文图谱可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
绘一张成长图谱
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
校园拾趣
爷孙趣事
以牙还牙
补肾强身片UPLC指纹图谱