苎麻研究领域知识图谱分析
2022-01-21高磊崔国贤彭剑李金曹晓兰
高磊,崔国贤,彭剑,李金,曹晓兰*
(1.湖南农业大学信息与智能科学技术学院,湖南 长沙 410128;2.湖南农业大学苎麻研究所,湖南 长沙 410128)
苎麻,荨麻科苎麻属多年生宿根性草本植物。苎麻叶是蛋白质含量较高、营养丰富的饲料;苎麻根含有药用成分“苎麻酸”,有补阴、安胎、治产前产后心烦,以及治疔疮等作用;麻骨可作造纸原料,或制造家具和板壁等多种用途的纤维板,麻骨还可酿酒、制糖;麻壳可脱胶提取纤维,供纺织、造纸或修船填料之用。鲜麻皮上刮下的麻壳,可提取糠醛,而糠醛是化学工业的精炼溶液剂,又是树脂塑料。中国苎麻种植面积及原麻总产量占世界的90%以上。苎麻产业发展在丰富纺织品市场、扩大外贸出口规模、推动传统产业改造等方面具有极其重要的意义[1-3]。
文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量方法研究文献情报的分布结构、数量关系、变化规律和定量管理,进而探讨科学技术的结构、特征和规律的一门学科[4]。
知识图谱用各种不同的图形展现知识之间的结构关系,同时显示知识领域的发展和变化过程。通过对知识的挖掘、分析进而进行可视化,最终用图谱的形式展示某一学科领域的主要研究内容、发展历史、前沿问题,使研究者对学科结构、研究内容、学科关系和研究热点有清晰的把握,并可预测学科发展前沿和趋势[5]。知识图谱分析是将数学、统计学、计量学、信息科学与可视化技术相结合的一种分析方法,在当前大数据时代背景下发展迅速,已被广泛应用于各个领域。比如赵浩含等[6]基于文献计量的国家麻类产业技术体系发展态势分析与建议,以知识图谱可视化的方式分析出国家麻类产业技术体系在促进多元主体职能分工、加强科研与产业热点结合、促进麻类学科纵向深入和横向拓展、强化依托单位支撑能力等方面发挥了重要作用。
CitespaceV软件以引文分析和知识图谱可视化技术为基础,实现了文献计量学与知识图谱分析技术的融合,被用于识别某一科学领域的关键文献、热点研究与前沿方向,探究学科之间的交互关系,对研究领域的学者做出评价[7]。
苎麻集生态、经济和社会效益于一体,具有广阔的应用前景,当前中国对苎麻相关文献的计量学研究仍处于空白。本文拟以CNKI数据库为数据来源,使用Citespace V(5.7.R2)知识图谱工具,对国内1992~2020年的苎麻研究文献进行可视化分析,统计发文数量、主要作者、主要研究机构,并绘制文章作者的合作网络图谱,统计机构发文量,建立研究热点的关键词共现、关键词时区分布和突现关系表,梳理苎麻研究的知识基础及发展脉络,揭示其研究热点并预测其未来发展方向,以期为该领域后续的研究提供科学的参考和帮助。
1 材料与方法
1.1 数据收集和整理
本文数据来源于CNKI数据库。在该库中,综合考虑文献的质量、数量和覆盖范围,选择“科学引文索引(Science Citation Index,SCI)来源期刊、工程索引(The Engineering Index,EI)来源期刊、北大核心、CSSCI来源期刊、CSCD来源期刊”作为文献来源,检索条件设置为“主题”,检索词设置为“苎麻”,时间段限制在1992~2020年,共检索到1786条记录。《中国麻业科学》作为苎麻领域的权威期刊,由于2000年后不属于上述数据库,所以单独再将检索条件设置为“主题”,检索词设置为“苎麻”,文献来源设置为“中国麻业科学”,时间段限制在2000~2020年,检索到676条记录。通过人工剔除非相关文章及去重操作后,最终纳入有效记录文献共计2089篇,将有效记录以Refworks格式导出,并运用Citespace V软件完成数据格式的转换。
1.2 知识图谱分析工具
基于java平台运行的CiteSpace V软件可以显示知识单元或知识群之间网络、互动、交叉、演化或衍生等诸多隐含的复杂关系,并生成一系列可视化图谱,以对相关领域的研究演化和发展前沿进行探测[8]。本研究在 Citespace V参数设置中,时间跨度(Time Slicing)设为“1992~2020”,时间切片(Years Per Slice)设为 1,节点类型(Node Type)包括作者(Author)、机构(Institution)、关键词(Keyword),阈值(Top N)设为50。根据各节点参数设置,分别导出年度发表文献分布情况、研究人员合作情况、关键词共现、关键词时区图和突现关键词的知识图谱。
2 结果与分析
2.1 年度发表文献分布
年度发表文献的数量及变化趋势总体反映了该领域的重要性和受关注程度。图1显示了从1992~2020年苎麻研究的年度发文量情况。结果显示,本领域研究大致可分为三个阶段。第一阶段为1992~2003年,11年间有关苎麻的相关文献数量波动减少,2003年仅发表文章47篇,为最小值;第二阶段为2004~2010年,年度发文量呈快速增长趋势,并于2010年达到峰值,发表文章为103篇;第三阶段为2011~2020年,年度发文量呈递减趋势。
图1 苎麻研究发表文献年度分布Fig.1 Annual distribution of ramie research publications
2.2 主要研究人员和研究机构
以“Author”为网络节点,生成888个节点、1872条连线的苎麻研究人员合作知识图谱(图2)。图中每个节点代表1位作者,纳入图谱的作者共计888人,节点字体越大表明该作者发文量越多,而作者之间的连线反映两者之间的合作关系,连线距离越近表示合作关系越紧密。进一步对发文量大于等于30篇的作者进行了统计(表1),其中熊和平发表文章最多,达到66篇。
表1 苎麻研究发文量≥30篇的作者Table 1 Authors with more than 30 articles on ramie research
图2 研究人员合作共现图谱Fig.2 Corporation network of researchers
从图中可以看出,当前苎麻研究领域形成两个比较大的合作团队,分别是以崔国贤、熊和平为核心的研究团队,团队内部合作密切,团队之间的合作也比较紧密,这可能与这两个团队所处同一市区有关。
对1992~2020年发文量靠前的机构进行统计和排名(表2),从表2中可知,中国农业科学院麻类研究所发文量最多,达到360篇,其次为湖南农业大学,发文176篇,东华大学位列第三,发文92篇。呈现出以中国农业科学院麻类研究所为核心机构引领苎麻的研究与应用。
表2 1992~2020年苎麻研究高产机构排名Table 2 Ranking of ramie research institutions from 1992-2020
2.3 关键词分析
2.3.1 共现分析
关键词能代表文章的主题,而一个学科领域中,出现频率高的关键词就能代表该领域的研究热点,共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系[9]。
以“Keyword”为网络节点,得到关键词共现图谱(图3)。图谱中共现关键词有820个,按频次降序排序,统计频次≥10的关键词,共有28个(表3),除去检索词苎麻外,频次前五的关键词依次是苎麻纤维、苎麻织物、复合材料、麻纤维、力学性能。一般认为,中心性>0.1的节点在网络结构中有重要的位置,在知识结构的演变中扮演重要的角色。在表3中,中心性>0.1的关键词有麻纤维(0.17)、苎麻纤维(0.14)、复合材料(0.11)。
表3 关键词共现网络主信息表Table 3 The main information table of keywords co-occurrence network
图3 苎麻研究关键词共现图谱Fig.3 Ramie research keywords co-occurrence graph
以关键词为节点进行的图谱分析可以直接反映当前苎麻研究的热点。通过对关键词共现图谱进行分析发现,研究主要集中在苎麻作为纺织原料方面,苎麻纤维、苎麻织物是出现频次最高的关键词,其次是苎麻在复合材料领域的应用、力学性能之类的研究。
2.3.2 分布时区分析
本文在关键词图谱的基础上绘制时区分布图(图4),该图将频次较高的关键词首次出现的年份进行排列,反映了苎麻研究领域的发展态势。从图中可以看出,1992~2000年期间,对苎麻的服用特性的研究较多,苎麻纤维、苎麻织物等关键词频次较高,2000年以后,苎麻的研究热点为生物工程和饲用研究,其中复合材料、力学性能、饲用苎麻等关键词频次较高。
图4 苎麻研究时区分布Fig.4 Research on time zone distribution of ramie
2.3.3 关键词突现分析
突现词是指在短时间内出现频率骤增的关键词,突发强度则是指在短时间内出现频率骤增的强度,对突现词和突发强度分析可以体现研究前沿演进路径和交互关系[10]。在苎麻领域的关键词突现中共出现25个突现词(表4),其中,突发强度前5的关键词为麻纤维、饲用苎麻、纤维支数、苎麻疫霉和产业化。
表4 关键词突现Table 4 Keywords with citation bursts
从表中可以看出,21世纪之前,苎麻领域的研究主要集中在苎麻的服用特性,对苎麻织物、纤维品质、纤维支数研究较多,而在进入21世纪之后,对苎麻纤维的物理特性,以及生物工程方面的研究日益增多,苎麻在复合材料的应用以及植物修复等方向的研究成为热点。从2017年开始,饲用苎麻成为研究热点,苎麻在饲料方面的用途开始被推广。
3 讨论
本研究主要考察苎麻在国内的研究现状,从1992~2003年,苎麻领域发文量波动减少,在90年代初期、中期和末期,先后刮过三次“麻风病”,中国的苎麻种植业和苎麻纺织业都付出了沉重的代价[11-12],苎麻领域的研究也处于低迷状态;从2004~2010年,苎麻发文量快速增长,结合苎麻研究时区分布图来看,这一阶段随着对苎麻的物理生物特性等方向研究兴起,以及2008年国家麻类产业技术体系的建设,苎麻领域研究取得了快速的进展;但2010~2020年这一阶段,虽然发文量仍处于较高水平,但整体呈下降趋势,这可能与近年来耕地面积的减少以及化纤、棉花等纤维材料的挤压、苎麻种植规模显著减小有关。苎麻化学脱胶污染环境,苎麻脱胶厂消失或整顿,也是苎麻发展下行的原因之一。
近年来随着人工智能等新兴技术的发展,利用无人机以及机器学习算法对苎麻进行图像识别,基于深度学习建立苎麻的数字模型、基于自然语言处理建立农业知识问答系统等方向是值得我们去探索的,结合各种新兴技术是苎麻等作物未来重要的研究方向。
本文采用CiteSpace软件主要对CNKI中文数据库进行分析,对国内苎麻相关研究进行关注,由于纳入文献样本数量有限,并且经过人为筛选出与主题不相关的文献,统计结果可能会存在主观性。
4 结论
本文在CNKI数据库中选取1992~2020年以“苎麻”为主题的国内研究期刊文献,利用知识图谱可视化分析对苎麻研究的发文量、主要作者、热点前沿等进行数据挖掘和统计分析,提出苎麻发展需依托新兴技术,与智能农业相结合这一方面可作为研究重点,对麻产业发展有着重要的意义。