基于citespace的天麻研究知识图谱可视化分析
2022-02-19李石荣符茂胜周先存王成杨亚东
李石荣 符茂胜 周先存 王成 杨亚东
摘 要:天麻作为一种名贵的中药材已有千年的历史,在中医临床上得到了广泛的应用。本文以知网数据库中近20年有关天麻研究的文献为基础,利用Citespace软件实现了有关天麻研究的作者、机构和关键词等内容的知识图谱可视化分析。实验结果表明,近20年来有关天麻研究的文献数量呈现缓慢增长并趋于稳定的状态;天麻研究的作者和关键词具有较强的关联,但机构之间的合作关联性较弱;天麻研究有关热点随时间不断变化。有关天麻的知识图谱可视化分析对政府、企业和研究机构具有重要的理论意义和指导意义。
关键词:天麻;知识图谱;可视化分析
中图分类号:TP391 文献标识码:A 文章编号:1673-260X(2022)01-0041-08
1 引言
在抗击2020年新冠疫情过程中,中医药治疗方式的广度和深度是空前的,其显著的疗效是西医药不可替代的,为世界疫情的防疫控制提供了新的解決方案,受到了国内外社会的广泛关注。越来越多的国家开始改变对中医药的看法,如疫情期间匈牙利成为第一个用中药预防新冠的欧洲国家,德国、意大利和美国等国家部分民众也支持中西医结合疗法对肺炎治疗的积极作用。2019年,我国十九届四中全会《决定》中再提中西医并重,可以看出中医药的发展早已经上升为国家的发展战略,中医药因集预防、治疗和环保为一体而具有广阔的市场发展前景,在国家经济发展中具有举足轻重的地位[1]。
山区因特殊地理位置而盛产天麻、灵芝、石斛和茯苓等中药材,众多特色植物中药材资源研究、开发和利用受到政府和企业的广泛关注[2]。2016年《中医药法》提到将扶持道地中药材生产基地的建设[3]。2020年国务院研究加大中药饮品政策扶持力度并加以临床为导向[4]。天麻作为大别山地区一种重要的特色植物中药材资源,受到了众多学者和研究机构的高度重视[5-8]。孟醒等人[5]对天麻钩藤饮的临床疗效进行了相关的研究并取得了相应的突破;刘云霞等人[6]对转录组测序初步揭示天麻生长代谢特征,为天麻栽培技术提供了重要的理论指导;林昕等人[7]通过对天麻的化学成分构建指纹图谱,可为天麻产地的鉴别和道地性提供科学参考依据;张双奇等人[8]通过超声辅助天麻多糖提取工艺并分析了其抗氧化活性。有关天麻的研究热点主要围绕临床研究、培育种植、成分分析、提取工艺等方面。
尽管众多学者和科研机构在天麻研究领域做出了重要的贡献,但随着天麻研究的不断发展,当前研究的热点是什么?天麻研究的未来发展趋势是什么?研究机构、政府和企业等对这些问题比较感兴趣。目前已有一些有关天麻研究的综述文献[9-12]。申寒梅[9]对天麻产业产融结合业务方案的优化进行了研究,提出了在层面和阶段上分段优化并进行单个层面上的绩效预测,给出了相应的管理建议;黎光富等人[10]对天麻多糖的化学成分和药理作用进行了综述研究,指出了当前天麻多糖研究与开发中存在的问题,给出了意见和建议;乔媛媛等人[11]对生态承载力的研究进行了相关的总结,分析并得到了生态承载力的热点关注和发展趋势。薛慧[12]对天麻在提高免疫、抗氧化和保护神经等功能方面的研究成果进行了较全面的总结。虽然上述有关天麻研究的文献总结出了较全面的结论和意见,但大多存在较强的主观性和局限性。随着大数据技术的不断进步和发展,近年来流行的知识图谱法可以为解决上述问题提供一种新的思路,并已在智慧教育、智慧医疗和智慧农业等多个领域实现了成功的应用[13-19]。侯梦薇等人[13]通过集成术语构建可用于解决医疗中资源欠缺、需求矛盾的大规模知识图谱;Chen等人[14]提出了一种教育信息挖掘系统,通过神经序列标记算法提取教学中的概念和挖掘教育领域的重要信息;何雪等人[16]通过知识图谱可视化分析对我国的镉吸附-解吸研究热点进行了总结,指出了我国镉吸附-解吸的文献计量研究的发展现状、研究热点和动态趋势。虽然知识图谱已经在多个领域实现了成功的应用,但目前有关特色植物资源的知识图谱应用却很少。
天麻是特色植物中的一种中药材资源,在临床上具有重要的药用价值。本文整理了近20年有关天麻研究的文献,运用citespace软件对天麻研究的作者、机构和关键词等部分进行了知识图谱可视化分析,呈现了天麻研究的聚类结果和热点变化等内容,以期为相关研究机构、政府和企业提供理论参考和实践指导依据。实验结果表明:
(1)近二十年来有关天麻研究的文献数量呈现了缓慢增长并逐渐趋于稳定的趋势。
(2)作者的关系网呈现“大网为主、小网分散”的局势,体现了大部分作者之间研究的合作关联性较强;机构图谱呈现的关系网不够紧密,体现了机构相互之间的合作关系紧密性较弱。
(3)关键词的共现和聚类结果显示天麻研究聚类关键词可主要划分为6大类,#0半夏白术天麻汤、#2天麻种子、#3天麻素、#5临床研究、#6h型高血压和#7数据挖掘。聚类#0主要侧重于天麻制剂、症状治疗等内容;聚类#2主要侧重于天麻品种、种植栽培等内容;聚类#3主要侧重于天麻成分测定、工艺提取等内容;聚类#5主要侧重于临床研究;聚类#6主要侧重于临床治疗方法;聚类#7主要侧重于遗传分析、临床数据挖掘等内容。关键词聚类图谱可视化分析主要从天麻的产品制剂、品种栽培、成分分析、临床研究、治疗方法和数据挖掘等六个方面对天麻研究进行了系统的总结。关键词聚类分析结果也反映了近20年来天麻研究的热点变化和发展方向。
本文利用知网数据库中近二十年有关天麻研究的参考文献数据,结合知识图谱可视化软件对天麻的研究热点、合作关系和发展趋势等内容做了相关图谱可视化分析,构建了天麻研究的“一张图”。实验所得图谱可为相关人员提供参考和指导信息,对掌握天麻研究的实时发展动态、推动山区经济发展、实现天麻产业化和提高人民生活水平具有重要的意义。
2 图谱可视化分析原理
本文的实验结果主要利用citespace软件对知网下载的参考文献数据进行图谱可视化分析[20]。具体的图谱可视化流程如图1所示。
2.1 数据准备
本文选取知网数据库,下载2000-2021年期间有关天麻研究的论文参考文献,数据统一命名并放入准备好的输入文件夹中,通过citespace软件自带的数据处理功能对下载的数据进行格式转换操作,得到的数据存入准备好的输出文件夹中以备后续数据处理使用。
2.2 参数设置
参数设置过程主要包含:时间切片、关联强度、网络裁剪和阈值筛选等几个步骤,下面就这几个主要步骤进行简单介绍。
2.2.1 时间切片
时间切片主要与阈值设置搭配使用。时间切片主要针对选择的施引文献和被引文献并进行节点分析,由于从知网数据库上下载的数据格式中没有被引文献,因此本文中时间切片设置主要针对的是施引文献。针对施引文献进行分析的节点类型主要有合作作者、合作机构和关键词等内容,选择对应下载时间段和图谱参数对文献进行分析。
2.2.2 关联强度
在得到的知识图谱中,作者和机构之间的连线可反映合作强度关系,合作的节点大小可表示作者、机构论文发表的数量;关键词图谱中的节点大小可以表示出现的频率,关键词之间的连线可以反映共现强度。Citespace提供了网络节点关联强度的常用计算方法—Cosine算法。Cosine算法计算连接强度公式如下:
Cosine(cij,si,sj)= (1)
标准化的数值大小在0到1之间,数值越大关联强度越强。其中cij为si和sj的共现次数,si和si分别为i和j出现的频次。
2.2.3 网络剪裁
获取的网络密集度比较高时可视化分析效果会受到较大的影响,此时可通过筛选重要的连线来提高网络的可读性。Citespace软件提供了两种重要的可视化裁剪方法,最小生成树(Minimum Spanning Tree,MST)算法和寻径网络(Pathfinder Network,PFNET)算法。
(1)MST算法
若网络图谱为G(V,E),其中V为一组节点,E为V中节点连接生成的边,?坌u,v∈V,w(u,v)表示边(u,v)∈E的权重。若存在生成子图T=(V,TE),TE?哿E,并且T无圈,使得T的权重w(T)=最小,则T为G的最小生成树。最小生成树的图谱修剪方法是通过构造网络图片的最小生成树来简化网络,即在生成的网络图谱中构造一个包含所有节点、无圈和权值最小的子网络。
构造最小生成树的方法是从某一个节点u0∈V出发,初始时刻令U={u0},TE={},重复执行如下步骤:在所有的u∈U,v∈V-U的边(u,v)∈E中找到权值最小的边(uk,vk)并入TE,并将vk并入U,直至U=V为止,得到最小生成树T=(V,TE),TE?哿E。
(2)PFNET算法
寻径网络算法可用于分析数据相似性,根据经验性数据评估不同概念或实体之间的差异程度,最终生成一类特殊的网状模型用于数据相关性分析。该算法可对复杂网络中衡量数据相似性的关系进行简化处理,分析数据之间存在的关联,在所有两点路径之间保留关联性最强的路径,建立数据之间最有效的路径。同理MST算法,网络图谱为V=(V,E),V={N1,N2,…,Nn}。|V|=n表示的节点个数,E中边与边之间的关联可以矩阵EG来描述,如公式(2)所示:
2.2.4 阈值筛选
过多的数据量会导致图谱过于庞大而出现杂乱的结果,严重影响可视化分析。通过对阈值进行设置,对所有数据进行阈值筛选,去除冗余信息从而使得图谱变得更加清晰。Citespace软件提供了四种数据的阈值筛选方法:
(1)选择每个时间段中被引用次数或出现次数频率最高的若干个数据节点。
(2)选择百分比最高的节点数据,且限制被引用或出现频率次数的数据节点。
(3)给定三个时间默认的参数值(c,cc,ccv),其中c表示最低被引用或出现频率次数,cc表示出现次数或共被引的频率次数,ccv表示共现频率或共被引率。
(4)选择被引用频率次数在某一区间的节点数据。
2.3 可视化
2.3.1 可视化界面简介
可视化界面功能主要包括以下几个部分:
(1)节点信息列表:包括节点出现次数、中心性、首次出现年份、关键词,节点可通过visible选项实现隐藏功能。
(2)视图颜色与背景选取:包括网络蓝色与彩色显示切换、网络視图背景颜色修改。
(3)网络聚类选择:聚类方式可选取为聚类术语的标题、关键词或摘要提取,方法有聚类时间演化、聚类语义检索、对数似然和互信息算法。
(4)网络界面设置选择:标签设置包括调整主题网络字号标签、节点字号、连线强度、标签大小、聚类命名字号和位置调整;网络布局包括网络布局方式;可视化调整包括对时间线、聚类标签位置行距及连线的调整;节点信息检索包括参数修改后更新并查看突发性探测结果;聚类结果包括聚类信息的显示。
2.3.2 网络聚类
Citespace软件主要利用最大期望算法(Expectation Maximization,EM)对网络进行聚类分析。
设样本数据{x1,x2,…,xn}之间相互独立,单个样本对应的类别zi(i=1,2,…,n)未知,若要确定样本所属类别使得p(xi;zi)最大化,样本的模型参数为?兹,则似然函数可表示为:
2.3.3 参数分析
参数分析主要包括如何选择网络连接密度、模块化值和剪影值等。
2.4 结果分析
综合所得图谱结果对天麻研究进行初步解读,通过对比网上相应的参考文献判断结果进是否满意。若不符合实际情况,则重新对参数进行调整并选择合适的方法重复上述步骤;否则,对结果进行分析和撰写。
3 实验结果分析
citespace软件可对知网下载的有关天麻研究文献的作者、机构和关键词等内容进行大数据分析。
3.1 数据采集与处理
本文在CNKI上下载有关天麻研究的文献数据,选取主题为“天麻”、其他条件不限进行高级检索,初步统计有关天麻研究的文献共1.17万篇,删除重复、新闻报纸、会议通知、成果等内容共得参考文献10342篇文献作为本次实验的基础数据。
本文主要对近20年天麻研究的有关作者、机构和关键词等内容进行知识图谱可视化分析,通过对不同时间天麻研究热点的变化,揭示未来天麻领域研究和发展趋势。
3.2 文献基础分析
不同阶段的文献数量大体可以反映出天麻研究的关注度和趋势。从图2中可以看出不同年份文献发表的数量,近20年文献发表数量主要呈现为缓慢增长并趋于稳定的状态。
天麻研究文献时间段可分为三个阶段:
(1)2000—2009年,研究文献由每年201篇缓慢增长至每年500篇左右。期间有关天麻的文献研究以栽培技术、天麻品种、病虫害以及临床试验等内容为主。
(2)2010—2014年,研究文献缓慢增长至每年600篇左右。期间的文献研究重点以成分分析、工艺提取和药物制备等内容为主。
(3)2015—2020年,研究文献一直处于每年700篇上下浮动。期间有关天麻的文献研究主要以中医临床疗效和数据挖掘分析等内容为主。
文献的来源可以直接反映天麻研究的侧重点。如图3所示,有关天麻的研究文献主要发表在与中医药、临床试验和农业相关的期刊,这与我国对中药材资源的政策支持相符,也与十九届四中全会的精神相吻合,天麻产业的发展既能促使该药材更多地进入临床应用,也能推动山区经济发展和实现中西药并重。
3.3 作者与研究机构分析
作者是天麻研究的主体,通过图谱可视化网络分析可以了解学者之间的合作研究关系。本文通过citespace软件对有关天麻研究的文献作者进行图谱分析,包括图谱原图、MST图谱和PFNET图谱。如图4-图6所示,图谱原图、MST图谱和PFNET图谱所获节点个数均为1136个,连线个数分别为1545、700和1304个,网络密度分别为0.0024、0.0011和0.002。
从图4-图6中可以看出,经过MST算法和PFNET算法处理后的图谱较原始图谱会变得更加清晰简洁,但某些关联性不强的节点信息会被省略;PFNET算法比MST算法的连线更多,保留了更多的结构信息。由于图谱的节点和连线较多,可通过对图谱进行简化修剪得到综合网络图谱。如图7所示,所得图谱的连线降低为327个,网络密度为0.0005,图谱的主要关联信息被保留。
发文数量可以反映作者对该领域研究的广度和深度。如表1所示,发文量多于15篇的共有13人。与图4-图7中的图谱相对应,作者之间呈现了一种关联度较强的合作关系网。例如,王绍柏、刘大会和王晓等作者组成了一个关联性较为紧密的大关系网,林青和段小花、冯怡和王强等作者组成了关联性较强的小关系网。作者之间的网络节点关系呈现为一种“大网为主,小网分散”的结果。表2给出的是不同时间段作者研究内容重点变化,体现了天麻研究的变化趋势。
机构是天麻研究的主要科研平台,通过对机构的图谱可视化分析可以了解当前对天麻研究的主要高校和科研院所。图8为天麻研究机构的知识图谱原图,从图中可以看出山东中医药大学、云南中医学院和贵阳中医学院等单位为天麻研究的主要机构,但机构与机构之间未能形成关联性较强的图谱网络。图9为图谱运行结果参数显示图,所得连线和网络密度均为0,下调参数阈值后所得连线也仅为8,体现机构与机构之间的合作关系强度不够明显。
图10为近20年来天麻研究主要机构的时间段列表。从图中可以发现2009年之前中南大学湘雅医院中西医结合研究所、广西中医学院和上海中医药大学是重点突出研究天麻的研究所和高校,2010年到2015年之间天麻研究较为突出的为山东中医药大学、贵州中医学院等高校院所,近三年来对天麻研究较为突出的是铜仁学院材料与化学工程。
3.4 关键词与热点分析
3.4.1 关键词共现分析
关键词是论文信息展示的核心内容,也是对整篇研究论文的浓缩提炼,通过对关键词的共现分析可提炼出有关天麻研究的热点和趋势。Citespace软件通过对论文关键词进行处理可实现共现知识图谱,如图11所示,利用MST算法得到的关键词共现图谱共有节点663个、连线1474个,网络密度为0.0067。
由于文献较多,得到的图谱过于庞大和混乱,可通过简化裁剪得到综合网络图谱。如图12所示,MST算法简化裁剪后的综合图谱节点不变,连线为330个、网络密度降低为0.0025,图谱可观性得到了极大的改善。图12可以展示有关天麻研究的主要关键词,其中天麻素、临床疗效和色谱法等是天麻研究的主要关键词,关键词主要与天麻品种、成分分析、提取工艺、临床疗效和数据挖掘等内容有关。比如:天麻的品种主要分为红天麻、乌天麻和黄天麻等;天麻中所含的天麻素具有镇静、安眠和镇痛等作用;液相色谱法可通过测定天麻中的天麻素含量对天麻品质进行评测等。
3.4.2 关键词聚类分析
关键词聚类时间线图可用于分析天麻研究的时间阶段热点变化趋势。如图13所示,有关天麻研究的聚类共有11类,通过对关键詞进行合并可将聚类主要重新划分为“天麻制剂、天麻品种、天麻成分、临床研究、临床治疗方法和数据挖掘”6大类别。下面着重分析6大聚类结果。
(1)#0半夏白术天麻汤。主要内容有天麻钩藤饮、龙胆泻肝汤、通窍活血汤等。包括天麻素可用于制备临床药物治疗偏头痛等相应疾病症状等。聚类#2所含内容和作用于聚类#0类似。
(2)#1天麻种子。主要内容有野生天麻、中药材、栽培技术、临床疗效、生产技术等。该类别主要包含天麻品种、种植栽培、天麻应用和种植产量等几大类。该聚类包括天麻品种的比较、种植栽培技术的研究、药物临床疗效的介绍和产量的评估等。
(3)#3天麻素。主要内容有高效液相色谱法、含量测定、薄层色谱法、指纹图谱、提取工艺等。由于天麻素可用于制备临床药物、治疗偏头痛等相应疾病症状等。该类别是关键词种类最多的一类,该聚类主要包含天麻素的应用、天麻素提取的工艺、天麻素含量测定和主要成分分析等内容。
(4)#5临床研究。主要内容有偏头痛、脑供血不足、治疗组等内容。该类别主要是对临床上的疾病进行用药研究,总结用药规律。
(5)#6 h型高血压。主要内容有天麻钩藤饮/治疗应用、脑梗塞/中西医结合疗法、偏头痛/中医药疗法等内容。包括天麻在中医临床上的治疗应用方法、中西医结合疗法等。
(6)#7数据挖掘。主要内容有用药规律、关联分析、聚类分析等。包括天麻在临床上的数据挖掘研究、药理分析等。
3.4.3 热点分析
热点可以反映一段时间内高校和研究所对天麻研究的趋势变化。图14为天麻研究的关键词热点分析可视化图,共选取26个具有代表性较强的关键词,强度在9.44~39.13之间,时间范围为2000-2021年。
从图14中可以看出天麻研究的时间跨度长、热度强,有关天麻研究的热点较多和强度较大,虽然选取的热点数量只有26个,但从侧面可以看出天麻研究领域发展过程,至今天麻仍是科研院所关注和研究的热点内容。首先,天麻的研究从天麻的品种分类和栽培种植等内容进行研究,体现了最初关注的重点是天麻的品种优选和种植技术的优化;其次利用相色谱法的技术对天麻的成分进行鉴别、将天麻制作成药物应用于临床药用;最后对其临床疗效进行数据挖掘,不断抽取临床数据研究对各种症状的影响和效果。
4 总结和展望
本文通过citespace软件对CNKI上有关天麻的参考文献进行大数据可视化分析,构建了有关作者、机构和关键词的图谱用于分析,有关天麻的研究趋于成熟化并开始逐渐转向智能化和专业化。作者和机构的图谱分析可以发现当前作者合作的关系较为密切,但机构之间的合作紧密性不强。通过关键词热点聚类分析可以发现天麻研究的发展动向,分别从天麻的鉴定方法、成分提取与作用、品种分类、数据挖掘和中医治疗法等聚类部分可以较好地看出天麻研究的重点和发展方向。
十九届四中全会《决定》中指出,坚持中西医并重对提升医疗水平具有重要的作用,天麻作为一种重要的中药材资源在未来的研究中将会受到高校、研究所和政府部门的进一步关注,并逐渐向智能化、产业化和临床应用的方向发展。
参考文献:
〔1〕中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定[N].人民日报,2019-11-06(001).
〔2〕王明辉,陈展鹏,熊飞,等.湖北省大别山区中药材资源及产业发展现状[J].湖北农业科学,2019,58(12):99-101+115.
〔3〕李慧,俞力畅,陆永强,等.中医药地方立法现状及立法建议[J].中草药,2020,51(21):5664-5668.
〔4〕中共中央国务院关于促进中医药传承创新发展的意见[N].人民日报,2019-10-27(001).
〔5〕孟醒,熊兴江.初发高血压病、青年高血压病的中医认识及天麻钩藤饮的临床治疗体会[J].中国中药杂志,2020,45(12):2752-2759.
〔6〕刘云霞,狄永国,仇全雷,等.基于转录组测序初步揭示天麻生长代谢的分子机制[J].中草药,2021, 52(03):827-837.
〔7〕林昕,王丽,邵金良,等.不同产区天麻HPLC指纹图谱研究[J].中国现代应用药学,2020,37(13):1543-1549.
〔8〕张双奇,刘琳,何念武,等.超声辅助提取陕产天麻多糖的工艺优化及抗氧化活性研究[J].中国农学通报,2021,37(09):131-136.
〔9〕申寒梅.ZT金控公司天麻产业产融结合业务方案优化研究[D].云南大学,2019.
〔10〕黎光富,李刚凤,史荣荣.天麻多糖化学成分与药理作用研究综述[J].现代农业科技,2016,43(07):289-290+292.
〔11〕乔媛媛,于晴,金鹏等.基于知识图谱的生态承载力研究热点和趋势展望[J].赤峰学院学报(自然科学版),2020,36(07):10-15.
〔12〕薛慧.天麻若干保健功能的研究进展(综述)[J].食药用菌,2015,23(02):92-94.
〔13〕侯梦薇,卫荣,陆亮等.知识图谱研究综述及其在医疗领域的应用[J].计算机研究与发展,2018, 55(12):2587-2599.
〔14〕P. Chen, Y. Lu, V. W. Zheng, et al, "KnowEdu: A System to Construct Knowledge Graph for Education," in IEEE Access, vol. 6, pp. 31553-31563, 2018.
〔15〕涂濤,张煜明.基于知识图谱和共词分析的“互联网+教育”研究评述[J].西南大学学报(自然科学版),2021,43(01):1-11.
〔16〕何雪,李威,刘克.2000—2020年我国镉吸附-解吸的文献计量研究——基于CiteSpace的计量分析[J].安徽农业科学,2021,49(08):240-245.
〔17〕向军毅,胡慧君,刘宇,等.COVID-19物资知识图谱的构建[J].武汉大学学报(理学版),2020,66(05):409-417.
〔18〕Tong Yu, Jinghua Li, Qi, et al. Knowledge graph for TCM health preservation: Design, construction, and applications[J]. Artificial Intelligence In Medicine, 2017,77.
〔19〕侯丽,高阳,刘路路.我国农田重金属污染生态补偿研究现状与展望——基于CiteSpace知识图谱分析[J].中国农业大学学报,2020,25(08):132-143.
〔20〕李杰,陈超美.Citespace:科技文本挖掘及可视化[M].北京:首都经济贸易大学出版社,2017.53-64.