基于CiteSpace的文献计量学分析对提升医学生文献筛选能力的探讨*
2022-10-08郜康窦一萍朱袆卉胡斯童吕梦皓马攀
郜康 窦一萍 朱袆卉 胡斯童 吕梦皓 马攀
随着科学技术日新月异的发展与医学知识的不断更新,本科生教学中采用的传统教材由于更新再版的滞后性,已很难反映目前临床上的前沿观点与最新技术,因而需要学生在课后自行阅读相关文献以扩展自身视野,增加知识储备。而在研究生培养中,医学文献的检索与阅读则成了其基石所在,学生需要通过不断阅读科学文献以了解研究热点与前沿,确定自己的研究方向,并在吸取前人经验教训的基础上,对自己的实验方法进行完善与改进,最终做出有价值、高水平的科学研究。即便是从院校毕业后成为一名正式的医务工作者,阅读文献对于他们拓宽课题立项思路、确保学术科研方向以及保障成果申报顺利也都具有重要意义[1]。
在日常教学与文献调研中[2.3],我们得知医学生在文献检索与筛选中尚面临一些问题。其中最大的一个问题在于面对浩如烟海的科学文献时,他们有限的检索能力与匮乏的阅读经验往往令他们力不从心,二者间的矛盾常常使他们在知识的大门前望而生却。一方面,医学文献具有类型复杂、数量庞大、增长快速、出版分散等特点[4],且正处于由传统的纸质印刷型向数字化、网络化发展的过渡时期,这些都对医学生文献检索与筛选能力提出了很高的要求[5]。而另一方面,医学生的文献检索课程大多是在本科阶段以选修课的形式开设的,很多学生在学习时就有重视程度不足以及只是跟着老师一步一步操作而不愿“知其所以然”的现象,再加之日常学习中很少主动阅读文献,因而很多学生到了研究生阶段“不得不”阅读大量文献时就出现了上述问题。我们尝试将文献计量学分析纳入到教学中,希望能借助这一情报学领域的经典方法帮助到面临上述问题的医学生,特别是那些具有科研选题与科研实践需求的医学研究生。
1.文献计量学分析
文献计量学是一门应用数学与统计学等方法对文献情报进行定量分析的学科[6],通过定量分析某一学科文献,可以构建其知识结构并探索其发展趋势,目前已被广泛应用于许多研究领域[7-9]。从整体来看,这种分析方法与传统的文献综述都是通过对以往研究进行整理,总结研究的现状与不足,以期指导进一步的研究。所不同的是,文献综述更强调文章的内容性,即总结现有研究包括了哪些方面与不足,在撰写时多是按照一个预先设定的研究脉络引用已有文献中具有代表性的论文。而文献计量学分析更多强调的是对“量”的分析,不用详细分析每一篇文献的研究内容,而是对目标领域文献的发表数量、作者分布、引文关系等进行分析,撰写时引用的多是一些高被引的文献。与传统的文献综述相比,文献计量分析能以可视化的方式更加直观地对该领域的所有文献进行系统分析,这有助于进入一个新领域的研究人员掌握领域的整体趋势。文献计量分析还有助于揭示领域的研究热点与发展趋势,并挖掘出那些具有里程碑意义的文献。此外,目前的文献计量分析软件多简单易用,例如HistCite、VOSviewer等,本文将介绍基于CiteSpace的这一分析方法。
2.CiteSpace
CiteSpace[10,11]是由美国德雷塞尔大学陈超美教授开发的一款用于分析文献数据的信息可视化软件(图1),可以以图谱的形式展现科学和技术领域的知识地图与信息全景,帮助刚进入该领域的研究人员建立全面的认识,有利于其分析学科的发展脉络、识别研究热点并预测未来的发展方向。我们将以microRNA在牙周病学与口腔种植学中的研究进展为例,从以下几个方面简要介绍CiteSpace的使用方法[12]。
2.1 功能介绍CiteSpace支持Web of Science(WoS)、Pubmed、知网等数据库,相比而言,WoS的数据结构最为完整,支持所有项目的分析,而其他数据库由于包含的数据完整性不同,支持分析的项目也有所不同。例如从知网导出的数据不包含参考文献字段,则不能进行文献的共被引分析。简而言之,在选定研究项目与时间范围后,通过在网络配置区中选择不同的节点类型,即可实现对文献记录不同目的的分析,并可通过裁剪功能对生成的网络图进行进一步精简与优化。
在网络配置区,节点提取依据(Selection Criteria)是一个设置相对较多的参数,它用来设定在各个时间段内所提取对象的数量,该步骤可认为是对数据的精炼,以提取最具有影响力的数据进行可视化。例如在分析关键词共现网络时,选择TOP N%并设定N=10,其含义为提取每个时间切片内频次出现排名前10%的关键词进行分析。
2.2 合作网络分析 科学合作具有多种形式,Kataz和Martin将研究者们为生产新的科学知识而在一起工作定义为科学合作[13]。在文献计量学分析中,同一篇文献中出现不同的国家/地区、机构或者作者即认为他们存在合作关系,可理解为宏观、中观以及微观三个层次的合作关系,分别对应节点类型中的Country、Institution以及Author。
在合作网络图中,节点的大小代表了发文量的多少,不同颜色的年轮宽度代表了对应年份的发文量,节点间连线宽度代表了合作强度,连线的颜色表示了两个节点首次合作的时间。以机构合作网络图(图2)为例,山东大学、第四军医大学、伊利诺伊大学和四川大学是这一领域研究最多的几所大学,由图可知,他们各自拥有大量的合作伙伴,然而彼此之间的直接合作并不紧密。
2.3 期刊与学科分析 期刊与学科双图叠加功能可以在展示文献间引用关系来龙去脉的同时帮助学生了解知识流向并确定所需重点关注的学科。在叠加图中,左侧是施引文献所在的期刊分布,代表了目标领域所属的主要学科,可以看作领域应用,右边是被引文献的期刊分布,代表了目标领域主要引用的学科,可以看作目标领域的知识基础。二者之间的曲线的宽度代表了引证强度。如图3所示,在这一领域,分子生物学/生物学/免疫学的研究最常被来自分子生物学/生物学/遗传学的研究所引用。总的来说,目前这一领域的研究主要集中在牙科、口腔外科与医学、细胞生物学、生物化学与分子生物学等学科。
此外,CiteSpace的期刊共被引与聚类功能还可以自动分类具有相似刊文主题倾向的期刊,并从文献中提取具有代表性的关键词来表示这些倾向,了解期刊的收录倾向则有助于学生在投稿时选择到更合适的期刊。
2.4 关键词共现与引文共被引分析 关键词和主题聚类可以作为反映某一时期研究热点的重要指标。在CiteSpace中,主要利用聚类与突现检测功能寻找高价值关键词/文献、总结研究热点以及预测研究趋势。在引文共被引网络图中,关联性高的被引文献被划分在同一聚类中。聚类的标签由CiteSpace通过选取施引文献中具有代表性的关键词构成,在一定程度上反映了这一组文献的研究热点。而高价值的文献在图中对应节点处还被红色或紫色的年轮环所充填。
由引文共被引分析图(图4)很容易推断出microRNA在牙周病学与口腔种植学领域的研究热点主要集中在了以下四个方面:牙周膜干细胞(聚类#0),牙周炎的病理过程(聚类#2、#3、#4、#5),成骨分化(聚类#1)以及内源性RNA竞争网络(聚类#6、#7),其中,Xie YF[14],Stoecklin-Wasmer C[15]和Lee YH[16]三个人的研究具有较高的突现值(图5 b)与共被引次数(表1),他们使用microarray技术测定了正常人和牙周炎患者牙周组织中microRNA的序列,筛选出了一批具有潜在研究价值的microRNA,他们的研究在这一领域是具有开创性意义的,为后来的学者在进一步研究中选择研究目标打下了良好的基础,因而在论文发表后的几年内获得了广泛的关注(引文突现)。关键词突现检测(图5 a)也印证了上述结果,microarray从最开始就受到了广泛的关注,并且是最早突现和持续时间最长的一个关键词。
表1 高共被引次数的文献
作为可视化分析软件,CiteSpace不仅可以高度定制生成的网络图,例如配色、字号、形状及节点是否显示的阈值等,还能根据分析结果自动生成研究报告,有助于与其他人快速分享分析结果。
3.对提升医学生文献筛选能力的探讨
笔者认为,医学生进入一个新的研究领域时应当遵循从整体到局部的原则。首先需要对海量的科学文献建立起整体的认识,在此基础上逐步深入,筛选出有价值的文献并逐一阅读,完成由广度到深度的转换。以往学生先泛读,对检索到的文献有了直观认识后再精读,而笔者则建议先对目标领域进行文献计量学分析,对领域有了整体认识后再阅读具体文献。
3.1 借助文献增长规律了解发展趋势 文献是科学知识的客观记录,随着科学技术的迅速发展,科学知识量会不断增加,作为其载体的科学文献也必然会随之增长。观察文献增长情况是了解领域整体发展趋势最为简便的一种方法,借助数据库提供的统计功能可以直观感受到一个领域的兴盛衰微。目前衡量文献的增长情况通常有两种方法,一种是统计每年出版文献的累计总量,另一种是统计每年新出版的文献数量。前者着眼于可用文献总量的增长,后者则着重观察领域发展的快慢变化[17]。
我们建议学生注意观察那些科学文献开始迅速增长的年份,因为这些年份可能发生过一些对行业有重大促进作用的事件,在科研领域最常见的则是实验方法的改进或者新型材料的研发提高了领域整体的研究效率,在后续计量分析中,应当着重关注在这些年份附近发表的科学文献。例如上述领域中的microarray,它是首批用于大量miRNA高通量分析的工具之一,被认为是比较与特定诊断相关的microRNA丰度时的一种合理的选择[18]。microarray被应用到该领域的几年后受到了持续的关注,Xie等人借助这一技术所取得的成果为这一领域的发展奠定了坚实的基础[14-16]。此外,政策的支持与科研经费的倾斜也可能是造成文献数目激增的原因之一,借助CiteSpace还可以对科研基金进行耦合分析,在此不再赘述。
3.2 关注文献分布特征 文献的分布遵循着一定的规律,反映了科研活动及其产出的分布规律性。其中,集中规律是文献分布最普遍的基本规律之一,主要体现在文献信息的集中传播和生产能力的集中,前者表现在某一学科的大部分文献高度集中在少数期刊中,而后者表现在某一学科的大部分成果是由少数的科学家生产的。
如前文所述,借助期刊共被引功能可以帮助学生了解期刊收录主题的倾向,一方面,关注收录自己感兴趣学科较多文献的期刊,可以第一时间了解到目标领域的最新研究进展,而另一方面,也有助于在投稿时选择更加合适的期刊。除此之外,较以往的学科共现图谱,新版CiteSpace提供的期刊与学科双图叠加功能展示的信息更加丰富,其引证曲线完整地展示了引用的来龙去脉。通过观察领域的学科分布,可以在一定程度上帮助学生了解该领域的研究类型。而通过对合作网络进行分析,可以了解目标领域的研究中心在哪,进而找出对这一领域贡献大的学科领头人,以持续追踪研究进展,紧跟研究前沿。
3.3 引文共被引分析与关键词共现分析 引文共被引分析与关键词共现分析是CiteSpace的核心功能。关键词共现分析的基本原理是两两统计一组词在文献中出现的次数并以此测度二者之间的关联强度。与之相似,在引文共被引分析中,两篇文章共同被第三篇文章引用,则这两篇文章构成共被引关系[19]。共被引强度越高,说明两篇文章关联性更强,研究主题更接近。这种借助引文关系的分析方法可以避免在分析热点时发文量多的作者和机构对数据产生的影响。
在共被引分析中,高价值的文献有两类,年轮环分别被紫色和红色所充填。具有紫色年轮环的文献,说明其具有高的中介中心性。这一类文献通常在图中连接了两个不同领域的关键枢纽,意味着它们的研究有可能整合了不同领域的研究成果,因而值得关注。
而使用了突现检测功能后,节点的某些年轮被红色填充,说明在对应时间范围内该节点存在突发性变化,即被引频率曾经或仍在急速增加,例如一些具有划时代意义的技术发明往往在短时间内即引起广泛的关注。关注具有突发性变化的节点,将有助于找到那些对目标领域影响力大的研究并以此预测研究的趋势。
我们建议学生在时间维度上综合分析引文网络的聚类标签、重点关键词以及高价值文献,借此找出特定时期的研究热点及趋势,建立起整体的认识后再阅读文献将有助于他们更快、更准确地筛选出有价值的文献,并在此基础上进一步检索、筛选出更多自己感兴趣的文献加以阅读。
3.3 灵活使用分析工具 值得注意的是,CiteSpace作为一款工具,在实际分析时应当根据使用需要灵活选择其功能,必要时还可搭配其他工具。例如在分析研究前沿与知识基础时,可以进行文献的共被引分析或者施引文献的耦合分析。在分析科学领域结构时,可以进行学科共现分析或期刊的共被引分析。一旦文献的数据集确定,不同的分析类型只是揭示的立足点不同,得到的核心结果应该是相同的。如前所述,除CiteSpace外,还有一些优秀的文献计量分析工具可供选择,例如VOSviewer便因其简单易用的特点深受广大研究人员喜爱[20],而在进行一些基础的数据统计时,如每年发文量、引用增长情况等,各大数据库网站提供的分析工具也足以胜任。
4.结语
本文对基于CiteSpace的文献计量学分析方法做了简要介绍,论述了如何借助这种分析方法帮助医学生筛选出有研究价值的文献。我们希望学生可以通过这种分析方法,在开始选题或者进入一个新领域时可以迅速地建立起全面的认识,了解研究的热门与趋势,并在此基础上选择出自己感兴趣的研究前沿,有针对地去阅读一些关键文献与前沿文献。此外,我们还建议在实际操作时应当根据需求灵活选择分析软件与功能,使这些工具真正成为医学生科研之路上的良师益友。