基于共词分析和可视化的我国神经病学领域热点监测
2015-03-22,
,
1 研究背景
随着信息爆炸时代的到来,每年各学科领域都会有海量的科学文献产生,如何从海量的信息资源中识别学科领域的研究热点便成为了广大科研工作者所面临的难题。共词分析是将文献计量分析法和内容分析法相结合的综合分析方法[1]。近年来随着信息可视化技术的快速发展、多种可视化软件的开发,共词分析方法逐渐融入了多种可视化技术,使分析结果更加直观,因而成为监测科技动态的重要方法。目前,很多学者将共词分析结合可视化的方法应用到学科领域热点的监测中,如1992年Law等人以环境酸化研究为例,利用共词分析方法绘制了该领域的科学图谱[2];1993年Courtial等人对专利文献进行共词聚类分析,得到食品类专利文献的研究热点,同时利用战略坐标显示研究热点[3];2001年Ding等从SCI和SSCI中获取相关数据,分析了信息检索领域的研究主题及发展变化,并通过关键词共现分析和多维尺度分析绘制领域地图[4];2003年Stagmann等人利用主题词聚类分析对Swanson等人所发现的非相关文献之间隐含关系的数据进行研究,并绘制了其研究热点的战略坐标图,结果显示Swanson等人的研究结果与词语在战略坐标中的位置之间存在着一定的联系[5];2003年张晗等人利用共词聚类分析生物信息学领域的研究热点,同时绘制了战略学标图以定量地分析各研究热点的发展阶段[6];2005年谢彩霞等人利用关键词共现分析了1994-2001年我国纳米科技论文,展示了我国纳米科技研究领域的发展趋势[7];2010年王慧将共词分析和社会网络分析结合,对中美情报学学科热点进行了对比分析研究[8]。
但大多数研究只选取一种或两种可视化方法,本文用不同可视化方法监测并分析了我国神经病学领域的热点及其主题的发展和演进态势。
2 研究思路和方法
本文拟按照图1所示路线分析监测研究热点。
图1 研究路线
2.1 构建共词矩阵
共词分析是通过统计分析反映文献主题内容的专业术语、研究文献内在联系和学科结构的方法。通常采用的方法就是从相关文献中提取关键词,并选取高频词,两两统计一组关键词在同一篇文献中共同出现的频率,构建共词矩阵,为后面的统计分析做好准备。
2.2 社会网络分析
社会网络是指社会成员之间因相互作用而形成的关系体系,社会网络分析就是要对社会网络成员之间的关系进行量化研究[8]。在社会网络图中,点表示社会成员,点之间的连线表示成员之间的关系。本文从整体属性和个体属性两个角度选择指标进行分析。其中整体属性的指标包括网络密度和网络平均路径长度,前者是指整体网络中各个点之间联系的紧密程度,后者是指网络中任意两点之间的平均距离;个体属性的指标包括点度中心度、中间中心度、接近中心度,点度中心度是指网络图中与该节点直接相连的点的数目,中间中心度表示网络成员对资源控制的程度,接近中心度表示网络成员与网络其他成员的接近性程度。
2.3 聚类分析
在共词分析基础上,采用聚类算法对共词网络中各主题间的联系强度进行运算,根据聚类结果将相互联系相对紧密的主题聚集起来形成相对独立的团体-类团[9]。本文划分类团时将去掉没有统计分析意义的仅由一个关键词或两个关键词组成的类团[10]和由主题概念不甚关联的关键词组成的类团[11]。类团内部各关键词对聚类的贡献度用“粘合力”衡量,某一关键词与类团内其他关键词的共现次数越多,其粘合力越大,在类团中的地位越突出。在一个类团中,粘合力最大的关键词称为中心词[12]。本文通过计算类团内某一关键词和其他关键词的绝对共现频次的平均值得到该关键词的粘合力值,并根据每个类团内粘合力最大的几个关键词命名类团。
2.4 战略坐标分析
战略坐标是在共词矩阵和聚类的基础上,描述某学科领域的内部联系情况。战略坐标图是以测度某个类团和其他类团之间的外部链接强度的中心度为横轴、以测度某个类团内部各关键词之间的内部链接强度的密度为纵轴绘制的二维坐标,原点为中心度平均值和密度平均值的交点[13]。落入四个象限中的类团分别表示不同的含义(图2)。
图2 战略坐标图
3 实例分析
3.1 数据来源
数据来源于万方医学网,通过“中图分类号”字段检索2003-2012年我国作者发表的神经病学相关文献,中图分类号为R741-R748(神经病学)、R739.4(神经系肿瘤),共检出103501条文献记录(检索及下载日期为2013-04-01)。为了研究神经病学领域主题的发展过程,按时间将记录分成2003-2007年、2008-2012年两段,分别有40 258和63 243条文献记录。
3.2 数据处理
提取记录中的时间和关键词字段,对关键词进行人工清洗,合并同义词、近义词,去掉没有实际意义的词。为简化统计过程和减少低频词对后续统计和可视化造成的不必要干扰,本文截取了高频词。利用1973年Donohue提出的高频低频词分界公式截取高频词[14]。两个阶段分别截取到62个、83个高频词。
本文构建了高频词的共词矩阵。在原始共词矩阵中,两个关键词共现频次的大小直接受到关键词词频大小的影响,所以原始共词矩阵所反映的仅仅是一种表象。为了更准确地揭示关键词间的共现关系,需要对原始矩阵进行包容化处理,使神经病学领域的核心主题和非核心主题间的分界更明显。经过试验,Ochiai系数法最适合对本文中的原始共词矩阵进行包容化处理[15]。
3.3 结果和分析
3.3.1 词分析
3.3.1.1 社会网络指标
2003-2007年网络密度为0.0112,2008-2012年网络密度为0.0098。后一阶段的网络密度较前一阶段略小,表明虽然后一阶段的文献量显著增长,代表研究热点的高频词增多,但是其各个研究热点之间的联系略不如前一阶段紧密。
2003-2007年网络平均路径长度为1.392,2008-2012年网络平均路径长度为1.418,表明在神经病学社会网络中,每一个关键词大概只需要通过1-2个关键词就能和网络中其他关键词产生联系。可见神经病学社会网络具有小世界效应,具有迅速的反应能力和较高的效应[8]。相比之下,前一阶段关键词间的沟通略好一点。
2003-2007年点度中心度的平均值为0.684,2008-2012年点度中心度的平均值为0.806,说明后一阶段核心词在整个网络中发挥的作用略大于前一阶段。两个阶段中间中心度的平均值分别为11.968和17.133,表明后一阶段中间词在整个网络中发挥的作用大于前一阶段。两个阶段接近中心度的平均值非常相近,分别为72.822和71.549。
3.3.1.2 社会网络图
利用Ucinet 6和NetDraw绘制两个阶段的社会网络图(图3和图4)。根据节点大小和连线的粗细,结合节点点度中心度值,还可以判断出神经病学领域内的核心热点,如脑梗死、脑卒中、脑出血、康复、高血压、癫痫、脑缺血、磁共振成像、体层摄影术、X线计算机、康复、治疗、再灌注损伤等。
图3 2003-2007年社会网络图
图4 2008-2012年社会网络图
3.3.2 类团分析
利用SPSS 19.0进行聚类,根据聚类树图结果和筛选,两个阶段最终分别确定了11个和12个类团(表1和表2)。
表1 2003-2007年类团
表2 2008-2012年类团
3.3.2.1 类团演变分析
类团存在着消失、新生、演进及分化现象,从中可以判断学科领域内研究主题的发展和变化[16]。本文绘制了前一阶段到后一阶段的类团演变图(图5)。从类团演化角度看,近几年微创手术在神经外科中得到广泛的应用。随着我国人民生活水平的提高,对于神经疾病治疗效果的期望上升为心理层面。虽然对于颈动脉粥样硬化与C反应蛋白、同型半胱氨酸水平相关性的研究尚不成熟,但引起了科研人员的广泛关注,具有潜在的发展趋势。
图5 类团演变图
3.3.2.2 类团地位变化分析
两个阶段的战略坐标图见图6和图7。图中各节点旁的序号分别对应表1和表2中的类团序号。
对比图6和图7,两个阶段位于第一象限的类团相同,分别为“脑梗死的药物治疗”、“高血压脑出血的手术(微创手术)”、“脑卒中的康复,脑卒中后致偏瘫、抑郁”,它们的中心度和密度都很高。这三个类团始终属于既核心又成熟的类团,一直是神经病学领域科研人员研究的重点。
类团“儿童癫痫的脑电图”、“MRI和CT检查”由第二象限转至第三象限,表明这两个主题发展较慢,密度相对变小,相关研究有待于进一步加强。类团“颅内动脉瘤并发蛛网膜下腔出血”由第三象限转至第二象限,密度变大,类团名改为“蛛网膜下腔出血后并发脑血管痉挛,颅内动脉瘤后并发蛛网膜下腔出血”,表明后一阶段科研人员对这一主题的关注和研究逐渐增多,该主题发展较快,逐渐变得成熟,有继续发展的潜质。“脑血管疾病的危险因素和预后”由第四象限转至第三象限,类团名改为“脑血管疾病的护理和并发症”,说明前一阶段中虽然不成熟,但很受关注的主题在后一阶段中受关注程度降低,科研人员的研究重点有所转变。
新生类团“颈动脉粥样硬化与C反应蛋白、同型半胱氨酸水平的相关性”位于第四象限,中心度较大,密度小。虽然该研究主题内部结构松散,尚不成熟,但引起了科研人员的关注,具有潜在的发展趋势。
图6 2003-2007年战略坐标图
图7 2008-2012年战略坐标图
3.3.3 词和类团综合分析
社会网络分析是从词的角度分析学科热点,而战略坐标分析是从类团的角度研究学科热点。将社会网络图和战略坐标图整合,得到两个阶段的复合网络图分布(图8和9)。
首先,根据类团所在象限,从复合网络图中可以很清晰地判断神经病学领域的核心主题和成熟主题。例如,两个阶段中既核心又成熟的类团都是1,2,3号类团,说明他们始终是神经病学的研究核心和热点,得到了科研人员的广泛关注,并已经发展得很成熟。
其次,复合网络图谱还可以直观地展现类团内及类团间的联系。战略坐标图中中心度越大的类团,和其他类团的联系越密切,在复合网络图中该类团和其他类团的连线越多、越粗;战略坐标图中密度越大的类团,其内部成员的联系越紧密,在复合网络图中其内部各个节点之间的连线越多、越粗。例如,第一象限中类团内、类团间的连线更多、更粗,第三象限中类团内和类团间的连线更少、更细。
图8 2003-2007年复合网络图
图9 2008-2012年复合网络图
4 讨论
从词、类团及二者结合的角度分析学科领域热点时具有不同的特点,获得不同的领域热点信息。
从词的角度分析领域热点时,既可以定量地分析学科领域中各关键词间联系的紧密程度、关键词间沟通的难易程度以及核心关键词,也可以通过社会网络图定性和直观地展示学科领域中各关键词间的联系,但关键词是孤立的点,不能代表领域的研究主题。
从类团的角度分析领域热点时,既可以定量地揭示各研究主题在领域中的地位,也可以揭示研究主题的发展及其地位的改变,但无法分析类团内部各关键词间的具体联系。
从词和类团结合的角度,将战略坐标图和社会网络图结合的,得到的复合网络图,既可以展示研究主题的地位,也可以直观地揭示类团间以及类团内各关键词间的联系及研究主题的发展与地位。因此综合运用词和类团分析方法,绘制复合网络图可以直观地展示从词、类团角度分别获得的领域热点信息,弥补单独使用某一方法在分析学科领域热点时的不足,在领域热点监测中具有重要意义。
本文尚存在不足。首先,只检索了万方医学网的相关文献,由于该数据库收录范围的局限性[17],不能全面获得我国神经病学领域的相关文献,分析结果难免有失偏颇;其次,用高频词代表研究热点具有一定的合理性,其缺点在于某些最新研究主题的词频较低,仅依靠高频词无法监测到最新的研究热点。今后将结合监控暴发词的方法来探测学科热点,从而更加准确、客观地揭示学科的新热点。