APP下载

国外医学信息学领域研究前沿

2015-03-22,,

中华医学图书情报杂志 2015年11期
关键词:共词信息学主题词

,,

目前,探讨国外医学信息学领域研究前沿的文献尚少,缺乏对国外该领域先进理念和技术方法的了解,阻碍了我国医学信息学领域的发展和进步。因此,全面了解国外医学信息学领域的研究前沿,对促进我国相关领域的发展具有重要意义。

本文运用共词聚类分析和知识图谱,使用定性与定量方法,分析了近5年国外医学信息学领域的研究前沿,以期为我国医学信息学领域的发展提供参考和借鉴。

1 研究方法

1.1 共词聚类分析

共词分析是由法国国家科学研究中心的Callon M等人提出的[1]。共词分析是以文献中共现的词语作为研究对象,研究词间关联度,建立起对知识网络结构的描述,从而揭示学科领域的结构和研究前沿[2]。在共词分析的基础上,借助聚类算法,对共词网络中各词语间的联系强度进行计算,根据聚类结果,将联系相对紧密的词语聚集起来,形成相对独立的团体-类团,代表学科领域中的一个分支[3]。共词聚类分析是在共词分析的基础上,事先不指定聚类的标准,客观地划分学科领域的研究内容,因而作为本研究的研究方法[2]。

1.2 知识图谱

科学知识图谱是近年来科学计量学、信息计量学等领域比较新兴的研究方法,不仅能揭示知识来源及其发展规律,且以图形表达相关领域知识结构关系与演进规律[4]。知识图谱应用数学、图形学、信息可视化技术等理论和方法,与传统科学计量学的共词分析、引文分析等方法相结合,用可视化图谱直观地、形象地展示学科的结构[5]。

绘制知识图谱的工具较多。其中VOSviewer是由荷兰莱顿大学Van Eck N J和Waltman L等学者开发的可视化软件,被广泛应用于各类共现分析,能够绘制作者、引文、词语等共现图谱,主要以距离、密度等解构节点之间的关系[6]。本文利用VOSviewer生成标签视图(Label View)和热点密度图(Density View),利用SPSS 19.0生成聚类树图。结合3个知识图谱,综合分析国外医学信息学领域的研究前沿。

2 数据来源和处理

2.1 数据来源

核心期刊具有权威性、前瞻性等特点,刊载文献质量较高,是研究学科结构和前沿的可靠参考和依据。本文以2014年JCR中医学信息学类别IF值最高的5种期刊(表1)作为数据来源。利用PubMed数据库,检索并导出该5种期刊2010-2014年刊载的文献,共计3 244篇。

表1 JCR医学信息学类别中IF值最高的5种期刊载文量

2.2 数据处理

2.2.1 截取高频词

为了简化统计过程,同时减少低频词为统计过程带来的不必要干扰,选择高频词作为研究对象。目前高频词界值的确定尚未有统一的见解,主要有以下几种方法:经验法、二八定律、齐普夫第二定律、g指数、高频低频词界分公式等。经过试验,选择由DonohueJ C提出的高频低频词分界公式截取高频词[7]。计算公式为如下:

其中I1是词频为1的关键词的个数;T是高频词中的最低频次,即高低频分界。

运用BICOMB软件统计主要主题词的出现频次,并根据高频低频词界分公式截取高频词,共截取了54个高频主题词(见表2)。

表2 医学信息学领域54个高频主题词

续表2

2.2.2 构建共现矩阵

2.2.2.1 构建原始共现矩阵

高频主题词一定程度上代表了近5年国外该领域学者关注的重点,但它们是孤立的点,不能很好地反映学科领域的结构。因此,本文利用BICOMB软件构建了高频主题词的54*54共现矩阵。

2.2.2.2 构建相似共现矩阵

原始共现矩阵中两个主题词共现频次的大小受各自主题词词频的影响,因而原始共现矩阵反映的是一种表象。为准确揭示主题词间的共现关系,需要对原始矩阵进行包容化处理,使核心主题和非核心主题间的分界更加明显[8]。常见的处理方法有包容指数法、临近指数法、等价系数法、Ochiia系数法。经试验,Ochiia系数法最适合,Ochiia系数计算公式如下[9]:

其中Cij代表词对Mi和Mj在文献集合中共同出现的频次,Ci代表词Mi在文献集合中的出现频次,Cj代表词Mj在文献集合中的出现频次。

3 结果和分析

本文利用共现网络分析和热点密度分析识别国外医学信息学领域学者关注的热点主题词,利用共词聚类分析划分该领域的前沿研究方向,从词和类团两个角度探测国外医学信息学领域的研究前沿。

3.1 共现网络分析

图1为标签视图(Label View),该图谱展现了国外医学信息学领域的共现网络。其中节点及标签代表主题词,节点和标签的大小取决于该节点的权重。权重越大,节点和标签越大,节点越重要。VOSviewer为避免标签重叠,只显示子标签。节点间的连线代表节点间具有共现关系,当鼠标点在线条上时,显示该线条所连接的节点及其共现频次。

图1标签视图

由图1可知,各节点权重不同,如Electronic Health Records,Decision Support Systems, Clinical,Natural Language Processing,Data Mining,Medical Record Linkage以及Information Storage and Retrieval等节点和标签都较大,具有较高的权重,在国外医学信息学领域占重要地位。

3.2 热点密度分析

图2为国外医学信息学领域的热点密度图(Density View)。图中颜色代表密度,图谱默认呈现深线色。节点在领域中权重越大,颜色越深。相反,在领域中的权重越小,颜色越浅,因此通过颜色能够直观地辨别哪个区域比较重要[10]。

图2热点密度图

由图2可知,位于深色区域的主题词是国外医学信息学领域的重要研究主题。Electronic Health Records,Natural Language Processing,Data Mining,Medical Informatics,Medication Errors及Information Storage and Retrieval等词位于颜色最深的区域,热度最大,是国外医学信息学领域最热的研究前沿,其他颜色接近深色区域的主题词也是该领域的重点研究主题。国外医学信息学领域的热点主题词见表3。

表3 国外医学信息学领域热点主题词

3.3 共词聚类分析

通过共现网络图和热点密度图可以识别哪些主题词是国外医学信息学领域学者关注的重点和热点,但不能反映该领域的重要研究方向或领域分支。为此,本文利用SPSS 19.0对相似矩阵进行聚类分析,采用系统聚类方法,度量标准的区间选择平方Euclidean距离,绘制出聚类树图,根据聚类树图划分出12个类团(表4)。

表4 国外医学信息学领域类团列表

由表4的聚类结果可知,国外医学信息学领域主要有12个前沿的研究方向:医疗决策支持系统和计算机辅助的药物治疗,决策支持,计算机安全和保密,电子健康档案的自然语言处理和数据挖掘,医疗保健的态度、质量和模式,病案系统及其联动,信息系统及其整合,医学信息学在计算生物学中的应用,语义学和受控词汇,远程医疗,人口监测的统计模型及卫生保健的成果评估。

4 结论

通过分析国外医学信息学领域的研究前沿,得出如下结论:国外医学信息学领域的学者将数据挖掘、自然语言处理、决策支持、信息存储与检索、语义学、数据库管理系统等计算机技术应用到卫生医疗领域,实现电子健康档案、临床决策支持、计算机辅助药物治疗以及远程医疗等,改善了卫生医疗的效率和质量。

对于计算机安全和保密的研究,以及对现有技术或系统的问题的研究也是前沿的主题,如电子处方导致用药错误的研究等。关于临床医生的诊疗模式、医疗服务的态度和质量、以患者为中心的医疗等研究也是国外医学信息学领域的研究前沿。

猜你喜欢

共词信息学主题词
鸡NRF1基因启动子区生物信息学分析
关键词的提取与确定
《中国医学计算机成像杂志》2020 年第26 卷主题词索引
PBL教学模式在结构生物信息学教学中的应用
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造
《中国骨与关节杂志》2016 年第五卷英文主题词索引
中欧医学信息学教学对比研究
基于共词知识图谱技术的国内VLC可视化研究
基于GEPHI的共词可视化分析:以文献计量学作者合作关系为例