我国近10年医学信息学研究计量分析*
2019-03-27郭进京李梦园任慧玲
林 鑫 郭进京 李梦园 任慧玲
(中国医学科学院医学信息研究所 北京 100020)
1 引言
医学信息学(Medical Informatics)是在卫生保健和医学方面应用计算机对数据进行分析和传播的信息科学领域[1],是一门发展较快的新兴交叉学科[2]。近年来随着研究范围的不断扩大,语义网、大数据处理以及高性能技术的飞速发展,医学信息学发展迎来更多机遇,研究热点不断涌现,新的有价值的研究成果也层出不穷[3]。目前我国医学信息学的发展越来越走向专业化和国际化,随着计算机技术的发展和新兴技术的出现,不同阶段的研究热点也会发生变化。本文通过对2008-2017年我国医学信息学领域的外文文献进行计量学分析,以期掌握该领域的发展情况和研究热点,为我国医学信息学研究水平的提高提供理论基础。
2 数据来源及方法
2.1 数据来源
本研究以Web of Science(WOS)核心合集作为数据源,检索我国大陆、台湾、澳门和香港地区发表的医学信息学研究文献。检索策略为((SU=Medical Informa-tics)AND CU=(CHINA OR HONG KONG OR MACAU OR PEOPLES R CHINA OR TAIWAN)),时间限定为2008-2017年,文献类型选择“Article”和“Proceedings Paper”进行精炼,检索时间为2018年5月7日,共检索到文献4 726篇。
2.2 研究方法
将全部文献以纯文本的格式导出后直接导入专业数据分析工具TDA,清洗整合后即可进行分析。首先采用定量的方法对近10年我国医学信息学领域发表的外文文献基本特征(年度发文量、合作国家、重要发文机构和来源期刊)进行分析,然后利用SPSS 19.0、Ucinet和共词聚类分析方法归纳我国近10年医学信息学领域国际发文的研究热点。
3 结果与分析
3.1 文献基本特征
3.1.1 年度发文量 科学文献的数量是衡量科学知识量的重要尺度之一,因此某个领域年代论文量的变化能够直观反映出该领域学科发展态势[4]。近10年我国医学信息学领域发表的4 726篇外文文献的年代分布,见图1。可以发现2008-2011年的年度发文量变化幅度较大,之后进入快速发展时期,年文献量增长迅速,在2016年达到历史最高峰。2017年的发文量虽然有所下降,但这并不意味着研究的停滞,一方面可能是由于WOS数据库文献收录尚不完善,另一方面可能是由于医学信息学领域正面临新的突破[5],这也符合学科发展的规律。整体来看10年间我国医学信息学领域外文文献发文总体呈逐年上升趋势,未来也将会受到越来越多学者关注。
图1 年度发文量趋势
3.1.2 合作国家 4 726篇外文文献中与其他国家合作的发文量为1 450篇,占文献总量的30.68%,作者来自59个国家,具有鲜明的国际合作化特点。与国内研究人员合作发文并且发文量在10篇以上的研究人员国籍信息,见表1。可发现近10年与中国合作最多的是来自美国的研究人员,合作发文量为667篇,占与其他国家合作发文总数量的46%,即接近一半的合作文献都有美国的参与;其次是澳大利亚、英国、新加坡和加拿大等国家。
表1 合作国家(合作发文量≥10篇)
3.1.3 重要发文机构 在WOS数据库中对中国研究者的姓名进行区分时,由于存在中文同音不同字但英文简写相同等现象,因此具有很大难度。为降低研究误差不对发文作者进行统计,而是将发文机构作为研究对象,对机构近10年的总发文量进行分析。这些文献中共涉及国内外机构2 191所,其中发文量在60篇以上的23所机构,见表2。可以发现这23所机构发文量共占总发文量的51.03%。在这23所机构中中国大陆的研究机构有12所,发文量占27.42%;台湾地区的研究机构8所,发文量占16.93%;香港地区的研究机构3所,发文量占6.69%。从发文机构的性质来看主要集中在大学。在此研究范围内可以看出2008-2017年间中国大陆的科研成果可以作为我国医学信息学国际发文的重要来源。
表2 重要发文机构统计(发文量≥60篇)
3.1.4 来源期刊 统计近10年我国医学信息学领域外文文献的期刊收录和国际会议收录情况可以发现其分布广泛,共包括外文期刊和国际会议381种,涉及医学信息学、计算机和医学统计等多个领域。收录文献数量在15篇以上的21种外文期刊以及这些期刊的2017年影响因子,见表3。在这21种期刊中有18种属于2017版《期刊引用报告》(JournalCitationReports,JCR)[6]中医学信息学类目下的25种国际高影响力期刊。一般情况下期刊影响因子、论文影响力与论文的被引频次呈正相关,即在高影响因子期刊上的论文其国际影响力相对较高[7]。这21种期刊的2017年影响因子在医学信息学领域大部分相对较高,在一定程度上说明2008-2017年我国医学信息学领域的外文期刊文献普遍具有较高的国际影响力。
表3 发文外文期刊(载文量≥15篇)
注:“-”表示在JCR中没有查到2017年影响因子
3.2 研究热点
3.2.1 关键词词频统计 利用TDA软件对4 726篇文献进行统计,共得到12 530个关键词。使用TDA软件的List Cleanup功能对这12 530个关键词进行自动清理,合并同根词、同义词、近义词、单复数形式,结合人工进行筛选和处理。同时结合医学信息学主题删除没有实质意义的词以及一些区域性词汇。经过处理共得到关键词11 916个。关键词最高频次为105,选择词频不少于16次的55个关键词作为聚类分析的基础,见表4。
表4 发文关键词统计(词频≥16次)
续表4
3.2.2 关键词聚类 使用TDA软件生成关键词55×55共现矩阵,使用Ochiia系数[8]将共现矩阵转换成相似矩阵,但由于相似矩阵中的0值过多,统计时容易造成误差,因此用1和全部相似矩阵数据相减得到关键词的相异矩阵,见表5。将关键词的相异矩阵导入SPSS 19.0软件中,利用系统聚类、离差平方和法对关键词进行聚类分析,得到聚类树状图,见图2。在高频关键词共现矩阵的基础上运用Ucinet软件绘制高频关键词共现网络,见图3。图3中的节点表示关键词,节点之间的连线表示节点所表示的关键词在同一篇文章中共现。节点越大,关键词出现的频次越大;连线越粗,关键词共现次数越多。根据树状图以及关键词共现网络,结合相关文献,将55个高频主题词分成6类,分析各个类内主题词之间的语义关系,可得到2008-2017年我国医学信息学领域外文文献的6类研究热点。
表5 关键词相异矩阵(部分)
图2 发文研究热点聚类树
图3 发文关键词共现网络
3.2.3 6类研究热点 第1类:电子健康档案及远程医疗的相关隐私保护和安全管理(包括关键词6、22、21、16、9、43、20、2、48、33、35)。涉及的技术和方法主要有用户认证、智能卡技术和无限射频识别技术。如2012年Hsu CL等[9]对基于智能卡的电子处方安全与隐私保护系统进行研究。Kuo KM等[10]于2017年利用结构方程模型进行分析,提出能够潜在阻止护士违反电子健康档案隐私政策的策略。第2类:文本挖掘在生物医学领域中的应用(包括关键词14、31、13、30、29、47、11、55)。文本分类作为文本挖掘的基本任务之一,Yao L等[11]于2017年对中医临床文本分类的不同类型的特征以及分类算法效果进行研究,并提出一种将深度学习文本表示与中医领域知识相结合的文本分类新方法,通过对中医临床记录进行文本分类的实证研究发现该方法比传统方法性能更优。第3类:机器学习方法在辅助临床疾病的诊断、治疗和临床决策中的应用(包括关键词8、52、26、1、4、3、17、38)。涉及的机器学习方法包括遗传算法、支持向量机、粒子群算法等。如Peng L等[12]于2016年将最先进的生命科学研究与人工智能集成,并提出了一种半监督学习算法来对乳腺癌进行自动诊断。2017年Gu D等[13]提出将遗传算法应用于基于案例的推理(Case Based Reasoning,CBR)分类法,该方法在乳腺癌诊断中具有很大的应用潜力。第4类:计算机技术在临床管理系统、医院信息系统和护理系统研发与管理中的应用(包括关键词24、45、15、27、5、50、12、10、32)。如2012年Xie M等[14]介绍多维度心音数据库的开发;Qin Y等[15]于2017年介绍重症监护信息系统在国内的开发和应用情况。第5类:生物信息学方法在蛋白质相互作用预测中的应用(包括关键词42、49、23、7、19、41、46、28、44、25、39、54)。如2016年Teng Z等[16]开发一种利用基因本体术语预测蛋白质功能的新方法,实验结果证实该方法有效。第6类:医学图形图像的识别与处理研究(包括关键词40、53、37、18、34、36、51)。如Chen YW等[17]考虑到以往的医学图像匹配方法仅具有理论意义且时间复杂度太高,于2011年提出一种用于匹配大量MR图像的并行处理模型,实验表明该模型不仅效果优于现有方法,同时还具有更快的运行时间。Liu XB等[18]于2015年提出一种基于FIsher准则和遗传优化的新特征选择方法,以解决肺部疾病CT征象的识别问题,实验证明此方法具有较高识别效率。
4 结语
医学信息学作为一门新兴交叉学科,目前正处于快速发展阶段。回顾医学信息学的内涵和发展历程有助于理清其发展面临的问题和趋势。本文采用文献计量学方法对2008-2017年我国医学信息学领域发表的外文文献从年度发文量、合作国家、重要发文期刊、来源期刊以及研究热点进行分析,以期为我国医学信息学领域研究提供参考。