

医学信息学杂志 2015年5期

钟秀梅 崔 雷

(中国医科大学医学信息学系 沈阳 110013)


钟秀梅 崔 雷

(中国医科大学医学信息学系 沈阳 110013)

为了解近年国外临床数据挖掘领域的研究热点,以Web of Science收录的文献为研究对象,采用文献计量学方法对“最新高被引文献-施引文献”引文网络进行聚类和分析,总结出国外临床数据挖掘的研究热点,以期对我国相关领域研究有所借鉴。


1 引言


2 资料与方法

2.1 样本数据获取

在Web of Science数据库中进行检索,“临床数据挖掘”相关检索词,见表1。检索策略:主题字段=“临床数据”相关检索词 AND “数据挖掘”相关检索词,限定文献类型为“Article”,限定时间为2000-2014年,检索数据库SCI-Expanded、CCR-Expanded、IC。数据截止至2014年7月15日。共检索到3 405条记录,下载其全记录与参考引文格式数据作为样本集A。

按系统抽样法,将3 405条记录顺序分为7份(前6份每份500条,后1份405条),各抽取50条记录作为样本集Bi,i∈{1,2,3,4,5,6,7}。对各样本集Bi进行人工评判,手工检验查准率(查准率即检出的相关文献占总检出数的百分比),总结误匹配的原因。除数据库检索系统原因外,根据其他误匹配原因,手工筛除样本集A的文献记录。最后,剩余3 356条记录,形成研究样本集C。

2.2 引文网络构建


2.3 引文网络聚类


2.4 引文网络分析


3 结果与分析

3.1 数据有效性检验


3.2 矩阵精简条件合理性探查


3.3 引文网络聚类


表2 49×312矩阵c聚类情况


图1 49×312矩阵c聚类结果 注:a图中,山丘的高度越高代表类内相似性越高,体积越大代表类群包含对象越多。

3.4 引文网络分析

3.4.1 概述 引文网络聚类分析结果显示近年该领域研究分为6个方向,见表3。

表3 近年国外临床数据挖掘领域6大研究热点

3.4.2 增强临床数据挖掘样本的可获取性和可用性 美国是卫生信息技术(Health Information Technology,HIT)发展的前沿阵地,代表着电子病历(Electronic Medical Records, EMR)推广与使用的先进水平。DesRoches等[4]和Jha等[5]分别在医师个体水平和医院水平调查了美国EMR系统的应用现状,其结果表明功能不齐全、互操作性不好及技术支持人员不够是阻碍其应用的基本原因,直接影响用户接受度和满意度,也影响EMR使用的利弊比较和书写质量,进而造成临床数据挖掘样本获取不易、质量不高。2010年美国提出《卫生信息技术促进经济和临床健康法案》(Health Informatiom Technology for Economic and Clinical Health,HITECH)并施行,以期促进HIT的全面推广以及EMR的格式规范化[6-7]。随着HITECH的实施与推进,美国公众逐渐认可EMR系统的使用,认为其使用益处大于隐私风险,这更加激励研究者对HIT的完善,进而提高临床数据挖掘样本的可获取性和可用性[8-12]。

3.4.3 自然语言处理技术作为临床数据挖掘工具的方法学研究 临床数据包含大量自由文本,如临床医嘱、出院小结等,因此自然语言处理(Natural Language Processing, NLP)技术成为临床数据挖掘的必要工具。对临床文本这一特定领域信息载体进行分析,需将NLP一般方法进行领域具象化,即要具体适应特定领域,如MetaMap、生物学信息与临床信息整合(i2b2)工作台、cTAKES、ConText算法及特定用于结肠镜检查信息提取的算法等都是用于临床文本处理的NLP工具[13-20]。这些NLP工具大多采用基于规则的机器学习型算法[16-20]。此外这些工具在命名体识别上表现较好,但在否定识别、词义消歧以及时序判定上仍有待提高[13,16,18,21]。

3.4.4 自然语言处理技术作为临床数据挖掘工具的可行性研究 基于临床自由文本的NLP工具日渐成熟,将NLP用于临床数据挖掘的应用研究也日益增多。从i2b2工作台的应用中可窥其一二:2008-2013年,有多位学者致力于从临床文本中自动识别和分析患者吸烟状况[22-23]、肥胖症及其并发症[24]、手术后并发症[25]等信息,也有学者致力于研究受保护健康信息的自动识别和自动去标识化(即去除患者身份信息,以防患者信息泄露)[26-28]。由此看出NLP技术作为临床数据挖掘工具的可行性研究主要处在识别阶段,而在关系提取上的研究相对较少。此外,Chapman等[29]总结NLP处理临床文本的障碍,Fan等[30]提出临床文本句法解析不适当时的指导思想。

3.4.5 面向遗传学关联发现和表型关联发现的临床数据挖掘研究 遗传学数据不属于临床数据,将患者的临床数据和遗传学数据结合起来进行挖掘是当前转化医学研究的一个突破口。2007年美国启动电子病历与基因组学网络项目[31],旨在“结合生物资料库与EMR系统进行大规模、高通量的遗传学研究”。自此一大批研究[32-39]致力于结合EMR数据和大型生物资料库进行遗传学关联的分析与发现。早前重在找寻或建立合适的可与EMR相链接的生物资料库[31-32]。近年主要转向以下3方面研究:(1)结合EMR与生物资料库进行全基因组关联研究(GWAS)[31,33-37,39-40]。(2)结合EMR与生物资料库,进行全表型组关联研究(PheWAS),也称“反GWAS”[41-43]。(3)结合EMR与药学及药物基因组学,构建用药适应症资源库[44-45]。这些研究在时间上是相互交叉的,在理念上也存在相互继承和借鉴。

3.4.6 面向用药信息提取的临床数据挖掘研究 药物治疗是医疗活动的重要组成部分,在疾病诊疗过程中具有重要作用。早前,多位学者分别运用BioMedLEE和MedLEE系统、商业化NLP工具、MedEx系统、SecTag算法等工具从临床文本中自动提取用药信息,以期探索疾病的用药知识,进而构建疾病用药知识库[46-49]。近年i2b2项目组织了20个团队开展临床文本的用药信息提取工具方面的研究,取得一定成果。研发出的这些工具在识别和提取药品名称、用药剂量、用药途径和用药频率上均具有较好表现,在识别和提取用药持续时间和用药原因上却表现不佳[50-52]。但EMR在用药信息提取上仍具有巨大潜力,如Wilke等[44]指出EMR在药物基因组学中扮演着新的重要角色。

3.4.7 面向药品安全性信号检测的临床数据挖掘研究 2004年后i2b2项目[53]、欧盟药品不良反应监测(EU-ADR)项目[54]、观察医疗结果合作组织项目[55]等相继启动。随后欧美各国组织大量研究者参与,其中应用电子健康档案(Electronic Health Records,EHR)或EMR挖掘药品安全性信号便是其研究方向之一。已有研究证明,将其作为除药品不良事件自发报告外的另一补充数据源,用于药物警戒是可行的[56-57]。近年许多研究人员采用不同的信息平台、自然语言处理工具、药物领域本体和知识库、挖掘模式,将其用于“药品-不良事件”间关联和“药物间相互作用-不良事件”间关联的挖掘[58-59];也有研究人员将自发报告与EHR联合使用进行药品安全信号挖掘[60]。但EHR或EMR信息的错综复杂性,使这类研究不可避免受混杂因素影响,最近(2014年)的研究开始寻找应对办法,以控制混杂因素对利用EHR检测药品不良反应的影响[61]。

4 结语



Bibliometrics Analysis on the Hot Spots of Foreign Clinical Data Mining Research



In order to find out the hot spots of foreign clinical data mining research in recent years, the paper carries out bibliometric analysis on the literatures included in Web of Science, “the latest high cited literatures-citing literature” citation network is clustered and analyzed, the research hot spots of foreign clinical data mining are summarized, so as to provide references for related research in China.

Clinical data mining; Research hot spots; Bibliometrics




A 〔DOI〕10.3969/j.issn.1673-6036.2015.05.012

