APP下载

电子病历辅助临床决策

2015-03-13赵玉虹

医学信息学杂志 2015年6期
关键词:分词病历决策

张 晔 张 晗 赵玉虹

(中国医科大学医学信息学院 沈阳 110122) (中国医科大学附属盛京医院 沈阳 110004)



电子病历辅助临床决策

张 晔 张 晗 赵玉虹

(中国医科大学医学信息学院 沈阳 110122) (中国医科大学附属盛京医院 沈阳 110004)

简要介绍电子病历的概念及其发展历程,阐述电子病历信息提取及辅助临床决策的方法,包括机器学习、统计学习、规则归纳法等,描述电子病历辅助临床决策在诊断标准识别和临床诊疗活动中的应用,体现电子病历辅助临床决策之循证意义。

电子病历;信息提取;临床决策

1 引言

病历是病人在医院诊断冶疗全过程的原始记录,是医院最基本的医疗信息载体。随着信息技术的不断进步和医疗信息化的发展,传统的以纸质为载体的病历逐渐转变为依托信息技术的电子病历[1]。电子病历(Electronic Medical Records,EMR)也称计算机化的病案系统或基于计算机的病人记录(Computer-based Patient Records,CPR),是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化病人的医疗记录,主要涵盖如下元素:以满足临床诊疗需求为目的;依附于计算机软件平台;具备信息的完整性、及时性和可交换性等特征;贯穿于病人的医疗过程中;辅助医生进行临床决策[2]。纵观国内外电子病历的发展历程,大体可分为4个阶段:萌芽阶段——纸病历的图像扫描,文本编辑器;初级阶段——结构化病历;成熟阶段——带有临床决策支持的电子病历;高级阶段——病历高度共享[3]。目前国内的电子病历发展,基本处于初级阶段向成熟阶段的过渡期,即结构化病历向可供临床决策支持的电子病历发展阶段。电子病历的核心价值应当体现在成熟阶段的智能化、知识化的临床决策支持功能上,不仅表现在电子化、结构化带来的价值(病历书写更为规范和方便高效,病历信息资源在有限范围内能够共享;提高科研和教学效率、质量,病历质量的自动化监控和管理等),而且表现在智能化、知识化带来的价值:面向医生工作流中的信息需求;提供在线循证医学知识库;无缝整合医学诊疗常规;诊疗活动现场的实时决策支持;减少决策中的失误,减少医疗差错等[3]。由此可以看出,只有整合了临床决策支持的电子病历系统,才能有效地防止医疗差错,从而提高医疗质量。应用信息提取技术,提取相关特征信息是电子病历体现其决策价值的前提。本文介绍电子病历信息提取及常用的辅助临床决策方法,通过实例描述电子病历辅助临床决策在诊断标准识别和临床诊疗活动中的应用,阐明电子病历临床决策价值及其循证意义。

2 信息提取

2.1 概述

电子病历可通过自然语言处理技术(Natural Language Processing,NLP)和数据挖掘技术(Data Mining)来获取、完善临床决策知识。信息提取(Information Extraction,IE)作为自然语言处理技术的分支,其目的是将非结构化数据经处理得到结构化数据。相关概念包括命名实体、模板元素、模板关系、场景模板、实体探测与识别、关系探测与识别、事件探测与识别等。常见信息提取系统有MedEx、MEDLEE、MENELAS、MedSynDi KaTe等。信息提取一般借助上下文模型规则、命名实体及其关系识别、统计学方法、标点符号或关键词等触发词完成。

2.2 文本分词

2.2.1 文本分词的含义 自然语言处理作为人工智能的一个子领域,目前已解决垃圾邮件检测、演讲角色标记、命名实体识别等问题,而情感分析、指代消解、词义消歧、机器翻译、信息提取等问题正在解决之中。作为自然语言处理研究的子分支,分词技术是信息提取的前提。文本分词是指将一文本序列按照一定的规则切分成一系列有实际意义的单独的词。在英语中,单词之间以空格作为自然分界符;而汉语是以字为基本的书写单位,词语之间并没有明显的区分标志,并且汉语中多义词、同义词较多,这为汉语文本分词增添了难题。汉语文本分词关键在于词语共指消解、歧义消除、否定词和未登陆词识别。

2.2.2 典型文本分词系统 ICTCLAS2015汉语分词系统[4],又名自然语言处理与信息检索共享平台(Natural Language Processing and Information Retrieval,NLPIR),由中国科学院自然语言处理研究所研发,其主要功能包括中文分词、英文分词、词性标注、命名实体识别、新词识别、关键词提取、支持用户专业词典与微博分析等,是目前应用较多的汉语文本分词系统。NLPIR系统支持多种编码、操作系统、开发语言与平台,可根据其提供的开放接口,实现基本的汉语文本分词、词性标注和关键词提取。通过系统提供的用户词典功能,用户可根据自身需求扩展词典,提高分词准确率;也可设定关键词,强行提取某些特征信息;同时还可通过二次开放接口进一步扩展其针对各行业特点的分词功能。涉及电子病历分词的文献中,多采用ICTCLAS汉语分词系统。如李俊杰[5]利用现有的自动分词研究成果,采用ICTCLAS汉语分词系统作为基础工具对消化科内窥镜检查报告进行初步分词,然后对初步分词结果调整,利用专业词典识别MST标准词汇(欧洲消化科内窥镜检查报告标准术语集),以及能够转化成标准MST词汇的非标准MST词汇;同时,对分词结果进行文本解析,从而输出结构化内容。陈莺莺[6]在现有分词系统NLPIR的基础上,提出了一套相对完整的信息提取方法,实现了既往史中病症相关信息的提取。

2.3 常用工具

2.3.1 条件随机场(Conditional Random Field,CRF) Lafferty[7]于2001年在最大模型和马尔可夫模型的基础上提出的一种类别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。CRF用于中文分词和词性标注等词法分析中,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题,而且所有特征可以进行全局归一化,能够求得全局的最优解。周小甲[8]为实现病历文本中时间信息自动提取,建立医疗事件与时间信息的关联,提出了一种基于CRF的时间关系自动提取算法。陈莺莺[6]在电子病历命名实体识别中,选用基于词典与规则和基于词典与机器学习两种方法,后者采用CRF模型,基于特征集选取和语料标注进行训练学习,找寻最佳模板。Doan等[9]提出采用基于规则、支持向量机和条件随机场3个独立的分类器系统进行命名实体识别,结果条件随机场识别性能最高,同时集成分类器识别性能比单一分类器要好。

2.3.2 GATE 英国谢菲尔德大学研究开发的Java开源项目,为用户提供了图形化的开发环境,被许多自然语言处理项目尤其是信息提取的项目采用,常利用其进行相关主题的中文信息提取和统计分析。如李毅等[10]在EMR文档集的构建和预处理基础上,建立了命名实体规则、分类词表和领域本体,根据用户需要,利用GATE对相关主题的中文EMR进行了信息提取和统计分析,从而实现了对EMR文档集自动语义标注及人工语义标注,得到了患者年龄和性别的分布情况和脑梗死治疗用药的一般性规律。

2.4 过程

信息提取一般包括文本划分与标注、句法分析、提取、指代合并、模板生成等过程。陈莺莺[5]在对既往史中病症相关信息进行提取时,首先基于词典与规则和基于词典与机器学习方法进行命名实体识别,而后基于词类的语义标注、浅层句法分析、常见句型模式提取规则,经模式匹配实现了实体属性、实体间关系的提取,从而得到了结构化数据,完成了模板提取和填充。信息提取结束后一般需对其结果进行性能评价,通常评价指标包括精确率、召回率和F值,即从准度和全度两方面综合考量结果的可靠性。

2.5 提取位置

电子病历应用于临床信息研究不是全病历研究,具体信息提取位置,见图1。

图1 电子病历信息提取位置

3 常用决策方法

3.1 机器学习

3.1.1 支持向量机(Support Vector Machine,SVM) 由Vapnik及其合作者共同提出的一种模式识别技术,是寻找稳健分类模型的一种代表性算法。该算法的一个重要特征就是嵌入核函数,在解决非线性问题时,可将低维空间映射到高维空间,在高维空间构造线性边界,再还原到低维空间,从而解决非线性边界问题[11]。支持向量机主要应用于文本分类、图像识别、手写数字识别和生物信息学(蛋白质同源检测、基因表达等)中[12]。常用支持向量机软件有台湾大学林智仁教授等开发设计的LIBSVM工具箱以及R package。

3.1.2 人工神经网络(Artificial Neural Network,ANN) 一种基于脑与神经系统的仿真模型,是模拟人的神经结构思维并行计算方式形成的一种信息描述和信息处理的数学模型[11]。人工神经网络具有自学习和自适应能力,可以通过预先提供的成对的输入-输出数据,分析掌握二者之间的潜在规律,而后根据这些规律,用新的输入数据来推算输出结果,从而用于推估、预测、决策或诊断。

3.2 统计学习

即处理大数据的常用方法之一。大数据具有海量化、多样化、价值化、快速化和动态化特点,与传统统计分析相比,大数据统计分析必然依托于计算机技术,且侧重研究数据的统计规律,也就是对数据本质特征的提取和模式发现。目前临床决策中应用较多的统计学习方法为回归分析,它是研究一个或多个变量的变动对另一个变量的变动的影响程度的方法,根据已知的资料或数据,通过求得变量之间的关系式,用解释变量的已知值推测因变量的值或范围,包括线性回归、非线性回归、逻辑回归、Cox回归等。处理电子病历数据过程中,对于连续型因变量,通常采用线性回归方法;对于离散型(如二值型)因变量,通常采用Logistic回归分析。其具有速度快、涉及范围广等特点,可用于早期疾病预警模型提出、分析健康与社会关联或卫生政策评估等。Cox回归分析常用于疾病转归等方面预测。统计学习中另一常用方法为受试者工作特征曲线,即ROC曲线,常同机器学习方法一起使用,可视化变量决策性能。

3.3 规则归纳法

除以上常用的机器学习、统计学习方法外,另一常用的临床决策方法为规则归纳法(Rule Induction),即由专家或研究者制定规则,待分析数据以规则形式给出,基于规则对数据集进行分类或描述数据间的潜在关联,发现知识。规则常用IF 函数描述。

4 临床应用

4.1 临床诊断标准自动识别

诊断标准是由政府组织或卫生行业相关权威学术机构制定、对临床诊疗活动进行规范化的标准集,用于指导卫生相关从业人员工作。不同地区针对不同人群制定的疾病诊断标准基本一致,但随着科学技术的发展,人们对于疾病的进一步认知,诊断标准也会随之更新。从临床实践中自动识别某疾病诊断标准,不仅有助于金标准的选择,而且还可以辅助临床决策。Byrd等[13]以Framingham心力衰竭标准为参考注释集,经自然语言处理工具处理EMR数据后进行文本解析,而后反复注释精炼标准参考集得出心力衰竭诊断的金标准。

4.2 药物给药剂量和不良反应风险预警

4.2.1 需预警的情况 药物治疗是医疗事件中最常见的治疗方法,但药品种类不断增多,使得药物不良反应事件以及因不合理用药造成的损害日趋严重。医疗过程中保障患者的用药安全和有效性极其重要,故基于电子病历中记录的患者用药信息设计开发的合理用药及药物不良反应风险预警系统越来越受到重视。彭德荣等[14]指出药物不良反应信息预警监测系统主要对6种情况进行预警:(1)可能的药物拮抗。(2)药物禁忌。(3)不合理的药物剂量和用法。(4)药物过敏。(5)药物适应证。(6)重复用药。通过该预警系统,可以对不良用药及时提醒,维护患者用药安全。

4.2.2 典型研究案例 Kirkendall等[15]基于Web应用程序设计了一个电子触发器,基于灵敏度、特异度、阳性和阴性预测值创建自动化报告,从而建立了肾毒性药物相关性急性肾损伤发生前的风险预判分级系统。Kirkendall等[16]还收集某儿童医院EMR中用药信息,基于训练集构建了给药次序和预警剂量值数据集,将此数据集嵌入到电子病历系统测试版中,测试给药剂量过大或极大前提下给药次序和预警剂量值是如何得到的,从而建立新型过度用药预警分析系统,提高预警性能。

4.3 临床诊疗决策

4.3.1 急性胰腺炎(Acute Pancreatitis,AP) 其严重程度的准确分级与治疗方法的选择,对于临床实践和研究十分重要。预测急性胰腺炎严重程度可帮助识别并发症发病和死亡风险增高的患者,从而有助于将这些患者适当地早期分诊至重症监护病房,为其选择特定的干预措施。TAPER(The AP Early Response)-CDS-Tool[17]是由美国密歇根大学医学院基于《急性胰腺炎临床指南》设计开发的,该临床决策工具旨在优化医生诊疗行为,缩短患者住院天数。TAPER包括两部分:一是早期自动寻呼系统,用于提示诊断。二是直观的基于Web的床边监护系统——PancMap,该系统可用于建立急性胰腺炎诊断、严重程度危险因素分析及治疗方案选择(转诊ICU、液体复苏等)。

4.3.2 阿尔茨海默病(Alzheimer′s Disease,AD) 一种老年慢性进展性中枢神经系统退行性疾病,以认知障碍为主要临床表现。目前,该病已成为严重危害人类健康的几大疾病之一,严重影响老年人的身心健康与生命质量。轻度认知障碍(Mild Cognitive Impairment, MCI)是介于正常衰老和阿尔茨海默病之间的一种认知损伤状态,患者存在轻度记忆或认知功能障碍,但日常生活能力未受到明显影响。正确诊断和识别轻度认知障碍,对早期预防阿尔茨海默病的发生有着重要意义。Ye等[18]基于阿尔茨海默病神经影像协会中轻度认知障碍患者基线数据,应用稀疏性学习和稳定选择模型方法预测轻度认知障碍转至阿尔茨海默病的进展情况。

4.3.3 心肺骤停或死亡事件 心肺骤停在临床上主要表现为意识突然丧失、心音消失、呼吸停止、大动脉搏动消失等,一定时间即会威胁生命。心肺骤停患者数小时前一般存在生理指标恶化现象,故早期预警对于抢救生命有着重要意义。Alvarez等[19]基于电子病历数据对非ICU患者心肺骤停或死亡事件发生进行预测,通过统计学方法建立预测指标模型。该模型的最终价值在于其是否可以实时使用、是否可以改变高危患者的临床管理以及改善预后、减少医疗人员监管负担,其性能还需进一步实践验证。

4.3.4 传染病 症状监测是指持续、系统地采集患者临床确诊前出现的信息,通过分析这些信息的波动提示疾病异常的发生。美国、欧洲、日本等地已经建立了较为成熟的症状监测系统,在应对公共危机、新发传染病预警和重点传染病爆发探测等方面发挥了重大作用。

5 总结与展望

5.1 信息提取

5.1.1 存在的问题 信息提取作为快速获取重要信息的自动化工具被应用于多个领域。在医学领域,随着电子病历和临床决策支持系统的不断发展,如何从电子病历中高准确率地自动提取信息并服务于临床决策,是当前医疗卫生信息化亟需解决的问题之一。目前我国对电子病历信息提取研究较少。究其原因主要是中文医学信息的提取更加困难:从语言类型上看,中文医学信息有自己的语言特色,不能完全照搬国外的信息提取方法,而要结合汉语的特殊性进行信息提取;从现有研究案例上看,中文医学信息提取既缺乏丰富的中文医学语言知识库资源,又缺乏统计学方法所必备的语料库资源;具体到电子病历信息,电子病历种类繁多和内容的复杂性更是增加了信息提取的难度。

5.1.2 发展方向 结构化电子病历是实现电子病历质量控制、科研分析等的前提[20],同时也可以建立数据仓库支持信息提取[21],因此未来一是需要建立大规模病历语料库,为应用数据挖掘方法提供必备的语料基础,同时尚需进一步丰富和优化医学术语库、规则库,并且可针对不同科室病历建立相应语料子库,注重临床语言的语法特点,为精确分析语法提供支撑;二是可发展基于本体的信息提取技术,如参照现有的SNOMED等,建立大型中文医学本体库,根据概念描述和概念间关系进行信息提取;三是需要提出一种可实现完整病历信息提取的方法,不单单提取病症名、时间词或药物名,以期用于结构化病历、构建临床路径和临床数据仓库等,为电子病历辅助临床决策提供基础支持。

5.2 辅助决策

5.2.1 存在的问题 临床决策具有不确定性,需要进行风险值判断,决策时需要将疾病治疗和手术等历史数据同对风险值的判断和其他信息结合起来分析。电子病历具有异构性,需要处理其数据映射关系,使其具有通用性,即决策之前,需要对电子病历文本型或数值型数据进行组织、转换、整合加之语义的连接,构成模型库或知识库,将数据标准化、结构化、数据库化。同时,还需考虑如何对缺失数据进行预处理[22]。临床路径、Up-to-data临床顾问循证数据库、临床诊断系统、药物预警系统等逐渐涌现,而临床决策的实时性仍是未来发展的挑战。大多数电子病历中的临床信息存储于自由文本中,使得其较难应用于临床决策支持系统或自动监护系统中。

5.2.2 发展方向 电子病历未来功能主要体现在临床路径、临床指南、数据挖掘3方面,可包括临床决策支持、诊疗过程追踪和指南差异性跟踪。突出其临床决策应用价值,关系到患者的切实利益。未来基于电子病历大数据可为慢性病患者提供远程数据分析和服务,同时可为公共卫生机构提供及时的统计分析。通过建立完善的疾病早期预警或诊断干预辅助决策系统,方便患者就医,辅助临床工作者决策,突出基于电子病历大数据辅助临床决策的循证意义。

6 结语

电子病历辅助临床决策的发展不仅依赖于信息提取技术、决策方法的完善以及决策系统的开发,而且依赖于临床工作实践中的需求。未来在电子病历更加结构化的基础上,如何基于其大数据辅助临床决策,覆盖更多病种,惠及更多人群,仍是计算机信息人员及临床工作者共同的挑战。

1 孙沂振,沈云学,唐鹤云.电子病历概述[J].医学信息学杂志,2009,30(3):1-5.

2 李国垒,陈先来,夏冬.面对临床决策的电子病历系统概述[J].中国数学医学,2014,9(12):30-32,36.

3 雷健波.电子病历的核心价值与临床决策支持[J].中国数字医学,2008,3(3):26-30

4 NLP-ICTCLAS2014分词系统开发手册2015版[EB/OL].[2015-01-10].http://ictclas.nlpir.org/

5 李俊杰.基于自然语言处理技术的消化科内窥镜检查报告的结构化[D].杭州:浙江大学,2007.

6 陈莺莺.病历信息提取方法的研究与实现[D].杭州:浙江工业大学,2010.

7 Lafferty J, McCallum A, Pereira F. Conditional Random Flilds:probabilistic models for segmenting and labeling sequence data[C].Proc 18th International Comf.on Machine Learning,2001:282-289.

8 周小甲.中文病历文本的时间信息提取研究[D].杭州:浙江大学,2011.

9 Doan S, Collier N, Xu H, et al. Recognition of Medication Information from Discharge Summaries Using Ensembles of Classifiers[J]. BMC Med Inform Decis Mak, 2012,(12):36.

10 李毅,保鹏飞,薛万国. 中文电子病历的信息抽取研究[J]. 生物医学工程学杂志,2010,27(4):757-762.

11 王星.大数据分析:方法与应用[M].北京:清华大学出版社,2013:68-90.

12 李国正,王猛,曾华军.支持向量机导论[M].北京:电子工业出版社,2004:82.

13 Byrd RJ, Steinhubl SR, Sun J, et al. Automatic Identification of Heart Failure Diagnostic Criteria, Using Text Analysis of Clinical Notes from Electronic Health Records[J]. Int J Med Inform, 2014,83(12):983-992.

14 彭德荣,赵新平,武桂英,等. 药物不良反应信息预警监测系统应用研究[J]. 中国卫生资源,2011,14(4):234-235.

15 Kirkendall ES, Spires WL, Mottes TA, et al. Development and Performance of Electronic Acute Kidney Injury Triggers to Identify Pediatric Patients at Risk for Nephrotoxic Medication-associated Harm[J]. Appl Clin Inform, 2014,5(2): 313-333.

16 Kirkendall ES, Kouril M, Minich T, et al. Analysis of Electronic Medication Orders with Large Overdoses[J]. Appl Clin Inform, 2014,5(1): 25-45.

17 Dimagno MJ, Wamsteker EJ, Rizk RS, et al. A Combined Paging Alert and Web-based Instrument Alters Clinician Behavior and Shortens Hospital Length of Stay in Acute Pancreatitis[J]. Am J Gastroenterol , 2014,109(3): 306-315.

18 Ye J, Farnum M, Yang E, et al. Sparse Learning and Stability Selection for Predicting MCI to AD Conversion Using Baseline ADNI Data[J]. BMC Neurol, 2012,(12):46-58.

19 Alvarez CA, Clark CA, Zhang S, et al. Predicting out of Intensive Care Unit Cardiopulmonary Arrest or Death Using Electronic Medical Record Data[J]. BMC Med Inform Decis Mak,2013, (13):28-39.

20 王晟.实施结构化电子病历系统对策探讨[J].医学信息学杂志,2012,33(8):24-27.

21 王春雨,王立准,魏瑜帅,等.数据挖掘在结构化电子病历中的应用[J].医学信息学杂志,2014,35(3):31-33.

22 吴炜,杨梅瑰,唐飞岳,等.基于数据挖掘技术的辅助医疗诊断研究[J].医学信息学杂志,2010,31(12):22-26

Electronic Medical Records Assisting Clinical Decision

ZHANGYe,ZHANGHan,

DepartmentofMedicalInformatics,ChinaMedicalUniversity,Shenyang110122,China;ZHAOYu-hong,ShengjingHospitalofChinaMedicalUniversity,Shenyang110004,China

The paper briefly introduces the concept and development process of Electronic Medical Records(EMR), elaborates information extraction of EMR as well as the methods assisting clinical decision, including machine learning, statistical learning and rule induction, etc. It describes the application of EMR assisting clinical decision in diagnostic criteria identification and clinical diagnosis activities, reflects its evidence-based significance.

Electronic Medical Records(EMR); Information extraction; Clinical decision

2015-04-18

张晔,在读硕士研究生,发表论文2篇;张晗,副教授;通讯作者:赵玉虹,教授,博士生导师。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.06.002

猜你喜欢

分词病历决策
强迫症病历簿
为可持续决策提供依据
分词在英语教学中的妙用
“大数的认识”的诊断病历
结巴分词在词云中的应用
结巴分词在词云中的应用
决策为什么失误了
为何要公开全部病历?
村医未写病历,谁之过?
聚焦现在完成进行时