医疗实体识别研究进展
2020-11-30张明淘
张明淘,韩 普,2
(1.南京邮电大学 管理学院,江苏 南京 210003;2.江苏省数据工程与知识服务重点实验室,江苏 南京 210023)
0 引 言
近年来,随着人工智能在医疗领域中的推进,各类非结构化文本的医学信息抽取受到了人们的极大关注。医疗实体识别(medical entity recognition,MER)是信息抽取的重要环节,也是医疗人工智能的基础任务。常规的实体识别主要研究对象是人名、地名、时间等概念,与之相比,医疗实体识别主要是针对疾病、症状、检查等实体,这类实体构词复杂、书写形式多样,并且常有多种指称,识别难度相对较大。医疗实体存在于各类非结构化医疗文本中,如电子病历、医学文献、医疗问答社区和社会化媒体。在这些数据源中,电子病历是对患者各种病程记录的文字表述,通常包括患者的人口统计信息、诊断、实验室测试结果、药物处方和临床记录[1],由临床医生书写,蕴含着临床医生的宝贵经验,质量相对较高,通过数据分析后可用于临床辅助决策诊断。在线医疗文本主要是指各类医疗健康问答社区和社会化媒体中的医疗内容,常用于患者需求分析以及流行病监控。医学文献是科研人员的医学成果的总结,通常是用学术化的语言来呈现,反映了医学领域的最新科学进展。在各类文本数据中,医疗实体均是承载医学信息的最重要载体,同时也是医疗人工智能和进行医学分析的基础。随着医疗人工智能和大数据技术的快速发展,面向各类医疗文本数据的医疗实体识别吸引了国内外学者的极大关注,短短几年涌现了大量研究成果。文中旨在系统了解医疗实体识别的国内外研究进展,帮助领域学者准确把握该主题的研究态势。
1 医疗实体的概念及分类
医疗实体是医疗文本中用来描述患者详细病情、症状、用药和治疗情况等[2]的概念,如“糖尿病”、“心电图”和“胰岛素”都是典型的医疗实体。电子病历是比较有代表性的医疗文本,主要记录患者的就医和接受治疗的过程,包括入院记录、病程记录和出院小结。为了抽取电子病历中的医疗实体,美国国家集成生物和临床信息学研究中心(informatics for integrating biology and the bedside,I2B2)参照一体化医学语言系统(unified medical language system,UMLS),将医疗实体分为了医疗问题、检查和治疗三类[3],医疗问题进一步被分为疾病和症状两种实体。为了理解和回答与疾病相关的问题,Kilicoglu等[4]将医疗实体划分为疾病、干预(药物、程序)、解剖和群体四大类实体,并且为嵌套实体设计了更细粒度的标注方案,将实体分为诊断程序、药物的补充、基因蛋白等十五类。
通常而言,医疗实体识别过程可以分为实体的边界识别和实体类型的标注两个阶段。与英文相比,中文没有天然的分隔符,实体边界识别难度较大。国内的学者通常借鉴UMLS对实体类型的定义,遵循实体间不重叠、不嵌套、实体内不含有表示停顿的标点符号(比如逗号、句号、顿号等)三原则[5-6],针对研究需要划分医疗实体。
Lei等[7]基于中文临床文本,将临床实体分为问题、测试、过程和药物四类。Hu等[8]在2017年全国知识图谱与语义计算大会(CCKS)评测中将医疗实体划分为身体、疾病、症状、测试和治疗五大类别。在中文在线医疗文本识别研究中,苏娅等[9]将医疗实体分为疾病、症状、药品、治疗方法和检查五类医疗实体。可以发现,虽然国内外医疗实体识别存在一些差别,但一般均包含疾病、症状、检查和治疗这些常见类别,这些分类是实体关系抽取等研究的基础。
2 医疗实体识别会议评测
医疗实体识别评测极大地推动了医疗实体识别的发展,对提高医疗实体识别效果具有重要意义。相比而言,美国在英文医疗实体识别评测方面起步较早,对医疗实体识别研究影响最大。其中,I2B2是组织医疗实体评测次数较多,且影响力最为广泛的医疗实体识别评测组织之一。2009年I2B2组织的评测任务是从出院小结中识别药品的属性信息,而2010年在以往任务的基础上,增加了疾病、症状、检查和治疗医疗实体,并对这些实体及其关系进行识别[3]。2010年I2B2与盐湖城卫生保健局组织了电子病历领域的信息抽取的评测(2010 I2B2/VA challenge)[10],该评测主要有概念提取、断言分类和关系分类三个任务。2014年I2B2/UTHealth组织的评测包含四项自然语言处理任务,其中第二项任务是在糖尿病患者纵向病历叙述中识别与冠状动脉疾病(CAD)相关的医疗风险因素[11]。纵观整个评测历程,I2B2通过比赛的形式逐步将医疗实体识别推向了新的高度,并为中文医疗实体识别的评测提供了值得借鉴的经验。除I2B2组织的比赛外,面向医疗领域的实体识别的公开评测还有ShARe/CLEF eHealth和SemEval等。2013年,ShARe/CLEF eHealth Evaluation实验室组织了关于医疗实体识别的国际公开评测,并在之后的两年内将医疗实体识别任务引入国际语义评测(SemEval)。
受国外医疗实体识别评测的影响,国内有关机构也组织了针对中文医疗实体识别的会议评测,如近两年影响力比较大的CCKS。CCKS 2017评测竞赛中包含两项任务,其中一项任务就是临床命名实体识别,即从电子病历中识别症状、疾病、检查和身体四类实体[12]。CCKS 2018设立了4个相关主题评测任务,面向中文电子病历的命名实体识别也包含在其中,它要求参赛者从给定的一组电子病历纯文本文档中识别并抽取医疗实体,如症状、药品、手术等。两次CCKS会议均对中文医疗实体识别进行了重点关注,大大推进了中文医疗实体识别的进程。
3 医疗实体识别研究方法
3.1 基于词典和规则的方法
基于词典的方法是原理比较简单但最有效的方法之一,基本思路是通过遍历词典进行字符串匹配而实现实体识别。早期的医疗实体识别多采用基于词典的方法,代表性的有MedLEE[13]、MedKAT[14]和cTAKES[15]等系统。此外,部分学者采用此方法进行医疗实体识别,Hettne等[16]使用基于词典的方法提取药物名称。Hu等[8]在进行临床命名实体识别时,根据训练集为每种实体构建了若干字典。龙光宇等[17]利用网络资源构建了含有语义信息的医学术语词典,将基于词典的方法与条件随机场结合对疾病命名实体进行识别,得到F值为0.837 2。基于词典的方法虽然在医疗实体识别准确率上取得了不错的效果,但词典本身的覆盖面、更新速度都会影响实体识别的效果。常用的做法是将基于词典的方法与机器学习的方法结合起来以提高实体识别的效果。
基于规则的方法主要通过分析各类实体的边界特征、中心词特征、词性特征等规律来构建规则库进行医疗实体识别。规则库的构建主要是依靠人工,有研究者使用Bootstrapping自动生成规则[18],以解决人工方法的不足。Kraus等[19]通过构建正则表达式,识别了大学医疗系统临床记录中的药品、剂量等医疗实体。和基于词典的方法类似,基于规则的方法往往也是与机器学习方法结合使用。如Jiang等[10]在2010年I2B2/VA竞赛中开发了基于混合模型的临床实体抽取系统,将基于启发式规则的模块与基于机器学习的实体识别模块集成在一起。针对疾病单一医疗实体的识别系统,Wei等[20]在条件随机场的模型加入了一个基于规则的后处理模块。Hu等[8]在2017年CCKS临床命名实体识别竞赛中,通过医疗实体分析,构建了大量规则,如:在“……有心脏病史……”中,根据“……有……病史……”模式,可以将“心脏病”提取作为“疾病”。
基于词典和基于规则的方法虽然也是目前医疗实体识别任务中的常用方法,但此类方法对词典和知识库具有很强的依赖性,不够灵活。因此,研究人员将注意力转移到基于机器学习的方法上来,从而将基于词典、规则的方法与机器学习的方法相结合以提升医疗实体识别效果。
3.2 基于机器学习的方法
机器学习的方法是通过从样本数据集合中统计出相关的特征和参数,建立识别模型,通过模型进行实体识别的过程。机器学习分为有监督的和无监督的学习方法,有监督的机器学习是从已有的数据集中训练模型,当输入新的数据时,可以根据模型预测结果;无监督的机器学习中输入的数据没有被标记,样本数据的类型也是未知的,直接对输入数据进行建模分析。目前在医疗实体识别中主要是采用有监督的机器学习方法,进一步可以划分为选取合适的模型和方法、对模型和方法进行改进、选取合适的特征以及综合的实体识别方法。
3.2.1 模型和方法的选取
识别实体边界和实体类型是命名实体识别的两个任务,因此实体识别可以看作是分类任务,进而可以采用贝叶斯模型、支持向量机(support vector machine,SVM)和最大熵(maximum entropy,ME)等分类方法。Wei等[20]在建立疾病命名实体识别和标准化系统时,将每个模型识别出的命名实体输入支持向量机分类器,用于组合结果。Lei等[7]在进行中文临床文本的命名实体识别时,采用了条件随机场(CRF)、支持向量机(SVM)、最大熵(ME)和结构支持向量机(SSVM)四种模型,而SSVM在四种模型中达到了最高性能,在入院记录和出院小结中的实体识别F值达到了93.51%和90.01%。
从序列识别的角度,实体标签序列集合构成了非常大的标签组合,因此还可以将实体识别看成序列标注问题,其基本思想是基于序列化标注的方法对多个词同时标记,选择联合概率最大的标注序列[3]。通常,采用的序列标注模型有隐含马尔可夫模型(hidden Markov model,HMM)、最大熵马尔可夫模型(maximum entropy Markov model,MEMM)和条件随机场(conditional random field,CRF)等模型。Ghiasvand[21]指出,实体识别系统最精准的方法是机器学习,用于序列标记的机器学习方法被广泛用于检测临床概念。Jiang等[10]对比了基于机器学习的提取临床实体的方法,结果表明条件随机场优于支持向量机。基于CRF算法,Liu等[22]在该方法中增加四种特征对中文电子病历实体进行识别,其中F值最高达到了89.152%。从以上研究来看,序列标注模型取得了较好的效果,也是目前使用最为常见的研究方法。
3.2.2 模型和方法的改进
为进一步提高医疗实体识别的效果,领域学者对模型不断进行改进,设计出更好的实体识别方法。如Jiang等[10]在2010年I2b2/VA竞赛中,开发了一种新的混合临床实体提取系统,将基于启发式规则的模块与基于机器学习的命名实体识别模块集成在一起,使用477个注释测试数据集来评估其性能,在概念提取和断言分类的总F值最高分别为0.839 1和0.931 3。但常见的实体识别模型和方法大多是面向英文医疗文本提出的,并不直接适用于中文医疗文本[18]。中文自然语言处理在分词等词法分析上难于英文,因此,在进行中文医疗实体识别时,需要依据具体情况构建新的模型或者改进原有模型。燕杨等[23]针对中文病历命名实体识别,提出了基于层叠条件随机场的新方法,实验结果表明,该方法下的模型相比于无自定义组合特征的层叠CRF模型,F值提高了3%,相比于单层CRF模型,F值提高了7%。由此可见,对模型和方法的改进能够提高实体识别的效果,这要求研究者要在实验中不断创新,将模型和方法改进得更加完善。
3.2.3 特征的选取
特征是影响实体识别性能的关键因素。除了改进模型和方法来提高实体识别效果,选取更好的特征亦是一种好的方法。Liu等[22]在CRF算法中添加字符特征、词性特征、词典特征和词聚类特征,设计了不同特征模板进行实验,应用词性特征、词典特征和词聚类特征,识别效果达到了89.152%,比结合使用词典特征和词性特征高出0.32%。Chen等[12]在2017年CCKS临床命名实体识别任务中,提取包括分词、词性、身体词典训练集等的特征,最后选取分词特征和词性特征作为有效的训练特征,实体识别F1值达到了0.897 4。基于条件随机场(CRF)模型,苏娅等[9]针对在线医疗文本中的实体识别选取了词性特征、形态特征、后缀特征、身体部位指示特征和上下文特征,并指出中文不同于英文具有天然的分隔符,在进行中文医疗实体识别时还需要添加符号特征,随着特征的逐一添加,总体F1值不断上升,当采用所提全部特征时,总体精确度为81.26%,召回率为60.18%。对传统的机器学习模型来说,特征的选取直接影响着模型的性能。因此,在未来的研究工作中,需要不断丰富实体识别特征,选择最适宜的特征,从而提高实体识别效果。
3.2.4 综合的实体识别方法
在进行医疗实体识别时,除了改进机器学习模型和选择更好的特征之外,将多种方法进行综合也是提高实体识别效果的一种思路。一些学者提出了级联方法,该方法综合CRF、SVM和MEMM等多种模型,避免了单一模型的局限性[24]。Liang等[25]提出了一种新型cascade-type中药实体识别方法,旨在将支持向量机(SVM)中的句子分类器与基于条件随机场(CRF)的中药实体识别相结合,该方法在中药名称识别的精确率为94.2%,召回率为92.8%,F值为93.5%,显著高于单一方法。邓本洋等[26]使用条件随机场(CRF)、最大熵(ME)以及堆积策略综合两模型进行对照实验,最终综合模型的F值达到了91.1%,取得了最好效果。此外,JNLPBA竞赛中的所有系统均使用了一种或多种机器学习算法,大大优于单一系统[27]。从以上研究可以发现,综合的实体识别方法通常表现出更好的优势和性能。
3.3 基于深度学习的医疗实体识别
深度学习是机器学习的一个重要的发展方向,2006年由Hinton等[28]提出。作为机器学习研究中的一个新领域,深度学习受到了国内外学者的广泛追捧。该方法通过学习将世界表示成嵌套的概念层次结构,实现了强大的功能和灵活性。在医疗实体识别任务中,传统的机器学习方法遵循两个步骤:第一步是使用医疗领域的知识以数字向量表示文本,即特征工程;第二步是将每个单词分类为不同的实体类[29]。基于传统机器学习的模型依赖人工设置特征,而基于深度学习的模型则可以避开特征工程,具有一定的优势。当需要处理的数据规模很大时,深度学习方法将会明显优于传统的机器学习。在深度学习中,较为典型的神经网络有递归神经网络(RNN)、卷积神经网络(CNN)、长短时记忆(LSTM)神经网络等。利用神经网络模型进行医疗实体识别,无需大量的人工特征,只需要词向量和字符向量,适时添加高质量的词典特征可以提高识别效果。因此,基于深度神经网络模型的医疗实体识别引起了研究人员的极大关注。
递归神经网络(RNN)是一种前馈人工神经网络,它可以利用序列中每个位置的权值共享来模拟任意长度的序列[30]。Almgren等[30]提出一种基于字符的深度双向递归神经网络的医疗数据命名实体识别方法,以端到端方式训练,同时执行边界检测和分类,实验结果表明F1值比经典模型提高了60%。Hu等[8]在2017年CCKS医疗命名实体识别竞赛中,开发了一个基于规则、CRF和RNN方法的混合系统,该系统在“严格”和“宽松”的标准下,F1值分别为91.08%和94.26%。RNN随着递归,会面临权重指数级爆炸或消失的问题,会让RNN模型难以训练,这就引发了LSTM的发展。LSTM是RNN的代表性变体,是一种特殊的递归神经网络模型,克服了传统RNN模型由于序列过长而产生的梯度弥散问题[31]。Liu等[32]指出LSTM在2010年I2B2医学概念提取中获得最高的微观平均F1值,为85.81%,在2012年I2B2临床事件检测中F1值为92.29%,在2014年I2B2反鉴定中F1值为94.37%,与其他最先进的系统相比具有较强的竞争力。此外,CNN也是进行医疗实体识别的常用的神经网络模型。Zhao等[33]提出一种新型的基于多标签卷积神经网络(MCNN)的疾病实体识别的方法,该方法使用了多重标签策略(MLS),而不是CRF层,实验结果表明MCNN方法在NCBI语料上的F值为85.17%,在CDR语料上的F值为87.83%,均高于其他方法。
无论是传统的机器学习模型,还是深度学习下的深度神经网络,将多种模型结合在一起,都是提高系统性能的好方法,也是一个具有重要意义的研究方向。Habibi等[34]采用了基于深度学习和统计词嵌入的方法来提高生物医学实体识别的效果,实验结果表明F1值比经典模型高出5%。Xu等[35]提出了一种基于双向长短时记忆和条件随机场(Bi-LSTM-CRF)的医学命名实体识别模型,实验证明该方法优于传统的单一模型。Wang等[36]提出了将症状成分划分为11类的中文症状构成模型,将实体识别任务看作是一个序列标注问题,使用双向LSTM-CRF以及部分词性特征和数据增强来解决这个问题,在症状和成分水平上的准确率分别为92.77%和94.34%,结果比基本模型高出20.72%和14.42%。李丽双等[31]提出基于CNN-BLSTM-CRF的神经网络模型,不依赖任何人工特征,该模型在Biocreative Ⅱ GM和JNLPBA2004生物医学语料上的F值分别为89.09%和74.40%。
然而,当医疗文本覆盖实体复杂,实例不足和进行分词时出现的错误等都会影响实体识别的准确率。例如,杨红梅等[37]利用双向LSTM网络结合CRF训练出的电子病历命名实体识别模型,对测试数据集的评估表明,入院记录中实体识别的F1值为0.853 5,出院小结中实体识别的F1值为0.726 5,总体F1值为0.805 2,入院记录的研究结果较优,而出院小结的识别率较低,主要是因为出院小结覆盖实体复杂且分词时出现了错误。因此,在进行医疗实体识别时,研究者需要认真谨慎地完成前期的准备工作,避免为后续工作带来不必要的阻碍。
4 结束语
随着互联网信息技术的发展,医疗实体识别成为了医疗大数据的重要研究领域。医疗实体识别虽然是实体识别的一个分支,但是它的重要性和发展前景不容小觑。医疗实体识别取得了丰硕的研究成果,这为开辟新的研究方向奠定了良好的基础。尽管如此,作为一个刚刚开始兴起的研究领域,医疗实体识别仍然面临着一些问题和挑战,需要重点关注以下几个方面的问题。
(1)大力推进半监督学习的医疗实体识别研究。
医疗实体标注是一项非常耗时耗力的工作,不仅需要具有实体标注能力的研究者,还需要具有医学背景的人员参与。半监督学习是一种结合监督学习和无监督学习的学习方法,有效利用未标记的数据,将领域知识整合到实体识别的模型中,以此提高模型的效果。这种方法减少了传统机器学习对大量标注数据的需求,降低了人工成本。因此,半监督学习,甚至是无监督学习,都将是未来医疗实体识别研究的重要发展方向。
(2)积极推动国内医疗数据公开。
相较于国外,国内医疗实体识别并没有公开语料和词典资源。中文医疗实体识别的研究起步较晚,而且缺乏公开的标注语料库,这些因素一定程度上阻碍了中文医疗实体的进一步发展,因此,推动国内医疗文本语料库公开,有助于使医疗实体结构化和标准化,进一步加快中文医疗实体识别和医疗信息分析的发展。
(3)进一步挖掘实体语义特征来提升医疗实体识别效果。
和传统的机器学习方法相比,深度学习模型可以利用更多的外部语义特征。随着深度学习和大数据技术的发展,利用更多高质量医疗文本数据来生成实体语义特征以提升医疗实体识别效果将会是今后的一个重要发展方向。