APP下载

深度学习在医药领域命名实体识别中的研究进展

2020-04-18陈瑶葛卫红廖俊

药学进展 2020年1期
关键词:语料命名医药

陈瑶,葛卫红 ,廖俊*

(1.中国药科大学理学院,江苏 南京211198;2.南京大学医学院附属鼓楼医院药学部, 江苏 南京210008;3.中国药科大学基础医学与临床药学学院,江苏 南京211198)

命名实体识别(named entity recognition,NER)旨在根据预定义的实体类别从非结构化文本中将目标实体定位并分类,识别出的实体可进一步运用于实体关系抽取等自然语言处理任务中,是信息抽取的一部分,所抽取出的信息可作为目标对象知识库构建的基础。命名实体识别最初被提出主要用于对文本中人名、地名、机构名等实体的提取[1],近几年在医药领域的文本中也得到了广泛应用。

本文选取在命名实体识别研究中应用最为广泛的3 种模型进行介绍:传统机器学习的条件随机场模型(conditional random field,CRF)、深度学习的长短期记忆模型(long short-term memory,LSTM)及将这2 种方法结合的双向LSTM-CRF 模型(bidirectional LSTM-CRF,BiLSTM-CRF)。总结了医药领域命名实体识别研究中常用的数据源及相关公开标注语料集,并综述了深度学习在医药领域不同语言以及不同实体种类中的命名实体识别应用现状。本文旨在通过对这些方法、数据源以及应用的总结,为当前医药领域命名实体识别研究提供新思路。

1 命名实体识别常用方法

命名实体识别常用的方法可分为基于词典的方法[2]、基于规则的方法[3]和基于机器学习的方法[4]。基于词典的命名实体识别准确率很大程度上依赖所构建的词典库的丰富度,对于诸如医药相关的专业领域的实体,词典的匮乏导致很多专业词汇因为词典未覆盖而出现不能识别的情况。基于规则的方法涉及大量人工制定规则的过程,在目标文本较为复杂或不规则时,预先设定的规则很难满足所有情况,对数据适应性差且对于大数据集的处理存在一定的困难。基于机器学习的命名实体识别是当前热门的研究方法,常用的机器学习算法有隐马尔可夫模型(Hidden Markov Model,HMM)、CRF、支持向量机(support vector machine,SVM)等,其中CRF 是应用最为广泛的一种。深度学习作为机器学习的一种,由Mikolov 等[5]于2010 年提出的循环神经网络(recurrent neural network,RNN)使得深度学习在命名实体识别等序列文本处理中有了很好的应用,其中LSTM 因为很好地解决了RNN 处理大数据集时存在的梯度消失和梯度爆炸问题[6],成为近几年的研究热点。本文选取了这当中热门的CRF、LSTM 及复合模型BiLSTM-CRF 分别进行介绍。

1.1 条件随机场模型

CRF 是最初由Lafferty 等[7]提出的用于序列数据的标识与切分的概率分布模型,在诸多实体识别任务中都取得了较好的表现[8-9],可用于解决特征挑选、参数训练和解码问题。CRF 是一种判别式的概率无向图模型,在自然语言处理任务中是用于标注和划分序列数据的概率化模型,其概率分布函数P(X|Y)表示在满足马尔可夫随机场时的线性链CRF,X 表示观测序列,Y 表示标注序列。

命名实体识别任务中常用的序列标注模式有‘BIO’和‘BIOES’2 种,其中‘B’表示实体开端字/词,‘I’表示实体内字/词,‘O’表示实体外字/词,‘E’表示实体末端字/词,‘S’表示单字/词实体。以‘BIO’模式为例,在使用CRF 进行命名实体识别任务时,句子中的每个字或词共同组成观测序列X,例如,X={患者同服奥美拉唑和克拉霉素},则与之对应的标注序列Y={O O O O B-Drug I-Drug I-Drug I-Drug O B-Drug I-Drug I-Drug I-Drug}(其中Drug 表示实体“药品”),该过程中包括2 个关键任务:一是实体边界的识别,即‘BIO’的界定;二是对实体类别的识别,即该实体是‘Drug’或其他类别。

CRF++是一种常被用来实现命名实体识别的开源工具,训练集和测试集由多个标记(token)组成,每个标记由字/词及该字/词对应的特征与标注组成,特征可由用户自定义,例如词性、字类型等。CRF++中有4 种可根据语言特征选择的模板,包括basenp、chunking、JapaneseNE 和seg,因中文与日文中词与词之间均无明显界限,在进行中文命名实体识别任务时常采用根据日语环境设定的JapaneseNE 模板。

1.2 长短期记忆模型

LSTM 是一种特殊的循环神经网络模型,其通过遗忘门、输入门和输出门这3 个门来控制输入数据传入记忆单元的比例,实现对记忆单元中信息的交互,最终解决远距离依赖问题。双向长短期记忆模型(bidirectional LSTM,BiLSTM)的提出是为了充分利用序列标签问题中目标对象的前向及后向信息。

谷歌于2013 年推出的开源工具—word2vec[10]将词表示为分布式词向量,在能够很好地表示词语特征的同时,也兼顾了后续网络模型维度的设置,使得深度学习在诸多自然语言处理中的应用有了进一步的突破。将其运用于BiLSTM 模型进行的命名实体识别任务中,通过对字/词的分布式表达,省去了人工构建特征的过程,从而获得相较于CRF 等传统机器学习算法更大的优势。例如,Cocos 等[11]和Xie 等[12]在分别使用字典匹配、CRF 和BiLSTM 模型从社交媒体中提取药品不良反应(adverse drug reaction,ADR)实体时,实验结果均表明BiLSTM 的实体识别准确度更高。

1.3 双向LSTM-CRF 模型

BiLSTM-CRF 模型可以理解为是将CRF 引入到BiLSTM 网络结构中的混合模型[13],是近期应用于命名实体识别任务中最为热门的深度学习模型之一[14]。在进行实体识别任务时,传统BiLSTM 模型的输出为挑选出来的得分最高的独立标签,这就导致前后标签无互相联系与制约,易造成实体之间的混淆,而CRF 层的引入则可以加强这种制约。在BiLSTMCRF 模型中,BiLSTM 负责从训练语料中自动学习特征,将学习到的特征向量传入到CRF 层并输出概率值最高的标签作为预测结果[15],在这当中可以添加词向量(word embedding)、字向量(character embedding)、位置向量(position embedding)等作为潜在特征,字/词向量可通过word2vec 等工具对语料预训练获得。

以中文药品不良反应实体识别的研究为例,BiLSTM-CRF 模型框架如图1 所示,图中的向量层(embedding layer)可以是词向量、字向量、位置向量等的组合,在经过前向、后向LSTM 的处理后转化为上下文向量(vector),最后输入到CRF 层进行概率值的计算与结果的输出。Unanue 等[16]分别将词向量、字向量和自定义特征融入CRF、BiLSTM 和BiLSTMCRF 模型中,结果显示BiLSTM-CRF 具有比单独的CRF 及BiLSTM 更高的F 值,F 值为机器学习中常用评价指标,值越大表示模型效果越佳。

1.4 其他方法

以上介绍的CRF、LSTM、BiLSTM-CRF 模型都属于有监督的机器学习,其特征是需要标注好的数据作为模型的训练语料,在标注语料不足的情况下则很难获得较好的模型准确率。半监督学习则可以在少量已有标注语料的基础上实现训练集的扩充,从而进一步提高模型准确率,常见的半监督学习方法有自训练(self-training)[17]、协同训练(co-training)[18]以及三体训练(tri-training)[19]等。此外,还有一些基于无监督的命名实体识别应用[20-21],但目前在医药领域的应用尚未成熟。除了使用单一模型进行训练外,还有学者采用多种方法集成的模式,例如,Wei 等[22]通过SVM 将CRF 的结果与双向RNN 的结果相融合,最终取得的F 值比单独使用CRF 或Bi-RNN 模型F 值都要高。

2 医药领域命名实体识别任务常用数据来源介绍

医药领域命名实体识别常用的数据来源包括医学文献、电子病历、社交媒体等,其中Gurulingappa 等[23]及Mulligen 等[24]选取生物医学数据库Medline 中的文献摘要作为源数据进行语料标注,所构建的标注语料集中涵盖了药品、不良反应、剂量、基因等实体;电子病历中涉及的医学相关实体更为广泛,可以从中进行患病、治疗、用药、检查等相关实体的识别研究[25-26];社交媒体因其用户覆盖面广、数据具有即时性等特征,成为近几年热门的命名实体识别数据来源,尤其是在药品不良反应相关的实体识别应用中[11-12,27]。在3 种常用数据来源中,电子病历中的医药相关实体密度最高,在利用该类数据进行实体识别研究时,需要对各类实体有明确的界定,防止因定义模糊或概念交叉而产生误差,此外对于病人一些隐私信息也要作相关处理;社交媒体中医药相关文本易获取且数目庞大,但其中的信息密度也最为稀疏,在进行医药实体识别研究时需要对其中大量的嘈杂信息进行剔除;医学文献中的医药实体信息密度介于两者之间,且当前有很多相关的公开标注语料集,是应用较为成熟的一种医药资源。图2 展示了基于不同数据来源的医药领域命名实体识别在爱思唯尔 ScienceDirect数据库中的研究数量分布,其中选择医学文献作为数据来源的研究数目最多,占比达61.74%。

无论是传统机器学习还是深度学习,都需要标注语料对模型进行训练,在缺乏标注语料的情况下,很多研究者倾向使用公开标注语料集展开研究,表1 中总结了一些常用的医药领域命名实体识别开放数据集及其简介与链接。

命名实体识别技术在医药领域中的应用,主要的目标实体包括药物/化学物质、蛋白质/基因、疾病、药品不良反应等,表2 从这些实体的角度出发,整理了近几年一些深度学习在不同类型的实体识别中的应用以及相应的数据来源。

表 1 常用医药相关命名实体识别开放数据集Table 1 Frequently used open datasets related to medical NER

表 2 深度学习在不同类别实体识别中的应用Table 2 Application of deep learning in NER of different types

3 深度学习在中英文医药领域命名实体识别中的应用

3.1 英文医药领域文本

命名实体识别任务最初是在英文环境下提出,无论是规则的制定还是特征的提取都有很多经验可以借鉴,加上大多数医药领域公开标注语料库及可供验证的医药类数据库都是英文,使得各类方法在英文医药领域命名实体识别中的应用都相对较成熟。

BiLSTM-CRF 因 其 兼 具BiLSTM 和CRF 的 优势,自提出以来就一直深受欢迎,例如,Zeng 等[15]、Luo 等[37]、Gridach 等[32]分 别 使 用BiLSTM-CRF 方法从医药文本中进行了药品实体、化学物质实体及基因实体的识别研究且都取得了较好的识别效果。在使用深度学习进行实体识别研究时,很多研究者选择通过word2vec 等工具对无标注文本进行预训练,通过自动学习到的文本特征实现模型性能的提高[38-39];注意力机制(attention)也是经常用于深度学习神经网络结构中的一个重要因素,例如,杨培等[40]在对CHEMDNER 数据集中的化学物质进行实体识别研究时,在BiLSTM 层和CRF 层之间加入attention 层,将由BiLSTM 获得的词的上下文表示转化为该词在全文范围内的上下文表示,联合该词的邻近上下文表示一同传入CRF 层以获得标签序列;对于医药领域的命名实体识别,领域知识或专有词典的引入也能在一定程度上提高模型识别效果,可将词典转化为词特征与当前文本训练得到的词向量一起作为神经网络的输入,从而将专有词汇信息传输到模型进行学习[41]。

3.2 中文医药领域文本

不同于英文命名实体识别研究,中文在这一领域的技术还不够成熟且面临诸多挑战。一方面,中文词与词之间无类似英文中的空格作为明显分割界限,因此中文自然语言处理任务中首先需要解决分词的问题,而特殊领域中的专业词汇、缩写等使得难以完全依靠分词工具实现准确的词切分[42];另一方面,中文开放性标注语料以及可用于验证的医药相关词典或数据库的缺乏也进一步限制了中文命名实体识别的研究[43]。

就深度学习在中文命名实体识别中的应用而言,很多研究者选择了包含人名、地名和机构名3 种实体的开放标注中文语料作为研究对象[44-45],而医药领域因目前尚缺乏公开标注语料集,针对医药领域的中文命名实体识别应用也因此相对较少。2015 年Wu 等[46]首次尝试将深层神经网络(deep neural network,DNN)运用于中文临床文本的实体识别研究中,并将DNN 的识别效果与CRF 进行对比,结果显示将未标注的数据加入神经网络训练出的模型得到了较高的F 值;夏宇彬等[47]选取200 份糖尿病患者电子病历中的入院记录进行标注,并分别使用了多层感知机、CRF、LSTM 模型进行实体识别研究,结果表明LSTM的识别效果最好;张艺品等[48]和高甦等[49]则分别采用BiLSTM-CRF 模型对中医典籍进行了命名实体识别研究,前者目标实体为病症、方剂和中药材,后者目标实体则为中医认识方法、中医生理、中医病理、中医自然及治则治法等,两者均取得了较理想的研究结果。

4 结语

命名实体识别作为自然语言处理任务的分支,将其运用于自由文本中可以实现大量非结构化信息的结构化转换,对于目标对象的信息抽取及知识库构建都具有重要意义。医药领域的命名实体识别,除了基本的语言学特征外,还需要考虑各类实体的定义与概念区分、专有词汇的补充、不同数据源的融合等问题,而传统的人工构建规则或特征的方法很难满足需求。CRF 对序列问题的处理使得其在命名实体识别任务中展现出相较其他传统机器学习的优势,但诸如BiLSTM等深度学习模型通过文本的分布式表达自动获取字、词以及句子层面特征的能力省去了传统机器学习的人工特征构建工程,同时在处理大数据集时也更具优势,是近年来命名实体识别以及自然语言处理其他领域的研究热点,在医药领域也有了很好的利用。

中文的语言学特征以及医药领域公开标注语料集的缺乏,使得深度学习在中文医药领域命名实体识别中的应用还不够广泛,大多数是基于个人标注的语料集进行,规模小且泛化能力弱。医药领域的命名实体识别研究,一方面需要进一步结合已有在其他领域成熟应用的深度学习方法或者探索更多不同方法应用,另一方面也要加强基础语料库的建设以及特定方向相关标准的规范与统一。

猜你喜欢

语料命名医药
命名——助力有机化学的学习
有一种男人以“暖”命名
为一条河命名——在白河源
传统医药类非遗
基于语料调查的“连……都(也)……”出现的语义背景分析
医药下一个十年 创新为王
华语电影作为真实语料在翻译教学中的应用
《中国当代医药》来稿要求
《中国当代医药》来稿要求
《苗防备览》中的湘西语料