基于BLSTM的临床文本实体关系抽取
2019-10-08关鹏举曹春萍
关鹏举 曹春萍
摘 要: 实体关系的提取是构建知识库的重要组成部分,对临床文本实体关系的研究可以促进医疗卫生的发展。传统针对实体关系抽取的方法大多是基于规则或是机器学习,需要领域专家来制定大量特征,而且特征的多少和准确性同时影响关系抽取结果的准确性。为了能更好的提取文本特征,同时减少手工制造特征带来的麻烦,该文提出使用双向长短期记忆网络(BLSTM),利用该模型提取句子级语义特征,从而达到更好的实体关系抽取效果。通过对比其他模型,证实了该模型的有效性。
关键词: 实体关系抽取;临床文本;特征提取;双向长短期记忆网络
中图分类号: TP391.1 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.05.030
本文著录格式:关鹏举,曹春萍. 基于BLSTM的临床文本实体关系抽取[J]. 软件,2019,40(5):159162
【Abstract】: The extraction of entity relationships is an important part of building a knowledge base. The study of the relationship between clinical text can promote the development of health care. Traditional methods for entity relationship extraction are mostly based on rules or machine learning. Domain experts are required to manufacture a large number of features, the number and accuracy of features affect the accuracy of the relationship extraction results. In order to extract more effective text features and reduce the trouble caused by hand-made features, this paper proposes to use bidirectional long short-term memory network (BLSTM) to extract sentence-level semantic features, so as to achieve better entity relationship extraction. The validity of the model was confirmed by comparing other models.
【Key words】: Entity relationship extraction; Clinical text; Feature extraction; BLSTM
0 引言
自动提取实体及其关系是检测实体并从大量非结构化数据集中识别它们之间的语义关系。它对各种NLP应用具有至关重要的影响,例如信息提取和知识库(KB)的自动构建。生物医学的快速发展导致医学领域的临床文本数据和文献数量急剧增加。医学中存在大量非结构化数据,并且该数据中存在许多可能非常有意义的信息,因此临床文本的信息挖掘非常有必要[1]。实体关系提取基于命名实体标识,并且医疗记录文本中的相同语句中的两个命名实体被给予预定义关系类型。当两个实体出现在同一个句子中时,则需要根据上下文确定两个实体之间的语义关系。如员工与公司之间的雇佣关系,商品与类别之间的关系,药品与他们之间的治疗关系。关系的抽取一般包括两个步骤:1)确定实体对之间是否有一定的关系;2)将检测到的关系分类到预定义的类别中[2]。对生物医学关系抽取的研究是对疾病、药物等实体之间语义关系的揭示,是构建领域知识图谱、本体与知识库、临床决策支持系统的重要基础,对辅助医疗有重要的现实意义[3]。
1 相关研究
实体关系提取基于命名实体标识,并且医疗记录文本中的相同语句中的两个命名实体被给予预定义关系类型。当两个实体出现在同一个句子中时,则可以根据上下文确定两个实体之间的语义关系。如员工与公司之间的雇佣关系,商品与类别之间的关系,药品与他们之间的治疗关系。不同的域实体类型的定义不同,实体之间的关系也不同。而且其中关系类型不仅取决于实体类型和对应领域的特点,还取决于抽取目的。在提取关系之前,需要定义要提取的语义关系类型,然后根据两个实体的上下文特征预测实体间具有最大概率的语义关系,大多数学者无论是通过机器学习还是深度学习,通常都采用分类方法来实现实体间关系的抽取[4]。
Uzuner首先對医疗实体关系抽取进行了开创性的研究,详细定义了六大类医疗实体关系:当前治疗和疾病的关系、可能的治疗和疾病关系、检查和疾病的关系、疾病和症状的关系、当前症状和治疗的关系、可能的症状和治疗的关系[5]。早期电子病历实体关系提取的研究方法主要采用基于规则的方法,基于字典驱动的方法和基于机器学习的分类方法。其中基于规则的方法是针对语言结构和形式,构造出基于词、词性、词的语义等模式信息进行整理,形成固定模式集,当关系提取时,直接使用固定规则中的模式匹配对要处理的文本进行处理,如果匹配成功,则认为是符合规则集中定义的关系[6]。但是,这种方法有一些限制,一方面由于没有一种规则通用于所有领域,对于规则或者模板的选择有一定困难,另一方面规则的制定需要领域专家,而且制定的规则可能存在不充分的情况。基于字典的关系提取方法,对于用户来说更加简捷,但是同样也需要领域知识库的模板集合,需要构造一个针对于词的参数和语义限制[7]。对于新加入的关系类型,需要对新引入的词汇添加到词典中,由于医学文本中语言结构的特点,语句中结构和词语并不是很明确,所以不是很符合电子病历的结构特点,临床文本中的稀疏性常使得难以统计词级别的关系。基于机器学习的关系抽取是现阶段使用比较广泛的方法,常将关系抽取问题看作是给定文本及其特征的分类问题。王宏涛等人使用SVM模型证实了该模型对分类问题的有效性[8]。Frunza等人研究了疾病和治疗之间的三种关系(治愈、抑制、导致副作用)的识别,对比了三种分类方式,其中构造了以朴素贝叶斯和SVM模型为主的分类模型实现三个关系类型上的分类方式,使用次特征、短语特征即UMLS语义类型,分别在治愈、抑制和导致副作用这三种类型上获得0.9855、1.0、0.8889的结果[9]。Rink等人在I2B2 2010评测数据上采用SVM模型识别电子病历中实体间预定义的语义关系,通过自定义抽取词汇特征、上下文特征等,最后评测结果F值约为0.737,结果表明结合上下文特征的SVM模型在关系识别中有一定的作用[10]。
近年来,深度学习在文本处理中的使用引起了学者们极大的兴趣,并从各种模型和算法到大规模应用中获得了令人满意的结果[11]。机器学习中,错误的特征或者没有提取到的特征,都会影响到关系分类的结果,然而深度学习是一个能自动发现特征的神经网络,减少了手工制造特征的同时,更能发现词语之间的深层次特征和关系[12]。孙建东等人在COAE2016任务中提出了基于CNN的实体关系抽取算法,并对比分析了基于模板和基于SVM的方法,验证了CNN模型在实体关系抽取中的有效性[13]。马超以等人采用弱监督和半自动的方法,使用RNN模型中来进行关系抽取,从而验证了RNN模型的有效性[14]。长短期记忆网络LSTM神经网络考虑了长距离的相关性,能更好的提取语义特征[15],本文使用BLSTM模型进行临床文本中的实体关系抽取,利用该模型来提取句子正向反向语义特征,从而达到更好的文本处理效果。并对比现有的其他模型实验效果,证实了BLSTM在实体关系抽取中有更好的效果,对其他学者研究该领域有一定的参考价值。下图1描述了生物医学领域SRE方法的三个阶段。
2 模型介绍
由于长短期记忆网络具有学习长文本的能力,即可以对整句话进行特征分析,就像人一样,要听完一整句化才能理解要表达的意思,BLSTM模型很符合实体关系抽取。BLSTM是双向LSTM模型,即计算了正向和反向神经元之间的联系,其核心结构是三个门,即遗忘门、输入门、输出门,另外还有一个记忆单元。具体模型及其数据处理步骤如图2所示。
遗忘门的作用是选择性遗忘记忆细胞中的信息,通过遗忘门可以决定上一时刻的输出和当前输入,来决定有多少信息可以保留。
输入门的作用是将新的信息选择性的记录到新的细胞状态中,通过输入门来得到需要更新的信息,其一是从输入门得到的用于更新的值,其二是使用tanh层来生成新的候选值,将这两部分结合起来进行更新。
结合遗忘门和输入门,丢掉不需要的部分,保留需要更新的部分,这样就得到需要更新的信息。
输出门的作用是使得最后的输出结果即包含細胞状态又包含输入,首先通过sigmod层得到一个原始输出,然后使用tanh得到的值与sigmod得到的输出逐对相乘,得到模型的输出。
BLSTM是双向长短期记忆网络,通过该模型训练,使得提取到的信息不仅包含前面词语对后面的影响,同时也包含后面词语对前面词语的影响。其中遗忘门、输入门、输出门过滤信息的方式如下 (1)~(6)公式。
上述是一个神经单元传递给下一个神经单元所经过的计算过程,将这些输出向量经过Mean pooling层之后,会得到一个整合向量信息之后的向量,在最后接一个Softmax进行分类概率处理。
3 实验结果分析
3.1 数据采集
本文的研究选用i2b2在2010年发布的评测任务中提供的临床文本数据,并对任务中的实体关系进行标注。语料库以8∶2的比例分为训练集、测试集。其中要抽取的实体间相互关系有以下几种,具体如下表1所示。
3.2 数据处理
临床文本的关系提取是一般建立在实体已经给出标注的基础上,所以对于临床文本中实体关系抽取的研究,一般先进行实体概念的抽取,之后再转化为在其上的关系抽取,因此本文主要所研究的内容将针对已经标注实体的临床文本记录中的实体关系抽取。实验中仅考虑了二元关系提取任务,针对数据集,主要是进行数据整理和词向量表示等工作。使用word2Vec生成词向量表示,根据经验,这里使用300维向量表示。每一句描述语句将表示成(w0, w1,…, wn)形式的词序列,这里n表示语句中有多少个词汇,其中wi的转换成词向量后结构表示为(v0, v1,…, vn)形式,其中vi表示每个单词表示的词向量。数据处理完成后,将词向量表示输入到BLSTM模型中进行训练和预测。
3.3 实验结果分析
根据以上实验结果所知,使用机器学习的方法,如SVM得到的准确率率为76.4%,F1值为74.2。使用CNN的方法得到的准确率为81.9%,F1值为80.4。使用RNN方法得到的分类结果准确率80.3%,F1值为78.1%。本文使用的BLSTM模型,对关系分类结果准确率达到82.2%,F1值达到81.2。从实验结果可以看出,对比其他模型,BLSTM模型在实体关系抽取任务中有较好的结果,也说明了该模型能够提取更多的语义特征。
4 结束语
实体关系抽取已经有很多学者在研究了,但是国内在中文语料上的研究还有待提高,传统有监督方法,需要在语料上提取有效的特征,通过训练机器模型来预测实体关系,特征选取非常重要。本文使用BLSTM模型对临床文本实体关系进行抽取,取得了一定的效果。但是深度学习的实现效果容易受噪声影响,接下来将继续尝试使用深度学习组合模型进行研究,达到消除歧义,获取更多深层次局部特征,来提高关系抽取效果。
参考文献
[1] 苏娅, 刘杰, 黄亚楼. 在线医疗文本中的实体识别研究[J]. 北京大学学报(自然科学版), 2016, 52(01): 1-9.
[2] ZHOU D Y, ZHONG D Y, HE Y L. Biomedical relation extraction: from binary to complex[J]. Computational & Mathematical Methods in Medicine, 2014(3): 139- 142.
[3] 李芳, 刘胜宇, 刘峥. 生物医学语义关系抽取方法综述[J]. 图书馆论坛, 2017, 37(06): 61-69.
[4] 车万翔, 刘挺, 李生. 实体关系自动抽取. 中文信息学报, 2004, 19(2): 1?6.
[5] Uzuner O, Mailoa J, Ryan R, Sibanda T. Semantic relations for problem-oriented medical records. Artificial Intelligence in Medicine, 2010, 50(2): 63?73.
[6] Roman Y, Grishman R. NYU: Description of the Proteus/PET System as Used for MUC-7 ST[A].1998.
[7] Aone C, Ramos2Santacruz M. Rees: A large-scale relation and event extraction system[M].New York, 2000.76-83.
[8] 王宏涛, 孙剑伟. 基于BP 神经网络和SVM 的分类方法研究[J].软件, 2015,36(11): 96-99.
[9] Frunza O, Inkpen D. Extraction of disease-treatment semantic relations from biomedical sentences. In: Proceedings of the 2010 Workshop on Biomedical Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 91?98.
[10] Rink B, Harabagiu S, Roberts K. Automatic extraction of relations between medical concepts in clinical texts. Journal of the American Medical Informatics Association, 2011, 18(5): 594?600.
[11] 张晓明, 尹鸿峰. 基于卷积神经网络和语义信息的场景分类[J]. 软件, 2018, 39(01): 29-34.
[12] 刘腾飞, 于双元, 张洪涛, 等. 基于循环和卷积神经网络的文本分类研究[J]. 软件, 2018, 39(01): 64-69.
[13] 孙建东, 顾秀森, 李彦, 徐蔚然. 基于COAE2016数据集的中文实体关系抽取算法研究[J]. 山东大学学报(理学版), 2017, 52(09): 7-12+18.
[14] 马超义, 徐蔚然. 基于弱监督和半自动方法的中文关系抽取数据集构建[J]. 中文信息学报, 2017, 31(05): 114-119.
[15] 张玉环, 钱江. 基于两种 LSTM 结构的文本情感分析[J]. 软件, 2018, 39(1), 116-120.