APP下载

基于Bi-LSTM的生物医学文本语义消歧研究

2019-06-09罗曜儒李智

软件导刊 2019年4期
关键词:生物医学

罗曜儒 李智

摘 要:生物医学文本语义消歧研究中,上下文语义表示存在精度不高、忽略语言特性等问题,对此提出一种基于Bi-LSTM的新型语言模型。该模型通过考虑上下文词序将整个句义信息以无监督学习方式嵌入低维连续空间,并以此生成高质量的上下文表示,然后利用该方法构建歧义向量,最终计算cosine相似度,完成对歧义词的分类。实验表明,相比传统线性语言模型,基于Bi-LSTM生成的语义向量能更好地表示歧义词的语义信息,并在不同生物医学文本数据集中达到高准确度(95.01/91.27)。

关键词:语义消歧;Bi-LSTM;无监督学习;生物医学;上下文表示

DOI:10. 11907/rjdk. 182910

中图分类号:TP301文献标识码:A文章编号:1672-7800(2019)004-0057-03

0 引言

生物医学文本中包含大量特定领域知识(如症状、治疗、疾病),从其中自动提取信息可以改善临床医学研究及应用[1]。语义消歧是生物医学领域一个具有挑战性的自然语言处理任务,其表现在文本中某些词语可能含有两种或多种语义信息。例如cold可以指disease或者temperature,但是在“I am taking aspirin for my cold”这句话中具有唯一语义表示,其语义选择对整个句义具有较大影响,由此可见语义消歧是语义理解中至关重要的一步。

上下文表示通常由歧义词邻近单词的语义信息组合而成,是语义消歧任务中的关键步骤[2-4]。常见的上下文表示方法是通过Word2vec生成每个单词的词向量表示,然后利用线性合成方法生成整个句子的向量表示。虽然这些方法能够在一定程度上捕获句子的语义信息,然而大多数算法是基于词袋模型的,并没有考虑语序、语法等语言特性,使其在表示语义的准确度上还有较大提升空间。

当有了良好的上下文表示向量后,常见的语义消歧算法可以分为3类:监督学习、无监督学习和基于外部知识库的算法。监督算法使用标记数据学习潜在分类机制,然后根据上下文适当的单词意义对模糊词进行分类[5-8]。由于该方法需要大量标记数据,因此在标记训练数据有限时并不是最佳选择。基于外部知识库的算法使用外部知识信息作为训练数据[9-11]。这些数据具有高置信度等特点,并由领域专家进行标准化。无监督算法不需要标记数据,具有相似词义的上下文以无监督方式聚类成一类[12-14]。所有这些方法都广泛用于生物医学语义消歧任务。

本文使用不同上下文表示作为语义消歧研究中的输入特征,然后对具有相同标签的句义表示向量求均值以构建歧义向量,最后利用cosine计算歧义词的词向量与歧义向量间的相似度完成语义消歧。通过比较不同策略生成的上下文嵌入向量可发现,基于双向长短期记忆网络(Bi-LSTM)的表示方法相比传统线性表示方法有较大提升,其准确度达到95.01%。

1 词向量

词向量是一种利用低维连续空间中的向量表示单词的编码方法。早期词向量使用了基于词袋表示的One-Hot编码器,该方法将每个单词表示为一个向量,其维数等于词汇表中词的总数。向量维度中只有一个可以取值1,其余维度为0。当使用One-Hot方法表示文档时,其向量表示过于稀疏,无法提供单词之间的内在关系。针对该问题,采用Word2vec预训练词向量[15-17]。其中Word2vec包括Skip-Gram与CBOW两个语言模型,都由一个3层全连接神经网络组成。Skip-Gram模型通过目标单词对上下文单词进行预测,CBOW模型则相反,通过上下文单词对目标单词进行预测。由Word2vec进行预训练后生成的词向量中,具有相似语义的单词拥有相近向量表示,并且词向量之间的几何距离可以间接反映其语义相似性。本文采用CBOW模型,窗口大小为10,词向量维度为200。

2 上下文表示

2.1 线性表示法

采用线性组合方式的上下文表示主要包括以下3种方法:

2.2 基于Bi-LSTM的非线性表示法

由线性组合形成的上下文表示方法能在一定程度上对句子语义信息进行编码,然而该类方法忽略了语序等重要语言特征。针对该问题,为了更好地表示歧义词的上下文语义信息并同時考虑语序等特征,可以采用神经网络对上下文语义信息进行非线性编码 [18-20] 。

递归神经网络(RNN)广泛用于自然语言处理,缺点是随着隐藏层数量增加,该网络存在梯度消失或爆炸等问题。长短期记忆(LSTM)很好地解决了长期依赖性问题,该网络基本结构单元包括3个门结构:遗忘门[f]、输入门[i]与输出门[o],同时拥有一个记忆细胞[c]。每个门结构由一个sigmoid函数组成,在时刻[t]中,遗忘门[ft]用于移除[t-1]时刻[ct-1]中部分不相关的信息量,如式(4)所示。

在对歧义词进行最终分类时,将歧义词的词向量[w3]与歧义向量[DE(w3)]进行cosine相似度计算,将目标单词分类为相似度最大的语义,完成对生物医学文本的语义消歧。

3 实验结果与分析

数据集来自生物医学领域MSH dataset和NLM dataset。其中,MSH WSD数据集包含203个医学歧义实体、106个医学歧义缩写,每个歧义词最多有100个例句,共计   37 888条数据,NLM dataset包含50个医学歧义实体,共计552 153条数据。

为了验证基于Bi-LSTM生成的上下文语义表示对生物医学文本语义消歧研究的可行性,实验对比项包括级联、求均值、加权求和3种线性生成方法。实验结果评价方式采用Macro和Micro准确度,同时采用不同词向量维度验证其对实验结果的影响。最终MSH、NLM两种数据集下实验结果如表1、表2所示。

猜你喜欢

生物医学
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
广西医科大学生物医学工程一流学科建设成效
灵长类生物医学前沿探索中的伦理思考
南京航空航天大学生物医学光子学实验室
欢迎订阅《国际生物医学工程杂志》
欢迎订阅《国际生物医学工程杂志》
欢迎订阅《国际生物医学工程杂志》
聚乙烯胺及其衍生物在生物医学工程中的应用进展
中国生物医学工程学报 2019年第38卷总目次索引
国外生物医学文献获取的技术工具:述评与启示