基于多任务学习的生物医学实体关系抽取

2019-09-06李青青杨志豪林鸿飞

中文信息学报 2019年8期

李青青,杨志豪,罗凌,林鸿飞,王健

(大连理工大学计算机科学与技术学院，辽宁大连 116024)

0 引言

近年来，随着生物医学领域的快速发展，生物医学文献的数量呈指数级增长[1]。海量的生物医学文献中蕴含着丰富的知识，是生物医学研究者的重要信息资源。生物医学实体关系抽取技术，将在生物医学命名实体识别的基础上，利用文本挖掘技术，从海量的非结构化的生物医学文本中，自动抽取出生物医学实体，如蛋白质、药物、疾病等之间的关系。生物医学实体关系抽取技术有效缓解了人工抽取信息耗时、耗力的问题，对于生物医学领域的研究具有重要意义。

近年来，深度学习方法被广泛应用于实体关系抽取任务中。例如，在通用领域中，Zeng[2]等结合词向量和相对位置向量特征，使用卷积神经网络(Convolutional Neural Network，CNN)进行关系抽取。Zhang[3]等在Zeng等使用的特征之外，还引入了词性特征、命名实体特征以及基于斯坦福句法解析器的句法特征，使用双向长短期记忆网络(Bi-directional Long-Short Term Memory，BiLSTM)来解决关系抽取问题。Vu[4]等分别使用卷积神经网络和循环神经网络(Recurrent Neural Network，RNN)提取基于句子序列的关系，然后使用决策后处理来结合卷积神经网络和循环神经网络的结果。在生物医学领域的关系抽取任务中，李丽双[5]等利用词表示和深层神经网络抽取蛋白质之间的交互关系(Protein-Protein Interaction，PPI)；Zhang[6]等结合卷积神经网络和循环神经网络进行药物交互关系(Drug-Drug Interaction，DDI)抽取。虽然这些方法在生物医学关系抽取任务上已经取得了较好的效果，但是在训练模型时往往只关注某一特定任务。然而在生物医学关系抽取任务之间，常常存在着一定的相关性。表1给出了一些DDI和PPI示例(浅色字体表示候选实体对，深色字体表示关系触发词)，可以看到DDI和PPI示例的句1和句2都使用了“interaction”和“effect”触发词来表述两个实体之间的交互关系。而目前基于单任务的关系抽取方法忽略了这些任务之间的关联性，使得模型的泛化能力有限。因此本文对基于多任务学习[7]的实体关系抽取方法进行了探索。

多任务学习的基本思想是同时对多个任务进行学习，利用任务间的相关信息来提升模型性能。基于神经网络的多任务学习方法主要采用参数共享的学习模式，为多个任务学习一个共享的表示[8]。当多个任务具有共性时，特别是当训练数据有限时，与仅训练单个数据集的模型相比，多任务学习可以取得更好的性能[9-11]。如Marasovi[12]等使用多任务学习方法，利用语义角色标注任务提升舆论角色标注任务的性能；Liu[13]等搭建多任务学习模型，使得多个文本分类任务的性能显著提升。

由于目前生物医学关系抽取方法主要采用单任务学习方法，学习过程相互独立，从而忽略了任务之间的关联性。针对此问题，本文构建了全共享多任务模型(Fully-Shared Model，FSM)、私有共享多任务模型(Shared-Private Model，SPM)，并在此基础上提出了一种基于Attention机制的主辅多任务模型(Attention-based Main-Auxiliary Model，Att-MAM)，来进行生物医学实体关系抽取多任务学习。在生物医学领域5个公开数据集上的实验结果表明，多任务学习模型可以有效地利用任务之间的相关性，学习共享的表示，补充各个单任务的信息，提升任务性能(FSM，SPM，Att-MAM多任务模型相比单任务模型在5个语料上F值分别平均提升了1.30%，1.97%和2.66%)。尤其是针对单任务标注训练集规模小的情况，多任务学习可以弥补先验知识的不足，抽取性能提升更为明显。

表1 DDI和PPI数据实例展示

1 基于BiLSTM的单任务实体关系抽取模型

对于单任务模型，我们使用了目前关系抽取常用的BiLSTM模型，并用词向量和实体相对位置向量拼接作为模型输入，模型结构如图1(a)所示。具体地，给定一个包含实体对的句子S，令{w1,…,wt,…wn}表示句子词序列，n表示句子长度。对于序列中的每个单词wt，首先通过使用Word2Vec[14]工具训练得到的词向量表得到对应的词向量et，令每个词和实体对的相对位置向量为dis1t和dis2t(位置向量使用正态分布进行随机初始化)，然后将这些向量拼接起来，得到每个单词的表示xt= [(et)T，(dis1t)T，(dis2t)T]作为模型的输入。

长短期记忆网络(Long-Short Term Memory，LSTM)[15]可以有效地缓解梯度消失问题，在深度学习方法中被广泛应用。在LSTM模型中，根据当前的输入xt，上一个隐层状态ht-1，以及上一个存储单元ct-1，可以由式(1)～式(6)计算输入门i，遗忘门f，输出门ot，抽取的特征向量gt，当前的隐层状态ht以及当前的记忆细胞ct。

图1 模型架构Main表示主任务，Auxi表示第i个辅助任务

其中，{W(.)，U(.)}表示LSTM的参数矩阵集合，{b(.)}是LSTM的偏置向量集合。

2 多任务实体关系抽取模型

本节中，依次阐述本文构建的三个多任务学习模型：全共享模型、私有共享模型以及基于Attention机制的主辅多任务模型。在多任务模型中，总是将多个任务的数据集同时作为输入进行训练。在多个任务中，定义其中一个任务为主任务，其他任务作为辅助任务。辅助任务与主任务共同训练以达到提升主任务性能的目的。每个任务的输入特征都和上述单任务使用的特征一样。

2.1 全共享多任务模型

全共享多任务模型(Fully-Shared Model，FSM)的具体架构如图1(b)所示，除了输出层以外，模型的所有参数在多个任务之间都是共享的。每个任务都有一个任务特定的输出层，它根据全共享BiLSTM网络产生的表示进行预测。在对某个特定任务的小批量数据进行训练时，其他任务的输出层参数不会更新。例如，给定一个主任务m和一个辅助任务n，全共享BiLSTM网络可以为两个任务学习一个共享的表示hs，该共享表示被传递到两个任务各自的输出层进行分类。

2.2 私有共享多任务模型

2.3 基于Attention机制的主辅多任务模型

3 实验

3.1 实验数据和设置

本实验使用生物医学领域的5个公开数据集： AImed[20]、BioInfer[21]、ChemProt[22]、DDIExtraction 2011[23]以及I2b2/VA2010[24]。5个语料都是句子级别标注的关系抽取语料，即在每个句子中标注出了所有关注的实体，以及存在关系的实体对。其中AImed和BioInfer是蛋白质关系抽取任务中被广泛使用的语料，用来判别两个候选蛋白质是否存在交互关系。ChemProt是药物—蛋白质关系数据集，语料中的正例被细分为10个具体类别。DDIExtraction 2011是药物—药物交互关系数据集，用来判别两个候选药物之间是否存在关系。I2b2/VA2010数据集关注的是医学电子病历中医疗问题(Problem)、临床试验(Test)和治疗方法(Treatment)3类实体中的实体对Treatment-Problem、Test-Problem以及Problem-Problem间的关系，这3大类关系又被细分为8类具体关系。本文实验只关注实体间是否存在关系的二元分类，所以对于非二分类的语料，我们将其所有的正例都合并为一类“存在关系”，其余的实体对为负例“没有关系”。

由于AImed和BioInfer原始数据集没有划分测试集，因此我们随机抽出20%作为测试集，剩余的80%作为训练集。此外，我们将ChemProt原始的训练集和验证集进行合并作为新的训练集。上述5个语料的候选实体对实例数据统计在表2中给出。

实验中，我们从PubMed中下载MedLine摘要，然后加入了本文中使用的5个语料数据，使用Word2Vec工具中的skip-gram模型来进行词向量预训练。本实验使用交叉熵损失函数作为目标函数，使用RMSprop算法[25]进行参数优化，并从训练集中随机划分20%作为验证集，用于选择模型超参数，实验中的模型主要超参数如表3所示。此外，本实验采用生物医学实体关系抽取任务中常用的综合分类率F值评价指标对实验结果进行评价。

表2 实验语料的数据统计

表3 超参数设置

为了与多任务模型进行对比，我们用单个任务的数据集训练各自的单任务模型(Single-Task Model，STM)作为基线系统。此外，我们还将所有语料的训练集合并，使用合并后的训练集训练了一个通用泛化的模型(General Model，GEM)作为对比系统。在训练单任务模型和通用泛化的模型时，我们根据单个任务验证集上的模型性能，使用早停机制选择训练迭代次数。在训练多任务模型时，根据当前的主任务验证集上的模型性能，使用早停机制选择训练迭代次数。

3.2 两两数据集之间的多任务学习效果实验

在多任务模型中，为了探究每两个任务间的相互作用，我们对5个数据集进行了两两全共享和两两私有共享多任务实验。具体来说，对于给定的五个任务，选出一个为主任务，在剩余的四个任务中，每次仅选取一个任务作为辅任务，然后使用主任务与选定的该辅任务的数据集训练一个全共享和私有共享模型，实验结果在表4中给出。其中，“STM”“FSM”“SPM”分别表示单任务模型、两两全共享模型和两两私有共享模型。相比单任务模型，多任务模型在主任务上预测性能有提升的结果用加粗字体表示。

表4 两两多任务模型实验结果(%)

实验结果表明：在多任务模型中，不同的辅任务对主任务具有不同影响，辅任务与主任务越相关，越容易促进主任务的预测性能。其中，AImed和BioInfer都是PPI数据集，这两个数据集中对于蛋白质对之间的关系描述方式是相似的，例如，都会使用“interact”或者“binding”等触发词来表征蛋白质对之间存在关系，因此多任务学习可以更好地学习两个任务之间的相关性，使得任务间彼此促进。ChemProt数据集和DDI2011数据集中都涉及药物实体，联合训练时，模型会学习到两个任务之间的共享信息，对单个数据集中的信息进行补充，提高模型的预测性能。另一方面，在FSM中，I2b2/VA2010会降低其他四个任务的预测性能。这可能是因为I2b2/VA2010是电子病历中的数据集，包含的实体是医学电子病历中的临床试验、临床问题和治疗手段，与其他四个数据集中的实体类型以及交互表示具有较大差异，因此仅使用I2b2/VA2010作为辅助任务时会降低其他主任务的预测性能。

3.3 所有数据集之间的多任务学习效果实验

为了验证多任务模型在所有数据集上的有效性，我们在表5中列出多任务模型与单任务模型的实验对比结果。其中，“STM”“GEM”“FSM”“SPM”“Att-MAM”分别代表单任务模型、通用泛化模型、全共享模型、私有共享模型和基于Attention机制的主辅多任务模型。相比单任务模型，多任务模型在主任务上预测性能最好的结果用加粗字体表示。

表5 单任务模型与多任务模型性能比较(%)

*σF表示各个模型相对于单任务模型的F值变化。

表5中的实验结果显示：与五个任务的STM的平均F值69.75%相比，GEM在五个数据集上的平均F值(68.92%)下降0.83%。一方面，GEM在ChemProt、DDI2011与I2b2/VA2010数据集上的预测性能下降。GEM将五个任务的训练集简单混合在一起进行训练，忽略用实体类型来判断实体对之间的关系。当一个数据集中对正例的描述方式与另一个数据集中对负例的描述方式相似时，会影响模型的判断能力。并且，每个任务的数据集中都存在任务特定的噪声，例如，模型的错误预测通常是由于实体对之间的否定表述和并列结构。GEM将数据集混合会造成噪声累积，从而降低模型的预测能力。另一方面，GEM在AImed和BioInfer数据集上的预测性能有所提高。这是因为简单地混合数据进行训练，相当于为特定任务增加了训练样本，当增加的样本中的信息与原有的数据具有相似且一致的特征时(例如PPI与DDI都用“effect”或者“interact”表征交互关系)，就有可能提高模型对于原样本的预测性能。

FSM、SPM和Att-MAM分别取得了71.05%、71.72%和72.41%的平均F值，比STM分别平均提高1.30%、1.97%、2.66%，比GEM分别提高2.13%、2.80%、3.49%。与STM相比，在多任务模型中，对主任务来说，引入辅任务进行训练，可以更加明显地区分某个类别的特征。例如，AImed为蛋白质-蛋白质交互关系(PPI)数据集，DDI2011为药物-药物交互关系(DDI)数据集，PPI和DDI中都是用“interaction”来表征两个实体间存在关系的，因此当DDI2011作为辅任务数据集和主任务数据集AImed进行联合训练时，可以使模型更易学习某个类别的特征，从而提高预测性能。尤其是本文中的三个多任务模型在AImed数据集上的性能较单任务分别显著提升2.51%、4.39%、7.98%。由表2可知，相比其他4个数据集，AImed训练集规模相对较小。多任务学习可以弥补小数据集先验知识的不足，使得抽取性能提升更为明显。另一方面，相比于五个任务的单任务模型，FSM在4个数据集上的性能都有所提高，其中，在AImed和I2b2/VA2010数据集上性能有显著提升，而在BioInfer数据集上的性能略微有所下降。这是因为在FSM中，引入辅任务和主任务联合训练共享空间时，会保留某些辅任务特定的特征，辅任务特定的特征会对主任务的预测性能带来消极影响。

对比3个多任务模型，其中Att-MAM的效果最好，SPM效果优于FSM。FSM利用所有任务的知识联合学习多个任务，并在任务间共享输出层外的所有参数，为所有任务学习一个共享的表示。FSM中的共享表示最大可能地捕获了所有任务的共享表示，有效避免了训练过程中的过拟合，使得模型在主任务的测试集上取得更好的效果。但是，在FSM中，所有任务仅通过一个共享层无法区分共享信息与任务特定信息。SPM也为主任务和所有辅任务学习一个共享的表示，捕捉所有任务的共享特征；除此之外，每个任务还有一个私有的BiLSTM网络，学习任务特定的特征。共享特征作为任务特定特征的补充，可提高模型的预测能力；私有BiLSTM网络最大程度地保留了任务特定特征，有效防止了共享表示中的噪声对任务特定特征影响，因此SPM的性能优于FSM。相比SPM，在Att-MAM中，不仅每个任务有一个私有BiLSTM网络，而且每个辅任务都与主任务有一个共享的BiLSTM网络，然后通过Attention层来学习每个辅任务对主任务的不同影响。由表4的分析可知，每个辅任务对主任务的影响不同，因此所有的共享表示和任务特定的表示经过Attention层时，会根据对主任务的不同影响被分配不同的权重。私有的BiLSTM网络可以最大程度地保留任务特定的特征，主任务通过与不同辅任务训练共享表示可以捕获更多的共享特征，引入Attention机制为不同特征分配权重，有效避免了辅任务对主任务的消极影响，因此Att-MAM的性能优于SPM和FSM。

3.4 Attention机制在主辅多任务模型中的有效性实验

为了验证Attention机制在主辅多任务模型中的有效性，我们做了如下实验：构建不使用Attention层的主辅多任务模型，即主任务与每个辅任务的共享表示直接和主任务的私有表示拼接起来，送入主任务输出层进行分类。实验结果如表6所示，其中“STM”“MAM”“Att-MAM”分别表示单任务模型、不使用Attention和使用Attention机制的主辅多任务模型。

表6 Attention机制对主辅多任务模型性能的影响(%)

从表6结果可以看到，MAM取得了70.81%的平均F值，比STM平均提高1.06%，但比Att-MAM平均降低1.60%，该结果说明了Attention机制的有效性。主任务与辅任务学习的共享表示可以为私有表示提供补充信息，从而提升单任务的预测性能；但是由于辅任务对主任务的影响不总是积极的，使用Attention机制为消极作用的辅任务分配较低权重，可以有效避免辅任务的噪声对模型的性能影响；同时，为具有积极影响的共享特征分配更高的权重，可以使模型学习到更易区分类别的特征，从而提升模型的预测性能。

3.5 与他人工作方法的对比实验

由于在本文工作中，我们对于蛋白质关系抽取语料AImed和BioInfer按照8∶2的比例随机划分了训练集和测试集，并且将多分类语料处理为二分类语料，所以我们重现了生物医学领域关系分类任务上性能较好的三个方法，与我们的方法进行对比。三个方法为，CNN: Sahu等[26]提出的具有最大池化层的多滤波器CNN；CRNN-Max和CRNN-Att：由Raj等[27]提出的基于CNN和双向LSTM组合的双层模型。后两者在输出层之前分别采用Max-pooling操作和Attention机制来抽取最显著的特征。实验中，我们去除了词性等额外特征，均保留词向量特征和相对位置向量特征作为输入特征。实验结果如表7所示。其中，“Ours”表示我们的方法中具有最好性能的基于Attention机制的主辅多任务模型。预测性能最好的结果用加粗字体显示。

表7 与他人工作方法的对比(%)

表7的实验结果显示：我们的方法的平均F值比多滤波器CNN提高2.80%，与结合CNN与RNN的CRNN-Max和CRNN-Att模型相比，分别提升了0.89%和1.12%。实验结果验证了多任务模型的有效性。Sahu等[26]和Raj等[27]搭建的单任务模型，利用多滤波器CNN或者组合CNN与RNN的方法，有效地抽取出单一任务的特定特征。多任务模型仅使用单层RNN网络，在抽取任务特定特征的同时，通过共享空间有效学习到多个任务之间的共享特征，使得具有关联性的各个单任务之间互相促进，从何取得了更好的性能。

4 结束语

针对目前生物医学关系抽取现存方法仅考虑单任务而没有利用多任务间相关性的问题，本文对基于多任务学习的生物医学关系抽取进行了探索。基于BiLSTM模型，我们构建了全共享模型(FSM)、私有共享模型(SPM)，并在此基础上提出了基于Attention机制的主辅多任务学习模型(Att-MAM)。Att-MAM利用Attention机制充分考虑了每个辅任务对主任务的不同程度的影响。实验结果表明，本文的三个多任务模型性能优于每个任务的单任务模型，其中Att-MAM取得了最好的结果，并且性能优于Sahu和Raj等提出的关系分类方法。多任务学习方法可以利用多个任务之间的共性，为多个任务学习共享的表示，增加训练样本数量的同时，平衡了不同数据集中的噪声，提升模型的性能。

目前我们只使用了最基础的特征在关系抽取二分类问题上进行了研究，在未来的工作中，我们将探究关系抽取中其他额外特征(例如,词性、依存句法特征等)对多任务学习的影响，也将进一步从简单的二分类问题扩展到多分类问题。此外，我们也将尝试引入对抗学习方法来降低共享空间中的噪声，使得模型学习到的共享表示更加精确，从而进一步提升模型的预测性能。