APP下载

基于实体信息和图神经网络的药物相互作用关系抽取

2022-03-30韩春燕琚生根

关键词:卷积神经网络实体

杨 霞, 韩春燕, 琚生根

(1.四川大学计算机学院, 成都 610065; 2.四川民族学院理工学院, 康定 626001)

药物-药物相互作用(Drug-Drug Interaction,DDI)关系抽取是生物医学关系抽取中最典型的任务之一,旨在从生物医学文献中提取两种或多种药物实体之间的相互作用关系.在临床应用中,当多种药物同时服用时可能会发生药物相互作用,这种作用可能在增加或减少药物效果的同时,让服用者产生不良反应,医务人员往往花费大量时间审查DDI的相关知识信息.然而,随着生物医学文献数量的增加,手动收集DDI信息既费时又昂贵.因此,如何有效地从这些医学文献中自动提取结构化信息已成为研究人员亟待解决的问题.

近年来,随着DDIExtraction 2011[1]和DDIExtraction 2013[2]药物抽取任务的发布,各种DDI提取方法被提出来,大致可以分为以下3类:基于模式匹配的方法、基于特征的机器学习方法和基于深度学习的方法.基于模式匹配的方法是这一领域的传统方法, 利用特定类型的模式和匹配规则来识别生物医学实体之间的语义关系.通常不需要标记数据,但需要生物医学专家来制定和设计模式形式或手动编码规则.由于预先定义的模式或规则通常不能适应自由文本中的语法变化导致召回率较低.因此,产生了机器学习的方法,基于机器学习的关系抽取采用特征表示或内核设计方法,通常会利用句子中多种多样的特征,并将其馈入支持向量机[3]等分类器中.与过去基于模式匹配的方法相比,基于特征的机器学习方法取得了较大的成功,并且具有更好的可移植性.但是它仍旧需要人工定义特征,比如词性、句法、语法等.由于获取这些特征需要利用外部自然语言处理(Natrual Language Processing,NLP)工具,而这些工具并非为特定领域量身定做,因此会存在错误传播从而影响性能.得益于深度学习的兴起,基于神经网络的自动特征表示模型在DDI提取任务中取得了较大的成功,这些模型能够在没有大量手工特征工程的情况下,自动从训练数据中学习相关表示和特征,而无需专家仔细设计模式、特征和内核功能.例如,卷积神经网络(Convolutional Neural Network ,CNN)和循环神经网络(Recurrent Neural Network,RNN).然而,这些神经网络模型仅从给定的句子中提取语义特征,性能往往不能优于基于特征和内核方法的模型.因此研究人员利用外部资源和背景知识来丰富语义特征,提升任务性能.这些方法都极大地促进了DDI的抽取,但仍然存在几个缺陷.首先,使用背景知识的模型可能过于局限于某些语料库,因为背景知识往往以不同的形式出现,有时候甚至找不到合适的知识.其次,为了预测句子中药物实体对之间的相互作用关系,大多数方法除了利用句子中词汇信息外,还需要大量额外的特征,比如词性特征、句子的依赖特征以及语法树特征,而这些特征的提取依赖于NLP工具,因此可能会因为遭受错误传播和积累而导致实验性能下降.

受到VGCN-BERT[4]和预训练的生物医学语言模型(Biomedical Bidirectional Encoder Representations from Transformers,BioBERT)[5]的启发,针对上述存在的问题,本文提出了基于预训练生物医学语言模型的词汇图卷积神经网络关系抽取模型(Relational BioBERT Vocabulary Graph Convolutional Network,RBio-VGCN),该模型通过BioBERT自动获得句子和实体嵌入特征,基于数据集中词语共现频率构建的词汇图,将句子嵌入与词汇图进行图卷积(Graph Convolutional NetWork, GCN)[6]操作获得与句子相关的全局语义特征,通过BioBERT模型各个层中的自注意力机制将句子嵌入信息与全局语义相关信息充分交互,捕获与输入句子相关的信息并且忽略掉不相关的信息,得到与关系抽取任务相关的特征表示,最后与药物目标实体对特征进行拼接用于DDI关系抽取.在获得较好的性能同时避免了使用外部资源和第三方NLP工具,使得该模型具有较好的泛化能力.

本文的主要贡献可归纳如下:(1) 首次在DDI数据集上构建词汇图,并将BioBERT获得的句子上下文信息使用图卷积神经网络获得与句子相关的全局特征,而不需要使用外部自然语言处理工具,避免错误传播与积累,最后使用多层自注意力机制,最大化获取与DDI任务相关的特征表示;(2) 通过在句子中嵌入目标药物实体对信息,为DDI关系抽取提供丰富的特征信息,而先前大多数工作都将其进行盲化处理;(3) 模型在数据集DDIExtraction 2013上获得了最优结果,验证了该模型的有效性.

目前在药物相互作用关系抽取领域应用的方法主要分为:基于模式匹配、基于核函数和基于深度学习的方法.其中,基于深度学习的方法由于可以自动地捕获输入句子的特征,实现药物相互关系自动抽取,已成为现在的研究热点.基于模式匹配和基于核函数的方法需要使用大量事先定义的特征,如词性、语义、药物名等特征来完成对药物关系的抽取.Tomas等[7]使用基于多数投票机制的核函数方法.Zheng 等[8]使用基于等价类和综合上下文信息的图内核.一般来说,这些基于特征和内核的方法都严重依赖于设计精良的特征或核函数.

随着深度学习的发展,Liu等[9]提出了基于句子依赖解析的卷积神经网络模型,由于CNN模型忽略了句法信息以及句子中单词之间的长距离依赖关系,该模型利用依存解析树来捕获这些信息,其中边表示两个单词之间的句法依赖.Zhao等[10]提出了一种语法卷积神经网络,它结合了基于语法嵌入的特征和传统特征,以获得更好的表示.为了识别句法信息,他们使用解析器生成谓词-自变量结构中的最短路径序列,而非传统的线性单词序列.刘宁宁等[11]提出了基于胶囊网络的药物关系抽取方法,该方法首先根据原语句解析出两个药物之间的最短依存路径,利用双向长短期记忆网络分别获取原语句和最短依存路径的低层语义表示,结合胶囊网络进行药物相互抽取.得益于图神经网络的发展,GCN已经被成功应用于在任意图结构上,包括知识图谱、社交网络、依赖图等.Park等[12]提出了图卷积网络注意力模型,采用基于注意力的修剪策略获得输入句子的上下文信息和句子的结构信息.但是以上模型使用额外工具解析句子依赖构建图结构,使得该模型可能会遭受错误传播和积累,并且都忽略了药物目标实体对特征信息进而将其盲化处理.

基于注意力机制的模型被广泛应用于自然语言处理,其中预训练语言模型BERT[13]由于其多层双向Transformer[14]结构,利用多层多头注意力机制将句子的上下文信息从前向和后向集成到单词向量中.BioBERT是第一个在生物医学领域语料库上经过预训练的语言表示模型,该模型使用BERT的权重作初始化参数,然后在生物医学领域的语料库PubMed摘要和PubMed Central全文本上进行训练.Nguyen等[15]基于Relation BERT[16]模型,使用BioBERT获得句子上下文信息,在药物相互作用数据集上取得了良好的性能.但是该模型中将目标药物实体对盲化,并未使用目标实体对特征信息用于关系抽取.Zhu 等[17]使用BioBERT获得句子的嵌入,并且利用药物实体特征信息,但同时也从知识库中引入大量药物解释知识,用以解释说明数据集中药物特征信息.由于需要引入特定的背景知识,降低了模型的泛化能力.

以上方法都严重依赖于语言特征和领域背景知识,这可能会给模型带来额外的错误以及影响模型的泛化能力.并且目标实体在句子中的位置信息与目标实体的上下文语义信息,对于关系抽取具有促进作用,而先前大多数工作都在数据预处理阶段将药物实体盲化.因此,本文提出的RBio-VGCN模型通过在DDI数据集上构建词汇图神经网络,使得句子获得额外信息特征的同时避免引入大量背景知识,同时利用数据集中的词汇构建图,避免使用第三方NLP工具解析句子依赖.

3 本文方法

3.1 任务描述

DDI关系抽取是根据生物医学文献中的句子对两个药物实体之间的相互作用类型进行分类.本文使用药物-药物相互作用公共数据集DDIExtraction 2013进行实验,药物-药物相互作用关系抽取实例如图1所示.

图1 药物-药物相互作用关系抽取示例Fig.1 Examples of drug-drug interaction extraction

对于句子中给定的药物实体标记:e1=“calcium” 和e2=“EMCYT”本文的目标是自动识别出句子中药物实体e1和药物e2所表达的关系Mechanism.

3.2 模型简介

图2 RBio-VGCN模型结构Fig.2 Structure of Rbio-VGCN model

3.3 输入层

本文根据原数据中的药物实体,生成相互作用的药物实体对.针对目标药物实体对不盲化,对句子中的非目标实体对的药物实体使用“GRUG0”进行盲化.由于本文使用的数据集中已经标记好了药物实体,因此不再需要进行命名实体识别.假设原语句s为:“Dexamethasone at 10(-10)M or retinyl acetate at about 3X 10(-9)M inhibits proliferation stimulated by EGF.”,其中 “Dexamethasone”,“ retinyl ”以及“EGF”表示药物实体,该句中共有三个药物实体,经过药物实体两两组合之后,可以得到三组药物对句子,在对每个句子中的目标实体对进行特殊符号标记后,会产生三个输入语句.如表1所示.

3.4 嵌入层

(1)

表1 输入语句处理

对于句子中的目标实体嵌入,本文将组成该目标实体的词的嵌入表示进行平均化,然后将平均后的结果作为该目标实体的嵌入表示,目标实体e1和e2嵌入公式分别如式(2)和式(3)所示.

(2)

(3)

其中,i、j分别表示实体e1中第i和第j个词语;m、n分别表示实体e2中第m和第n个词语.

3.5 实体和词汇图融入层

当嵌入层获得输入句子中词语的嵌入之后,在词汇图上进行卷积操作生成与句子相关的全局图嵌入,在此过程中,只有与输入句子相关的特征信息才会被抽取并且嵌入,再将句子嵌入和全局相关特征嵌入拼接(1),对拼接后的特征表示信息使用BioBERT中的多层自注意力机制,让句子嵌入和句子全局图嵌入特征进行充分交互(2),使得原始句子融入词汇中全局特征信息表示(3),过程如图3所示.

图3 句子嵌入与词汇图交互过程

3.5.1 构建词汇图 本文使用标准点互信息(Normalized Point-wise Mutual Information,NPMI)构建词汇图,因为这个指标可以很好的衡量两个词语之间的相关性,如式(4).

(4)

其中,i和j是词语;p(i)和p(j)表示的是两个单词出现的频率;p(i,j)表示词语i和词语j在同一条句子中出现的概率.NPMI的值的范围是[-1,1],正数表示单词之间的语义相关性很高,而负数则表示很少或根本不相关.在本文提出的方法中,如果两个单词之间的NPMI大于阈值,则在这两个单词之间建立一条边.本文实验表明,当阈值在0到0.2之间时性能达到最优.

3.5.2 词汇图卷积神经网络 GCN由Kipf等[6]提出,是一个直接在图上进行卷积操作的神经网络,通过邻居节点的属性推导当前节点的嵌入特征,从而在一定程度上集成该数据域的全局上下文信息.给定一个单层的GCN,卷积的过程如式(5)所示.

(5)

本文的目标是使用与任务相关的词语进行DDI关系抽取,而不是使用语料库中的整个句子,因此,本文提出的图形是基于词语构建的.假设给定由x个单词组成的输入句子,可以用式(6)来表示单层图卷积的过程.

(6)

(7)

那么相应的一个带有激活函数的多层词汇图卷积网络可以表示为

(8)

3.5.3 多层自注意力机制 在获得了与输入句子相关的全局词汇特征后,通过自注意力机制可以将原始句子的特征与全局词汇特征进行充分交互,在保留当前句子的上下文信息时融入与关系抽取相关的背景知识信息.

通过给定一个和任务相关的查询向量Q,计算与K的注意力分数并附加在V上,从而计算注意力分数,使用注意力分数,每个词语可以获得一个矢量表示来编码上下文信息.注意力分数计算公式如下:

(9)

本文将输入句子的原始嵌入和词语图神经网络相关的嵌入和一同输入BioBERT中,不仅获得了词语在句子中的序列信息,还获得了从VGCN中捕获到的背景知识.通过自注意力机制,将句子的局部信息和词汇图神经网络的全局信息进行充分交互,得到与任务相关的最终特征表示.

(10)

其中,Whg中g是超参数,为词语图神经网络的输出维度;m是一个训练批次的大小;e是词语的嵌入维度;v是训练集中词汇的数量.

在嵌入层分别获得标记后句子的表示输出Femb、目标实体e1和目标实体e2的表示输出后,本文对这三个输出表示进行拼接,得到最终的句子表示Hf.其中,权重矩阵w1的维度为Rn×3d,b1为偏置向量.如式(11)所示.

Hf=W1[concat(Femb,e1,e2)]+b1

(11)

输出层的作用将句子与目标实体全连接后的表示信息进行归一化,输出概率最大的标签.输出层利用Softmax函数实现归一化,使得所有关系类别的总概率和为1,如式(12)和式(13)所示.

(12)

(13)

本文采用交叉熵损失函数进行训练,交叉熵计算得分,该得分可以得出所有类别的实际概率分布与预测概率分布之间的差异.

(14)

其中,n表示训练数据集D=({s1,y1},…,{sn,yn})中数据大小;yi表示第i条句子si的真实类别标签;log(yi|si)表示第i条句子si被模型预测为真实标签yi的概率.

4 实 验

4.1 数据集及评估函数

本文使用的药物-药物相互作用关系抽取数据集DDIExtraction2013如表2所示.由730篇DrugBank中的医学文本和MEDLINE中的175篇摘要组成.该数据集分成两部分:训练集由572篇DrugBank中的医学文本和MEDLINE中的142篇摘要组成;测试集由158篇DrugBank中的医学文本和MEDLINE中的33篇摘要组成.该数据集中所有的药物实体都进行了标注,共有以下5种药物-药物相互作用关系类型.1) Mechanism:描述两种药物实体的药代动力学机制;2) Effect:明确地指出了两种药物相互作用的结果;3) Advise:描述了两种药物同时使用时的建议;4) Int:说明两种药物存在一定的关系,但未定义具体的关系类型;5) Negative:说明两个药物之间不存在相互作用.

表2 DDIExtraction 2013数据集信息统计

现有的DDI提取模型采用召回率R(Recall)、精确率P(Precision)、F1值(F1-score)三个指标进行评估.

4.2 参数设置

本文实验条件为1个RTX3090-24G,使用PyTorch框架(https://github.com/pytorch/pytorch),预训练语言模型采用基于医学数据集上进行训练的BioBERT,该模型包含12层的Transformer.本文模型使用的参数取值如表3所示.

表3 参数取值

4.3 实验结果

本文模型在DDIExtraction2013数据集上的训练过程如图4所示,图4是模型的F1值曲线图.从图中可以看出,模型训练的前段部分F1值提升较快,后续不断的波动寻找局部最优值,最后逐渐趋近平稳.

图4 F1值曲线图Fig.4 F1 value graph

本文设计了消融实验,以便于更好的分析不同模块对DDI抽取的影响力.如表4所示,分别验证了词汇图卷积神经网络(VGCN)和嵌入目标药物实体特征(RBio-BERT + Entity)对实验结果的影响.

由表4消融实验可知,当仅使用预训练的BioBERT模型而不加入任何实体信息和词汇图神经网络时,模型并不能很好的识别DDI关系.在加入目标实体信息后,模型的效果提高了1.55%,说明目标实体信息有利于关系抽取实验性能.而在加入原始BioBERT模型上加入词汇图神经网络捕获句子全局特征之后,实验性能提升了1.15%,说明与句子相关的全局信息可以提升关系抽取准确率.

表4 消融实验

该消融实验的结果说明本文提出的模型可以充分结合预训练生物医学语言模型、词汇图神经网络、目标药物实体信息三者的优势,从而更好地提升整个模型的抽取效果.

为了更好地验证本文模型的有效性,本小节将RBio-VGCN模型的性能与该数据集的其他模型[11,15,17-22]进行了比较.表5展示了在数据集DDIExtraction 2013上不同模型的实验结果.从表5中可以看到本文模型在测试集上的结果分别为:F1为83.25%,P为82.49%,R为84.02%,并且每种DDI类型的F1值也是优于先前的工作.在比较了现有最新模型之后,本文提出模型的F1值比现有最好模型[17]高出2.35%.

表5 基线模型实验结果比较

模型在加入目标药物实体和词汇图神经网络之后的精确率、召回率和F1值如图5所示.从图中可以得出,在加入该信息之后,实验性能提升了2.9%,这充分说明了药物实体对于信息DDI分类是有促进作用的.而对于本文构建的词汇图,在通过图卷积神经网络更新节点特征获得与句子相关的特征信息后,充分利用自注意力机制获得与DDI分类相关的特征,使得分类准确率得到了提升,也充分论证了全局信息对于实验性能提升是有促进作用的.

图5 药物实体和词汇图对实验性能的影响

图6是本文模型的混淆矩阵,图中颜色越深表示所占的比例越大.为了突出模型对药物关系类别的错误分类,本文将每一种DDI类别的数量进行归一化处理.从图6可以看出,该模型分类错误主要有两种: 1) 类别为Int的这一类关系经常被错误分类为Effect类; 2) 四种正例关系类别(Effect,Mechanism,Advise,Int)经常被错误地分类到负例这一类别中.

第一种类型的错误分类和先前的一些工作非常类似[23].我们认为原因在于Int类型的数量太少,训练集中仅有96条实例,并且本文观察到数据集中类型为Int和Effect的实例具有相似的语义,导致模型不能很好地分类这两种类别.而第二种类型的错误,我们认为主要的原因是由数据集中导致的,其中数据集中负例类别数量为28 509,而正例数量仅有4999条,这不可避免地使得数量少的类别被错误地分类到数量大的实例中.

图6 本文模型的混淆矩阵Fig.6 Confusion matrix of model

6 结 论

本文提出了RBio-VGCN模型用于DDI关系抽取.该模型充分利用了BioBERT动态捕获输入句子和目标药物实体的上下文信息,同时基于数据集构建词汇图,与输入句子进行图卷积操作获得与句子相关的全局特征信息,并使用自注意力机制最大化获取与关系抽取任务相关的特征信息,摒弃不相关的特征信息.实验结果表明,本文模型在DDIExtraction 2013 关系抽取任务中取得了很好的效果.在未来的工作中,我们会针对数据集中负例较多的数据不平衡现象,考虑数据增强等方案来平衡数据,使模型的实验性能提高.

猜你喜欢

卷积神经网络实体
基于全卷积神经网络的猪背膘厚快速准确测定
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
实体书店步入复兴期?
2017实体经济领军者
三次样条和二次删除相辅助的WASD神经网络与日本人口预测