基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取
2024-05-09尼玛扎西
于 韬,拥 措,高 兴,尼玛扎西
(1. 西藏大学 信息科学技术学院,西藏 拉萨 850000;2. 西藏自治区藏文信息技术人工智能重点实验室,西藏 拉萨 850000;3. 藏文信息技术教育部工程研究中心,西藏 拉萨 850000)
0 引言
随着我国信息化进程的不断发展,极大地推动了人工智能等先进技术的产业融合,例如,人工智能技术与医疗、经济等与民生密切相关领域的融合,为我国人民的生产与生活提供了极大的便利。其中,藏医药作为我国藏族人民的文化瑰宝,拥有2 000多年的历史,是藏族人民通过长期丰富的生产和生活实践,博采众长,逐步形成的传统医学体系,其中必定蕴含十分宝贵的潜在价值,因此如何挖掘藏医药文本中的价值信息成为研究的关键。
实体关系联合抽取是自然语言处理领域的重要研究任务,同时也是信息抽取中的关键技术,它可以识别藏医药文本中的命名实体并抽取实体间的语义关系,最后利用命名实体及语义关系构建实体关系三元组。本文主要探究了基于序列标注的联合抽取方法,并以该方法的代表模型NovingTagging[1]进行分析,通过分析目前存在的问题,本文提出了以下改进方法:
(1) 通过分析NovingTagging模型的标注策略,了解到其序列标注方式的局限性在于无法对嵌套实体进行标注,因此本文提出了嵌套实体标注策略,在原有标注方法的基础上添加了一层嵌套实体标签,可以标注长实体中嵌套的短实体,进而可以通过联合抽取模型直接获得三元组数据及嵌套实体。
(2) 通过分析NovingTagging模型的效果,了解到其具有特征单一、模型学习能力有限的问题,因此本文从特征增强、模型优化方面入手,提出了基于多特征融合及奖惩机制的联合抽取模型(双元动态模型),主要通过类别特征静态融合、奖惩机制及多特征动态融合方法进行改进,其中,类别特征静态融合及多特征动态融合方法是特征增强方面的改进,构建的静态类别特征、动态分词特征及动态位置特征提升了模型输入特征的质量,使得实体边界有了更高质量的特征表示,对于长度跨度较大的藏医药领域实体也可以进行较好的识别。
(3) 奖惩机制是模型优化方面的改进,由条件随机场(Conditional Random Fields,CRF)损失值入手,在计算损失值的过程中,对识别正确或错误的标签进行“奖励”或“惩罚”,然后通过损失值的反向传播不断地优化模型参数。同时,本文在双元动态模型中添加了针对不同处理过程的损失值。
通过以上改进方式优化模型,提升了联合抽取模型的效果。
1 相关工作
实体关系联合抽取主要有两大类研究方法: 流水线方法与联合方法。流水线方法[2-5]将联合抽取任务分解为实体识别与关系抽取,通过串联的方式实现联合抽取,但该方式存在缺乏交互、误差累积等问题,影响了模型的效果。联合方法相较于流水线方法更多地考虑了子任务间的交互性,且通过端到端模型可直接获得三元组数据,提升了模型的效果,并逐渐成为当下研究的热点方向。
联合方法按照解码器使用方式的不同可分为两大类: 基于共享参数的联合抽取模型与基于联合解码的联合抽取模型,前者将联合抽取任务分解为不同的子任务,但与流水线方式不同的是,子任务间共享编码层的信息,最后在不同子任务后使用不同的解码器。Miwa等人[6]首次提出使用深度学习方法进行联合抽取,使用双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型及两层前馈神经网络学习词特征,然后输入到依赖层获得最终的命名实体及实体关系。Katiyar等人[7]首先通过序列标注方法识别头实体,然后使用指针网络根据实体关系类型识别出尾实体。Zhou等人[8]首先使用BiLSTM模型与卷积神经网络(Convolutional Neural Network,CNN)模型进行关系抽取,然后使用长短时记忆网络模型进行解码,最后获得关系对应的头实体及尾实体。上述基于共享参数的联合抽取模型虽共享了编码层的信息,但依然存在子任务间交互性不强的问题,因此,基于联合解码的联合抽取模型应运而生。
基于联合解码的联合抽取模型在编码层上叠加统一的解码器,使得模型可以直接解码获得三元组信息,增强了子任务间的交互性。Zhang等人首次使用序列标注方法实现联合抽取(NovingTagging模型),该模型主要包括词嵌入层、BiLSTM编码层、线性分类层、CRF解码层,首先使用BiLSTM对标注信息进行编码,然后使用相同的CRF解码器进行解码,即可获得最终的三元组信息。在Zhang等人的研究基础上,Dai等人[9]根据每个单词的位置进行多次标注,然后使用基于位置的注意力机制及CRF解码器进行解码,解码后获得多个标注序列,极大地缓解了关系重叠的问题。Zeng等人[10]首次采用序列到序列的方法实现联合抽取,并引入了复制机制,使用序列到序列方法中的编码器、解码器结构获得头实体、关系及尾实体。随后,Zeng等人[11]使用强化学习方法对三元组间的顺序关系进行分析,提升了模型的抽取效果。针对NovingTagging无法复制多个词组成的实体,Zeng等人[12]使用多任务学习方法解决上述问题,使用序列标注模块与复制机制获得的两个实体进行校对,提升了对实体的识别效果。Nayak等人[13]对三元组的表示进行了改进,提出了基于单词的解码器和基于指针网络的解码器,提升了三元组间的交互性。Sui等人[14]假设三元组是无序的,采用非自回归解码器后可通过模型直接生成三元组集合。田佳来等人[15]在序列标注方法解决联合抽取任务的基础上,提出了分层序列标注方法,并通过位置信息增强特征质量,提升了对重叠三元组的识别效果。Lai等人[16]使用多头注意力层获得的句子及关系表征增强编码后的特征质量,然后通过序列标注方法获得实体对。朱秀宝等人[17]提出了增强序列标注策略的单阶段联合抽取方法,为单词标注多个标签并将其转化为多标签分类任务,解决了嵌套实体、重叠关系等问题。
本文的主要贡献是在基于序列标注的联合抽取方法NovingTagging上进行研究,分析模型存在的问题并提出改进方法。
2 方法与模型
2.1 嵌套实体标注策略
NovingTagging模型首次提出了用于联合抽取任务的序列标注方法,该方法在实体起始标志后添加了关系类型及实体顺序索引。但该方法还具有一定的标注弊端,只能对文献[10]中提出的Normal类型的关系类型进行标注及联合抽取,而无法标注SEO、EPO类型的三元组。因此,付瑞等人[18]提出了新的标注方法,在领域数据中句子的描述主要围绕该领域的实体展开,本质上只需要抽取与领域实体存在关系的其他实体即可,因此将领域实体标注为MAIN,其余实体的标注方法与NovingTagging方法相同,提升了对SEO关系类型的联合抽取效果。吴赛赛等人[19]在付瑞等的基础上作了进一步改进,提出了面向领域实体关系联合抽取的标注模式,吴赛赛等人去除了实体顺序索引,以领域实体作为头实体,并标注为ME,其余实体为尾实体,减少了实际标签的使用数量。
本文的藏医药领域数据适用于吴赛赛等人提出的标注模式,但上述方法无法实现对嵌套实体的标注,即长实体中的短实体,而藏医药领域嵌套实体较多,因此本文提出了面向领域数据的嵌套实体标注策略。标注方法以吴赛赛等人提出的标注模式为基础,针对藏医药领域的三大类数据,本文将领域实体分别标注为YC、FJ、ZLFF,分别表示藏药材、方剂、诊疗方法数据中的领域实体, 该种标注方法与上述方法中的MAIN及ME不同,对领域实体分类标注可为后续类别特征静态融合方法提供帮助。
图1 面向领域数据的嵌套实体标注策略
2.2 双元动态模型
受限于NovingTagging模型的特征学习能力,无法有效地学习特征中的重要信息及解码藏医药领域实体标签,导致模型联合抽取效果较差,因此本文提出了用于藏医药领域的联合抽取模型,即双元动态模型,通过类别特征静态融合、奖惩机制及多特征动态融合方法对NovingTagging模型进行改进。其中,类别特征静态融合及多特征动态融合方法用以提升模型输入特征的质量,增强藏医药实体边界的表达;奖惩机制用以优化模型,在计算损失值的过程中对模型提供帮助,然后通过损失值的反向传播优化模型。双元动态模型框架如图2所示,本节主要介绍模型中相较于NovingTagging模型改进的模块,分别为类别特征静态融合层、奖惩机制层、多特征动态融合层及标签输出模块。
图2 双元动态模型架构
2.2.1 类别特征静态融合层
类别特征静态融合层是根据本文提出的类别特征静态融合方法构建的。由于NovingTagging方法将词嵌入特征(Input Embedding)直接输入到BiLSTM模型进行编码学习,输入特征较少,导致BiLSTM模型无法学习到除Input Embedding外的其余有效信息。因此,结合以上因素及藏医药数据的特点,本文提出了类别特征静态融合方法,并对模型进行了改进。其中,Input Embedding通过随机初始化向量方法(Embedding)构建,与传统的词向量模型Word2Vec[20], 基于Transformer的预训练语言模型如BERT[21]、ERNIE[22]、Albert[23]、CINO[24]相比,本文的藏医药数据量较小,通过Word2Vec工具获得的静态词向量质量不高;BERT等预训练语言模型是在大规模的通用领域数据上进行训练,针对藏医药领域无法获得较好的词向量,因此本文选用了Embedding方法。
类别特征静态融合方法的提出,主要源于藏医药领域数据的类别特点,该数据主要分为三个类别,分别为药材、方剂、诊疗方法。该方法的主要思路与预训练语言模型的词嵌入方法相似,但基本原理及实现方法不同。类别特征向量,如图2中的Class Embedding,在实现过程中以“0”表示药材类别、“1”表示方剂类别、“2”表示诊疗方法类别,最后通过Embedding方法构建类别特征向量。此时通过输入(Input)已经获得了Input Embedding及Class Embedding,但由于两者都是由原始Input输入获得,并未涉及其他额外的信息,因此Input Embedding及Class Embedding的融合方式为静态融合,最终在词向量维度对上述向量进行融合,扩充特征维度,使得当前特征的信息更加丰富,为BiLSTM模型学习到更有效、更重要的信息提供帮助。
2.2.2 奖惩机制层
奖惩机制层(RAPS)是根据本文提出的奖惩机制进行构建的,其本质是在CRF模型寻找最优路径的过程中对其提供帮助,并通过损失值的不断反向传播优化模型,奖惩机制的提出与通过CRF计算损失值密切相关。首先,CRF模型约束标签的输出是通过构建全局最优路径实现的,CRF首先计算每一条路径的分数,然后选取分数最高的一条路径作为最终的标签输出路径,在这个过程中不同路径的分数由组成路径各点的分数获得。
然后,通过计算可获得每一条路径的分数,其中包括了某一条正确路径的分数,将每一条路径的分数汇总即可获得每种路径可能分数的总和。通过正确路径的分数及每种路径可能分数的总和可获得当前的概率表示,如式(1)所示。
由于点是组成路径的主要因素,因此奖惩机制主要用于调整不同点的分数,通过对比点的预测结果与真实结果,可以确定路径中的节点是否预测正确,进而可以判断当前路径是否预测正确。由式(2)可知,当所有预测序列可能的得分和增大时,而正确路径只有一条,其分数不变,因此损失值增大,模型效果不佳;反之模型效果较好。因此,当模型预测错误的路径较多时,对其进行惩罚,模型Loss增大;反之对其进行奖励,Loss减小。奖惩机制的加入使得模型可以根据Loss的反向传播更好地进行修正与改进,同时通过不断地训练可使得真实路径所占的比值越来越大,提升模型的联合抽取效果。
2.2.3 多特征动态融合层
双元动态模型的多特征动态融合层是根据本文提出的多特征动态融合方法构建的。与类别特征静态融合方法相似,多特征动态融合方法的目的也是为BiLSTM编码层提供更为丰富、质量更高的输入特征。多特征动态融合层以增强实体边界为主要目标,通过预测的标签序列动态获得分词特征与位置特征,值得注意的是,分词特征与位置特征主要针对的是命名实体,即构建针对实体的分词、位置特征,利用其增强标注序列中的实体边界,然后将其构建为特征向量,并与类别特征静态融合方法获得的特征进行融合,以提升特征的质量。
由上文分析可知,多特征动态融合层由两部分构成,分别为图2中的Segment Embedding与Position Embedding的融合及Input Embedding与Class Embedding的融合,其中,Input Embedding与Class Embedding的融合已在类别特征静态融合层中介绍,本节主要介绍动态分词信息、位置信息的获取方式及多特征融合方式,获取方式如图3所示。
图3 动态分词信息及位置信息的获取方式
图3中预测标签序列为CRF解码层的输出,首先将序列输入到分词信息提取器,其根据标签构建针对实体的分词信息,对于藏医药领域实体,将实体起始位置、结束位置、中间位置的分词信息分别标注为1、3、2;对于非实体,将其分词信息标注为0。
然后将标签序列输入到位置信息提取器,其根据标签构建针对实体的位置信息,图3中共有10个标签,首先根据标签序列长度构建句子的初始位置信息,然后针对句子中实体对应的标签,将初始位置信息序列的相应位置与数据集的句子最大长度求和。综上,分词信息与位置信息的添加是为了更好地表示实体的边界,使得模型可以较好地识别标签。最后将2.2.1节获得的静态融合特征与本节获得的动态融合特征进行融合,获得总体融合特征,用于模型的后续学习。
2.2.4 标签输出模块
标签输出模块对应图2中模型架构的右侧结构,其是一个完整的结构,包含BiLSTM编码层、线性分类层、奖惩机制层、CRF解码层,该模块主要是学习通过多特征动态融合层构建的高质量融合特征,并输出最终的预测标签序列(Tag Output)。标签输出模块使用的BiLSTM编码层为BiLSTM Model2,以多特征动态融合层构建的特征作为输入,其输出将用于构建最终的预测标签序列。此外,模型架构左侧还设置了BiLSTM Model1编码层,以类别特征静态融合层构建的特征作为输入,其输出将作为多特征动态融合层的输入。
综上,双元动态模型设置了两个相对独立的编码模块,通过其协同配合完成联合抽取。
由于编码模块的输入特征不同,可以将双元动态模型理解为两个结构,分别为静态特征学习结构与动态特征学习结构,且前者是后者的研究基础。静态特征学习结构以类别特征静态融合方法构建的特征作为输入特征,并通过BiLSTM Model1模型作为编码器,编码结果将为动态特征学习结构提供研究基础;动态特征学习结构以类别特征静态融合方法及多特征动态融合方法构建的特征作为输入特征,并通过BiLSTM Model2模型作为编码器,编码结果将用于获取最终的预测标签序列。同时,本文将两个结构中编码器的参数相关联,并通过Adam优化器优化相关联后的模型参数,起到优化全局的作用。
与此同时,由于双元动态模型使用了两个结构,本文在传统损失值的基础上增加了额外的方案。分别为: ①静态特征学习结构的预测结果与真实标签间的损失值;②动态特征学习结构的预测结果与真实标签间的损失值;③静态特征学习结构的预测结果与动态特征学习结构的预测结果间的损失值。
三个不同的损失值分别反向传播,带来的效果如下: ①及时修正静态特征学习结构的模型效果,同时可增强根据该模型预测结果动态获得的特征质量,为后续动态特征学习结构提供帮助;②修正动态特征学习结构的模型效果,提升双元动态模型的总体效果;③缩小静态特征学习结构与动态特征学习结构预测结果间的差距,在一定程度上增强了两个结构间配合的紧密程度。其中,方案①、②为传统损失值的方案,本文根据模型结构的特殊性增加了方案③,并结合优化器使得静态特征学习结构与动态特征学习结构紧密联合,最终输出精度更高的预测标签序列。
3 数据集与评价指标
3.1 数据集
表1 藏医药数据关系类型
为了证明本文模型在公开数据集上的有效性,文中还使用了开源的中英文数据集,分别选取了SKE数据集(2)http://lic2019.ccf.org.cn/中的影视领域数据及NYT数据集https://github.com/neukg/GRTE中的人物领域数据。其中,SKE数据集是2019年语言与智能技术竞赛中的中文信息抽取数据集;NYT数据集是采用远程监督方法由纽约时报获取的英文信息抽取数据集,且两数据集在信息抽取领域应用广泛,本文针对以上领域数据进行数据标注并设置联合抽取对比实验。以上介绍的藏医药数据、SKE数据及NYT数据的训练集、测试集、校验集均按照8∶1∶1的比例划分并实验,各数据集划分后的样本数量如表2所示。
表2 各数据集划分后的三元组样本数量
3.2 评测指标
考虑到宏平均F值(MacroF1)忽视了样本不均衡的问题,而本文数据标签对应的样本数量不平衡,因此本文使用加权F值(WeightedF1)作为本文联合抽取模型的评价指标,给予每类标签加权后的正确评价。WeightedF1是在对准确率(Precision)和召回率(Recall)进行调和平均的基础上进行加权,其中,Precision表示预测正确的实体数在预测的实体总数中的占比,Recall表示预测正确的实体数在标注的实体总数中的占比,计算过程如式(3)所示。其中,变量i(1≤i≤n)表示标签的类别数;Wi表示权重,通过当前类在总样本中的比例获得;Fi表示当前标签类别的F1值。
4 实验
4.1 实验设置
本文实验的环境为搭配RTX2080Ti的Ubuntu 16.04服务器,显存11GB,采用Pytorch深度学习框架搭建实验模型,版本为1.7.1+cu110,实验的主要模型参数如表3所示,其中,设置Early stop参数可避免模型过拟合,当模型在校验集上的损失值超过10轮未降低时,模型自动停止训练。
表3 实验参数
4.2 奖惩度选择对比实验
由于本文使用了奖惩机制,因此需探究最合适的奖惩度(α),通过2.2.2节了解到奖惩机制作用于构成路径的每个点,同时分析CRF的源码可知,我们是针对字的预测结果添加奖励或惩罚,且不同批次包含不同藏字数量的句子,因此本文首先假设奖惩度的选择与批次大小有关。首先需要确定奖惩度的量级,在此使用奖惩机制改进后的NovingTagging模型。实验中分别探究了奖惩度的不同量级,分别为1e-1、1e-2、1e-3、1e-4、1e-5,最终发现奖惩度量级为1e-1、1e-2、1e-3、1e-4时损失值均不正常,其中,奖惩度量级为1e-1、1e-2及1e-3时损失值为“nan”;奖惩度量级为1e-4时损失值较大,同时F1值为0;奖惩度量级为1e-5时损失值及F1值均表现正常,因此本文将在1e-5量级上进行探究。
为验证上文奖惩度选择的假设,本节分别选择了三种不同的批次大小,分别为16(24)、32(25)、64(26),猜想奖惩度大小与2n有关,关系为:α=ne-5。为验证猜想,本节首先使用NovingTagging模型在不同批次大小上进行基础实验,实验结果如表4所示。
表4 NovingTagging模型在不同批次大小上的实验结果 (单位: %)
然后使用结合奖惩机制的NovingTagging改进模型在不同批次大小对应的奖惩度上进行对比实验,奖惩度分别为4e-5、5e-5、6e-5,实验结果如表5所示。
表5 结合奖惩机制的NovingTagging改进模型在不同批次大小上的实验结果 (单位: %)
通过上述实验基本可以对本节假设进行验证,但为了实验的严谨性,最后设置了结合奖惩机制的NovingTagging改进模型在批次大小为16时采用上述不同奖惩度的实验,实验结果如表6所示。
表6 结合奖惩机制的NovingTagging改进模型在不同奖惩度上的实验结果 (单位: %)
图4为表4与表5实验结果的对比图,图中展示了原始NovingTagging模型及结合奖惩机制的NovingTagging改进模型使用不同批次、不同奖惩度的实验结果。由图可知,当奖惩度为α=ne-5时,不同批次大小上的实验结果均有一定的提升,同时由表6可知当批次大小为16、奖惩度为4e-5时效果最好,直接验证了本文提出的奖惩度设置方法的有效性。根据此方法并结合2.2.2节介绍的CRF模型损失值公式,奖惩机制的设置方法如式(4)所示。当模型“奖励”时,其值为1-α;当模型“惩罚”时,其值为1+α。
图4 NovingTagging及其改进模型在不同批次大小上的实验结果对比
4.3 实验结果分析
本节主要对本文模型的实验结果进行对比与分析,包括NovingTagging模型、改进的NovingTagging模型、单一动态模型及双元动态模型,并单一动态模型与双元动态模型使用的两个学习结构进行对比,二者使用同一个学习结构进行联合抽取,该结构既用于学习静态特征,也用于学习动态特征。图5为各模型在藏医药数据集上的实验结果,其中,改进的NovingTagging模型的m1方法表示使用传统的NovingTagging方法,即基线模型;单一动态模型及双元动态模型的m1方法表示使用多特征动态融合方法,m2、m3及m4方法表示在m1方法构建的特征基础上,分别使用类别特征静态融合方法、奖惩机制,以及类别特征静态融合方法及奖惩机制的融合。
图5 各模型在藏医药数据集上的实验结果
由图5的结果曲线可知,改进的NovingTagging模型的结果曲线增长趋势最慢;单一动态模型的结果曲线次之;双元动态模型的结果曲线增长趋势最快。最主要的原因是改进的NovingTagging模型以原始特征作为输入,原始输入特征中所含价值信息较少,虽然使用类别特征静态融合方法及奖惩机制,但受限于原始输入特征的质量,模型提升的效果有限,导致改进的NovingTagging模型结果曲线增长趋势最慢。单一动态模型及双元动态模型使用了多特征动态融合方法构建的分词特征及位置特征增强了原始特征,使得原始输入特征中携带了更多的有效信息,并通过独特的分词特征及位置特征增强了实体边界,然后结合类别特征静态融合方法及奖惩机制对特征进一步增强与优化,因此单一动态模型及双元动态模型的结果曲线趋势较改进的 NovingTagging 模型增长更迅速。与单一动态模型相比,双元动态模型分别采用了静态特征学习结构与动态特征学习结构,静态特征学习结构主要负责学习类别特征融合方法构建的融合特征;动态特征学习结构在静态特征学习结构的基础上,学习多特征动态融合方法构建的融合特征,两结构紧密结合,较单一动态模型的同一结构更有效,因此双元动态模型的结果曲线趋势较单一动态模型增长更迅速。
在改进的NovingTagging模型实验中,使用传统的NovingTagging模型进行联合抽取时,模型效果为74.38%;将原始输入特征与藏医药数据类别特征融合后,模型效果为74.69%,较原始NovingTagging模型效果提升了0.31%;使用奖惩机制优化原始特征的学习结果后,模型效果为75.19%,较原始 NovingTagging 模型效果提升了0.81%;使用奖惩机制优化通过编码层学习的融合类别信息的原始特征,模型效果为75.91%,较原始NovingTagging模型效果提升了1.53%,可见使用类别特征静态融合方法与奖惩机制后模型的效果得到了一定提升,其中,同时使用类别特征静态融合方法与奖惩机制的模型效果最优。
使用多特征动态融合方法的单一动态模型及双元动态模型效果分别为75.76%、75.65%,较原始NovingTagging模型效果分别提升了1.38%、1.27%,主要原因是多特征动态融合方法构建的分词特征、位置特征增强了实体的边界,并丰富了原始输入特征中的有效信息,高质量的输入特征通过单一动态模型及双元动态模型学习后,提升了联合抽取效果,证明了本文提出的多特征动态融合方法的有效性。与此同时,在多特征动态融合方法的基础上,使用m2方法时,单一动态模型及双元动态模型效果为76.61%、76.63%,较改进的NovingTagging模型效果分别提升了1.92%、1.94%;使用m3方法时,两模型效果分别为77.75%、78.20%,较改进的NovingTagging模型效果分别提升了2.56%、3.01%;使用m4方法时,两模型效果分别为78.83%、79.23%,较改进的NovingTagging模型效果分别提升了2.92%、3.32%。综上,多特征动态融合方法构建的高质量特征为后续实验打下了坚实的基础,各实验结果均较使用原始特征作为输入时有所提升。同时,由单一动态模型及双元动态模型的结果曲线可知,除m1方法外,双元动态模型的效果均比单一动态模型效果更优,主要原因是双元动态模型使用静态特征学习结构与动态特征学习结构分别对静态融合特征与动态融合特征进行学习,可以更好地分工协同工作,因此使用m1方法时,采用同一结构的单一动态模型效果较好;反之,双元动态模型效果较好。最终,双元动态模型的联合抽取效果最优,在测试集上的F1值为79.23%,优于改进的NovingTagging模型及单一动态模型。
图6、图7为各模型在SKE及NYT数据集上的实验结果。由结果曲线可知,当数据集为SKE时,双元动态模型的效果全面优于改进的NovingTagging模型及单一动态模型,且使用本文方法的不同模型的效果均有提升;当数据集为NYT时,各模型效果较原始模型均有提升,单一动态模型使用m1、m2方法时效果优于双元动态模型,双元动态模型使用m3、m4方法时效果优于单一动态模型。对于SKE及NYT数据集,单一动态模型及双元动态模型效果均优于改进的NovingTagging模型。由图中模型效果的提升情况可知,对于开源数据集SKE及NYT,本文提出的类别特征静态融合方法、奖惩机制及多特征动态融合方法对模型效果的提升具有一定的帮助,证明了本文所提方法的有效性。同时,对于藏医药、SKE及NYT数据集,双元动态模型均获得了最佳的效果,证明了双元动态模型结构的有效性。
图6 各模型在SKE数据集上的实验结果
图7 各模型在NYT数据集上的实验结果
4.4 多特征动态融合方法消融实验
通过上文的实验结果对比可以了解到不同方法对模型效果的贡献情况,但对于多特征动态融合方法,由于其使用了分词特征及位置特征,两个特征对模型效果的贡献不得而知,因此本文以藏医药数据作为实验数据设置了消融实验,探究分词特征及位置特征对模型效果的贡献情况,实验结果对比如图8所示。其中,“seg+pos”表示使用多特征动态融合方法构建的动态特征,其F1值为75.65%;“seg”表示使用多特征动态融合方法中的分词特征,其F1值为75.43%;“pos”表示使用多特征动态融合方法中的位置特征,其F1值为75.18%。由实验结果可以看出,分词特征较位置特征更为重要,对模型的贡献更大。通过分析可知,分词特征仅使用 0、1、2、3 进行词嵌入,而位置特征使用数据集的句子最大长度进行词嵌入,因此位置特征的词嵌入空间更大,较分词特征的词嵌入空间更发散,使得融合分词特征的原始输入特征更好地增强了实体边界,因此分词特征优于位置特征,且二者对模型的贡献率均优于原始输入特征,证明了本文提出的多特征动态融合方法的有效性。
图8 多特征动态融合方法消融实验结果对比
5 总结与展望
本文主要基于联合解码方式构建藏医药领域的联合抽取端到端模型,针对藏医药领域联合抽取任务存在实体嵌套、抽取效果差的问题,本文结合深度学习及藏医药数据特点,提出了四种改进方法: 嵌套实体标注策略、类别特征静态融合方法、多特征动态融合方法及奖惩机制。本文在藏医药数据上进行实验的同时,对于开源数据集SKE及NYT也进行了实验,以证明本文提出方法的有效性。
但本文研究还存在着一些不足,用于联合抽取任务的藏医药数据集规模较小,且并未考虑藏文文法对模型效果的影响。在未来的研究中,应以提升藏医药领域实体关系联合抽取模型的效果为第一要义,可由藏文文法入手,如藏文依存句法分析,将词性特征及句法特征用于联合抽取,在一定程度上增强输入特征的质量,同时可以为下游任务的快速应用提供高质量的保障。