多层结构化语义知识增强的跨领域命名实体识别
2023-12-15张文韩刘小明
张文韩 刘小明,4 杨 关,2 刘 杰
1 (中原工学院计算机学院 郑州 450007)
2 (河南省网络舆情监测与智能分析重点实验室(中原工学院) 郑州 450007)
3 (北方工业大学信息学院 北京 100144)
4 (国家语委中国语言智能研究中心(首都师范大学) 北京 102206)(2020107234@zut.edu.cn)
命名实体识别是文本处理和信息抽取中的一个基本任务,其作用是识别文本中具有特殊意义的实体,是知识图谱、实体关系抽取、人机对话系统等的前置任务[1-2].由于特定目标领域标注数据难以获取,领域之间存在数据分布和标注类型的差异,源领域上训练好的模型难以直接被应用于目标领域.所以,能够将模型应用于数据资源匮乏的跨域命名实体识别(cross-domain named-entity recognition,CD-NER)引起了广泛关注[3].
CD-NER 任务主要面临2 个问题:1)数据资源匮乏导致模型无法充分学习隐藏的特征表示;2)由于不同领域中相同实体代表不同的含义,实体歧义导致模型迁移时出现负迁移.为了解决领域数据资源匮乏导致的模型效果不佳问题,Jia 等人[4]设计了一个利用语言模型的参数生成网络作为跨域之间的领域自适应来执行跨域之间的知识迁移,同时通过学习相关领域的知识来增强模型的泛化能力;Wang 等人[5]提出了一个跨领域的标签感知双迁移学习框架,通过少量标记数据将训练好的模型应用于特定目标领域.为解决实体歧义性问题,Jia 等人[6]设计了一个多细胞组成的长短期记忆(multi-cell compositional long short-term memory,multi-cell LSTM)网络,对不同实体类型分别建模处理,在实体层面进行跨域知识的迁移.另有相关学者使用预训练与微调相结合、参数分享[7-8]等方法实现跨域迁移,也取得了显著效果.但是,文献 [4-8]的方法通常利用语义特征之间的域不变知识来实现跨领域知识的迁移,对语义特征中的结构化知识未能很好地利用.
关于结构化知识,其在很多领域已有广泛研究[9].例如,化合物和分子建模[10]、大脑连通性[11]、社交网络[12]中都包含了结构化知识.另外,Yang 等人[13]提出迁移学习的一个关键问题是如何识别并利用不同领域中共性的结构化知识来提升迁移的效果.如Alvarez-Melis 等人[14]将结构化信息融入最优传输的框架,且框架利用特征表示中的结构化信息,在USPS 和MNIST 数字分类任务上取得了明显的提升.Chen 等人[15]认为好的模型不仅需要考虑域之间的节点关系(特征信息),还应该考虑域内实体特征间的关系(结构化信息).
本文认为文本表示中的结构化信息可以促进跨域任务中相关知识的迁移,同时提出将结构化语义知识应用于跨域命名实体识别任务,设计一种基于多层结构化语义知识增强的跨领域命名实体识别(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型.具体而言,在MSKE-CDNER 架构中,构建多层结构化对齐机制,在不同层中将具有相似结构的文本特征进行对齐,充分获取语义特征的结构化信息.对齐机制如图1 所示,模型在嵌入层对文本的语义和句法特征进行对齐,获取和迁移结构化的语义表示;在隐藏层对上下文特征进行结构化的对齐,获取和迁移领域之间结构化的域不变知识,进一步提高目标领域实体识别能力.
Fig.1 Multi-level structural alignment mechanism for feature representation图1 特征表示的多层结构化对齐机制
综上所述,本文的主要贡献有3 点:
1) 提出一种利用文本序列中蕴含的结构化知识增强跨领域实体识别模型迁移能力的方法,利用结构化知识跨领域不变的稳定性促进跨领域知识的迁移.
2) 设计一个基于多层结构化语义知识增强的跨领域命名实体识别模型.对于多层结构化对齐机制,模型在嵌入层设计了结构特征表示模块,使用图最优传输(graph optimal transport,GOT)[15]获取实体特征的结构化知识,充分挖掘文本原语义信息;在隐藏层设计了潜层对齐模块,利用对齐度量准则获取结构化域不变知识,促进实体识别能力向目标领域迁移.
3) 通过在5 个英文数据集和特定的跨域NER 数据集上进行实验,表明利用特征表示中的结构化语义信息可以促进跨域命名实体识别中知识的迁移,验证了所提模型的有效性.
1 相关工作
本节将从跨域命名实体识别、领域自适应和结构化知识3 个方面介绍相关工作.
1.1 跨域命名实体识别
跨域命名实体识别旨在利用从标注数据丰富的源领域中学习到的知识来提高目标领域的实体识别能力,因其可以缓解深度学习中数据依赖和训练数据不足的问题,引起了众多学者的关注.例如,张晗等人[16]通过引入生成式对抗网络和文档层面的全局变量,来解决领域内标注数据匮乏和实体歧义性问题.Jia 等人[4]设计了一个新的参数生成网络,将从命名实体识别或者语言模型任务中获得的参数分解成一个由元参数与任务嵌入向量和一个域嵌入向量组成的集合,通过域向量和任务向量之间的相似性来学习各个域和任务之间的相关性,进而在域之间进行知识的迁移.Li 等人[17]结合元学习和对抗学习的策略,获取序列标注中稳健、通用和可转移的特征,并用于领域自适应.该策略的主要优势在于它能够通过域中少量的数据快速适应新的领域.Chen 等人[18]将数据特征表示从高资源转移到低资源,从而达到利用高资源数据特征的目的,在低资源环境下取得了显著的提升.但是,文献[16-18]的方法仅考虑了序列的特征信息,对于特征信息中的结构化信息未能很好地利用.
1.2 领域自适应
领域自适应是迁移学习中的一个热点,其中学习域不变知识是无监督场景中的一个主流方法.由于实现预期质量和数量的标注数据消耗过高,所以领域自适应对于许多NLP 任务非常重要.例如Hao等人[19]提出了一个半监督的解耦框架,通过使用3种互信息正则化项,分别最大化域特定潜变量和域不变潜变量与原始嵌入之间的互信息、最小化域特定潜变量与域不变潜变量之间的互信息,将特定域信息和域不变信息进行分解.Nozza 等人[20]提出了一种适应词嵌入的方法,通过增加用于源领域到目标领域特征空间适应的语义信息,来提高模型的领域自适应能力.李鑫等人[21]提出一个更稳定的训练风险函数来分离出更优的真实特征,提高模型的泛化能力.Gu 等人[22]通过引入公共的编码器以及解码器、特定的编码器以及解码器来对领域内公共信息和特定领域信息进行显式建模,以便在域内训练时利用域外数据增强模型的泛化能力.Dong 等人[23]针对多模态中存在的语义差异和领域差异提出一个多级对齐网络,通过多级对齐网络减少相关差异、提高领域自适应能力.Zhang 等人[24]提出一种利用词级和篇章级域不变特征的领域自适应提取方法,并以渐进式的预训练模型提高域不变特征的提取能力,从而实现知识迁移.但是,该方法缺少对文本结构化知识的提取和利用.本文认为,跨领域迁移时,不仅要利用词汇、语句和篇章等各级的域不变特征,还应该进一步利用各层级的结构化域不变知识.因此,本文针对特征之间的结构差异和领域之间的差异设计了2 个对齐模块,通过利用各层级的域不变知识来增强模型的领域自适应能力.
1.3 结构化知识
结构化知识因其具有稳定的跨领域不变性,可用于促进跨域知识的迁移[13].例如,Swarup 等人[25]使用一个多层、稀疏连接的神经网络来学习任务间的结构表示,促进跨域知识的迁移.Lee 等人[26]利用表示学习识别图的结构化知识,然后迁移源领域中的结构化知识,构造一个不需要收集和重新训练数据的目标领域模型.Yang 等人[13]基于3 种递进形式的实验,将复杂的结构化知识从源领域迁移到目标领域,充分证实了结构化知识可以促进跨域知识的迁移.Zheng 等人[27]提出一种标签结构迁移的跨域NER 新方法,在源标签空间和目标标签空间中构造图,将跨域问题表示为图匹配问题,从而解决标签不匹配问题.但是,该方法仅利用了标签中的结构化知识,对于特征表示中的结构化知识未能很好地利用.Courty 等人[28]指出,在进行领域自适应时,使用结构化信息约束可以将相同结构的特征匹配到目标空间中的紧凑区域,而不是不相交的区域.Chen 等人[15]提出了一个使用最优传输(optimal transport,OT)的跨域对齐框架图最优传输,在框架内同时使用2 种不同类型的OT 距离,将跨域对齐问题转化为图匹配问题,实现更好的跨域对齐.以视觉问答(visual question answering,VQA),任务为例,将GOT 应用于跨模态对齐,可以学习到图像和问题之间的潜在对齐关系,更好地理解图像和问题的上下文.在VQA 中使用GOT将跨模态对齐转化为图匹配问题,图匹配作为一个有效的正则化项来促进VQA 的语义理解.图像和文本属于跨域问题中不同的领域,所以,在跨域任务中使用图最优传输可以进一步促进跨域知识的迁移.因此,在本文中引入GOT 来获取并利用特征表示中的结构化知识,促进跨域知识的迁移,进而提高目标领域实体识别能力.
2 问题定义
跨领域序列标注:分别从源领域和目标领域中获取对应的数据集DSrc=和DTgt=(x(j),,其中NSrc和NTgt分 别为数据 集DSrc和DTgt的 样本数量.对于任意的数据样本 (x(i),y(i))∈DSrc,定义符号序列x(i)=(x1,x2,…,xt)作 为输入,标签序列y(i)=(y1,y2,…,yt)作为对应的输出,其中下标t为数据样本的长度.
针对CD-NER 任务,通常先在源领域DSrc上训练出一个实体识别模型MSrc,任务的目标是在目标领域数据集DTgt上 对MSrc进行训练,得到一个目标领域上的实体识别模型MTgt.模型MTgt能在给定输入序列和模型参数的情况下最大化标签序列中的条件概率分布,即
其中YSrc,YTgt为 经过最大化标签之后的输出序列,ySrc,xSrc代 表 源 领 域 的 输 出 序 列 与 输 入 序 列,yTgt,xTgt代表目标领域的输出序列和输入序列.
3 MSKE-CDNER 模型
本文提出了MSKE-CDNER,在文本表示的词嵌入层利用GOT 获取特征表示中的结构化语义信息,并在潜层空间中利用结构化对齐度量准则获取结构化域不变知识,在多个层级通过结构化对齐促进跨域知识的迁移,进而提高模型对结构化信息的利用.
3.1 模型架构
如图2 所示,MSKE-CDNER 架构分为4 层:第1层为输入层,由源领域、目标领域的数据集组成;第2 层为结构特征表示层,包括特征表示层和结构对齐层,用于将词向量进行编码并进行结构化对齐,获取文本的结构化语义表示;第3 层为模型的主体部分,由编码器、潜层结构化对齐等组成,用于将文本的结构化语义表示对齐获取结构化域不变知识;第4 层为解码层,对源领域和目标领域采取不同条件随机场来获取最优的结果.
Fig.2 Overall framework of MSKE-CDNER图2 MSKE-CDNER 整体框架
3.2 多层结构化对齐机制
为了更好地识别、迁移特征表示中的结构化域不变知识,MSKE-CDNER 利用多层结构化对齐机制,分别在嵌入层和隐藏层对特征表示进行结构化对齐.
3.2.1 结构特征表示层
特征表示结构化对齐如图3 所示.在对齐时,不仅对相似的实体特征进行对齐(黑色实线对齐部分为节点对齐,其中节点指的是句子中的实体),而且对相似的特征关系也进行对齐(灰色虚点线对齐部分为边对齐,其中边指的是句子中实体和实体之间的相关信息),使得模型在获取实体特征信息时能够获取到实体特征之间的结构化信息,从而学习到更能代表原语义信息的特征表示.
Fig.3 Features represent structural alignment图3 特征表示结构化对齐
模型在嵌入层使用GOT[15]作为一种结构化对齐方法,获取特征表示中的结构化知识,如图4 所示.图最优传输针对跨域对齐结合了2 种形式的最优传输距离,一种用于节点(实体)匹配的沃瑟斯坦距离(Wasserstein distance,WD),一种用于边(结构)匹配的GWD(Gromov-WD)[29],使用2 种结合的最优传输框架将跨域迁移转换为从一个域分布到另一个域分布的转移嵌入表示,实现自我标准化对齐,进而提高特征信息的可解释性.首先,模型分别将源领域数据和目标领域数据送入嵌入层,获取到对应的源领域语义特征和目标领域语义特征,在结构对齐模块中,对和进行规格化处理得到和,计算规格化后的向量和原始特征向量的余弦相似度,得到相似度矩阵CSrc和CTgt.相似度矩阵包含实体和实体之间的关联信息,因此,将其看作文本的结构化表示.之后构建对应的图结构 Gx(Vx,Ex),其中节点i∈Vx代 表一个特征向量xi,添加图中节点之间的余弦相似性(相似度矩阵)作为边Ex.为获取源领域和目标领域之间的相似性,将源领域特征和目标领域特征进行余弦相似性计算,得到跨域相似度矩阵CST.具体计算为:
Fig.4 Structural alignment layers图4 结构对齐层
其中 ϵ设 置为1E-12, max(‖·‖2,ϵ)代表向量 的2 范数.然后,WD 通过测量节点之间的距离,用于对语义特征进行节点对齐;GWD 通过测量图中边之间的距离,用于边节点对齐.对于WD 的计算有:
其中 (xi,x′i)和 (yj,y′j)分别 代表源领域和目 标领域中不同节点之间的边结构,L(·)是评估不同域之间2 对节点 (xi,x′i)和(yj,y′j)结 构 相 似 性 的 消 耗 函 数,例 如L(xi,yj,x′i,y′j)=‖‖c1(xi,x′i)-c2(yj,y′j)‖‖,c1和c2是 在 同一个图中评测节点相似性的函数,在此处选取余弦函数,矩阵为学习得到.综上所述,将图最优传输中计算得到的2 种距离作为结构化对齐的损失函数LCDA,具体计算为
3.2.2 潜层对齐层
MSKE-CDNER 编码器使用双向门控循环单元(gate recurrent unit,GRU)神经网络提取文本序列中上下文特征表示,同时编码器也适用于Transformer Encoder 等通用方法.为了在实验对比中更加公平地证明多层结构化对齐方法与现有方法对比的有效性,在本文模型中未采用Transformer Encoder 作为模型编码器.为获取文本序列中的结构化域不变知识,将获取的特征表示在潜层空间中利用WD 进行度量对齐.即把编码器获取的上下文特征hSrc,hTgt映射到潜层空间,在潜层空间中利用WD 减少源领域、目标领域特征分布和标准正态分布之间的差异,促进不同领域中共性知识的对齐,从而获取域之间的不变知识.特别地,为了方便计算,使用最大均值差异(maximum mean discrepancy,MMD)来近似WD.以源域为例,具体计算公式为:
其中zSrc是 通过将hSrc映射到潜层空间中获得的,p(zS rc)为 先验假设的标准正态分布p(zSrc)=N(0,1),q(zSrc)表 示 为q(zSrc)=N(µzSrc,σ2zSrc), µzSrc=f(Wµhn+bµ),σ2zSrc=f(Wσhn+b2σ).[Wµ;bµ], [Wσ;bσ]分 别 表 示 µzSrc和σ2zSrc可训练的参数.
在潜层空间中,模型通过重构后的潜变量hz获取含有域不变知识的上下文语义特征表示.即q(zSrc)在潜层空间中经过重新参数化获取到新的潜变量z,将z通过映射得到新的隐变量hz,然后将获取到的隐变量hz和编码器的基本输出再次送入编码器GRU,重新学习获取序列的上下文特征表示,从而获取含有结构化信息的域不变知识.具体计算公式为:
其中[WzSrc;bzSrc]为hzSrc可 训练的参数,bzSrc为偏差.
3.3 解码层
模型的解码层针对源领域和目标领域采用不同标准的条件随机场(conditional random field,CRF)[30].CRF 是一个序列标注算法,通过增强标签之间的约束,获取序列全局最优解码[31].采用标准条件随机场中的负对数似然损失作为损失函数,具体计算有:
不同领域的实体类型不同,但是边界信息是一样的,可以适应于任何领域.所以,在实体识别任务中增加边界预测任务来学习共享知识中的边界信息.对于实体边界预测的辅助任务使用交叉熵作为损失函数,将其表示为Lbio,具体计算有:
综上所述,模型相关损失函数可以定义为
3.4 优化目标
MSKE-CDNER 的整体损失函数表示为
其中 α , β , γ分别代表相关任务的权重.
3.5 优化算法
算法1.MSKE-CDNER 的优化算法.
输入:源领域和目标领域数据集Sner,Tner;
输出:适应于目标领域的模型MTgt.
① while 训练步骤没有结束
② forDinSner,Tnerdo
③X,Y←D;
④ forxi,yjinX,Ydo
/*计算域内节点相似性*/
⑤[CSrc]ij=cos(xi,xj);/*式(3)(5)*/
⑥[CTgt]ij=cos(yi,yj);/*式(4)(6)*/
⑦ [CST]ij=cos(xi,yj);/*式(7)*/
/*计算域外相似性*/
⑧ 计算LCDA; /*式(8)~(10)*/
⑨ end for
⑩ forxt,ytinX,Y
⑪ {ht,ct}=fencoder(e1:N);
⑫ end for
⑬{hz,cz}←{qz}←{hn,cn}
⑭X′=(x′1,x′2,···,xn)←{hz,cz}
⑮ ifDisSnerthen
⑰ else ifDisTnerthen
⑱ 计算;/*式(13)*/
⑲ end if
⑳ 计算Lbio;/*式(14)*/
㉑ 计算LMMD;/*式(11)*/
㉒ 计算Lner,Lbio;/*式(15)(16)*/
㉓L←Lner+α×Lbio+β×LMMD+γ×LCDA;
㉔ end for
㉕ 根据L更新网络参数 θ ;
㉖ end while
4 实 验
为了验证本文方法MSKE-CDNER 对于CD-NER的有效性,在5 个英文数据集和专门的跨域数据集上进行实验.分别从消融实验、显著性检测、参数分析、细粒度分析4 个方面进行实验分析并展示实验效果.
4.1 实验数据
5 个 英 文 数 据 集 分 别 为CoNLL-2003(Conll03),Twitter(T), Broad Twitter(BT), BioNLP13PC(PC),BioNLP13CG(CG).其 中CoNLL-2003,Twitter,Broad Twitter 数据集是相似的领域,实体类型大致类似,都包含人名(person,PER)、地名(location,LOC)、组织(organization,ORG),其 中CoNLL-2003 比Twitter 多含有其他(miscellaneous,MISC)实体.BioNLP13PC 数据集和BioNLP13CG 数据集属于医疗和生物领域,实体类型主要包含简单化学(simple chemical,CHEM)、细胞成分(cellular component,CC)、基因和基因产物(gene and gene product,GGP),BioNLP13CG 中还包括了物种(species,SPE)和细胞(cell,CELL),具体的数据集统计信息如表1 所示.跨域数据集为Liu 等人[1]提出的专门跨域NER 数据集CrossNER,其包含5 个领 域, 分 别 为 政 治(politics)、 自 然 科 学(natural science)、音乐(music)、文学(literature)和人工智能(artificial intelligence,AI),每个领域中含有特定的实体类型,具体的数据集统计信息如表2 所示.
Table 1 English Dataset Statistics表1 英文数据集统计信息
Table 2 CrossNER Dataset Statistic表2 CrossNER 数据集统计信息
根据数据集中实体类型的不同以及相关领域的差异,可分为2 组实验.第1 组:从5 个英文数据集中选取与Jia 等人[6]相同的实验分组,例如,当Twitter,Broad Twitter 作为目标领域数据集时,选用CoNLL-2003 作为源领域数据.当BioNLP13PC,作为目标领域数据集时,选用CoNLL-2003 作为源领域数据集,从不同领域和相似领域之间进行实验来验证MSKECDNER 在不同领域差异之间迁移的效果.第2 组:选用与CrossNER 中相同的实验分组将5 个不同的特定领域数据作为目标领域数据集,CoNLL-2003 作为源领域数据.
4.2 实验设置
对于5 个公开的英文数据集,参照NCRF++[36]中模型的参数进行初始化设置.随着不同组实验中源领域和目标领域数据集的改变,模型的参数也随之改变.例如,源领域为BioNLP13PC、目标领域为BioNLP13CG 时,优化器选用SGD 算法,学习率设置为0.005,学习率衰退设置为0.01,批次大小设置为10,隐状态维度为250,潜变量维度为200,为防止过拟合将dropout 设置为0.5.在实验中采用与Jia 等人[6]相同的初始化词向量和字符向量的方法.Twitter,Broad Twitter 作为目标领域数据集时,使用Glove 100-dim[37]进行初始化获取词向量(word vector)的特征表示;当BioNLP13PC 和BioNLP13CG 作为目标领域时,词向量选用PubMed 200-dim[38]进行初始化.字符向量(char vector)采用随机初始化的形式,通过卷积神经网络来提取字符特征表示,最后将获取到的单词特征表示和字符特征表示进行拼接得到最终特征表示.
基于CrossNER 数据集,参照5 个英文数据集上参数进行初始化设置,经过参数调整发现,在大多数领域中使用相同参数时,MSKE-CDNER 性能已较优,证明模型鲁棒性较强.同时,在某些域中模型参数随着目标域数据集的改变而微调时,模型性能进一步提升.例如,在Music 域中优化器选用SGD 算法,学习率设置为0.003,学习率衰退设置为0.03,批次大小为32,隐状态维度为250,潜变量维度为200,为防止过拟合将dropout设置为0.5.在实验中均使用Glove 100-dim[37]进行初始化获取词向量(word vector)的特征表示,Bert 优化获取到的词向量特征表示.字符向量采用随机初始化的形式,通过卷积神经网络来提取字符特征表示,将获取到的单词特征表示和字符特征表示进行拼接作为最终特征表示.
特别地,在5 个英文数据集的实验训练过程中,当获取到目标领域的结束信号时标志着一个批次结束.源领域数据的读取操作不会因为批次的结束而进行重置,它会继续加载数据,直至加载到源领域数据的结束符号时再进行重置.在CrossNER 数据集上进行实验时,一个批次的结束替换为同时读取到源领域和目标领域数据中的结束符号.
4.3 评测指标
本文采用与文献[4,6]等一致的评测指标,该指标认为只有当实体的类型与边界都识别正确时才认定预测准确.采用准确率(precision,P)、召回率(recall,R)和F1 值计算最终得分.具体计算方式为:
其中TP代表识别正确的实体个数,FP代表识别错误的实体个数,FN代表未识别出的实体个数.
4.4 对比模型
为了验证MSKE-CDNER 在跨域NER 上的效果,在不同的数据集上与相关模型进行对比实验.
1)BILSTM-CRF.BILSTM-CRF[39]结 合 双 向LSTM 和条件随机场进行命名实体识别,将源领域数据和目标领域数据结合,共同训练模型.
2)Coach.Liu 等人[40]提出了一个用NER 域适配的框架Coach,它将任务分为2 个阶段,首先检测出实体,然后对实体进行分类来解决特定领域数据稀缺问题.
3)MULTI-TASK+PGN.Jia 等人[4]在源领域和目标领域中集成语言模型任务来执行跨域知识的迁移,从而解决模型无法在无监督环境下进行训练的问题.
4)MULTI-TASK+GRAD.Zhou 等 人[41]提 出 一 种新的传输方法,通过对抗传输网络来进行高资源和低资源下特征的融合,同时引入广义资源对抗判别器来提高模型的泛化能力.
5)MULTI-CELL-LSTM.Jia 等人[6]基于Bert 表示提出了一个多细胞LSTM 结构,针对不同实体类型分别建模,在实体层面进行跨域知识的迁移,解决实体在不同领域中含义不同的问题.
4.5 实验结果
在5 个英文数据集和CrossNER 数据集上将MSKECDNER 和其他相关方法进行实验对比,结果如表3和表4 所示.整体来看, MSKE-CDNER 在不同数据集中都取得了不错的结果.
Table 3 F1 Experimental Results of the English Datasets表3 英文数据集F1 实验结果 %
Table 4 F1 Experiments Results of CrossNER Dataset表4 CrossNER 数据集F1 实验结果 %
如表3 所示,MULTI-TASK(LSTM)相比于单任务的BILSTM 在Conll03→T 上F1值提高了2.37%,在Conll03→BT 上F1值 提高了0.86%,在PC→CG 上F1值提高了1.82%,说明多任务架构可以提高CD-NER中实体识别能力.MULTI-TASK+PGN、MULTI-TASK+GRAD 和MULTI-CELL-LSTM 相比于MULTI-TASK(LSTM)在PC→CG 上F1值分别提升了0.11%,0.57%,0.95%,说明充分学习、利用特征间的域不变知识可以缓解因数据资源缺乏导致的模型效果不佳问题.MSKE-CDNER 相比于当前热门模型MULTI-CELL-LSTM 在PC→CG 上F1值提高了0.92%,说明结构化语义知识可以促进跨域知识的迁移,缓解实体歧义性的问题.其中,在Broad Twitter 域中模型效果不佳,考虑是因为Broad Twitter 属于Twitter 中的新闻领域,Conll03 也属于新闻领域,领域之间的差异性较小,在进行跨域对齐时图匹配对领域迁移之间的约束性较差,导致迁移效果不佳.而在Conll03→PC 这组实验中,BioNLP13PC 属 于 医 疗 领 域, Conll03 数 据 和BioNLP13PC 这两者之间的数据差异性较大,在进行跨域迁移时图匹配对其约束性较好.实验对比表明:领域之间差异性越大,模型迁移效果越好,这也更能说明语义特征中的结构化信息能够促进跨域知识的迁移,领域差异越大,结构化知识的约束作用越强,迁移效果越佳.然而,现有研究方法中缺少对该类信息的挖掘和利用,MSKE-CDNER 的多层次结构迁移方法,可以利用结构化信息实现了对模型跨领域迁移能力的增强.
在特定的CD-NER 数据集CrossNER 上进行验证,结果如表4 所示.MULTI-CELL-LSTM 相比BILSTMCRF 在5 个不同领域中的F1值均有所提升,F1 平均值提升了18.96%.由于BILSTM-CRF 为单任务模型,不能很好地利用源域中跨域不变的知识,而MULTICELL-LSTM 以多任务架构为基础搭建网络,能够充分地利用源域中跨域不变的知识,所以构建MSKECDNER 时采用多任务学习范式为基础框架.相比MULTI-CELL-LSTM,MSKE-CDNER 在5 个不同领域中F1值 均有明显提升.其中在Politics 中F1值提高了0.69%,在Science 中F1值 提高了0.60%,在Music 中F1值提高了2.55%,在Litera 中F1值提高了0.91%,在AI 中F1值 提高了2.61%,F1平均值提高了1.47%.由于MULTI-CELL-LSTM 仅考虑实体层面的特征信息,忽略了特征信息中的结构化知识,而MSKE-CDNER能够有效地利用特征信息中的结构化知识,从而取得更优的性能.
为了更好地检验模型的可靠性,在不同数据集上采用与Baziotis 等人[42]一样的方式,重复3 次实验,记录实验结果的平均值和标准差,结果如表3 和表4中MSKE-CDNER*行所示.对比现有的跨域方法,MSKE-CDNER 在2 个不同的数据集下整体实验结果优于对比方法,说明学习、利用特征的结构化知识可以促进跨域知识的迁移.
4.6 实验分析
在本节中,选取PC→CG 这组实验从消融实验、显著性检验、参数分析以及细粒度4 个方面对实验进行分析.PC,CG 数据集属于医疗领域,领域中已标注的实体资源较少,选取这组实验进行分析更能说明MSKE-CDNER 在数据资源匮乏领域下实体识别的有效性.
4.6.1 消融实验
为了验证多级结构化对齐机制的有效性,在PC→CG 这组实验中进行消融实验,得到的对比结果如表5 所示,可以看出机制中3 个模块对实体识别性能提升均有所帮助, Δ代表消融不同方法后F1值的对比差值.
Table 5 Ablation Study on PC→CG Dataset表5 在PC→CG 数据集上的消融实验 %
表5 中 -Lbio代表消去边界检测模块时得到的结果,P下降了0.06%,R下降了0.93%,F1值下降了0.37%,其中R在3 个消融实验中下降最多,说明学习共性边界信息能帮助模型正确地识别实体类型,提升模型的性能,加入此模块可以改善跨域命名实体识别的效果.同样地, -Lmmd表示消去潜层对齐模块的实验结果,P下降了0.01%,R下降了0.4%,F1值下降了0.21%,表明迁移源领域和目标领域中的共性知识可以促进实体识别能力跨领域迁移.-LCDA代表消去结构化对齐模块的结果,P下降了0.55%,R下降了0.21%,F1值下降了0.51%,其中F1值在3 个消融实验中下降最多.因为结构化对齐模块在获取特征表示的同时获取到了结构化知识,在进行迁移时结构化信息因其跨域稳定性可以显著地提升目标领域的实体识别性能.
4.6.2 显著性检验
在PC→CG 实验中进行显著性检验,结果如表6所示.其中表中P值为Prob>F,当P≤0.05 时,说明PC 和CG 之间有显著性差异.表6 中P= 0.027 7,表明MSKE-CDNER 有显著性差异;F为检验的统计量;P为用于检验的P值.
Table 6 ANOVA of MSKE-CDNER on PC→CG Dataset表6 MSKE-CDNER 在PC→CG 数据集上的方差分析
4.6.3 参数分析
为探讨结构化表示模块中参数 λ1, λ2对实验的影响,设置不同的参数值进行多轮试验,PC→CG 这组实验的参数调优如图5 所示.在结构化表示模块中,Loss值由WD 的距离和GWD 的距离共同组成,其中λ1代 表WD 的权重, λ2代表GWD 的权重,我们对其占比进行参数调优,对于 λ1和 λ2,取值分别设置为0.1,1,10,100.从图5 中可以明显地看出,当 λ1值固定时,随着 λ2值的增加,结构化信息的比值在整个特征表示中的比值也在增加.此时,可以看出随着结构化信息权重的增加,模型识别能力也随之提高,模型性能越来越好,说明结构化信息可以促进跨域知识的迁移,在λ2=100 时取得最优结果.经过参数调优,最终选取λ1= 0.1, λ2=100 作为PC→CG 这组实验中的最优参数.同理,选取 λ1= 100, λ2=1 作为Conll03→PC 这组实验的最优参数.
Fig.5 Parameter analysis in the graph optimal transmission图5 图最优传输中的参数分析
4.6.4 细粒度分析
表7 统计了MSKE-CDNER 在PC→CG 这组实验中的细粒度实验结果,表7 中记录了相关实体的准确率、召回率与F1值.由于相关数据集中的实体种类较多,为便于讨论,随机选取实体类型进行示例说明.与当前的跨域模型相比所有模型的F1值均有所提升,总体F1值提升了近0.92%,证实了MSKE-CDNER 的有效性.
Table 7 Fine-Grained Analysis on PC→CG Dataset表7 PC→CG 数据集上的细粒度分析 %
为了能够清晰地对比出MSKE-CDNER 在实体类型级别取得更优的结果,在不同类型的实体中将其与原模型进行细粒度分析对比,结果如图6 所示.在相同的实体类型下,MSKE-CDNER 结果明显优于其他2 种方法,这得益于实体内部的结构化知识在进行跨域迁移时有效缓解了不同域中实体歧义性的问题.
5 总 结
本文提出了一种基于多层结构化语义知识增强的跨领域命名实体识别模型MSKE-CDNER,设计了多级结构化对齐机制,利用文本序列的结构化语义信息,分别将嵌入层获取的特征表示和隐藏层获取的上下文特征表示以结构化的形式对齐,通过获取、迁移不同层次的结构化知识,促进模型实体识别能力的跨领域迁移.在5 个英文数据集以及CrossNER数据集上进行实验,并与当前跨域方法相比,结果表明,MSKE-CDNER 在跨域任务中取得了较好的结果,表明学习和利用结构化知识能够更好地促进跨域知识的迁移.在将来的工作中,我们会对域不变知识和特定域知识进行更优的解耦,来获取更优的特征表示.
作者贡献声明:张文韩调研文献、设计实验、撰写和修订论文;刘小明提出研究思路、模型框架、内容规划、指导意见和修订论文;杨关负责实验指导、修订论文;刘杰提出指导意见、审阅和修订论文.