APP下载

融入中文语义信息及越南语句法特征的越南语事件检测方法

2022-09-28郭军军张亚飞高盛祥余正涛

中文信息学报 2022年8期
关键词:越南语句法卷积

陈 龙,郭军军,张亚飞,高盛祥,余正涛

(1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500;2. 昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500)

0 引言

事件检测(Event Detection,ED)是事件抽取中的一个关键任务,可以从海量的文本中快速、准确地获取事件信息并对其进行分类。目前基于深度学习的事件检测模型都依赖足够数量的标注数据,并且通过触发词等特定的线索进行事件分类。对于一些标记资源丰富的语言,如中文、英文等,其事件检测模型基于大规模标记语料进行有监督训练且取得了较好的效果[1-3]。而现有越南语标记语料非常稀缺,造成其事件检测效果较差。同时,由于句子中局部信息可能会触发多个事件类型,例如,在“他离开了公司打算步行回家。”这句话中,触发词“离开”表达的是交通事件或结束位置事件,但是结合“步行”信息,就能准确判断为交通事件。由此可见,由于触发词表达的局限性,易引起事件类型歧义。综上所述,受标注数据数量的限制与事件类型歧义的影响,使得越南语事件检测面临极大的挑战。

对于标注数据稀缺语言的事件检测,通过使用源语言检测器在并行文档上标注事件触发词[4]。使用机器翻译来获取额外的触发词标注数据,以扩充目标语言训练数据的规模[5-7]。这些方法受机器翻译性能以及越南语音节分词的特性影响,不能直接应用于越南语触发词的标注。例如,给定中-越语句:

此外,在越南语事件检测中,事件类型歧义会给越南语事件检测带来挑战。针对局部信息引发多个事件而造成事件类型歧义问题,近年来,使用文档级特征信息来解决歧义问题[9-10]。对于句子中没有关注到的重要信息,通过上下文信息保存到句子级序列建模中,以保留更多关键信息[11]。同时,利用句子特征信息进行建模[12-14],通过引入记忆向量和矩阵在标记句子的过程中存储预测信息[15]。然而,基于特征的序列建模方法在获取非常长句子的相关性方面效率低下,并且没有充分地提取关键信息之间的关联。因此,本文利用越南语依存句法信息,使用图卷积网络(GCN)增强越南语中信息之间的关联,例如,给定越南语语句:

本文提出融合中文信息与越南语句法的越南语事件检测框架,首先通过共享编码器策略和交叉注意力网络(Cross Attention Network)使越南语获得中文语义表征,然后使用图卷积网络使越南语融入依存句法信息,最后通过设计事件类型感知网络实现对越南语事件信息的表征,以实现在中文信息和越南语句法信息指导下的越南语事件检测。

综上所述,本文的主要贡献如下:

(1) 本文提出了融合中文信息和越南语句法的越南语事件检测模型,通过中文语义信息与越南语句法信息的融入,实现越南语事件检测;

(2) 设计了中越双语信息融合网络与事件类型感知网络,以实现基于中文信息指导的越南语语义表示,从而减少越南语事件检测对越南语数据标注信息的依赖;

(3) 利用越南语依存句法信息,通过句法图卷积网络提取越南语句法特征并将其融入越南语语句中,消除事件类型歧义,提高事件检测的准确性。

1 相关工作

事件检测是自然语言处理中的一个热点问题,近年来受到广泛关注。事件检测旨在检测非结构化文本中的事件信息并对其进行分类。根据事件检测任务不同可分为两类: 单语训练和多语言联合训练。

目前事件检测的方法研究主要集中在单语。Li等人将常见的事件检测任务建模为触发词分类,预测给定句子中的每个单词是否是事件触发器以及其触发的事件类型[1]。当前,随着深度学习的发展,Nguyen等人通过使用神经网络来自动学习任务的特征,以达到对事件的检测[16]。Liu等人使用概率软逻辑模型形式编码全局信息,并利用FrameNet中的事件信息来引导训练[17]。Nguyen等人通过引入卷积网络(CNN)的连续模型来改进非卷积模型,从而获得更好的性能[15]。Keith等人通过构建事件之间相互依赖关系实现对事件的检测[13]。Liu等人利用了额外的参数信息和FrameNet,通过监督注意机制显式地利用论点信息进行事件检测[18]。Nguyen等人通过卷积神经网络从语句的句法层面进行特征提取,利用结构化信息来提高触发词的识别,进而提高事件检测性能[19]。Liu等人通过图卷积神经网络从语句的句法层面进行深层次特征提取,以此提高对语句的理解和触发词的识别[20]。Chen等人提出为模型提供带有漂白语句(实体用通用的方式指代)的模型,通过将文本中的实体用指代的方式表示,使模型能够提取封闭本体下的事件并推广到未知的事件类型[3]。Du等人通过将事件公式化为问题解答(QA)任务来引入事件提取的新范式,以端到端的方式提取事件参数[21]。但所有这些模型的性能受到特定语言中标记数据量的限制,需要大规模标注数据进行训练。

对于低资源语言而言,由于注释的复杂性和高成本使得训练数据严重不足,而多语言事件检测尝试在不同语言之间传递知识以解决这一困难。使用机器翻译来获取额外的标记数据,以扩充目标语言训练数据的规模[5,8]。Hsi等人使用语言相关和语言独立功能的组合在多种语言上进行训练,尤其关注目标域训练数据量有限的情况[22]。Guo等人使用源语言的训练数据,针对目标语言训练分布式表征实现跨语言转移[23]。Mayhew等人提出使用一种或多种高资源语言中可用的带注释的数据辅助目标语言训练,以增强目标语言的模型性能[24]。或者将训练好的源语言模型迁移到目标语言,并通过对齐的方式以达到对目标语言的适应用于解决目标语言稀缺问题,实现预期的效果[25-26]。Liu等人通过其他语言提供的大量信息,利用多语言数据传达的补充信息来解决单语中存在的数据稀缺和歧义问题[27]。Subburathinam等人通过训练一个公共空间,将实体、触发词等信息融入进去,并用源语言的触发词等注释信息训练事件抽取器,应用于目标语言[26]。Liu等人设计一种上下文相关的翻译方法来构建不同语言之间的词汇映射,同时利用共享句法顺利的方法处理词序差异问题,进而实现不同语言间的知识转移[28]。

综上所述,对于相似语系,应用翻译和迁移的方法可以取得较好的事件检测效果。然而,受机器翻译性能和越南语音节特性影响,传统触发词识别模型在越南语事件检测上存在不足。因此,根据表达相同观点但语言不同的句子通常有相同或相似的语义成分这一特征,本文提出一种融合中文语义信息与越南语句法特征的越南语事件检测框架,利用中文语句以及所标注的中文事件类型信息辅助越南语事件检测,从而减少越南语事件检测对越南语数据标注信息的依赖。

2 方法

针对越南语事件检测任务,本文提出了一个融合中文语义信息和越南语句法特征的越南语事件检测模型,该模型结合了中文信息与越南语依存句法信息,并将其融入越南语语句中,以指导越南语事件检测,事件检测模型的体系结构如图1所示。

本文模型由三部分组成: 双语信息融合模块,图卷积模块和事件检测器。①双语信息融合模块主要由共享编码器网络和交叉注意力网络两个网络模块组成。共享编码器网络首先通过编码器对中文语句进行编码并获取中文编码隐层向量表示和中文句子级向量表示,然后越南语词级向量与中文句子级向量融合,再通过共享编码器策略获取越南语隐层向量和越南语句子级向量;交叉注意力网络将获得的中文隐层向量与越南语隐层向量进行联合学习,得到融合中文词级信息的越南语向量表示。②图卷积模块将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示。③事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,以完成越南语事件检测。

图1 模型结构图

2.1 双语信息融合模块

本文实验模型使用编码器对中越双语语句进行向量化表示。在此基础上,本文提出共享编码器策略,然后通过交叉注意力网络获得最终的越南语向量表示。

(1)

由中文语句输入,可将GRU编码器最后的输出作为句子级向量表示HSC,如式(2)所示。

(2)

通过中文语义信息的融入,可使越南语关注到更多事件信息。因此,越南语词向量j和实体向量evj构成gvj=[j;evj],再与中文句子级向量HSC构成通过共享编码器策略得到越南语隐层如式(3)所示。

(3)

由越南语句子输入,可将GRU编码器最后的输出作为句子级向量表示HSv,如式(4)所示。

(4)

交叉注意力网络在中文和越南语之间使用交叉注意力网络,该网络允许越南语词级隐层状态通过关注中文词级隐层状态来表示,从而得到这种语言的跨语言特征表示,以此达到语义上对齐两种语言的目的。如图2所示。

图2 交叉注意力网络

(5)

其中,W∈Rn×n和b∈R是其训练的注意力参数。通过交叉注意力网络,将中文语句放在越南语语句的上下文嵌入中,可以进一步使越南语关注到中文事件信息。

2.2 句法图卷积模块

依存关系构建为了对关键信息进行有效聚合,本文采用越南语开源依存句法工具来构建依存句法关系[29]。由无向图ζ=(γ,ε)作为越南语句子SV的句法分析树,其中γ=[u1,u2,u3,…,un]和ε分别是节点集和边集。在γ中,每个ui是表示单词wi在SV中的节点,每个边(ui,uj)∈ε是来自单词wi到单词wj的有向句法弧,类型标签为K(wi,wj)。此外,为了让信息朝相反的方向流动,本文还添加了带有类型标签K(wi,wj)的反向边(uj,ui)和自循环,即任何vi∈γ的(ui,ui)。所以最终得到标签K(wi,wj)的三种类型表示如式(8)所示。

(8)

(9)

2.3 事件检测器

事件触发词是这项任务的重要线索。例如,死亡事件通常有“死”“去世”等词触发。但是,这个信息隐藏在我们的任务中,因为带注释的触发词没有标注,为了对隐藏的触发词进行建模,本文在方法中引入事件感知网络。首先将中越语句标记为“0”或“1”,如表1所示。假设有三个预定义的事件类型(用T1、T2和T3表示),而根据中文语句判断包含T1事件,然后将中越双语语句转换为三个二分类实例。

表1 中越双语语句二分类实例

根据汉语语句所标记的目标事件类型得到嵌入向量t1和t2。首先对t1进行打分,以此感知触发的事件类型。在下面的等式中,利用注意力机制计算句子中第k个单词的分数,如式(10)所示。

(10)

经过注意力分数评估之后,目标事件类型的触发词可获得更高的分数。最后,可得越南语句子的表示Satt如式(11)所示。

(11)

根据所得越南语句子的表示,最终输出O连接到两个组件:vatt和vglobal。如图3所示。

图3 事件检测器模块

一方面,vatt是由Satt和t1点积计算所得,它被设计用来捕捉越南语本地特征。另一方面,越南语通过共享编码器策略得到越南语句子向量表示HSv,因此vglobal=HSv·t2是捕捉越南语句子的整体特征信息。最后,O被定义vatt和vglobal的加权和,如式(12)所示。

O=σ(λ·vatt+(1-λ)vglobal)

(12)

其中,σ是sigmoid函数,λ∈[0,1]是一个用于权衡vatt和vglobal的超参数。

2.4 偏置损失函数

由于每个训练样本都是一个[(C,V),T],根据给定的句对是否传递一个T类型的事件使其标签是1或0。例如,我们总共有7个目标事件类型,如果由中文句子标注一个事件类型,那么它将被转换成6个负样本和1个正样本,因此负样本数量比正样本多,于是我们通过一个偏置损失函数来加强正样本影响,如式(13)所示。

(13)

其中,N表示事件类型的数量。x是由汉越句对和中文标注的事件类型组成的一对[(C、V),T],y∈[0,1],θ是我们模型的参数,δ>0是L2规范化项的权重。(1+yi·β)是偏差项。具体而言,该项的值对于负样本(yi为0)为1,对于正样本(yi为1)为1+β,其中β≥0。

2.5 训练

(14)

3 实验

3.1 实验数据

本文实验的数据集是通过爬取汉越双语新闻网站的新闻文本和维基百科中的汉语-越南语翻译文章获得,其任务示意图如图4所示。

图4 任务示意图

对所获得的文本数据分句处理,然后经过对齐,获得19k个汉越可比语料对,并从中选取18k个汉越可比语料对作为训练集,选取1k个汉越可比语料作为测试集,并根据事件检测任务中通用的ACE2005数据集的格式对其进行标注。本文构建的语料中划分了7种事件类型和1种非事件类型,如表2所示。

3.2 评价指标

本文使用准确率(P)、召回率(R)和F1值来评估结果。

表2 事件类型及触发词

续表

准确率P(Precision): 正确预测的事件在总预测为事件中所占的比例。

召回率R(Recall): 正确预测的事件在全部实际为事件的总数中的比例。

(15)

3.3 参数设置

模型的参数设置如下: 使用300维作为汉越双语语句的单词嵌入,使用50维作为汉越双语语句的实体嵌入,每一批次大小为100。δ设置为1e-5。偏差项中的β为1.0。此外,本文通过实验研究式(12)中参数λ对模型性能影响,如图5所示,当λ为0.3时,模型性能最优。

图5 设置不同λ值的实验结果

4 实验结果及分析

4.1 模型图卷积层数对模型性能的影响

图卷积层数实验结果如表3所示,当图卷积的层数为1时模型达到最佳效果,随着层数的增加性能均有所下降。因此,在后续的实验中,模型均采用一层图卷积。

表3 图卷积层数实验结果

4.2 参数对比实验

为验证本模型的嵌入向量维度对性能的影响,取4个维度进行实验,结果如表4所示,当嵌入维度为100和200时,模型性能都所下降。由于嵌入维度比较低,其语义信息表达能力不足,从而影响模型性能。当嵌入维度比较高的时候,模型出现过拟合趋势,从而使模型性能开始下降。所以,最后模型嵌入选定为300维为最优。

表4 Embedding维度实验结果

4.3 对比实验

为验证本文方法对越南语事件检测的效果,共选择四个基线方法进行试验。

LSTM-ED该方法通过共享LSTM编码器的方式和事件检测模块联合进行事件检测。

CNN-ED该方法利用卷积神经网络对句法特征进行提取和融入,以完成事件检测。

DPCNN该方法使用翻译的方式进行触发词标记,进而训练事件检测模型。

TBNNAM该模型基于目标事件类型计算句子的表示,实现无触发词的事件检测。

表5显示了事件检测的F1值结果。第一部分LSTM-ED、CNN-ED模型是融入中文语义信息事件检测模型,第二部分DPCNN、TBNNAM是传统单语事件检测模型,第三部分Ours是我们的实验模型。通过对比实验可知,本文模型的F1值均超过其他基线模型。

表5 对比实验结果

(1) 对比DPCNN和TBNNAM模型分析得出,虽然使用翻译的方式扩充越南语语料在DPCNN和TBNNAM模型进行训练能取得一定效果,但是本模型在中文语句的辅助下越南语事件检测能取得更好的效果。本文模型通过中文语义信息的融入,充分利用中文标注的事件类型信息,辅助越南语事件检测,从而提升了越南语事件检测的性能。

(2) 对比LSTM-ED和CNN-ED模型,结果表明捕获语句的特征信息有助于提高模型的事件检测性能。本文模型使用共享GRU编码器,使得模型参数更少,因此更容易收敛,比共享LSTM编码器取得了更好的效果。本文模型与CNN-ED对比表明,使用图卷积模块可以捕捉到CNN未能捕捉到的越南语句法关系特征,通过融入越南语句法关系特征有效提高了事件检测的准确性。

权重可视化: 事件感知网络中注意力向量权重α权重可视化。对于例句:

C: 越方愿为两国经贸发展做出努力,共同推动双方在这个领域的交流。

type: 合作

图6 模型学习样本注意力权重α的可视化

4.4 消融实验

为验证本模型的中文语义信息、句法图卷积模块及交叉注意力机制的有效性,进行了消融实验结果如表6所示。(1)“(-)”表示未使用该网络结构。

从表6可以看出,本文模型的P、R、F1值均超过其他基线模型。当模型未融入中文信息时(Chin-sen),模型P、R、F1值均有所下降,因此可以证明中文语义信息的融入,可以使模型更好地辅助越南语进行事件检测,这对模型检测越南语事件的性能提升是非常重要的,也是模型中必不可少的一部分。当去掉交叉注意力机制(cr-att)时,由于模型没有对中文语句深层次信息融合,其性能也有所下降。这说明交叉注意力机制对模型性能提升也有帮助。当模型未使用句法图卷积模块时,模型的P、R、F1均有下降,因此可以证明句法图卷积模块可以有效地对句子深层次的特征进行提取和融入,可以更好的辅助模型对越南语事件信息进行准确识别。

表6 消融实验结果

4.5 数据质量对比实验

为验证数据质量对本模型的性能影响,本文将输入的可比语料句对按照比例随机打乱(0.05、0.1和0.15的比例)生成一定比例的噪声数据。实验结果如表7所示。

表7 数据质量对比实验结果

由表7可知,当以0.05的比例打乱数据时,R值降低,说明少量的噪声数据影响模型对事件句的识别,使得模型总体性能下降。当以0.1的比例打乱数据时,R值上升而P值下降,说明由于训练数据噪声的影响,使得模型的泛化能力得到了提高,进而对事件句的判断更加准确,但对非事件句造成了较大误判。当以0.15的比例打乱数据时,模型的性能大幅度下降,这是随着噪声数据比例的增加,其对模型的性能影响不断叠加,从而影响模型对事件句的判断,使得模型性能下降。

5 总结

本文提出了一个融合中文语义信息与越南语句法特征的越南语事件检测模型。该模型结合了中文的语义信息和越南语句法信息,通过融入中文语句的语义信息,使得中文标注的事件类型可以指导越南语事件检测,从而解决越南语标注数据稀缺的问题。同时,本文模型利用图卷积网络对越南语句法特征进行提取并将其融入越南语中,提高了越南语事件检测的准确性。通过对比实验,证明了加入中文语义信息与越南语句法信息可以有效地提升越南语事件检测效果,其实验结果证明了本文模型的有效性。

猜你喜欢

越南语句法卷积
越南语欣赏日:让侨民更爱越南
基于全卷积神经网络的猪背膘厚快速准确测定
柬语母语者汉语书面语句法复杂度研究
基于图像处理与卷积神经网络的零件识别
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
句法二题
《空间句法在中国》段进、比尔?希列尔等(著)
诗词联句句法梳理
关于越南语国语字书写规范化的几个?问题