APP下载

面向储粮害虫的事理图谱构建研究

2023-12-18陈啸林

中国粮油学报 2023年10期
关键词:论元事理储粮

肖 乐, 陈啸林, 单 昕

(河南工业大学信息科学与工程学院,郑州 450001)

近年来,全球粮食产业链供应链不确定性风险增加。据联合国粮农组织估计,病虫害导致粮食作物每年损失质量分数20%~40%,中国是全球粮食主要生产国之一,据国家统计局数据显示:2021年中国粮食播种面积为1.18亿hm2,产量为6.83亿t,连续10年产量破6亿t,为中国粮食安全提供了坚实的物质基础和供给保障[1]。储粮受气候变化、粮温变化、储粮害虫繁殖等事件的影响而产生损耗,而传统知识图谱局限于静态知识而无法展示事件的发展。针对该问题,本研究对储粮害虫事理图谱的数据特征和构建方法进行研究,根据储粮害虫数据特征对储粮害虫相关事件进行事件抽取,指导储粮害虫事理图谱的构建,有助于科研人员挖掘粮食储藏深层机理,改善农户或粮库工作人员等因对储粮事件发生的前因后果和发展逻辑的了解不系统不全面,而导致粮食在存储中产生巨大损耗的问题。

1 介绍

事理图谱是一个有向有环图,以“谓词性短语”为节点,以事件演化逻辑为边,包含了事件实体和事件之间的因果、顺承、共指、时序等关系。构建储粮害虫事理图谱可以梳理粮仓中储粮害虫引发粮食舆情事件的先后逻辑与演化规律,帮助农户掌握储粮事件中的事理逻辑知识,达到及时应对储粮突发事件,减少虫蛀损失,保障粮食安全的目的。

1.1 事理图谱和知识推理的意义

知识图谱作为文献计量分析的重要手段之一,因具有可视化、数据处理能力强、分析维度多等优势,近年来得到广泛应用[2]。但传统知识图谱受限于其本体概念,与事件图谱、事理图谱在多个方面有显著区别。

Yang等[3]利用事件时间戳、事件内容相似性等建模事件演化关系,以便高效地浏览和提取信息。李忠阳等[4]提出事理图谱的概念,揭示事件之间的演化模式和发展逻辑。事理图谱的推理被应用于事件预测、常识推理、因果推理、对话生成、问答系统等任务中。构建储粮害虫事理图谱可以对储粮害虫相关事件进行推演、预测后续事件,总结并指导后续的防治。

1.2 知识图谱在粮食领域的研究与应用

目前知识图谱在粮食领域的应用目的主要在于提高粮食产量,减少粮食损失。Zhao等[5]利用知识图谱改进对收获后的谷物损失预测。Mawkhiew等[6]通过植物光感受器的基因知识图谱研究粮食作物生理发育过程,来培育具有更高农业效益的作物。Liu等[7]研究了农作物病虫害数据特征,介绍了农作物病虫害知识图谱的构建方法和具体应用。Choudhary等[8]开发了YieldPredict框架来预测作物产量。在储粮领域,肖乐等[9]提出通过构建知识图谱来对粮情决策系统做支持。而知识图谱主要展示静态知识,根据事理图谱的特点可以更好地指导储粮害虫的防治。

1.3 建立储粮害虫事理图谱的目的和工作

对于粮食事件[10],考虑到图1a中知识图谱只能展示特定静态知识的特性,利用粮食领域事件关联性强的特点,可以将不同类型事件通过其动态关系连接成链,如图1b中事件通过因果关系相连接,组成了一条事件链,来展示事件的动态演化逻辑。而事件链中的具体事件泛化为一般事理后,形成事理链如图1c所示,多个事理链相连接结合构成事理图谱,可以清晰直观地展现事件发展逻辑和演化规律。

图1 事件演化逻辑

本研究针对构建储粮害虫事理图谱来减少粮库损失这一目的,通过采集粮食大辞典[11]储粮相关论文和网上爬取的储粮害虫事件等文本,对其进行数据预处理、标注,构建储粮害虫语料库,并对储粮害虫事件的数据特征进行研究。本文将储粮害虫事件数据与其他领域事件数据中的因果关系词的词频做对比,通过对储粮害虫事件中的因果关系词、事件类型、触发词、隐性因果关系等进行分析,发现了储粮害虫事件数据事件密度低、事件类型因果关联性强的数据特征。经研究及实验分析,自注意力集机制对触发词重叠的储粮害虫事件挖掘十分有效,从而提出了适用于储粮害虫事件的事件抽取方法和引入自注意力机制的Bert-BiLSTM-Attention事件类型识别模型。相比其他模型,实验取得了更好效果。

2 事理图谱相关研究

事理图谱的节点由抽象、广义和语义完整的谓词性短语表示,事理图谱中的事理是具有一定抽象程度的事件,可以是由主语和谓词组成的谓词性短语,也可以是包含事件主体、论元、谓语动词的多元组。

近年来,知识图谱在粮食领域得到广泛应用,通过粮食知识图谱可以对粮食领域智能问答系统、决策系统、专家系统等做支持,而对于事理图谱目前的研究,在粮食领域应用较少,事理图谱中包含的事理逻辑相对于知识图谱更符合人类的思考习惯,因此具有较强的可解释性,且在事理图谱上进行关系推理可以更进一步挖掘不同类型事件间的因果、时序等关系。

2.1 事理图谱研究现状

事理图谱的研究任务如表3所示,目前主要有脚本事件预测和因果关系抽取。

表3 事理图谱相关研究

2.1.1 脚本事件预测

事件发展有一定逻辑,将有共同主人公的一组有序事件组成事件链,统计脚本学习目标是从原始文本中学习事件链。Chamber等[12]在2008年首先提出脚本事件预测,定义为给出一个事件的上下文,需要从候选列表中选择最合理的后续事件[12]。Jans等[13]改进了Chamber等[12]的方法,明确建模事件对的时间顺序[13]。基于事件对的方法适用于部分序列,对于长期时序的学习,LSTM可以保存长期历史信息[14]。Wang等[15]结合2种方法的优点,使用LSTM隐藏状态作为事件对建模的特征。但基于事件对和事件链的模型不能充分利用密集事件连接,因此李忠阳等[16]基于叙事事件链构建了事理图谱。

2.1.2 因果关系抽取

事理图谱的节点存在时序、因果等关系,在许多情况下时序和因果关系往往可以互相决定[18]。

当前因果关系的抽取技术包括基于知识、基于统计机器学习和基于深度学习的方法[19]。大多数因果关系抽取方法是通过句子中显式因果关系词进行抽取。然而文本中很多因果关系是隐式因果关系。Wang等[24]提出了从ADE语料库中提取实体和关系的模型,对编码序列表示和表表示,以识别实体及其关系,这2种表示相互作用,来挖掘句子中的隐性关系。Jin等[25]利用BiLSTM获得因果之间更深层的上下文语义信息来挖掘句子之间的因果关系。

同时国内也有以事件为核心的应用型事理图谱研究,如中科院软件所开发的大规模事理学习与搜索系统学迹[26]和哈工大社会计算与信息检索研究中心开发的金融事理图谱demo,展示了事件之间的抽象因果关系[27]。

2.2 事理图谱可解释性研究

可解释性指决策原因可以受人理解的程度。可解释性的一个标准是:如果系统可以解释其推理,那么我们就可以验证这一推理是否合理[28]。

在某些任务中,人们需要了解做出决策的原因。侯中妮等[29]指出,出于高可靠性要求、道德和法律的要求、科学发现的要求,这3点推动了对可解释性的需求。在知识推理中,根据解释产生的方法可以将推理模型划分为事前可解释和事后可解释两大类。

可解释性是事理图谱的一个重要特征,要求人们可以通过事件之间的时序、因果等关系充分理解事件的演化过程。Li等[30]提出预先构建的事理图谱中获取中间证据事件作为因果推理的逻辑规则。

事理图谱主要展示事件的发展逻辑和演化规律,更符合人类的思考习惯,因此本身具有较强的可解释性,同时对可解释的因果关系抽取和知识推理有较高的准确性要求。

2.3 事理图谱推理研究

知识推理旨在利用已有的知识推理出新知识的过程。知识推理的方法主要分为3类:基于规则的推理、基于分布式的推理和基于神经网络的推理。

基于演绎逻辑和规则的推理方法以逻辑操作符组合的形式利用已有的规则进行推理,如AMIE[31],TensorLog[32],NeuralLP[33],RNN-Logic[34]等。基于分布式的推理方法将高维、离散的数据嵌入到低维连续的向量空间中进行计算,代表模型有TransE[35]、RotateE[36]等。基于神经网络的推理,用深度神经网络模型计算实体对等的相似度得分来进行推理[37-39]。同时还有基于图结构的推理如PRA[40]、GraIl[41]等。

事理图谱推理的任务主要有对事件时序关系的推理[17,30,42],根据事件时序关系可以挖掘事件因果关系。和对因果关系的推理[43,44], 实质上相当于测量一个事件在统计学上导致另一个事件的合理性。

2.4 面向储粮害虫的事理图谱研究内容

目前面向储粮害虫的事理图谱研究内容主要是储粮害虫事件和因果关系的抽取。对于储粮害虫事理图谱的构建,需要通过挖掘事件之间的因果关系并形成事件链,来帮助有关人员了解储粮害虫事件的因果事件和演化规律,指导后续的害虫防治,减少储粮损失。

对于储粮害虫事件数据中事件因果关联性强的特点,以储粮害虫事件数据构建的事理图谱具有较强的可解释性,如:环境变化引起仓温上升到绿豆象繁殖的适宜温度,导致绿豆象大量繁殖,其中的事理逻辑为环境变化-仓温上升-储粮害虫繁殖。同时在事理图谱上进行推理,来挖掘不同事件类型之间更深的因果、时序等事理关系。

3 储粮害虫事理图谱构建方法

3.1 储粮害虫数据架构

本文把储粮害虫事理图谱数据总体架构分为两部分,如图2分别是模式层和数据层。模式层包含已预先定义好的事件类及事件对应的事理类,以及储粮害虫数据中的实体类和属性类作为事件的论元角色,通过模式层构建数据的总体架构来指导数据的标注工作。数据层为根据模式层定义的数据类型对储粮害虫事件进行标注得到的数据,包含储粮害虫相关事件、事件中参与的实体以及实体属性和关系,和经过泛化得到的事理。

图2 储粮害虫事件数据架构

3.2 储粮害虫事理图谱事件抽取和关系抽取

事件抽取是构建储粮害虫事理图谱的核心任务。事件是指在特定时间和特定地点发生的特定事件,涉及一个或多个参与者,通常可以描述为状态的变化[45]。事件主要由动词或动名词驱动,包含事件类型、事件触发词、事件论元、论元角色等。

事件抽取的4个子任务:触发词识别,事件类型分类,论元识别,论元角色分类。根据这4个子任务的解决过程,事件抽取任务分为基于pipeline的事件抽取和基于联合的事件抽取[46]。基于pipeline的方法将所有子任务视为独立的分类问题:文献[47,48],基于联合的方法文献[49,50]。

储粮害虫事理图谱中的事件抽取重点抽取事件实例所属的事件类型和其中论元的角色,将事件实例和论元泛化得到一般事理。

事件抽取得到的储粮害虫事件实例,如图3抽取样例中可以看到事件抽取得到事件的类别和其中所包含论元及其角色,再用基于模板匹配的关系抽取方法获取事件之间的关系,利用预设好的模板库,包含“导致”“造成”“引起”等能够代表事件之间因果关系的关系词,对储粮害虫事件进行搜索,并获取关系词的上下文作为“因”事件与“果”事件,“因”事件与“果”事件通过因果关系词连接形成三元组,如果一个因果事件三元组的尾结点刚好是另一个三元组的头结点,那么这种重叠将2个三元组结合起来,构成事件链,并经过泛化得到事理链。

图3 抽取样例

由于储粮害虫事件属于一个较小的领域知识,事件类型之间相似度较高,因此基于模板匹配的关系抽取能够达到较高的精确度。

3.3 储粮害虫事理图谱构建流程

储粮害虫事理图谱构建流程如图4所示,首先对获取的储粮害虫事件数据根据预先定义好的架构进行标注,对标注好的数据进行事件抽取、事件分类、论元抽取、通过预设好的关系抽取模板进行事件关系抽取得到事件链。抽取得到的大量储粮害虫事件,利用其中部分论元进行结合可以泛化为一般事理,相似事件将被泛化为相同的事理,这些事理继承了原事件链中的因果关系。通过事件链的因果关系来确定事理的逻辑关系,最后把得到的事理链及其对应的事件以图的形式存储在Neo4j数据库中。

图4 储粮害虫事理图谱构建流程

图5 Bert-BiLSTM-Attention模型图

4 实现

4.1 储粮害虫数据语料库构建

用粮食大辞典、相关论文和找到的网上储粮害虫相关事件数据构建原始数据集,共获取7 511条数据。表4定义了储粮害虫相关事件的4个类别和其中包含的共14个事件类型及其中的论元角色。获取的数据经过数据清洗、去除停用词、对获取的数据用label studio在线标注平台对事件、触发词、论元等根据表4定义的事件类型及论元角色的抽取任务标签进行标注得到储粮害虫事件语料库。我们通过分析所构建的储粮害虫事件语料库得到储粮害虫事件数据特征,对能够结合其特征的事件抽取方法进行研究。

表4 储粮害虫事件类型及对应事件角色

由表4中不同事件类型的论元角色可知,同一类别中的不同事件类型相似度较高,而相似事件类型中往往有相同的触发词,如果通过标注触发词来完成事件抽取会影响事件分类的准确性。因此本研究直接对储粮害虫事件类型进行标注,事件抽取时用事件类型识别来代替触发词识别。

4.2 数据特征分析

储粮害虫事件包含环境影响、态势、防治、损失等多个类别,不同类别之间有紧密的因果关系,每个类别包含多种具体事件类型。传统的事件抽取方法是将触发词和事件论元进行统一抽取再分类,而在储粮害虫事件数据中,相似的事件类型中通常包含大量相同的触发词,针对储粮害虫事件数据,基于触发词识别的抽取方法往往难以对同一类别的不同事件类型的事件准确分类,而影响后续任务的准确度。因此,我们将储粮害虫事件抽取任务分为两步,第一步是无触发词的事件分类,按照预先定义的事件类型对事件数据进行无触发词分类,第二步是论元识别,按照预先定义的事件论元角色对论元进行识别并分类,可以用来确定完整的事件实例并利用论元对事件进行泛化,然后对事件进行关系抽取得到事件实例之间的因果关系。

本研究将4.1构建的储粮害虫事件语料库与其他领域事件数据对比,对储粮害虫事件数据和DuEE事件抽取中文数据集[51]的14 946条新闻事件做词频分析,设置了“产生”“影响”“导致”“造成”“由于”“引起”等可以表示因果关系的词汇,在已获取的数据中,每条数据最多只包含一种因果词,在储粮害虫事件数据的7 511条数据中和DuEE事件抽取中文数据集的14 946条数据中,包含因果关系词汇的数据所占比例如表5所示。

表5 粮食数据事件因果关系分析

由表5可知,不同类型粮食事件的因果关联性较强。但在粮食数据中事件的密度较低,同一类别事件中不同事件类型相似度较高。其他领域事件中具有因果关系的事件的表述中大多包含“产生、影响、导致”等表示因果关系的词汇,而储粮害虫事件数据中,存在大量事件有因果关系,但表述中不包含表示因果关系的词汇,如表6所示。对于没有包含因果关系词汇的事件,通过其事件类型所属类别标签来确定因果关系,并泛化为事理。

表6 储粮害虫事件数据样例

经过处理后得到的储粮害虫事件为半结构化事件,一条事件文本中包含多个事件类型的具有相互关系的事件,经过事件抽取和关系抽取组成一条事件链。

4.3 模型

通过研究及实验发现自注意力机制对触发词重叠的事件发现有较好效果。针对储粮害虫事件数据具有因果关联性强和触发词重叠等特征,提出引入自注意力机制的Bert-BiLSTM-Attention模型进行储粮害虫事件类型的识别,在储粮害虫语料库上的实验结果(见4.4)与其他无此特征的公共数据集比较,效果显著。

Bert预训练语言模型强大的语言表征能力和特征提取能力可以更好地对储粮害虫事件文本进行编码,再利用BiLSTM同时双向进行特征学习的特点,学习储粮害虫事件文本上下文特征,有效挖掘文本中蕴含的隐含特征。

在储粮害虫事件类型识别过程中,放弃触发词识别可以有效避免由于储粮害虫事件中触发词重叠造成的事件抽取准确度低的问题,并加入自注意力机制在Attention层,来捕捉数据或特征的内部相关性,挖掘文本中重叠的触发词的影响,解决长距离依赖问题,对储粮害虫事件中类似触发词的重要信息分配更多注意力,并对其充分理解识别。

在4.1所构建粮食事件语料库上进行事件抽取,用Bert-BiLSTM-Attention模型进行事件类型识别的具体流程如图4所示。经过标注的语料分词后首先通过Bert预训练语言模型得到相应的词向量, 再把得到的词向量输入到BiLSTM层,利用Attention层获取每个元素的注意力值,与BiLSTM层得到的序列特征结合来突出重要信息, 最后通过Softmax层进行事件类型分类,从而完成事件类型识别任务。

Bert是一个基于Transformer 的双向预训练语言表征模型,将Transformer Encode进行堆叠来充分捕捉句子的远距离语义。Bert中双向Transformer的自注意力(Self-Attention)部分计算见式(1)~式(4)。

Q=X×WQ

(1)

K=X×WK

(2)

V=X×WV

(3)

Attention(Q,K,V)=softmax(QKTdk)V

(4)

式中:矩阵X为输入;WQ、WK、WV为参数矩阵;Q(Query)、K(Key)、V(Value)矩阵本质上为X的线性变换,作为归一化。最后将权重矩阵和相应的Value矩阵进行加权求和得到最后的注意力值。

将Bert微调后得到的子序列向量输入到BiLSTM模型进行特征抽取来捕获上下文信息。

BiLSTM即双向长短期记忆神经网络,由2层长短期记忆神经网络(LSTM)组成。LSTM不仅对短期输入敏感,而且能保持长期记忆功能。具体计算如式(5)~式(10)。

ft=σ(Wf×[ht-1,xt]+bf)

(5)

it=σ(Wi×[ht-1,xt]+bi)

(6)

gt= tanh(Wc×[ht-1,xt]+bc)

(7)

Ct=it×gt+ft×Ct-1

(8)

ot= σ(Wo×[ht-1,xt]+bo)

(9)

ht=ot×tanh(Ct)

(10)

式中:gt为记忆单元;it为输入门;ot为输出门;ft为遗忘门;ht为LSTM的输出。Wf、Wi、Wc、Wo为隐藏层向量的权重矩阵;bf、bi、bc、bo为偏差向量。BiLSTM输出的储粮害虫事件数据特征信息集合输入到Attention层中。

Attention层计算过程见式(11)~式(13)。

et=VT·tanh(W1·ht+b)

(11)

αt= exp (et)∑Tj=1exp (ej)

(12)

C= ∑Tt=1αt·ht

(13)

式中:W1和VT为权重矩阵;b为偏差;et为输入序列t时刻的注意力值。

对et进行归一化得到αt,然后与ht进行线性加权求和,最终得到特征向量C,将C输入到Softmax层进行分类,如式(14)所示,最终得到储粮害虫事件类型信息。

y=softmax(Ws·C+bs)

(14)

4.4 实验结果

研究针对储粮害虫事件数据事件密度低、事件类型因果关联性强的特点,选择Bert+BiLSTM+Attention模型进行事件类型识别任务。

为了证明该模型对于储粮害虫事件抽取任务中无触发词事件类型识别的有效性,我们将该模型分别用于储粮害虫语料库和DuEE事件抽取中文数据集、ACE2005事件抽取中文数据集,进行事件类型识别任务,并在该模型上与储粮害虫语料库进行效果对比。

同时将Bert-BiLSTM-Attention去掉Attention层,分别用Word 2vec和Bert来对数据向量化,通过在3个数据集上进行实验比较Bert和Word 2vec对实验结果的影响,和Attention层对于储粮害虫事件抽取任务中无触发词事件类型识别的重要性,以及用于针对储粮害虫事件数据特征的事件类型识别的必要性。

以F1值作为评价指标,实验结果对比如表7所示。

表7 实验结果对比

从表7可以看出, Attention层在储粮害虫事件类型识别中具有一定的重要性,在储粮害虫语料库上进行实验时去掉Attention层会导致性能严重下降,而在另外2个数据集上对实验结果没有明显影响。同时,在实验中,Bert与Word 2vec相比具有一定的优势,用Bert预训练语言模型来对数据进行向量化比Word 2vec在3个数据集上的实验结果F1值有较为明显的提升。而Bert-BiLSTM-Attention模型在储粮害虫语料库上的实验结果F1值相较于DuEE数据集和ACE2005数据集有明显提升。

根据在不同场景下实验得到的F1值,可以观察到,基于Bert-BiLSTM-Attention模型的储粮害虫事件分类效果于其他方法相比有较大提升,而在DuEE和ACE2005事件抽取中文数据集上与Bert-BiLSTM模型的实验结果没有明显变化,因此Attention层在储粮害虫事件类型识别中较为重要,但由于DuEE数据集及ACE2005中文数据集不同于储粮害虫数据的特征,该模型在储粮害虫领域的事件数据集上进行无触发词的事件抽取能取得更好的效果,证明了该模型针对储粮害虫事件数据特征的有效性。

5 总结与展望

通过事理图谱研究,以期解决知识图谱难以展示事件动态发展逻辑的问题,分析了事理图谱的研究现状和相关技术,挖掘了储粮害虫数据中事件密度低,且储粮害虫事件数据中不同事件类型触发词重叠和事件因果关联性强的数据特征,并在此基础上提出了面向储粮害虫事件的抽取方法和引入自注意力机制的储粮害虫事件类型识别模型。

针对储粮害虫事理图谱的构建,设计了储粮害虫事件语料库构建的总体架构,定义了储粮害虫事件数据的框架,根据这一框架构建了储粮害虫事件语料库并提出了针对储粮害虫事件数据特征的事理图谱构建方法和流程。将储粮害虫事件抽取分为事件分类和论元分类两个任务。在所构建的储粮害虫语料库上进行无触发词的事件分类任务,用不同模型及数据集进行对比实验,证明了本文提出的针对储粮害虫事件的抽取方法的有效性。

基于本研究所完成的储粮害虫事件类型识别任务,将进一步研究储粮害虫事件的论元识别和事件泛化,梳理粮仓中储粮害虫引发粮食舆情的先后逻辑与事件演化规律,从而完善储粮害虫事理图谱构建,为粮食行业储粮害虫研究与防治提供科学手段,减少粮食产后损失,保障我国粮食安全。

猜你喜欢

论元事理储粮
阐释现象 揭示事理——说明文写作六步曲
语 丝
渭南农户储粮的调查与分析
中储粮企业全面预算管理之我见
国内首座球形粮仓储粮效果及特性
成分重量和粤方言双及物结构的论元语序
基于论元结构和题元指派对汉语处置义“把”字句的句法语义分析
沼气在防治储粮害虫中的应用
英语中动构式中施事论元句法隐含的认知研究
一语中的