基于事理知识图谱的舆情推演方法①
2021-04-23徐志栋任鹏程
于 强,徐志栋,时 斌,魏 伟,任鹏程
1(中国石油大学(华东)计算机科学与技术学院,青岛 266580)
2(中国人民解放军国防大学 国家安全学院,北京 100091)
3(青岛海尔空调电子有限公司,青岛 266101)
4(青岛海尔智能技术研发有限公司,青岛 266101)
1 引言
信息技术的发展促进交流方式的转变,众多网络媒体、社交平台成为大众了解信息、获取信息的重要来源,催生了网络舆情这一社会舆论独特表现形式的产生与发展.网络舆论具有强大的社会监督能力[1,2],但如果网络舆论失控,将会给社会安定带来不利影响.在众多类型的人类知识中,事理逻辑是一种非常重要且普遍存在的知识,许多人工智能应用依赖于对事理逻辑知识的深刻理解,但目前的研究缺少针对舆情事件因果动态演化过程的分析,难以对舆情事件发展方向进行有效预测[3].本文依据采集的舆情数据挖掘因果事件逻辑,构建事理知识图谱,通过文本向量化融合增强事理知识图谱的泛化性.针对目标事件,实现了根据事理知识图谱中相似事件的演化方向,预测其未来发展.
2 相关工作
目前在网络舆情事件推演方面已经出现过诸多研究,前期学者们多利用模糊推理作为演化规则来探究舆情的演化规律.比如张春娇[4],党小超等[5]分别考虑信息在传递过程中普遍存在模糊性的特点,结合元胞自动机理论和模糊推理算法建立了网络舆情传播的模糊元胞自动机模型;Ding 等[6]利用模糊元胞自动机分析了不同观点持有者对舆情发展的影响.然而基于推理规则的方法往往停留在对舆情热度、情感等表象的研究,忽视了核心舆情事件发展规律,泛化性难以保证.近年来得益于计算机技术有力发展,学者们开始运用大数据、人工智能技术研究网络舆情演化规律.比如兰月新等[7]定性的分析了大数据环境下网民情绪特征和分类,构建了网民情绪演化机理微分方程模型分析网民情绪演化趋势;曾子明等[8]等构建了基于BP 神经网络的舆情热度趋势预测模型用于预测突发传染病事件的发展趋势;Yang 等[9]利用多类别支持向量机进行观点挖掘以及情感分析,实现了对舆情的趋势以及热度预测,但该类方法在可解释性上存在欠缺.
哈尔滨工业大学刘挺教授团队率先提出“事理图谱(Event Logic Graph,ELG)”[10,11]概念,其本质是事件逻辑知识库,用于揭示现实世界事件的演化模式和发展逻辑,对于认识人类行为和社会发展变化规律具有重要的意义.目前基于事理图谱进行舆情事件预测研究正处于起步阶段,单晓红等[12]、夏立新等[13]、Li等[14]在这一领域做出了一些探索,但在舆情逻辑事件抽取与泛化方面仍有待加强.本文在传统通过模式匹配抽取事件基础上,研究了基于神经网络的事件识别与抽取方法,优化了事理知识图谱中边权重计算方式,实验结果证明本文提出的舆情推演方法有效,可以较好地揭示舆情事件演化规律,从而为舆情管控提供支持.
3 舆情推演方法
基于事理知识图谱的舆情推演方法如图1所示.
图1 舆情推演流程
首先处理原始舆情语料,识别、抽取出因果事件元组;其次对事件进行融合减少冗余,完成事理知识图谱构建与泛化;最终根据图谱中事件节点的演化规律对目标舆情事件的可能发展动向进行研判.
3.1 因果逻辑事件识别与抽取
本文以因果关系逻辑为基础构建事理知识图谱,将其分为了两个过程.首先对文本进行分析,判断识别是否含有因果逻辑,然后再抽取事件元组.
1)因果逻辑识别
我们将事件因果关系逻辑识别作为文本分类任务处理,设计了基于BERT的因果逻辑事件识别模型.BERT[15]是谷歌团队于2018年底发布的基于双向Transformer[16]的大规模预训练语言模型,在多项自然语言处理任务中获取了最好效果.
我们对标准的BERT 模型进行了改进,在BERT模型输出层取得所有输入字符对应的输出向量后对接文本分类器,分类器选择包括长短时记忆网络BiLSTM、循环卷积神经网络RNN,用于对BERT 输出的向量再次进行计算,判断其是否含有因果逻辑语义.进一步,我们使用了原始的BiLSTM、RNN 以及Transformer模型处理相同的实验数据,以对比分析BERT 模型的加入以及不同BERT 模型改进方式对结果造成的影响,各个模型的准确率在实验部分给出.实验结果显示BERT-BiLSTM 模型能够得到最好的识别分类效果,后续处理分析将基于BERT-BiLSTM 模型处理结果进行.
用于因果逻辑识别的BERT-BiLSTM 模型如图2所示.
对于任意输入文本序列,在完成数据清洗之后处理为单个字符的形式输入模型,便可自动判断其是否属于因果逻辑性描述.
图2 因果逻辑识别
从图2可以明显看到BERT 模型由嵌入层、编码层、输出层3 部分构成,关键部分是双向Transformer结构,实质是一个基于“自注意力机制”的深度网络,即通过计算同一个句子中的词与词之间的关联程度调整权重系数矩阵以表征词:
其中,Q,K,V是字向量矩阵,dk是Embedding的维度,多头注意力机制通过多个不同的线性变化对Q,K,V进行投影,通过公式(2)(3)将不同Attention结果拼接起来.
其中,W是权重矩阵,由此模型可以实现对文本重点特征的聚焦提取.编码器结构如图3所示.
图3 Transformer 编码器
2)因果逻辑抽取
在筛选得到含有因果逻辑事件描述的文本之后,本文通过BiLSTM-CRF[17]算法获取因果事件元组.BiLSTM-CRF 算法已被成功应用于实体命名识别工作中,取得了良好的效果.而元事件抽取与实体命名识别有许多共通之处,所以本文将BiLSTM-CRF 算法引用到元事件抽取过程中.类比于命名实体抽取方法,本文采用序列标注任务中经典的BIO 标注体系[18]对数据进行标注,具体使用的标注标签如下:
(1)词语的位置:B (开始),I (内部),E (结束);
(2)语义角色信息:C (原因),R (结果);
(3)事件的序号:1–N(每个对应序号为同一事件的因、果);
(4)其他词语:O.
例如,对于“受特大暴雨影响,242 国道洛南段部分路段被冲毁.”,标注结果如表1所示.因果逻辑事件抽取模型需要对输入序列中的每一个词语进行类别判断,然后为其输出一个类别标签,标签代表了序列的类别和边界,元事件抽取过程如图4所示.
表1 标注示例
图4 元事件抽取过程
3.2 事理知识图谱构建与泛化
本文将提取到的元事件转化为图谱“因 →果”形式,即以事件为节点,因果关系为边构建事理知识图谱.事理知识图谱可以表示为EventGraph={Nodes,Edges,Trans forms},其中Nodes={n1,n2,···,nk}为节点,即元事件集合;Edges={e1,e2,···,ek}为边,即因果关系,每一条边都是由原因事件指向结果事件;Trans forms={t1,t2,···,tk}为边的权重,用于计算某一原因事件造成特定结果事件的可能性.
对于抽取结果中重复的因果事件描述可能造成图谱冗余问题,本文分两种情形处理:
① 重复描述同一舆情事件存在的因果逻辑.
② 属于不同舆情事件但内容相同的因果逻辑,例如“暴雨引发山体滑坡”事件,在“2019年7月上中旬长江中下游洪水”,“四川‘8·20’强降雨特大山洪、泥石流灾害”等舆情事件中都存在.
我们将事件文本向量化处理,通过相似度计算解决以上两种问题.具体方法如下:对所有舆情事件进行分词处理获得原始语料数据,使用Word2Vec[19]模型处理所有原始数据,得到单词向量,使用事件文本组成词的向量和平均值作为事件向量,公式为:
其中,wi是事件ni的组成词汇,wivec为对应单词向量,nivec为事件节点ni的向量.
进一步,计算事件之间向量余弦相似度[20],计算公式为:
其中,Sim(ni,j)为事件节点ni与nj的相似度.若两个事件相似度高于预定阈值:
针对情形①,删除重复描述,即同一事件内每种因果逻辑只保留一条记录;
针对情形②,合并为同一事件节点,并增加对应边的权重.如图5所示,阴影节点表示两个事件高度相似,权重代表某一事件发生过的次数.
图5 相似事件归并
3.3 舆情事件推演方法
舆情事件推演是在已知某一事件发生之后,推测它可能导致的后续事件,本文构建的舆情推演方法具体步骤如图6.
图6 事件推演
为保持一致,对于目标舆情事件我们使用第3.2 节中同样的向量化方法进行表示.遍历已构建的事理知识图谱,基于式(5)计算目标舆情事件与图谱各个节点的相似度,找到相似度最高的节点.如果相似度最大值小于预设阈值,说明图谱中没有目标事件对应节点,无法进行推演.否则根据图谱中后续节点推测现实中可能发生的事件.若某节点有多个后续事件,根据边权重系数计算可能发生概率.如图7所示,在“泥石流发生”所引发的后续事件中,“淹没村镇”发生概率为4/11,且发生可能性低于 “冲毁公路设施”.
图7 事件发生概率计算示例
相似度阈值的设置对模型推演效果有着显著的影响.若相似度阈值设置过小会造成事件过度匹配,即事理知识图谱中不存在的事件记录匹配到了事件知识,造成错误的推演结果;相反,若相似度阈值设置过大会造成事件欠缺匹配,即事理知识图谱存在的事件记录未匹配到事件知识,同样造成推演结果的错误.本文在进行多次实验之后选定相似度阈值为0.72,相关实验过程及结果见第4 节的舆情推演实验部分.
4 实验分析
自然灾害给生产活动带来巨大损失同时,还会引发社会舆论的关注.灾害舆情具有突发性强、内容复杂、信息数量庞大等特点,当自然灾害发生时,积极有效的舆情应对工作对救灾工作顺利开展、社会维持稳定和增强政府公信力有着重要意义.
本文选取了2019年引发舆论关注的全国十大自然灾害事件[21],包括“1909 号超强台风‘利奇马’”、“6月上中旬广西广东江西等6 省(区)洪涝灾害”、“贵州水城‘7·23’特大山体滑坡灾害、“四川‘8·20’强降雨特大山洪泥石流灾害”、“7月上中旬长江中下游洪水”、“南方地区夏秋冬连旱”、“四川长宁6.0 级地震”、“四川木里‘3·30’森林火灾”、“山西乡宁‘3·15’滑坡灾害”、“青海玉树等地雪灾”.使用网络爬虫工具获取舆情数据信息,共搜集12000 余条舆情数据,使用本文提出的方法,构成事理知识图谱共含有1256个节点(事件)、842 条边(因果关系),部分实例如图8.
图8 自然灾害事理知识图谱(部分)
1)因果逻辑舆情事件识别
本文搜集了2020年“南方水灾”这一引发舆情高度关注的自然灾害事件信息,对数据进行人工标注构建测试数据集,共包含3000 余条舆情事件文本记录,根据包含因果逻辑与否约各1500 条.数据中包括“content”的舆情事件内容字段以及“label” 标注字段(0表示非因果逻辑,1表示包含因果逻辑).实验对比基准文本分类模型与本文所使用的方法在数据集的效果,实验结果如表2所示.
表2 模型结果对比
由表2结果可以看出,基于标准BERT 模型改进的BERT-RNN、BERT-BiLSTM 相对于基准RNN、Bi-LSTM 模型都取得了更好的识别结果,说明在此数据集上BERT 模型凭借其创新的训练模式以及参数体量的优势能更加有效的识别出文本特征信息,从而取得更佳的分类效果.由于本数据集中数据信息都是完整的舆情事件记录,文本长度较大,RNN 模型以及BERT-RNN 模型都未取得较好的效果,而LSTM 由于门控机制的存在,相对RNN 能够更加高效的捕捉更长距离的依赖,实现了更好的分类效果,最终BERTBiLSTM 通过结合BERT 模型与BiLSTM 模型的优势,取得了最优的分类效果.
2)舆情推演
鉴于在第3.3 节中介绍的舆情推演方法与某些推荐算法的工作过程存在异曲同工之处,本文移植了推荐算法的常用评价指标MRR[24]对舆情推演结果做出评价.
MRR使用正确检索结果值在检索结果中的排名来评估检索系统的性能,是一个国际上通用的对搜索算法进行评价的机制,其计算公式为:
其中,Q为样本query集合,|Q|表示Q中query个数,ranki表示在第i个query中,第1个正确答案的排名.比如某测试集有3个query,结果中的第一个正确答案分别被排在第4,2,5 位,则该系统的MRR得分为(1/4+1/2+1/5)/3=0.3177.
在本文中基于已构建事理知识图谱为测试事件(因)推测可能后续事件(果),出现多个推测结果情况时则是根据边的权重系数大小进行排序.我们对2020年“南方水灾”数据中的因果信息进行了人工筛选与抽取,共得到166个因果事件对作为测试数据.使用MRR评价指标进行评分,最高准确率得分为0.716,这证明了本文所提出方法的有效性.
同时,本文分析了使用各不同因果识别模型以及不同事件相似度阈值设置下对模型结果造成的影响,图9显示了不同相似度阈值设置下模型推演结果准确率的变化.
图9 相似度阈值-准确率影响
通过实验结果表明,相似度阈值的变化会对模型推演性能造成一定的影响.若相似度阈值设置过小会造成事件过度匹配;相反,若相似度阈值设置过大会造成事件欠缺匹配.在设置事件相似度计算阈值为0.72时可以在本文数据集上取得最优结果.
本文同时分析了使用不同事件识别模型对最终推演结果的影响,实验过程事件相似度阈值设置为0.72,结果如图10所示.
图10 事件识别模型对应模型推演结果准确率
结果表明,不同因果逻辑事件识别模型处理结果的差异进一步影响到了因果元事件抽取效果及事理知识图谱的构建,并最终扩散到模型推演效果.选择更好的因果逻辑事件识别模型可以增强事理知识图谱对于舆情事件逻辑信息的表达能力,从而提高舆情推演结果的准确率.
5 结束语
本文提出了一种基于事理知识图谱的舆情事件推演分析方法,具体介绍了因果逻辑事件识别与提取、事理知识图谱的构建、舆情事件演化分析方法,并通过实验验证了本文提出方法的有效性与先进性.舆情事件分析作为舆情治理的核心问题之一,研究舆情事件演化过程对于维护社会长治久安具有重要意义.
诚然,本文工作仍有可以改进之处,主要在于因果逻辑抽取层面,未来工作将进一步探讨如何更加准确地对事件边界进行界定.