APP下载

一种基于语料库的网络群体事件情感倾向分析模型

2021-01-13白洁尹明辉刘伟强

计算机与网络 2021年23期
关键词:语料库

白洁 尹明辉 刘伟强

摘要:介绍了一种基于语料库的群体情感倾向度分析模型,该模型基于倾向性语料库中的极性词汇对集合中每一份素材文本进行分词,统计并计算素材文本中出現的极性词汇的强度值,得到整篇素材文本的倾向度,对集合中所有素材文本的倾向度进行统计并归一化,带入分段条件函数中进行倾向度判断,得到网络群体对该事件的情感倾向。通过对巴以冲突和中国空间站2个近期热点事件的对照测试,验证了模型的正确性。

关键词:极性词汇;语料库;情感倾向度;向量分析

中图分类号:TP311.5文献标志码:A文章编号:1008-1739(2021)23-54-4

0引言

国家管理者在决策活动中必然会涉及关乎民众利益的社会客观情况,以及民众在认知、情感和意识的基础上对社会客观事件的态度(民意)[1]。随着互联网技术的发展,民众越来越多地通过微博、论坛、微信等手段对公共事件或热点事件发表意见、观点、言论和态度,如何及时识别网民这一群体对某一事件的情感倾向,成为网络舆情管理的重要研究课题[2-3],而不同群体情感倾向的偏差研究,是解决舆情群体情感倾向差异分析的重点[4]。本文提出了一种基于语料库的网络群体对事件的情感倾向分析模型,用于分析网络上的群体对某个事件的情感倾向。该模型以网络上某事件相关的微博、帖子等文本为素材集合,基于倾向性语料库中的极性词汇对集合中每一份素材文本进行分词,统计并计算素材文本中出现的极性词汇的强度值,得到整篇素材文本的倾向度,再对集合中所有素材文本的倾向度进行统计并归一化,带入分段条件函数中进行倾向度判断,得到当前网络群体对该事件的情感倾向是正面的、中立的还是负面的,从而及时采取相应的舆情管控手段加以引导。

1定义

1.1群体认知

群体是指按某种特征结合在一起的多个个体,群体与个体相对,是个体的集合。群体对事件的认知是指某个特定群体对事件的看法或态度。对一个事件的群体认知数据主要来源于个人微博、Twitter、QQ空间、朋友圈、论坛和贴吧等个人社交软件产生的信息。

1.2情感倾向度

群体对事件的情感倾向即广大个体对于特定事件的公众认知。事件可以来自线上传播,也可以来自媒体报道,事件传播途径多是通过互联网上的各类社交媒体软件、论坛和贴吧等。互联网是一个任何人均可以发声的大平台,信息传播是一种松散的网状结构,存在于社会各个阶层的网民是构成这个网的节点,他们掌握的或多或少的碎片化信息在节点间流动,虽然虚拟环境中仍然存在意见领袖和沉默螺旋效应,但缺少了社会群体中的监督机制和自我约束,导致群体情感倾向带有更多的情绪和不理智因素。同时,群体对事件的情感倾向也不都以文字的形式体现,很多人并不直接发声,而是对赞同的观点点赞。同时,群体在使用社交媒体软件时,经常会使用表情符号表达自己的情感,而有时表情符号会传达出比文字更强烈的倾向性。

2模型应用

2.1模型原理

群体对某个事件的情感倾向性可归类为正面、中立和负面。以一定平台上的素材为基础,事先构建倾向性语料库,采集目标群体对特定事件的相关文本,利用自然语言处理技术提取文本中的词汇和表情符号,基于语料库进行分析计算得到对事件的倾向度,从而判断目标群体对该事件的倾向性。群体倾向性分析流程如图1所示。

(1)构建倾向性语料库

使用网络爬虫从互联网上采集近期常见的倾向性词汇和表情符号,经过人工对词汇和表情进行分类并设置权重后,再为词汇和表情建立倒排索引,形成语料库。

(2)提取事件相关文本的倾向性属性

收集目标群体针对某事件的相关文本素材形成原始素材集合,为每一份文本素材构建情感倾向性属性向量。

(3)计算事件的倾向度

对于包含倾向性属性向量的文本素材,根据其倾向性属性向量,结合语料库中词汇和表情符号的权重值计算每篇文本素材的倾向度。

(4)分析群体对事件的倾向性

遍历原始素材集合中的所有素材,对集合内所有素材的倾向度进行带符号累加求和后做归一化处理,求出被分析群体对该事件的倾向度。

2.2模型设计

2.2.1构建倾向性语料库

倾向性词汇即包含情感倾向的词汇,可以是形容词或者副词,比如幸福、漂亮、卑鄙、愚蠢等;也可以是动词,比如支持、点赞、反对、作弊等;也可以是介词短语,比如干的漂亮、有意境等。这些具有倾向性的词汇出现在语句中,通常会表达出个体对事件的情感倾向是正面积极的,还是负面消极的。向倾向性语料库中插入词汇时,除了要包含正统词汇外,还应尽可能多地包含网络流行用语。每一个进入语料库的词汇除了要进行正面、负面分类外,还要对其情感强度进行评估,并预置一个强度值。

在社交媒体软件中,比如新浪微博、微信、QQ等,表情符号也被用户广泛使用。用户在表达具有情感倾向的观点时,经常会在文本中附加表情符号,它近似刻画了用户的表情,能够简单、直观地展现出用户的情感倾向。根据表情符号的不同可以归类到不同的倾向中,比如:笑脸符号可以归类到正面倾向中;愤怒或哭泣的符号可以归类到负面倾向中。而不同的符号传达的情感强度也不相同,应当为其预置不同的强度值,比如:大笑符号的情感强度应当大于微笑符号。

当倾向性词汇和表情符号共同出现时,可认为该组合比单纯使用倾向性词汇或表情符号传达了更加强烈的情感强度。2.2.2提取倾向性属性

为了分析群体对某事件的情感倾向是正面、中立,还是负面的,首先要采集该群体发布的与事件相关的文本素材,形成原始素材集合,再对集合中的每一个文本素材建模,形成情感傾向性属性向量,每份文本对应一个属性向量,全部相关文本的属性向量形成一个向量集合。属性向量将文本看成是一系列词和表情符号的集合,这些词的词性可能是形容词、副词、感叹词,可能是语料库中的词汇或表情符号,也可能是词汇与符号组成的表征词组[5]。情感倾向性属性向量包括7个属性,各属性描述如表1所示。

在构件文本的情感倾向性属性向量时,首先利用分词工具从文本中提取词汇和表情符号,在语料库中检索提取出的词汇和表情符号的情感倾向性分类和权重值,统计正面、负面数量后,填写向量的各个属性。

2.2.3计算素材倾向度

在情感倾向性属性向量集合构建完成后,利用语料库对向量进行进一步分析,计算每个向量的情感倾向度。

在事件相关文本中,包含的正面倾向的词汇更多时,可认为群体对该事件的倾向性是正面的。相反,如果包含的负面倾向的词汇更多时,则认为群体对该事件的倾向性是负面的[6]。在构建语料库时根据词汇或者表情符号的情感强烈程度设置了相应的权重值,通过对不同情感倾向分类的词汇和表情符号计数并加权计算,可以得到该文本的总体情感倾向度,事件相关文本的倾向度计算如图2所示。

2.3模型实现

在2.2节的模型设计基础上用Java+JS语言、基于Spring Boot+VUE框架,开发实现了一个基于新浪微博的群体情感倾向分析软件,能够从新浪微博上爬取热门事件的微博文本内容,对微博文本进行情感倾向性分析,之后再对热门事件的整体情感倾向度进行计算,得出微博用户群体对该热门事件的情感倾向。

2.4应用分析

为了验证模型的正确性,本文选取了2021年巴以冲突和中国空间站2个近期热点事件作为测试用例,使用软件爬取微博上的文章,分析微博用户对事件的情感倾向性作为对照,再由人工对爬取的所有微博进行阅读并判断情感倾向,以验证软件分析结果的正确性。为了提升效率,测试仅对微博正文内容进行分析,不分析评论内容。

2.4.1测试结果对照

(1)2021年巴以冲突

2021年5月10日晚,以色列与巴勒斯坦加沙地带边界的局势急剧恶化,巴以双方爆发激烈冲突。本测试用例选取5月10日—6月20日的相关微博进行分析,共取样92篇微博。巴以冲突事件模型分析结果与人工分析结果对比如表2所示。

从分析结果可以看出,微博网友对于巴以双方在2021年爆发的冲突基本持中立态度,略偏向于负面。

(2)中国空间站

中国空间站的天和核心舱于2021年4月29日发射升空进入预定轨道,5月30日天舟二号货运飞船成功与天和核心舱对接,6月17日神舟十二号载人飞船发射成功并与天和核心舱对接,3名中国宇航员进入中国自己的空间站。本测试用例选取4月29日—6月20日时间范围内的相关微博进行分析,共取样274篇微博。中国空间站事件模型分析结果与人工分析结果对比如表3所示。

从分析结果可以看出,微博网友对国产空间站的微博扬溢自豪之情,情感倾向基本全为正面。2.4.2测试结果分析

从2个测试用例的对比结果看,模型对热点事件微博群体情感倾向度分析结果与人工分析结果基本一致,但正面和负面微博具体数量略有差异。在第1个案例中模型分析得出的负面微博数量略多于人工分析结果,经过分析发现主要是由于在第2个案例中模型识别出的几篇负面微博主要是由于这几篇微博有的是描述火箭残骸处理的,出现了失控、坠毁、垃圾等负极性词汇。另外几篇微博是讽刺西方的,出现了被迫害、妄想等负极性词汇。虽然人工和模型分析得到的情感倾向度数值存在差异,但误差率在可控范围内,基本不影响模型应用效果。

3结束语

本文提出的基于语料库的事件群体倾向度分析模型能够快速、高效地对微博等互联网群体关于某个热点事件的情感倾向进行分析,分析结果可用于支撑舆情管理。通过与人工分析结果进行对比,模型分析得到的结论基本正确,但使用基于模型的分析软件仅需几分钟即可得到分析结果,而对照组的人工分析却需花费数个小时逐一阅读文本才能得到结果。使用模型对事件进行群体情感倾向分析在速度和效率上具有明显优势。在测试中通过对照分析也发现语料库中的极性词汇的权值设定的准确性还有待提高,后续工作中还需持续对语料库进行改进和提升。

参考文献

[1]张克生.国家决策:机制与舆情[M].天津:天津社会科学院出版社,2004.

[2]冯江平,史俊洋,陈虹,等.网络社会事件发展过程中的舆情心理分析———以“躲猫猫”事件为例[J].云南师范大学学报(哲学社会科学版),2012,44(4):60-70.

[3]吴宁,尚坡利,彭琳茹.网络舆情情感倾向分析模型研究[J].兰州工业学院学报,2017,24(5):65-68.

[4]王林,李昀泽.情感倾向分析在舆情监控方面的研究[J].微型机与应用,2017,36(5):11-13,17.

[5]王国华.突发事件网络舆情演变中意见领袖研究———以药家鑫时间为例[J].情报杂志,2011,30(12):1-5.

[6]蔚敏洁,刘加海.基于表情符号和文本情感倾向分析[J].计算机产品与流通,2020(8):232.

猜你喜欢

语料库
语料库辅助英美文学教学模式初探
可比语料库的建立及翻译教学研究
基于语料库翻译学的广告翻译平行语料库问题研究
护理英语语料库建设探索
如何利用语料库语言学提高英语教学
浅谈语料库分类及用途
近5年语料库应用于外语教学的研究综述
国内外语料库建设研究简述
运用语料库辅助高中英语写作
关于“nothing succeeds without a strong will”的语料库研究