APP下载

面向突发事件应急管理的情感词典构建*
——以“暴雨洪涝”灾害为例

2019-08-01杨小俪

周 莉, 杨小俪

(华中师范大学 新闻传播学院,湖北 武汉 430079)

一、研究背景

互联网的快速发展和社交媒体的广泛应用给突发事件的应急管理带来极大挑战。新媒体环境下,信息的传播呈现出“病毒式”扩散的特点,突发事件在网上被曝光后,影响力迅速呈现指数增长。在此背景下,传统分散式、简单化的突发事件应急管理系统面临极大挑战。合理运用文本情感分析技术,透过网上的海量文本数据准确分析网络舆情走向,及时疏导网民情绪成为突发事件应急管理的关键。

文本情感分析的方法多种多样,其中情感词典作为分析过程中的重要工具,其准确性和覆盖率会在很大程度上影响分析效果[1]。目前中文情感词典多为通用情感词典,在对特定专业领域的文本进行情感分析时,准确率并不高,特别是在面对某一特定领域内的突发事件时,文本分析效果不佳。因此,针对不同类型的突发事件建立专业领域的情感词典对于提升突发事件的应急管理效果具有重要的现实意义。本文尝试采用机器采集加人工构建的方式,以突发事件中的“暴雨洪涝”灾害为例,探索突发事件中情感词典的构建路径。

二、文献回顾

(一)不同路径的文本情感分析研究

文本情感分析,即对于情绪文本内容的语义分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[2]。目前进行文本情感分析的路径多样。按照文本内容,可分为基于商品评论的文本情感分析和基于舆情的文本情感分析;按照文本粒度,可分为词语级、语句级和篇章级的文本情感分析;按照分析方法,可分为基于机器学习和基于语义分析的文本情感分析,这也是最常见的分类方法[3]。

基于机器学习的方法是将情感分析问题看作是一个分类问题,用标注好的训练集来训练机器学习算法得到分类模型,用于以后的情感分类[4]。这类分析主要通过两种方式来实现,一种是有监督的机器学习法,这种方法使用机器学习的模型,用已标注的训练数据训练出一个较好的模型,利用这个模型来预测文本的情感极性。机器学习模型包括支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes,NB)、最大熵(Maximum Entropy,ME)等[5]。另一种是无监督的方法,这种方法被称为文本聚类(Clustering),即按照某种准则对文本集合进行组织或划分,使得相似的文本划分到同一簇中,差异较大的文本划分到不同簇中。[6]

基于语义的方法主要利用情感词典及句式词库分析文本语句的特殊结构及情感倾向词,采用权值算法进行情感分类[7]。比如杨超在HowNet和NTUSD两种词典的基础上进行拓展,建立了一个新的、具有倾向程度的词典,开发了一个半自动化舆情分析系统,提供细致、准确的评论倾向性分析[8]。相比基于机器学习的方法,基于语义的方法更符合突发事件文本情感分析中快速、准确的要求。首先,基于语义的方法不需要对大量语料进行标注,只要有合适完备的情感词典,采用简单快速的方法就能得到较好的文本情感分析效果[9],这能在很大程度上节约时间,提高突发事件应急管理的反应效率;其次,基于语义的文本情感分析更稳定,随着测试语料的增加,基于情感词典的分类性能保持稳定,并优于机器学习法[10]。

在基于语义的方法中,丰富且准确的情感词典是提高分析准确性的关键[1]。目前国内能运用的中文词典资源非常有限,主要有知网(HowNet)、LIWC(Linguistic Inquiry and Word Count)和中文情感词汇本体库(DUTIR)。这些情感词典都是通用词典,在分析专业性文本的时候容易出现偏差,特别是遇到跨领域歧义词汇和专业情感词汇时分析效果不佳。因此,构建起一套突发事件专业词典对于提高突发事件中网络情感文本分析的效果,从而更有针对性地开展应急管理具有重要意义。

(二)情感词典的构建方法

情感词典,顾名思义就是由带有褒义或者贬义色彩的情感词汇组成的一个词典[11],主要应用于基于语义的文本情感分析研究中。构建情感词典主要有两类方法,自动构建和人工构建。

情感词典的自动构建方法主要有三种:一是基于知识库,通过完备的开放的语义知识库(如英文的wordnet),挖掘其中各个词语之间的关系,用词关系拓展、迭代路径和释义拓展等方法构建情感词典。二是基于语料库,通过对某特定领域的大量语料进行分析,比如通过语料中各连词的特性判断前后两个形容词之间相似程度,来构建情感词典。三是基于知识库与语料库结合的方法,组合的方法多种多样,比如根据词与词之间的相似关系构建词间关系图,然后利用已知词性的情感词,推测其他情感词的极性。或者先利用少量标注词确定文本片段的极性,再结合抽取结果,继续判断未知文本片段的情感[1]。

人工构建的方法主要有两种形式,一种是直接根据语料文本来人工构建新词典。比如唐超在研究网络情绪的演进时,首先利用爬虫软件抓取网上的评论文本,在完成文本清洗后,邀请专家对文本中的情绪关键词进行提取和标注,然后采用主成分分析法提取出主要网络情绪关键词,最后由专家对这些网络情绪关键词进行赋值,构建网络情绪词典[12]。另一种是结合语料文本,在现有情感词典的基础上人工进行拓展,构建新词典。比如中文版的LIWC词典是由黄金兰等人以英文版的LIWC2007词典为蓝本,进行翻译和同义词添加后,由研究小组集体讨论,人工拓展修改而成[13]。

由于前期尚未有专门用于突发事件网络舆情文本分析的的情感词典,本研究通过修改拓展原有词典来构建新词典的方法难以实现,考虑到操作的可行性,我们选择直接用语料来构建突发事件情感词典。在具体的构建方法上,我们主要借鉴了唐超等采用的人工提取和标注的方法进行突发事件情感词典的构建。

(三)情绪分类理论与词典要素设置

关于情绪的结构,主要有情绪分类和情绪维度两大理论解释取向[14]。情绪维度取向的研究认为,情绪是高度相关的连续体,各种情绪在几个基本维度上高度相关[15],比如Russel的“效价-唤醒”模型。情绪分类理论认为人的情绪是由几种相对独立的基本情绪以及在此基础上形成的几种复合情绪构成,比如Ekman的基本情绪分类说,他认为存在快乐(joy)、悲伤(disstress)、愤怒(anger)、恐惧(fear)、厌恶(disgust)和惊讶(surprise)6种基本情绪[16]。

以情绪理论为基础,结合情感词典在实际应用环境中的需要,不同的情感词典会设置不同的要素。上文提到的HowNet词库和DUTIR词典均以情绪分类理论为基础,HowNet词库将所有词汇分为情感类、评价类、程度类和主张类,其中情感类和评价类下细分出正面和负面两类词汇;DUTIR则将所有词汇分为乐、好、怒、哀、惧、恶、惊7大类,其下有安心、尊重失望等21个小类,每一个情绪词的词性、极性和强度都作出了相应的标注。中文版LIWC词典则是以情绪维度理论为基础,根据情绪类别和唤醒程度,将所有词汇分为正向高唤醒、正向低唤醒、负向高唤醒和负向低唤醒四类,唤醒程度较高的词汇将会被收纳进来,最终将入选的词汇分为正向和负向两类。

图1 “暴雨洪涝”灾害情感词典情绪类型模型

由于不同突发事件类别的情绪构成各不相同,采用单一的情感分类理论不利于实现对事件舆情的精准分析。因此本研究参考Russel的“效价—唤醒”模型,结合“暴雨洪涝”灾害中网民情绪的实际情况,在情感词典中设置了6种情绪基本类型,分别是愤怒、担忧、悲伤、惊恐、乐观、关心、感激,各情绪类别的效价与唤醒度具体如图1。

由于目前应用情感词典的文本情感分析软件还未能实现细致的文本情绪分类,为了方便后续的分析,本次研究将所有情绪词按照所属情感类别的效价分成正向情绪词和负向情绪词两类,其中正向情绪包括乐观、关心和感激,负向情绪包括愤怒、担忧、悲伤和惊恐。

三、构建方法

(一)事件选择

突发事件共有自然灾害、事故灾难、公共卫生事件和社会安全事件四大类,由于自然灾害相较于其他种类的突发事件而言性质更单纯,更适合作为语义分析的突破口。而“暴雨洪涝”又是自然灾害中发生频率最高的灾种,所以本文选择以“暴雨洪涝”为主题,作为突发事件情感词典的示范应用。本文参考《中国气象年鉴》中“暴雨洪涝”章节的内容,选取了近5年10处最为严重的暴雨洪涝灾害作为研究案例,它们分别是2012年的重庆和北京、2013年的浙江和四川、2014年的凤凰和深圳,2015的上海和武汉,2016年的武汉和安徽。

(二)样本选取

为了保证样本丰富且具有代表性,本次研究选择当前使用频率最高的微博平台——新浪微博作为文本抓取的平台。由于每次暴雨洪涝灾害的发生时间和舆情关注点不同,根据其各自的特点我们设置了不同的关键词和时间段进行微博搜索(如表1)。

随后,我们将各个事件所属时间段内的微博按照评论数量由多到少的顺序进行排序,选择每个事件中评论量最多的前两条微博,用爬虫软件对微博下的评论者ID、评论内容以及评论时间进行抓取,得到共计73 622条评论(如表1)。

表1 案例抓取设置

(三)分析程序

1.数据清洗。数据清洗主要是剔除原始文本中的无效内容,以便开展后续的文本处理工作。本次数据清洗删除了以下两种内容的评论文本:第一种是无意义评论文本,包括广告、空白、表情符号以及“转发微博”,第二种是与微博内容无关的评论内容,主要指含有“回复@XXX:”的内容以及“@XXX:”的评论,因为此类文本大多是朋友间在评论区的聊天或者是对骂,不是对微博正文内容的看法或者讨论,如果一起加入分析容易影响分析效果。清洗后的具体评论数目如表1。

2.分词与词频统计。数据清洗完毕后,我们将文本数据集中进行分词。文本数据被分为两部分,编号1~9的文本进行分词,用于构建情感词典,编号10的文本用于测试情感词典的效度。本次分词选用的是由中国科学院计算技术研究所研发的NLPIR分词系统,该系统是当前认可度较高的汉语词法分析器。为了提高分词的精准度,在机器分词的基础上,本次研究加入了人工检查分词结果的环节,对机器分词后的数据进行修正。

分词完毕后,得到一个有23 420个词汇的词表,我们根据词表中各个词汇的词频进一步的筛选。第一步是删除与表达情感无关联的词汇,如“你”、“我”、“他”、“的”等。第二步是设置阈值,考虑到情感词典的容量以及情感词汇所需具备的代表性,我们将本次研究的阈值设定为9,即出现次数在9次及以上的词汇将被选入第二轮的情感词筛选与分类。经统计,阈值内的词汇共有629个。

3.情感词筛选与分类。本次研究邀请了17位在校大学生作为编码员,对阈值内的629个词汇进行筛选与赋值。

首先是情感词筛选。请编码员采用三级评定的方式对629个词汇进行判定,能够唤起情绪信息或者是情感体验的词即为情绪词,判定为“是”,不能唤起则判定为“否”,情感唤起倾向不明确的则判定为“不确定”。在他们筛选完成后,由研究者将所有编码员的筛选结果进行整合,将半数以上编码员,即9位及9位以上的实验者均判定为“是”的词汇挑选出来,建立初步的情感词库。

其次是划分情感类别。本次情感词典中共设置了6种情绪基本类型,分别是愤怒、担忧、悲伤、惊恐、乐观、关心、感激,请编码员按照这六种情绪类别对情感词库内的词汇进行分类,无法被分类的情感词则标注无。然后由研究者进行综合统计,每个情感词得分最多的那个情感类别就是这个情感词所属的类别,如果某一词汇有三分之一的编码员,即6人及6人以上标注无,则将这个词汇剔除出情感词典。

(四)情感词典示例

“突发事件·暴雨洪涝”情感词典包含7个情感类别共计611个词汇,其中愤怒词218个,担忧词74个,悲伤词60个,惊恐词23个,乐观词144个,关心词56,感激词36个,表2为情感词典的部分示例。

表2 “突发事件·暴雨洪涝”情感词典(部分)

四、效度检验

为了测试“突发事件·暴雨洪涝”情感词典的应用效果,我们采用对比的方式,将本词典加载至LIWC上,比较在分析同一批“暴雨洪涝”微博评论文本的情感倾向时,加载本词典前与加载本词典后,文本情感判断的准确率是否发生了变化。目前LIWC等情感分类软件只能做到将文本分为正向情感文本和负向情感文本,为了方便进行准确率的对比,我们按照大类,即正向和负向,将“突发事件·暴雨洪涝”情感词典加载至LIWC中进行分析。

(一)标注语料

为了保证测试结果的准确有效,我们使用并未参与情感词典构建的“安徽暴雨”案例语料进行测试。此案例共搜集微博评论5297条,经过数据清洗,留下3266条微博评论文本。研究员对所有微博的倾向性按照“正向、中性、负向”进行标注,得到正面评论1835条,负面评论1172条,中立评论259条。为确保标注结果可靠,另一位研究员对随机抽取的10%的文本进行标注,对比两者的结果,进行信度检验。通过SPSS的可信度分析,Cronbach’s alpha系数为0.836,达到科学研究的信度。

(二)测试流程及结果

我们首先使用LIWC自带词典对测试案例文本进行情感分析,分析结果如表3。由表4可知,使用LIWC自带词典时,LIWC检测出54条正面评论文本,其中34条人工标注为正面,20条人工标注为负面,正确率为63.6%,召回率为1.9%;检测出58条评论文本为负面,其中47条人工标注为负面,9条人工标注为正面,2条人工标注为中立,正确率为81%,召回率为4%。

由此可见分析效果并不理想,首先体现在LIWC检测出来的含有情感倾向的文本数量极少,正面评论文本和负面评论文本的测出比率都低于5%;其次是正确率不理想,在检测为正面情绪的评论文本中,只有63.5%被人工标注为正面情绪文本。同时,从整体上看,LIWC分析出来的网民情绪倾向与人工标注的网民情绪倾向相反,人工标注文本中正面评论数与负面评论数的比例约为1.6:1,即正面情绪多于负面情绪,而在LIWC自带词典的测试结果中,正面评论数与负面评论数的比例约为0.93:1,即负面情绪多于正面情绪。

表3 LIWC自带词典的文本分析结果

注:正确率是检索出相关文档数与检索出的文档总数的比率,衡量检索系统的查准率。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量检索系统的查全率。

随后我们在LIWC自带词典上加载本词典对测试案例文本进行情感分析,具体结果如表4。由表4可知,加载本词典后,LIWC检测出正面文本489条,其中464条人工标注为正面,23条人工标注为负面,2条人工标注为中立,正确率为94.9%,召回率为25.3%;检测出116条负面评论,其中93条人工标注为负面,18条人工标注为正面,5条人工标注为中立,正确率为80.2%,召回率为7.9%。

由此可知,加载本词典之后,文本情感的分析效果有了较大的提升。首先准确率有了极大的提高,特别是正面情绪文本的检测正确率从63.6%提升到了94.9%,其次是召回率有了较大的提高,正面情绪文本的测出比率从1.9%提高到了25.3%。同时,从整体上来看,检测出来的正面情绪文本与负面情绪文本的比例为4.15:1,与人工标注的网民情绪倾向,即正面情绪多于负面情绪的结果一致。

表4 LIWC加载“突发事件·暴雨洪涝”情感词典的分析结果

在不区分情感类别的情况下,加载词典前后的文本整体情感分析效果如表5。召回率、正确率和F值是判断情绪词典分类效果的三个重要指标,从表格中我们可以看出,在加载“突发事件·暴雨洪涝”情感词典后,这三个指标的数值都有了显著的提升,特别是正确率从72.6%提升至93%,可见“突发事件·暴雨洪涝”情感词典的建立对于提升突发事件应急管理中的舆情分析效果有较大的提升作用。

表5 加载词典前后的整体分析效果对比

注:F值是正确率与召回率的调和平均值,表达式为:F值=正确率*召回率*2/(正确率+召回率),用于综合反映整体。

五、结论与讨论

综合以上实验分析结果,我们可以确定“突发事件·暴雨洪涝”情感词典在分析暴雨洪涝一类突发事件的网络评论文本时,在文本情感分析方面的效果有显著提升,其建立具有较大的应用价值和借鉴意义,对于未来文本情感分析的发展路径主要有以下启示:

其一,构建专业领域情感词典对于突发事件应急管理是非常必要的。从LIWC的文本分析结果中我们可以看出,现有的通用情感词典无法有效实现专业领域中突发事件的文本情感分析,特别在面对微博这种网络短文本时分析效果有待提升。而有针对性地建立起面向各个领域的专属情感词典,能够在很大程度上提升文本情感分析的准确性。此外,情感词典的分析特性让研究者不需要在文本分析之前进行大量的文本标注工作,节约了大量的时间。这些都对提升应急管理主体对舆情的掌控能力,实现对突发事件中网民情绪波动的及时捕捉,进而提升突发事件应急管理的效率具有重大意义。

其二,通过人工的方式来构建领域性情感词典是可行。在计算机技术迅猛发展的背景下,通过机器学习的方式进行文本情感词典构建成为主流,这种方式看似客观准确,实际上仍然存在一定的局限性。通过此次的实验结果我们了解到,要实现对情绪文本的准确判断,人工提取和判断是十分重要的介入手段,人工构建情感词典的方式虽然相较于机器自动构建费时费力,但是依然是重要且可行的。从最终的研究结果中我们可以看出,以这种方式构建起来的词典的分析效果具有更强的稳定性和准确性。

其三,在情感词典的构建过程中,应谨慎对待人工分析与机器处理的关系。人工的优势在于准确,机器的优势在于快速,两相结合才能达到最佳效果。本研究在机器分词时加入了人工检查环节,在人工筛选情感词以及判断情感词所属情感类别时,邀请了17位实验者参与实验,采用全人工投票的方式,挑选出最多实验者认可的情感词,并将最多人认可的情感类别标注为该情感词的情感类别,以期在保证人工分析准确性的同时避免主观性带来的影响。

此外,虽然实验结果中的召回率整体偏低,但这并不影响我们肯定突发事件情感词典在提升文本情感分析效果方面的作用。LIWC是通过统计内置情感词典中的情感词在测试文本中所占的比重来判断文本的情感倾向,而在寥寥几句的微博评论短文本中,出现相应情感词的几率相较长文本低很多,故召回率整体偏低。但是因为试验中统一采用的都是LIWC软件,且在加入突发事件情感词典后,正确率和召回率都有了较大程度的提高,这足以说明建立突发事件情感词典能有效提升突发事件的文本情感分析准确性。

在网络舆情多变,突发事件应急管理面临巨大挑战的今天,建立突发事件网络情绪词典具有重要的研究及应用意义。据中国互联网络信息中心(CNNIC)发布的第39次《中国互联网络发展状况统计报告》显示,截至2016年12月,中国互联网普及率达到53.2%,网民规模达7.31亿,与此同时,人民网舆情监测室对社会热点事件的统计表明,44.4%的事件由互联网披露而引发公众关注。可见,移动互联网快速发展和社交媒体广泛应用已经彻底颠覆了传统媒体环境下的民众舆论生态,社交媒体平台成为了民众表达观点的重要场域。在这样的媒介环境下,突发事件的影响力被放大,发展进程也更加多变和不可知,此时我们更加需要建立精细程度高、反应速度快的应急管理体系来控制和减弱突发事件带来的负面影响。突发事件情绪词典的构建有助于提升舆情分析的准确度,针对不同的突发事件类型构建领域情感词典,将为突发事件中网络表达的情感分析提供优质的分析工具,也为突发事件的应急管理提供更为精确和可操作的决策基础。