群体性事件网络舆情情感分析的情感词典构建
2019-06-27吕翔刘陆民
吕翔,刘陆民
(信阳农林学院 信息工程学院,河南 信阳 464000)
网络时代的信息爆炸是毋庸置疑的,社交媒体尤其是近几年“两微一端”(微信、微博、移动客户端)为人们提供了网络沟通、网络评论、观点分享等更为便捷和自由的网络平台。这给人们生活带来了极大的便捷性但也孕育着极大的危机。以往群体性事件爆发后消息的传播有其局限性,地域性事件往往很难有大范围的传播。而现在,借助于网络平台各种社会矛盾和热点问题可以在极短的时间内迅速传播到各个网络能延伸到的区域。网民们在不明所以的情况下肆意表达自己的观点,反而对事件的本身起到了推波助澜的作用。一些负面的“网络群体性事件”将在短时间内产生严重的影响。同样,一些积极向上的正能量表达也能迅速得到广大网民的点赞,如近期发生的信阳小学教师李芳为救学生牺牲的事情,迅速在网络扩散传播,感动了所有网友。因此,挖掘和分析包含网民情感的网络群体性事件的舆情信息,可以有效地获取所需的重要信息,了解网络舆情的发展动向,从而进行有效的掌握和引导。面对庞大复杂的网络评论,仅仅依靠人工进行分析已经成为不可能完成的任务,利用计算机自动对文本进行分析成为目前的主流。情感词典作为文本情感分析的重要工具, 越来越多的组织和研究人员开始关注其构建问题[1]。
构建情感词典的方法有多种,如Kim等使用词语资源[2],Hatzivassiloglou等使用大型语料库[3],Velikovich等使用网络[4],他们都通过获取词语之间的语义关系来构建大规模的情感词典。在群体性事件爆发后,网络上会充斥着各式各样的言论,而微博作为当前最具代表性且拥有数亿用户的一个特色网络社交平台,通过简短却带着浓烈的个人感情色彩和强烈的主观色彩的句子,反映了对某个事件的态度,表达了受众的真实情感。本文主要通过采集微博评论内容,收集微博情感词,在已有资源的基础上,构建一个针对群体性事件网络舆情的情感词典。
1 相关词典的构建
1.1 基础情感词典的构建
基础情感词典主要是基于现有的知网Hownet情感词典和台湾大学简体中文情感极性词典(NTSUSD)[5]而构建。知网的“中文情感分析用词语集”包括6个子文件:“正面情感”词语,如爱、赞赏、快乐、感同身受、好奇、喝彩、魂牵梦萦、嘉许等;“负面情感”词语,如哀伤、半信半疑、鄙视、不满意、不是滋味儿、后悔、大失所望等;“正面评价”词语,如:不可或缺、才高八斗、沉鱼落雁、催人奋进、动听、对劲儿等;“负面评价”词语,如丑、苦、超标、华而不实、荒凉、混浊、畸轻畸重、价高、空洞无物等;“程度级别”词语和“主张”词语[6]。台湾大学简体中文情感极性词典(NTSUSD)共包含2812个正向情感词和8278个负向情感词,是基于二元情感分类划分的一个中文词语数据库。本文将这两个中文情感词典进行融合,对相同极性的词语进行消重,重新分类组合,组成所需要的基础情感词典。此外,对知网(Hownet)里面的程度副词设置了不同的权值。
1.2 网络用语情感词典
网络语言是在网络上被广泛使用的一种新的语言形态[7],如QQ中的隐身“潜水”、Thank you用3Q代替,这些都非常口语话。各种俗语和俚语被广泛使用,如“猴赛雷”、“神马都是浮云”等,甚至一些粗话、脏话,如“你妹”、“然并卵”、“日了狗”等。网络用语之所以能够传播,在于它被认同,反映某种现实,类似“猴赛雷”这些网络用语,形象鲜明地反映当时网民的情绪,具有明确的情感倾向。但是网络用语更新快、传播迅速,未能及时纳入到传统的情感词典中,用传统的情感词典对这些网络文本进行分析时往往会出现很多错误。基于此,针对网络文本的情感分析必须构建网络用语的情感词典。
网络语言创新性强,自我更新速度快,易被人们在网络上使用,其来源也相当复杂,目前也没有什么有效的方法直接获取大量的网络用词。本文通过人工的方式从近10年的百度热门网络流行语和搜狗拼音词库网络流行新词中抽取、整理得到网络用语情感词典。正面网络用语情感词典,如“给力”、“碉堡”、“稀饭”、“猴赛雷”等,负面网络用语情感词典,如“坑爹”、“尼玛”、“然并卵”、“次奥”等。
1.3 网络表情符号情感词典
图1微博表情符号
在网络用语中表情符号使用非常广泛,表情符号用来生动呈现和描摹日常面对面交际中的非言语信息[8],网民通过使用表情符号形象地表达自己当前的感情,网络表情符号如图1所示:
1.4 否定词词典
否定词会对情感倾向起到否定和反转的作用,会改变情感极性[9]。当否定词修饰正面情感词时,会将正向情感变成负面,比如“好”,加一个否定词“不”变为“不好”。反之,也同样会将负面的情感反转。如果仍旧使用情感词的极性进行文本分析,必然造成结果南辕北辙。因此,为了更加准确地判断情感极性,需要构建否定词词典。本文根据微博文本收集了部分常用的否定词,如不、没、未尝、并非、否、绝不、尚未等。
1.5 领域词典构建
网络舆情作为舆情的一个组成部分和主要表现形式,是指网民或媒体以网络为载体、以事件为核心的情感、态度、意见、观点的表达、传播与互动以及后续影响力的集合,以及对某一社会公共事务或焦点问题所表现出的具有某种倾向性的、有一定影响力的意见或言论[10]。这也就要求我们在针对群体性事件的网络舆情构建情感词典时,应该考虑领域的特殊性,选择领域词汇对情感词典进行完善补充。信息的主题主要包括:生存危机、公共安全、腐败、分配差距、时政、法制等[11]。如“石首事件”、“我爸是李刚案”、“郭美美案”、“杨达才手表案”等,反映的都是腐败、官民矛盾、贫富差距等社会矛盾。本文通过搜集新浪微博事件主题文本得到语料集,提取情感词,对语料集进行预处理、词频统计、关键词提取等。中科院计算所的张华平、刘群所开发的一套获得广泛好评的NLPIR-ICTCLAS汉语分词系统,其主要功能包括中文分词、英文分词、词性标注、命名实体识别、新词识别、关键词提取、支持用户专业词典与微博分析。本文利用该系统对事件文本进行分析,得到标注的各类分词,对其中的情感词进行筛选,并与前文提到的三个情感词典中的情感词汇对比,去掉不相关的词语和明显在其他领域都具有普遍情感倾向的词语,得到本文所需的群体性事件舆情情感词汇集。
2 情感倾向性计算
对情感词做了汇总后,再对情感极性强度进行计算和说明。情感倾向性可理解为情感的极性,在群体性事件中用户发表的微博文本所表达的观点是正面情感、负面情感还是中性情感,需要经过分析得出。本文采用支持向量机模型(Support Vector Machine)[12]进行情感分析。
2.1 SVM文本特征提取
首先通过词频计算出权重,按权重从大到小排序,然后剔除无用词,这些词通常是与主题无关的,任何类的微博文本中都有可能大量出现的,比如“的”“是”“在”一类的词,一般在停词表中已定义好。去除这些词以后,有一个新的序列排下来,然后可以按照实际需求选取权重最高的前4个或者更多词汇来代表该文本的核心内容。
特征项的提取步骤如图2所示:
图2 特征项的提取步骤
2.2 文本特征选择
本文利用改进的TF-IDF公式[13]计算词的权值,情感词在某个类别文本出现的次数越多,则对于表征该类别越重要。公式如下:
其中w(i,k)为文本i中特征项k的影响程度表征,tf(i,k)为特征项k在文本i中的频率,N表示情感训练数据集总数量,p(k)为情感训练数据集中出现特征项k的频率,分母为归一化因子。
2.3 SVM训练
本文主要用于研究群体性事件,采集的数据是某群体性事件爆发后网友的微博评论文本。训练的特征选择包括情感词和修饰情感词的否定词,以及它们在文本中出现的位置和数量。通过训练得到关于情感倾向性分类的模型。
3 实验分析
本文通过采集2018年5月份原央视知名主持人崔永元在微博陆续发文爆料娱乐圈明星“阴阳合同”事件中网友评论,验证所建情感词典的有效性。共采集6198条微博评论,从中选取2000条,人工标注情感倾向性用于测试,其中正面情感和负面情感各1000条。
3.1 性能评估指标
性能评估指标主要为准确率和召回率[14-15]。准确率(Precision),记为p,是指通过分类实验后,该类的正确数目(k)占判断属于该类别数目(n)的比值,反应情感分类模型的准确性,其数学公式为:
(1)
召回率(Recall)记为r, 通过分类实验后,判断为该类的正确数目(k)占本应判断为该类别数目(1)的比值,其数学公式为:
(2)
相关文献表明,这两个指标在一定程度上是相互制约的关系,故需要引入一个合适的度来衡量,寻求两者之间的一个平衡点。选用一个综合度量指标 F1 作为两者的调和平均数来衡量:
(3)
3.2 实验结果
利用上节介绍的语料预处理方法对实验语料进行预处理后,采用传统的基础词典与本文构建的情感词典进行实验。首先使用仅包括基础情感词典的传统方式,对预料进行预处理后,采用支持向量机模型(SVM)进行情感分析,得出的实验结果如表1所示。
表1 传统的基础词典
而后,采用本文的方法,在基础情感词典的基础上,构建针对网络的网络用语词典、网络表情符号词典、否定词词典以及群体性事件的网络舆情领域词典,在此基础上再针对所选实验微博语料进行预处理,使用SVM情感分类,结果如表2所示。
表2 本文构建的词典
从表1和表2可以看出,使用本文构建的情感词典处理,实验结果与传统词典相比无论是准确率还是召回率都有一定提高。
4 结论
本文针对群体性事件网络舆情,构建了领域词典。通过对人工标注后的微博事件评论文本进行验证,发现本文构建的用于群体性事件舆情词典,提高了微博文本情感分类的准确率和召回率,达到了预期效果。但是本文所做的工作还远远不够,如对多义性情感词和隐含性情感句规则的构建并未加以考虑。如同一个词用在不同的语境下所表达的情感可能截然不同,有些评价词语也会出现在不带感情色彩的文本中,等等,这些都会影响对情感倾向的分析和判断。