基于表情词典的中文微博情感分析模型研究
2015-09-26梁亚伟上海海事大学信息工程学院上海201306
梁亚伟(上海海事大学信息工程学院,上海 201306)
基于表情词典的中文微博情感分析模型研究
梁亚伟
(上海海事大学信息工程学院,上海201306)
0 引言
众所周知,微博消息中包含了文本、表情、图像和视频等信息表达方式。其中,表情符号由于具有生动、形象的信息表达特点而被用户广泛采纳,在一些情感极性比较明显的微博消息中,表情符号在情感表达中起着举足轻重的作用。鉴于缺乏表情情感词典的研究现状,本文提出一种基于情感词典的微博表情情感词典的构建与更新方法。首先,基于微博消息中文本的情感强度值,构造出针对整条微博消息的情感曲线。然后,根据表情符号出现在情感曲线上的坐标位置,按照就近原则和加窗方法,找到表情符号临近的情感词,根据情感词的情感强度计算出表情符号的情感倾向性。最后,采用基于阈值的方法,对表情符号的情感倾向性进行推理和归纳,得出表情符号的情感强度和极性,进而构建表情情感词典。
基于微博文本情感分析和微博表情情感词典的研究成果,分析与量化微博消息的情感倾向性。抽取微博情感曲线波动性、微博情感强度、微博情感倾向性、微博正向情感值、微博负向情感值、文本曲线波动性、文本情感强度、文本情感倾向性、文本正向情感值、文本负向情感值、表情曲线波动性、表情情感强度、表情情感倾向性、表情正向情感值、表情负向情感值。基于上述特征,手动对微博情感进行标注,采用机器学习的方法对微博消息的情感类别进行分类。首先基于15种特征,后来采用LDA特征选择,基于选择出来的特征进行情感分类,选择分类效果最好的分类方法评价微博情感。
1 基于情感词典的微博表情情感词典的构建
本文基于现有的情感词汇本体资源库,采取从文本情感类别倒推表情情感类别的方式,开发一种基于文本的表情情感词典的构建方法。
1.1文本预处理以及微博表情符号抽取
在微博情感分析的研究中,针对微博文本信息的分词和词汇情感强度量化操作是通过文本预处理操作来完成的。本文采用中科院分词工具ICTCLAS和大连理工大学中文情感本体资源库分别对微博文本进行分词和词汇情感强度量化操作。表1是对该情感词汇本体的格式举例。
表1 情感词汇本体格式举例
微博消息转换成文本格式后,其中包含的表情符号具有一定的文本格式。例如高兴的表情符号在微博消息中的表达方式为“[高兴]”,即用“[]”将情感词汇包裹起来进而区分微博文本消息和表情符号。因此,在抽取微博表情符号时,采用正则表达式对微博文本进行处理,抽取文本中包含的表情符号。
1.2微博文本情感分析
基于上文对文本分词和词汇情感强度量化的研究成果,本节对微博文本情感进行量化分析。依据文本中出现的情感词和副词的情感强度,分别计算微博文本正向情感值、负向情感值和情感倾向性等特征。上述三种特征不仅可以作为后续基于情感词典和表情词典情感分析与评价工作的数据特征,而且可以通过上述三个特征值描绘出反映文本情感变化的微博文本情感曲线,并作为对表情符号情感倾向性、强度和极性等量化操作的数据基础。
1.3微博文本情感曲线
微博文本情感曲线根据微博消息中出现的情感词和语气词的情感强度,反映了微博消息所包含的情感变化。具体来说,根据微博的文本正向情感值和负向情感值,可以描绘出文本情感曲线来反映该文本所包含的情感变化。首先获得文本中出现的每个情感词汇的正向情感值和负向情感值,并记录每个情感词汇在文本中出现的相对位置;然后按照情感词在文本中出现的先后顺序,以1为单位勾画出文本情感曲线。本节对具体的微博消息勾画文本情感曲线,并展示相应结果。具体的微博消息如下所示:
谁的佐料都没自己的好,领老婆(自己家的)去看场电影也不错滴!
要喝风花雪月啤酒!
我有!
哈尔滨啤酒节,我来了!
明天我过节,童心未泯呀!
你就不怕事大,不过我同意!
今天新闻说,9月起个税起征点调到了3500,是不是意味着我们工资要上调了呢?尽管不多,也是涨啊,好兆头!
哎!因为堵车,我都不敢出门了!
同感!
奶奶的!药厂又放味,熏得我头疼,关键熏到孩子怎么办,丧尽天良!放味者必遭天谴!
也要上班了,肚子也消停了,真怪!看来2012的运程不得不信啊!
该微博文本情感曲线勾画结果如图1所示。图中横坐标表示微博消息中出现的情感词汇,纵轴表示每个情感词汇的情感强度值。
图1 微博文本情感曲线
1.4微博表情情感词典的构建
根据1.2节微博文本情感分析的研究成果计算表情符号的情感倾向性、情感强度和极性等量化值,采用聚类的方法对表情符号进行分类,结合本体理论对构建的情感词典进行组织和管理。
对于表情情感词典构建方法,其主要步骤叙述如下:
(1)针对采集到的所有微博文本,依次轮循每个微博文本并计算其情感曲线;
(2)对于没有包含表情符号的微博文本进行判断。当微博文本中没有出现表情符号时,则执行(5),反之执行(3);
(3)对微博文本的分词结果进行位置编号。获得表情符号在文本中的相对位置;
(4)根据微博情感曲线计算并存储表情符号情感强度和极性。确切地说,根据(3)获得的相对位置,对表情符号所在的文本语句进行情感强度和极性计算,即将该文本语句的情感强度作为表情符号的情感强度,对文本语句中出现的正向情感词和负向情感词的情感强度进行求和再平均操作;
(5)判断所有文本是否轮循完毕。完毕后,执行(6),反之,执行(1);
(6)针对所有微博文本中出现的每一个表情符号进行情感倾向性计算,计算公式如式(1)所示。其中,FT表示表情符号情感倾向性,Efi表示所有微博文本中每个表情符号的情感强度,m为表情符号的个数。此外,根据存储的表情符号情感强度和极性值,分别采用平均求和与投票的方法获得每种表情符号的情感强度和极性;
(7)针对所有表情符号,将其情感强度、极性和情感倾向性作为数据特征,采用聚类的方法对所有表情符号进行分类。获得相应的分类结果后,采用人工标注的方法,将所有表情分为生气、高兴、厌恶和悲伤等四大类;
(8)流程结束,采用定义好的表情词典本体资源库对表情符号进行存储和管理。表情情感词典本体格式举例如表2所示。其中,以[怒]、[吐]、[哈哈]和[伤心]等四个微博表情为例,分别给出本文计算出的情感倾向性、情感强度和极性值。
表2 表情情感词典本体格式举例
2 基于情感词典和表情词典的微博情感分析与评价方法
基于上一节的研究成果,本文提出一种自动化地基于情感词典和表情词典的微博情感分析与评价策略。该策略主要采用机器学习方法,将进行了手动式情感标注的微博信息作为训练样本,对新的微博测试样本进行情感倾向性评价。该策略主要流程叙述如下:
(1)根据需要可以获取单个用户或者多个用户的微博消息并将其转化为文本格式,方便后续处理。针对单个用户的微博消息获取与处理,可以获得该用户某段时间内的情感变化,主要应用于面向个人喜好的人物情感追踪。针对多个用户的微博消息获取与处理,可以获得用户对某一事件的情感倾向进而应用在面向政府机构的舆情监控;
(2)对获得的微博文本进行情感词汇和表情符号抽取,用于计算各种微博情感特征;
(3)基于情感词典和表情词典的情感词汇、表情符号属性值查询与获取;
(4)基于微博文本中包含的情感词汇和表情符号情感强度属性值,计算该微博的情感曲线;
(5)基于微博文本中包含的情感词汇、表情符号等各种属性值,以及微博情感曲线,抽取微博消息的情感波动性、情感强度和情感倾向性等多种情感特征;
(6)基于抽取的情感特征,为了避免多种特征之间由于具有较强关联性而出现共线性进而影响分类器分类效果的现象,采用线性判别分析(LDA)的方法对多种特征进行特征选择操作;
(7)基于特征选择结果,首先采用人工标注的方式对大量的微博文本进行类别标注,与微博表情情感类别一致,本文将微博情感分为生气、厌恶、高兴和悲伤四大类。然后采用Bayes分类器对微博消息进行情感分类,并分析该分类器的分类效果;
(8)采用Bayes分类器对每条微博消息进行情感类别概率计算,设计多个阈值划定情感类别界限,根据类别概率与类别界限之间的相对距离,对微博情感进行评价。
3 实验介绍
本文使用的微博语料数据由第六届中文倾向性分析评测(COAE2014)竞赛提供,共包含了279个用户的微博数据,每个用户拥有10条微博消息,总共2790条微博语料。我们首先采用人工标注的方法对下载的微博语料进行情感标注。经过人工标注后,2790条微博数据包含的正向情感微博数、负向情感微博数和中性情感微博数如表3所示。
表3 微博数据统计表
本文采用准确率(precision)、召回率(recall)和F测度值(F-Measure)三种评估指标,评价基于情感词典和表情词典的微博情感分类结果。以计算正向情感分类准确率、召回率以及F测度值为例,其数学公式分别如下:
本文分别采用基于情感词典的微博情感分析方法以及基于情感词典和表情词典的微博情感分析方法,将LDA的特征选择结果作为Bayes分类方法的输入,对微博数据分别进行正向情感、负向情感和中性情感的三分类操作。一方面,说明引入表情词典有利于提高对微博情感进行分析的准确性。另一方面,验证本文提出的表情词典构建与更新方法在微博情感分析工作中具有有效性。基于情感词典的三种情感类别分类结果如表4所示。结果显示,正向情感类别和负向情感类别的分类准确率都在75%以上,中性情感类别的分类准确率为56.3%。说明采用大连理工情感词汇本体库对微博文本包含的情感词汇进行量化操作的方法具有有效性。
表4 基于情感词典的三种情感类别分类结果
表5 基于情感词典和表情词典的三种情感类别分类结果
基于情感词典和表情词典的三种情感类别分类结果如表5所示。结果显示,正向情感类别和负向情感类别的分类准确率都在85%以上,中性情感类别的分类准确率达到了68.3%。经过对比,各项分类指标都优于基于情感词典的情感分类结果,不仅说明了引入表情词典对微博情感分析的有效性,而且验证了本文提出的自动化表情词典构建与更新方法具有应用价值。
4 结语
本文基于情感词典和表情词典的微博情感分类方法虽然取得了一定的成果,但仍然存在着一些不足和需要改进的地方,仍有较大的提升空间。例如,本文方法对微博中性情感类别分类率不高,主要是因为微博语料中出现了较多字义上带有主观情绪但在特定语境下为中性情感的情感词汇,因此,在不同场景下对情感词汇进行语义性识别、提高中性情感词汇的识别率将在未来工作中加以考虑。
[1]喻琦.中文微博情感分析技术研究[D].浙江工商大学,2013.
[2]李炤.基于微博情感分析的网络舆情热点发现模型研究[D].兰州大学,2013.
[3]王文远.面向情感倾向分析的微博表情情感词典构建及应用[D].东北大学,2012.
[4]杨希.基于情感词典与规则结合的微博情感分析模型研究[D].安徽大学,2014.
[5]Yang C,Lin K H,Chen H H.Emotion classification using web blog corpora[C].Web Intelligence,IEEE/WIC/ACM International Conference on.IEEE,2007:275-278.
[6]Quan C,Ren F.Sentence emotion analysis and recognition based on emotion words using Ren-CECps[J].International Journal of Advanced Intelligence,2010,2(1):105-117.
[7]刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,01:1-4.
[8]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,01:73-83.
[9]林江豪.中文微博情感分析关键技术研究[D].广东外语外贸大学,2013.
[10]郑毅.基于情感词典的中文微博情感分析研究[D].中山大学,2014.
Microblog Emotion Analysis;Emotion Curve;Expression Dictionary;Emotion Dictionary
Research on the Chinese Microblog Sentiment Analysis Model Based on Emotion Dictionary
LIANG Ya-wei
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)
1007-1423(2015)21-0007-05
10.3969/j.issn.1007-1423.2015.21.002
梁亚伟(1990-),男,河南鹿邑人,硕士研究生,研究方向为数据挖掘
2015-05-26
2015-07-14
提出一种反映微博文本情感变化的文本情感曲线,采用加窗的方法计算表情符号情感强度,实现自动化的微博表情情感词典构建。其次,基于情感词典和表情词典,计算出反映微博情感变化的微博情感曲线,抽取微博情感曲线波动性、微博情感强度和微博情感倾向性等15种情感特征,采用线性判别分析和贝叶斯分类方法分别对微博进行特征选择和情感分类操作,从而判断微博的情感倾向性。
微博情感分析;情感曲线;表情词典;情感词典
Proposes a text emotion curve to reflect the emotional changes of microblog text.Shifts the window to calculate emotional intensity of emoticons,develops an automatic construct and update method of emoticon dictionary.Then,based on emotion and emoticon dictionary,calculates the emotional curve to reflect the emotion changes of microblog,extracts the 15 emotion features such as volatility of emotion curve,emotion intensity and emotional bias,uses linear discriminant analysis and Bayesian method to select features and classify emotions,and then judge the emotional tendentiousness of microblog.