APP下载

基于情感词典的文本情感倾向分析及可视化

2017-05-12贾若雨

现代计算机 2017年9期
关键词:词典可视化节点

贾若雨

(四川大学计算机学院,成都 610000)

基于情感词典的文本情感倾向分析及可视化

贾若雨

(四川大学计算机学院,成都 610000)

随着互联网的普及,越来越多的人通过网络平台发表对产品、服务等的看法。目前,电子商务网站主要通过评分高低对用户评论进行分类,且仅有少部分大型网站提取用户评论文本中的概要信息且拥有较好的用户体验,不利于用户快速获取核心信息。以酒店评论数据为例,对句子级的文本进行情感倾向分析,并对分析结果进行可视化展示。

情感倾向;情感词典;可视化

0 引言

在互联网快速发展的今天,网络信息资源加速膨胀,大数据已经成为当代的热门话题之一。如何从海量数据中挖掘有用信息并通过用户易理解的方式进行呈现,依旧是当前研究热点之一。随着搜索引擎技术的不断发展,以及在线评论的暴增,文本情感分析逐渐流行。通过用户对产品、服务或者事件的评论的情感分类,我们可以了解到用户的情感倾向。对消费者而言,他们可以从这些分类信息中了解大众对某个产品或者服务的口碑,以便做出购买决策。对于企业管理者而言,他们可以通过了解这些客户的一些反馈信息,发现产品或者服务中的不足,从而加以改善。对于政府工作人员而言,他们可以及时了解舆论倾向,实时监控,维护社会的稳定。

文本情感倾向分析是情感分析中最重要的一步,它包含文本情感分类以及倾向性信息抽取。文本情感倾向分析目前多应用于电子商务、舆情监控等方面,在电子商务网站应用尤为广泛。目前,大部分电子商务网站仅通过用户评分对评论进行分类,包括好评、中评和差评。但单纯通过评分对评论内容进行分类,存在主观臆断,每个用户都有自己的评价标准以及其他一些原因,经常出现好评中存在差评,中评中存在差评的情况,影响文本分类的准确性。同时,仅有少部分大型电商网站抽取了评论内容中的部分信息,以标签云的方式展示,大部分网站仅对评论进行了分类,或使用基本的统计图(如饼图、条形图)展示评论结果,用户需要手动翻看一条条评论信息来获得真正有价值的内容,无法通过视觉迅速感知并直观地获取评论中的核心内容和潜在规律。

目前,国内外研究者在意见挖掘方面研究较多,能从大量的评论文本中抽取出特征信息,从而获得观点持有者的意见[1]。可视化可以帮助用户直观快速地发现文本中的重要内容和潜在规律[2-3]。

按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级[4]和篇章级等几个层次的研究。本文通过对句子级评论文本进行情感分类,挖掘其中的重要信息,并通过有效的可视化方法进行展示,设计并实现了意见挖掘的交互式可视化原型系统,帮助用户迅速从大量的文本数据中发现核心内容和潜在信息。

1 算法实现

1.1 情感词典的构建

情感词典的完备性直接影响到特征提取的效果,进一步影响最终的实验结果。就目前来看,无论是在中文领域还是英文领域,国内外都没有一部完整且通用的情感词典,我们只能根据现在已有的词典资源,并加以扩充,来构建我们所需要的情感词典。

图1 情感词典的构成

基础情感词典即具有跨领域性质,在多个领域都能通用的情感词典。本文结合了知网所提供的“情感分析用词语集(beta版)”、NTUSD、《学生褒贬义词典》,加以整理,经过去重、手工删除不常见情感词等处理,得到了一个相对完备的基础情感词典。

网络情感词典中包含的词不同于传统词语,无法从传统的语法或者语义去判断它们的意思,其中很多词都是通过某些词的谐音、字母缩写等改变而来。也有一部分是因为热门话题演变而来。这些词中有很大一部分都带有情感色彩,被用户用于各种评论之中。本文手工从社交网络中整理了一部分的网络情感词来构成网络情感词典,作为整个情感词典的补充,共整理了137个常用网络情感词。

领域词典中的词在本领域中带有明显的情感色彩,但是它们在其他领域中可能并不表现出任何的情感色彩或者表示相反的情感色彩。本文采用扩展的点互信息算法(SO-PMI)来对酒店评论中的领域情感词进行提取。

SO-PMI的思想是:选取两组基准词PosWords和NegWords,PosWords由带有明显情感倾向的褒义词构成,相反的NegWords由贬义词构成。将候选词Word分别与PosWords和NegWords里的基准词一一计算相似度,最后得到:

其中,pWord表示PosWords集合中的词,nWord表示NegWords集合中的词。

设定一个阈值0,使得当SO-PMI的值小于0时,表示该词属于贬义词;当SO-PMI等于0时,表示该词是中性词;当SO-PMI大于0时,表示该词为褒义词。

1.2 情感倾向计算

本文所使用的数据属于句子级文本,而每个句子都是由多个子句构成,我们通过标点符号来对文本进行分割,分成多个子句:c1,c2,c3,c4,…,cn。 而每个子句又可能存在一个或者多个评价组合单元w1,w2,w3,…,wn。每个子句的情感极性为:

而整个句子的情感极性则为:

根据公式(3),可以得到三种情况,当E(S)大于0时,表示句子极性为正,即表达正面情感;当E(S)小于0时,表示句子极性为负,即表达负面情感。当E(S)等于0时,表达的是中性情感。

1.3 可视化方法

本文采用基于FDA的布局模型,以中心节点为根节点向外延伸出三个子节点,这三个子节点是三个文本类别的中心节点。由这三个中心节点进行扩散,连接属于各自类别的评论节点。基于FDA的布局设计步骤:

①设置一块矩形画布,其面积rect=width*height,该画布由点集V和E构成。

②设置引力和斥力的计算公式:

fa(d)=d2/k//引力公式,k为参数,d为点间距离

fr(d)=k2/d //斥力公式,斥力与距离d成反比

③计算每个节点因为斥力所产生的位移x1,以及每个节点因引力所产生的位移x2。

④更新节点位置:计算得到斥力和引力产生的综合位移disp,通过温度t控制节点的调整幅度,并判断节点的坐标是否超出了画布,若超出,则根据画布进行调整。

⑤直到各个节点达到平衡点时,各个节点停止位置的更新。

本文针对提取的关键词,采用文字云方式进行可视化展示。将文字云的布局区域设置为一个椭圆,每个关键词的显示大小由它的词频以决定,将其大小映射到一个适当的范围,词频越大,字体越大,反之则越小。另外设计了一个取色器ColorLsit,随机为关键词分配颜色。关键词的布局流程如图2所示。

2 程序运行界面效果

可视化结果如图3所示。

图2 关键词布局流程

3 结语

本文以酒店评论数据为例,对句子级的文本进行了情感倾向分析,并对分析结果进行可视化展示。利用已有的词典资源加上扩展的词典,构建了一个相对完备的酒店领域的情感词典,对文本进行分析并计算其综合极性。提出了基于FDA的文本情感展示模型,方便用户查看文本信息,以及分类情况。另外提出了基于文字云的评论关键词模型,展示了用户所关心的酒店属性(房间、卫生、服务等)以及针对这些属性的评价语。

图3 可视化结果展示

[1]Feldman R.Techniques and Applications for Sentiment Analysis[J].Communications of the ACM,2013,56(4):82-89.

[2]唐家渝,刘知远,孙茂松.文本可视化研究综述[J].计算机辅助设计与图形学学报,2013,25(3):273-285.

[3]Cui W W,Liu S X,Tan L,et al.TextFlow:Towards Better Understanding of Evolving Topics in Text.In:IEEE Transactions on Visualization and Computer Graphics,2011

[4]Ghazi D,Inkpen D,Szpakowicz S.Prior and Contextual Emotion of Words in Sentential Context[J].Computer Speech&Language, 2014,28(1):76-92.

Emotional Tendency Analysis of Text Based on Sentiment Dictionary and Visualization

JIA Ruo-yu
(College of Computer Science,Sichuan University,Chengdu 610044)

With the popularity of the Internet,more and more people express their views on particular products,services on the network.Currently e-commerce sites mainly through score to classify the user reviews.Only a few large sites extract some summary information from the user reviews and have a good user experience which is not conducive for users to find important information quickly.Takes hotel review data for example,makes an emotional tendency analysis for sentence level text and visualizing for the results.

Emotional Tendency;Sentiment Dictionary;Visualization

1007-1423(2017)09-0038-04

10.3969/j.issn.1007-1423.2017.09.010

贾若雨(1992-),女,河北邢台人,在读研究生,研究方向为信息可视化与可视分析

2017-01-10

2017-03-15

猜你喜欢

词典可视化节点
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
思维可视化
自然资源可视化决策系统
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
采用贪婪启发式的异构WSNs 部分覆盖算法*
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读