中文情感分析综述
2016-07-22王庆福
王庆福
摘要:目前国内存在各种类型的舆论平台,以资讯类舆论平台为主,咨询类平台的受众通常都会对咨询进行评论,分析提取评论中主题内容,对评论信息进行分类分析,了解当前网民的核心诉求具有非常重要的意义。主题模型作为主题发现中重要的模型手段,对主题的定位具有明显的效果。
关键词:网络评论;主题发现;网民导向
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)16-0133-02
Abstract: The various types of public opinion platform, based on information platform of public opinion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model in the subject discovery, has obvious effect on the orientation of the subject.
Key words: online review; topic discovery; public opinion
情感分析是目前文本挖掘中比较主流的应用领域,情感分析涵盖的内容很多,诸如电商平台中评论信息分析、社交媒体平台中用户的评论导向等都属于情感分析的范畴。情感分析能够发现用户评论数据中极性,对于分析用户的思维导向具有很好的指导价值。
情感分析能够辅助电商和社交等平台更好地提升用户体验,以电商平台(淘宝)为例,淘宝的用户量级和商品量级都非常巨大,通过提取分析用户评论中情感特点,可以动态的对淘宝店铺和淘宝商品的排序进行调整,最大适度的提升用户的满意度。情感分析对社交平台的辅助性也是巨大的,很多热点社会时政信息都会在社交平台上暴露出来,通过对当前热点事件下网民的跟帖信息分析,能够发现网民对当前热点事件的趋势,一方面网民遍布全国各地,网民跟帖信息能够在一定程度上帮助验证事件的真实度。
1 情感分析流程
情感分析包括很多的内容,例如需要对用户评论信息进行分词,分词之后需要对各个分词结果的词语进行词性分析,词性分析的结果是希望通过对单个词语的词性分析来分析整个句子的极性,需要通过机器学习的方法对每条评论信息进行极性标注,极性标注的方式可能存在多个类别而非简单的积极和消极两种情况。需要对用户产生的新评论信息进行极性分类等。
1.1 评论分词
用户评论信息以句子和短文本为主,情感分析很重要的一步是依赖情感词典,通过将评论信息中词语与情感词典进行映射,发现可以匹配的结果,以此来界定词语的极性。因此对评论信息进行情感分析的首要工作是分词,分词的好坏决定了最终情感分析的结果。分词可以采用多种算法,最简单的方式是词典匹配的方式,即通过能够匹配词典的词语作为分词单位,分词时采用最大匹配单位为准,还有诸如最大熵分词算法,既保证当前规则的分词切分方式能够最大化的保留句子的主要信息。值得一提的是,目前应用最为广泛的应该是隐马尔可夫模型的分词算法,隐马尔可夫模型将句子切分后的各个单元概率最大化,这样做的目的是保证切词后的划分是基于统计意义下最可能的切分,分词系统结构如图1所示。
1.2句法分析
句法分析是分词之后的步骤,分词的目的是为了分析用户评论中各个词语的极性,分析极性的目的是为了对整个评论语句进行分析。句法分析涉及多个细节,需要对句子的组成成分进行分析,常用的分析方法是隐马尔可夫模型,隐马尔可夫模型通过对句子拆分后的各个词语进行动态组合,找出最佳的句子匹配成分,对句子成分的分析是为了能够更加准确地分析句子。
1.3句子主题识别
句子主题识别在电商平台应用尤为明显,用户评论的句子千差万别,需要在如此海量的评论数据中找到评论中共通的信息,以淘宝为例,淘宝评论分为有限的类别,然后评论数据量确实非常巨大,需要从海量的评论数据中识别出有限的类别。依赖于前两个流程的帮助,评论分词和句子分析,可以试图提取句子中共现次数较多的词语,并评估这些词语在整个评论数据中占据的信息量大小。
1.4评论分类
对海量评论数据的处理之后,如何对产生的新评论数据进行分析,即需要对新评论数据进行分类,分类的依据是之前通过历史数据学习的类别数据。以淘宝为例,淘宝评论的类别有很多种,诸如物流信息、尺寸信息和颜色信息等有限的几个类别,这些类别都是通过对历史评论信息进行动态的划分,新评论产生之后,通过分词和句法分析等步骤,对新评论进行类别分类,将新评论映射到具体的类别中。
2情感分析实践
情感分析是指发现作者在对某个话题或某个事物发表评论时的态度和观点。这个态度或许是他当时的情感流露,又或者是作者透露出来的情感交流或者只是本人简单的判断和评估等。在进行情感分析时,需要分清逐级区分,可以是最基础的词语级别的、也或者是句子级别的再或者是最上层整个评论主体级别的。文本情感分析的要义就是对评论中词语进行细粒度的极性分析,从而实现对整个句子级别的极性判断。总体来说,可以将情感分析划分如下几个步骤。
第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。英文已经有伟大词典资源:SentiWordNet. 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。
但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋地(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。
中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。
第二步,就是识别一个句子是积极还是消极,是主观还是客观。有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。
但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。
如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。
中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP. 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。
到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。
这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。接下来还可以对比不同产品的评价,并且可视化出来。如图2所示。
3总结
本文以文本情感分析为主要切入点,分析了文本情感分析在当前诸多领域中应用场景,文本情感分析可以发现用户在特定场景下的情感特性,通过对情感特性的分析,可以了解用户对当前话题或者世事的态度。很明显这种研究具有非常重要的社会价值。情感分析包括句子分词、句子成分分析、主题发现和句子分类等多个部分,通过诸多环节的协调组合共同组成了最终的情感分析。
参考文献:
[1] 徐健. 基于网络用户情感分析的预测方法研究[J]. 中国图书馆学报,2013(3):96-107.
[2] 蒋宗礼,金益斌. 结合点评情感分析的推荐算法研究[J]. 计算机应用研究,2016(5):1-5.
[3] 江腾蛟,万常选,刘德喜,刘喜平,廖国琼. 基于语义分析的评价对象-情感词对抽取[J]. 计算机学报,2016(39):1-17.
[4] 息行雨. 音乐与情感结合的教学方法分析[J]. 中国培训,2016(6):121.
[5] 杜思奇,李红莲,吕学强. 基于汉语组块分析的情感标签抽取[J]. 情报理论与实践,2016(5):125-129.