APP下载

在线评论研究综述:基于细粒度情感分析视角

2018-09-10贾守帆张博彭世豪

电子商务 2018年11期
关键词:在线评论文本挖掘情感分析

贾守帆 张博 彭世豪

摘要:在电子商务服务中,用户的在线评论对消费者的购买决策与商家行为的影响日益凸显,如何利用这一重要的在线文本数据去挖掘用户的情感倾向成为学界以及业界关注的焦点。经过文献整理,本文梳理出一个在线评论的细粒度层次情感分析业务流程,基于这一流程分析了本领域的研究与发展现状,为未来的研究提供参考。

关键词:在线评论;文本挖掘;情感分析

引言

近年来我国电子商务飞速发展,各类电商平台大量崛起,据国家统计局统计数据显示:2017年网上零售额达到71751亿元,同比2016年增长32.2%。伴随电子商务的不断普及以及平台逐步完善的业态功能体系,电商平台带来了大量个性化、网络化、非结构化的在线评论文本。在线评论作为一种新型的口碑传播方式,打破了传统口碑以人际扩散为基础的时空限制,使得潜在消费者可以通过阅读评论来完善对产品的认知,辅助完成购买决策。商家可以通过收集评论内容来分析用户对商品的态度,获取用户的喜好进而更好的为消费者服务。基于在线评论在电子商务链条中重要的作用,国内外学者对此领域给予了极大关注,本文收集了近年国内外在线评论研究的文献成果,从情感分析视角出发,对在线评论领域的相关技术应用以及研究现状进行概述。

1、基于文本情感分析的在线评论研究

信息爆炸时代,互联网的高度开放性和可追溯性使得消费者在作出网购决策前面对着海量的消费者评论,这些评论通常包含着他人有价值的观点意见,对这些包含观点的评论文本进行人工识别和分析是极其低效率的,因此自动化的文本情感分析成为当前主流的应用领域。情感分析,是属于文本挖掘的一个细分研究领域,是指通过自然语言的处理从文本中提取出人们对于实体及其属性所表达的观点、情感、态度和情绪等[1]。从分析的粒度层次来看可划分为粗粒度情感分析和细粒度情感分析,粗粒度情感分析包括篇章级和句子级情感分析,细粒度层次的分析则是基于评价对象及其属性的分析。伴随着人工智能、自然语言处理技术的进步,业界对情感分析的要求逐步提高,细粒度层次的情感分析正成为当前国内外研究的热点内容,本文通过分析当前细粒度层次情感分析的业务流程来对当前在线评论研究进行概述。

1.1 预处理

研究人员从电商网站等第三方平台取得的评论数据要首先经过预处理阶段,主要包括中文分词,词性标注,语言学特征处理等。

(1)中文分词指的是按照一定的规范将连续的字序列重组为词序列的过程,中文分词技术归属于自然语言处理技术范畴,现有的分词算法可分为三大类:基于统计的分词方法、基于字符串匹配的分词方法和基于理解的分词方法。常见的分词工具有:Hightmon开发的中文分词引擎scws;支持Linux及Windows系列操作系统的ICTCLAS;基于Jovo的开源中文分词组件Pooding(庖丁解牛分词)等。尽管已有分词工具较为成熟,但中文是一种十分复杂的话种,计算机在识别过程中还是会出现无法分辨歧义词以及无法识别网络新词等难题。

(2)词性标注即确定分词结果中每个单词是名词、动词、形容词或其他词性的过程。

(3)语言学特征处理是指根据语言学特征对分词和词性标注后的产品评论进行进一步的完善,一方面解决分词工具无法识别的个别产品特征,此外为了提高处理文本的效率以及节省存储空间,需过滤掉分词结果中出现频率高但无实际语义的停用词(例如:的、是、啊等)。

1.2 属性抽取

数据预处理完成后,需要从预处理结果中进一步抽取产品属性,产品属性在评论文本中往往是用户评价的对象。例如“这款手机的音效非常好”, “手机的屏幕清晰色彩好”,这两句评论中产品属性分别为“音效”和“屏幕”,属性抽取的任务就是从在线评论文本中抽取出这样的属性。综合目前的研究现状来看,属性提取主要分为四种方法:1)基于频率的属性抽取;2)利用句法关系抽取;3)利用监督学习抽取;4)利用主题模型抽取,具体的方法特征与详细信息如表1所示。

产品属性的提取对于情感分析来说十分重要,它们代表着观点评价的对象或者消费者在评论中谈论的主题。过去学者们提出了许多无监督和半监督的模型用于属性抽取,然而从实际应用层面来说,目前这些模型还存在着一些问题。例如这些模型大都基于一元模型的,而实际生活中很多属性都是由多个单词组成的短语。此外,目前的方法主要着眼于抽取名詞和名词短语类型的特征,实际在很多情况下许多特征并不全是由名词和名词短语构成,存在通过动词表达的现象,这时已有的抽取算法就无法适用。

1.3 情感分类

情感分类的目标是确定评论文本中针对不同属性所表达的观点倾向:正面、负面还是中性。在之前例子(“这款手机的音效非常好”)中,评论者对手机音效表达了正面的观点。通过文献的整理,我们总结出情感分类通常使用的两类方法:基于监督学习和基于词典的无监督学习。

1.3.1 基于监督学习的方法

基于监督学习的情感分类通常使用支持向量机(SVM)、朴素贝叶斯分类器等机器学习算法。该方法优势在于,它的学习算法可以通过优化手段从各种特征中自动学到一个有效的分类模型,而这些在学习算法中所习得的特征大部分情况下难应用于基于词典的分类方法。劣势在于基于监督学习的方法依赖于人工标注的训练集,但不同领域数据的分布、类别标记的分布都具有很大的差异性,导致现有基于监督学习的方法难以应用于大规模、多领域的实际数据。

1 .3.2 基于词典的无监督学习

基于词典的情感分类方法是使用包含情感词短语、俚语、组合规则的情感词典,并结合情感聚合函数来识别出在线评论文本中针对每个属性所表达的情感倾向,该方法主要包括以下四个步骤。

1)标记情感表达词

此步骤的目标是在评论语句中找出每处情感表达,并判断情感倾向,每个正面的情感表达+1,负面的情感表达一1.

2)处理情感转换词与转折从句

情感转换词指的是能改变情感倾向的词或者短语,如“手机屏幕不清晰,但是还能接受”中的“不” “但是”属于情感转换词。通常通过给定的词典检测并标记出来,在情感分析过程中不考虑它们的情感贡献,只考虑它们的情感转折作用。

3)聚合情感打分

用情感聚合函数来给得到的情感打分,从而确定评论文本中针对每个属性的观点情感倾向。假设句子S包含属性集合{a1,…,am),情感表达集合{sel,…,sen)以及通过上述步骤得到的每个情感表达的得分,则句子S中每个属性al的情感倾向可以通过下面的聚合函数得到:

基于词典的分类方法能够有效的避免监督学习方法中的部分问题,在面对大规模、多领域的实际应用场景时具有良好的效果,鲁棒性强,领域独立,因此业界与学术界的许多开发与研究都使用此类方法。当然基于词典的分类方法缺点在于,构建分类所需的知识库(词典、模板等)需要消耗大量的人力物力,另外难以解决的长尾问题,利用已有的情感词我们大概只能处理60%的情况,而剩下的低频的40%语言现象是无法处理的。

2、总结

本文从细粒度层面对在线评论的情感分析进行了介绍,并梳理出细粒度情感分析通用的业务流程。基于上文的分析与梳理,我们可以发现,情感分析是一个涉及多任务的综合研究,有很多子问题相互交叉,不仅仅是一个单独的问题。与此同时,国内该领域研究还存在一些亟待研究和解决的问题,主要包括以下几点。

第一,缺乏对产品隐性属性的挖掘。产品属性层面上可细分为显性属性和隐性属性,例如“这款手机的音效非常好”和“这款手机不容易放进钱包里”两条评论, “音效”可称为显性属性,而“不容易放进钱包里”则表达了产品的隐性属性“体积”。通常隐性属性的表达较为复杂,导致现有的研究缺乏对产品的隐形属性进行足够深层次的挖掘。第二,缺乏成熟的语料库和实验平台,用于公共研究使用的语料库太少,同时因缺乏开放的实验平台和统一的评价标准,导致方法的有效性较难验证。第三,研究缺乏规范化,现有研究在语料词性标注规范、情感特征提取定义等很多方面没有达成共识,很难对不同方法的实验结果进行客观的比较和评价。

伴随我国電子商务的高速发展,对于从在线评论中挖掘出更多的潜在商业价值的需求越发增多,基于这些强烈的应用需求以及技术上的挑战将会使得这一研究领域在未来会有很大的研究价值和发展空间。

参考文献:

[l]吴应良,黄媛,王选飞.在线中文用户评论研究综述:基于情感计算的视角[J].情报科学,2017,35(06):159-163+170.

[2]郑霖,徐德华.基于改进TFIDF算法的文本分类研究[J].计算机与现代化,2014(09):6-9+14.

[3]杜晓静.引入情感分析的推荐模型[D].东南大学,2017.

[4]刘培玉,苟静,费绍栋,朱振方.基于隐马尔可夫模型的主观句识别[J].中文信息学报,2016,30(04):206-212.

[5]李向前,李军伟.利用三层条件随机场模型进行情感极性分类及强度分析[J].计算机应用研究,2017,34(04):986-990.

[6]王建芳,刘峰.基于隐狄利克雷分配的情感分析[J],计算机工程与设计,2014,35(06):2179-2182+2213.

猜你喜欢

在线评论文本挖掘情感分析
数据挖掘技术在电站设备故障分析中的应用
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
基于LDA模型的95598热点业务工单挖掘分析
在线评论情感属性的动态变化
从《远程教育》35年载文看远程教育研究趋势
慧眼识璞玉,妙手炼浑金
文本观点挖掘和情感分析的研究
消费者个体行为偏好对在线评论真实性的影响机理研究