基于词典的商品评论情感分析
2018-10-27王玉珍
常 丹,王玉珍
(1.兰州财经大学 信息工程学院,甘肃 兰州,730020; 2.兰州财经大学 丝绸之路经济研究院,甘肃 兰州,730020)
互联网技术的发展使得电子商务行业快速崛起,伴随着各类购物网站用户的持续增长,人们已从过去简单的信息获取转变为向互联网传输自己的观点看法,从而每天产生数以万计的商品评论。这些呈指数级增长的评论信息虽然数据量庞大,难以梳理,但是很有研究的价值。文中将以京东和淘宝网站销售OPPO R11s手机为例,通过拓展的情感词典对商品评论进行研究,分析用户对产品不同特征的情感倾向,从而指导用户的消费行为,帮助商家改进商品上的不足。
近年来,交互式资源的出现,使得情感分析成为热门、前沿的研究领域。如:龚安,费凡[1]以酒店评论数据集为语料,在改进的情感规则中融合一元词、句法等特征,利用信息增益进行特征选择,提高了文本分类的性能和精度;周锦峰[2]等人针对文本局部语义特征,提出一种深度卷积神经网络模型,并表明这种模型不仅在训练效率和预测速度上有所提升,而且情感分类的准确率有所提高;冯兴杰[3]等人提出基于卷积神经网络和注意力模型相结合的方法对数据集进行分析,指出这种方法的实验结果相较于传统的机器学习方法有明显提高;范炜昊[4]等人在情感分析的基础上构建了用户痛点分析模型,提出用户痛点指数计算公式,对用户痛点进行量化;李桃迎[5]等人以服务类网购评语为研究对象,构建高频词共现网络,为网络评语挖掘研究领域提供了新的研究思路;赵刚[6]等人运用机器学习方法,设计餐饮领域的情感分析模型,通过实验,这种模型更加适用于客户的情感倾向分析;胡朝举[7]等人为有效解决传统的基于注意力的深度学习模型所存在的问题,构建了融合主题特征的深层注意力的LSTM模型,实验表明,该模型在情感分析的准确率和稳定性上都有一定的提高;赵志滨[8]等人通过抽取中文产品评论中的维度信息,计算各维度的维度情感,并提出维度权值计算方法,综合维度情感和维度权值计算评论的整体情感。可见,由于商品评论信息研究的重要性,情感分析受到各界学者的广泛关注。但是随着研究方法的不断改进,基于词典的情感分析方法逐渐不适用于大量文本的分析,主要是因为词典构建的难度较大,基准词典不适用于所有的文本情感分析。因此文中通过拓展手机电子设备领域的情感词典,并将其应用于时下销量较好的手机型号做情感分析。
1 情感分析概述
情感是人对客观事物是否满足自己的需要而产生的态度体验,可以表现为人们对于某个事物的评价、情绪或观点[9]。在商品评论情感分析中,情感被认为等同于用户对产品的观点、评价,因此,情感分析又称意见挖掘,是自然语言处理的范畴之一,涉及到机器学习、数据挖掘、信息检索等多个研究领域。情感分析主要是对语料集进行情感极性分析和情感极性强度分析,文章将主要对商品评论的情感极性进行分析,即用户对商品是否表示积极、消极或中性的情绪。除此之外,情感分析还可根据文本的不同分为新闻评论分析、产品评论分析、电影评论分析等类型。对这些主观性评论文本进行集成和分析,并根据上下文语境,计算文本的情感值,分析产品评论的情感倾向,对商家改进产品和用户选购商品都具有重要意义。
2 基于词典的情感值计算方法
目前,常用的文本情感分析主要是根据手工标注好的词典,基于传统的机器学习方法对文本进行分类。由于文本情感分析领域是极其敏感的,对于不同领域的产品评论,都有其适应的情感分析方法。因此文章基于知网发布的中文情感词典,构建适合手机评论的用户词典对商品评论进行分析,即建立情感词典,提取情感单元,计算各评论文本的情感倾向值。
2.1 情感词典的构建
由于文中以手机评论数据集为语料进行分析,因此,基于手机评论的词典,不仅要包含通用的情感词典,还要从产品属性层面上细化,补充网络流行用语,拓展相关词典,这样才能提高情感分类的准确度。
情感词典构建方法:
第一步:以How Net 2007版情感词典提供的正面情感词、负面情感词、正面评价词、负面评价词等为基础拓展词典;
第二步:通过经验和对数据集的观察,人工采集规则,其中主要的几种规则有:“名词+形容词”及“名词+副词+形容词”、“动名词+形容词”及“动词+名词”等;
第三步:对语料集进行分句处理,即以“。”“!”“?”等对评论文本进行切分;
第四步:利用分词系统对评论文本进行分词和词性标注,依据收集到的规则找出新的情感词;
第五步:根据两个词的共现程度PMI[10]判断情感词的情感倾向,当两个词与基准情感词的PMI差值大于某一阈值,则较大的一方的情感极性为新词的情感极性;
(1)
其中w1,w2表示两个不同的词语。
第六步:将新词录入情感词典中。
2.2 基于词典的文本情感值计算
对于商品评论文本来说,影响评论情感倾向的不仅是情感词,还包括程度副词、否定词等,因此,文中使用情感值计算函数[11](公式2),通过情感词和修饰词的综合计算结果,计算商品评论的情感值,从而分析该属性的情感倾向。
(2)
其中F表示情感极值,f(xi)表示第i个情感词极值,aij表示情感词xi对应的程度副词的权值。
3 基于商品评论的情感分析
3.1 数据来源
文中分析的数据主要来源于京东和淘宝的网站销售的OPPO R11s手机的评论数据。由于OPPO R11s手机上市以来,广受欢迎,但对于这个型号的手机属性还存在争论,因此从京东、淘宝这两家访问量较大的国内购物网站上,通过八爪鱼数据采集器收集了13883条评论数据,通过分析用户评论信息,挖掘用户对手机各项特征的情感倾向。
3.2 数据处理
商品评论是用户对产品的主观性评价,在表达上具有随意性,数据容易产生噪声。因此,文章首先对评论文本进行预处理,即去除噪声和重复性文本,如在原始数据中,由于用户未对商品进行评价,系统会默认给出“此用户未及时评价系统默认为好评”,这类评价信息研究的意义不大,因此在数据预处理中去除这一类型的文本。然后进行分词、词性标注和词频统计等工作,目前常用的分词工具主要有NLPIR中文分词系统、哈工大的LTP语言平台等,文中主要是通过结巴分析系统对评论文本进行分词和词性标注,主要是因为结巴分词系统可以直接在python中导入结巴分词模块,并且分词速度较快。最后,对分词结果进行词频统计,部分结果如表 1所示:
表1 手机部分词频统计结果
说明:n-名词,a-形容词,v-动词,d-副词,c-连词
3.3 情感值计算
通过以上数据预处理,将分词后的词频统计结果按由大到小的顺序进行排序,并选择排名前14的手机特征指标词,对手机指标进行分类,得到五个类别指标,见表2。
表2 手机特征指标分类表
对数据进行特征提取以及情感极性计算,为了更精确的计算用户对不同特征的情感倾向,文章将程度副词考虑在情感值计算中,给不同程度的副词赋予相应的权值,文章参考已有的研究成果,具有权值大小见表3,情感分析所有程序通过python 3.6实现。
表3 程度副词权值设置表
其中,most表示程度级别最大,代表词有“超级,过于”等,very代表词有“很”,“非常”等,more代表词有“比较”,“还”等,ish代表词有“稍微”,“略微”,insufficiently代表词“不怎么”,inverse是对整体的文本评论的情感倾向做了反转,因此赋予负值。
3.4结果分析
对预处理后的9997条有效数据进行分析,得到的手机特征词情感分析结果如图1所示。
图1 特征词正负平均情感占比Fig.1 Positive and negative average emotion ratios of characteristic words
由图1可知,对于OPPO R11s这款手机来说,用户对手机的总体评价较好,尤其是手机的外观和拍照功能,积极评论占比超过85%,得到了用户的普遍好评。而手机的续航,即充电和电池性能方面,以及手机的性价比相对来说评价较弱,这些特征更应该引起商家的足够重视。通过进一步分析用户评论,能够发现对于oppo R11s手机的续航这一特征来说,主要是由于手机电池不耐用,并且在充电的过程中手机会发热,导致用户产生消极的情感。而性价比方面,部分用户给出了“手机性价比不高”,“不是性价比之选”等消极评论。主要是由于这款手机在上市时,价格较高,除了拍照功能较好,外观漂亮外,其他性能并不出众。而且通过词频统计,发现这款手机的主要用户为女士居多,可见对于男士来说这款手机并不是最好的选择。
通过上述分析,建议商家能够延续在外观和拍照上的优势,优化手机的电池,解决手机电池的耗电以及充电时手机的发热问题,针对不同的用户群体制定相应的精准营销策略,提高客户的满意度,进而使得商家获得更高的收益。
4 结论
对商品评论进行情感分析和意见挖掘,不仅能指导用户的购买行为,而且能够帮助商家更好地了解用户需求,从而改进产品。文中基于拓展的情感词典对手机评论进行情感分析,这种情感词典的构建和情感值计算方法不仅适用于这种型号的手机评论情感分析,对于同类型的其他商品来说,同样也具有参考价值。