电商评论文本情感分析在品牌认知中的研究
2020-02-02黄余黄欣彬
黄余 黄欣彬
(宜宾职业技术学院 四川省宜宾市 644003)
1 引言
根据CNNIC 数据,截至2019年6月,中国网购用户规模达6.4亿(+12.3%),相对2018年底增长0.3 亿;网民使用网购比例为74.8%,相对2018年底提升1.2 个百分点[1],电商已经深刻融入人们生活。通过产品的电商渠道舆论分析,对优化品牌服务和产品迭代,监控用户对品牌产品的认知和口碑情况;提升品牌的核心竞争力和改善自身不足,实现品牌战略,是企业目前迫切需要。
自动分析大量用户评论的文本内容,输出每条评论对应的用户情感类型[2]。通过对用户对产品的看法和态度的识别是对品牌产品或服务进行情感的关键,其中包括对评价对象、评价观点、评价的文本(品牌社群众一般为短文本)[3]。对中文文本进行情感分析需要高质量的情感词典[4]。目前情感分析研究大部分是基于已经编辑好的情感词典或词表判断情感倾向,比较典型的是使用种子词、领域词和WordNet 扩展词表进行匹配计算。在特定的情感基础上,如何利用语义分析与评论情感打分模型对电商评论文本信息进行综合分析,为商家提供有效的商品口碑信息,是我们一个重要的研究方向。
2 评论数据采集
本文以电商京东网站上的华为儿童手表评论作为文本情感分析对象。使用Google 公司开发的高效提取网页数据的Chrome 插件工具Web scraper 进行数据爬取。
从数据获取结果中可以看出,爬虫获取的评论数据有内容较为随意,可能会直接影响后续分析的结果,因此还需要对评论数据进行预处理,获得规范化的评论数据。
3 构造特征-情感概念对词库
中文文本数据进行情感分析时,情感词典是最重要的一个组成部分,通常情感词典一般由积极情、消极、否定、程度副词词典四个部分组成。高质量情感词典能够提升情感分析的准确率,在构建情感词典时论文综合使用了Hownet、NTUSD、清华大学李军中文褒义、贬义词典和BosonNLP,将四个情感词典中的积极情绪词和消极情绪词分别放入两个文档中,然后进行操作。并根据判断商品评论文本的分析需要构造的否定词词典和程度副词词典最后,删除情感词典中的非文本词。并分别将积极情绪词典中的词权重设为1,消极情绪词典中的情绪词权重设为-1;将否定词词典中的否词权重设为1,副词词典中依据程度副词语气的强弱将其量化,将其划分为5 个等级,为每个等级设定不同的权重。权重取值分别为{-0.5,0.5,1.5,2.5,3.5}。
由于在电商评论领域,评价用词具有随意性的特点,再加之网络流行用语层出不穷,我们情感词库还需在进一步完善。本研究通过Word2vec 语词聚类法从商品评论语料数据中抽取相关情感词、评论词,来完善商品评论的情感词库。如:比如用户指定输入“北京”,将显示训练文本中与“北京”最接近的词语以及它们之间的余弦距离,进而优化了情感词库。
特征词库的构建采用人工选择和Word2vec聚类相结合的方法。第一步从品牌商品的说明书和品牌官网商品介绍页中人工抽取商品领域特征词,确定商品的显式属性;第二步:是根据已有的利用Word2vec 语词聚类法从的用户评论数据中寻找特征词关联词汇,扩充完善产品特征词库。
如果能把特征与情感词库建立相应的映射关系,使用产品特征和用户情感相结合,对用户对产品认知将会更客观的效果。本研究将采用python 语言对评论语料集构建特征-情感概念。具体操作步骤如下:
(1)先利用Python 中“Jieba”中文分词第三方库,对评论语料库进行分词处理。
(2)构建如“定位”相关特征词表。由于客户通常在评论会对多个对象进行评价,如“外观”“音质”“售后”等。
(3)抽取特征-情感概念对,即特征词+情感词的组合词组。(4)通过人工审查,筛选和确定特征-情感概念对。
4 文本情感评分模型
表1 针对以上5 种情况,以Sen_score (vp)表示评价短语的情感分值;vp 表示评价观点词;sen 表示情感词的原始情感值;deg表示程度副词的权重,分别计算评论情感分值[5]。
结合语义关系计算、分词和词性标注,从消费者评价数据中得到与属性特征匹配的情感词,从而提取评价数据中的属性特征-情感词对
表1:评论组合情形
表2:产品特征情感倾向统计
图1:特征词统计
提取模块可根据词频统计结果,以确定得到商品的属性权重。将单组属性特征-情感词对
则某一商品单个属性特征的情感得分算法如下:
单个商品的情感得分如公式如下:
其中,m 表示单个商品所包含的属性特征的个数,n 为该属性特征中出现的情感词个数,为每个情感词前出现的程度副词强烈级别,表示相应程度副词强烈级别所对应的系数值,f 为该情感词前含否定词的个数,μ 表示该情感词的否定词得分值,class1-class4 分别为划分的四种程度副词强烈级别,为属性特征的权重系数,i 为属性特征编号,为第i 个属性特征的第j 个情感词的情感极性基础得分,βil取值范围为[-1,1],其中,正负分别对应积极与消极情感。
若该情感词前存在否定词,统计全部否定词出现的次数,若为奇数则在该情感词的情感极性基础得分前乘以-1。可将情感值的计算规则最终构建为:转换情感极性,鉴于双重否定所占比重较大,本研究仅考虑双重否定的情形,若出现两次否定词,则短语情感分值在上述分值的基础上再乘以(-2),为。
5 实验结果
本研究选取华为儿童手表,京东网站华为儿童手表销量排名前三的单品为研究对象,通过web scraper 爬取收集顾客购买后的在线评价,筛选2020年1-9月份中线评论进入分析环节。按产品特征词分别获得的其正面、负面和中性评价评价数量,及正面评论所占的比例。
根据表2 产品特征的正面评价占比可知,华为儿童手表“操作难易“性价比”“精准定位”“灵敏度”等特征的口碑表现良好,好评率在 90% 左右,但是“售后”、“做工质量”方面用户的认可度较低,好评率低于70%。图1 利用饼图展示了华为儿童手表产品特征的评论占比。
电商用户家庭每月在电商上的花费占家庭总支出的21.9%,电商购物已成家庭日常消费的重要一环。用户购物之前,会习惯性的浏览商品描述与用户评论,而评论内容对用户的购买行为有显著的影响。正面口碑将有助于提高品牌知名度与消费者对产品的认可程度以及购买意向;而负面口碑则会损害品牌形象,使用户流失。所以新的营销时代,企业应实时动态的对所属品牌或服务网络评论进行情感分析,随时掌握品牌口碑变化,充分利用好口碑这个最廉价的广告形式。并在负面口碑出现时,能及时做好有效的营销应对措施,加强风险管理能力。