基于文本挖掘的电商助农平台消费者评论数据分析
2019-12-18孙丽男康冰冰王佳惠胡锦秀
□ 孙丽男 康冰冰 王 鑫 王佳惠 胡锦秀
(黑河学院 黑龙江 黑河 164300)
伴随着互联网技术的高速发展,线上购物已经成为人们日常生活中的主流购物方式之一,多数消费者会在各类电商平台购物后留下一些评论,为其他消费者提供一些参考。本文将采取文本挖掘的方法分析电商助农产品的评论数据,首先采集京东电商平台上助农产品的评论数据,然后采用中文分词、情感倾向分析等方法对所挖掘出的文本评论数据进行分析,并对文本评论数据的情感倾向性判断,有效、准确的从互联网电商评论数据中分析出消费者的需求和满意度,为电商平台助农产品营销提供决策支持。
一、评论数据采集
伴随着国家扶贫攻坚政策的不断升级,助农产品越来越受到大众的关注,许多电商平台纷纷响应国家政策开辟助农板块,用户评价成为平台运营重要的参考依据。
本文利用Python采集京东商城助农产品的评论,共抓取了105836条评论,数据抓取过程中,每个商品的评论只能显示前100页即每个商品只能抓取到1000条评论,同时将非结构化的文本数据转化为可检索的结构化数据,用表格形式储存,如表1所示。
表1 京东平台上采集的数据结构示意图
二、数据预处理
采集完数据后需要先对数据进行预处理,在电商平台评论数据中常出现的需要处理的数据有以下四种类型:
1.语句中带有重复词的评论。例如:“这家的苹果真的真的真的真的太好吃了!!!”和“差差差差差,再也不会回购了”,针对这类评论本文选择压缩去词的方式处理,只从每条评论中多个重复词中提取一个重复词,例如“这家的苹果真的太好吃了”和“差,再也不会回购了”。
2.商家雇佣水军刷出的好评,此类好评的特点为,评论篇幅长,图片数量多,当天追加大篇幅评论,同一账号在同一商品下多次好评,这种评论我们选择的处理方式为剔除。
3.无意义的评论,分为两种,第一种为系统默认好评,即由于买家未在规定时间内对商品评价,导致系统给出的默认好评;第二种为由标点符号,英文字母,数字,不明语义的句子等组成的评论,这种评论我们也选择剔除处理。
4.完全相同的评论,在评论中有时会出现两条或多条完全相同的评论,针对这类评论采取文本去重的方法,即逐一对比评论内容,去除完全相同的评论。
在数据预处理中,剔除了大量无效评论,最终共剔除100694条评论,得到有效评论5142条,评论利用率为0.49%。
三、情感倾向分析
情感分析是指所挖掘的文本内容表达的观点与含义,是识别某个主体对某客体的功能及效用主观感受,这种主观感受褒贬不一,而情感分析就是根据这种褒贬不一态度来进行情感倾向性研究。本文采用HowNet进行语义分析,求出得分,通过得分来判断文本情感倾向,得分为正数则表明文本表达的为“正面情感”,若得分为负数则表明文本表达为“负面情感”。具体分析框架如图1所示。
图1 文本倾向性分析框架图
通过HowNet计算出所采集的京东助农产品的评论的得分情况,根据所得出的分数,来进行情感分析,分析结果如图2所示
图2 文本情感分析结果
助农产品的褒义的评论即正面情绪高达79.58%,对助农产品持中立看法的为7.91%,而对助农产品的贬义评论即负面情绪仅为12.51%,由此可见经过分析后得出消费者对京东商城助农产品的满意度较高,大部分消费者对助农产品持有的是积极的态度。
四、中文分词
本文从评论中整合提取高频词汇,制作词云图,如图3所示。图中字号越大代表该词出现频率越高,其中“好吃”,“新鲜”,“味道”出现频率极高,说明消费者在购买京东平台助农产品时最注重产品的口感和产品是否新鲜,对价格的关注程度也在其次,说明消费者比起价格更在意产品本身的质量,商家应该把产品质量放在第一位。词云图中还出现了一些消极情绪的词汇。例如“最差”,“一般般”,“破损”,“想象”等词都频频出现,说明商家还需提高产品的包装和质量。
图3 词云统计图
图4所示的网络语义图左侧主要为消费者对产品本身的评价,包括口感,质量,价格等,右边主要为消费者在平台的购买体验评价,包括物流,售后,服务,包装等,由网络语义图能看出消费者最在意产品的品质和味道,这一点与词云图得出的结论相似;消费者会因为产品口感,品质决定是否回购该产品;在购买助农扶贫产品时也更在意产品的品质;消费者会因为产品味道和分量和质量等因素给出差评,产品的包装破损导致产品分量不够及破损,商家应加强产品包装质量。
图4 网络语义图
五、主题分析
本节在语义网络情感分类结果的基础上,对不同情感倾向下的潜在主题分别进行挖掘分析,从而得到不同情感倾向下用户对助农产品不同方面的反映情况。经过LDA主题分析后,评论文本被聚成3个主题,每个主题下生成10个最可能出现的词语以及相应的概率。
表2 LDA差评主题分析结果
表3 LDA好评主题分析结果
根据助农产品差评的3个潜在主题的特征词提取,主题1中的高频特征词,即不甜、不够、失望、很差、不要、磕碰、个头、速度、客服和太慢,主要反映助农产品的质量不好,没有达到部分消费者的期望值;主题2中的高频特征词,即热门关注点主要是太小、态度、酸、活动、一般、不好吃、垃圾、不新鲜、质量、大小不一,主要反映出消费者认为助农产品的质量及服务态度存在问题。主题3的高频特征词主要是烂、破损、重量、下面、坏果、不符、均匀、没熟、包装、打蜡;主要反映出部分商家发货慢、包装差及规格等与描述不相符等。
根据助农产品好评的3个潜在主题的特征词提取,主题1主要反映出大部分消费者认为助农产品性价比较高,口感香甜;主题2反映出助农产品的质量不错,对商品的整体比较满意,同时“物美”一词也在热门词中,可能是因为存在一部分比例的消费者在选择助农产品时比较注重产品的外观,主题3主要反映出消费者对助农产品的发货速度、口感及营养较为满意。
综上所述,消费者对于京东电商平台上助农产品的整体满意度较高,更加注重产品质量,对于产品包装及物流等方面满意度较差,京东电商平台可根据上述分析结果制定有效的助农产品营销策略。