APP下载

特色农产品评价情感研究*

2021-10-28杨君子周林锦张利民韩媛媛程凤林张军芳

南方农机 2021年19期
关键词:特征词分词电商

杨君子,周林锦,张利民,韩媛媛,程凤林,张军芳,袁 挺

(衡水学院数学与计算机科学系,河北 衡水 053000)

在互联网迅速发展的今天,手机、电脑等电子设备的使用越来越广泛,人们已经逐渐养成了线上购物的习惯。随着线上购物越来越受欢迎,电子商务成为了新潮流,电商平台直播营销成为了一种新的销售手段,为助推乡村振兴,各地掀起了主播带货的热潮,为特色农产品打开了更为宽广的销售渠道。特色农产品企业要想取得长久的发展,需要线上平台和企业保障自身产品物美价廉,诚信经营。此外,企业还需要对消费者的消费心理进行研究,根据平台上消费者的评论数据,制定合理的销售策略。

传统的购物可以直接通过触摸、试穿等方式直接感受到产品质量的好坏,来决定是否购买。但在线上购物时,消费者无法直接感受到产品的好坏,只有通过商品的评论来进行判断,所以商品评论的好坏能间接决定产品的销量。特色农产品企业要充分利用平台上海量的销售数据信息,对这些信息进行深度挖掘,获得有价值的信息,分析消费者对所购买产品的情感态度,及时发现消费者的购买偏好,及时了解消费者的购物需求,从而抓住商机,提升销售量,减少风险损失。课题组主要基于电商平台特色农产品的评论数据,分析特色农产品在电商平台销售中存在的问题,主要应用一种非监督机器学习技术LDA主题模型,构建消费者对商品的情感分析,帮助卖家发现产品销售中存在的问题,改进销售策略,扩大销售。

1 电商商品评价情感分析模型构建

本研究对电商商品的评论数据进行挖掘,是对电商产品评论关注点的研究。如图1所示,是电商平台上面销量最好的4款某酒业产品的评论数,因为50度产品的评论数样本最多同时好坏评差异最大,所以选择某酒业50度产品作为研究对象。

图1 评论数表

获取到数据以后,构建了包含数据预处理和LDA模型分析的一套情感分析模型,其技术路线如图2所示。首先,从电商产品评论中把关键词提取出来,然后进行文本去重分词等数据的预处理,最后建立LDA情感分析模型,并进行模型结果的评估。

图2 电商商品评价情感分析技术路线

2 数据预处理

2.1 文本去重

评论数据中包含了很多重复的文本,这些重复的数据有可能是平台商家购买的水军所发布的评论,即为了营造出商品很好的假象而通过不正当手段对自家商品直接给予好评。这些重复评论可能掩饰商品品质而误导消费者,现对这些重复的文本进行处理。如图3所示,为本研究获取的部分评论数据。

图3 部分评论数据

2.2 机械压缩去词

因为线上购物平台的商品评价信息有效性不一,进行去重后还是有很多参考意义不大的重复语句,比如“可以可以可以”“不错不错不错”“好喝好喝”等。

因此,设定语句压缩的规则[1]如下:

若读入与上列表相同,下为空,则放下;

若读入与上列表相同,下有,判断重复,清空下表;

若读入与上列表相同,下有,判断不重,清空上下;

若读入与上列表不同,字符≥2,判断重复,清空上下;

若读入与上列表不同,下为空,判断不重复,继续放上;

若读入与上列表不同,下有,判断不重复,放下;

读完后,判断上下,若重复则压缩。

根据以上几条压缩语句规则,得到了已压缩去词完成的精简语料,如图4所示。

图4 压缩去词结果

2.3 短句过滤

有部分评论过短,比如“很好”“很棒”“赞”“不好”,这些过短的评论看似是对商品的好评或差评,但还有可能是消费者为了获取积分而给予的评论,是随意完成的,而删除之后保留的长句子能更好地完成对商品评论的情感分析。因此,需要对这样的短句子进行过滤,过滤后的结果中已经不显示较短的句子。

2.4 文本分词

文本分词是中文文本处理中的一个重要步骤,若分词效果好,可以清晰看出评论内容主要表达的含义;若分词效果不好,则严重影响对评论文本情感的分析。比如,“服务非常好”分词的一般结果应为“服务”“非常”和“好”,若分成“服”“务非”和“常好”则严重丢失了文本的情感含义。根据已有研究结果显示,jieba分词精度高达97%以上。采用jieba分词对本研究的评论数据进行处理,获得的正面词汇和负面词汇数据如表1所示。

表1 正面和负面评论数据分词结果

2.5 去除停用词

评价信息中也有很多出现次数很多但是没有明显意义的用词,例如语气助词等。 把停用词进行过滤去除,可以减少存储空间的占用,提升搜索速度,更能在一定程度上增加关键词密度,让优化的关键词更突出。

3 基于LDA模型的评论数据情感分析

3.1 LDA模型构建

通过挖掘评论数据,分析购买者的情感需求,即深入探究评论信息中包含的潜在主题。在模型里,可观测变量就是评论信息中的特征词。假如某个潜在主题又是其他评论信息中的主题,那么这个潜在主题很大程度上就可以认为是整体评论信息中的热门点。而在这个潜在主题中出现次数最多的特征词就可能是热门关注点中的评论词。分别统计正面和负面两种情绪倾向下的主题发生和分布的情况,对两种情绪和倾向下各主题的发生概率和发生次数进行由高到低的排序,根据分析的需要,在重点评论中选择一个最热门的话题作为热点,然后根据潜在话题和注意词的出现概率,得到相应的热门关注点。计算主题概率的LDA模型步骤如下[2-3]:

1)输入文档集,对文档集的各个子文档进行编号;

2)获取每篇文章的主题概率分布;

3)获取每篇文章下每个主题的生成词概率分布;

4)从文档集合中获取每个主题的编号映射表;

5)通过统计词频对参数进行评估,选取最大概率词作为主题词。

3.2 主题分析结果

将数据代入程序中,实现了对正面主题和负面主题的分析,结果如图5所示。

经过LDA模型主题分析,可以把评论数据归纳成4个主题,每个主题下分别生成10个出现可能性最高的词汇。

根据对电商产品正面评论的4个潜在主题的特征词进行提取,主题一中的高频特征词有专业、舒适、香型、口感,主要反映用户本身对某酒业酒味道的喜欢;主题二中的高频特征词有推荐、经典、值得、期待,主要反映客户主观上的喜欢;主题三和四中的高频特征词为值得、设计、纸箱、速度、包装,主要反映产品质量很好,外观漂亮,值得买,客户很满意。

根据对电商产品负面评论的4个潜在主题的特征词进行提取,主题一中的高频特征词有不能、打开、整箱、包装,主要反映商家对酒的包装防护不足;主题二中的高频特征词有后劲、质量、一般、郁闷,主要反映了酒的后劲有点大;主题三中的高频特征词有发货、塑料、防护、未敢,主要也是反映商家对酒包装防护的不足;主题四中的高频特征词有送货、下楼、发货、一般、郁闷、店家、降价,主要反映客户对商品价格不稳定、物流服务差的不满。

综合以上对主题及其中的高频特征词的分析可以看出,某酒业产品有以下几个优势:口感好,性价比高,外观颜值高,质量不错。相对而言,也有几个不足:对酒的包装防护不到位,酒的后劲大,价格不稳定,物流服务不好。

根据对电商平台产品的用户评价进行LDA主题模型分析,对电商平台提出以下建议:

1)在产品性价比高、颜值高、服务好的前提下,要保证口感不变,提高产品质量;

2)提升商品的包装防护,保持商品价格的稳定;

3)选择好的物流公司进行合作,提高物流服务态度。

互联网的发展带动了人们的在线消费能力,而部分特色农产品卖家则对商品的优点、卖点和不足不够清晰。为了发现市场中存在的问题和潜在的机遇,课题组构建了基于电商商品评论数据的情感分析文本挖掘模型,以帮助特色农产品销售卖家和电商平台做出合适的产品发展决策,为提高产品竞争力提供参考。首先,对评论数据进行了预处理,包含文本去重、机械压缩去词、短句过滤、文本分词、去除停用词5个步骤,获取到了用于主题分析的数据文档[4-5]。再根据分析结果,分别挖掘情感态度不同情况下的潜在主题,以此获取不同需求的消费者对线上消费产品的情感喜好度。分析结果显示,产品有以下几个优势:口感好,性价比高,外观颜值高。相对而言也有几个不足:对酒的包装防护不到位,产品后劲大,价格不稳定,物流服务不好。因此,商家仍需提高产品质量和服务,研发不同类型的产品,以满足不同消费者的购买需求。同时,物流公司需要有良好的服务态度,及时将产品送到顾客手中,提升和维护企业形象。另外,商家仍需要创新网络发展营销模式,发挥产品特色,不断使网络营销策略更加成熟,推动区域经济的发展。

猜你喜欢

特征词分词电商
电商助力“种得好”也“卖得火”
基于Simhash改进的文本去重算法
基于类信息的TF-IDF权重分析与改进①
分词在英语教学中的妙用
电商赢了,经济输了
一种面向财务文本分类的TF-IDF改进算法
结巴分词在词云中的应用
结巴分词在词云中的应用
加快农村电商全覆盖
农资电商逃得过地推吗?