评论文本词性对空气净化产品体验设计研究
2021-03-15金泽昕周祎德
金泽昕 周祎德
(昆明理工大学,云南昆明 650500)
网购环境所制造出的评论区使得在线口碑传播已成为消费者在选购时的重要信息来源。产品开发阶段把握目标人群,其中用户的定性定量研究是大多数调研方法的选择。
一、提取产品可优化点为目的构建模型
本文通过评论数据采集的目的来得到定量材料,评论数据采集根据需要分析的产品选择用户评论数据来源的网址,然后运用Python进行消费者评论的获取,其次采集评论的数据包含有产品名称、评论文本以及评论时间,提取后的信息为评论数据集。本次研究的评论数据来源为京东购物网以及亚马逊(美国)网,数据采集工具是Python,研究产品为2020年新冠疫情期间销售最多的家电产品空气净化器。
本文在对用户评论的采集和分析中,参考了文本特征值提取法以及文本情感分析,从而提出产品优化点的提取分析模型,见图1。
图1 产品优化点提取分析模型
在图1产品优化点提取分析模型中分为主要的五大板块,分别是评论数据的采集、评论文本的分离、文本的预处理、对文本处理后的词性分析以及整合产品缺陷进行优化。
1.评论数据的采集。对所需求的网站进行相关条件的筛选从而获得搜索量及销量靠前的产品作为目标产品,针对这些产品的评论进行选择性网络爬虫采集。
2.评论文本的分离。在文本预处理前需要对所采集的评论进行筛选,因为该模型目的是从用户视角寻找产品存在的缺陷,所以要重点保留分析差评中的文本内容,在spss中以所采集到评论好评等级为目标进行分类,其中定义三颗星及以上的为好评,反之三颗星及以下的定义为差评。
3.文本预处理。对文本进行名词、形容词等词性的采集,其中鉴于软件分词的条件限制性,可能会出现部分特殊文本需要单独提取文本词性,从而对产品的不足缺陷做出详细的等级划分。
4.对文本出处理后的词性分析。通过文本预处理得到的词性汇集,本文借鉴于TF-IDF的思想采用TF词频进行词性统计排序,从而关注到评论中文本出现的次数越多用户的关注点也是突出的。
5.整合产品缺陷进行优化。基于以上板块的整理,本文认为评论中用户的关注度和用户情感,即产品特征词性的频率和文本内容,对可以衡量和发现产品及产品周边现存在的问题程度,方便帮助设计师及产品市场的决策者进行更好地优化。
在上述模型中,评论文本的词性分析和词频的排列是寻找产品优化点的核心。因此本文选择从用户评论中抓取用户情感做以量化,用户对词性里某项的词频出现率越高就说明该指标可能是用户更具关注的点,反之词频过低或者赞同率也很低可能说明该评论为恶意评论或者产品偶然事件,不具有本文研究的讨论价值。
二、用户评论的定量采集分析
1.对有效实验数据抓取
本次研究的用户评论采集来源于京东购物网以及亚马逊(美国)购物网。根据2020年新冠疫情期间的销量和搜索量进行排名,数据排名首位的电子产品是空气净化器,因此选择空气净化器进行销量排名,得到产品包括小米空气净化器2S、飞利浦空气净化器AC4076/18、戴森空气净化器T05、米家新风机、华为空气净化器EP500、布鲁雅尔303+净化器、352 X83C净化器、IAM 780F净化器、美的空气净化器、IQ250净化器以上共10款空气净化器产品,并进行抓取评论文本相关信息。截至2020年8月共采集到有效评论文本6653条,其中经过定义的好评有4829条,定义过的差评有1834条,以上将作为本文研究的实验量化有效数据。
2.文本词性分离
在得到的上述的6653条有效评论文本中,首先利用Python对数据文本进行读取以方便进行之后的词性区分。在文本处理中先除去本次研究无用词。在数据文本中针对本次研究需求不需要停词以及标点符号,所有还需要分离这些边缘元素并把剩余元素连接起来形成一句话。针对词性进行定义如“名词”为“n”,“形容词”为“a”等,在以上的步骤基础上进行词性的采集以及词性的词频统计。(图2)
图2 词性分析
在评论文本的词性采集的基础上主要统计了名词和形容词以及动词的词频,见表1。由于算法针对部分文本词性分析会有失误或识别不出,一小部分的文本经过人工筛选。
表1 针对好评及差评的词性词频提取
3.运用软件分析文本指标
在差评领域的名词及形容词、动词之间利用spss软件进行词频排列挑选前五十的文本,再进行人工排除近义词以及无用词,最终得到9个指标文本,分别是客服售后、异味、营销、噪音、外观造型、性价比、风扇、活性炭、材料耗材。
通过上述的统计结果可以直观看出9个产品问题指标在10个品牌机型里的表现,但由于每个产品的销量、评论数以及差评数是不同的,所以还需要取得每个产品在不同指标的平均数经过同比例运算进行产品间的对比(见表3),从而发现每个产品所存在的问题以及产品间所拥有的联系,最终结合spss平均值运算以及9个指标和10个产品型号进行了可视化对比,见图3。
表2 九个指标在各品牌中的词频比例
从可视化图表中可以看到每个产品在不同指标中的反馈,指标指数越高说明该产品方向可能存在更大的问题。对于小米空气净化器的反馈来看可以明显发现产品质量上是相对稳定反应较少的,而售后和营销是用户不满度最大的,这也就意味着小米在这方面如果想降低产品或者让产品更完善的得到好评,就需要产品决策者从品牌策略入手,针对售后管理和营销策划进行适当的调整。飞利浦品牌的产品在性价比上遭受到很多不满的评论,因此也连锁到耗材指标里也得到了大量的不满,再下代产品需要调整的也应该当考虑到注重产品材质的选择搭配,以防止可能材料的高成本带来的整体价格溢出的现象。戴森的整体产品反应相对不错,但在噪音指标的评论数是对比品牌中最高的,缘由可能是该产品因为是环形风口,所以出风面积较窄,而该产品还有一个大功率模式因而会造成比较大的噪音。华为净化器从对比图来看反馈是相对稳定的,耗材指标略高于其他指标,也是说明在产品研发时要注意材料的选择,具体文本反应多为材料太轻薄塑料感太强。布鲁雅尔作为瑞典品牌在产品性能上有着出色的过滤效果,但其外观因很庞大也遭受到一些用户因不便带来的不满。美的有着自身强大且稳定的空气系统研发,所以在产品效果看是不容置疑的,但在价格的反馈上不少用户还是带来了质疑,产品决策者也需要在品牌策略上做出调整以适应新的用户环境。
图3 产品在文本指标中的词频对比图
三、结论
本文研究针对如2020疫情期间的特殊时期线上产品调研,依靠网络用户评论的定量采集进行定性分析,以方便在该阶段产品经理以及产品相关决策者对市场的把控,同时发现目前产品线的问题以及同行业竞品之间的问题联系。因此本文基于文本特征提取法以及Spss和Python工具构建了产品优化点提取分析模型进行试验,其中模型包括评论数据的采集、评论文本的分离、文本的预处理、对文本处理后的词性分析以及整合产品缺陷进行优化五大模块,在实验中得到的词性以及词频分析与实际体验情况基本相符,模型具有一定的可行有效性。