基于R语言的线上家居用品网购评论文本挖掘
——以亚马逊为例
2018-11-22南京林业大学210037
(南京林业大学 210037)
一、用户评论获取
第一步,用户评论获取。要分析网购用户评论,首先要在网页中获取用户评论。现阶段国内许多在线购物网站都防止爬虫,同时也做了很多反爬虫工作,而R语言在爬虫这点并不是很有力的工具,但是亚马逊的网页评论可以用R语言获取。在获取评论的过程中,需要注意有两点:(1)如何获取网购用户的ID;(2)怎样在网页的编码中获取网购用户评论的精确定位。选择的对象是近三年内国人购买相对较多的某品牌保温罐,分析的只针对一种商品,所以只需要考虑具体的用户评论结果。
二、词库构建与分词处理
1.词库构建与文本降噪
在得到评论文件后首先对评论进行第一步预处理。逐条检查进行错别字检查,以方便之后进行的操作。
在对评论文本进行了整理后,我们发现分词结果对评论的解释度并不够高,例如“后来发现右上角有一个坑”被分成了“后来”、“发现”、“右上角”、“有”、“一个”、“坑” ;若用此分词结果,进行分析后会遗失很多关键的信息。所以需要先进行词库建立,利用词库对信息筛选。
在词库构建过程中首先需要对评论进行分析,观察用户评论中对产品的需求或对商家的服务、物流等提出的意见或建议。词库的建立利用了短句的方式。首先对评论语句进行解读,对其中的信息进行筛选,找到差评中的关键信息如“包装太差”、“质量不好”、“物流缓慢”、“态度恶劣”等,并且对文本中的长句变为短句,联系上下文中的含义,其次对不必要的语气词,叹词等在断句中进行剔除,获得更为纯净的文本语句。依照此思路对好评与差评分别建立词库。
在词库的建立的过程中,需要尽可能的筛选出有用信息,因为本次研究所用的评论较少,所以使用的方法为逐条筛选;如果使用大批量的评论则需要使用构建语料库,建立测试集等方法来进行评论分词与筛选。在利用词库后对文本进行分词后得到的结果比之前理想很多。
得到分词结果后,需要对分词进行进一步处理。在此过程中我们进行了以下步骤。
2.分词结果预处理
在获得比较理想的分词结果后,还需要在之后进行下一步处理之前需要对文本进行一些其他的处理。第一,降低词频处理。主要是保留词条长度大于2的词条。第二,符号、空格去除。
3.词频权重处理
TF-IDF(term frequency-inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。在R语言“jiebaR”函数中可以提取出文本中的关键词及其在评论文本中所占的权重。将好评与差评中分别提取5个关键词并获得权重,得到结果如表2.3.1所示。词频权重分析会在之后的结果分析部分占大部分作用。
差评中词频及权重包装 杯子 保温 买 亚马逊210.105 125.274 121.508 117.392 116.253好评中词频及权重保温 效果 不错 亚马逊 包装626.236 364.551 297.035 232.506 225.112
三、实验结果分析
1.词云分析
"词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
在好评词云中(图3.1.1),我们可以看到“保温效果很好”、“保温效果好”、“等积极词汇占了大多数,剩下的则有“made”、“China”、“包装简单”等词汇,“包装简单”说明有部分购买者在购买后对包装存在不满;“made”、“China”则说明了购买者对从美国亚马逊进行海外购够得的产品产品还是本国产不满,存有购买后的心理落差。因此在好评中还有意见,好评中可能还是会有商品意见与对商家提出的建议,可能会有隐藏信息,需要进行进一步分析。
图3.1.1 好评词云
在差评词云中(图3.1.2),我们看到“保温效果好”竟然也会出现,可以进一步说明商品的质量在保温效果这一块是比较优秀的,同时也说明了差评中也存在正向词汇;“保温杯”“很失望”“发邮件”等词汇则说明了差评中购买者的主要态度,“发邮件”说明亚马逊在与客户沟通的时候的不便。
2.词频权重分析
词频权重在表2.3.1中已经给出。如图3.2.1所示的差评的直方图显示(左),关键词包装占了最大部分权重,剩下的四个关键词所占权重基本一致,由此可知差评的点主要集中在包装上。其余关键词的权重差别不大。
图3.1.2 差评词云
在得出的差评的分词文件中查找关键词的词条数,差评分词文件词条共计344条,我们由包装开始找出差评主体的问题。在35条包装评论中,只有一条提到包装不错,剩余的都在说包装简陋,简单等。在15条杯子评论中,提到杯子有损坏、产地,杯子有或多或少的问题。在保温这项则是对杯子保温效果的评论居多,值得一提的是,很多人买这款产品作为焖烧杯使用,而非作为保温杯使用,在试用过认为保温效果不好时将其作为保温杯使用,只有一条评论对保温效果提出了肯定。
好评词条分词权重如。好评词条总计1012条。同上述差评分析过程中发现在高权重位的“保温”和“效果”两个关键词的词条中出现重复的概览很高,通过R进行权重比对后,发现绝大多数用户肯定保温效果。在关键词“不错”中,大多数用户认为保温效果不错,剩余用户对购买体验与产品质量表示肯定。关键词“亚马逊”用户都认为亚马逊值得信赖,对亚马逊的购物体验表示很好。关键词“包装”中,半数购买者认为包装不错,半数购买者则认为包装过于简单。
结合词语分析与权重分析两种,我们可以得知,很大部分用户对产品的保温效果给予肯定,在词云和权重中都出现了保温效果好的词条;否定保温效果用户可以由商家跟踪服务调查,找出保温效果降低的原因。对于商家的包装,绝大多数的用户给予了否定,即使在好评中也出现了很多不满意包装的用户,主要存在于杯子包装质量不好在运输过程中造成了不同程度损伤。一个关键词出现在好评与差评中是具有交叉性质的,在好评中有可能否定,而在差评中却是肯定。因此,需要结合好评与差评中的同一个关键词对文本进行分析。
四、结语
本文通过对亚马逊上一件产品的评论进行了文本挖掘,筛选有效信息,获得了用户对一件商品评价的分析。通过对文本进行分词处理,建立了适用于本产品的评论词库,为的是将单体产品的评论中的信息解释度提高,完整上下文,不是只局限于对词频分析。单一的词频分析有时并不能作为文本挖掘的主要结果,有时候会受到文本噪点的影响而忽略部分有效信息。词频分析与权重分析相结合可以得出较为准确的结果。因为本次分析的用户评论量较少,所以使用了人工校准与建立词库,所得的结果相对比较准确,在使用手动建立词库的时候也可以在分词过程中省略去停词的过程,因为商品的好评与差评形成了鲜明的对比,用户评论在情感分析方面具有一定的先天优势。因此,两种方法结合进行分析可以让分析结果更为鲜明与准确,也能让设计师、企业看到自身的优点,同时完善自己缺点。