基于商品评论文本的情感分析研究
2018-07-12陶莉娜李超萍李健高荣
陶莉娜 李超萍 李健 高荣
摘 要:随着互联网络科技的迅速发展,越来越多的用户开始网上购物,网络中的商品评论数据也随之增加。如何在大量的评论数据中提取有用的信息,使数据价值最大化是值得重视的问题。本文针对京东网站商品的评论数据进行了情感分析,从中提取有用的信息,帮助商家了解消费者的需求,发现商品的不足之处,并制定改进方案,以提高商品的竞争力。
关键词:数据挖掘;商品评论;情感分析
中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2018)04-0019-03
Abstract:With the rapid development of internet technology,more and more users have begun to shop online,and the product review data on the internet has also increased. However,how to extract useful information from a large amount of review data and maximize the value of data is a problem worthy of attention. This article analyzes the sentiment data of JD.com website products,provides useful information to help businesses understand the needs of consumers,discovers the inadequacies of products,and formulates improvement programs to improve the competitiveness of products.
Keywords:data mining;commodity reviews;sentiment analysis
1 主要技术实现
1.1 网络爬虫
網络的迅速发展使互联网成为大量信息的载体,有效地提取并利用这些信息对我们来说是一个很大的挑战。为了快速的提取有用信息,我们采取网络爬虫技术,它的好处是获取成本小,可以将网页上的内容按照一定的格式规范进行有针对性地获取。
1.2 基于文本情感分析
文本的情感分析是指利用计算机语言、自然语言处理和文本挖掘来辨别文本主观情感信息的一种手段。一般来说,情感分析是对说话者当时的言语评论或建议的一个情感状况辨析。其研究内容包括非结构化文本的分词、情感倾向性分类和情感强度等,它涉及到自然语言处理、文本分词、机器学习等多个研究领域。本文的研究重点是对商品评论文本所表达的正向或负向情感进行分类[1]。
根据情感分析可明显发现商品的某些不足之处,对应地采取有效措施提高商品质量,比如采集的榨汁机评论信息,从多数评论中可以看出,用户对榨汁机的噪音大表现出不满意,那么产品的生产厂家可做出针对性地改进,以赢得更多客户的信赖,提高商家形象,可更好地维护与客户之间的关系[2]。
1.3 评论挖掘算法
Apriori算法能够快速处理数据,并能进行商品价格对用户行为等的预测。Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
它是Agrawal[3]等设计的一个基本算法,采用两阶段的思想,并且基于多次扫描事务库来执行。我们运用的是Apriori算法的改良版,即FP Tree算法。FP Tree算法改进了Apriori算法的I/O瓶颈,巧妙地利用了树结构,提高了算法运行速度。
2 基于京东网站评论的情感分析
2.1 数据准备
利用Python语言编写的数据抓取程序具有高效率的特点,此次研究使用python语言编写程序,爬取京东每类排名前六的商品的评论,保存进数据库作为数据原料库。
其中用到Python的一个库Beautiful Soup,它在用户爬取网页信息的时候具有高效的网页解析效率,能快速从网页中抓取数据,同时使用多线程来处理网络请求,加快数据的爬取速度,这样的开发方式的优点是不但使数据采集系统在大数据量传输时的速度有明显提高,而且该系统的性能也得到了显著的提升[4]。本系统数据爬取流程图如图1所示。
图1 数据采集流程
2.2 数据的采集过程
数据采集过程主要利用网络爬虫技术。使用Python语言来实现数据采集,在爬虫中使用相应的库,如request、re、bs4等。数据采集过程为通过获取目标网页链接,再利用XPath和CSS Selector匹配相应标签,从而获取相应的评论信息。但由于数据的庞大,单线程模式无法满足所需的爬取速度,所以采取多线程模式来爬取商品评论信息,提高爬虫的整体运行效率。
利用数据采集程序爬取京东某品牌榨汁机商品的部分评论信息样例如表1所示。
2.3 数据预处理
2.3.1 规范数据
以京东获取的商品评论作为数据分析库。但评论信息的随意性很容易造成数据的噪音。比如现在的网络用语、错别字、词不对意等。这些噪音很容易给情感分析造成一定的影响。所以对商品的评论信息做预处理十分重要。预处理要把一些错意句、网络用语和错别字等用规范的语言修改,最终得到语法与表达规范的评论。网络用语通过在自定义字典的添加,可以在分词时分析出情感值。
数据处理中采用结巴分析算法,主要原因是它处理速度快,分词准确,并带有新词发现功能。结巴分词中提供的词性(part-of-speech)是词汇基本的语法范畴,主要用来描述一个词在上下文的作用。然后利用Aprior算法,计算商品的属性值。该算法应用广泛,可用于分析消费市场商品的价格,得出商品的情感值等数据,如表2所示,表中数据为不同品牌的榨汁机、热水器商品的属性值。
2.3.2 計算情感值
根据运行的结果可以得到三方面的信息:首先我们可以根据情感值来了解用户对商品的喜爱程度;其次,可根据情感值的平均值来推测出该商品的总评价趋向;最后,可根据情感值的大小绘制每类特征的情感的波动情况。根据情感值的正负,我们将评价粗略地分成正面评价、中性评价和负面评价。从结果集里选出感情值较为平稳的,看出对该商品的喜爱程度达到70%-80%,可根据其情感区间为负数的商品的不足进行改进。比如,该商品是榨汁机,负面评论大多数为“噪音大”,商家据此改进榨汁机的噪音,改进不足。通过数据分析,得出商品的情感值,图2为针对某品牌榨汁机噪音小的情感值分布。
3 结 论
本文以京东网为例,研究了如何对产品评论进行情感分析,并阐述了结果对实际的指导意义。本文对评论信息的抽样数据进行的情感分析结果显示,以“榨汁机”为例,该款榨汁机噪音大等特征方面的情感值的负面情绪较为明显,说明消费者对于这部分的评价总体来看是不满意的,生产者需要对此引起足够的重视,对产品的不足之处进行改进,以满足客户的需求,留住这些表现为负面情绪的用户,从而提升企业竞争力。在竞争激烈的当前社会,企业的响应速度往往决定了企业的未来,根据产品评论信息对商品做出及时反馈的速度大大高于传统的人工方式,也比较准确。本文使用的方式将会得到广泛的应用。
参考文献:
[1] 张卫.互联网商品评论情感分析研究 [D].重庆:重庆大学,2016.
[2] 马妍.商品评论情感分析系统的设计与实现 [D].北京:北京交通大学,2015.
[3] Agrawal R,Srikant R. Fast algorithms for mining association rules [A]. In:Proceedings of the 20th International Conference Very Large Data Base,Santiago,Chile,1994:487-499.
[4] 李弈星.多线程技术的优势及其在测控系统中的应用 [J].技术与市场,2016,23(11):92.
作者简介:陶莉娜(1997.04-),女,广西桂林人,本科。研究方向:数据采集与分析;李超萍(1997.06-),女,广西来宾人,本科。研究方向:数据采集与分析;李健(1998.05-),男,广西柳州人,本科。研究方向:数据采集与分析;通讯作者:高荣(1979.02-),男,山东潍坊人,讲师。研究方向:数据挖掘。