APP下载

一种基于客户评论的产品特征提取方法

2016-06-30涂顺林刘利李卫华赵义霞

电脑知识与技术 2016年14期
关键词:特征提取

涂顺林+刘利++李卫华++赵义霞

摘要:基于中文特点,提出一种融合词性标注和统计的产品特征提取方法。该方法利用模式匹配对候选特征词进行裁剪并通过无关词库过滤得到产品特征集。对该方法进行实验验证,实验的数据为通过爬虫技术获得的某天猫服装店服装商品的真实评论信息,实验结果表明了该方法的有效性。

关键词:产品评论;产品特征;特征提取;评论挖掘

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)14-0159-03

A Product Feature Extraction Method Based on Customer Comments

TU Shun-lin, LIU Li, LI Wei-hua, ZHAO Yi-xia

(Department of Computer Science, Huizhou University, Huizhou 516007, China)

Abstract:The paper combine with the characteristics of Chinese proposed an approach to obtain product features set.Part-of-speech tagging and statistics are used to get the candidate product features set,then use pattern matching to tailors the candidate product features set and filtered it according to the stop words library.Finally the product features set are obtained. The proposed method was tested with the real clothing reviews which were obtained by scrawler technology from Internet and the results show that the validity of the method is proved preliminarily.

Key words: product reviews;product features ; features extracting;review mining

1 概述

电商的蓬勃发展与规模的迅速壮大,越来越多的人选择网购的同时也导致越来越多产品评论的积累。Web上的评论信息是海量的无结构化数据,企业和客户想要从产品中获得信息只有通过人工阅读的方式进行,而这是一个消耗时间而且容易产生错误的过程[1]。如此处理并没有很好地利用这些数据,既不能及时有效地反馈客户对商品的态度,更难以为企业高层的决策提供辅助,由此“评论挖掘”应运而生。评论挖掘作为非结构化信息挖掘的一个新兴领域,主要涉及网络评论中的情感分析、产品特征提取以及主观内容识别等[2]。与国外比,汉语评论挖掘方法和技术的研究起步较晚,而文化的差异、语言表达方式、词汇语法等差异也注定很多国外的研究成果无法直接应用到中文评论处理上。因此,结合相关文献与研究,本文提出一种简单自动提取出客户评论中的产品特征的方法,实验证明该方法行之有效,可为企业建立评论挖掘系统提供参考。

2 客户评论中的产品特征

产品特征指的是客户、企业、厂方等对产品本身、产品部件、部件的性能或功能上的抽象概括。一般来说,生产商对于产品都会提供一份描述产品各方面功能和性能的说明文件。对于服装产品来说,这份说明除了包括品牌、风格、上市年份、材质等服装的基本属性外,还包括更多的技术细节,但是这些细节客户往往都不太感兴趣。此外,客户评论中对于产品特征的描述是一个开放性的问题,客户可能在产品评论中发表一些企业或厂商根本就没注意到的一些产品特征,而这些特征正影响着广大消费者的购买决策。正因如此,需要从产品评论中提取客户评论中的产品特征[3]。

产品的特征分为显式特征和隐式特征两种[4]。显式特征是直接出现在产品评论中描述产品的性能或功能的名词或名词短语。比如说“好喜欢,尺码挺准,挺合身的”,这里尺码是显式特征。而隐式特征就需要对句子的语义进行理解才能提取出来,并没有在语句中有直接的描述。如“从广州到佛山给我送了5天我就呵呵了”,其实这里指出了产品物流的这个隐式特征。抽取隐式特征需要自然语言的分析和理解技术,但是目前该技术尚不成熟,所以这里所说的产品特征提取是指显式特征的提取。

3 产品显式特征的提取

3.1 人工定义和自动提取

显式产品特征的提取分人工定义和自动提取两类方法。

采用人工定义的方法就是从某特定领域的产品评论库中以人工的方式抽取出产品特征。当产品类型不同或者产品发生改变时,都需要重新构建产品特征集合。这种方法的可移植性、自适应性都比较差,查全率较低。

采用自动提取的方法主要依靠词性标注、句法分析等方法配合其他的提取技术实现。比如利用NLP分词及词性标注技术对客户评论进行解析,从中提取名词或名词短语来作为候选特征词。此方法的优点是处理速度快,但是只依赖词性的提取精确度不高。另外有学者提出基于关联规则挖掘频繁项集并用支持度进行裁剪的方法提取特征词,使用这种方法能提取到高频特征词但对低频特征词提取效果不好[5]。文献[6]提出一种利用互信息(PMI)的特征提取方法。该方法首先提取出频率高于某一阈值的名词或名词短语来作为候选特征词,然后利用搜索引擎计算出候选特征词与产品的互信息,依此确定特征词与该产品的相关性。但是由于是基于搜索引擎的方法,所以在处理的速度上会比其他方法慢许多。

3.2 产品特征提取方法

本文依据中文特点融合多种产品特征提取方法,提出一种简单有效的产品特征提取方法。该方法通过词性标注和统计抽取产品特征候选集,再利用模式匹配对产品特征候选集进行裁剪,最后构建无关词库对产品特征候选集进行过滤,得到产品特征。提取过程如图1所示。

该方法的具体步骤如下:

(1)利用爬虫程序下载服装商品评论。

本文实验数据采用某品牌天猫服装的评论信息,因此需要设计出合适的爬虫程序。网络爬虫是一种自动提取网页的程序,提取的数据是半结构化的HTML结构。

(2)过滤无价值的评论信息并形成商品评论库。

爬虫下载的源文档HTML结构中包含大量的与商品评论无关的内容。如HTML文档的头部和尾部信息、外部资源的链接、客户端脚本程序的定义、文档样式定义等内容,这些内容均属于无价值的内容。另外,由于客户对商品的评论是开放性的,有部分客户会借此做出恶意的推广或误导评论。包含各种联系方式(电话号码、QQ号等)和外部链接的评论基本都属于无价值的恶意评论。

(3)利用中文分词和词性标注工具处理评论库。

通过过滤处理的评论数据组成评论库,评论以句为单位通过分词工具的处理,同时统计计算出词语或短语出现的频率。定义候选词库的数据结构为{A,B,C,D},其中A为词语或短语,B为词性,C为出现频数,D为该词在该句评论中的出现语法模式。如:评论“感觉衣服尺码偏大”,若“尺码”在库中出现10次,则提取结果为{"尺码","/n",10,"/n/n/尺码/a/a"},最后形成由词语和词性标注的有序排列。

(4)抽取候选特征词。

由于产品特征值主要由名词或者名词短语组成,所以本文关注词性标注为名词或名词短语的分词结果并将其抽取为候选特征词集合。每一款服装商品的所有评论都形成各自的候选特征词集。

(5)通过半自动的方法建立停用词库。

为了节省空间、提高提取效率和准确率,需要过滤某些词,这些词称为“停用词”。这些词往往出现频率较高,但却不是产品特征,有的甚至没有什么含义。例如:“给表妹买的,很合身”这样的句式在评论中是很常见的。其中“表妹”一类的人称代词出现的频率较高,而一般的基于概率统计思想的算法往往会将其认为是“高频特征”而错误提取。因此,使用停用词库进行过滤就能较好地解决这一类问题。首先获取其他类型商品的评论信息,按上述方法抽取出这些商品的特征词,最后取这些特征词的交集构建停用词库。但是因为有的特征词如上市时间,物流,外观等属于通用特征词所以需人工挑选出来。

(6)裁剪候选特征词。

通过统计和模式匹配对候选特征词进行裁剪。利用统计的方法选取高频特征词,并在这些已经选取的高频特征词中前后寻找语法模式。然后调整统计的阈值并用语法模式的匹配裁剪以提取低频的特征词。最后通过停用词库过滤得出最终的产品特征词集。

4 数据实验

4.1 特征词集合

由高频特征词以及符合匹配模式的名词组成,最后通过无关词库的过滤的出特征词集合。采用某品牌天猫店中的1132款服装的商品信息和对应的17039条有效评论通过本文方法获取商品特征如下:

其中特征词旁的标号为该词在评论语句中出现的频数,没有标号的词通过匹配模式提取。

4.2 验证与评价

对产品特征提取方法的性能判断,可用查全率和查准率进行评价。产品属性的提取相当于对属性词语的二维分类,即真实属性还是非真实属性、已提取属性和未提取属性的分类。采用列联表(表2)说明如下:

查全率(R)=A/(A+B);

查准率(P)=A/(A+C);

利用人工识别的方法,可做查全率和查准率的计算,并说明上述方法的准确性[7]。以一款男装和一款女装为例,统计结果如下:

某款夏季男装(id:3953xxx0863)

相对于其他产品特征挖掘方法,本文所提出的方法与其他方法的结果比较如表5所示。以上述两款服装为例,算得查全率和查准率的平均值分别为66.19和85.25。

通过比较,表明本文方法对于商品评论中的特征提取有着较高的查准率,但是明显的查全率偏低,基本保持在66%左右。这主要是由于低频特征词的获取是由匹配模式决定的,个别的产品特征出现频数较少以及网络评论句式的自由化、多样化都给匹配模式的准确构建提出了更高的要求。随着匹配模式的进一步研究与改进,相信将会取得更好的效果,同时这也是本文今后的研究方向。总之,从实验结果来看基于词性标注和统计并利用模式匹配对候选特征词进行裁剪的产品特征提取方法还是比较有效的。

5 总结

产品特征不仅是影响客户做出商品购买决策的重要因素,也是企业为提高产品和服务质量、提高收益的关键。而产品特征提取是产品评论挖掘的重要方面,更直接影响到评论挖掘系统的性能。本文提出的方法能够有效地从商品评论库中提取出商品特征值,并以真实评论数据为实验,表明了该方法的有效性,可为企业构建评论挖掘系统作参考。

参考文献:

[1] 伍星,何中市,黄永文.产品评论挖掘研究综述[J].计算机工程与应用,2008,4(36):37-40.

[2] 李实,叶强,李一军,罗嗣卿.挖掘中文网络客户评论的产品特征及情感倾向[J].计算机应用研究,2010,27(8):3016-3019

[3] 郗亚辉, 张明, 袁方,等. 产品评论挖掘研究综述[J]. 山东大学学报:理学版, 2011, 46(5):16-23.

[4] 王永, 张勤, 杨晓洁. 中文网络评论中产品特征提取方法研究[J]. 现代图书情报技术, 2013(12):70-73.

[5] 李培. 产品评论挖掘的观点抽取和分类技术研究[D]. 重庆大学, 2009.

[6] 桑书娟,王敏.一种结合文档频率和互信息的特征项提取方法[J].电脑知识与技术, 2012, 08(11):2593-2594

[7] 翟东升,徐颖,黄鲁成,赵京.基于产品评论挖掘的竞争产品优势分析[J].情报杂志,2013,32(2): 45-51.

猜你喜欢

特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
一种基于LBP 特征提取和稀疏表示的肝病识别算法
基于DSP的直线特征提取算法
基于改进WLD的纹理特征提取方法
噪声环境下滚动轴承故障特征提取
浅析零件图像的特征提取和识别方法
基于CATIA的橡皮囊成形零件的特征提取
基于MED和循环域解调的多故障特征提取