产品评论挖掘可视化实验平台的开发
2012-12-09李爱清何烁郗亚辉
李爱清,何烁,郗亚辉
(河北大学数学与计算机学院,河北保定 071002)
产品评论挖掘可视化实验平台的开发
李爱清,何烁,郗亚辉
(河北大学数学与计算机学院,河北保定 071002)
针对目前研究人员已经提出多种中文评论挖掘方法,缺乏统一的评论实验数据集的现状,首先从知名网站上随机抽取手机评论,经过垃圾去除、手工标注,最终构造出手机领域的评论挖掘实验数据集.基于实验数据集构造出手机领域的情感词库,并利用模式匹配方法建立了产品特征粒度树,开发出一个可视化平台,研究人员可以直接用其检验挖掘方法的效果,也可以对不同的挖掘方法进行客观比较.
评论挖掘;实验数据集;情感词库;特征粒度树;可视化
随着互联网的快速发展,网上购物已成为一种常见的购物方式.消费者在购物的同时也会在网上给出对产品的评论.这些评论对商家以及消费者都有很好的参考作用,产品评论挖掘已经受到越来越多的关注.但是,目前还没有标准的中文评论实验数据集.研究者在检验挖掘方法的效果时,需要从相关网站上收集评论,自行构建实验数据集.这一方面增加了研究人员的工作量,另一方面,由于各自采用的实验数据集不同,难以客观评价各种挖掘方法.针对这一情况,开发了一个手机领域的评论挖掘可视化实验平台.该平台由实验数据集、情感词库、特征粒度树和挖掘效果的可视化显示4部分组成.研究人员可以直接用其进行实验,检验挖掘方法的效果,也可以对不同的挖掘方法进行比较.
1 数据集的获取
为方便研究人员使用,本平台提供了2类数据集:实验数据集和标准数据集.实验数据集由网上抓取的原始评论组成,供研究人员进行实验.标准数据集为标注完成的数据集,用来作为评判研究人员挖掘算法优劣的依据.
为保证原始评论的数量和质量,选取了京东、中关村在线、IT168和亚马逊4家比较知名的电子商务网站,作为评论的来源.将评论按型号分类,兼顾评论的数量和抽取的随机性,最终筛选出4种型号手机的评论,并将评论中与产品特征和用户观点挖掘无关的评论删除.至此得到实验数据集.
对实验数据集进行人工标注,得到标准数据集.由于产品评论挖掘针对的是评论中的产品特征词和表达用户态度的情感词,因此这2部分内容为标注的重点.产品特征细分为总体特征和部件特征2部分.按照表达用户态度的明显程度划分,情感词可分为显性和隐性2类;而按照其情感倾向分类,又可分为正面和负面情感词2类.为进行区分,本平台采用不同的符号完成标注.
2 情感词库
情感词就是表达用户对产品好恶态度的词汇,例如“喜欢”、“讨厌”等.产品评论挖掘正是要抽取这类词汇,进行态度判断后,将结果呈现给商家或者其他消费者.将这部分词总结、归纳,并进行极性标注,建立出手机领域的情感词库,以方便研究人员对评论表达的情感做出更加准确的判断.
中文评论中,主要有4类词对判断用户情感色彩有重要作用,分别是:名词、形容词、动词和副词[1].标准数据集中已经准确、完整地标记出这些词,这就为情感词库的建立提供了基础.
2.1 词库结构
为提高词库的查询准确率和实用性,将其划分为基本极性词库、领域极性词库、网络极性词库、否定词及双重否定词库和程度级别词库5部分.词库结构如图1所示.
图1 情感词库结构Fig.1 Structure of emotional lexicon
2.1.1 基本极性词库
这部分词库主要包含日常生活中使用频率较高的词,可以将它们分为静态基本词库和动态基本词库2部分.例如:“大方”、“美观”一类的词语,任何情况下都是对产品的正面评价,极性固定,与修饰的特征词无关,将这类词归为静态基本词库中.反之,有些情感词的极性会随着它修饰的特征词发生变化.例如“电池容量很大,不需要经常充电”和“手机体积有些大,携带不方便”中的情感词“大”,很明显它表达的态度是完全相反的.这类词的极性具有动态变化的特点,称为动态极性词[2].它的极性判断是一个比较难解决的问题.但具体到某个特定的领域,这类词的数量还是有限的,因此可以将它们一一列举出来.参考李培[3]建立词典的模式,完成动态基本词库的构建.
需要说明的是,动态基本词的极性需要结合其修饰的特征词进行判断.如果其修饰的特征词没有在对应的特征词表中,那么情感词的极性则为默认值.
2.1.2 领域极性词库
该词库由手机领域专属极性词库和领域固定极性词库2部分组成.评论中有一部分情感词是手机领域特有的,例如“死机”、“掉漆”等,将这些词划归到专属极性词库中.还存在一类在手机领域中的极性与常用的默认极性不一致的情感词,例如:“飘”本身为中性词,但在关于手机的评论“耳机声音有点飘”中,“飘”就变为负极性词.将这类特殊的极性词总结,组成领域固定极性词库.
2.1.3 网络极性词库
越来越多的新兴词汇出现在网络上,例如“弓虽”、“顶”等.将其中具有正负极性观点的网络词进行总结,最终添加到网络极性词库中.
2.1.4 否定及双重否定词库
对特征观点极性的识别并不仅仅是由对应的情感词决定的,还要看这个情感词是否有否定词修饰.否定词会使其修饰的情感词极性发生逆转.情感词如果由双重否定词修饰,那极性就维持原来不变.这2类词对情感极性影响很大,在判断时必须加以考虑.
2.1.5 程度级别词库
评论中情感词的修饰成分除否定词外,还有程度副词.这类词对整条评论的极性判断有一定的影响.例如“按键稍微有些小,但使用起来还是非常舒服的”,“小”是对按键的负面评价,强烈程度仅是“稍微”,而“舒服”为正面评价,程度则为“非常”,很显然对按键的整体评价是正面的.该词库将程度副词根据其表达的强烈程度不同,共分为3个等级,如“非常”、“很”、“特别”一类的词定义为+2级,“比较”、“略微”之类的词稍弱一些,定义为+1.5级,“还”、“勉强”一类的词定义为+0.5级.没有程度词修饰的情感词,默认程度词级别为1.
2.2 词库构建方法
2.2.1 极性词库构建
情感词自身也带有一定的强烈程度,例如“满意”和“凑合”,虽然都是对产品的正面评价,但“满意”的情感程度要明显高于“凑合”.把情感词按强烈程度分为5类:+2,+1,0,-1,-2,正数代表对产品的正面评价,负数代表对产品的负面评价,0代表中性评价.绝对值越大表示情感程度越强烈[2].
从已标注好的1 000条评论入手,抽取出极性标签中的情感极性词,依照词义将它们分为基本极性词、领域极性词、网络极性词、否定及双重否定词5类,并标明其情感程度.其中,如果某一情感词标有正、负2种极性,则说明它的极性是动态变化的,此时将该词与其修饰的特征词一并抽取出来,添加到动态基本词库中.划分完成后,就构建出最初的词库.
此时词库中的情感词全部来自原始评论,倾向于口语化,且包含的情感词不完整.为尽可能地保证词库的完整性,在构建过程中又参考了涵盖词汇语义信息较为全面的《知网》[4]词库.将其中的“正面情感词语”、“负面情感词语”、“正面评价词语”和“负面评价词语”进行筛选,保留其中情感极性明显且适用于手机领域的词语.将这些词语与之前标注出的词语合并、去重,得到最终的情感词库.
2.2.2 程度级别词库构建
同样从已标注好的1 000条评论入手,抽取出程度标签中的程度词,与《知网》[4]词库中的“程度级别词语”合并、去重、标记程度级别,得到最终的程度级别词库.
3 特征粒度树
用户在对手机的同一特征进行评论时往往侧重点不同.例如,同样是对屏幕的评论,有人关注屏幕的大小,而有人关注屏幕的分辨率.为了规范化产品特征,更准确地检验出挖掘算法的效果,需对手机特征进行归类.本文就将“屏幕大小”和“屏幕分辨率”定义为“屏幕”这一特征的子类,将所有类集中起来就形成了一棵特征粒度树.
3.1 特征粒度树的建立
本文借鉴黄永文[5]的方法,从京东网站获取手机产品说明书,并抽取4G、3G、商务、时尚等15种类型的50篇编辑评测文章作为实验集.而后利用模式匹配[6]在评测文章中提取的产品特征扩充特征粒度树.
图2 京东网站产品说明书样例Fig.2 A example of the product specification from www.360buy.com
如图2所示,位于说明书中左侧的内容称为特征词,右侧的内容称为特征值,标题栏的内容称为特征组名.将说明书中特征词作为特征粒度树的主体部分,特征组名就是其组内成员的父结点,而特征值作为叶子结点.例如:“网络”就是“网络制式”与“网络频率”的父结点,“联通WCDMA”就是叶子结点.
为了提高抽取的特征与粒度树结点的匹配度,本文利用模式匹配方法扩充特征粒度树.步骤如下所示:
1)根据标点符号将评测文章分成短句,然后使用分词工具对短句添加词性标签;
2)以产品说明书中的特征词为种子,抽取含有特征词短句的模式;
3)根据抽取的模式挖掘评测文章中新的产品特征;
4)将在同一段中抽取的特征词归为一类(评测文章中对同一特征的描述都在一段或附近几段中),通过新的产品特征与产品说明书中的特征词的相似度计算,将新的产品特征添加到特征粒度树的相应位置.
一棵完整的粒度树如图3所示.
图3 手机特征粒度树Fig.3 Feature-granularity tree of mobiles
3.2 特征的归类
由于评论的自由性,从评论中挖掘出的特征词并不一定都能在特征粒度树中匹配到准确的位置.这就需要通过计算特征词与粒度树中结点的相似度来判断.关于相似度的计算,本文首先采用分词工具将特征词分解成最小单元,再利用Jaccard系数[7]和《知网》[4]的相似度计算方法进行计算,从而确定特征词在粒度树中的位置.
4 可视化显示
研究人员利用本文提供的实验数据集进行挖掘以后,平台会自动计算并显示特征词和情感词抽取的准确率和召回率,进而展示出挖掘方法的效果.由于是在同一个实验集上进行的实验,根据准确率和召回率就可以客观地判断不同挖掘方法的优劣.利用第2章的情感词库和第3章的特征粒度树,平台可以统计研究人员抽取的特征词和情感词的极性,并以柱状图的形式显示出来.
4.1 特征词抽取的准确率和召回率计算
用户利用该实验数据集抽取出特征词以后,将其导入可视化平台,即可计算出特征词抽取的准确率和召回率,如图4所示.由于用户特征词抽取方法各不相同,本平台将准确率和召回率的计算分为2种:逐条计算和整体计算.例如:如果用户利用的是类似于Apriori算法的方法,那么抽取出的特征词是频繁项集,计算时就选择整体计算;若采用的是基于模式匹配的方法,则应该逐条统计特征词正确的个数,计算时就选择逐条计算.此外,该平台还为用户提供了一个和标准集对比的窗口.通过这个窗口,用户可以直观地看出自己方法的不足.
图4 平台效果Fig.4 Picture of the experimental platform
4.2 情感词抽取的准确率和召回率计算
情感词的准确率和召回率计算界面与特征词的界面类似.不同的是:在特征词抽取的准确率和召回率计算中只是统计用户挖掘出的、正确的特征词个数,但情感词还存在一个极性判断问题.否定前缀会使情感词的极性发生逆转,因此仅当挖掘出正确的情感词且极性判断无误时,才算作抽取正确.
4.3 处理结果的展现
许多用户进行评论挖掘得出的结果只是一组数据,并没有直观的展示.鉴于这一点,该平台为用户提供了一个如图5所示的可视化界面.
图5 评论挖掘结果的直观展示Fig.5 Visual display of review mining result
用户将挖掘结果导入平台,平台利用第3章中建立的特征粒度树将用户抽取的特征词分类,根据用户选择的粒度选取出要显示的x轴坐标,再利用第2章的情感词库判断情感词的极性.最后按照x轴上的特征词将情感词分组,按组统计正负极性词的个数,从而计算出正负评价的百分率,利用柱状图显示出来.
5 总结
鉴于目前没有中文评论挖掘实验数据集的现状,提供了一个集实验与实验效果显示于一体的可视化实验平台.首先从知名购物网站抓取了第一手的原始手机评论,过滤掉垃圾评论后,将评论进行手工标注,构造出一个中文评论挖掘实验数据集.在此基础上建立了情感词库,为研究人员的情感词极性判断提供依据.并利用结构化数据构建出手机产品特征粒度树,便于特征分类.此实验平台的开发,不仅可以减少评论挖掘研究人员在实验阶段的工作量,而且还可以帮助研究人员对不同的挖掘算法做出客观评价.
[1]徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-99.
XU Jun,DING Yuxin,WANG Xiaolong.Sentiment classification for chinese news using machine learning methods[J].Journal of Chinese Information Processing,2007,21(6):95-99.
[2]岳笑峥.基于领域本体的意见挖掘系统[D].北京:北京邮电大学,2008.
YUE Xiaozheng.A domain-ontology-based opinion mining system[D].Beijing:Beijing University of Posts and Telecommunications,2008.
[3]李培.产品评论挖掘的观点抽取和分类技术研究[D].重庆:重庆大学,2009.
LI Pei.Research on opinion extraction and classification technologies for product review mining[D].Chongqing:Chongqing University,2009.
[4]刘群,李素建.基于《知网》的词汇语义相似度计算[Z].第三届汉语词汇语义学研讨会,台北,2002.
LIU Qun,LI Sujian.The similarity calculation of word semantic based on hownet[Z].Proceedings of the 3th CLSW Conference,Taipei,2002.
[5]黄永文,何中市,伍星.产品特征的层次关系获取[J].计算机工程与应用,2009,45(22):236-240.
HUANG Yongwen,HE Zhongshi,WU Xing.Acquisition of product features hierarchies[J].Computer Engineering and Applications,2009,45(22):236-240.
[6]LIU Bing,HU Mingqing,CHENG Junsheng.Opinion observer:analyzing and comparing opinions on the web[Z].International World Wide Web Conference Committee(IW3C2),Chiba,2005.
[7]HAN Jiawei,KAMBER M.数据挖掘:概念与技术[M].范明,孟小峰译.2版.北京:机械工业出版社,2007:255-256.
H AN Jiawei,KAMBER M.Data mining concepts and techniques[M].Translated by FAN Ming,MENG Xiaofeng.2th ed.Beijing:China Machine Press,2007:255-256.
A visualization platform development for product review mining
LI Ai-qing,HE Shuo,XI Ya-hui
(College of Mathematics and Computer Science,Hebei University,Baoding 071002,China)
Up to now,researchers have proposed a variety of mining methods for Chinese reviews.However,there are not any unified review experimental data sets now.For this situation,the paper extracts reviews about mobiles from four famous websites randomly.After spam reviews removing and artificial marking,an experimental data set in the field of mobiles for product reviews mining is constructed.Later,we build an emotional lexicon based on the experimental data set and a feature-granularity tree by the pattern matching method.Then a visualization platform is developed.Researchers can not only use it to perform their experiments directly,but do some objective comparisons of different mining methods.
reviews mining;experimental data sets;emotional lexicon;feature-granularity tree; visualization
TP391
A
1000-1565(2012)02-0212-06
2011-10-19
河北省教育厅重点科研项目(ZH200804);保定市科技攻关计划项目(11ZG014)
李爱清(1986-),女,河北沧州人,河北大学在读硕士研究生,主要从事数据挖掘方面研究.E-mail:aiqing-0289@163.com
孟素兰)