基于用户行为及文本内容的垃圾评论识别研究
2017-10-10胡龙茂
胡 龙 茂
(安徽财贸职业学院, 合肥 230601)
基于用户行为及文本内容的垃圾评论识别研究
胡 龙 茂
(安徽财贸职业学院, 合肥 230601)
从海量的在线评论中自动识别出垃圾评论,是消费者及厂家有效利用在线评论的前提。结合垃圾评论者的行为特征及评论文本内容,采用支持向量机构建了垃圾评论识别模型。实验结果表明,该方法有效地识别了垃圾评论。
垃圾评论; 行为特征; 评论文本
当前,网络购物方兴未艾,电商网站上产生了海量的在线产品评论。这些评论一方面会对潜在消费者的购买决策产生重要影响,一方面也有助于厂商提高其产品质量或服务。由于网络的开放性、评论者的主观性及产品或平台的竞争性,网络上出现了不少垃圾评论,主要分为2类:(1) 出于推销或诋毁目的的虚假评论;(2) 与主题无关的评论。从海量的在线评论中识别出垃圾评论,对消费者及厂家都有着重要的现实意义。
研究垃圾评论者的行为特征及评论文本内容,采用支持向量机构造了垃圾评论识别模型,有效地识别了垃圾评论。
1 相关研究
文献[1]首次对垃圾评论进行了分类,并运用Logistic回归模型对垃圾评论进行了检测。文献[2]从评论者对同一产品重复评分次数,评分偏差,评论内容的相似度来判断其是否是垃圾评论者,从而确定其发表的评论是否为垃圾评论。文献[3]以旅馆评论数据集为研究对象,融合文本的语言特征和心理语言欺骗检测,采用SVM进行文本分类来检测虚假评论行为,实验精确度达到了90%。文献[4]提出了垃圾评论者发表垃圾评论的5种行为模式,采用线性回归模型进行建模以识别垃圾评论者,检测效果优于用户有用性投票的基准方法。文献[5]构造了评论者、评论、商店以及回复者的评论关系图,利用评论关系图计算评论者的可信度以识别垃圾评论者,实验结果表明该方法的准确率较高。文献[6]从评论内容、评论人、评分与文本情感的匹配程度等方面,设定22个评论特征,采用改良的决策树识别垃圾评论达到了较高的预测精度。
目前的研究主要采用单一的行为检测或文本内容检测,检测效果都不够理想。文献[6]虽然采取了二者的结合,但设置的用户行为特征较少。因此,本次研究从用户行为及评论内容2个维度进行垃圾评论识别,以有效提高垃圾评论识别的精度。
2 垃圾评论识别模型
2.1支持向量机
支持向量机基于结构风险最小化的原则,它能将数据表示成更高维度,从而将非线性分类问题转换成线性分类问题。由于支持向量机所形成的分类面是最优分类面,分类时仅需要支持向量,因此,分类速度很快。支持向量机对小样本数据的学习有良好的推广能力[7],近年来在文本分类、基因图谱识别和手写识别等方面都得到了成功的应用。
2.2特征选择
从用户行为和评论文本2个方面识别垃圾评论,特征选择如下:
(1) 用户行为特征。在文献[4]基础上,通过对购物网站中评论者的行为特征分析,设置4类用户行为特征。评分(A1):用户出于推销或诋毁的目的而打最高分或最低分的行为特征。评分一致度(A2):同一用户对同一平台的不同产品评分较一致的行为特征。评分偏差度(A3):用户评分与平均评分偏差较大的行为特征。有用度(A4):其他评论阅读者认为是否“有用”的行为特征。
(2) 评论文本特征。在文献[6]的基础上,通过对评论文本分析,设置8类文本特征。产品(A5):评论中涉及产品本身(如“手机”)。产品属性(A6):评论中涉及产品属性。其他品牌(A7):评论中涉及与此商品同类的其他品牌产品信息。正面评价词(A8):正面评价词的数量。负面评价词(A9):负面评价词的数量。正面评价词比例(A10):正面评价词占总体评价词比例。负面评价词比例(A11):负面评价词占总体评价词比例。评论长度(A12):评论内容的长度。
评论文本特征的计算方法如下:
A1=n
式中:A1—— 行为特征分值;
n—— 当前评论者在平台的评论总数,n=1,2,3,4,5;
A2—— 一致度评分;
si—— 某条评论的评分。
式中:s0—— 当前评论者对产品的评分;
n—— 某产品的评论总数;
si—— 其他评论者对产品的评分。
A6=评论中包含产品属性的数量
A8(A9)=评论中正(负)面评价词的数量
3 实验结果及分析
实验采用Python语言。支持向量机采用台湾大学林智仁教授等人开发的Libsvm软件。Libsvm提供了Python接口,核函数采用线性核,其他参数默认。
3.1数据集
目前还没有专门用于识别垃圾评论的中文数据集,因此采用爬虫从国内热门的电商网站上抓取数据。通过对淘宝、京东、苏宁和亚马逊等网站的观察,只有亚马逊网站保留了评论者的链接信息。使用Python编程从亚马逊网站上抓取某款热门手机的评论共1 197条,然后按照留言者链接抓取评论者在亚马逊网站上对其他商品的评论。
选择3位垃圾评论标注者对评论进行独立标注,如果评论被大于等于2个的标注者认为是垃圾评论,则该条评论被标记为垃圾评论。最终得到垃圾评论87条。
3.2实验结果分析
采用准确率、召回率和综合值评价垃圾评论识别的效果。结果如表1所示。
仅采用用户行为特征时,与主题无关的评论不易被识别出,造成召回率较低。仅采用文本特征时,全是正面或负面情感易被识别为垃圾评论,导致准确率较低。综合采用用户行为和文本特征时,提高了无关评论和极端评论的判别精度,准确率和召回率都有不同程度的提升。
4 结 语
研究采用用户行为特征和文本特征识别垃圾评论,取得了一定的效果。随着电商平台对评论的激励及约束机制的改变,垃圾评论的特征也会随之变化,垃圾评论的识别方法还需进一步优化。
[1] JINDAL N, LIU B. Review Spam Detection [C]∥Proceedings of the 16th International Conference on World Wide Web. New York, NY, USA: ACM, 2007: 1189-1190.
[2] LIM E P, NGUYEN V A, JINDAL N, et al. Detecting Product Review Spammers Using Rating Behavior [C]∥Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2010: 939-948.
[3] OTT M, CHOI Y, CARDIE C, et al. Finding Deceptive Opinion Spam by Any Stretch of the Imagination[C]∥ Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2011:309-319.
[4] 邱云飞,王建坤,邵良杉,等.基于用户行为的产品垃圾评论者检测研究[J].计算机工程,2012,38(11):254-257.
[5] 林秀娇,魏晶晶,刘月,等.基于评论关系图的垃圾评论者检测研究[J].福州大学学报,2015,43(2):170-175.
[6] 赵静娴.网络交易垃圾评论智能识别研究[J].现代情报,2016,36(4):57-61.
[7] VAPNIK V N. An Overview of Statistical Learning Theory[J]. IEEE Transactions on Neural Networks, 1999,10(5):988-999.
Abstract:Automated recognition of review spam from massive online reviews is a prerequisite for the effective use of online reviews by consumers and manufacturers. Based on the behavior characteristics of the commentator and the content of the comment text, this paper uses the support vector machine to construct the spam evaluation model. The experimental results show that this method can effectively identify the spam.
Keywords:review spam; behavior characteristics; review text
ResearchonReviewSpamRecognitionBasedonUserBehaviorandTextContent
HU Longmao
(Anhui Finance and Trade Vocational College, Hefei 230601, China)
TP18
A
1673-1980(2017)05-0105-03
2017-04-02
安徽省高校自然科学研究重点项目“基于产品评论细粒度情感分析的消费者偏好模型构建研究”(KJ2017A858)
胡龙茂(1973 — ),男,讲师,研究方向为数据挖掘、自然语言处理。