APP下载

基于文本向量和机器学习的评分预测算法

2019-05-23葛声利

电脑知识与技术 2019年5期
关键词:机器学习

葛声利

摘要:随着无线通信技术不断发展,移动终端的普及,大量的用户涌入到互联网中来,同时随着博客和微博的兴起,互联网进入了web2.0的时代。以自媒体为代表的个人影响会被网络放大,第三方点评平台也在这种浪潮之下应运而生,人们可以通过第三方点评平台来表达自己对商品的看法,大量的观点在网络平台上汇聚,形成对商品的较全面的评价,同时大型第三方点评平台上的评价和评分也成为用户了解商品的最好方式。但是第三方点评平台会存在评分缺失的现象,对平台的准确性和客观性造成不良影响。针对此问题,本文提出了基于文本向量和机器学习的评分预测的方法,能较为准确地预测确实的评分。

关键词:评分预测;文本向量;机器学习;集成模型

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2019)05-0171-02

Rating Prediction Based on Text Vector and Machine Learning

GE Sheng-li

(Tongji University, Shanghai 201800, China)

Abstract: With the continuous development of wireless communication technology, the popularity of mobile terminals, a large number of users flooded into the Internet, and with the rise of blogs and Weibo, the Internet has entered the era of web2.0. The personal influence represented by the media will be amplified by the network, and the third-party review platform emerges under such a wave. People can express their views on the products through the third-party review platform. A large number of opinions are on the network platform. Convergence, a more comprehensive evaluation of the product, and evaluation and scoring on the large third-party review platform has become the best way for users to understand the product. However, the third-party review platform will have a lack of scores, which will adversely affect the accuracy and objectivity of the platform. In response to this problem, this paper proposes a method based on text vector and machine learning for scoring prediction, which can accurately predict the actual score.

Key words: score prediction; text feature engineering; machine learning; integrated model; weighted model

1 研究背景

随着科学技术的进步,基础通信设施的工艺更加先进,以及智能移动终端的普及,大量的用户涌入到了互联网中,人们的想法和意见更加容易被他人看见,同时也更加具有价值。于是相应的第三方评论平台就在互联网的浪潮之下应运而生,比如电影的第三方评论平台,国内的豆瓣,国外的IMDB等,第三方自媒体平台,国内的微博,国外的twitter,实体店铺的第三方评论平台,国内的大众点评等,国外的yelp等。

这些点评平台都拥有大量来自用户的文本评论和评分,这些平台上对商品和商铺的评分会对消费者的购物决策有较大影响。有社会学家通过统计研究发现,在美国的网购平台上,有87%的用户会在购买商品前会浏览店铺评分和商品评论,有80%的用户的购买意愿会受到用户评论和商店评分的影响[1-3]。拥有高评分和优质评论的店铺往往能赢得更多的用户。

第三方评论平台上的评论是通过众包的形式来获取的,这样的评论通常是长度不同,偏重不同,写作风格各异的,如果用户不是愿意化大量的时间去阅读评论的话,那么用户很难从中找到有用的信息,所以这些平台最常用的办法就是通过用户给的评分,算出平均值,作为对电影或商品的客观描述。所以第三方评论平台上评分是否真实客观有效就非常重要了。

但是出于种种原因,这些平台上的许多评论总是会和实际值之间会存在一定的偏差。首先是第三方评论网站是开放的,会存着一些恶意的机器人刷评,或者仅仅只因为今天顾客的心情不好,最后给了差评。再者,评分机制中的分数是整数,而如果数值化用户的满意度也应该是在给定范围内波动的实数。最后,网站上的评分不是强制的,会存在一些顾客只进行评论,而没有进行评分的现象。

本文研究的基于多元特征和模型融合的评分预测算法,针对第三方评论网站的评论和vote数据进行评分预测。通过在10-20万条yelp评论数据上,结合句子中的统计特征,词嵌入特征和评论的vote特征进行特征融合,并对支持向量回归和随机森领的混合模型上进行训练,生成一个评分预测模型。本文的基于多元特征和模型融合的评分预测模型,是将特征工程和机器学习算法优化和整合,应用到评论文本预测中的应用型研究,该算法能在一定程度对第三方评论平台上存在的大规模机器人刷分进行打击,同时也能对部分没有评分的文本进行評分预测,使商品总评分更加准确。

2 实验分析

针对评论评分预测任务,先对评论文本进行了文本预处理,然后通过6种文本特征提取的方法对评论文本进行了特征提取,得到了6组不同的文本特征向量,最后使用了4种单一的机器学习模型和2种集成的机器学习模型,以文本特征向量作为输入,评论评分作为标签,对机器学习模型进行了训练,生成了36种评分预测的模型,并在测试集上用均方根误差(RSME)作为衡量指标,对36组评分预测模型进行了评估,其中图2.1是36组评分预测模型的均方根误差的对比图,我们可以看出,GradientBoosting Regression[4]模型都能得到最低的误差率,但是RBF-SVR模型的预测误差在任何特征向量上都有较大的误差率。并且RBF-SVR模型的训练时间也是其他模型的千倍以上,可见对于本文的评分预测任务,Gradient Boosting Regression更加合适。

在使用单一模型Linear Regression,和Linear-SVR结合BOW模型生成的文本特征向量进行评分预测时,效果最好,说明BOW模型生成的特征具有良好的线性特征,可以通過超平面进行拟合,但是基于CBOW这种神经网络模型生成的词向量,在线性空间内的拟合效果就比较差。但是在使用集成模型之后,结合TAG-CBOW, TFIDF-CBOW, vTAG-CBOW以及vTFIDF-CBOW模型后进行评分预测时,误差率就要低于BOW[5-7]模型的误差率了,并且36种评分预测模型中,误差率最低的模型是vTAG-CBOW结合GradientBoosting Regression模型来进行评分预测。模型预测的均方根误差为0.6567,绝对平均误差为0.6008。相对比现有的BOW模型结合Linear Regression的评分预测模型其均方根误差降低了0.1727,比BOW模型结合GradientBoosting Regression模型的评分预测模型均方根误差降低了0.107。

从评论特征提取的模型来看,vTAG-CBOW模型和vTFIDF-CBOW模型相比于TAG-CBOW模型和TFIDF-CBOW模型有更小的误差率,尤其是vTFIDF-CBOW模型比TFIDF-CBOW模型的误差率小很多。说明通过将评论的投票信息作为权重偏重,能够有效的将评论的投票信息融合到特征向量中去,并提高评分预测的准确率。

在整个评分预测任务中,传统的文本特征提取的方法中BOW模型有很好地运用于评分预测,不论是使用单一模型还是集成模型,都能取得较好的效果,但是AVG-CBOW模型得到的文本特征向量却不能很好地用于本文的评分预测任务。本文提出的4种文本特征提取的方法,都取得了较好的结果。尤其是vTAG-CBOW模型和vTFIDF-CBOW模型生成的特征向量,在线性模型上进行评分预测时,取得了和BOW模型相近的效果,并且在集成模型上进行评分预测取得了比BOW模型更好的效果。可见本文提出的4中模型相比于现有文本特征模型更加适用于评论评分预测任务。

3 结论

本文主要介绍了6中机器学习的模型,其中包括4种单一模型和2种集成模型,并结合6种文本特征提取的方法,构建了36种评论文本预测的模型,并且在yelp数据集上使用16万条评论数据,对36种评分预测模型进行了训练,并用4万条评论数据作为测试数据,并以均方根误差和绝对平均误差最为标准对模型进行了评估,并对模型的评估结果进行了分析和总结。其中使用vTAG-CBOW模型和vTFIDF-CBOW模型提取出的文本特征向量作为输入,对GradientBoosting Regression模型进行训练得到的评分预测模型具有最优的预测能力。通过实验可知,基于文本向量和机器学习的评分预测算法能够较为准确的根据评论文本预测评分。

参考文献:

[1] Byers JW, Mitzenmacher M, Zervas G. The groupon effect on yelp ratings: a root cause analysis[J], 2012:248-65.

[2] Büschken J, Allenby GM. Sentence-Based Text Analysis for Customer Reviews[J]. Marketing Science,2016,35(6):953-75.

[3] Ganu G, Elhadad N, Marian A. Beyond the Stars: Improving Rating Predictions using Review Text Content[J], 2009.

[4] Yu D, Mu Y, Jin Y. Rating prediction using review texts with underlying sentiments[J]. Inf Process Lett 2017(117):10-18.

[5] Wang B-k, Huang Y, Li X. Combining Review Text Content and Reviewer-Item Rating Matrix to Predict Review Rating[J]. Comp Int and Neurosc 2016,2016:5968705:1-05:11.

[6] Xie X, Zhang Y, Wu J, et al. Bag-of-words feature representation for blind image quality assessment with local quantized pattern[J]. Neurocomputing,2017(266):176-87.

[7] 姜霖王. 采用连续词袋模型(CBOW)的领域术语自动抽取研究[J]. 数据分析与知识发现,2016,32(2):9-15.

【通联编辑:唐一东】

猜你喜欢

机器学习
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究