朴素贝叶斯分类算法在团购餐饮评论中的应用
2017-06-10郭田奇
郭田奇
【摘要】随着互联网的迅速发展,团购作为新兴的电子商务盈利模式,已成为整个O2O(Online To Offline)市场不可或缺的一部分 ,对商家和消费者都有一定的引导和借鉴作用,因此运用大数据的方法对团购评论的研究也具有更加现实的意义。本文运用R语言从团购网页上抓取了兰州市火锅店的评论数据,建立语料库进而实现对评论的筛选,采用朴素贝叶斯分类算法建模,从大量的评论数据中训练垃圾评论的分类器,通过对已有模型进行改进,使之更加适用于网购评论的分类,最终实现对团购评论的最大化利用。研究结果表明:通过朴素贝叶斯算法模型训练出的分类器最终对有效评论的识别率达到99.4%,对垃圾评论的识别率达到54.6%,该分类器能准确识别有效评论,对于垃圾评论的识别率有待提高,但仍具有一定的参考价值。
【关键词】R语言 朴素贝叶斯 团购评论 分类
一、研究背景
(一)O2O市场现状
近年来,资本市场、互联网巨头与实体商业纷纷加速布局O2O领域,O2O产业如雨后春笋般在全国各地兴起。调查显示,有43.8%的网民表示喜欢在互联网上发表评论,其中非常喜欢的占6.7%,比较喜欢的占37.1% 网络空间已经成为人们发表言论的重要场所。
二线城市团购餐饮美食O2O用户渗透率为23.2%,网上订餐订座O2O用户渗透率为17.5%。从用户层面来看,一二线城市餐饮和休闲O2O的用户渗透率较高,非O2O用户成功转化成餐饮和休闲O2O用户的概率较高,因此餐飲、休闲O2O市场发展已经相对成熟。
(二)研究内容
本文通过分析大量的垃圾评论,设定了一些泛化规则来提取评论所包含的明显的特征词,以此作为垃圾评论类的特征项,由于垃圾评论也会随着网络用户的兴趣转移发生变化,为了提高分类器的过滤性能,我们通过对训练样本,人工对样本进行标注,基于朴素贝叶斯的算法思想,通过对兰州市大众点评网站上的有关于火锅店铺的团购消费的评论数据进行分类,剔除垃圾评论,从而为消费者提供了更为高效的选择,也为商家提升自己提供了优质数据的支持。
二、基于朴素贝叶斯的垃圾评论过滤算法
基于朴素贝叶斯分类算法的过滤模型包括训练模块和分类模块两部分,实现步骤首先计算算先验概率P(C1);
P(C1)=■ (2.1)
P(C2)=■ (2.2)
对训练集中的所有评论进行分词处理,统计每个词的词频;依据统计结果以特定的方法提取特征词,生成特征词集F=W1,W2,…,Wn计算特征词Wi的类条件概率P(xi│C),对新输入的评论进行分词,特征提取,生成代表该评论的特征向量X;计算P(x│c)和P(c│x)比较两者计算结果,测试评论属于概率值较大的那一类。
三、模型求解
(一)数据搜集
本文的数据是基于大众点评网兰州市火锅团购评论数据。数据的爬取工作,主要使用R语言,符合以下特点,认为是垃圾评论:①显示广告信息,有超链接、色情等;②与餐饮、火锅和团购没有关系的评论;③具有人身攻击或者思想不健康的评论;④含有大量数字和其他符号的。
本文从大众点评上爬取兰州市火锅店的评论数据,共5568条数据。数据分为有效评论和垃圾评论,同时将所有数据分为训练集和测试集,训练集为4000条数据,测试集为1568条数据。在训练集和测试集中有效评论和垃圾评论各自所占的比例为0.11:0.89,0.20:0.80。
(二)模型评估与优化
通过训练集的数据进行建模,构建朴素贝叶斯分类器,用测试集来评估分类器的表现,预测垃圾评论的准确率偏低,40%左右,原因是不少的垃圾评论被识别为有效评论,垃圾评论在数据集中的分布不均匀,评论中有效词数量频率远高于含有垃圾评论的词数,导致分类器容易误判,但分类器对有效评论的识别率高达99.1%。
模型建立词条-文档矩阵,扩大进入词条-文档矩阵的长度,同时小幅降低进入字典词语出现的频率,分类器的识别率由40%上升到54.6%, 通过优化之后的模型,不仅分类器对垃圾评论的识别率大幅提高了将近15个百分点,而且对有效评论的识别率也从99.1%上升到了更为精确的99.4%。
四、结论与展望
本文结合R语言的网络爬虫技术,详细介绍了数据采集的过程,同时给出了基于爬取数据对垃圾评论的定义,运用R语言完成了数据建模,得出了基于朴素贝叶斯的分类器,同时对测试集的数据进行预测和对比,以此来评估分类器的表现,根据预测结果分析分类器对垃圾评论识别准确率偏低的原因,对模型进行了简单的优化,使分类器对垃圾评论识别准确率显著提高。
本文对于一些具有明显特征的垃圾平评论的识别效果不错,但是对一些没有明显特征而且包含大量中性词语的评论识别效果率不是很好,还有待于进一步的提高和完善,可以考虑从以下几个方面研究:
(1)很多评论都带有消费者的主观感情,因此可以参考情感计算的方法在提取特征词的时候考虑词语的感情倾向等问题;
(2)网络上面的新词和不合语法的日常用语不断更新,需要构建一个实时的网络文本字典,正确区分垃圾评论;
(3)更多的考虑消费者与评论内容所属行业的联系,从多角度分析消费者的行为偏好,更加全面的理解消费者的评论内容;
随着大数据技术的不断发展,中文文本挖掘的研究也会越来越重要。现阶段针对文本分类的研究很多,关于中文分词的算法也很多,如何将这些研究和算法更好的应用在对垃圾评论的过滤上,值得我们进一步的思考和实践。
参考文献:
[1]中国互联网络信息中心.中国互联网络发展状况统计报告[R].2015.
[2]王佐仁,杨琳.贝叶斯统计推断及其主要进展[J].统计与信息论坛, 2012.
[3]许高建,胡学钢,王庆人.文本挖掘中的中文分词算法研究及实现[J].计算机技术与发展, 2007.