基于聚类和决策树对上海景点评论分析
2018-08-18张小妹梁佩
张小妹 梁佩
摘 要:本文爬取了大众点评网2017 年6 月份的上海周边游景点评论数据,筛选出四个变量,运用R及其它统计软件对其进行分析,分别采用"最长距离法"、"类平均法"、"重心法"、"Ward法"对总分、环境评分、服务评分三个变量进行聚类分析,分析结果与该景点星级进行比较,探究聚类后的数据与星级之间分类有无一致性。最后利用决策树进行分类,得到景点星级,总分评分,服务评分的分类,分析了游客最关注的景点指标,得到景点的旅游建议和改进措施。
关键词:上海景点评论、聚类分析;决策树
一、模型建立与分析
本文选取了上海周边游数据集中的score、enrironment、service这三个变量,其中的缺失值用样本均值代替,首先利用欧式距离生成三个变量的距离函数,然后用最长距离法,类平均法,重心法和Ward法分别绘出绘出谱系图和聚类情况,对四种方法进行对比,选择一种输出它的分类结果,最后利用决策树建立了一个关于上海周边游景点的游客选择模型。
二、聚类分析
通过上面四幅图发现,最长距离法和Ward法聚类产生的分类比较均匀,分别输出他们的分类情况如下:
最长距离法的分类情况:
group
1 2 3 4
157 537 52 4
Ward法的分类情况:
group
1 2 3 4
59 180 170 341
在实际数据中,上海五星级景点数为79个,准五星景点数为114个,四星级景点数为239个,准四星级景點数为318个,通过对比发现用Ward法分类产生的聚类与我们的实际数据更相符,因此选用Ward法分类输出具体的分类情况。
第1类星级
> max(第1类星级)
[1] 5
> min(第1类星级)
[1] 3.5
结果显示,第一类含有59个景点,他们的星级为3.5-5;
第2类星级
> max(第2类星级)
[1] 5
> min(第2类星级)
[1] 3.5
结果显示,第二类含有180个景点,他们的星级为3.5-5;
第3类星级
> max(第3类星级)
[1] 5
> min(第3类星级)
[1] 3.5
结果显示,第三类含有170个景点,他们的星级为3.5-5;
第4类星级
> max(第4类星级)
[1] 5
> min(第4类星级)
[1] 3.5
结果显示,第四类含有341个景点,他们的星级为3.5-5。
最后发现用Ward法分类产生四个类的星级都在3.5-5之间,说明依据score、environment、service来评价上海景点的星级是不太合理的。
三、利用决策树建立游客选择模型
通过决策树发现,第一层是依据score变量来划分,第二层是依据service变量来划分,第三层是依据star变量来划分,对于score<8分,service>=6.8分并且star为3.5分的占了51%,对于score<7分,service>=5.8分并且star为3.5分的占了8%,对于service<7分,score <5.8分并且star为4分的占了17%,对于service<6.8分,service>=7分并且star为4分的占了10%,对于service>8分,score<8.9分,并且star为4.5分的占了10%,对于service>8分,score>=8.9分,并且star为5分的占了4%,对于总分又高,星级又高的景点,建议游客去旅游,但这类景点数量比较可观。
四、结论与建议
通过对上海总评评分,环境评分,服务评分进行聚类,发现星级分类与聚类产生的类别所包含的景点数不太一致,说明星级高的景点不一定各变量评分高,各变量评分高的景点不一定星级高,故在选择景点进行旅游时,不应该只看星级、总评评分、环境评分、服务评分,而应该关注评论的具体内容来选择适合的景点进行旅游。
通过对星级、总评评分、服务评分进行决策树分类发现,对于总分和星级都高的景点,建议游客去旅游。
参考文献:
[1]崔雷.专题文献高频主题词的公司聚类分析[J].情报哦理论与实践,1996,19(4):49—51.
[2] Metha M, Rissanen J, Agrawal R. SLIQ: A Fast Sealable Classifier for Data Mining[C]//Proc. of EDBT96. Avignon, France: [s. n.], 1996.
[3] 杨学兵,张俊.决策树算法及其核心技术[J].计算机应用与发展,2007.17:43-45.
[4]冯少荣,尚文俊.基于样本选取的决策树改进算法[J].西南交通大学学报,2009,44(5):643-647.