基于聚类和决策树对上海景点评论分析

2018-08-18张小妹梁佩

科学与财富 2018年22期

张小妹梁佩

摘要：本文爬取了大众点评网2017 年6 月份的上海周边游景点评论数据，筛选出四个变量，运用R及其它统计软件对其进行分析，分别采用"最长距离法"、"类平均法"、"重心法"、"Ward法"对总分、环境评分、服务评分三个变量进行聚类分析，分析结果与该景点星级进行比较，探究聚类后的数据与星级之间分类有无一致性。最后利用决策树进行分类，得到景点星级，总分评分，服务评分的分类，分析了游客最关注的景点指标，得到景点的旅游建议和改进措施。

关键词：上海景点评论、聚类分析；决策树

一、模型建立与分析

本文选取了上海周边游数据集中的score、enrironment、service这三个变量，其中的缺失值用样本均值代替，首先利用欧式距离生成三个变量的距离函数，然后用最长距离法，类平均法，重心法和Ward法分别绘出绘出谱系图和聚类情况，对四种方法进行对比，选择一种输出它的分类结果，最后利用决策树建立了一个关于上海周边游景点的游客选择模型。

二、聚类分析

通过上面四幅图发现，最长距离法和Ward法聚类产生的分类比较均匀，分别输出他们的分类情况如下：

最长距离法的分类情况：

group

1 2 3 4

157 537 52 4

Ward法的分类情况：

group

1 2 3 4

59 180 170 341

在实际数据中，上海五星级景点数为79个，准五星景点数为114个，四星级景点数为239个，准四星级景點数为318个，通过对比发现用Ward法分类产生的聚类与我们的实际数据更相符，因此选用Ward法分类输出具体的分类情况。

第1类星级

> max（第1类星级）

[1] 5

> min（第1类星级）

[1] 3.5

结果显示，第一类含有59个景点，他们的星级为3.5-5；

第2类星级

> max（第2类星级）

[1] 5

> min（第2类星级）

[1] 3.5

结果显示，第二类含有180个景点，他们的星级为3.5-5；

第3类星级

> max（第3类星级）

[1] 5

> min（第3类星级）

[1] 3.5

结果显示，第三类含有170个景点，他们的星级为3.5-5；

第4类星级

> max（第4类星级）

[1] 5

> min（第4类星级）

[1] 3.5

结果显示，第四类含有341个景点，他们的星级为3.5-5。

最后发现用Ward法分类产生四个类的星级都在3.5-5之间，说明依据score、environment、service来评价上海景点的星级是不太合理的。

三、利用决策树建立游客选择模型

通过决策树发现，第一层是依据score变量来划分，第二层是依据service变量来划分，第三层是依据star变量来划分，对于score<8分，service>=6.8分并且star为3.5分的占了51%，对于score<7分，service>=5.8分并且star为3.5分的占了8%，对于service<7分，score <5.8分并且star为4分的占了17%，对于service<6.8分，service>=7分并且star为4分的占了10%，对于service>8分，score<8.9分，并且star为4.5分的占了10%，对于service>8分，score>=8.9分，并且star为5分的占了4%，对于总分又高，星级又高的景点，建议游客去旅游，但这类景点数量比较可观。

四、结论与建议

通过对上海总评评分，环境评分，服务评分进行聚类，发现星级分类与聚类产生的类别所包含的景点数不太一致，说明星级高的景点不一定各变量评分高，各变量评分高的景点不一定星级高，故在选择景点进行旅游时，不应该只看星级、总评评分、环境评分、服务评分，而应该关注评论的具体内容来选择适合的景点进行旅游。

通过对星级、总评评分、服务评分进行决策树分类发现，对于总分和星级都高的景点，建议游客去旅游。

参考文献：

[1]崔雷.专题文献高频主题词的公司聚类分析[J].情报哦理论与实践，1996，19（4）：49—51.

[2] Metha M， Rissanen J， Agrawal R. SLIQ： A Fast Sealable Classifier for Data Mining[C]//Proc. of EDBT96. Avignon， France： [s. n.]， 1996.

[3] 杨学兵，张俊.决策树算法及其核心技术[J].计算机应用与发展，2007.17：43-45.

[4]冯少荣，尚文俊.基于样本选取的决策树改进算法[J].西南交通大学学报，2009，44（5）：643-647.