基于聚类和决策树对上海景点评论分析

2018-08-18 11:06张小妹梁佩
科学与财富 2018年22期
关键词:聚类分析决策树

张小妹 梁佩

摘 要:本文爬取了大众点评网2017 年6 月份的上海周边游景点评论数据,筛选出四个变量,运用R及其它统计软件对其进行分析,分别采用"最长距离法"、"类平均法"、"重心法"、"Ward法"对总分、环境评分、服务评分三个变量进行聚类分析,分析结果与该景点星级进行比较,探究聚类后的数据与星级之间分类有无一致性。最后利用决策树进行分类,得到景点星级,总分评分,服务评分的分类,分析了游客最关注的景点指标,得到景点的旅游建议和改进措施。

关键词:上海景点评论、聚类分析;决策树

一、模型建立与分析

本文选取了上海周边游数据集中的score、enrironment、service这三个变量,其中的缺失值用样本均值代替,首先利用欧式距离生成三个变量的距离函数,然后用最长距离法,类平均法,重心法和Ward法分别绘出绘出谱系图和聚类情况,对四种方法进行对比,选择一种输出它的分类结果,最后利用决策树建立了一个关于上海周边游景点的游客选择模型。

二、聚类分析

通过上面四幅图发现,最长距离法和Ward法聚类产生的分类比较均匀,分别输出他们的分类情况如下:

最长距离法的分类情况:

group

1 2 3 4

157 537 52 4

Ward法的分类情况:

group

1 2 3 4

59 180 170 341

在实际数据中,上海五星级景点数为79个,准五星景点数为114个,四星级景点数为239个,准四星级景點数为318个,通过对比发现用Ward法分类产生的聚类与我们的实际数据更相符,因此选用Ward法分类输出具体的分类情况。

第1类星级

> max(第1类星级)

[1] 5

> min(第1类星级)

[1] 3.5

结果显示,第一类含有59个景点,他们的星级为3.5-5;

第2类星级

> max(第2类星级)

[1] 5

> min(第2类星级)

[1] 3.5

结果显示,第二类含有180个景点,他们的星级为3.5-5;

第3类星级

> max(第3类星级)

[1] 5

> min(第3类星级)

[1] 3.5

结果显示,第三类含有170个景点,他们的星级为3.5-5;

第4类星级

> max(第4类星级)

[1] 5

> min(第4类星级)

[1] 3.5

结果显示,第四类含有341个景点,他们的星级为3.5-5。

最后发现用Ward法分类产生四个类的星级都在3.5-5之间,说明依据score、environment、service来评价上海景点的星级是不太合理的。

三、利用决策树建立游客选择模型

通过决策树发现,第一层是依据score变量来划分,第二层是依据service变量来划分,第三层是依据star变量来划分,对于score<8分,service>=6.8分并且star为3.5分的占了51%,对于score<7分,service>=5.8分并且star为3.5分的占了8%,对于service<7分,score <5.8分并且star为4分的占了17%,对于service<6.8分,service>=7分并且star为4分的占了10%,对于service>8分,score<8.9分,并且star为4.5分的占了10%,对于service>8分,score>=8.9分,并且star为5分的占了4%,对于总分又高,星级又高的景点,建议游客去旅游,但这类景点数量比较可观。

四、结论与建议

通过对上海总评评分,环境评分,服务评分进行聚类,发现星级分类与聚类产生的类别所包含的景点数不太一致,说明星级高的景点不一定各变量评分高,各变量评分高的景点不一定星级高,故在选择景点进行旅游时,不应该只看星级、总评评分、环境评分、服务评分,而应该关注评论的具体内容来选择适合的景点进行旅游。

通过对星级、总评评分、服务评分进行决策树分类发现,对于总分和星级都高的景点,建议游客去旅游。

参考文献:

[1]崔雷.专题文献高频主题词的公司聚类分析[J].情报哦理论与实践,1996,19(4):49—51.

[2] Metha M, Rissanen J, Agrawal R. SLIQ: A Fast Sealable Classifier for Data Mining[C]//Proc. of EDBT96. Avignon, France: [s. n.], 1996.

[3] 杨学兵,张俊.决策树算法及其核心技术[J].计算机应用与发展,2007.17:43-45.

[4]冯少荣,尚文俊.基于样本选取的决策树改进算法[J].西南交通大学学报,2009,44(5):643-647.

猜你喜欢
聚类分析决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
基于决策树的出租车乘客出行目的识别
“县级供电企业生产经营统计一套”表辅助决策模式研究
基于决策树的复杂电网多谐波源监管
基于肺癌CT的决策树模型在肺癌诊断中的应用