APP下载

地理加权的K-Modes算法在城市餐饮空间分析中的应用

2021-01-07魏东岚

绿色科技 2020年24期
关键词:经纬度聚类集群

李 智,魏东岚

(辽宁师范大学 地理科学学院,辽宁 大连 116029)

1 引言

传统的地理聚类算法[1,2],例如K-means,DBSCAN等,依据餐饮样本点自身的位置属性很好的分析了样本点空间分布特征[3,5],但是忽略了样本点非地理特征的表达。陈传康[6,8]等对餐饮地理空间分异性进行了研究。分类归纳餐饮店空间聚集的影响因素。餐饮样本点与其他类别的POI存在的显著不同就是其价位属性,因其存在较多重复数据,本文利用附带地理加权的K-modes聚类算法,首先对餐饮人均价格数据进行第一次聚类,分析出价格集中的众数区间。再根据餐饮点的经纬度属性,按照一定的过滤算法,进行第二次聚类,两次聚类能够精确的分析出消费水平在空间分布上的差异性。

2 K-Modes基础聚类

根据人均消费数据中存在价位等同的餐饮商家的特点,在将数据进行清洗和基础分析以后,通过算法找出干区间段内若干众数为聚类中心,再根据剩余数据到这些聚心的距离进行划分,形成若干类别。具体步骤如下。

(1)对于样本数据进行描述统计分析,确定人均消费数据频率分布直方图,如图1所示。

图1 人均消费频率分布直方图和区域人均消费水平

(2)确定样本数据及其属性域矩阵R(Xi,A),根据样本内Xi频率分布直方图得出固定区间内的众数M(M1,M2,M3……)。将M确定为该区间的聚类中心。对样本数据X(i)逐次进行划分聚类,X(i)到聚心M的距离d的公式为:

d=Min|X(i)-X(n)|

(1)

X(n)∈|X(n),d|

(2)

(3)通过排序算法选取最小距离d,确定当前聚心X(n)。将当前数据X(i)划分进入关于X(i)的矩阵中,最终的样本可以用矩阵X来表示:

(3)

3 附加地理权重二次聚类

将第一次聚类的结果作为样本数据,附加地理权重。空间上聚集程度的指标可以用经纬度来衡量,即在地理空间上距离越近的两个点其经纬度差异越小。对GPS经纬度进行第二次聚类,符合条件的数据数量应能够代表整体聚集水平,因此符合条件的数据量Si与总量n应满足:

(4)

∂的取值范围根据集群程度来定义,本研究区域中当∂=50%时,能够明显显示出集群位置。研究其他地区数据时可适当调整其取值,以达到效果最佳的集群显示范围。最终得到了若干个以消费众数M为聚心,附加地理权重的a、b、c、d四个等级消费集群分布示意图,如图2所示。

4 结论

K-Modes聚类算法完全适用于线上餐饮业的空间分析,相比于其他聚类算法,它更能够忠实于数据本身,在经过地理加权以后,聚类结果将同时集聚数据本身的属性和空间位置规律于一身,能够更精确无误的分析数据的数学特征和地理特征。本文在研究大连市线上餐饮空间消费规律的过程中,采用K-Modes聚类算法先针对数据本身进行聚类,保持数据以及聚类结果的准确性,再附加地理权重,寻找契合地理空间的集群数据,这样的结果相比于基于密度聚类的结果更加能够体现区域整体水平,并且可任意控制集群密度,地理加权的方法不同,集群密度就不同。

图2 市内四区人均消费集群情况

猜你喜欢

经纬度聚类集群
一种傅里叶域海量数据高速谱聚类方法
齐口裂腹鱼集群行为对流态的响应
基于知识图谱的k-modes文本聚类研究
基于信息素决策的无人机集群协同搜索算法
一种改进K-means聚类的近邻传播最大最小距离算法
基于模糊聚类和支持向量回归的成绩预测
基于经纬度范围的多点任务打包算法
自制中学实验操作型经纬测量仪
勤快又呆萌的集群机器人
澳洲位移大,需调经纬度