APP下载

抚州市行业高热区块空间分布特征聚类

2020-11-09郭名静熊鑫戴雅婷

合作经济与科技 2020年21期
关键词:空间数据聚类分析数据挖掘

郭名静 熊鑫 戴雅婷

[提要] 针对城市行业空间布局研究中对重点区块探知问题,以江西省抚州市城区行业经营点为研究对象,利用新浪微博的网络签到位置数据,基于数据挖掘中的聚类分析方法,通过优化基于密度聚类算法,对城市的餐饮、娱乐和购物三个主要服务行业的高热重点区块实现直接聚类提取,解决从多维空间数据中挖掘城市行业空间分布特征的问题。具体的优化算法是利用多维签到位置数据中的非位置属性计算权重系数,修正判定数据点分类的相似度函数,构建加权密度聚类算法抽取城市行业的高热区块。综合三个服务行业的聚类提取结果,归纳出城市行业分布特征。仿真结果表明:多维空间数据的加权密度聚类算法可以较好地实现对城市行业空间特征的直接提取,抽取得到的重点区块具有明显的高热特性。基于聚类提取结果的行业重点区块特征分析能更合理地反映城市行业发展状况,也可以为城市管理者研究行业布局提供科学决策的重要参考依据。

关键词:城市空间特征;数据挖掘;空间数据;聚类分析;行业布局

基金项目:抚州市2019年社会科学规划项目(19SK02);国家自然科学基金项目(41576105,41604010)

中图分类号:F292 文献标识码:A

收录日期:2020年7月28日

一、引言

服务业是现代城市众多行业的重要组成,是在物资生产和商品交换的发展过程中,伴随着商业的产生而出现,以餐饮、娱乐、购物等行业为具体表现。随着城市地域范围的扩大、城市经济社会生活的日渐繁荣和城市居民数量的日益增多,现代城市的经济活动与服务业之间的联系日趋紧密,并表现出与城市居民生活质量息息相关的态势。因此,通过对一个城市服务业空间分布格局的研究,不仅可以服务于商家和配套设施的合理选址,还可以辅助城市规划和管理决策,甚至对于城市重大公共安全事件的科学预测都具有重要的参考价值。

服务业活动一般都具有广泛性、综合性、分散性和地域性的特点。具体来说,服务业因为提供的产品和商品种类繁多,表现出经营范围广泛。伴随着消费者群体的分散存在和迁移,服务业一般都是分散经营。由于同一个地区的多个服务企业之间大多存在相互联系,从而形成群体效应以发挥综合服务能力。而且城市特有的地理条件和社会环境的差异又会影响服务业,使得不同城市的服务业又会具有浓郁的地方特色,即在共性中又具有较强的城市地域特征。基于上述基本特点,国内学术界对行业空间特征的相关研究以发现某具体行业在城市中的空间分布格局为主,研究方法大多是基于官方统计数据和问卷调研数据的统计分析和定性分析。这类方法对小数据是有用的,但随着数据量不断增大,这类方法反映数据全貌,可能出现解释力不足和特征提取方法的普适性较差等问题。行业空间特征是土地、社会群体和经济活动等多个城市要素相互作用的结果,因此迫切需要一种表征城市多源要素特征的多维大体量数据源,以数据驱动空间特征知识发现。

空间数据由属性元素与地理位置相关联,通常是时间和一些描述性属性或实体属性的数据与位置属性共同构成,可以通过各种测量传感器网络、定位设施和以因特网为平台的社交网络获取。近20年来,空间数据作为一种重要战略基础数据资源被越来越多地用于建立数学模型,以聚类、关联分析算法和预测模型为代表的数据挖掘技术来探查大规模数据,自动发现数据中的信息和模式,识别对象的空间分布、位置关系并支持决策。对城市行业空间分布特征的研究属于空间分布模式中的点群模式,一般是通过提取相似且相近的密集聚集点,常用的技术方法有均匀格网法和等值线法。但单元网格的大小和现状常常影响边界识别结果,密度估计带宽选择也比较困难。基于密度聚类方法(DBSCAN)是一类利用数据点群的空间聚类直接提取聚集模式的方法,在处理非规则空间数据时表现出了较好的适用性。但是,DBSCAN算法只利用数据点的位置属性来计算数据点分类的相似度,没有考虑其他描述性属性,导致识别出的区块的合理性较差,得到的行业布局特征与实际情况的吻合度较低。因此,本文通过构建加权聚类算法,利用非位置属性变换得到权重系数,优化相似度函数公式,以实现结合数据点的位置属性和非位置属性提取行业中某些重要区块的空间分布特征,从而增加对城市空间特征提取结果的科学性和可信度。

二、研究对象与方法

(一)空间数据集。抚州市位于江西省东部,全市人口418万,地理位置为东经115°35′~117°18′,北纬26°29′~28°30′之间,辖1区10县和1个高新技术产业园区,是长江中游城市群的重要成员之一。抚州市总面积1.88万km2,南北长约222km,東西宽约169km。本文选用截至2014年11月份抚州市的新浪微博签到数据共计1,948条,从中筛选出餐饮类商户签到记录324条,娱乐休闲类商户签到记录277条,商业购物类商户221条,总共822条空间数据作为抚州市服务行业高热区块研究对象。表1列举10条记录示例数据集中包含的主要属性。(表1)

在表1的“类别”属性中,“food”标识餐饮业,“entertain”标识娱乐休闲业,“shop”标识购物商业。“签到次数”属性中的数值标识了该商家被消费者在新浪微博中网络签到打卡的次数,数值越高表明该商家受欢迎热度越高,数值越低表明该商家受欢迎热度越低。为了探知行业中受消费者关注热度较高的商家的空间分布特征,因此界定行业高热区块需要满足两个条件:一是高热区块中数据点在地理位置上要相对聚集,即高热区块内数据点分布的密度较高;二是高热区块中数据点签到次数属性值要相对较大,即高热区块内的数据点表现出明显的高热特征。

(二)密度聚类算法。基于密度的DBSCAN算法可以发现稀疏数据点区域中的密集数据点,该算法利用相似度函数判定数据点的归属类,再根据密度相连原理提取数据点的最大集合,也叫做聚类簇。算法中判定数据点归属的相似度函数是基于欧几里得距离(公式1),其中,位置数据集中数据点的位置坐标为(xi,yi),其中i=1,…,n,提取的聚类簇只能是满足地理位置的高聚集分布,而没有考虑数据点的签到次数属性。因此,对签到次数属性值做变换得到一个按照公式(2)计算权重系数的wj,其中j=1,…,n,实现对DBSCAN算法处理多维位置数据的优化目的。

显而易见,wj取值范围是(0,+1),且wj取值越接近+1说明数据点(xj,yj)的签到次数越高,即该点签到热度越高,在与簇中心点(xi,yi)距离相等的条件下,则越可能被划入簇中。由此变换算法相似度函数的距离计算公式如式(3)所示。其中,参数ω的取值根据权重系数wj的取值范围而定。

三、聚类提取与验证

(一)高热区块提取。从表1的空间数据集中按照餐饮、购物和娱乐休闲筛选出3个类的空间数据子集作为初始数据集。由公式(2)和(3)对每个数据子集计算权重系数wj,再加权密度聚类提取高热区块。利用Python3.7编辑程序做散点图如图1所示,图示的坐标单位均为“°”。其中,设置参数ω的取值为1,密度聚类的区域半径r取值为0.015,最小值MinP取值为10。(图1)

在图1中,3个行业各分布有1个高热区块,分别用符号“x”、“+”和“o”标识。区块内数据点的详细信息统计在表2中,每个高热区块中签到次数最多的前几个高热点列表在表3中。(表2、表3)

(二)高热特征检验。对高热签到点统计如表4所示,餐饮业的17个高热签到点是最多,而购物商业的377个签到点是全部签到点中最多。娱乐休闲业签到点的全部签到点和高热区块签到点的签到次数在3个行业里面都是最高,分别有9,145次和2,584次。从提取的区块看,3个行业总共提取了47个高热签到点组成了3个高热区块,虽然在签到点数目上高热区块的签到点数据仅占全行业全部922个签到点的5.1%。但产生了总计7,019次签到,占全部签到次数总和23,231次的30.21%。(表4、图2)

根据帕累托定律,一个系统中最重要的只占其中小部分约20%,其余80%尽管是多数,却是次要。虽然3个类别的高热签到点总数分别只占各类别全部签到点总数的比率都只有5%左右,但这些签到点的签到次数却占到各类别签到点的签到次数总和的30%以上,特别是购物商业类高热区块内签到点的签到次数的占比甚至高达36.94%,而该类的高热区块内签到点数目在全行业占比仅为3.71%。因此,可以证明这47个高热签到点构成的3个签到区块确实是各行业类别的高热区域,是值得重点关注的关键区域。

四、特征分析及建议

基于上述统计分析,可以归纳出该城市这3个行业空间分布特征如下:

(一)居民消费行业主体地位明显。抚州市虽然只是一个地级城市,但因为其较为优越的地理位置和历史沿革,主要城区中行业种类较为齐全。因为餐饮、商业购物和娱乐休闲业这3个行业在全部行业中签到点总数1,948个中占比近50%,反映出该市居民消费类行业在整体上具有良好发展态势。

(二)零售业是引领全市市场销售平稳较快增长的主力军。从聚类分析结果来看,抚州市的购物商业类签到数据点是3个行业中最多的,购物业的高热区块的高热签到点的签到次数在行业平均签到次数和在全行业中的占比也都是3个行业中最高的,体现出了抚州市居民对于商业购物类消费的热衷。特别是以马家山文化商贸广场和洪客隆百货为代表的高热签到点的高签到次数,也足以验证零售业是社会消费品零售市场稳步增长的主导力量。但是,全市购物商业的高热签到点过于密集分布在唯一的高热区块中可能不利于全市居民销费水平的进一步提高。拓展新的购物商圈的部署和建设,应该是城市相关部门管理者需要思考的问题。

(三)文化体育生活丰富。由表4数据,娱乐休闲类的签到点不管是在全行业中,还是在高热区块中,所产生的签到次数总和都是3个行业中最高的。虽然该类别签到网点数目是3个行业中全行业签到数据点数最少的,但这些签到网点的平均签到次数在全行业签到点的数据统计中是最高的,在高热区块中的平均签到次数也只是略低于排名第一的购物业,却远高于排名第三的餐饮业。特别是抚州市体育馆以644次排名全市娱乐休闲业网点第一高的网络签到次数,主要得益于市政府在2014年的全民健身日、全民健身周和全民健身日,以及元旦、“三八”等节点组织开展的9,000余场次各种大中小型群众体育活动,还有先后承办的多场各级比赛,极大地促进了该市全民健身运动的广泛开展。继续增加城市中文化体育类场所网点应该是抚州市相关管理部门下一步建设目标。

(四)老城区的城市中心地位明显。从高热区块地理位置属性来看,3个行业基本都是重叠在抚州市的老城区,特别是沿抚州市的主干道赣东大道沿线,这主要是因为不同服务行业之间存在连带配套的需求致使行业扎堆城市中心老城区布点。但是,从城市长远发展来看,这种态势有必要引起城市管理者的关注。例如,作为抚州市重要的文化网点的汤显祖大剧院,虽然拥有344次的高签到次数,却没有被提取到高热区块中。这一方面因为加权密度算法的参数设置的数据点归属判定条件的限制;另一方面也反映了在汤显祖大剧院周围缺乏配套的文体类娱乐网点的建设,无法实现文化圈的集群效应。

五、结语

行业空间分布特征分析对推动城市合理化布局具有重要研究意义。空间位置数据是一种典型的大数据,具有体积大、采集速度快、模态多样和价值巨大等特征,是一种非常宝贵的新的战略资源。通过对抚州市餐饮、购物和娱乐休闲这3个服务行业的空间数据的加权密度聚类,得到了行业高热区块分布位置和高热点集,获取了该市3个行业的主要空间分布特征,也發现了空间布局存在的问题,解决了传统聚类算法单一利用位置属性判定数据点分类的弊病,提高了聚类提取行业高热区块的合理性。研究结果表明,综合多维空间数据的非位置属性,可以更真实地反映城市行业布局特征,帮助管理者在城市规划中科学决策,促进城市商业圈更好地发挥集群效应。

主要参考文献:

[1]李芬,赖玉珮,刘悦.低碳生态城市的建设成效认知评价——基于城市管理者问卷调查[J].北京规划建设,2013(6).

[2]张文忠,李业锦.北京市商业布局的新特征和趋势[J].商业研究,2005(8).

[3]仵宗卿,柴彦威.论城市商业活动空间结构研究的几个问题[J].经济地理,2000(1).

[4]邓羽,蔡建明,杨振山,等.北京城区交通时间可达性测度及其空间特征分析[J].地理学报,2012.67(2).

[5]段炼,党兰学,李铭,等.位置数据稀疏约束下的疑犯时空位置预测[J].郑州大学学报(工学版),2018.39(5).

[6]龚希,陈占龙,谢忠.出租车轨迹数据的地域间移动模式分析[J].武汉大学学报(信息科学版),2018.43(10).

[7]谷岩岩,焦利民,董婷,等.基于多源数据的城市功能区识别及相互作用分析[J].武汉大学学报(信息科学版),2018.43(7).

[8]田晶,熊富全,程雪萍,等.道路密度分区及其在道路选取质量评价中的应用[J].武汉大学学报(信息科学版),2016.41(9).

[9]许泽宁,高晓路.基于电子地图兴趣点的城市建成区边界识别方法[J].地理学报,2016.71(6).

[10]吴康敏,张虹鸥,王洋,等.广州市多类型商业中心识别与空间模式[J].地理科学进展,2016.35(8).

猜你喜欢

空间数据聚类分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
元数据驱动的多中心空间数据同步方法研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
基于文件系统的分布式海量空间数据高效存储与组织研究
客户端空间数据缓存策略
多源空间数据同名实体几何匹配方法研究