APP下载

基于美团外卖POI的城市餐饮业的空间热点分析
——以南昌市为例

2020-03-13杨舒波张忠海

江西科学 2020年1期
关键词:爬虫南昌市店铺

夏 宇,杨舒波,张忠海

(1.江西师范大学地理与环境学院,330022,南昌;2.江西师范大学鄱阳湖湿地与流域研究教育部重点实验室,330022,南昌)

0 引言

兴趣点(Point of Interest POI)数据是一种包含了空间信息和属性信息的空间数据源。POI数据由于与生活密切相关,通过研究POI的分布特征可以反映出城市人口、商业等的布局特征。吴康敏[1]等利用广州市核心区域不同类型的POI数据,利用核密度分析、统计分析、最近邻距离分析方法来识别不同类型的商业中心的边界,并探索商业空间结构和模式。许泽宁[2]利用电子地图兴趣点来提取城市建成区,高晓路[3]等利用POI的核密度等值线来提取城市群边界。段亚明[4]等利用POI数据来识别重庆城区的多个中心。这些研究表明POI数据对研究城市空间特征有重要意义。外卖店铺作为一类重要的POI数据,伴随着移动互联网的发展而成长。目前,我国在线餐饮外卖用户规模突破3亿。其中21-35岁年龄段的人最多,占了73.04%,年轻人是网络订餐的主力消费人群。文献[5]指出研究餐饮业店铺分布可以发现城市人口的分布特征与经济重心,餐饮业的合理化布局对发展城市经济、满足居民需求发挥着重要作用。研究外卖行业的布局特征有重要研究意义。

POI数据的获取方式分为3类,第1类是利用地图服务商提供的接口获取指定区域的POI数据,如曾璇[6]等利用高德地图开放的API爬取并筛选2015年海珠区POI数据,戚荣昊[7]等通过百度地图获取POI数据。第2类是使用社交媒体的位置签到数据来获取POI数据,丁娟[8]等利用照片中的地理位置坐标信息,采用DBScan聚类分析方法,计算中国入境游客地理兴趣点(POI),胡庆武[9]等通过微博签到数据来探索城市热点与商圈,并指出众源地理数据为空间数据挖掘提供了一个新的研究方向。第3类是O2O上的POI数据,文献[10]利用爬虫采集了北京大上地区大众点评数据来研究城市商业服务设施的发展规律。并指出传统由工商部门或商业采集的POI数据受采集周期的影响,存在样本量不足的、实效性差等缺点。第2、第3类作为众包地理数据源,具有更新快、数据量大、实效性高的优点。

美团外卖的店铺数据相对于大众点评的POI数据具有销量、价格等经济属性,由于使用量大,店铺POI信息更新速度相对更快,对研究餐饮行业的布局特征和发展状况有重要意义,本文利用网络爬虫获取美团外卖在南昌市的店铺POI数据,并利用核密度方法和统计方法来研究外卖店铺POI的布局特征。可以为餐饮行业的商业选址提供指导意义,同时为从业人员提供销量分布特征,为相关决策提供参考。

1 外卖店铺POI的获取和预处理

1.1 研究范围

南昌市是长江中游城市群中心城市之一、环鄱阳湖城市群核心城市,经济发展处在全国前列,有较强的代表性。2018年常住人口541.74万,城市建成区358.90 km2。本文将南昌市绕城高速所包围的区域作为主要的研究区域,主要包含东湖、西湖、青云谱、湾里、青山湖、新建区等部分区域,涵盖南昌市主要建成区范围(图1)。

图1 南昌市绕城高速行政区划

1.2 面向网络接口的网络爬虫

网络爬虫是一种自动抓取网页内容的程序,传统的网络爬虫通过解析html文档[11],将有用的数据提取出来。随着移动互联网的发展,产生了一些超级应用,这些应用成了一个个信息孤岛,这些应用的数据无法通过搜索引擎来获取,也无法通过解析html的方式爬取数据,但这些应用也是通过http和后台交互,通过获取关键接口,构造请求参数,模拟应用请求,也可以持续不断地将特定的数据抓取下来[12-13]。当前的数据格式主要为JSON,JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。它基于ECMAScript的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。在JS语言中,一切都是对象。因此,任何支持的类型都可以通过JSON来表示,例如字符串、数字、对象、数组等。但是对象和数组是比较特殊且常用的2种类型:对象表示为键值对、数据由逗号分隔、花括号保存对象、方括号保存数组。

本文爬虫的过程如图2所示,通过浏览器访问美团外卖(http://h5.waimai.meituan.com/waimai/min dex/home),并打开调试工具,通过加载数据来获取店铺列表的接口(http://i.waimai.meituan.com/openh5/homepag e/poilist),并读取cookie和header数据记录下来,通过模拟请求的方式来获取接口的数据。本文将南昌市0.1度×0.1度的格网,在每个节点最多请求10次接口,每次间隔20 s,以防止ip地址被封闭,将请求到的json数据(图3)解析并存放到数据库中,由于美团对数字进行了加密,且同一个数字对应的字符串相同,通过目视解密,在存进数据库前,将加密字符替换成对应的值。

图2 爬虫处理流程图

图3 接口返回数据

由于这个接口没用带经纬度数据,本文通过高德地图web服务和百度地图web服务将文字地址转换成经纬度,再将坐标系统一转换成wgs84坐标系,并分别制作核密度图(图4),从图4中可以看出百度地图文字转经纬度的核密度图存在2个密度值非常高的点,导致这2个点的周围的密度呈圆圈分别,造成这种现象的原因是百度地图将多个不同的地址解析在一个经纬度上,而高德地图解析出来的经纬度则不存在这个规矩的形状,通过以上判断可以说明高德地图的地址解析更好,所以最终本文采用高德web服务。

图4 不同地址解析结果核密度估计值图

2 基于核密度估计的餐饮外卖分布热点

核密度估计方法是一种适合于连续性现象的密度估计方法,如城市设施服务影响,交通路段风险评估等[14]。核密度的计算公式如下:

式中:f(s)为位置s处的核密度计算函数;h为距离阈值;n为到位置s的距离小于或等于h的店铺数量;k函数则表示权重函数。这一公式表明密度值在每个店铺ci处最大,与ci相距h时密度值为零。核密度函数存在权重函数k与距离阈值h 2个关键参量。常用的权重计算函数有高斯方程、四次方程、副指数方程、最小方差方程等。研究表明权重函数的选择对结果的影响不大,距离阈值的选择对结果的影响较大。根据实际经验,h值越大,密度表面越光滑,热点区域越容易被覆盖;h值越小,得到的密度表面变化越突兀,局部的特征会更明显,而整体关联性减弱,使得热点区域过于分散。本文选择500 m、1 000 m、1 500 m、2 000 m为搜索带宽进行实验,结果如图5所示。可以看出,随着带宽的增加热点区域的个数在减小,热点区域越来越集中,且密度表面越来越趋向于光滑,在4种带宽中h=1 000效果比较理想,在反映餐饮分布的整体趋势的同时,也能够较好地呈现局部的热点区域信息。因此本文选用带宽为1 000 m为核密度估计的搜索带宽。

3 结果与分析

3.1 外卖热点分布特征

图5 不同带宽下的核密度估计结果

本文通过爬虫爬取到4 363条数据,这些店铺分布如图6所示。这些店铺整体分布还是比较均匀,适合用来分析南昌市外卖POI布局特征,其核密度如图7所示。从图7中可以看出,外卖餐饮的分布特征在整体上呈现由中心向外围密度逐渐减小的趋势;从局部热点来看,其热点区域主要分布在老福山、八一广场、西湖区、孺子路、万达广场、红谷滩、瑶湖等,其中老福山、八一广场、孺子路、万达广场、红谷滩等作为城市的商业中心,人流量大,年轻人多,年轻人作为外卖的主力军,导致这些区域的店铺密度特别高,而瑶湖周边有若干所大学分布,大量的学生对外卖的需求也比较大,所以瑶湖的店铺密度也特别高,这说明餐饮行业作为基础服务设施,它的热点区域分布与人口分布有很大的重合性,人口越密集的地方对食品的需求越大,同时年轻人多的地方,店铺的分布也比较密集。

图6 外卖店铺分布范围

图7 外卖店铺的核密度估计结果

3.2 外卖销量的分布特征

本文按照月销量0~199、200~999、1 000~3 999、4 000~9 999分为低、较低、较高、高4类,其分布如图8所示,数量如图9所示,月销量小于200份的店铺占了一半以上,这可以说明对大部分店铺而言,外卖只是增加了一种他们的销售方式,无法依靠外卖独立经营,他们更多的还是依赖传统的销售方式生存。从不同销量的店铺分布图来看,外卖销量的分布特征为销量从低到高的店铺分布越来越集中,销量大于4 000的店铺大部分都分布在核密度为深色的区域,在这些区域周边存在着大量的店铺,竞争大,同时这些区域人流密集,需求旺盛,回报也大。外卖店铺的分布密度对店铺选址等有着重要的指导意义。

图8 不同销量类别的店铺分布结果

3.3 外卖销量与核密度估计值的相关性

利用arcgis的空间分析值提取到点工具将核密度估计值提取到店铺上,本文按销量每个1 000将销量分为9种类型,并计算平均核密度值,结果如图10所示。从图10中可以看出,不同销量的核密度平均值呈现出先升后降再上升的趋势,当销量低于4 000时,店铺的销量越高,店铺所在的地方核密度值越高,销量在4 000~8 000,随着销量的增加,店铺所在地方的核密度值先持平后稍微下降一段,当销量高于8 000核密度值又变大了。这表明当销量较低时周围店铺越多越有利于店铺的销售,这个时候这里的竞争还不充分,当销量达到中等销量的时候周围店铺的存在反而会降低自己的销量,此时这个地方存在过度竞争的趋势。而对于销量最好的商家而言,周围店铺越多自身的销量越好,表明这些店铺对周围店铺具有竞争优势。

图9 店铺类别数量和占比

图10 不同销量的店铺平均核密度值

4 结论

本文通过爬虫爬取美团外卖在南昌市的店铺POI数据4 363条数据,外卖店铺数据具有实时更新,具有经济属性等特点,利用核密度方法研究了南昌市外卖店铺POI在南昌市的集聚特征,得到如下主要结论。

1)外卖店铺在南昌市的分布呈现出由市中心向周边逐渐减小的趋势,外卖店铺分布热点主要分布在老福山、八一广场、西湖区、孺子路、万达广场、红谷滩、瑶湖等商业中心或大学城附近。这对餐饮行业的商业选址具有指导意义。

2)南昌市外卖店铺60%店铺月销量低于200,大部分店铺无法依赖外卖平台生存下来,销量高于4 000的店铺大部分都分布在店铺密集区域。这表明南昌市的外卖行业还有很大的发展潜质。

3)对低销量和高销量的店铺而言周围的店铺越多,越有利于提高销量;而对于中等销量的店铺而言,周围店铺的增多对销量起着抑制的作用。这对外卖从业人员提高销量提供了一个选择的思路。

猜你喜欢

爬虫南昌市店铺
利用网络爬虫技术验证房地产灰犀牛之说
模拟成真
老店铺杂事
江西南昌市1169个建制村实现通客车
基于Python的网络爬虫和反爬虫技术研究
考了个大的
苏轼的店铺
吃两个
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术