大数据视角下的京津冀地区城市体系现状
——以POI数据和手机数据为例
2021-01-27王崑阳谯博文
王崑阳 谯博文 张 晶∗
(1.广岛大学综合科学研究科,广岛7398521;2.首都师范大学三维重点实验室,北京100048)
0 引 言
城市体系是由一系列不同等级规模、不同职能分工和相互密切联系的城市组成的系统[1],其结构反映了城市群内部的空间特征[2].城市体系将一定范围内的城市视为一个具有层次等级,且不断改变的整体[3].区域一体化是城市体系的一种发展形式,是指区域内的2个或多个城市突破行政区划制约,使发展要素和资源在彼此之间自由流动和优化配置,促进社会经济紧密融合,形成优势互补、共同繁荣的整体效应[4],如京津冀一体化.
城市基础设施是城市发展的支柱[5],基础设施的数量反映了一个地区的发展规模.城市基础设施的建设程度在一定程度上代表了某一区域的城市发展等级.分析京津冀地区城市基础设施的分布,对全面了解京津冀地区现状与未来发展趋势具有重要的意义.各类基础设施在区域内的分布特征反映了其空间分布上的公平性与异质性[6-8],可以体现城市之间的功能差异[9-11].同时,城市基础设施的数量必须考虑该地区的人口数量,城市基础设施的建设要以人口为基础,人口的数量反映了该城市对于基础设施的需求量.单独对人口或城市基础设施进行讨论是片面的,并不能反映城市的实际情况,将城市基础设施数量与人口数量结合讨论是必要的.通过对比城市基础设施与人口的关系,可以确定该区域是否存在基础设施供不应求的情况,而基础设施的供需不平均是造成人口迁徙的原因之一[12].
另一方面,交通网络是制约区域内各城市之间各类供需关系的重要因素[13].随着技术的发展,手机的位置移动数据逐渐被应用到人口与城市的研究中[14].通过手机内置的基于位置服务(location based services,LBS)功能,定位设备的所在位置,再对比不同时刻设备所在位置的变化,从而获取该设备在空间上的位置移动信息[15].相比于路网,手机数据所反映的交通信息更客观地描述了实际的交通量;相比于基于公路流、铁路流的研究方法,手机数据可以更加全面地获取到一定范围内的人口移动信息,并且拥有更高的时空精度[16-17].手机数据可以同时涵盖多种交通方式所产生的位置移动信息,更加全面和直观地反映不同城市之间的关联强度.但目前利用手机移动数据对京津冀地区的研究尚少.
土地利用-交通相互作用模型(land use-transport interaction model,LUTI)是模拟城市发展过程的常用模型,主要用来研究土地利用决策对社会活动和交通发展的影响,或交通决策对社会活动和城市空间分布的影响.LUTI模型侧重城市内部结构的变化,对于空间公平性和社会群体的空间聚集分析较为薄弱[18].信息点(point of information,POI),即描述信息的点,其包含该点的坐标位置及其他所需要的信息,可以充分反映城市内部的功能区差异,且城市基础设施POI的分布模式、分布密度在城市空间分析中具有重要意义[19].而手机数据则可以提供必要的交通信息.基于这些考虑,本文提出设想,使用POI数据作为城市土地利用信息,使用手机数据作为交通信息.在这个层面上,通过研究城市间的土地利用与交通,研究城市之间的城市体系.
京津冀包括北京、天津、石家庄、唐山、秦皇岛、邯郸、邢台、保定、张家口、承德、沧州、廊坊和衡水,共计13个城市.2014年以前,京津冀地区的发展缺乏统一规划,区域一体化进程缓慢、结构趋同现象严重[20-22].随着雄安新区进入国家规划,京津冀一体化发展的需求空前盛大.对京津冀地区的城市体系现状进行研究,有利于把握当前京津冀都市圈内各城市的发展特征,对未来规划具有重要的参考价值.本研究以土地利用-交通相互作用模型为基本思路,利用京津冀地区6类城市基础设施POI数据作为城市土地利用属性,手机 LBS数据作为交通属性.本研究旨在通过POI和人口数据研究当前京津冀地区以医疗、学校、银行、超市商场、餐饮和宾馆酒店为代表的城市基础设施的空间分布特征及其空间公平性;通过手机数据研究各城市在网络结构下的空间交互强度以及依附关系;通过对比POI和手机数据,挖掘京津冀地区资源较为丰富、空间交互较弱,具有发展潜力的地区,为京津冀一体化发展提供参考与建议.
1 数据来源与研究方法
1.1 数据来源
本文的POI数据来自百度地图开放平台(https://lbsyun.baidu.com/),获取了截至2015年6月的 POI数据,医疗、学校、银行、超市商场、餐饮和宾馆酒店分别为 14 651、23 150、25 129、51 896、39 312和10 187条.每个城市基础设施 POI包含4方面的信息:设施名称、设施类别、经度和纬度.利用这些数据点的空间分布特征,可以反映出区域内不同城市之间基础设施的空间分布关系.
手机数据是来自百度迁徙所属的人口移动大数据项目.本文采集了2015年4月11—26日期间的16个自然日(10个工作日和6个休息日)京津冀地区13个城市之间逐小时人口流动数据.16个自然日采集的样本总量超过200万条,日均超过12万条,从而保证了本文推断的有效性,其中工作日累计样本量约123万条,休息日累计样本量约82万条.
1.2 研究思路与方法
1.2.1 均衡性评价
本文所采取的评价方法为变异系数(coefficient of variation,CV)[23]和赫芬达尔指数[24](herfindahlhirschman index,HHI).CV也称离散系数,反映了地区均衡度,其值越小,说明该区域越均衡,离散程度越小,公式为
式中σ表示标准差,μ表示平均数.HHI经常用来衡量产业集中度,公式为
式中Xi表示某地区某类POI数量,X表示一定空间范围内的同类POI总数,Si=Xi/X表示某地区的某类POI占有率,N表示地区总数.HHI反映区域规模指标的聚集程度,数值越大说明越集中,当区域属于完全垄断状态时,则HHI=1.
另外,为了直观地反映城市内资源与人口的关系,本文设计了城市基础设施资源总数与常住人口总数的比值,对城市的POI分布及供需情况进行评价,简称资源-人口比例,具体方法为
式中R表示某区域内某类资源的资源-人口比例,M′表示该区域某类 POI数量,M表示京津冀同类POI总数,P′表示该区域常住人口数量,P表示京津冀常住人口总数.
1.2.2 聚类算法
聚类是将具有相似属性的样本聚到一个类中的数据挖掘方法,旨在识别多变量数据中的离散模式[25].该方法通过样本之间的相似性进行分组,通过树状图反映各要素之间的结构与关系.
1.2.3 优势流方法
优势流方法是一种网络简化方法,该方法参照城市规模,依据某一个城市主要要素流的流向,将这个城市归属到对其最具控制力的中心[26].一般在一定空间范围内某城市所处层级水平越高,表明其中心性、主导性越强,对周边城市或地区的控制力和影响力越大,服务范围越广.
1.2.4 社区发现算法
社区发现算法用于发现网络中的社区结构[27].在社交网络中,每位用户都相当于一个点,用户之间通过互相的关注关系构成了整个网络的结构,在这样的网络中,有的用户之间连接较为紧密,有的用户之间连接关系较为稀疏,连接较为紧密的部分可以被看成是一个社区,其内部的节点之间有较为紧密的连接,而隶属不同社区的节点间的连接则较为稀疏.
社区发现是一个复杂而有意义的过程,用于探测并揭示不同类型复杂网络中固有的社区结构[27].其中,Fast Unfolding算法是基于模块度对社区进行划分的算法,通过不断划分社区,使划分后整个网络的模块度不断增大.划分后的网络模块度越大,说明社区划分的效果越好.Fast Unfolding算法通过反复运算使模块度增大,并根据运算结果对网络进行重构,直到网络结构不再改变[28],最终聚合成围绕少数中心点形成的网络,这与城市体系中的单中心、双中心、多中心城市结构很相似.因此该算法非常适用于挖掘城市之间的潜在关系.Fast Unfolding算法公式为
式中:Q表示整个社区的模块度;m表示该网络中的权重总和,Aij表示节点i和节点j之间的权重;k表示与顶点连接的边的权重;Ci和Cj分别代表节点i和节点j被分配到的社区;δ用于判断顶节点i和节点j是否被分配的同一社区.
1.2.5 反距离权重法
反距离权重法假定每个测量点都有一种局部影响,而这种影响会随着距离增大而减弱[29],这很符合人们在对城市基础设施进行出行选择时的就近原则.因此本文使用反距离权重法对POI和手机数据所反映的城市连通度进行插值.
2 基于公共服务的京津冀地区城市体系分析
2.1 各地区6类城市基础设施分布情况及均衡性分析
为了能够直观地查看各地区城市基础设施的分布情况,本文将各地区6类POI的数量进行了类型内对比,以获得各地区6类POI在京津冀都市圈内所占该类POI总量百分比,如表1所示.同时,计算了6类城市基础设施POI在不同地区的资源-人口比,如表2所示.
表1 6类城市基础设施POI在不同地区的比例和不同地区常住人口量比例 单位:%
表2 6类城市基础设施POI在不同地区的资源-人口比及总量排名
从表1可知,在6类城市基础设施中,北京均处于优势地位,其中医疗 POI占京津冀地区总量的32.4%,餐饮POI占50.4%,宾馆酒店POI占44.9%,其6类 POI总量占京津冀地区 POI总量37.1%.天津市6类POI均在京津冀地区排第2位,北京和天津两地6类 POI相加可以发现,银行、超市商场、餐饮和宾馆酒店4类POI之和均已超过京津冀地区6类POI总量的50%,而常住人口之和为33.9%.从表2可知,6类POI在北京、天津的资源-人口比远高于其他地区,其POI总量的资源-人口比例分别位于第1位和第3位,以城市基础设施提供者的身份向周边城市提供6类城市基础设施服务.秦皇岛的资源-人口比例虽然位居第2位,但这主要是因为其旅游城市的特性,流动人口高、常住人口少,并不能认为其具有向周边城市提供城市基础设施服务的能力.位居第4位的廊坊同样存在大量流动人口.由此可见,大多数城市基础设施均分布在北京和天津,其城市基础设施公平性远高于其他城市,并向周边城市提供城市基础设施服务.根据表1的数据,可以计算出6类 POI在京津冀地区的CV和HHI.如表3所示.
表3 6类POI在京津冀地区的变异系数和赫芬达尔指数
通过CV与HHI之间的变化规律可以看出6类城市基础设施均处于过度集中或过度离散的状态.餐饮与宾馆酒店这类生活服务类型POI在京津冀地区集中度较高,而医疗、学校、银行这类基础保障类型POI则相对较为平均.
本文还将各地区6类POI的数量进行了区域内对比,以获得各地区6类POI在京津冀都市圈内所占本地区6类POI总量百分比,如表4所示.从POI总量中可以发现,邯郸、邢台、沧州、衡水所包含的POI总量均低于4.0%,总比为12.1%,但4市所包含的常住人口总量达到26.1%,4市资源-人口比例为京津冀都市圈内的倒数4名,属于重度城市基础设施需求地,具有较低的城市基础设施公平性,因此应加强城市基础设施建设,或加强与周边基础设施丰富的城市之间的互动.而张家口与承德2地虽然POI总量<4.0%,但由于其常住人口量较少,城市基础设施需求量低.在河北省的各城市中,医疗和学校POI在石家庄以及保定比较集中,且石家庄略高于保定.
表4 不同地区6类城市基础设施POI在本地区的比例 单位:%
从表4可知,超市商场POI在京津冀地区均占较高比例.北京、秦皇岛、廊坊、天津和唐山的餐饮占据较高比例.由于秦皇岛是一个旅游城市,宾馆酒店的占比为京津冀地区最高,而承德、衡水、邯郸和张家口则以学校所占比例较高.
2.2 6类城市基础设施POI的空间分布密度
为了能够更直观地反映出6类城市基础设施的分布情况,本文计算了6类POI在各城市的点密度.点密度体现了每个输出栅格像元周围的点要素的密度.从概念上讲,每个栅格像元中心的周围都定义了一个邻域,将邻域内点的数量相加,然后除以邻域面积,即得到点要素的密度(见图1).
图1 京津冀地区6类POI密度分布(a)医疗;(b)学校;(c)银行;(d)超市商场;(e)餐饮;(f)宾馆酒店
从图1可知,6类POI在北京均呈现较为集中的形态,以医疗和餐饮最为密集.学校、银行和超市商场这3类POI则在北京、天津和石家庄均有集中态势,且在各地均有较为密集的分布,其中学校POI相对最为平均,说明教育资源在各地区分布较为平衡.宾馆酒店类则是除北京和天津外,在秦皇岛市呈现密集形态.
2.3 各城市POI总量聚类
根据各城市的POI数量,对京津冀都市圈内的城市进行了聚类(图2).根据POI的性质,聚类距离越近的地区其POI分布特征越相似,距离越远则表示其POI分布特征差异较大。图2反映了北京、天津两地在整个京津冀都市圈中具有较高的城市基础设施占有率.值得注意的是,对于河北省内的城市,石家庄、保定与其他城市的差异,体现了石家庄和保定在河北省内,相对于其他城市有较高的POI占有率,即具有更大的发展潜力以及带动周边城市发展的能力.
图2 京津冀地区城市POI聚类
整体对比可知,北京、天津在6类 POI的空间公平性上全面处于明显优势地位,对周边城市具有一定的领导作用.位于第2梯度的则是石家庄和保定,这两地在河北省内的基础设施空间公平性最高.而南部的邢台和邯郸不仅 POI分布稀少,从距离上也难以利用到北京、天津的资源.
3 基于人口流量的京津冀地区城市体系分析
3.1 基于人口流量的京津冀社区划分
对京津冀都市圈各城市之间的LBS数据进行统计,得到共计156条不对称网络联系(图3),通过优势流方法获得其中占主导地位的23条主要人口流动线路.对占主导地位的23条线进行二次分类,使用自然断裂法分为5级,断点类别基于数据中固有的自然分组.将分类间隔加以识别,可对相似值进行最恰当地分组,并可使各个类之间的差异最大化.从图3可知,北京-廊坊两地之间的人口交互强度最高,日均人口流量达到36 839人次.北京-保定和北京-天津之间的人口交互强度次之,分别为17 646与13 660人次.天津-廊坊、天津-唐山也以 10 188与7 207人次保持在第3梯度.由此可见,廊坊与北京和天津两地的人口流量都处于较高的水平,说明三地之间的空间交互程度较高.整体上,除上述地区外,承德、张家口、石家庄、沧州与北京和天津两地的人口流量较大.相对而言,河北省11个城市之间人口流量较小,均在日均434人次以下.
图3 京津冀地区日均人口流量图(双向)
使用Fast Unfolding算法进行社区发现京津冀地区呈现双中心的结构(图4).其中,石家庄、保定、邢台、承德、邯郸、廊坊和张家口以北京为中心;而唐山、秦皇岛、衡水和沧州则以天津为中心.
图4 基于Fast Unfolding算法的网络结构下京津冀地区社区发现结果
3.2 网络结构下的中心城市差异
为了更直观地观察北京、天津2个中心城市的人口流量,制作了双向人口流量图,并使用对数函数对数据进行拉伸,使其更加显著地反映进出关系(图5),从图5可知,以北京和天津为中心的人口移动整体趋势为进京津方向人口流量大于出京津方向,且北京更为显著.以北京为中心的城市体系中,除了廊坊,均明显呈现进大于出的趋势,仅秦皇岛差距微弱.而天津为中心的城市体系中,沧州、唐山和保定进津方向明显多于出津方向,其他城市并无明显差异.值得注意的是,廊坊市在以北京为中心的城市关系中,不同于整体进京大于出京的趋势,虽然差距微弱,出京却大于进京.总体来说,北京市对周边城市的影响力大于天津市.
图5 北京、天津进出双向日均人口流量示意图(a)北京;(b)天津
4 POI与人口流量所反映的城市热度差异
使用反距离权重法,计算各地区POI以及人口流量热度(图6).从图6可知,京津冀都市圈各城市POI热度与人口流量热度整体上很相似,但石家庄的POI热度与人口流量热度差异却很大.石家庄虽然拥有丰富的基础设施资源,但其作为省会城市对周边城市的影响能力不足,在网络结构中的核心地位与层次性不明显.实际交通交互量远低于其基础设施的承载能力,基础设施无法得到充分利用,其周边城市也难以利用到石家庄的城市基础设施资源.再加上邢台、邯郸和北京、天津的距离较远,联系较弱,使京津冀南部地区在整个网络中处于薄弱状态.石家庄丰富的城市基础设施资源和薄弱的交通交互量,使其具有成为京津冀都市圈内另一个中心城市的可能性.
图6 京津冀地区各城市POI热度与人口流量热度(a)POI热度;(b)人口流量热度
5 结论和讨论
本文证明了使用POI数据与手机数据替代LUTI模型中原本的土地利用和交通信息进行城市体系研究具有可行性,且二者结论具有一致性.北京、天津和石家庄的城市基础设施资源远远比京津冀都市圈内的其他城市丰富,具有向周边城市提供城市基础设施服务的能力;围绕北京和天津形成的双中心网络结构可以有效带动北部区域发展,但是南部地区当前并没有中心城市,并且与现有中心城市的交互较弱;位于南部的石家庄虽然现在与周边城市的交互较弱,但具有丰富的城市基础设施资源,有较高的发展潜力.伴随雄安新区的设立,京津冀地区将从双中心变为多中心的形态,配合保定的城市基础设施资源,可以很好地带动包括沧州和衡水在内的京津冀中部地区发展,而南部城市群依然处于薄弱的地位.基于本研究的结果,在京津冀后续发展计划中,加强发展石家庄作为省会城市的优势,可以更好地带动南部城市群发展,为京津冀一体化发展提供助力.当然,城市体系的研究还有很多方面,本文只是从公共服务和交通联系2个角度对京津冀都市圈的城市体系进行了探究,未来还可从更多角度进行研究,更好地为京津冀一体化发展提供参考和依据.