基于多源大数据的武汉市区域空间格局研究*
2019-07-19詹庆明范域立罗名海米子豪张慧子张月朦ZHANQingmingFANYuliLUOMinghaiMIZihaoZHANGHuiziZHANGYuemeng
詹庆明 范域立 罗名海 米子豪 张慧子 张月朦 ZHAN Qingming, FAN Yuli, LUO Minghai, MI Zihao, ZHANG Huizi, ZHANG Yuemeng
0 引言
长期以来,区域研究者关注各种大尺度的要素在区域中形成的空间格局,以对城市的发展潜力、产业协调、资源分配等问题做出判断和建议。传统上,这类研究的对象主要是静态的资源、设施等,主要包括:(1)城市资源格局,如自然资源(如能源、矿藏、山水等)和社会资源(如人才、历史文化、产业分布等);(2)城市交通格局,如道路网、铁路交通网、长江水运网、航空航运网等;(3)城市基础设施格局,如水工设施、电力设施等。这些研究所关注的问题涉及经济重心转移[1]、城市群城市网络结构演化[2]、建成区空间蔓延[3]、流动人口迁移[4],甚至区域热岛效应和环境污染[5-6]等。总的来讲,这些研究在数据来源上依赖于大量的社会调查、统计普查和基础测绘等工作;在方法上主要使用空间统计、网络分析等数学工具,针对单个研究对象、单个要素的空间分布特征展开分析,或者分别针对单个研究对象、不同要素,或多个研究对象、同一要素独立展开分析;在研究的主题和角度上,也相应地存在“就数据论数据”的问题,常常难以和具体而多维的实际问题相结合。
图1 研究思路和框架
上述这些局限,主要是由漫长的数据获取周期、高昂的数据获取成本与覆盖范围之间的矛盾、有限的运算能力和计算工具等客观条件的阻碍所导致的。近十几年来,这些状况有了根本的改观。2006年,伴随着移动通信的广泛应用,手机信令数据首次进入城市研究者的视野[7];2007年,美国航空航天局(NASA)开放Landsat对地观测卫星数据,利用多光谱遥感影像进行城市和区域分析的研究出现爆炸式增长[8];2012年前后,互联网时代下“大数据”的概念开始进入公众视野,并受到研究人员的广泛关注[9]。同一时期,民用中央处理器(CPU)的计算能力增长了10倍以上,基于图形处理器(GPU)的运算开始得到广泛运用,大量专业软件平台也大大简化了各类数据的清洗、融合和管理等工作。在这一背景下,以人流、物流、信息流、资金流、技术流[10]等为主的在区域中运动的动态要素开始深入区域研究者的视野[11-12],一系列专题性的研究开始由此展开,涉及的话题包括人口迁徙[13]、投资流动[14]、城市群通勤和经济联系结构[15]等。不过,在方法上,相当一部分研究仍然以传统的空间统计方法为主,并且为了适配这些低维度方法,大大压缩了原始数据所具备的信息量,实际上是将“大数据”当作“小数据”来利用,一方面浪费了新来源数据巨大的利用价值,另一方面容易在分析结果中放大大数据常常具有的系统性偏差[16];另一部分研究则引入神经网络、深度学习、多智能体模拟等较高效的“黑匣”式算法[17-18],这些方法能够对多来源、多维度、多属性的复杂数据进行有效的融合,对城市和区域系统的模拟和预测起到了巨大的推动作用,但这些算法可解释性差的特点使得它们在现象分析和描述方面所能起到的作用有限。
有效的方法和思路,是基础数据和研究问题之间的桥梁。在自然资源部“武汉市大数据城市空间格局变化监测试点”项目[19]中,对于结果可解释性和实证分析的需求促使我们尝试在传统统计模型和空间分析模型的基础上,以易于理解和解释的方式,对大数据所包含的信息进行尽量充分的挖掘和利用。这些尝试最终反映在综合便利度模型、便利度—引力模型和势力范围模型3种改进的分析模型以及相应的分析结果上。在本文中,我们对3种模型的来源、改进方式和相互关系进行了说明,通过对武汉市的实证分析,阐述其实际的作用效果,并进一步讨论这一思路在城市与区域分析中的发展潜力与扩展空间(图1)。
表1 研究范围
1 研究范围和重点研究对象
本文以地级及以上行政单元作为基本空间单元,研究武汉市与内地其他城市的关系。受到数据来源和计算资源的限制,在计算部分指标时,仅以部分与武汉市可比性较强的重点城市作为研究对象。具体的选取标准为:直辖市、国家中心城市和副省级城市,长江经济带上的省会城市和特大城市,干线机场以上城市,区域客运枢纽以上的铁路枢纽城市。取上述集合的并集作为重点研究对象,包括:武汉、北京、天津、上海、广州、深圳、重庆、成都、郑州、西安、南京、杭州、哈尔滨、沈阳、长春、济南、青岛、厦门、长沙、合肥、南昌、昆明、贵阳、苏州、东莞、乌鲁木齐、大连、兰州、呼和浩特、福州30个城市(表1)。
本文采用的数据主要有列车停站表、航班班次表、公路路线规划数据和腾讯位置数据。列车停站表中包含的属性字段有车次、停站、车站编号、到站时间、发车时间、经纬度和停站城市;航班班次表中包含的属性字段有航班号、起飞时间、到达时间、每周排班日期、起飞机场、到达机场、起飞城市和到达城市;公路路线规划数据包含的属性字段有起始城市、终点城市及预期最短时间;腾讯位置数据中包含的字段有出发地、到达地、日期、总客流量、总铁路客流量、总公路客流量和总航空客流量(表2)。
2 基于多源大数据的区域空间格局研究方法
城市的交通便利程度及城市在区域交通网中的位置、城市之间的实际联系强度和中心城市所具有的腹地范围都是中心城市区域格局评价的重要方面[20]。普遍认为,城市对外交通联系的便利程度影响其潜在的劳动力和原材料来源、产品市场、商贸活力等,很大程度上决定了其经济发展的总体潜力;而城市之间的人流、物流、资金流等实际联系则更加直接地影响到城市的旅游服务、物流等行业的发展前景;在多种因素的综合作用之下,最终形成呈现一定层级结构的城市腹地系统,成为各级中心城市的主要人口来源和市场[21]。
可以发现,上述3个问题之间实际存在着密切的联系,但传统的定量研究往往未能将三者视作一个整体进行分析。对于城市腹地的研究,常常将人口腹地范围定义在某一经验范围或者行政区划的边界以内,而未能考虑城市外来人口的真实来源和流动情况;对于城市间联系强度的研究,一般利用实际的联系量/客流量和城市间的欧式距离或者路网距离构建引力模型,而未在引力模型中考虑城市间的实际交通便利程度[22];对于城市交通便利程度的评价,也以对象城市交通水平的整体描述为主,而较少考虑到特定城市之间的交通条件评价[23-24]。总的来讲,数据采集和指标设计上的粗糙性和概括性限制了联合不同角度分析具体问题的可能性,而这一局限性与传统数据本身的特点是密不可分的:要在统一的框架下、从多个方面描述多对多的关系,这意味着数据获取的时间跨度、调查的空间范围和对象数目同时扩大,如果应用传统数据,就会在数据的收集和整理上带来无法接受的工作量;而部分网络大数据或者本身是互联网服务的一部分(如铁路和航班班次、公路路径推荐信息),或者是互联网服务所附带产生的(如定位数据),天然地具有结构化、多维度、覆盖范围广的特点,不需要付出额外的调查成本,从而使得设计和计算各类多对多指标、复合指标真正变得可行。下文将具体讨论如何利用大数据的特点,对这3个方面的评价方法进行改进。
表2 研究采用的基础数据
2.1 区域交通便利度评价
对于城市的交通便利程度,传统的评价指标包括城市总的吞吐能力和吞吐量、各类交通方式的班次总数、存在直达交通的城市总数等。这类指标关注的主要是评价对象的总体交通规模,而不是对象城市与其他城市之间的具体关系;最近的研究则引入了网络分析的方法,能够以道路和铁路等交通设施网络为基础描述城市在区域交通网络中的总体中心程度。然而,这样的网络分析方法一般是将特定城市之间的联系视作具有单一属性(也即“距离”或者“阻抗”)的链接,对特定“城市对”的交通便利程度描述较为粗糙,未能考虑道路通行速度、航班或列车的耗时、班次密度等实际影响出行者体验和选择的特性[25]。对此,可以从数据来源和评价方法两个角度进行应对。
(1)通过爬取在线数字地图,获取精确的城市间公路交通成本数据。传统的高速公路网形文件数据更新速度慢,且不包含路况、通行能力等众多影响道路实际通行速度的要素。相对而言,高德地图、百度地图等电子地图供应商通过长期的用户数据积累,对常用地点之间的交通时间、交通成本等有非常准确的判断。同时,高德地图等电子地图供应商提供了成熟的应用程序编程接口(Application Programming Interface,API),可以便利地进行自动化的批处理运算,获取任意两点之间的路径信息[26]。在本研究中,我们首先获取了所有地级及以上城市的列表,将任意两个不同的城市构建为包含两个元素的字符串组,并将两个城市的默认兴趣点(一般为该城市市政府所在地)分别作为起点和终点;在夜间车流稀少、基本不存在拥堵情况的条件下,用高德API遍历所有“城市对”,从而得到城市与城市之间的最短行车距离和最短行车时间。
(2)通过爬取列车和航班网络订票系统,获取任意城市之间的班次信息及任意班次的具体数据,从而对城市间铁路和航空交通状况有全面立体的认知。利用八爪鱼数据采集器可以较为方便地实现这一点:八爪鱼可以打开指定的网页URL,识别网页中的各类元素,通过翻页、下拉、页面滚动、条件判断等多种功能,获取网页上复杂的文字、表格、图片等数据,并进行初步的格式整理和数据清洗;通过设计爬取流程,可以根据指定的循环体和判断条件自动遍历多个给定的URL,实现网页数据的快速采集。对于列车来说,从12306.cn等在线订票网站上可以获取任意车次所有的停站站点、每一站点到达时间、出发时间、票价、该站是该车次第几站等详尽的停站信息;对航班来说,也可以相应地获取任意航班的始发、中转和到达城市及机场,出发和到达时间,每周排班情况,准点率等信息。
(3)改进两城市间交通便利程度的度量方式。过去通常构建两地(A,B)之间某种交通方式下最短距离或者最短交通时间的函数,作为两地交通便利度的表征[23],即:
其中costmin(A→B)为从城市A到城市B的最小成本,函数f为给定的效用函数。然而,这样的做法抹去了不同班次的成本累积带来的差异性。显然,在同样的最短列车时间下,每天有大量的高铁列车班次和少量的普通列车班次,与每天有大量的普通列车班次和少量的高铁列车班次,这两种情况对于两市之间便利交通的实际影响是截然不同的。为了反映这一点,应当将每一趟列车的成本均纳入考虑,即:
其中costRoutei(A→B)为通过路线i从城市A前往城市B的成本,函数f为给定的具有可变数量自变量的效用函数。作为一种较方便的实现方式,可以采用类似谐波网络中心度的方式[27-28],以两座城市之间累积班次交通时间的倒数作为两座城市之间该交通方式下的便利程度,即:
进一步以从对象城市前往所有可能城市的便利程度的累加作为对该城市总体交通便利程度的描述,即:
从而得到同时考虑对象城市所能联通的城市个数以及对象城市前往每个城市的每一种方式所需成本的综合性交通便利度指标。
2.2 城市间联系强度评价
引力模型被广泛地应用于评价两地之间的潜在联系程度。一般地,它包含一个规模参数和一个距离参数,类比于物理学中万有引力模型的质量和距离。常用的规模参数包括城市经济总量、人口总量等,而距离参数则多使用空间距离或者路径距离。最终得到两城市之间的潜在空间联系强度R。一种典型的模型形式为:
式(5)中,PA和PB表示两个城市的人口数(万人);GA和GB表示两个城市的GDP(亿元);DAB表示两个城市间的空间直线距离。即借由城市的经济规模与人口规模二者的几何平均值来反映城市的“质量”;b表示城市间相互作用模型的距离衰减指数,在全国范围研究中常考虑取值为1。
然而,正如上文所讨论的,单纯的路径距离并不能准确地表述两地之间发生联系和交换的成本,在路径距离不变的情况下,两地之间列车和航班班次的多少、公路通行速度的高低、列车运行速度的高低等因素综合起来也会极大地影响两地之间实际联系的强弱。因此,本文以两座城市之间的综合便利度的倒数来替代距离参数,即:
这一改进的引力模型可以更准确地表征两城市之间的潜在吸引力。进一步地,如果通过腾讯定位数据等位置服务数据获取给定时段中两城市间的实际客流量,以两城市之间实际发生流动的人口来替代两城市的总人口,则可以表征两城市之间的实际客流联系水平。两城市之间人口流动越频繁、来往越便利,则它们的联系越密切。同时,将两城市的经济总量作为规模参数之一,则表征了这种密切联系所带来的潜在经济效益。即:
其中,QAB为一定时间段内城市A前往城市B的客流总量,QBA为相应时间段内城市B前往城市A的客流总量。通过调整计算客流总量的时段,还可以就通勤、节假日休闲、回乡等不同场景下的城市间联系强度展开分析。
2.3 中心城市人口腹地分析
在城市腹地研究中,研究的范围常常局限于某一经验范围或者行政区划的边界,但实际的腹地范围常常受交通、文化、历史渊源等多种因素的影响,通过行政区划和经验范围不一定能得到真实的腹地范围。也就是说,研究者往往首先指定了一个“腹地”,然后研究这个腹地所具有的性质,而不是根据实际的人口流动情况找到和划定人口腹地。也有利用调查得到的真实人口流动数据进行腹地分析的研究,但由于这类调查成本高、耗时长,往往空间范围有限而且更新缓慢。不过,由于我国民众春节返乡的习俗,利用上文中提到的实际客流量数据,观察某些特定的时段(如春节、清明节等)可以在全国范围内较为可靠地推断城市外来人口的真实来源。进一步地,考察这些特殊时段中城市间人口的流向、流量和流量的比例关系,可以分析不同中心城市之间腹地范围的分割和竞争关系。
具体来说,本文以3个指标描述给定中心城市A春节前特定时段的人口流入城市B的现象,来分别表征城市B人口流入城市A的绝对数量、城市B对城市A的依赖程度和城市A相对于其他中心城市在城市B中的竞争优势。包括:
绝对流入指数,即给定时间内从城市A流入城市B的总出行量,即:
相对流入指数,即给定时间内从城市A流入城市B的总出行量占流入城市B的总出行量的比例,即:
其中{Bi|i∈[1,N]∩N+}为除城市A以外所有其他城市构成的集合。
竞争流入指数,即给定时间内从某一中心城市流入该城市的总出行量占来自其他重点城市流入该城市的总出行量的比例,即:
其中{Bi|i∈[1,M]∩M+}为所有中心城市构成的集合。
3 结果分析
从区域交通便利度评价结果来看,综合武汉市陆路、航空交通建设和运营情况,武汉市形成了以公路和高速铁路为主干,覆盖“1+8”城市圈和信阳、岳阳等城市的核心区域交通网络;以高速铁路构成交通廊道、以高等级公路为补充,连接到郑州、合肥、南昌、长沙等重点城市,覆盖中部五省主要大中城市的中部地区区域交通网络;以及以高速铁路为主干、以普通铁路和航空交通为补充,延伸到北京、上海、珠三角、西安、川渝、云贵、辽沈等地区的辐射区域交通网络(图2)。总体上,特殊的地理区位使得武汉市具有陆路交通东强西弱,航空交通近少远多的特点。
图2 武汉市到各地级市综合交通便利度
图3 武汉市与全国地级市综合旅客联系量
图4 湖北省省辖行政单位人口输出情况
图5 武汉市及周边省会城市人口腹地范围
这一空间结构特点在武汉市实际的对外客流联系强度(图3)中得到了一定的体现。从全年客流量来看,与武汉市联系最紧密的地区主要有:湖北、河南、江西、湖南等省份内公路交通5小时内可达的城市,以公路旅客和铁路旅客为主;京广高铁郑州至北京段及武汉至广州段,福州—武汉一线和沪昆高铁的部分城市,以铁路旅客为主;辽宁、云南、海南、广西、上海等相对独立的地区,以航空旅客为主。通过对各城市间交通和旅客数据的时空特征进行对比分析,我们发现这一现象与武汉市和其他中心城市的竞争、武汉市民的消费和旅游习惯以及部分历史事件的遗留有密切的联系:(1)在湖北省内,除恩施自治州受到重庆市的一定影响以外,武汉市在政治经济地位、文化联系、公共服务等方面均占据主导地位,大量人口前往武汉工作、学习、出差旅行(图4);同时,武汉市“五环二十四射”的辐射状高速公路格局、横穿湖北省的沪汉蓉铁路、米字型辐射的城际高铁网络也促进了武汉市与省内城市的交流。(2)在南阳、驻马店、信阳等城市,相对于郑州来说,与武汉市之间的公铁路交通更加便利;同时,信阳与大别山地区、南阳与襄阳在语言文化上联系紧密,进一步促进了其与武汉的日常联系。(3)郑州、长沙、南昌3个省会城市以及毗邻的岳阳、九江等城市为武汉市带来了大量的周末客流,3市与武汉市之间的客流量在周末远多于工作日和大型节假日,同时也远多于同一时段下的其他城市。不到2小时的高铁交通时间,使得武汉市及周边旅游城市成为了较理想的周末旅行目的地;而在较长的假期,充裕的时间使得旅行选择更加多样,明显稀释了前往武汉的客流。(4)辽宁省沈阳、大连两市与武汉市之间航班联系密切,辽宁全省、河北北部、内蒙中部与武汉市之间往来频繁。这与该地区和武汉市之间的历史渊源有关:在武钢及青山工业园区的建设过程中,大量辽宁、河北一带的工人迁往武汉工作、生活,构成了当前青山区人口的重要组成部分,并在几十年间逐渐形成了该地区与武汉市之间密切的人口和商务联系。(5)三亚、海口、大理、丽江等旅游城市与武汉市之间存在频繁的航班往来和密切的旅客联系。
不过,与交通便利程度不同的是,武汉市对外客流联系量呈现出西多东少的特点。一方面,沪汉蓉铁路沿线合肥—苏州一线、京沪高铁济南—合肥一线、沪昆高铁嘉兴—鹰潭一线的城市与武汉市有频繁的铁路班次和6小时以内的到达时间,但与武汉之间的实际旅客流量却远少于交通条件类似的西南地区。考察春节期间人口流动数据可以发现,安徽省合肥以东的城市、河南省开封以东的城市、江西省南昌以东的城市都显著地受到长三角地区的吸引,不处于其对应省会城市的人口腹地范围之内(图5),这与武汉市旅客联系量骤降的边界是基本对应的,表明了长三角地区占支配地位的大致范围;同时,该地区本身公、铁路交通综合便利度较高,武汉市的相对优势不明显。另一方面,陕南3市,甘肃、宁夏、青海3省以及川东的部分城市,在秦岭、巫山的阻隔下,与武汉市之间的公铁路交通不算方便,但有不少人口受到吸引迁往武汉市。
考察各地区中心城市的对外引力联系总强度和各交通方式下交通便利度(图6),可以对这种差异性有较好的理解。在30个重点城市中,兰州、呼和浩特、哈尔滨、昆明、贵阳的总引力联系强度显著低于其他城市;上海市具有最高的总引力联系强度,达到上述城市的10倍以上;武汉处于第二梯队,略低于重庆,与苏州、杭州、深圳等持平,与成都相比有一定优势,高于周边的郑州、南昌、长沙、西安等省会城市。由此可以看出,武汉市处于中东部经济、交通发达地区的边缘,其发展落后于京津—长三角—珠三角构成的区域大三角顶点,但是京广线这条长边的支撑点,构成了陕甘、川渝、滇黔等西部省份连接中东部地区的重要通道。因此,西部地区的部分城市在交通成本和经济实力权衡的影响下,与武汉市建立了较为密切的人口和经济联系。
综合武汉市与其他重点城市的人口腹地范围、各中心城市的对外引力联系强度和不同时段武汉市与其他城市之间的客流联系,武汉市对西部省市特别是川渝、陕南、黔滇一带的吸引力主要来自武汉市的相对竞争优势,在西武高铁、沿江高铁建成后[29],显著降低的交通时间有望使得西部地区进一步成为武汉市未来发展的新腹地;同时,武汉市与西部地区之间的旅客联系以人口迁移和工作往来为主,可以进一步开发对应的休闲旅游市场,充分利用武汉市与西部地区之间的联系。武汉与辽沈、河北地区之间的历史渊源,虽然在两地之间人口的密切流动上有所体现,但对两地之间的投资和经济联系没有起到明显的作用,可以作为武汉市未来跨区域合作和产业走出去的潜在方向。在湖北省周边,豫南一带则以人口迁徙为主,鄂、湘、赣三省之间的联系以短途旅游为主;从目前武汉市以吸引短途旅游为主、长途旅游吸引力相对不足的情况来看,借力中三角高铁网络、进一步整合中三角地区旅游资源,将有利于武汉旅游产业的进一步发展。
图6 全国地级市铁路、动车、公路和航空便利度
4 结论
本文结合多时相多交通方式区域旅客流动数据、公路交通路径推荐数据、航空和铁路班次数据以及传统社会经济数据,在考察武汉市区域空间格局的过程中,统一考量了对城市人口吸引、旅游和文化影响、通勤和商旅影响、铁公空交通便利程度和城市间潜在联系强度等区域研究中的重要问题。通过针对性地改进交通可达性、城市引力联系强度和城市人口腹地的计算方式,本文得以真正利用大数据维度多、密度高的特点,强化指标对相应问题和现象的描述深度和准确程度,挖掘出较为深入的时空现象;并能够在统一的数据和方法框架下,从多个角度描绘研究对象或者研究对象之间的关系,最终得以对与武汉市区域空间格局有关的具体问题和现象展开分析。
不过,本文在问题考察的深度上还有许多继续加强的角度和空间。一方面,通过补充货运交通、航运交通等更多交通方式或交通类型的班次和流量信息,以及补充资金流、信息流等更丰富的非实体流动数据,可以更加准确、全面地描述城市之间的实际关系;另一方面,现有数据还可以深入挖掘,如班次信息中各类班次在一天或者一周之内的分布状况与不同类型旅客选择倾向之间也存在着密切的联系。
总的来说,多维大数据时代的到来不仅意味着数据来源和分析角度上的扩充,也相应地要求分析思路上的深化综合、分析方法上的针对性设计和分析结果上的可解读性。有效地结合不同范围和尺度上的时空数据,灵活利用和改善不同领域的技术方法,才能够揭示传统数据所看不到、看不清的现象问题,更好地服务于城市规划实践和决策支持。
(致谢:武汉大学城市设计学院硕士研究生吴家琪、孙胄、石沛沛、赵玮伟、王雨山、黄启雷、唐丽玄、詹萌、杨苏舒等参与了本研究的部分数据收集与处理工作。)