基于手机信令大数据的机场腹地识别算法研究
2021-04-15姚海芳,刘云溪,刘劲松
姚 海 芳,刘 云 溪,刘 劲 松
(1.河北师范大学旅游系,河北 石家庄 050024;2.东北林业大学经济管理学院,黑龙江 哈尔滨 150040;3.河北师范大学资源与环境科学学院,河北 石家庄 050024)
0 引言
机场腹地是规划航空运输网络以及完善和管控机场地表集疏运网络的基础依据[1,2],如何及时、准确地划定机场腹地范围,学界尚未达成共识[3]。目前,常用的机场腹地理论范围划定方法有:1)同心圆法,即以机场为中心,采用指定半径画同心圆确定机场腹地范围[4],但划分结果不能准确展现机场综合吸引力的辐射范围;2)旅行时间法(交通等时圈法),一般以机场为中心,以交通网络为基础,采用指定的时间阈值界定机场腹地范围,该方法在交通地理学领域得到广泛应用[5-8];3)加权Voronoi图法(或加权V图法),综合考虑机场引力、机场地表集疏运条件[9],通过设定不同机场的引力权重,生成机场博弈情景下的腹地范围;4)Huff模型法,综合考虑机场吸引力和交通情况[10],划分结果优于同心圆法和等时圈法,但该方法中的机场综合吸引力弹性系数和距离衰减系数需结合具体机场分别设定。机场腹地是机场吸引航空旅客的陆面区域,旅客的出行行为决定机场腹地分布范围[11],但上述方法未充分考虑航空旅客的真实出行行为,划分的机场腹地分布范围常被高估或低估,而且易忽略机场腹地内部的空间异质性特征。5)离散选择模型法,通过调查问卷获取航空旅客归属地,从而确定机场腹地范围[12,13],但其数据获取难度大,成本高;为弥补调查问卷的不足,Lieshout[1]利用机场航班频率、机票价格、机场陆侧可达性、空侧可达性等可直接获取或计算得出的数据,基于离散选择模型测算了阿姆斯特丹机场2005年和2011年的腹地范围。离散模型法虽然考虑了旅客的真实出行行为,但该模型数据收集成本高、更新周期长、计算量大,且受多种不确定性因素影响,不适于机场腹地动态监测。为加强机场腹地内部的事件管控和精准服务能力,迫切需要揭示机场腹地的动态性和异质性特征。
手机信令属于个体行为大数据[14],具有时空信息丰富、获取成本低等优点,在人口流动[15]、人口出行特征[16-18]、城市职住关系[19,20]、城市空间结构[21,22]、旅游客源市场[23]等领域得到广泛应用。因此,本文利用手机信令大数据构建机场腹地识别算法,包括分类识别机场进/出港旅客、生成进/出港旅客的出行轨迹、确定进/出港旅客的出行OD位置、刻画进/出港旅客机场腹地内部结构特征,并以石家庄正定国际机场(简称“石家庄机场”)为例,利用中国联通河北分公司提供的2019年10月2-8日的手机信令数据,对该算法进行测试和验证。
1 基于手机信令大数据的机场腹地识别算法
1.1 机场进/出港旅客分类识别
将一周内出现在研究区5天及以上的手机用户判定为工作人员、居民等[24]非航空旅客并予以标记,不参与航空旅客分类。根据旅客流向,将航空旅客分为出港、进港、中转3类旅客;根据旅客出行行为的组合特征,对3类旅客进一步细分:如果测试机场具有省内通航城市,则将其旅客细分为11小类(表1),否则细分为5小类(表1中阴影部分)。航空旅客分类算法参见文献[24]。鉴于当日往返的进/出港旅客所占比重极小,中转旅客仅在机场航站楼附近逗留,故机场腹地识别算法中未考虑这部分旅客。因此,在划定机场腹地过程中,如果测试机场没有省内通航城市,则仅考虑“11”和“21”两类旅客,否则需考虑“11”、“13”(合称为狭义的出港旅客)和“21”、“23”(合称为狭义的进港旅客)4类旅客。
表1 机场航空旅客分类及编码
1.2 进/出港旅客出行轨迹生成
基于狭义的进/出港旅客的手机用户ID码,提取每位进/出港旅客的手机信令记录,分别建立进/出港旅客手机信令数据集。其中,对于“13”类旅客,仅考虑其到达测试机场及之前的手机信令记录,对于“23”类旅客,仅考虑其到达测试机场及之后的手机信令记录。
以日为单位,将每位进/出港旅客的手机信令记录按照时序排列,通过识别驻留点和移动点[25],生成每位进/出港旅客的出行轨迹。以用户a为例,假设某日用户a有n条手机信令记录,令其第一条记录和最后一条记录为当日停留点,令时间约束Tmax为5 min,距离约束Dmax=1 km[17]。理论上,在Pt点,用户a只有“停留”或“可能移动”两种运动状态。依据Dmax和Tmax,按照下述规则,逐点推断用户a在后续比邻时刻位置点的运动状态。
(1)
(2)
ΔT=Tt+1-Tm
(3)
(2)若用户a在Pt点为“可能移动”状态,则计算Pt+1和Pt之间的距离d(式(4)),同时计算t+1与t之间的时间差ΔT(式(5))。则用户a在Pt+1点运动状态的判定方法为:如果d>Dmax,则用户a在Pt+1点的运动状态为“可能移动”,并将用户a在Pt点的运动状态改为“移动”;如果d (4) ΔT=Tt+1-Tt (5) 依据上述算法,生成每位进/出港旅客出行轨迹。 判定进港旅客的出行目的地(D)和出港旅客的出行起始地(O)(图1),进而识别进/出港旅客机场腹地范围。以用户a为例,根据1.2节方法获得用户a在每个出行轨迹点的信息,包括经度(x)、纬度(y)、运动状态(sigh=0表示停留,sigh=1表示移动)、停留时长(stay_time)、停留开始时间(stay_start_time)、停留结束时间(stay_end_time)等。 (1)如果用户a为进港旅客,则令Airport_end_point为出行的起始点O,向D方向寻找sigh=0且stay_time>Tstay_time_max(Tstay_time_max用于判定当前停留点是否为O/D的时间阈值)的点,如果能找到,则将此点判定为用户a的出行目的地D,否则将最后的停留点判定为用户a的出行目的地D。 图1 进/出港旅客出行OD判定方法 (2)如果用户a为出港旅客,则令Airport_first_point为出行目的地D,向O方向寻找sigh=0且stay_time>Tstay_time_max的点,如果能找到,则将此点判定为用户a的出行起始点O,否则将最后一个停留点判定为用户a的出行起始点O。 根据上述进港旅客的出行目的地(D)数据集和出港旅客的出行起始点(O)数据集,分别与市、县、乡、村4级行政区划单元进行空间叠置,按行政区划单元统计进/出港旅客出行强度(某行政区划单元航空旅客出行或抵达人数)、出行密度(某行政区划单元进/出港旅客数量与行政区面积之比),据此解析不同尺度上进/出港旅客机场腹地内部结构特征。 本文案例地选取京津冀城市群的重要空中门户石家庄正定国际机场(IATA:SJW,ICAO:ZBSJ)。2018年机场航空旅客吞吐量突破千万人次大关,2019年10月通航城市达65个(国外6个,省外56个,省内3个(张家口、承德、秦皇岛))。G4高速、G107国道、京石客运专线等是航空旅客进出石家庄机场的主要客运通道。 本文联通手机信令数据来源于中国联通河北分公司,包括用户唯一识别号、时间戳、信令发生时手机所处经度和纬度、用户所属省/市/县、用户性别、用户年龄等字段,时间范围为2019年10月2日0时至8日24时。将实验数据分为机场数据集(Airport Dataset)和外围数据集(Outside Dataset)。其中,Airport Dataset来源于以机场外轮廓为中心,以850 m为半径的缓冲区内的204个联通手机基站(图2);Outside Dataset是依据Airport Dataset中出现的手机用户ID码,提取的同一天内手机用户在Airport Dataset空间范围外其他联通手机基站的全部手机信令数据集,且仅限于河北省内,暂未获得省外、国内的联通手机信令数据。经数据预处理(去除用户ID、时间戳、经纬度为空以及重复和漂移等无效记录),Airport Dataset中共有手机信令记录278.9万条,Outside Dataset中共有对应时段手机信令记录3 101.1万条。 图2 机场数据集(Airport Dataset)所属空间范围 统计2019年10月2-8日每个用户相邻手机信令记录的时间间隔的均值和标准差,发现均值与2倍标准差之和小于3 600 s的用户占74%,3 600 ~7 200 s的用户占16.6%,说明石家庄机场航空旅客手机信令记录的间隔时长通常为1~2 h;考虑到用户换乘交通工具的时间一般不超过1 h,故本文将Tstay_time_max设定为3 600 s。采用上述进/出港旅客识别算法,共识别出航空旅客47 444人次,其中,进港旅客18 630人次(2 661人/d),出港旅客24 759人次(3 537人/d)。考虑到中国联通手机用户数量占全国手机用户的19.8%[26],2019年10月石家庄机场共运送旅客102.93万人次[27],本研究的识别精度约为96.9%,识别结果可信。 利用2019年10月2-8日的手机信令数据,运用本文机场腹地识别算法刻画机场腹地分布范围、不同尺度下机场腹地内部结构特征及旅客出行强度。 (1)出港旅客的客源地分布特征。由图3(彩图见封3)可知,出港旅客的客源地呈现以机场为中心、沿主要交通干线(高铁、高速公路、国道)向外围辐射的空间分布模式,且出港旅客密度随着距机场距离延长而衰减。在图3上采用同心圆法和等时圈法进一步测算发现:在R=100 km和R=200 km的同心圆内,出港旅客数量占比分别为82.8%和98.21%,在30 min、60 min和90 min等时圈内,出港旅客数量占比分别为58.3%、85.45%和96.13%,说明R=200 km的同心圆和90 min等时圈是石家庄机场出港旅客的主要客源地。 图3 2019年10月2-8日石家庄机场出港旅客客源地散点图 (2)市级尺度机场腹地内部结构特征。市级尺度进/出港旅客主要分布在石家庄市(约占70%),其次为保定市(约占15%),邢台、衡水、沧州、邯郸4市进港旅客合计约占9%,出港旅客合计约占15%(表2),说明石家庄机场的核心腹地是石家庄市,主要腹地是保定市,次要腹地是邢台、衡水、沧州和邯郸4市。 表2 石家庄机场进/出港旅客分布特征 (3)县级尺度机场腹地内部结构特征。县级尺度进/出港旅客出行强度均呈现以机场为中心向外逐步衰减的圈层结构特征(图4,彩图见封2),但与北京比邻的涿州市的进港旅客出行强度畸高(图4a),违背了距离衰减原则,结果异常的原因可能与仅获得省内手机信令数据有关,如经石家庄机场前往北京的进港旅客的目的地均划归涿州,说明仅用省内联通数据识别进/出港旅客的OD位置,会产生省界堆积效应。 (4)乡级尺度机场腹地内部结构特征。乡级尺度机场腹地内部不再连续(图5,彩图见封2),石家庄及周边区县的进/出港旅客出行强度最高,且高强度出行区域沿京广线、石德线、石太线等交通要道分布,石家庄、保定、衡水及其部分县城的进/出港旅客出行强度明显高于其他乡镇。值得注意的是,涿州与北京、霸州与天津、井陉与山西相邻的乡镇进/出港旅客出行强度偏高,进一步验证了省界堆积效应。 (5)村级尺度机场腹地内部结构特征。村级尺度机场腹地的客源地和目的地更加离散(图6,彩图见附录3),统计发现,城市、建制镇、村庄3类聚落的进港旅客出行密度分别为6.86 人/km2、1.15 人/km2、0.96 人/km2,出港旅客出行密度分别为9.25 人/km2、1.57 人/km2、0.83 人/km2,进/出港旅客出行密度呈现出城市>建制镇>村庄的特征,说明城市和建制镇是进/出港旅客的主要目的地和客源地。 (6)航空旅客出行强度动态监测。本文的机场腹地识别算法能持续监测腹地内部航空旅客的出行强度。利用中国联通河北分公司提供的2020年2月2-8日的手机信令数据,共识别进港旅客2 541人次(363人/d),出港旅客4 126人次(589人/d)。与2019年10月2日-8日数据相比,进港旅客减少了86.4%,出港旅客减少了83.3%,主要是受新冠疫情影响,旅客出行强度明显下降。 图4 县级尺度进/出港旅客出行强度 图5 乡级尺度进/出港旅客出行强度 本文利用手机信令大数据,构建新的机场腹地识别算法,并利用中国联通河北分公司提供的石家庄机场2019年10月2-8日的手机信令数据,测算了石家庄机场的腹地范围和内部结构特征。研究表明:1)以石家庄机场为中心,R=200 km的同心圆和90 min等时圈覆盖的省域范围内,覆盖了超过95%的出港旅客客源地。2)市级尺度石家庄机场进/出港旅客的核心腹地是石家庄市,主要腹地是保定市,次要腹地是邢台、衡水、沧州和邯郸4市,6市的贡献率高达约99%;县级尺度腹地内的进/出港旅客出行强度呈现以机场为中心逐步衰减的圈层结构;乡级尺度腹地内部呈现不连续特征,交通线附近旅客出行强度高;村级尺度进/出港旅客出行密度呈现城市>建制镇>村庄的特征。 图6 村级尺度进/出港旅客出行强度 基于手机信令大数据的机场腹地识别算法,借助出港旅客客源地分布图和进港旅客目的地分布图,真实刻画了机场腹地分布范围;通过不同级别行政区域的出行强度图准确解析了机场腹地的内部结构特征,能动态监测机场腹地的分布特征和航空旅客的出行特征,为深入探索腹地内部进/出港旅客的出行规律以及诊断机场集疏运网络运行效率提供了新方法,也为建构机场腹地的个性化扎根理论提供了支撑。如果能够获得全国范围内的手机信令数据,则可避免省界周边的进/出港旅客堆积效应;如果能够获得中国移动、中国联通、中国电信三大运营商的手机信令数据,则可进一步提高机场腹地的识别精度。1.3 进/出港旅客出行OD位置判定
1.4 进/出港旅客机场腹地内部结构特征解析
2 案例地及数据
3 机场腹地内部多尺度结构特征
4 结论