基于社区发现算法的宏中观通勤交通分析单元划分方法探索<br/>——以武汉市中心城区为例*

基于社区发现算法的宏中观通勤交通分析单元划分方法探索
——以武汉市中心城区为例*

2020-12-29牛雪蕊范凌云

交通信息与安全 2020年4期

牛强牛雪蕊，2 唐蕾范凌云王飞

（1. 武汉大学城市设计学院武汉430072；2. 西安城市发展资源信息有限公司西安710018；3. 苏州科技大学建筑与城市规划学院江苏苏州215011；4. 联创新锐设计顾问（武汉）有限公司武汉430033）

0 引言

通勤交通是城市交通的核心内容，为了分析这类交通的空间分布，常用方法是调查居民的工作出行并按一定的单元进行集计分析。其中交通分析单元的识别和划分是一个关键环节，不同的划分方法会产生不同的区内和区间OD 数量，进而影响到交通量预测、职住平衡测度等后续研究。

交通研究单元的划分，在微观层面（例如，交通小区）一般较为准确，因为用地功能比较单一。但在宏中观层面（交通中区、大区），多基于行政区划、控规单元或主观判断。这时由于职住用地混合，不同的划分会造成后续交通研究结果的巨大差异[1-2]。例如，图1中，行政区边缘的居民有不少去相邻区就业的，而其就业中心也吸引了相邻区的居民来工作，基于行政区来统计通勤OD 量会有较大偏差。因此，需要一种客观的、基于实际通勤联系的宏中观交通分析单元划分方法。

图1 宏中观交通研究单元的划分对OD统计的影响Fig. 1 The influence of macro-level and medium-level traffic research unit division on OD statistics

为此，本文引入了社区发现算法，基于通勤大数据，提出了一种宏中观层面自动划分通勤交通分析单元（下文简称通勤单元）的方法。该方法是一种聚类方法，其原理是将城市分成等大的网格，利用网格之间的通勤强度，自动识别每一个网格归属的通勤单元，使同一通勤单元内的网格与网格的连接最强，从而真实反映出区内和区间的通勤联系。并且以武汉市中心城区为例，基于联通手机信令大数据识别出联通用户的通勤活动，利用社区发现算法，根据通勤行为的空间分布，从大到小，自动划分出从宏观到中观多个尺度下的通勤交通分析单元，最后通过分析这些单元的空间边界、区内区间通勤量，证明了本方法的有效性。

1 文献综述

交通分析多采用集计分析和非集计分析2种方法[3]。集计分析以交通小区、社区、街道等作为基本研究单位来对原始数据进行处理[4]，而非集计分析则直接以交通出行者为分析单位。目前在宏、中观层面，多以集计分析为主，并以大数据作为数据源，能够更加精炼、准确地反映现实交通出行状况。如冉斌[1]利用手机话单数据以天津市行政区为研究单元获得中观层面的OD通勤量；任颐和毛荣昌[2]利用手机数据，以规划管理单元为中区基本单元，计算了无锡市域和市区常住居民的出行OD分布，为研究城市空间结构变化、居民出行、重点区域人口集散研究奠定了基础；陆振波等[5]基于手机信令数据对昆山市交通大区的职住OD 进行分析，从通勤角度对城市结构进行了拟合；张天然[6]基于手机信令数据提出当区域分别为城市新城和城市组团情况下的居民通勤距离和就业岗位通勤距离计算方法，重点分析了上海市中心城区及周边地区的职住空间关系及通勤距离。

从中可以看出现有宏中观交通研究多基于现有的行政区划[7-8]、规划管理单元、交通大区、城市组团等，这些划分的单元在交通研究方面不够客观，同时对城市的通勤识别与分析的结果也有一定的影响。近年来有学者开始尝试基于大数据识别出就业中心以及各中心的通勤范围，以获得就业中心腹地范围的交通分析单元划分方法[9]，这类方法更加科学，但存在分析单元无法覆盖全区域或覆盖范围重叠等问题，不便于分析和使用。

目前社区发现成为识别复杂网络结构的热门方法，被广泛用于社交网络[10]、学术网络[11]等的人群分组，例如，用于发现Twitter 用户人物关系网[12]和微博网络社交关系及兴趣相投的社区[13]等。交通网络是一种基于交通流联系的复杂网络系体，具有流向、流量等特征，亦可通过社区发现算法对交通网络进行计算来自动识别交通分区。

2 基于社区发现算法的宏中观通勤交通分析单元划分方法

本文基于社区发现方法中的贪婪算法来识别宏中观通勤交通分析单元。其中的“社区”并不是传统认为的，现实存在的社区。Newman和Givean[14]从图学的角度给出了社区的定义:社区是一个子图，包含节点和边，同一社区内节点与节点的连接强度超过它和其他社区的连接强度[14]，见图2。

图2 社区发现算法原理Fig. 2 Principles of community detection algorithm

如果将城市划分成规则网格，每个网格当作1个节点，节点间的通勤量作为连接强度，把交通中区、大区当作“社区”，就可以利用社区发现算法来自动识别它们。

社区发现算法已经衍生出10余种算法，形成了较完整的体系，有基于图分割的社区发现算法，有基于相似度的，有基于模块度的，还有基于网络局部优化的等。其中模块度（modularity）由Newman等[15]在2004年提出，并且应用最为广泛。

模块度Q 的计算公式为

式中:A 为邻接矩阵，Aij为节点i 和节点j 之间边的权重，网络不是带权图时，所有边的权重可以看做是1；为所有与节点i 相连的边的权重之和（度数），kj也是同样和（边的数目），充当归一化的作用；δ(ci,cj)函数表示若节点i 和节点j 在同一个社区内，则返回1，否则返回0。其含义为:社区内部的边占总边数的比例，和随机放置时社区内部期望的边占总边数的比例的差值。模块度的值介于-1和1之间，其值越大，表示划分出的社区结构的强度越强，社区划分的越好。

基于模块度的社区算法有极值优化算法[16]，模拟退火算法[17]，CNM 算法[15]，贪婪算法[18]等，其对比见表1。

表1 基于模块度的社区算法比较Tab. 1 Comparison of Community Detection based on modularity

Blonde 等在2008 年提出的基于模块化优化的启发式方法——贪婪算法，被公认为是当前执行速度最快，准确率也很高的社区发现算法之一。因此，本文选择社区发现算法中的贪婪算法来识别宏中观通勤交通分析单元。

贪婪算法将每个点划分在不同的社区中，逐一选择节点，根据式（2）计算将各个点划分到每一个相联系的社区之后的modularity增益，若最大增益大于0，则分到对应的相邻社区；否则，保持归属于原社区。

根据人们对居住地和就业选址的心理，人们往往选择就近居住和就近择业[19]，这类通勤出行便会产生具有方向和流量的交通流。基于上述社区发现算法的计算原理，就能够识别出一些基本的、联系紧密的通勤交通单元。这些单元内部的通勤联系最强，而单元外部的通勤联系相对最弱。

根据此方法划分的通勤交通单元完全基于基础通勤交通流，不受人为条件及主观意识干扰，形成的单元覆盖整个研究范围且不会出现相互重叠。而跨区域的通勤在更大的空间尺度下也会形成新的通勤交通单元，因此可以随着尺度的改变发现不同层面下的通勤单元。

3 武汉案例应用分析

下面以武汉市中心城区为例，验证上述方法的有效性。

3.1 研究范围

武汉市位于长江和汉水汇合处, 为我国中部地区特大城市之一。截至2019年，武汉市全市行政区域面积为8 569.14 km2，辖13个行政区，其中包括江岸区、江汉区、硚口区、汉阳区、武昌区、青山区、洪山区7个中心城区，以及东西湖区、汉南区、蔡甸区、江夏区、黄陂区、新洲区6个新城区。根据武汉市城市总体规划（2010—2020 年），中心城区以三环路以内地区为主，包括局部外延的沌口、庙山和武钢地区，总面积为678 km2。除去东湖水域后的主城区范围为本文的研究范围，见图3。

图3 研究范围Fig. 3 Scope of study

3.2 研究数据

本研究的数据是中国联通2018年6月的用户匿名手机信令数据。联通公司已经对数据进行过预先处理，主要包括用户编码、时间、网格编号和事件类型（1代表居住，2代表工作，0代表到访）等内容。其中网络编号对应采集数据时相应的经纬度，经过加密不便展示；对于“居住”事件，联通公司通过月度观察，选取用户夜间（当日21:00—次日08:00）驻留时间最长的点为其居住地点；对于“工作”事件，则是通过月度观察，选取用户工作时间（09:00—17:00）驻留时间最长的非居住地点为其工作地点。根据出行时间、地点、位置等特性已识别出出行的起点终点的类型，为后续数据清洗和筛选提供了便利。数据示例见表2。

该数据通过网格编号来确定用户位置，网格覆盖全城，网格大小取决于基站密度，从中心城区的250 m×250 m至郊区的2 000 m×2 000 m不等，能够基本满足本文的精度要求。

表2 数据示例表Tab. 2 Data sample table

3.3 研究方案

根据数据事件类型1～2（居住—工作）提取出2018年6月工作日20 d（除去2018年6月18日法定节假日端午节）的工作出行数据，根据用户属性（性别、年龄段、存在工作驻留地）筛选出工作出行的常住用户，综合考虑中国国情以及两性退休时间等因素，限定19～65岁男性及19～55岁女性为目标出行用户，筛选出该数据。单日数据量见图4。

图4 工作日工作出行数据量统计Fig. 4 Data of work trips during working days

然后，将数据导入GIS，建立出行点对的数据库和覆盖武汉市中心城区的分析格网。根据《城市道路交通规划设计规范》中对我国现有的城市道路要求，主干道间距为800～1 200 m，因此围合出的街坊约在1 000 m×1 000 m。所以本文将分析格网的大小设为1 000 m×1 000 m，随后将出行点和目的地点划分对应格网，统计出网格间的通勤量，见表3。

表3 通勤汇总数据表Tab. 3 Commute summary data table

接下来，利用社区发现算法中的贪婪算法，基于网格间的通勤量，导入Gephi 软件中进行不同解释度（resolution）的社区求解，解释度作为调节结果可视化的指标，数值介于0～1 之间，一般解释度越小，分区越细。通过调节不同解释度得到不同尺度下的社区，即通勤分析单元。

最后将不同尺度下的通勤单元与武汉市城市格局进行对比验证分析结果的合理性，然后计算通勤单元区内、区间通勤量，并和基于区级行政区划的通勤量进行比对分析，进一步论证它的效度。

3.4 通勤单元划分结果

本文基于社区发现算法中的贪婪算法，经过多次计算和调试，最终分别以1，0.7，0.5的解释度来划分单元，得到3个尺度下的通勤单元。

当解释度为1 时，形成了4 个分区，将网格叠在武汉市地图上发现，长江、三环线西南段、二环线东南段以及京广线武昌站至武昌南站路段为主要分区界限，江汉区、江岸区、硚口区和汉阳区为③分区；以三环线为界的沌口地区为②分区，青山区与武昌区的大部分构成了④分区，武昌站铁路线以东的洪山区为①分区。见图5。

图5 解释度为1时的分区Fig. 5 The districts when resolution is 1

当解释度为0.7时，形成了6个分区，见图5。原本的③分区被汉江、硚口区和江汉区的行政边界分为D，B，E分区，④分区被洪山广场周边城市主干道将分割成了C，F分区，南湖分割了A，C分区。

图6 解释度为0.7时的分区Fig. 6 The districts when resolution is 0.7

当解释度为0.5 时，形成了12 个分区，见图7。原本的B 分区被江岸区和江汉区行政边界划分出5，9 分区（2分区因太小可以忽略不计），C分区被铁路线划分为1，6 分区，原本的F 分区被二环线粗略划分为3，11 分区，4 分区为武昌长江隧道以东的滨江商务区，8 分区为汉正街为中心的武汉市商贸中心。

3.5 社区发现算法的有效性分析

基于上述结果，通过单元边界，以及区内、区间通勤量来对单元划分的有效性进行分析和验证。

3.5.1 单元和边界的有效性

图7 解释度为0.5时的分区Fig. 7 The districts when resolution is 0.5

从图5～7 可以看出，通过本方法得到的各个尺度的通勤单元，它们各自在空间上是完整成片的，没有出现异质网格混杂的情况，尽管网格之间除了通勤强度联系没有其它任何空间关系的暗示。该结果与职住通勤很强的地域性、以及空间自组织性是互为印证的。另外划分出的单元与大家对武汉的认知是一致的，例如图7中的11号分区，尽管在行政区划上它横跨了青山和洪山2 个区，但在武汉人认知中实际是一块区域，即宝武钢铁集团和其家属区。这些说明了该方法的有效性。

同时本方法得到的通勤单元的边界都是清晰合理的，进一步佐证了该方法的合理性。例如长江，既为自然界线，又是行政边界，在每一个解释度下都是绝对的分割界限，说明长江对于今天的武汉居民通勤来说仍然是“天堑”，另外汉水和南湖也起到了一定的分割作用。又如交通方面，武昌火车站以南的铁路线在解释度为1 和0.5 时都表现出明显的分割作用，而城市道路的分割效果并不明显，三环线西南段、二环线东南段在解释度为1 时有明显作用。这些与人们的认知是一致的，大江、大湖、铁路线和快速路对交通出行的分割作用明显，而其它城市道路，作为通勤的主要通道，两侧的出行方向一般不会有显著差异，所以在宏中观尺度道路不仅没有表现出明显的分割作用，反而还是通勤单元内部联系的骨架。

3.5.2 区内、区间通勤量分析的有效性

分别针对解释度为0.5 的通勤单元和区级行政区划，计算区内通勤量见表3～4，以及区间通勤OD图见图8～9。总体来看基于通勤单元算得的区内、区间通勤量更合理，更有价值。

对比表4、表5 可见，二者差异较大。基于通勤单元算得的内部通勤量均匀分布在46.8 万～3.4 万之间（2，4 分区因面积过小，通勤量也很少，忽略不计）；而基于行政区算得的内部通勤量变化幅度较大，其中洪山区高达95.0 万条，排第二位的江岸区却只有24.1 万条，而这主要是由于洪山区面积过大造成的。进一步对洪山区进行分析发现，它大致由6，1，0这3个交通单元构成，而这3个交通单元的内部通勤量均较大，分别为46.8 万、20.8 万和10.2 万条。显然把它们作为1 个单元会导致很多本属于区间长距离的出行被识别成区内出行，从而带来较大偏差。

表4 各交通单元的区内通勤量（解释度0.5）Tab. 4 Internal commuting volume of each traffic analysis district（resolution，0.5）

表5 各行政单元的区内通勤量Tab. 5 Internal commuting volume of each administrative district

对比图8、图9 可以看出，二者差异也很大。基于通勤单元算得的区间通勤较为均质，通勤量最大值约为9万条，最小值约为1 000条；而行政区划下的区间通勤相差较大，最大值约为34万条，最小值为218条。后者的最大值几乎是前者的4倍，说明后者将很多短距离的区内出行识别成了区间出行，或者把多个分区之间的出行混合成2个区之间的出行，这显然不利于开展后续精细化的分析。此外有些分区的OD走向差别较大，例如，11号分区，它和青山区基本吻合，但前者的主要OD 联系是3 号分区（主要是武昌区），这和实际认知相符，而后者的主要OD联系是洪山区，这不符合常识。其原因在于洪山区面积很大，包含了6，1，0，以及部分11号分区，所以青山区和洪山区之间的OD量实际包含了青山和6，1，0之间的区间通勤、以及11号分区内部的通勤，这显然不合理。

图8 各交通单元的区间通勤量（解释度0.5）Fig. 8 External commuting volume between traffic analysis districts（resolution，0.5）

图9 各行政单元的区间通勤量Fig. 9 External commuting volume between administrative districts

4 结束语

本文提出了一种城市宏中观通勤交通分析单元的自动划分方法，它首先将城市划分成规则网格，并利用手机移动位置大数据统计网格之间的通勤量，然后按照不同的解释度基于社区发现算法根据网格间的通勤联系强度自动识别每1个网格归属的通勤单元，使同一通勤单元内的网格与网格的连接最强，单元与单元间的连接最弱，从而得到不同尺度下的通勤交通单元。通过实证分析发现，所得到通勤单元边界清晰、内部完整连片，分区与实际的职住分布保持一致，边界与江湖、铁路线等通勤隔阻要素重叠，区内、区间通勤量相比基于区级行政区划的计算结果更加合理、科学，更具现实价值，证实了该方法的有效性。

该划分方法所需的数据种类较少，不需要大规模调查，无须人工干预，可以多尺度聚类，相对客观、科学且简便易行，也适用于休闲、货运等其它出行类型的交通分区，具有实践价值。尽管如此，它也存在一定的局限，主要在于解释度比较粗，识别出来的单元较大，所以主要适用于宏中观尺度；另外在数据来源上，只使用联通一家的数据也存在偏差，因为在不同区域联通用户的比例会有一定变化。接下来将尝试利用更高空间精度、更全面的手机移动位置数据，优化算法，探索更小尺度、更加精细的通勤单元识别。