基于WiFi嗅探数据的地铁网络客流分析技术*
2018-05-25陈菁菁江志彬
陈菁菁 江志彬
(1.上海地铁第四运营有限公司,200071,上海;2.同济大学交通运输工程学院,201804,上海∥第一作者,高级工程师)
随着地铁网络运营规模的拓展和客流需求的激增,网络运营面临常态或突发事件下的大客流压力,对客流流量和流向的多方位全过程监测将成为提升网络运营安全和效率的关键。AFC(自动售检票)系统可以得到乘客的进出站刷卡数据,但由于网络出行路径的多样性和出行过程的动态性,AFC刷卡数据无法准确获取每位乘客的出行路径,因此只能通过模型清分的方式在宏观层面对客流量进行统计分析。
为快速、准确地检测个体乘客在轨道交通网络上的移动路径及聚类特征,视频检测[1]和手机信令[2-3]等新技术开始在不同应用场景得到探索和尝试。这些技术手段在宏观层面或特定局部区域应用有一定的价值,但由于现有技术的瓶颈,其尚不能很好地解决地铁网络客流分布和乘客个体出行路径的高精度识别问题。WiFi嗅探数据是探针设备(AP)与WiFi设备(如手机、平板电脑等)的交互信息数据,可以实现对携带WiFi设备对象的动态跟踪,从而解决红外检测和视频检测难以追踪对象的问题;同时,其具有检测范围相对集中、检测速度快、采样率高、实时性强等特点,可实现乘客出行时空轨迹的精准化识别[4]。目前,针对WiFi嗅探数据的研究多侧重于局部范围内的精确定位算法[5-7],但针对基于WiFi嗅探数据的大规模网络和海量客流分析的研究还刚刚起步。
WiFi嗅探数据可通过判断目标是否在AP设备的检测范围内来进行符号位置感知,可从微观层面实时获取乘客位置和移动方向,可结合地铁网络、列车实际运行图和乘客出行链路进一步挖掘得到列车、站台、站厅与换乘通道的客流量。随着上海、广州等城市地铁网络WiFi全覆盖,如何充分挖掘海量的网络WiFi嗅探数据信息,对乘客出行的轨迹进行分析,实现对地铁网络客流的多方位全过程动态监测,成为目前迫切需要研究的课题。
本文以上海轨道交通网络WiFi的全覆盖为前提,对WiFi嗅探数据的采集原理、采集方法、数据结构、预处理流程进行详细分析;然后对目前采集的数据质量、数据特征以及数据分析模型进行详细阐述;最后以上海轨道交通网络为例,对WiFi嗅探数据获取和客流分析的有效性进行验证。
1 WiFi嗅探数据采集
1.1 技术原理
WiFi嗅探技术是运用WLAN(无线局域网)技术实现接入设备的定位,即在无线接入的同时能够判定接入设备的位置。WiFi嗅探数据的采集原理为:AP高频率地向四周广播发送Beacon帧(信标帧),用来通知附近的WiFi设备,通知AP的存在;同时,WiFi设备(如手机、平板电脑等)也会不停地发送probe帧(探测帧),去寻找附近可用的AP。在probe帧的数据包里包含了设备的MAC(Medium/Media Access Control)地址。当AP接收到WiFi设备发送的probe帧后,就获取了这个设备的MAC地址。因此,只要在WiFi探针覆盖区域内的设备打开WiFi,探针就能收集到该设备的MAC地址。设备与AP布设位置的距离可通过RSSI(接收信号强度指示)这个指标来反馈。RSSI值还与AP的功率及环境的干扰有关。WiFi设备定位的精度与AP布设的密度有关。以上海轨道交通网络为例,AP分为两类,一类为固定AP,主要布设于车站站厅、站台和换乘通道内;另一类为移动AP,布设在列车各节车厢内。WiFi嗅探数据的采集原理如图1所示。乘客携带打开WiFi功能的设备进入车站,会先后被布设在站厅、站台、车厢等的AP采集到,AP按平均2 min的间隔将采集到的嗅探信息连续上报至中央服务器。
图1 WiFi嗅探数据的采集原理图
1.2 WiFi嗅探数据的采集与转换
WiFi嗅探数据从采集到可用,需经过数据采集、数据清洗、数据标准化处理和数据入库四个过程。数据采集是AP服务器接收上报数据(包括AP的MAC地址、WiFi设备的MAC地址、采集的日期时刻等信息)后生成流文件,数据处理服务器定期扫描流文件,如果发现新的文件则启动数据处理任务,然后结合固定或移动AP位置的标签信息,转换成结构化数据。数据清洗包括数据去重、有效MAC地址识别、MAC地址加密、数据匹配、量纲统一,以及时间同步性效验等过程。数据标准化处理包括格式转换、赋缺省值、类型变换、代码转换、特定字符转换等。数据入库是将标准化处理后的乘客轨迹数据存入数据库服务器中,以供日后长期存储和后期加工用。
1.3 WiFi轨迹数据的基本属性
WiFi嗅探数据转换后可以得到乘客的原始轨迹数据,包括WiFi设备的MAC加密地址、数据抓取的日期和时刻、车站名称、设备位置、线路编号、车体编号、车厢编号等基础信息,如表1所示。
2 原始轨迹数据的质量分析
目前,上海轨道交通网络在车站的站厅、站台和列车的每节车厢都布设了WiFi设备,为乘客提供免费网络服务。对每位乘客的MAC地址按采集时间进行排序,可以得到该乘客在一天中的出行原始轨迹。基于2017年8月某日获取的站台、站厅和列车WiFi设备采集的数据约为5 000万条,MAC的采样率约为网络进站量的60%(200万~300万),原始数据的完整性接近33%,加上还原算法还原后的数据,完整性可接近50%。对乘客实际出行轨迹进行还原分析,发现目前WiFi嗅探数据自身存在一些典型性问题。这些问题的解决一方面需要通过提升设备可靠性来保障,另一方面需要结合列车运行和乘客出行规律,选择相应的算法来修复。
表1 地铁WiFi嗅探数据转换后的主要信息
WiFi嗅探数据存在的问题主要有:
(1)数据采集与上报数据的缺失与重复问题。上海轨道交通目前布设的AP中,存在一些AP(包括列车AP)的嗅探数据无法成功上报至服务器的情况;另外,上报的数据中也有无法识别的AP信息,同时还有大量数据重复上报(约占总数据的1/4)。
(2)轨迹数据的不完整性问题。由于AP布点的不完整,加上AP故障或网络故障,上报的嗅探数据常常会不完整,导致部分乘客的出行过程识别存在困难,可以识别完整链路的MAC并不多,约占10%。原始轨迹数据存在的常见问题见表2。但总体来看,大部分已经采集到的轨迹数据还是有效的,可以通过相应的数据还原算法来补全。
表2 原始轨迹数据问题描述与有效性分析
(3)数据样本问题。部分乘客有可能没有携带WiFi设备,或者携带设备的WiFi功能没有打开,或者设备在中途打开或关闭了WiFi功能,这些情况会导致此部分乘客的原始轨迹数据缺失或不完整。
(4)iPhone随机码问题。IOS 8.0版本以上的苹果设备在扫描AP时,手机向外发送probe request帧时会随机生成MAC地址,只有当设备完成WiFi扫描并跟某一确定AP连接时才会给出真实的MAC地址,随机码会对同一轨迹对象的识别产生严重干扰。
(5)非地铁乘客的干扰问题。在地面和高架站,AP很有可能采集到非地铁乘客的WiFi设备。同时,线路上带WiFi功能的固定设施设备及车站工作人员等轨迹数据都会对数据的加工产生干扰。
(6)时间同步性问题。WiFi嗅探数据采集的系统时间可能与北京时间不同步,会对原始链路的时间排序产生干扰,需要在转换前对时刻进行修正。
(7)数据的实时处理速度问题。一是数据采集、传输以及入库的过程需要2~3 min延迟;二是目前嗅探数据的上报机制为AP发生切换后才上报,造成乘客在固定位置或列车上时信息不能及时更新;三是嗅探数据容量非常大,加上网络拓扑结构的复杂性,针对数据的预处理、清洗以及加工的时间比较长。为此,需要采用高性能的计算集群,并研究高效的数据处理算法来优化。
3 原始轨迹数据的分析方法
3.1 原始轨迹数据的特征分析
选择部分完整链路数据,初步分析发现,既有的轨迹数据中,主要存在三类典型的特征轨迹,如表3所示。
表3 典型的特征轨迹描述与分析
识别上述不同的轨迹特征是原始轨迹数据挖掘的基础。可根据时间和空间上的移动轨迹将乘客进行分类,然后针对不同的类型乘客(或设备)的特征进行清洗和数据还原。
3.2 原始轨迹数据处理流程
客流分析的基础是要还原每位乘客的出行链路。由于原始轨迹数据的不完整性,且原始轨迹数据中有可能包括了多次出行过程,因此,针对出行链路的原始轨迹数据处理流程是:首先对原始轨迹进行链路识别与拆分,然后通过数据补全等方法还原每次出行完整结构化的出行轨迹。如图2所示。
图2 乘客出行原始轨迹数据处理流程
3.3 轨迹数据的分析
(1)出行阶段识别。乘客出行由若干阶段组成,依据地铁内乘客的出行行为,可将乘客的每次出行过程分解为进站、候车、上车、乘车、下车、换乘和出站等7个阶段。乘客在不同出行阶段的轨迹特征是不同的,如上下车过程需要与列车运行的交路以及到发时刻进行匹配,换乘过程需要结合车站的拓扑结构和换乘组合形式来确定。
(2)出行次数判别与拆分。针对单个乘客出行轨迹中可能包括多次出行的情况,需要对每一次的出行过程进行识别与拆分。乘客出行过程中,通常情况下后一次出行与前一次会有一定的时间差,如果两条连续的轨迹衔接时间长度超过了,则可以判定为后面的轨迹为另一次出行过程;如果后一连续轨迹与前一连续过程发生在同一条线路,但列车的运行方向相反,则不论两条轨迹的衔接时间是多长,可将后面的轨迹判定为另一次出行过程。
(3)乘客完整的出行轨迹还原。针对不完整的乘客出行轨迹,可以结合出行阶段和状态,建立乘客与车站和列车的时空关联模型。结合采集的轨迹序列,通过设计相应的算法,对乘客进站、候车、上车、乘车过程、下车、换乘、出站的全过程轨迹进行还原。
(4)区域人数的计算。基于完整的乘客出行轨迹,可以计算出各车站的分时进出站客流、各换乘站不同换乘方向的分时换乘客流、各站台和站厅的分时聚集客流、站台的上下车和候车客流、列车载客人数与满载率、分车厢的人数等客流指标。
4 实例分析
以上海轨道交通网络2017年8月某日采集的嗅探数据为例,经过数据清洗和随机MAC剔除,转换加工后数据约3 500万条。基于原始轨迹数据,可以得到网络分时(15 min)的MAC进网量,然后结合经验扩样系数进行修正(规则是基于不同时段采集的MAC占AFC采集的总进站量的比例来制定的,总体原则是高峰比例比平峰比例低,过渡时段采用插值法来计算),最后与AFC系统的实际刷卡进站数据对比(如图3)。从图3中可以看出,扩样前的MAC进网量较AFC进站量要小,但总体变化趋势是一致的;扩样后,客流的变化趋势与实际AFC的进站数据吻合度非常高。因此,从大数据分析的角度讲,WiFi嗅探数据的总体样本与网络客流的变化规律是吻合的。
WiFi嗅探数据对地铁客流的分析优势更体现在微观层面的乘客轨迹还原上。表4给出了采集到的某两位乘客的轨迹数据。从数据中可以完整识别这两位乘客的全天出行过程。如ID为1的乘客7:57从曹杨路站进站上车,乘坐车号为424的列车(2号车厢),于8:08到达目的地上海火车站站,18:57从上海火车站站上车,乘坐车号为425的列车(3号车厢)于19:16返回曹杨路站;ID为2的乘客15:41从静安寺站上车,乘坐车号为208(2号车厢)的列车至中山公园站,换乘至3/4号线,乘坐车号为301(6号车厢)的列车离开中山公园站。由于缺失后续的数据,经与列车运行图匹配,可知301号列车16:07运行在金沙江路—曹杨路的区间上,因此可得到该乘客在中山公园的乘车方向为江苏路—中山公园—金沙江路。虽然目前大部分乘客的轨迹数据不完整,但结合实际和计划列车运行图、AFC刷卡数据,可以通过多种数据还原的算法来实现路径的有效还原,从而得到网络客流的分布特征。
图3 AFC刷卡数据与WiFi嗅探数据加工后的进网量数据对比图
表4 某两位乘客的轨迹数据
5 结语
基于乘客在地铁网络中的出行时空轨迹识别,进一步得到网络客流在时间和空间上的流量和流向,一直是网络化运营中的难点问题。本文仅对目前上海轨道交通网络获取的WiFi嗅探数据进行了初步分析,从分析结果来看,目前WiFi嗅探数据的采集和转换加工的技术条件已经具备,从采集的数据质量来看也能满足客流特征分析的要求。但由于样本数量、数据缺失等问题,再加上网络结构复杂、客流量大,针对数据的加工处理、数据还原、数据的深度挖掘仍然面临诸多挑战,这也是未来研究的重点方向。
参考文献
[1] 张霖,韩宝明,李得伟.基于图像技术的城市轨道交通大客流辨识[J].都市快轨交通,2012(1):72.
[2] 唐小勇,周涛,陆百川.基于手机信令的大范围人流移动分析[J].重庆交通大学学报:自然科学版,2017(1):82.
[3] 蒲一超,尹梅枝,朱琼斯,等.基于手机数据的地铁线网清分模型验证与优化[J].都市快轨交通,2017(4):102.
[4] 李思杰,朱炜,黄兆东.基于WIFI数据的城市轨道交通乘客出行时空轨迹推定[J].华东交通大学学报,2017(2):85.
[5] 罗宇锋,王鹏飞,陈彦峰.基于RSSI测距的WiFi室内定位算法研究[J].测控技术,2017(10):28.
[6] 高仁强,张晓盼,熊艳,等.模糊数学的WiFi室内定位算法[J].测绘科学,2016(10):142.
[7] DAVIDSON P,PICHE R.A Survey of Selected Indoor Positioning Methods for Smartphones[J].IEEE Communications Surveys&Tutorials,2017,19(2):1347.