APP下载

基于手机信令数据的用户出行方式识别

2021-06-30曹晓蕊赖丽娜孟品超

关键词:信令基站轨迹

曹晓蕊,赖丽娜,孟品超

(1.长春理工大学 理学院,长春 130022;2.长春市市政工程设计研究院,长春 130022)

交通出行方式识别是建立在基于位置的服务技术、智能终端设备基础之上的一个新兴的研究领域。通过识别用户出行方式,可以掌握居民出行行为规律,分析交通状况、缓解交通拥堵,针对车流量和人流量进行规划和调度,促进城市交通系统的健康发展。

手机信令数据中包含用户的时空信息,从中挖掘出的用户轨迹数据作为移动对象的历史活动数据,可以提取出速度、加速度、出行时长、出行方式段距离等属性信息,越来越多的国内外学者开始将其运用到出行方式识别领域。Anderson[1]采用隐马尔可夫模型,以手机信号的强弱为依据判定目标的出行方式,准确率较低。S.Reddy等人[2]利用GPS与加速度传感器获得的特征数据,构建决策树模型识别出行方式,并且通过实验对该方法的有效性进行了验证。LeonStenneth等人[3]以GPS和GIS技术为基础,结合随机森林算法进行出行方式的识别研究,具有较高的识别准确率。张鹤鹏等人[4]建立C4.5决策树模型,从移动终端用户的出行轨迹中选出速度、速度的百分位数、轨迹点数量占比、出行距离、停止率作为特征变量,判别用户的出行方式,模型在区分机动车和非机动车时准确率达到了90%以上。易立[5]基于智能手机采集数据,结合改进随机森林算法设计了一个出行方式识别系统,利用该系统可以进行地铁、自驾、公交车、自行车、跑步、步行、静止七种出行方式的准确识别。汪磊等人[6]基于智能手机采集的居民出行轨迹信息,提取用于识别不同出行方式的特征向量,最后建立了径向基核函数支持向量机(SVM)分类器,并且以决策树、BP神经网络为对照,结果表明SVM具有更好的识别性能。闫彭[7]利用AGPS手机捕捉出行者出行轨迹,并建立BP神经网络实现了对步行、小汽车、公交车三种出行方式的识别。

考虑到聚类算法具有较强学习能力,同时基于各种出行方式,在出行距离、出行时耗、出行速度上具有“存在显著差异但无法严格区分”的特征,本文将模糊推理与聚类算法结合,提出基于改进模糊C均值聚类算法的出行方式识别模型,采用手机信令数据,进行用户出行方式的判定。

1 用户出行轨迹的获取

出行轨迹是分析用户出行行为、挖掘用户出行特征的基础,基于手机信令数据、市区基站数据、开源地图网站OpenStreetMap上的路网数据,进行道路匹配,可以将用户实际的基站定位数据映射到直观的数字地图上,得到较为精确的用户出行轨迹。

1.1 数据的层次化清洗

从通信网络中获取的手机信令数据,包括加密手机卡号、时间戳、基站小区编号等字段,市区基站数据存储在运营商的蜂窝位置数据库中,包括基站小区编号、经纬度坐标、基站范围、基站类型等字段,将信令数据与基站数据匹配后的原始数据形式如图1所示,具体数据字段含义如表1所示。

图1 原始数据

表1 数据字段含义

由于原始手机信令数据量庞大,包含大量“脏”数据,本文采用层次化清洗方法,具体步骤如下:

(1)将原始用户信令数据与基站数据进行匹配,保留加密手机卡号(simId)、日期(date)、时间(time)、基站编号(baseId)、基站经度(lon)、基站纬度(lat)6个有效字段,将包含这6个字段的一条数据视为一条记录,记为

(2)对匹配完的数据进行常规清洗,删除包含缺失字段的数据以及重复冗余数据;

(3)清洗漂移数据,依据simId提取单个用户的所有记录,依次计算连续两条记录l1,l2间的时间间隔Δt、距离d、速度v,将得到的速度值v与城市最大交通速度maxv比较,超过maxv则视为漂移数据,删除该条记录;

(4)清洗乒乓数据,将单个用户连续三条记录作为一个滑动窗口,若窗口中的连续记录有如下三种特征:

①baseId发生改变,即发生了位置切换;

②第一条和第三条记录的baseId一样;

③三条记录间的总时间间隔小于设定的阈值 T′。

则认为发生了乒乓切换,需删除第三条记录并继续滑动窗口,直到处理完所有记录。

1.2 基于几何关系分析算法的道路匹配

手机信令数据用基站定位坐标近似代替用户的实际位置,由于受到移动数据网络定位精度的影响,会产生定位偏差,道路匹配是解决该问题的一种有效手段。本文采用“点到点”的几何关系分析法,以从用户记录li中提取的基站定位坐标Oi(l o ni,lati)为圆心,以匹配结果可接受的误差值为半径r,设定一个候选匹配道路结点范围Q,在Q内选择距离Oi(l o ni,lati)最近的道路结点nodei(l o n′i,lat′i) ,替代用 户原始的 基站定 位 坐标Oi(l o ni,lati),即将nodei视为Oi在道路上的投影点,并将用户记录更新为l′i={simIdi,datei,timei,baseIdi,lon′i,lat′i} 。 图 2 展 示 的 是 对 某 一 个 用 户 轨迹记录做道路匹配前后的效果对比。

图2 道路匹配前后对比图

1.3 用户出行轨迹的提取

对用户轨迹点进行道路匹配之后,重新计算任意两条新记录 l′1,l′2间的时间间隔 Δt′,距离 d′,速度v′,采用时空DBSCAN聚类算法识别用户停留点及停留区域,进而获得用户出行轨迹。

1.3.1 基于时空DBSCAN算法的轨迹点聚类

时空 DBSCAN(Density-Based Spatial Clustering of Application with Noise)是一种很典型的密度聚类算法,基于一组参数( )ε,T,MinPts来描述邻域的样本分布紧密程度。其中,ε是某一样本的邻域半径阈值,T是时间阈值,MinPts是半径为ε且时间阈值为T的邻域中样本个数的阈值。对于 用 户j的 记 录 集Lj={l ′1j,l′2j,...,l′nj} (j= 1,2,...,J),这三个参数组成对象l′ij(i=1,2,...,n)的时空邻域Nε,T(l ′ij) ,邻域中的样本个数记为 Nij,给出如下定义:

核心对象:对于任一样本 l′ij∈ Lj,如果其时空邻域 Nε,T(l′ij) 至少包含 MinPts个样本,即 Nij≥MinPts,则 l′ij是核心对象。

密 度 直 达 :如 果 l′ij位 于 l′jj的 时 空 邻 域 中 ,且 l′jj是 核 心 对 象 ,则 称 l′ij由 l′jj密 度 直 达 ,但 此 时 l′jj不由 l′ij密 度直达 ,除非 l′ij也是核心 对象。

密 度 可 达 :对 于 l′ij和 l′jj,如 果 存 在 样 本 记 录l′1j,l′2j,...,l′kj,满 足 l′1j= l′ij,l′kj= l′jj,且 l′k+1j由 l′kj密 度直达,则称 l′jj由 l′ij密度可达,即密度可达满足传递 性 ,此 时 的 样 本 记 录 l′1j,l′2j,...,l′kj均 为 核 心 对 象 ,因为只有核心对象才能使其他样本密度直达。

那 么 ,对 于 用 户 j的 记 录 集 Lj={l′1j,l′2j,...,l′nj}(j =1,2,...,J),若任意选择一个没有类别的核心对 象 l′xj(x =1,2,...,n)作为种子,找到所有这个核心对象l′xj能够密度可达的样本集合,即得到一个聚类簇cxj,继续选择另一个没有类别的核心对象l′yj(y =1,2,...,n)去寻找密度可达的样本集合,则得到另一个聚类簇cyj,一直运行到记录Lj中的所有核心对象都有类别为止,则得到用户j的聚类簇集Cj={c1j,c2j,...,cmj}(j =1,2,...,J),m是聚类形成的簇总数。

1.3.2 用户轨迹点状态的判别

用户j的每一条记录l′ij都有一种状态,即移动状态或是停留状态。经过时空DBSCAN聚类算法处理后,得到用户j的聚类簇集Cj={ }c1j,c2j,...,cmj(j=1,2,...,J),cij∈Cj( )i=1,2,...,m 可能是多点簇,也可能是单个离群点。由于用户在移动过程中花费时间较长,移动距离较远,因而不易被聚为一类,故针对聚类结果,将离群点视为用户轨迹中的移动点,将聚类形成的多点簇视为停留区域。

停留区域分为短暂停留和长时停留两种状态,给定时间阈值T0,对于停留区域cij∈Cj,计算cij内轨迹点的最大时间间隔t0,若t0<T0,则判定该停留区域为短暂停留区域,仅保留停留区域的第一个轨迹点作为停留点;若t0≥T0,则判定为长时停留区域,取区域内所有轨迹点的重心作为该停留区域的停留点,用停留区域内第一个轨迹点被定位的时间作为停留的开始时间,最后一个轨迹点被定位的时间作为停留的结束时间。

1.3.3 用户出行轨迹的提取步骤

用户的一次出行轨迹由两个停留点及停留点间的所有移动点组成,对于用户j的记录集Lj={l ′1j,l′2j,...,l′nj}(j =1,2,...,J),用 户 出 行 轨 迹 的 提取步骤如下:

(1)利用DBSCAN聚类算法形成聚类簇集Cj={c1j,c2j,...,cmj}(j= 1,2,...,J);

(2)识别轨迹点状态,对于 ∀cij∈ Cj,将离群点记录视为用户轨迹中的移动点,将聚类形成的多点簇视为停留区域;

(3)识别停留区域状态,给定时间阈值T0,对于停留区域cij∈Cj,计算停留区域cij内轨迹点的最大时间间隔t,判断cij是短暂还是长时停留区域;

(4)按时间顺序排列得到的停留点及移动点,依据OD点原则形成用户j的出行轨迹序列Pj={p1j,p2j,...,phj}(j= 1,2,...,J),h 是用户 j形成的轨迹总条数。

2 基于改进模糊C均值聚类算法的出行方式识别模型

基于用户出行轨迹,本文依据出行方式的先验知识构建初始隶属度函数,利用马氏距离取代欧氏距离,提出基于改进模糊C均值聚类算法的出行方式识别模型,对步行、自行车、机动车三种出行方式进行识别。

2.1 FCMA聚类分析

2.2 基于改进FCMA的用户出行方式识别模型

传统的FCMA随机初始化隶属度矩阵U(0),使得对应的初始类中心特征矩阵V(0)不具有代表性,可能影响聚类结果的正确性。本文提出改进FCMA,不再随机初始化隶属度矩阵,而是基于先验知识(如表2所示),构造每种出行方式在出行距离s、出行时耗t、平均行程速度vˉ上的隶属度函数,根据隶属度函数计算初始隶属度矩阵U(0),从而增大类中心被正确分配到各种出行方式的准确率,提高算法的运行效率。

表2 出行方式出行特征的先验知识

本文选用出行距离s、出行时间t、平均行程速度三种出行特征属性表征步行、自行车、机动车三种出行方式,构造9个隶属度函数,分别是:步行的出行距离W(s)、步行的出行时耗W(t)、步行的平均行程速度W()、自行车的出行距离B(s)、自行车的出行时耗B(t)、自行车的平均行程速度B()、机动车的出行距离C(s)、机动车的出行时耗C(t)、机动车的平均行程速度C(),每个隶属度函数产生一个对应的模糊集合,具体的隶属度函数如下:

3 实验

基于上文提出的算法,本文结合长春市区某运营商用户的手机信令数据,对步行、自行车、机动车三种出行方式进行识别。

3.1 数据来源

所用实验数据是由某通信运营商提供的用户驻留样本数据,样本数据包括两部分,分别是吉林省所有基站数据和长春市区用户在8月1日00:00至次日00:00产生的24小时手机信令数据。

3.2 参数设置

在清洗漂移数据时,考虑到长春市区的地铁时速在60~80 km/h,故将城市最大交通速度maxv设为80 km/h。由于市区内的基站密度较大,定位精度范围一般在300~500 m,本文将候选匹配道路结点范围Q的半径r设为500 m。

基于交通领域将出行定义为居民单程移动距离超过500 m,时间超过15 min的移动行为,故本文将时空DBSCAN聚类算法中的时空邻域半径ε设为500 m,时间阈值T设为15 min。同时将乒乓数据判定的时间阈值T′以及长短时停留区域判定的时间阈值T0均设为15 min。而核心对象判断阈值MinPts的设置需要考虑到数据源中不同手机用户的信令数据在密度、轨迹点数量上均有较大差距,同时城区基站分布密集,故结合数据源的实际情况将阈值MinPts设为3。

综合考虑所有训练结果,将改进模糊C均值聚类算法中的m设为2.5,迭代终止阈值eps设为10。

3.3 改进FCMA识别结果分析

在长春市区范围内随机挑选出74名用户,经过数据清洗后,保留可用用户轨迹共1 218条。

3.3.1 识别结果

74名用户的单日出行量及出行方式占比统计如表3所示,表中数据显示的出行量以及各种出行方式的比例构成基本合理,其中机动车出行方式包含公交车、小汽车、轻轨三种出行方式,由于模糊推理基于的先验知识不能很好地区分这三种出行方式,故本文将这三种出行方式均视为机动车出行。

表3 出行方式判别结果

3.3.2 特征分析

考虑到模型识别出的三种出行方式的占比不平衡,以占比最少的机动车出行方式为基准,抽取60%的记录,即从三种出行方式的出行记录中分别随机抽取179条记录,分析三种出行方式的特征变量的分布情况,结果如图3-图5所示。

图3 三种出行方式出行距离波动范围

图4 三种出行方式出行时耗波动范围

图5 三种出行方式平均行程速度波动范围

结果显示三种出行方式在出行距离s、出行时耗t、平均行程速度vˉ上的波动范围较为合理,基本与各种出行方式的先验知识吻合,说明本文提出的改进模糊C均值聚类模型适用于出行方式识别问题,模型所得到的出行方式识别数据具有一定可靠性,可以为交通领域其他方面的研究提供帮助。

4 结论

基于移动通信数据挖掘用户出行信息是智能交通领域的一个重要研究方向,随着智能手机的广泛普及以及无线通信技术的发展,手机信令数据被广泛应用于交通领域,虽然手机信令数据的定位精度不及GPS定位数据,但是其获取成本较低且数据量大,更适用于交通领域的研究。

本文采用手机信令数据提出基于改进模糊C均值聚类算法的出行方式识别模型,该模型具有较大的灵活性和可扩展性,但是由于获取的出行方式的先验知识有限,仅对步行、自行车、机动车三种方式进行了识别。从用户的出行轨迹中可以进一步计算出加速度、平均速度期望、方差等特征变量,这些特征变量可以深入细化机动车出行方式,识别出公交车、小汽车等出行方式,是未来要深入研究的方向。

猜你喜欢

信令基站轨迹
轨迹
轨迹
SLS字段在七号信令中的运用
移动信令在交通大数据分析中的应用探索
轨迹
基于信令分析的TD-LTE无线网络应用研究
进化的轨迹(一)——进化,无尽的适应
基于移动通信基站建设自动化探讨
可恶的“伪基站”
基于GSM基站ID的高速公路路径识别系统