基于移动互联网技术的出行模式识别方法
2015-12-20陈俭新赵红领李润知李春雷王宗敏
陈俭新,赵红领,李润知,李春雷,王宗敏
(1.郑州大学 河南省高等学校信息网络重点学科开放实验室,河南 郑州450000;2.郑州大学 信息工程学院,河南 郑州450001;3.中原工学院 电子信息学院,河南 郑州450007)
0 引 言
出行模式识别主要根据出行者的行为特征及位置信息对出行方式进行分类,识别结果能够为智能交通精细诱导、实时路况以及市政决策提供有力依据[1,2]。文献 [3-5]使用专业GPS设备采集数据,采购专用设备增加实验开销,出现位置参数偏移时校准困难,数据存储空间受限。移动互联网技术通过移动终端对出行数据进行采集,具有快速部署、成本低、数据传输便捷的优点;文献 [6]通过智能终端采集GPS、加速度传感器、磁场传感器、温度参数,该方法所用统计方法复杂,算法收敛速度慢;文献 [7,8]将移动端采集GPS数据与路网信息结合,在路况拥堵情况下,通过GPS提供的车速、距离参数难以区别不同交通方式;郑宇等[9]采用基于图论的后处理算法对移动终端采集的GPS 数据进行分析,但未对GPS 位置数据进行纠偏处理。
本文基于移动互联网技术,提出了一种改进的出行模式识别方法。该方法通过移动终端采集了详细的出行GPS参数和加速度参数,综合选择处理后的速度值和三轴加速度值作为出行方式识别特征。随后,本文提出了一种改进的BP神经网络算法—ALBP算法,进一步提高了算法效率和识别效果。另外,根据国内外主要交通方式现状,本文增加了对电动自行车出行方式的识别。
1 出行方式特征选择
1.1 最大速度
采集到的速度数据序列为 (V1,V2,…,Vn),为了防止GPS采集的瞬间误差,选取3 个最大速度取平均值,如式 (1)所示
1.2 速度中值
速度中值VMID为当次GPS 采集到的所有数据的中间值,在速度数据序列 (V1,V2,…,Vn)中通过排序得到。
1.3 平均速度
本文平均速度VAVG选取一段时间的总路程L 除以时间T
由于GPS返回的是地球的经纬度,这里使用Haversine公式根据起止点 (S,D)经纬度计算路程[4]如式 (3)所示
其中,S(s,Фs),D(d,Фd):s,d 分别为起止点的纬度,Фs,Фd分别为起止点的经度,R 为地球半径。
1.4 三轴加速度幅度值
5种不同的出行模式在出行畅通情况下可以通过GPS速度信息加以识别,但在某些情况下,如堵车等,每种交通方式在速度上很难显示出其独特的特征,加速度特征是每种交通方式特有的特征[4,10],5种交通方式垂直方向上加速度特征如图1所示。步行和自行车的波动性特征最为显著,电动车和小汽车波动性比步行小,公交车最为稳定,波动性最小。针对文献 [2]中提到数据采集设备必须按照垂直等方式放置来采集三轴加速度的问题,通过取模的方式能够很好的消除这种方法采集数据的轴间数据干扰。公式如下
式中:(Marx,Mary,Marz)——某种交通方式三轴的幅度值。
1.5 三轴加速度方差
方差能够表示不同出行方式的波动性特征,值越大,波动性越大[6]。本实验首先分别计算3 个方向上的方差,如式 (5)所示
图1 5种出行方式垂直方向上加速度典型波动
本组共1到n,共n个值,A1到An为某方向上加速度值,AAVG为同一方向上加速度平均值。为了避免设备放置方向带来的波动性干扰,三轴加速度方差同样采用类似取模的方法
式中:(Varx,Vary,Varz)——某种交通方式三轴的加速度方差。
1.6 三轴加速度向量的模
为了使手机的放置位置不影响加速度数据的采集,本文采用三轴加速度取模的方式处理三轴加速度[3]
式 中:Accelmag——三 轴 加 速 度 的 模,(Accelx,Accely,Accelz)——三轴加速度。
2 改进的BP神经网络
2.1 传统BP神经网络
BP神经网络有较强的学习能力,能够对含有噪声及不确定因素的数据建立高维非线性映射关系,被大量应用于解决实际问题[11,12]。由于传统BP 神经网络有:收敛速度慢、假饱和、稳定性差、容易陷入局部最小的缺点[13]。本文提出了一种改进的BP神经网络:ALBP算法用于出行模式识别,该方法通过自适应学习率和动量项提高了网络的学习效率和稳定性。
BP神经网络主要分为学习数据的正向传输与权值的反向调整两个阶段,学习数据正向传输阶段,输入值通过隐层到达输出层由激发函数输出,权值不变;神经网络根据允许误差值的大小判断是否进行反向调整,若需要调整,网络根据误差信号的大小进行的调整。通过不断的学习、调整,使得神经网络学习结果与目标之间的差距缩小在一定范围内[14,15]。
BP神经网络输入输出关系如下
其中,αk-1(j)为第k-1层第j个神经元的输出,wk(i,j)为第k层第i个节点对应第j 个输入的权值,θk(i)为第k层神经元的阈值,μk(i)为神经元的输入,函数f(x)为激励函数。
网络在输出层得到的实际输出为γ(k),训练数据的目标输出为β(k),误差为
神经网络根据误差δ(k)的大小判断是否进行反向权值调整以及调整量的大小。
传统BP神经网络权值调整公式为
式中:Δω(k)——第k次迭代权值的修正量,η——学习率,E(k)——第k次迭代的误差,ω(k)——第k 次迭代的连接权值,ν(k)——激励输出。
BP神经网络采用梯度下降法调整权值时,如果误差曲面上会存在梯度近似为零的点,此时的误差能够满足局部最小。根据式 (11),此时权值的变化量随着误差的减小而达到极小,造成网络已经到达最优的假象。通过添加动量项,避免了权值调整过分依赖学习率的现象。添加了动量项的权值修正公式如下
其中,λ*Δω (k-1)为动量项。由式 (12)可知,动量λ能够表示上次权值变化量对本次权值的影响程度。如果前一次修正量过大,可以通过调整λ的方法减少本次修正量,达到了减少振荡的效果,反之亦然。
2.2 自适应学习率的反向传播算法 (ALBP)
增加了动量和学习率的BP神经网络已经成为目前BP神经网络中的一种重要实现形式,本文基于可变学习率的反向传播算法改进得到自适应学习率的反向传播算法,通过自适应改变学习率的大小加速网络收敛速度。由于误差曲面的随机波动性以及对神经网络收敛速度的不同要求,在神经网络学习过程中使用统一的学习率η 和动量λ 不能根据误差大小及时调整网络收敛速度。根据传统BP神经网路误差函数的梯度特性,使得在误差曲线稀疏的地方,误差下降缓慢;如果神经网络采用固定学习率,若学习率η过小时,权值收敛过慢,η过大将可能使权值跳过最优学习率产生震荡现象。
神经网络训练过程中,若本次训练误差E(k)大于上次误差E(k-1)的ξ倍 (ξ取值在1.01到1.10之间)[14],表明本次训练权重增加过大,应立即减小,避免越过梯度曲面最佳权值;若本次训练误差E(k)小于上次误差E(k-1)的 (2-ξ)倍,表明误差正在减小,需要增加学习率以加快收敛速度[14];故学习率大小与误差变化量及上轮训练的学习率相关。本文对学习率的改进公式如下
式中:ε——学习率的初始值;N,M——两个集合
若E (k)∈N 表示本次误差相对于上次误差正处在稳定范围内则保持学习率,即本次学习率η(k)与上次学习率η(k-1)相同;若E(k)∈M,则表示本次误差超出了相对于上次误差的一定波动范围;若E(k)增大表明误差增大,需要减小学习率,根据式 (14)可知η(k)将减小,若E(k)减小表明网络误差正在减小,需要加大学习率以加快收敛速度,则η(k)增大。由于正态分布函数具有均匀变动性及集中性等特性,且其因子及因变量在因子正方向上负相关,符合学习偏差与学习率的变化规律。根据正态分布一定区域内收敛快的特点,能够使学习率在误差较大时快速收敛,根据以上学习率变化规律,本文采用改进的正态分布函数em-E(k)2×η(k-1)调整学习率的变化。
根据文献 [14,15]可知,最短学习时间权值处于[0.3,0.8]区间,故上式中将λ值调整在0.2到1的范围。式 (17)中误差对权值的梯度反映了误差曲面的曲折程度,如果曲面进入陡峭区域,梯度增大,则式 (17)指数项值减小,降低动量值,能够抑制误差的剧烈波动;当曲面进入平坦区域,梯度减小,则式 (17)指数项值值增加,增加动量值,加快网络收敛。
综合学习率、动量改进后自适应学习率的反向传播算法—ALBP算法,算法流程如图2所示。
图2 ALBP算法流程
在ALBP算法中,学习率根据误差E(k)与上次误差E(k-1)的比较进行自适应增减,若本次误差值属于N,表明误差偏差小,目前学习率有效,只需对动量进行微调;若本次误差属于M,表明当前误差较大或学习率适应当前网络,故需要进一步调整;此外,当误差E(k)<ξ×E(k-1)时权值更新是接受的,否则只对学习率进行调整。
3 设计及实现
实验所用采集数据工具为Android智能手机,处理数据在服务器端进行,主要配置为:Intel(R)Core(Tn)i3-2100CPU、4GRAM、500G HDD。
3.1 方案整体流程
方案整体包含3个大部分:出行数据采集、数据预处理、出行模式识别。主要流程如图3所示。
图3 出行模式识别主要流程
出行数据采集阶段:首先,开发智能手机端数据采集软件,通过志愿者对出行中的位置及动作参数数据进行采集,数据经网络上传到服务器端。数据预处理阶段:第一步,去除干扰数据,如:经纬度为0 的点。随后采用设定的时间片段对GPS和加速度数据进行分割,按照文中第一部分的特征计算方法,统计出行数据特征并对数据进行标准化处理。出行模式识别阶段:通过改进的BP神经网络对处理后的出行数据进行学习,最后对测试数据进行测试识别。
3.2 数据采集软件的开发
实验通过开发Android智能手机软件采集用户的GPS和加速度传感器数据。首先,根据Android 系统开源性,通过Android应用程序接口调用手机的GPS和加速度传感器,对GPS和加速度传感器进行设置。根据文献 [4,7]在GPS采集频率上的研究,本实验将采集GPS 频率为1 HZ,加速度采集频率为10HZ。然后,将采集到的GPS数据采用百度地图API进行纠偏[16]。使用Android异步处理机制Handler(),监听的同时异步传输数据。本文采用Http协议进行数据传输。在服务器端,通过Tomcat运行编写的Servlet服务程序对智能手机端采集到的参数进行接收、存储。
3.3 出行数据的采集与预处理
实验数据为实验室十名志愿者在一个月时间内采集的上下班出行及出差时的交通数据,包含步行、自行车、电动自行车、公交、小汽车5种出行方式。通过安装自主开发的智能手机数据采集软件记录GPS信息和加速度信息,GPS信息类的数据项和加速度信息类的数据项见表1、表2。
表1 GPS信息类的数据项
表2 加速度信息类的数据项
表1中time 为当前时间,latitude,longitude 为采集GPS的经纬度信息,speed为当前速度信息,bearing为当前方位角信息。表2中,x,y,z分别代表当前手机三轴加速度值。实验采集原始数据统计见表3。
表3 采集原始数据详情
实验将每天采集到的数据分类别进行处理,由于采集数据量较大,使用Java语言编程对采集到的原始数据进行统计、分析。实验首先去除采集到原始数据的干扰数据;随后,对于不同出行方式数据,分别按照GPS和加速度两组统计3min内信息,统计方式按照文章第二部分:出行方式特征选择,进行数据统计;随后将统计后的数据汇总写入特征数据库。训练数据进入神经网络之前需要做标准化处理,实验采用Sigmoid函数作为激励函数。为了保证神经网络具有一定的外推能力,实验将数据压缩在 [0.2,0.8]区间[12,13],标准化公式为式 (18)
式中:u——标准化后的特征值,ui——同列数据的第i个值,umin——标准化同列数据的最小值,umax——标准化同列数据的最大值。
4 实验结果及分析
文献 [17]将数据分析的时间片段设置为2min,根据文献 [18,19]国内主要城市平均交通灯时间在90s到120s,同时,为了更充分采集交通数据,实验将数据分析时间片段长度设计为3min。通过对采集数据的统计,实验共得到出行特征数据3200,选择2000 条数据作为训练数据,其余1200条作为测试数据。
实验首先测试了ALBP 算法的性能,设置神经网络采用单隐藏层,隐藏层节点共13 个,训练次数设置为3000次,选择测试数据中的200条数据测试学习效果。实验将四组BP神经网络进行了对比,其中,第一组数据为普通BP神经网络训练后所得结果,第二组为添加了学习率的BP神经网络训练后所得结果,第三组为添加了固定的学习率和动量的BP 神经网络训练后所得结果,第四组为基于ALBP算法的BP神经网络。第二组学习率设为0.6,第三组中动量设为0.4、学习率设为0.7,第四组中动量初始值ε设为0.7,ξ设为1.05,m 设为0.9,实验过程中每隔50次训练统计一次出错率,共得到4组,每组60个出错率数据,结果如图4所示。
图4 在指定条件下神经网络的训练次数与出错率曲线
横轴表示训练次数,纵轴表示出错率。由图可知:未添加学习率的BP神经网络震荡较为强烈,学习效果会出现波动性;在第二组训练中,增加了学习率尽管准确率进一步提高,但是收敛速度依然较慢,在曲线中存在平坦区域,表明学习率无法适应当前的错误率变化;第三组中由于动量的加入,结果中未出现较为平直的区域,表明动量能够使网络持续收敛跳出平坦区域;基于ALBP算法的BP神经网络在学习过程中动态调整学习率和动量,对网络误差反映更加敏感,收敛速度有了较大提升。实验对余下的1000条出行数据进行识别,结果见表4。
表4 5种交通模式的识别效果
根据识别结果,步行速度特征和加速度有规律的振动特征较其它方式明显,在识别的准确率上最高。自行车、电动自行车的速度跨度较大,容易被系统识别为其它方式,如电动车有时速度较快,加速度特征较为平稳,会被识别为小汽车。电动自行车、公交车、小汽车由于其固有的机械特性,在速度、加速度上会出现相似的特征,本文采用速度中值、加速度幅度值以及加速度方差能够在一定程度上对其进行区别。
根据对识别精度的要求以及采集设备数据流量限制,可以只使用GPS数据或加速度数据对出行模式进行识别。目前,文献 [20,21]通过GPS数据,利用模糊识别,结合出行速度、距离及出行时间对出行方式进行识别。文献[22]采用加速度数据,通过统计了加速度的均值、方差、中值、最小值、最大值、四分位数间距及相关系数特征,使用WEKA 提供的决策树算法对出行特征进行分类识别。文献 [4]同时使用了GPS 和加速度传感器数据,通过深度置信网络对出行方式进行了分类识别。
实验将本文方案与上述3 种方案进行对比,结果见表5。
文献 [20]方案基于GPS数据对出行模式进行识别,主要使用已有的出行模式模糊判别方案,根据出行速度、时间、距离判别出行方式。但GPS数据在反映出行方式特征上仍存在不足。如在拥堵条件下,公交车、小汽车的速度特征与其它交通方式相近,识别结果上会产生混淆。同时,对于每种出行方式,其振动特性是独特的,出行加速度特征能够较好反映出行方式。文献[22]方案在使用加速度数据的情况下,分析了出行方式加速度特征。根据不同交通方式在三轴的波动幅度的不同,其识别效果好于基于GPS数据的情况。但以8s作为时间跨度统计数据,对加速度的采集频率为0-4 Hz,加速度采集频率较小,不能够很好捕捉运动细节,在识别效果上弱于本方案。文献 [4]综合考虑了GPS参数和加速度参数,使用了加速度均值,但未对三轴加速度进行综合处理。当手机放置方位不同时,采集数据会出现不一致的情况,即原本x轴的数据会被写成y轴数据,出现数据的不一致问题,在识别机动车类出行方式时低于本方案提出的方法。本文将三轴加速度进行取模处理,引进加速度变化量的同时,注重了其在实际应用中的效果。在时间复杂度上,文献 [4]方案中深度置信网络算法复杂度依赖于训练集中输入的个数以及所含隐含单元数的多少;文献 [20]方案中采用道路匹配及模糊识别算法,区域内道路数量对算法性能影响较大;文献 [22]方案中决策树算法由于执行每层时都需要扫描训练元组集D,元组集合D 的大小对决策树收敛影响较大;本文算法基于传统BP神经网络进行改进,算法复杂度取决于训练次数m 以及权重数组长度。
表5 不同出行模式识别方案识别效果
5 结束语
本文基于移动互联网技术,开发了出行数据采集软件,采集了一定量的出行数据,研究了步行、自行车、电动自行车、公交车、小汽车5种交通模式出行参数特征;采用了改进的BP神经网络ALBP算法对5种交通模式进行学习和识别,实验表明改进的ALBP算法加快了BP神经网络收敛速度,提高了识别效果。出行模式识别结果表明本文方案克服了传统方法中出行数据采集设备受限、特征参数不明显、GPS数据纠偏困难的缺陷,能够取得良好的出行模式识别效果。
[1]Zhang Z,Poslad S.A new post correction algorithm(PoCoA)for improved transportation mode recognition [C]//IEEE International Conference on Systems,Man,and Cybernetics.IEEE,2013:1512-1518.
[2]Reddy S,Mun M,Burke J,et al.Using mobile phones to determine transportation modes[J].ACM Transactions on Sensor Networks,2010,6 (2):13-39.
[3]Xu C,Ji M,Chen W,et al.Identifying travel mode from GPS trajectories through fuzzy pattern recognition [C]//Seventh International Conference on Fuzzy Systems and Knowledge Discovery.IEEE,2010:889-893.
[4]Feng T,Timmermans HJP.Transportation mode recognitionusing GPS and accelerometer data [J].Transportation Research Part C:Emerging Technologies,2013,37:118-130.
[5]Zheng Y,Liu L,Wang L,et al.Learning transportation mode from raw GPS data for geographic applications on the web[C]//Proceedings of the 17th International Conference on World Wide Web.ACM,2008:247-256.
[6]Frendberg M.Determining transportation mode through cellphone sensor fusion [D].Boston:Massachusetts Institute of Technology,2011.
[7]Stenneth L,Wolfson O,Yu PS,et al.Transportation mode detection using mobile phones and GIS information [C]//Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems.ACM,2011:54-63.
[8]Xu D,Song G,Gao P,et al.Transportation modes identification from mobile phone data using probabilistic models[M]//Advanced Data Mining and Applications.Berlin:Springer Berlin Heidelberg,2011:359-371.
[9]Zheng Y,Chen Y,Li Q,et al.Understanding transportation modes based on GPS data for web applications [J].ACM Transactions on the Web(TWEB),2010,4 (1):1-36.
[10]Hemminki S,Nurmi P,Tarkoma S.Accelerometer-based transportation mode detection on smartphones[C]//Proceedings of the 11th ACM Conference on Embedded Networked Sensor Systems.ACM,2013:13-27.
[11]GE Kenan,CHENG Zhongqing,ZHAO Yunpeng.Prediction of temperature and humidity in underground space based on BP neural network [J].Computer Engineering and Design,2013,34 (6):2190-2194 (in Chinese).[葛珂楠,程忠庆,赵云鹏.基于BP 神经网络的地下空间温湿度预测[J].计算机工程与设计,2013,34 (6):2190-2194.]
[12]WEI Jing,PU Xingbo,QIAN Yaofeng,et al.Subgrade settlement prediction of transition section based on momentum back-propagation [J].Journal of Beijing Jiaotong University,2012,36 (1):52-55 (in Chinese). [魏静,蒲兴波,钱耀峰,等.基于动量BP算法的过渡段路基沉降预测 [J].北京交通大学学报:自然科学版,2012,36 (1):52-55.]
[13]GAO Pengyi.Study on the optimization of backpropagation neural network classifier[D].Wuhan:Huazhong University of Science and Technology,2012 (in Chinese).[高鹏毅.BP神经网络分类器优化技术研究 [D].武汉:华中科技大学,2012.]
[14]LIU Tianshu.The research and application on BP nerual network improvement [D].Harbin:Northeast Agricultural University,2011 (in Chinese).[刘天舒.BP神经网络的改进研究与应用 [D].哈尔滨:东北农业大学,2011.]
[15]TANG Weicheng.Handwritten English character recognition system [D].Shenyang:Shenyang Ligong University,2009(in Chinese).[唐伟成.手写英文字符识别系统 [D].沈阳:沈阳理工大学,2009.]
[16]Baidu map data correction [DB/OL].http://api.map.baidu.com/ag/coord/convert?from=0&to=4&x=%f&y=%f,2014(in Chinese).[百度地图数据信息纠偏[DB/OL].http://api.map.baidu.com/ag/coord/convert?from =0&to=4&x=%f&y=%f,2014.]
[17]Troped PJ,Oliveira MS,Matthews CE,et al.Prediction of activity mode with global positioning system and accelerometer data[J].Medicine and Science in Sports and Exercise,2008,40 (5):972-978.
[18]CHEN Xingyuan.Behind thinking of“cross the road in the Chinese-style”[N/OL].[2012-10-24].http://www.bus-info.cn/index.php?m=content&c=index&a=show&catid=9&id=22153(in Chinese).[陈星院.“中国式过 马路”的背后思考[N/OL].[2012-10-24].http://www.bus-info.cn/index.php?m=content&c=index&a=show&catid=9&id=22153.]
[19]Guangzhou bus[EB/OL].[2012-11-14].http://jt.gz.bendibao.com/news/20121114/109337.shtml(in Chinese).[广州公交[EB/OL].[2012-11-14].http://jt.gz.bendibao.com/news/20121114/109337.shtml.]
[20]FENG Chong.Travel pattern recognition based on the user’s mobile location data[D].Kunming:Kunming University of Science and Technology,2011 (in Chinese).[冯冲.基于移动定位数据的用户出行模式识别 [D].昆明:昆明理工大学,2011.]
[21]ZHANG Bo.Research on trip modal split of OD survey based on the cellular positioning system [D].Beijing:Beijing Jiaotong University,2010 (in Chinese). [张博.基于手机网络定位的OD调查的出行方式划分研究 [D].北京:北京交通大学,2010.]
[22]Wang S,Chen C,Ma J.Accelerometer based transportation mode recognition on mobile phones[C]//Asia-Pacific Conference on Wearable Computing Systems.IEEE,2010:44-46.