APP下载

基于手机传感器的交通状态识别研究

2019-12-11杨津达曹永春满正行刘新帅

关键词:加速度交通状态

杨津达,曹永春,林 强,满正行,刘新帅

(西北民族大学 数学与计算机科学学院,甘肃 兰州 730030)

0 引言

交通拥堵已经成为各大城市面临的共性问题之一,严重困扰着交通的各参与方,包括政府管理部门和驾驶员.为了提供交通出行的参考信息,相关学者和企业从不同角度研究交通状态识别和预测问题,以期构建“智能交通系统”.文献[1]利用自行安置的摄像头,采集城市道路交通图像,通过SVM对图像的分析,实现对拥堵和非拥堵两种交通状态的识别;文献[2]通过自驾车跟踪公交车行驶,利用GPS数据采集硬件获取运行车辆的GPS位置和速度,并结合SVR和SVC研究了短期交通状态识别与预测.利用浮动车技术,文献[3]获取城市出租车的GPS和道路视频数据,并利用SVM二叉树多分类算法的识别模型进行区域路网交通流状态的识别.上述方法采用传统的道路交通检测设备进行交通状态的检测与识别.由于其安装和维护成本高以及覆盖面积小等缺点,在实际应用中存在诸多问题.

随着智能手机中的传感器越来越精密、种类越来越多,利用智能手机传感器进行模式识别的研究受到了众多学者的关注.基于智能手机传感器数据,文献[4]研究了5种交通出行方式及其组合出行方式的识别;文献[5]研究了路面平整度的评价方法;文献[6,7]研究了用户的日常活动行为的识别;文献[8,9]研究并实现了准确的空间定位;文献[10]研究了人体运动识别及应用;文献[11]研究了人体跌倒检测.这些研究成果以智能手机传感器数据为研究对象并获得了较好的识别效果,表明智能手机内嵌传感器数据可以表征以智能手机为载体对象的相关行为或特征.文献[12]通过比较发现,专业传感器设备和智能手机内嵌传感器在行驶车辆中的加速度数据高度吻合,说明目前智能手机内嵌传感器精度已很高.充分利用越来越精密的手机传感器数据进行交通状态识别是解决传统检测设备不足的一个新思路.虽然目前这方面的研究较少,但已有学者进行了相关研究工作.文献[13]利用手机运动传感器数据进行交通流状态识别,通过收集手机各类传感器的数据,利用网格寻优法优化参数后的SVM模型,对交通流状态进行识别,达到了不错的识别效果.该研究选用较特殊路段且识别模型复杂、模型输入参数较多.

借助日益普及的智能手机,特别是其内嵌的各类传感器,本文研究了基于动力学传感器数据的交通状态识别模型,以支持车辆运行状态的实时检测及交通状态信息自动推送服务.为了实现这一目的,本文在选用一般城市道路为实验路段的基础上,研究了以手机加速度传感器数据及其均值、方差为特征输入的交通状态识别方法.实验结果表明,本文提出的方法具有良好的识别性能,为实时检测细粒度交通状态垫定了技术基础,因而能够为驾驶员提供较为准确的实时交通状态信息,有助于缓解交通拥堵.同时,实时可靠的交通状态信息也能为政府管理部门提供包括道路优化和分时管理的决策依据.

1 数据收集与模型构建

安放在运行车辆内的智能手机加速度传感器数据能够表征运行车辆所处道路的交通拥挤状况,但直接以加速度传感器原始数据作为交通状态识别模型的特征输入,识别效果往往不理想.为获得精确的交通状态识别结果,需要进一步对原始数据进行统计分析,获取能较好表征交通状态的模型输入参数.为此,基于手机传感器的交通状态识别过程可分为三个阶段:一是手机加速度传感器原始数据的采集;二是对手机传感器原始数据的预处理和分类模型所需的特征参数选取;三是构建适合于交通状态识别的分类模型.

1.1 数据采集

放置在运行车辆中的手机加速度传感器的三轴加速度数据反映了车辆在行驶过程中前后、左右运动和上下颠簸的趋势.为减少对三轴加速度数据的坐标映射运算,数据采集过程中将手机水平固定放置在行驶车辆中.如图1所示,手机屏幕朝上水平放置于车辆内,Y轴正方向与车辆前进方向保持一致,此时X轴加速度表示车辆变道的速度变化程度,Y轴加速度表示车辆行驶方向的速度变化程度,Z轴加速度则表示车辆的颠簸程度.

图1 手机放置及三轴加速度方向

为方便数据采集,本文基于JAVA语言开发了一个Android平台数据采集软件.利用Android系统的SensorManager服务获得手机加速度传感器的三轴加速度数据.通过采集软件的图形界面,可方便控制数据采集的开始和结束、显示车辆运行速度、设置加速度数据采集频率并添加道路拥堵状态的标签.我们将车辆运行速度的采样频率设置为1次/秒,三轴加速度数据采集的频率设置为5次/秒,每条数据包含了时间、三轴加速度和速度值.

考虑到采集数据的真实性和分类模型的可靠性,我们选取老校区到新校区的路段采集数据.该路段既包括市区拥堵路段,也包括一般路段和车流量较少的畅通路段,同时考虑到不同时段数据特征对模型的影响.我们分别安排三组采集人员在上下班高峰时段和一般时段进行了多次采集,最终组成三个数据集Dataset_1、Dataset_2、Dataset_3,分别由419、429、402条数据组成.每个数据集包含畅通、拥挤和堵塞三种交通状态下的加速度传感器数据,通过这三个数据集来验证本文所构建交通状态识别模型的性能.

1.2 数据预处理及特征提取

由于传感器本身的物理特性以及采集过程中周围环境的影响,采集的原始数据可能会有缺失和噪音,对交通状态识别结果会产生较大影响,因此需要对其进行插值和滤波预处理.对于缺失的数据,利用相同属性数据的均值进行插补;对于噪音数据,即异常值数据,利用其相邻前后数据的平均值修正该异常值.

选取恰当的特征对交通状态识别模型的识别准确率有重要影响.特征组合中的各个特征量不仅要体现相同类别的相似性,还要反映不同类别间的差异性.时间序列特征一般包括时域特征、频域特征和时频特征.在交通状态识别中,频域特征和时频特征对模型的识别效果影响较小且会带来过多特征参数.本文基于传感器原始加速度数据提取时域特征均值、方差以及合加速度,其计算方式如下各式所示.

(1)

(2)

(3)

本文利用采集的三轴加速度原始数据,设定时间窗口大小为1 s,步长为1,提取每一轴数据的均值、方差及三轴的合加速度.通过python对数据进行处理并可视化呈现,进一步分析各特征向量的波动规律对不同交通状态特征的反映.图2和图3分别是三种交通状态的原始加速度数据和时域特征方差的对比分析.

图2 不同交通状态的加速度传感器原始数据对比图

由图2和图3可以看出,由于在畅通状态下车辆速度很快,左右水平方向和垂直方向的颠簸导致这两个方向上的加速度变化较大,因此X轴和Z轴加速度数据的波动幅度较大.在畅通状态下车辆基本匀速行驶,在前进方向的Y轴加速度数据的波动幅度很小;拥挤状态下,车辆速度虽然较慢,但仍以一定的速度行驶,因此X轴和Z轴加速度数据会有较小的波动,且在拥挤状态下道路车辆较多,会导致目标车辆一定的加减速.与畅通状态相比,在Y轴上的加速度相应较大.堵塞状态下的车辆大多在停止及加减速状态下频繁转换,引起Y轴和Z轴加速度数据波动较频繁且波动幅度较拥挤的状态,但由于堵塞状态车辆速度很低,反映在X轴加速度数据的波动就相对很小.

图3 不同交通状态的加速度传感器数据方差对比图

如前所述,三轴加速度传感器数据及其时域特征(均值、方差、合加速度)能反映车辆所在道路的交通运行状态,说明它们与交通状态有密切关系.在构建了交通状态识别模型后,我们将以上述10个特征数据的组合作为模型的输入参数,进一步验证模型有效性及各特征数据对模型识别效果的作用.

1.3 交通状态识别模型构建

交通状态识别问题属于分类问题,常用的分类模型有K-近邻分类器、朴素贝叶斯分类器、支持向量机(SVM)、决策树算法等.基于SVM模型在解决小样本、非线性、多分类问题中的优秀表现以及较强的泛化能力,本文选用SVM作为交通状态识别模型.

SVM通过映射函数Φ(x)将分类样本从线性不可分的原始空间映射到更高维的特征空间,从而使样本线性可分,模型描述如式(4)所示.

s.t.yi(wTΦ(xi)+b)≥1,i=1,2,3,…,m.

(4)

其中yi为分类类别,w为权值向量,b为偏置量,Φ(x)为非线性映射函数.

引入松弛变量ξ,可得

(5)

其中,C>0,为惩罚系数.

在非线性问题的特征空间中,利用拉格朗日方程对上式对偶化后,引入核函数,得到最终决策函数式(6).

(6)

其中αi为拉格朗日乘子,K(xi,xj)为核函数.

构造出一个具有良好性能的SVM分类模型,核函数的选择是关键.径向基核函数(Radial Basis Function,RBF)具有良好性能及对噪声较强的抗干扰能力,在先验知识不足的情况下往往被选用.多项式核函数(Polynomial)属于全局核函数,允许相距较远的数据点对核函数的值有一定影响,避免了分类结果陷入局部最优,且对于非线性问题,分类效果较好.因此本文在SVM模型中分别使用这两种核函数进行交通状态识别,并比较它们的分类效果.

核函数的选择包括两部分工作:一是核函数类型的选择,二是确定核函数类型后相关参数的选择.分类模型中相关参数的选择会对模型性能起到决定性作用.在SVM分类模型中需要确定的两个重要参数是惩罚系数C和RBF核函数参数g.考虑到网格搜索方法较高的精确度和本文模型较少的参数量,我们采用网格搜索方法确定最优模型参数.网格搜索法通过一定范围将待搜索参数划分为网格,然后遍历网格中的所有参数组合来寻找使模型性能最优的参数组合,结合K折交叉验证获得模型最佳参数组合(C,g),最终将参数优化后的SVM模型作为交通状态识别模型.

2 实验及结果评价

在构建了交通状态识别模型后,本部分利用在实际交通环境中收集到的3个加速度传感器数据集实验并验证本文提出方法在交通状态识别应用中的有效性.

2.1 实验设计

为分析加速度传感器数据及其时域特征对交通状态识别模型分类效果的影响,从而确定模型的最优特征输入,我们定义了由加速度传感器数据(ax,ay,az)及其均值(max,may,maz)、方差(vax,vay,vaz)和合加速度a组成的10组特征组合(分别表示为fg1,fg2,…,fg10),具体形式如表1所示.

表1不同特征组合及其组合方式

为简单起见,本文将交通状态分为3类,即畅通、拥挤、堵塞,类别标签分别表示为1、2、3.为避免交通状态识别模型出现过拟合和欠拟合,在进行实验时对所有数据集均随机选取80%作为训练集,其余20%作为测试集.最终实验结果以每个数据集中以10次实验结果评价指标的平均值表示.

本文采用混淆矩阵评价交通状态识别模型的分类结果,如表2所示,混淆矩阵用n行n列的矩阵表示,每一列代表预测类别的样本数目,每一行代表实际类别的样本数目,对角线上的样本总数表示正确分类的样本数.因此,各评价指标表示为:准确率acc=(TP+TN)/(TP+FN+FP+TN),表示所有预测正确的样本占总样本的比例.检测率TPR=TP/(TP+FN),表示正样本中正确预测为正样本的样本数占所有正样本的比例;误报率FPR=FP/(FP+TN),表示负样本中预测为正样本的样本数占所有负样本的比例.

表2混淆矩阵

基于前述交通状态识别模型构建的思路,本文实验分两个阶段,在第1阶段,本文以表1中各组特征组合分别作为Polynomial核函数SVM模型和RBF核函数SVM模型的特征输入.比较两种不同核函数分类模型的交通状态识别效果,并进一步分析不同特征对交通状态识别的作用.在第2阶段,本文利用网格搜索方法对RBF核函数的SVM模型进行参数寻优,以确定适合交通状态识别模型的最优参数组合.实验中设置交叉验证折数K=10,参数C、g寻优范围为(2-5,25),搜索步长为0.03125.具体搜索过程为:首先在C、g坐标系上构建二维网格,网格节点就是C、g的参数组合;接着对每一组(C,g),将数据集随机分成10个互不相交的子集.每个子集的数目大小大致相等,轮流将其中9组作为训练集,剩下的1组作为测试集验证模型并得到此测试集下的模型分类准确率.最终得到10组测试集下的分类准确率并计算其平均值,以平均准确率最高的(C,g)参数值对作为SVM模型的最佳参数值.

2.2 结果及评价

首先进行Polynomial核函数SVM模型和RBF核函数SVM模型识别效果的比较实验,基于3个数据集,用10种特征组合分别训练两个核函数的SVM模型.对每种核函数的模型进行10组实验,核函数参数均为默认值,实验结果如表3和表4所示.

表3Polynomial核函数SVM模型的实验结果

表4 RBF核函数SVM模型的实验结果

对比表3和表4中两种核函数在不同特征组合输入下的识别效果可以看出,虽然两种核函数不同特征组合的输入下的识别结果在训练集中近似,甚至Polynomial核函数在有些特征组合输入下识别准确率更高,但RBF核函数在测试集上的识别准确率整体上高于Polynomial核函数的SVM模型,说明RBF核函数的SVM模型泛化程度更好.

进一步分析同一种核函数的SVM模型在不同特征组合输入下的识别效果可以看出,以fg3、fg4为输入特征,相比fg1为输入特征的模型识别准确率有明显提高.说明均值、方差这两个时域特征对于交通状态识别作用非常关键;以fg9为输入特征比fg5为输入特征的模型识别准确率有明显优势,说明原始三轴加速度数据对交通状态识别作用较大.最后分别比较fg1与fg2、fg3与fg6、fg4与fg7、fg5与fg8及fg9、fg10作为输入特征的识别准确率.可以看出,在增加了合加速度特征输入后识别准确率几乎不变或有所降低,说明合加速度对模型的识别效果作用不大.

综合上述情况来看,以原始数据及其均值、方差的组合(即fg9)作为输入特征,可使模型具有最佳交通状态识别效果.

在第2阶段实验中,本文以原始三轴加速度数据及其均值、方差的组合(fg9)作为RBF核函数SVM模型的特征输入,分别在3个数据集上根据预先设定好的参数范围,利用网格搜索方法优化模型参数C和g,得到(C,g)最优参数值为(23,2-1).分别在3个数据集上用设置了最优参数的交通状态识别模型进行实验,实验结果如表5所示.

表5最优(C,g)值下的RBF核函数SVM模型实验结果

从表5结果可以看出,对模型参数经过优化后,在不同的数据集上模型识别准确率均有所提高,但在不同数据集上的识别准确率有一定差异.其差异主要是不同数据集采集人员对交通状态的标记误差及车辆运行环境的差异等因素导致.

根据3个数据集上测试结果的混淆矩阵,分别计算测试集每个样本的TPR、FPR,得到3组(TPR,FPR),绘制不同数据集上ROC曲线,如图4所示.

图4 3个数据集上模型识别结果的ROC曲线

利用上述ROC曲线计算3个数据集上的AUC值(ROC曲线下的面积),结果如表6.

表63个数据集下ROC曲线的AUC值

从图4和表6可以看出,每个数据集的ROC曲线均接近左上角且AUC值在0.9以上,说明本文模型拥有良好的识别性能.不同数据集上实验结果存在一定差异的原因是由于不同数据集采集人员对交通状态的标记误差及车辆运行环境的差异等因素导致.

3 总结与展望

本文研究了基于手机传感器的车辆行驶状态数据收集及交通状态识别方法,首先利用自开发的数据采集软件获取能够反映道路交通状态的传感器数据,并对其统计特征进行分析,发现加速度传感器原始数据及其均值、方差与道路交通状态有较高的相关性.接着构建了适合于交通状态识别的SVM模型.模型选用Polynomial和RBF核函数以比较不同核函数对交通状态识别效果.最后利用在真实运行环境中获取的3个手机加速度传感器数据集验证了模型的有效性.实验结果表明,RBF核函数SVM模型识别效果优于Polynomial核函数的模型,并且发现加速度传感器数据及其均值、方差对交通状态的识别有重要作用.在确定了RBF核函数SVM模型的最佳模型参数后,最高识别准确率达到了94.05%.这表明本文模型具有有效性和良好性能.

本文未来需要进一步研究的内容包括:一是研究能够反映交通状态的手机传感器数据,如陀螺仪、磁力传感器等传感器数据对交通状态识别的影响;二是进一步研究除均值、方差外的更多时域特征对交通状态识别的作用;三是尝试对模型参数优化方法进行改进.通过上述几方面的进一步研究,以期提高交通状态识别模型更高的识别准确率.

猜你喜欢

加速度交通状态
“鳖”不住了!从26元/斤飙至38元/斤,2022年甲鱼能否再跑出“加速度”?
繁忙的交通
状态联想
天际加速度
创新,动能转换的“加速度”
死亡加速度
小小交通劝导员
生命的另一种状态
坚持是成功前的状态
阅读理解三则