基于因子分析和最小最大概率机的交通事件检测算法*
2015-05-08邴其春杨兆升周熙阳田秀娟
邴其春 杨兆升,2,3▲ 周熙阳 田秀娟
(1.吉林大学交通学院 长春130025;2.吉林大学汽车仿真与控制国家重点实验室 长春130025;3.吉林大学吉林省道路交通重点实验室 长春130025)
0 引 言
交通事件不仅会引起交通拥堵,而且极大地影响着人们的生命财产安全。研究表明,在发达国家由交通事件引起的交通拥堵已达到12%~33%。因此,准确、及时的交通事件自动检测算法(automated incident detection algorithms,AID)对于提高交通运输系统的效率与安全具有重要意义。自20世纪70年代以来,发达国家对交通事件检测算法的持续研究取得了一系列卓有成效的成果。早期开发的交通事件检测算法主要有加利福尼亚算法[1]、标准偏差算法[2]、贝叶斯算法[3]、基于突变理论的 McMaster算法[4]、低通滤波算法[5]等,其中加利福尼亚算法和 McMaster算法是被公认的2种经典算法,通常被用于对比新开发AID算法的性能。随着对交通流特性的深入研究以及人工智能等新技术的发展,一系列AID新方法相继产生,如神经网络算法[6]、支持向量机算法[7]、小波算法[8]、卡尔曼滤波算法[9]、贝叶斯算法[10]、多智能体算法[11]等等。然而,现有 AID算法的输入变量大多依靠人工经验确定,且使用的人工智能算法普遍存在学习速度慢、容易陷入局部最优、易发生过拟合等方面的不足,从而导致误警率较高、检测时间偏长,严重影响着AID算法的泛化能力。笔者在分析交通事件条件下交通流参数变化趋势的基础上,多角度构建交通事件检测初始交通变量,利用因子分析方法(factors analysis,FA)对初始交通变量进行特征提取,使其既包含原始数据的全部有效信息,又避免输入变量之间的冗余和重复,并充分利用最小最大概率机模型全局优化、适应性强、泛化能力好的特点设计全新的交通事件自动检测算法。
1 最小最大概率机原理
最小 最 大 概 率 机[12](minimax probability machine,MPM)是1种基于最小错分概率的新型分类器,它的分类思想是通过控制错分概率以达到分类最大化的目的[13]。最小最大概率机模型能够充分利用数据的全局性质,以样本的均值和协方差代替真实的均值和协方差,从而实现较好的分类效果。
xy差,x,y,∈Rn,∑x,∑y∈Rn×n。在2类样本的均值和协方差已知的条件下,通过寻找超平面aTz=b (a,z∈Rn,b∈R) ,按照最大概率分离2类样本。分类问题可描述为
式中:α为正确分类样本数据的概率。
式中:α*和κ*为α和κ达到最优值时的值。式(2)中约去b后经简单变换可变为
设aT(-)=1,优化问题可变为
消去变量κ后式(5)变为
这是1个凸优化问题,可以求出a的最优值a*,进而求出κ的最优值κ*,把a*和κ*代入式(3)求出b的最优值b*,此时最优分类超平面的判别函数为sign (znew-b*),如果值为+1,表示znew属于x类,否则znew属于y类。对于线性不可分的情况,可以引入核函数把数据从低维空间映射到高维空间中使用最小最大概率机对数据进行分类。
2 初始交通变量构建
当路段发生交通事件时,线圈检测器所获取的交通流参数会有明显的变化。交通事件发生位置上游检测器采集的流量和速度急剧下降,占有率急剧上升;下游检测器采集的流量下降、速度上升、占有率下降[14]。事件发生时段交通流参数的显著变化是设计交通事件自动检测算法的基本依据,通过大量分析事件状态下线圈检测器获取的交通流数据发现,不仅流量、速度、占有率3个基本参数在交通事件发生时段会有明显变化,不同交通参数之间的组合对交通事件的发生也表现出很强的敏感性。因此,本文选取了如表1所列的交通事件检测初始交通变量。
表1 初始交通变量表Tab.1 The table of initial traffic variables
3 基于 FA和 MPM交通事件检测算法流程设计
首先利用因子分析法对初始交通变量提取关键特征,然后用最小最大概率机分类算法对处理后的数据进行分类,可构造如图1所示的交通事件检测算法流程。具体步骤如下。
1)获取事件检测的初始交通变量数据集,并对数据集进行归一化处理,形成标准化的事件检测初始变量数据集。
2)对标准化后的交通变量数据集进行因子分析,提取主因子并计算因子得分,得到训练样本集和测试样本集。
3)用训练数据集训练最小最大概率机分类器,用交叉验证法选取最小最大概率机的参数,得到最优决策超平面znew-b*=0。
图1 算法流程图Fig.1 The process of the proposed algorithm
4 实证分析
4.1 数据来源
实验数据来源于美国加利福尼亚州I-880数据库,该数据库包含I-880高速公路上35个检测站所有车道的流量、速度和占有率数据。数据的采样间隔为30s。前期采集时间为1993年2月16日~3月19日,后期采集时间为1993年9月27日~10月29日,记录了每天上午05:00~10:00时,下午14:00~20:00时的交通流数据。通过整理数据,挑选出45个交通事件,其中,向北的事件22个,向南事件23个,将事件开始到事件结束时段内的所有交通流参数均视为事件数据。将1993年2月18日全天无事件的交通流参数作为正常状态数据。将交通事件数据库与正常状态的交通数据库分为训练集和测试集2个部分,其中约2/3用于训练,剩余部分用于测试。
4.2 初始交通变量的因子分析
利用SPSS17.0统计分析软件对选取初始交通变量进行因子分析,首先对初始交通变量数据集进行归一化标准处理,并进行KMO检验和巴特莱特球度检验。检验结果见表2。
表2 KMO检验和巴特莱特球度检验结果表Tab.2 The results of KMO test and Bartlett test of Sphericity
由检验结果可见,KMO值为0.833大于0.5,且巴特莱特球度检验的球度检验值为6 738.372,显著性概率为0.000,小于0.01,说明本文选取的初始交通变量具有较强的相关性,适合做因子分析。图2为利用因子分析所得到的因子提取碎石图,由图2可见,只需提取前3个主因子即可较好的涵盖所有初始交通变量的有效信息。因此,本文选取主因子个数为3。
图2 因子提取碎石图Fig.2 The scree plot of factor extraction
表3为交通变量的主因子得分,各个主因子可通过初始交通变量的线性组合表示,并可计算各个交通变量主因子的得分值,进而获取交通事件检测输入数据集。
表3 交通变量主因子得分表Tab.3 The main factor score table of traffic variables
4.3 核函数的选择与参数确定
为了验证最小最大概率机算法的分类性能,本文选取线性 MPM和核 MPM 2种形式进行分析,其 中 核 函 数 的 表 达 式 为 K (zi,zj)=exp(-‖zi-zj‖2/σ)。高斯核函数参数σ的选取对分类效果有很大影响,以往的研究大多按照经验选取。为了得到合理准确的核宽度σ值,本文采用交叉验证的方法确定σ值,图3为向南方向测试数据库中高斯核函数参数σ对分类正确率的影响。
由实验结果可以看出,当σ为1.6时,交通事件检测率最高,达到98.6%,且当σ取0.4~1.6时,分类正确率维持在98.5%上下,具有较好的稳定性。因此,MPM算法对于参数的选取具有较好的鲁棒性,能够增强算法的灵活性,本文选取高斯核函数的核宽度值σ为1.6。
图3 不同σ值的事件检测率Fig.3 Theidentification rate for differentσ
4.4 实验结果分析
为了验证因子分析方法对于提高交通事件检测效果的有效性,笔者分别将初始交通变量和特征提取变量作为输入变量,以向南方向交通事件数据库为例,利用核函数MPM算法(kernel minimax probability machines,KMPM)和线性 MPM算 法 (linear minimax probability machines,LMPM)进行实验,采用检测率(identification rate,IR)、误检率(false identification rate,FIR)和 平 均 检 测 时 间 (mean time to detection,MTTD)作为评价指标,结果见表4。
表4 检测结果对比Tab.4 The comparison of identification results
由检测结果可见,2种不同形式输入变量的事件检测效果均较好,相比之下,笔者提出的利用因子分析进行特征提取的交通事件检测方法效果更优。由此可见,深入分析交通流的运行特性,从多角度设计初始交通变量,能够得到较好的交通事件检测效果,同时对初始交通变量进行合理有效的特征提取对提高事件检测效果也尤为重要。
BP神 经 网 络 模 型 (back propagation neural network,BPNN)和支持向量机模型(support vector machine,SVM)是目前应用最广泛的2种人工智能AID算法,其应用效果得到了充分证明。为进一步对比分析本文所设计算法的有效性,本文选取以特征交通变量作为输入变量的BP神经网络模型和支持向量机模型作为对比算法进行对比分析。为充分验证本文设计算法的有效性,将事件数据按向南方向、向北方向和混合方向进行分类,分别进行实验分析和对比分析。实验结果见表5。
表5 检测结果对比Tab.5 The comparison of identification results
由检测结果可见,对于向南方向、向北方向和混合方向,FA-MPM方法事件检测效果均优于SVM和BP神经网络方法,且KMPM的检测效果更优于LMPM,说明FA-MPM能够有效的提高交通事件检测的效果,且使用核函数MPM方法的检测效果更优于线性MPM方法。从不同交通事件库的检测效果看,向南方向的事件检测效果最好,这是因为向南方向的交通事件大多导致多条车道发生堵塞,交通流参数波动较大;向北方向的事件检测效果最差,这是因为向北方向多为轻微交通事件,对交通流影响较小,交通流参数波动不明显。从混合方向的检测效果看,笔者所设计的算法总体取得了较好的检测效果,明显优于对比算法。
5 结束语
针对现有交通事件检测算法在输入变量选取方面的局限性,笔者综合分析交通流参数的变化趋势,构建了全面的交通事件检测初始变量,设计了1种基于因子分析和最小最大概率机的交通事件检测算法,并通过实测数据验证取得了较好的检测效果。然而,本文方法仍存在一些不足和缺陷,主要有以下几点。
1)本文方法的实现依赖于道路上地点交通参数采集设备布设的数量和密度,且仅适用于连续交通流的高速公路和城市快速路,对于有信号控制的城市道路具有一定局限性。
2)本文方法设置的初始交通变量较多,且需要进行特征变量提取,从而导致事件检测算法的实时性和计算效率有待进一步提高。
[1] PAYNE H J,HELFENBEIN E D,KNOBEL H C.Development and testing of incident detection algorithms[R].Washington D C,USA:Federal Highway Administration,1976.
[2] DUDEK C L,MESSER C J,NUCKLES N B.Incident detection on urban freeways[R]Transportation Research Board.Washington D C:TRB,1974.
[3] ABUELELA M,OLARIU S.Automatic incident detection in VANETs:a Bayesian approach[C].IEEE Vehicular Technology Conference.Barcelona,Spain:IEEE,2009:1-5.
[4] PERSAUD B N,HALL F L.Catastrophe theory and patterns in 30-second freeway traffic data-implication for incident detection[J].Transportation Research Part A,1990,23(2):103-113.
[5] STEPHANEDES Y J,CHASSIAKOS A P.Application of filtering techniques for incident detection[J].Journal of Transportation Engineering,1993,119(1):13-26.
[6] 覃频频.事件检测概率神经网络模型的建立与验证[J].交通运输系统工程与信息,2006,6(4):70-74.QIN Pinpin.Establishment and verification of PNN model for incident detection[J].Journal of Transportation Systems Engineering and Information Technology,2006,6(4):70-74.(in Chinese)
[7] 王武功,马荣国.交通事件检测的加权支持向量机算法[J].长安大学学报:自然科学版,2013,33(6):84-87.WANG Wugong,MA Rongguo.Weighed support vector machine for traffic incident detection[J].Journal of Changan University:Natural Science Edition,2013,33(6):84-87.(in Chinese)
[8] JEONG Y S,CASTRO N M,JEONG M K,et al.A wavelet-based freeway incident detection algorithm with adapting threshold parameters[J].Transportation Research Part C,2009,19(1):1-19.
[9] 唐夕茹,陈艳艳,赵源.基于短时交通预测的公路交通异常判别方法[J].交通信息与安全,2014,32(2):95-99.TANG Xiru,CHEN Yanyan,ZHAO Yuan.Shortterm traffic prediction theory-based method for discriminating highway abnormal traffic status[J].Journal of Transport Information and Safety,2014,32(2):95-99.(in Chinese)
[10] 张 轮,杨文臣,刘 拓,等.基于朴素贝叶斯分类的高速公路交通事件检测[J].同济大学学报:自然科学版,2014,42(4):558-563.ZHANG Lun,YANG Wenchen,LIU Tuo,et al.A naive Bayesian classifier-based algorithm for freeway traffic incident detection[J].Journal of Tongji University:Natural Science Edition,2014,42(4):558-563.(in Chinese)
[11] 梁 军,沈伟国,蒋 焱,等.基于车联网信息融合多Agent方法的交通事件检测[J].长安大学学报:自然科学版,2014,34(4):159-166.LIANG Jun,SHEN Weiguo,JIANG Yan,et al.Automatic incident detection based on vehicle networking of multi-agent information fusion method[J].Journal of Changan University:Natural Science Edition,2014,34(4):159-166.(in Chinese)
[12] LANCKRIET G R G,GHAOUI L E,BHATTACHARYYA C,et al.Minimax probability ma-chine[C].Proceedings of Advances in Neural Information Processing Systems,Berkeley:Department of EECS University of California,2002:1-7.
[13] 屠 立,张树有.基于最小最大概率机的客户需求分类技术[J].农业机械学报,2009,40(3):184-188.TU Li,ZHANG Shuyou.Study on VOC classification approach based on MPM[J].Transactions of the Chinese Society for Agricultural Machinery,2009,40(3):184-188.(in Chinese)
[14] 蔡志理.高速公路交通事件检测及交通疏导技术研究[D].长春:吉林大学,2007.CAI Zhili.Study on traffic incident detection and traffic evanesce technologies for freeway[D].Changchun:Jilin University,2007.(in Chinese)