APP下载

基于XGBoost融合模型的交通流量预测技术研究

2022-12-24

自动化仪表 2022年12期
关键词:超平面交通流量城市交通

李 青

(武汉市公安局洪山区交通大队,湖北 武汉 430071)

0 引言

智慧城市的建设以物联网、大数据、云计算等科学技术为核心,对城市中产生的海量数据进行采集、处理、分析和利用,实现对城市各方面信息的全面感知和资源调度[1]。智慧城市的建设离不开交通网络。城市交通的发展情况与智慧城市的建设紧密相关,能够改变产业不均的问题,促进经济发展。近年来,私家车数量逐渐增多,给城市交通道路带来负担,增大了城市交通压力[2]。

针对智慧城市交通流量预测方法,相关文献进行了大量技术研究。文献[3]提出了动态贝叶斯网络预测方法,建立视频信息高速公路,并将其应用在交通信息网络平台,对车辆进行定位和对城市交通进行控制,以实现数字交通执法。由于系统模型的输入维度过多,进行预测需要花费较长时间。文献[4]建立了1种基于神经网络和统计算法的混合模型,对城市中某区域内的交通流量进行模拟。但该方法没有结合道路交通的速动性,导致交通流时间序列中的预测精度较差。

针对上述技术的不足,本文提出利用人工智能(artificial intelligence,AI)视频技术进行车辆识别的方法。该方法通过统计局部的梯度方向直方图(histogram of oriented gradients,HOG)特征,并将HOG特征作为车辆识别的特征,以建立XGBoost融合模型对交通流量进行预测。由于该方法加入了多个分类器,故能提升模型的预测效果,提高模型的预测能力。

1 智慧城市交通系统及特征提取

基于AI视频监控的智慧城市交通系统以视频采集为基础,应用AI和大数据技术进行车辆检测、人脸识别、图像识别等,进而获取城市道路交通车辆信息,并对采集的海量信息作大数据分析处理[5-6]。

基于AI视频监控的智慧城市交通系统框架如图1所示。

AI车辆识别过程如图2所示。

基于AI视频监控的智慧城市交通系统主要分为基础层、数据层、应用层和业务层。基础层包括计算、存储、网络资源池和视频图像库,完成存储资源的云化,通过对原始数据、视频解析部分的视频资源进行整合,实现各业务数据和运行数据的整合处理,形成多种数据库[7]。数据层共享和交互各智慧城市的交通视频,为系统的应用层提供视频资源。数据层应用AI技术,对视频共享平台中的图像、视频资源进行分析,提取车辆、人物、行为、特征等结构化数据[8]。物联网平台搭载智能调度算法,为视频共享平台和硬件设备提供算法支持。同时,根据不同的数据模型对多维度的结构化数据进行关联、分析、挖掘,输出多维度有价值的融合数据,支撑系统业务层中业务的进行。系统的应用层基于数据层提供的视频资源,为用户提供基础视频应用和智能应用[9]。业务层主要展示城市交通的运行状态、监测预警指标、交通控制等。AI视频技术以车辆为识别目标,对车辆的类型、品牌、颜色等特征信息进行识别,并且能够识别驾驶人员信息和驾驶状态[10]。AI视频监控可实现AI车辆信息特征提取。在对AI车辆数据信息特征进行提取时,构建了支持向量机(support verctor machine,SVM)分类器[11]。SVM分类器如图3所示。

图3中,不同类型的点为需要进行分类的城市交通图像数据信息的正负类别,H1、H2、H3代表3种不同的分类器。其中,H3不能较好的分类出正负类别的数据;H1和H2能够分离正负类别的数据,但分类器H2抗噪能力和泛化能力较差。分类器H1具有较好的抗噪能力,同时能够取得较好的分类效果。SVM分类器通过(p-1)维的超平面将p维数据分为正负类别。H1是满足要求的超平面[12]。SVM分类器是在所有超平面中选择1个最大间隔将两类不同数据进行分离。SVM的超平面如图4所示。

SVM分类器中,线性可分SVM要求数据集是线性可分的。对此,本文设定需要进行分类的车辆数据集为(X1,y1),(X2,y2),…,(Xn,yn)。Xi为p维的车辆数据。当yi=+1时,Xi数据为正类别数据;当yi=-1时,Xi数据为反类别数据[13]。yi为SVM的超平面输出数据信息。SVM的超平面可表示为:

XTW+b=0

(1)

式中:X为城市交通图像数据信息;W为法向量;b为截距;T为转置。

为了找到最大间隔的超平面,可以先找到平行且两者之间间隔最大的2个超平面。最大间隔超平面位于两者中间,可为:

(2)

式中:d为2个超平面的间隔[14]。

为了解决出现少量样本不可分的现象,本文引入了软间隔,加入惩罚参数和松弛因子得到软间隔SVM。

(3)

式中:C为惩罚因子;ξ为松弛因子;ξi为像素i数据信息的松弛因子。

将图像灰度化后,计算灰度图像每个像素点的梯度值,得到梯度图。

(4)

式中:G为最终的梯度值;Gx为水平方向的梯度值;Gy为垂直方向的梯度值;(i,j)为数据像素。

对block数组进行归一化,得到最终的HOG特征向量。对于64×128的图像,共有105个block。因此,将所有blcok得到的数组进行组合,可以得到1个长度为3 780的HOG特征[15]。

2 XGBoost融合模型的构建

系统中,视频监控到的数据受到各种因素的影响,使数据集出现数据缺失、噪声数据和数据冗余等情况。因此,需要对数据集进行预处理,以提高数据质量和可利用率。本文使用系统中AI视频监控的开源交通数据集。数据集包含的字段如表1所示。

表1 数据集包含的字段

道路ID能够作为交通特征,属于类别型特征,使用Label Encoding进行编码。时间片静态特征为时间维度的属性,包括星期、节假日、小时、分钟等,能够在时间维度上描述道路特征。星期和小时的映射方式为one-hot Encoding。预测函数可以为:

(5)

式中:K为决策树数量。

决策树函数可以为:

F={f(x)=wq(x)}(q:Rm→T,w∈RT)

(6)

式(6)为评价城市交通函数时交通数据信息所占的决策树空间。q(x)为将交通数据信息样本x映射到构建的决策树函数上的叶子节点。决策树的叶子节点记作wq(x)。评价城市交通数据信息的正则化目标函数可以为:

(7)

(8)

式中:N为决策树模型中的叶子节点个数;w为所构建的决策树模型中的叶子节点的权重;γ和λ均为可以调节的参数。

在计算过程中,要注意设置迭代次数,前(t-1)步迭代次数后,输出的模型为ft-1(x)。在第t步的优化过程中,输出目标函数为:

(9)

将式(9)进行二阶泰勒展开,可以得到:

Ω(ft)]

(10)

式(10)可以记作:

(11)

(12)

则叶子节点迭代次数输出数据信息可以为:

(13)

XGBoost模型在计算智慧城市交通时,需要对模型进行优化。在完成 XGBoost模型初始化参数训练时,优化参数主要包括树的最大深度max_depth、学习率learning_rate、列采样比率colasmaple_bytree和样本采样比率subsample。模型参数的调节范围和调节步长如表2所示[16-17]。

表2 模型参数的调节范围和调节步长

XGBoost模型在不同的max_depth下预测评价指标变化如图5所示。

随着max_depth值的增加,模型开始出现过拟合的情况。当max_depth的值为4时,预测评价指标最小。预测评价指标随max_depth的增加而增加,说明模型出现过拟合。由此可以确定参数max_depth的值为4。对上述数据模型进行预测,通过提取的交通特征和优化后的参数对建立的XGBoost融合模型进行训练。使用训练好的模型对城市交通未来一段时间内的流量进行预测。通过对道路静态特征的提取可知,道路长度对车辆的旅行时间影响较大,而道路宽度对车辆的旅行时间影响较小。因此,道路长度的区分度比其他道路静态特征更高[18]。

根据预测结果可知,交通流量一般为逐渐变化,不会出现突然增大或突然减小的情况。时间连续性决定了前一时刻的平均旅行时间对后一时刻的影响较大。根据XGBoost融合模型输入的交通流量预测结果对城市交通情况进行控制,并及时作出相应的调整,以避免交通拥堵。

3 应用测试

为验证基于AI视频监控的智慧城市交通系统的性能,分别使用文献[3]系统、文献[4]系统和本研究系统进行试验,对比3种系统的车辆识别效果和流量预测能力。试验环境需要搭建在配置好的服务器上,并进行Tomcat和Java的Jdk配置和安装。中心管理服务器采用64位E5系列处理器,内存为32 GB DDR4,硬盘为600 GB SAS。视频接入服务器为64位E5系列处理器,内存为32 GB DDR4,硬盘为600 GB SAS。数据转发服务器为64位E5系列处理器,内存为32 GB DDR4,硬盘为600 GB SAS,平台网关为4个千兆网口。数据库服务器采用64位E7系列处理器,内存为512 GB DDR4,硬盘为1.2 TB SAS,服务端操作系统为Windows Server 2008 R2(64 bit),服务端JDK为jdk1.8.0_66,接入交换机的参数为交换容量598 Gbit/s。本研究试验选用的训练样本为64×64×3的RGB 图像。

训练样本为10 000张车辆图像和10 000张非车辆图像。其中,车辆图像基本包含了所有常见车型,而非车辆图像主要以道路环境中非车辆图像为主。数据样本中:车辆类型数据信息为12 684 MB;车辆标志数据类型为8 542 MB;车辆颜色数据类型为1 635 MB;车牌数据类型为782 MB;道路图像数据类型为22 450 MB。试验架构如图6所示。

通过试验,将数据样本分为6组,设定每组中有500个车辆图像,使用3种系统对每组样本进行识别。车辆识别结果如图7所示。

由图7可知,本研究系统对数据样本识别到的车辆数量最多,AI车辆识别效果最好。本研究系统先对样本图像进行HOG特征提取,通过滑动窗口滑动到不同的位置获取特征信息,再输入到SVM分类器中进行判断。其中,第4组和第5组识别到的车辆数量均为500个,识别率高达100%。

文献[3]系统的最少识别个数低至483个,在第4组识别到的车辆数量最高可达到494个,车辆识别过程中可能受到图像质量的限制,如光照不均匀、画面不清晰、存在噪声干扰的影响等,导致识别效果不好。文献[4]系统识别第2组样本数据得到的识别数量最低为471个,第3组上升到490个,系统识别效果不稳定,也可能存在误识别的情况。

为验证3种系统对城市交通流量的预测效果,输入城市中某区域内的历史交通流量,使用3种系统对未来一段时间内的交通流量进行预测,并与真实流量值进行比较,计算误差百分比。

(14)

式中:yi为预测值;xi为实际值。

3种系统的预测误差如图8所示。

由数据点预测值的误差百分比可知,本研究系统得到预测数据的误差百分比在[-0.1,0.1]之间,误差百分比相对稳定,说明本研究系统对交通流量的预测效果较好。文献[3]系统的误差百分比最大可达到0.48,而文献[4]系统的误差百分比超过0.5,且变化幅度较大,预测精度不稳定。

4 结论

针对城市交通信息管理能力、城市交通数据信息交互能力滞后的问题,本文提出1种基于XGBoost融合模型的交通流量预测技术。该技术通过AI视频监控,以HOG特征信息模型实现流量数据信息的分析,由SVM分类器实现城市交通信息的分类与识别,提升了道路信息识别能力。同时,本文构建了XGBoost融合方法,能够提高交通流量预测能力,并通过分类回归树(classification and regression tree,CART)作为基分类器,实现原始数据集的编码,最终集成多个决策树模型。在试验过程中,车辆图像的识别率比较高,对交通流量的预测数据的误差百分比始终低于0.1。该研究能够加强城市交通系统监控,提高交通数据信息分析和应用能力。

猜你喜欢

超平面交通流量城市交通
全纯曲线的例外超平面
涉及分担超平面的正规定则
老龄化背景下关于城市交通适老化对策的思考
持续跟踪 精准发力 充分发挥世行在城市交通建设中的引智引资作用
基于XGBOOST算法的拥堵路段短时交通流量预测
共享单车对城市交通的影响
共享单车对城市交通的影响
基于GA-BP神经网络的衡大高速公路日交通流量预测
涉及周期移动超平面的全纯曲线差分形式的第二基本定理
Force degradation behavior of glucocorticoid deflazacort by UPLC: isolation, identification and characterization of degradant by FTIR, NMR and mass analysis