APP下载

基于IGA优化LSSVM的城轨短期客流预测

2022-12-24谭一帆巫雪梅刘海旭

计算机仿真 2022年11期
关键词:客流遗传算法聚类

谭一帆,巫雪梅,刘海旭,蒲 云

(1.西南交通大学综合交通大数据应用技术国家工程实验室,四川 成都 610031;2.西南交通大学交通运输与物流学院,四川 成都 610031)

1 引言

短期城轨客流预测作为城轨交通系统管理控制的一个重要环节,为城市轨道交通实时运营和客流组织提供决策依据,同时对提高交通管理服务水平以及控制能力具有非常重要的现实意义。短期客流预测根据数据特性可以分线性、非线性和组合预测这三种预测模式[1]。但是短期客流相较于中长期客流,其趋势特征不太明显,研究学者往往需要借助其它相关实时数据对短期客流进行联合辅助预测,例如天气变换、节假日、重大活动、周边交通情况等因素,这类多模态数据下的城轨客流预测模型往往需要多个平台的数据支持,尽管提高了预测精准度,但是预测效率低,研究人员容易忽略短期预测的时效性。多模态的预测模型较适用于中长期预测,为城轨交通规划建设提供辅助建议,且多模态数据预测需要多个平台支持,会造成运营成本上升、预测时间长等问题。

近年来国内外研究人员在进行城轨短期客流预测时将时效性问题纳入考虑范畴。有一部分学者通过讨论时间序列的相似性、相关性来进行预测[2],例如回归分析、ARMA、极大似然估计等,这些方法在进行短期预测时非常依赖历史数据,且无法将数据某些非线性特征表达出来,不能适用时效性需求比较高的城轨短期客流预测,难以做到在线预测。

于是有专家学者提出非线性的预测模型,例如支持向量机(SVM)[3]、卷积神经网络模型[4]等,这些模型关注时空关系,利用模型反应出客流之间非线性部分的特征,这类方法较依赖模型结构设计,同时预测时间随着模型的复杂度呈现指数增长。因此,为了提高非线性模型的效率,衍生出许多组合算法,例如将深度学习方法和寻优算法的结合,而这类预测算法[5-8]结合寻优算法的性能优化神经网络的权值或阈值以达到快速收敛效果,提高交通流预测精度。但是,由于深度学习对于数据的要求非常高,随网络层数和数据的增加容易造成预测速度慢以及过拟合的情况。因此,在小样本预测中具有良好的泛化能力的支持向量机(SVM)会更加适用于交通流预测领域。

其中,LSSVM是基于SVM进行改进的,能够高效的提升模型的计算速度,而采用粒子群、蚁群、遗传等算法优化SVM参数[9,10]均可以提高模型的预测精度。由于LSSVM受参数选取影响较大,因此参数组合是提高性能的重要因素。这类方法特点在于所需样本量比较少,但是需要多模态数据进行联合预测才能有较好的预测精准度和鲁棒性。而现实情况中,城轨客流组织实施分级预警策略,要求在保证一定的预测精准度下更强调对客流进行快速的预测响应。

基于上述分析,本文为了降低数据复杂度和样本量,同时提高对于少量单一数据的地铁短时客流的快速预测适用性,特采用时间序列客流数据进行预测,同时提出一种基于K-Means聚类的IGA-LSSVM的短期客流预测模型。首先,利用K-Means聚类方式挖掘其时间序列特征,获取客流模式并进行样本匹配,以此增强模型泛化能力,并针对不同的客流模式建立LSSVM模型对客流进行预测,同时利用IGA算法对LSSVM客流预测模型进行参数优化提高预测精准度,并通过仿真进行验证。

此方法综合了免疫算法全局寻优和遗传算法快速瘦收敛的特性,通过加速迭代过程达到提高预测精度的目标。同时,通过聚类挖掘时间序列的信息,提取出不同类型的时间序列作为输入进行预测,使得预测样本量降低,在一定程度上加快了计算过程。

2 基于免疫算法优化的LSSVM

2.1 免疫遗传算法机理

免疫遗传算法模仿生物免疫系统机制,并与传统遗传算法进行结合改进而来,具体方法与免疫系统具有如下关系:目标函数对应于抗原,解集对应于抗体,其中解集利用GA算法进行更新获取最优解,算法步骤见图1。

图1 免疫遗传算法

2.2 LSSVM客流预测模型应用

LSSVM作为支持向量机改进优化模型之一,最大特点就是将约束从不等式转变为等式,将二次规划问题转化为了线性规划问题,降低了计算复杂度。同时提高了模型的求解速度和精度,其通过单一数据预测在某种程度比ARMA等方法逼近的更快、更准确。将该预测模型与城轨客流数据情况进行结合应用如下:

给定训练集

{(xi,yi)|i=1,2,…,l,xi∈Rn,yi∈R}

(1)

式中:xi为输入数据,Rn为预测n维数据集,yi为短时客流的预测值,l为采样的样本个数。同时对历史客流数据进行GRANGE因果关系,发现前4小时客流与第5个小时客流具有GRANGE因果关系,因此,将前4个小时的客流作为输入,第5小时的客流作为输出,同时选择一个非线性变化f(x)将输入转化成输出,即得到回归预测函数f(x)。

采用最小二乘支持向量机的优化函数对所求目标值进行优化处理

(2)

式中:w为权重向量;b为偏差;e为真实值与预估值之间的误差;γ为惩罚因子,可以通过γ的值调节惩罚力度和模型精准程度,γ过小导致预测精准度降低,过大会造成过拟合的现象,从而导致泛化能力不足;l为样本容量;ei为误差项的第i个分量;yi为输出值的第i个样本值;φ(xi)为样本数据从低维空间映射到高维空间所对应的核函数;xi为输入的第i个样本值。

引入拉格朗日乘子法将式(1)的优化问题转化到对偶空间

(3)

式中,α为拉格朗日乘子;αi为拉格朗日乘子的第i个分量。对参数w,b,ei,αi分别进行求导并令其为0,得到下式

(4)

消去w和ei,改写成矩阵形式为

(5)

根据矩阵方程可求得α和b,最终得到LSSVM回归预测的函数为

(6)

式中:K(x,xi)为核函数。本文采用高斯(Gauss)径向基核函数,其函数形式如下

(7)

式中:σ为高斯核的带宽,对于LSSVM回归预测的性能有较大影响,σ越小,误差容限越敏感,样本数据点之间的相关性减弱,机器学习过程相对复杂,模型推广能力降低;σ越大,样本数据点之间相关性越强,机器容易产生过度学习现象,预测精度无法得到保障。

由此可知,LSSVM的测试结果主要依赖于具体的模型参数γ和σ,需要进行参数调节优化。

2.3 基于免疫算法优化的LSSVM实验步骤

该算法结合免疫遗传算法良好的寻优以及快速收敛的性能,通过调节LSSVM 预测模型参数γ和σ,并经由K-Means进行时间特征挖掘,分别建立相应的预测模式,通过匹配模式后进行预测,以达到提高精准度的要求。

应用免疫遗传算法优化LSSVM参数进行短时交通流预测的具体步骤如下:

1)构建训练数据集和测试数据集,通过K-Means聚类的BWP指标[11]对交通量进行聚类分析,并对客流数据进行预处理,得出客流量时间序列分类。

2)于预处理的交通数据,分别利用免疫遗传算法优化LSSVM进行参数优化得到最优短时交通流预测模型。具体过程如下:

Step1:读取匹配数据,设置LSSVM抗原以及抗体群(目标问题和初始解),依据二进制的编码规则,随机生成N个抗体和M个记忆库组成初始抗体群,其抗体群为随机组合;

Step2:将抗体和抗原进行免疫算法迭代,通过计算抗体抗原的亲和度(均方误差MSE作为指标)控制抗体浓度,通过计算目标值和预测值的差值,以及抗原之间的亲和度,亲和度其计算公式为

(8)

式中,Q(xi)为抗体抗原间亲和度;Q(xi,xj)为抗体间亲和度;E为抗体之间的信息熵。

Step3:对亲和度排序,选出亲和度最高的m个抗体,并进行克隆操作;

Step4:通过计算抗体v的期望值ev消除低期望值的抗体,即促进高亲和度、低密度个体。计算公式为

cv=-qk/N,ev=Q(xi)/cv

(9)

其中:cv为抗体密度,N为种群数量,qk表示和抗体k有较大亲和力的抗体。

Step5:根据不同抗体和抗原亲和力的高低,根据遗传算法计算方式,按照一定的交叉变异概率进行交换和更改基因序列,产生新的N个抗体;

Step6:判断模型收敛情况和迭代次数,若达到收敛条件或最大次数则返回结束,否则进入Step2。

3 成都地铁A站客流预测实例分析

3.1 预测步骤

对客流进行数据处理,将异常数据剔除,并利用K聚类算法通过BWP指标进行最优聚类分组,最后根据分组数据分别进行GA-LSSVM模型训练,最后利用数据相似性进行模型筛选,找到最佳预测模型,具体步骤如下:

第一步:数据预处理,本文获取A站每天17个小时的客流数据(6-8月共计92天),提出异常数据(空白数据,由于活动或者检修导致的站点运营时间变化)。最后得到84天有效数据。

第二步:BWP指标确认,利用BWP指标对数据进行聚类,取K值最大时候的聚类分组为最佳分组,其中K值选取范围为2-10。

第三步:预测模型建立,根据获取的K组分类,建立K客流模型,将待预测天采集的起始数据与K组客流模式的聚类中心进行相似度计算,将相似度最高的客流数据,进行IGA-LSSVM模型训练,并进行预测。

3.2 成都地铁A站结果分析

本文在不同K值下的BWP指标,如下表1。

表1 BWP指标

图2 客流模式分类

由表1可知,当K为4时得最佳聚类分组,可知该站具有4种客流模式,从图2客流模式分类可以发现,对于地铁站来说,在这段时期里总共存在四种比较明显的客流类型,从早上6点到中午12点四种类型都有一个明显的波峰,说明符合平时上午的通勤客流的活动规律。四种客流模式的最大区别在于后面的12点到18点的二次高峰的趋势不一样,同时衰减速度也不一样,这符合平时工作日和休息日客流的出行规律,即数据符合实际情况。

本文将待预测天的起始采样点与4个客流模式的采样点进行相似度对比,选取其中相似度最高的一组进行IGA-LSSVM训练,并同时对分类后的客流模式数据分别用传统LSSVM和GA-LSSVM模型进行对比,并验证准确性,得到如图3、图4的随机抽样对比和预测对比结果,其中图3和图4显示IGA优化后的LSSVM对比于其它两种LSSVM算法可以更准确地预测出当天的趋势。

图3 测试结果随机抽样对比

同时,通过对三种算法的相关误差指标的计算(表2),可以进一步显示IGA的相关性比其它两种方法更加显著,拟合效果更好,相较于其它两个模型分别提高了6%和9%。

图4 预测对比图

由于IGA-LSSVM能够较为准确的表达出实际客流的趋势,减少了误差值,使得预测精准度有所提高,因此,由表2可知,IGA-LSSVM进行客流预测的结果与实际情况更加吻合,且其它4个指标均有一定程度的降低。

表2 误差结果对比

其中IGA优化下的均方差(MSE)对比另外两个模型均方差的基础上分别下降了12.5%和28.8%,标准差(RMSE)分别下降了5.8%和14.47%,而IGA-LSSVM方法在百分比误差有少许下降,对比效果不明显,因此增加了图5所示的误差对比图。

图5 误差对比图

由图5可知LSSVM的误差出现了过拟合的情况,造成单个数据点误差波动大,而IGA优化和GA优化下的LSSVM误差波动相对平稳,更加贴近模拟出真实情况的趋势;且IGA-LSSVM的相对误差曲线始终都在其它两个优化方法误差曲线之下,表明其误差更低,精准度更高。

图6 迭代对比图

同时,本文通过图6遗传算法(GA)和免疫遗传算法(IGA)的迭代对比图发现,IGA的迭代速度相比GA慢一点,但是由于IGA是在GA的基础上带有了记忆功能,更好的跳脱了局部极值的情况,可以在反复迭代中找到最佳方向并迅速下降的同时对比记忆模块并更新最优解,从而避免了GA在局部震荡找不到方向最后直接收敛的情况,且提高了算法精度。

与此同时,尽管IGA算法在迭代过程中寻找的迭代方向提升了算法精度,但是这种方法使得预测值基于真实值偏小,造成分母过小而百分比误差变大,最后导致MAPE的效果不是很显著,尽管如此,也从侧面证明了IGA的精度会相比GA算法更高一些。

4 结束语

本文应用K-MEANS聚类对单一时间序列客流数据进行模式分类,并匹配客流模式分别建立LSSVM客流预测模型,同时利用免疫遗传(IGA)算法优化LSSVM的参数选取,提高了整体预测模型的泛化能力以及全局搜索能力。克服了传统模型中过拟合的问题,提升了模型的鲁棒性和稳定性。减少了对多模态数据辅助客流预测的依赖性,提高了效率。

同时,利用成都A站客流数据实验可以发现:与对照方法的结果进行对比,IGA算法具有更强的全局寻优能力,且预测值更加接近真实值,实验误差小,但是其百分比误差值效果并不理想,原因之一可能是由于聚类没有过多的考虑数据内在的联系,在接下来的研究中,可以将时间序列的时空特性融入模型中,进行辅助预测。

猜你喜欢

客流遗传算法聚类
客流增多
城市轨道交通节假日期间大客流行车组织思考与实践
基于K-means聚类的车-地无线通信场强研究
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
软件发布规划的遗传算法实现与解释
基于自学习补偿的室内定位及在客流分析中的应用
基于改进的遗传算法的模糊聚类算法
人工免疫算法在电梯客流时段划分的应用