APP下载

基于组合预测模型的高铁预售期购票量预测研究

2024-01-16徐玉萍,吴志刚,王宗宇

华东交通大学学报 2023年6期
关键词:购票车票算例

中国现已建成投入运营具有世界先进水平的“四纵四横”高速铁路网络,基本覆盖大中城市及省会城市,正迈向“八纵八横”的高速铁路网。高铁旅客车票预售期是指铁路部门作为承运人提前发售旅客车票的天数[1]。如何精准预测高铁车票预售期内各天旅客购票量的变化规律, 是铁路部门提升运营生产效能的关键所在。

随着信息化时代的到来, 近年来大数据技术中机器学习和深度学习神经网络因其自适应性、非线性、任意函数性和映射能力等特点,大量应用于交通运输领域的时间序列数据预测。 徐玉萍等[2]运用乘积季节模型引入注意力机制LSTM 组合模型预测了铁路货运量。 魏堂建等[3]基于DLPWNN 神经网络构建了高铁日客流量中期预测模型。 徐光明等[4]基于考虑多输出间关联性的最小二乘支持向量回归-卷积长短期记忆网络模型预测了高铁预售期旅客购票量分布。 史峰等[5]运用VMD-GA-BP 神经网络模型预测了高铁OD 间日客流量。 黄海超等[6]运用VMD-LSTM 神经网络模型预测了轨道交通小时客流量。 滕靖等[7]运用PSOLSTM 组合预测模型对高铁OD 间短期客流进行了预测。 WEN 等[8]基于分解技术的迁移学习预测了沪昆高铁车站的节假日短期进出站客流量。 在参数模型方面。 姚加林等[9]基于ARIMA 模型预测了高铁OD 间的日客流量。XIAO 等[10]基于矩阵最小二乘法获取交通流特征信息,用灰色预测模型预测道路交通流量。 帅斌等[11]采用灰色预测模型预测了市郊铁路OD 间日客流量。

针对高铁起止点 (oringin-destination,OD)预售期内各天购票量进行分析, 结合多种数据特征, 构建深度学习CNN-LSTM 组合预测模型,把握预售期各天旅客购票需求变化情况,从而为铁路部门灵活调整票额划分和运输组织计划提供一定的依据。

1 高铁预售期购票量组合预测模型

1.1 CNN 卷积神经网络

设高铁OD 间旅客车票预售期的总天数为m,发车日期的总天数为n; 旅客在预售期的第s 天购买的第d 天发车的购票量表示为xds(s 为预售期各天序号,s=1,2, …,m;d 为发车日期序号,d=1,2,…,n);Xd表示在第d 天发车,位于预售期第1 天至第m 天的购票量,Xd=(xd1,xd2,…,xdm)。 针对各天发车的车票预售期内旅客购票量,采用一维卷积神经网络进行运算,分为卷积层和池化层两类操作。 其中卷积层运算如下

式中:Pmax为预测模型中最大池化操作;lcp为池化后矩阵的时间序列长度;jcp为池化后数据矩阵的列数。

1.2 LSTM 长短期记忆神经网络

长短期记忆神经网络(LSTM)能够通过门结构对细胞状态进行运算,如图1 所示。

图1 长短期记忆神经网络LSTM 结构示意图Fig.1 Schematic diagram of the structure of the long and short term memory neural network

以发车日期位于样本的第d 天作为时间序列的划分标准。 在LSTM 网络中有3 类门,遗忘门Fd,输入门Id和输出门Od;Hd-1为上一时间序列的隐藏状态,隐藏状态在初始时即H0中的各元素为0;Cd-1为上一时序的记忆细胞状态,细胞状态在初始状态时即C0中的各元素为0;Cd为当前时间序列的记忆细胞状态,C^d为候选细胞;Ht+p为最终输出,其值蕴含了预测的第t+p+1 天预售期内各天购票量的信息。LSTM 网络在训练网络、输出预测值的计算过程如下

式中:⊙为Hadamard 乘积;Wf、Wi、Wc、Wo、Uf、Ui、Uc、Uo分别为遗忘门Fd;输入门Id,候选细胞C^d,输出门Od的权重矩阵;bf、bi、bc、bo为偏置向量参数[15]。

1.3 融合车票发车日期特征的高铁预售期组合预测模型

在此以高铁OD 间发车日期为时间衡量标准,参考现有预测模型相关文献,选取旅客车票发车日的日期、节假日和季节属性作为组合预测模型中的特征标签[16]。 各特征标签如表1 所示。

表1 高铁发车日期属性特征表Tab.1 High-speed railway departure date attribute

基于深度学习CNN-LSTM 的高铁旅客车票预售期购票量组合预测模型运算过程共分为7 步。

1) 高铁OD 间预售期购票量数据采集。经过数据预处理获取高铁OD 间历史预售期购票量总样本PAll如式11 所示。

PAll的每一行代表在同一发m 的信息,将其作为模型输入结构的第一部分。

2) 车票发车日期的日期属性特征采集。采集高铁OD 间车票发车日期的日期、 节假日和季节特征总样本QAll如下车日期的预售期各天的购票量xd

上式中v 为车票发车日期的日期、节假日和季节特征属性总特征数(选取“月份”、“每月第几天”、“季节”等共计8 种特征,在此v 取值为8)。QAll中每一行含有在第d 天发车对应发车日期的日期、节假日和季节属性,将其作为模型输入结构的第二部分。

3) 数据标准化处理。 采用离差标准化方法(min-max 标准化方法) 对高铁车票预售期旅客购票量和特征信息数据进行标准化处理。

4) 训练集和测试集的划分。将共计364 d 发车的预售期购票量和车票特征信息数据的总样本PTrain和QTrain,采用8∶2 的比例求余数取整后划分训练集和测试集。 将车票发车日期为样本第1 天至第288 天的预售期各天购票量和车票发车日期的多特征属性数据共计288 行数据作为训练集PTrain,QTrain,如下

将车票发车日期为样本第289 天至第360 天的预售期各天购票量和车票发车日期的多特征属性数据共计72 行数据作为测试集PTest,QTest,如下6) 预测数据反归一化处理。将预测模型测试集中模型预测的数据,进行反归一化处理,便于后续和模型预测数据对应的样本真实值进行比较,从而衡量模型的预测精度。

7) 预测模型精度的测定。将反归一化后的数据和真实的旅客购票量数据进行比较运算,进行预测模型精度的测定。

2 预测结果分析

2.1 实验数据

使用铁路部门提供的沪昆高铁OD 间车票预售期内各天旅客购票量为例,进行数据分析预测。 运用Python 中Matplotlib 库绘制的算例1、 算例2 的预售期内的购票量情况如图2、 图3 所示。 图中X轴表示高铁车票样本发车日期序号中的第d 天,Y轴表示位于共计m d(此时m 取值为60 d)车票预售期的第s 天,Z 轴表示高铁旅客在预售期的第s天购买在样本中第d 天发车的旅客购票数量。

图2 算例1 总样本的高铁车票预售期购票量Fig.2 Total sample of high-speed railway tickets purchased during the pre-sale period of example 1

图3 算例2 总样本的高铁车票预售期购票量Fig.3 Total sample of high-speed railway tickets purchased during the pre-sale period of example 2

2.2 实验评价指标

在此运用上文构建的基于深度学习CNNLSTM 的高铁预售期购票量组合预测模型, 经过训练集训练后在测试集上运算的预测值和真实值的预测精度指标采用均方根误差 (root mean square error,RMSE)、平 均 绝 对 误 差(mean absolute error,MAE) 和平均绝对百分比误差(mean absolute percentage error,MAPE)三方面进行评价,分别如式18至20 所示[18]。

式中: X^Test,j为测试集中模型输出的预测购票量矩阵;XTest,j为预测购票量矩阵在样本中同一日期的真实购票量矩阵;j 表示测试集中预测的各预售期购票量对应的发车日期序号;z 为测试集预测输出结果对应的发车日期总天数, j=1,2,…,z。

2.3 实验结果分析

在实验中CNN 网络的卷积核数分别设置为32和64,采用同尺寸填充,LSTM 隐藏神经元数为60,Dropout 参数为0.2, 损失函数为MSE, 优化器为Adam, 学习率为0.001, 迭代次数epoch 为100,batchsize 为128, 模型预测输入数据中对应发车天数p 为7。 将第1 天至第288 天发车的预售期各天购票量共计288 行数据作为训练集, 将样本中第289 天至第360 天发车的预售期各天购票量共计72 行数据作为测试集,基于上文构建的组合预测模型的预测值和真实值的如图4、图5 所示。

图4 算例1 基于深度学习CNN-LSTM 的高铁预售期购票量组合预测模型预测值与真实值对比图Fig.4 Comparison of predicted and real values of combined prediction model of high-speed railway pre-sale ticket quantity based on deep learning CNN-LSTM of example 1

图5 算例2 基于深度学习CNN-LSTM 的高铁预售期购票量组合预测模型预测值与真实值对比图Fig.5 Comparison of predicted and real values of combined prediction model of high-speed railway pre-sale ticket quantity based on deep learning CNN-LSTM of example 2

将上文构建的基于深度学习CNN-LSTM 的高铁预售期购票量组合预测模型与传统参数模型和机器模型进行预测误差精度的对比分析,算例1、算例2 的结果分别如表2、表3 所示。

表2 算例1 高铁预售期购票量预测模型误差精度效果对比Tab.2 Comparison of error accuracy effects of pre-sale ticket quantity prediction models for high-speed railway of example 1

表3 算例2 高铁预售期购票量预测模型误差精度效果对比Tab.3 Comparison of error accuracy effects of pre-sale ticket quantity prediction models for high-speed railway of example 2

由以上两表可知, 上文构建的基于深度学习CNN-LSTM 的高铁预售期购票量组合预测模型在算例1 中MAPE 误差精度较ARIMA 模型提升7.6%,较BP 模型提升2%,较CNN 模型提升0.3%,较LSTM 模型提升5.9%;算例2 中MAPE 误差精度较ARIMA 模型提升18.1%,较BP 模型提升20.9%,较CNN 模型提升2.3%,较LSTM 模型提升1.2%。

3 结论

1) 对比ARIMA 模型、BP 神经网络、CNN 卷积神经网络、LSTM 长短期记忆神经网络、CNN-LSTM组合模型,发现上文基于深度学习CNN-LSTM 的高铁预售期购票量组合预测模型可在一定程度上提高预测精度,由此可见,所提出的高铁预售期购票量组合预测模型适用于高铁OD 间的预售期购票需求预测。

2) 考虑历史连续发车的预售期各天购票量、日期、节假日和季节特征属性的组合预测模型的平均绝对百分比误差MAPE 精度较高,但从评价指标可知,与其他预测模型的效果差距不大。

猜你喜欢

购票车票算例
不同的购票方法
找车票
直击痛点的“候补购票”可多来一些
铁路候补购票服务扩大到全部列车
共有多少种车票
基于振荡能量的低频振荡分析与振荡源定位(二)振荡源定位方法与算例
互补问题算例分析
基于CYMDIST的配电网运行优化技术及算例分析
送别诗
燃煤PM10湍流聚并GDE方程算法及算例分析