基于Fisher聚类的公交客流量时间序列预测及对比
2019-04-08,,
, ,
(1.山东科技大学 经济与管理学院,山东 青岛 266590;2.山东科技大学 数学与系统科学学院,山东 青岛 266590)
随着大数据技术的不断发展,数据挖掘的形式在不断变化,而数据预测也成为数据挖掘的一部分。常用的数据预测方法有很多,而时间序列模型因其对预测领域背景要求不高而被广泛使用,除了常见的经济问题预测以及医疗问题预测外,时间序列模型在交通预测方面应用也比较广泛。
在交通预测方面,Liu等[1-2]采用时间序列模型、灰色模型和改进后的时间序列模型三种模型对机场客流量进行预测;Vasantha等[3]利用季节性自回归差分移动平均模型(seasonal autoregressive differential moving average,SARIMA)对印度钦奈三条主干路车流量进行了预测;成诚等[4]考虑了节假日效应,利用多元季节性时间序列模型对交通枢纽客流量进行预测;蔡昌俊等[5-6]采用乘积自回归差分移动平均模型(autoregressive differential moving average ARIMA)模型对北京市地铁站进出站客流量进行了预测,马佳羽等[7]采用傅里叶级数与ARIMA结合的方式对铁路客流量进行预测;在数据处理方面,周辉宇[8]利用时间序列的关联规则数据挖掘算法验证预测结果,徐晓伟等[9]通过聚类出行数据更为详细地分析了居民出行特征,闫伟等[10]利用模糊聚类的数据挖掘方式对交通流进行预测,取得较好的预测精度。
已有文献主要集中于对原始数据预测模型的探索,并多采用组合多个预测方法或改进预测模型的方式进行交通预测,而对交通数据本身的特征提取或挖掘关注较少。同时,又由于数据聚类的某些方法能够有效提高预测模型的预测精度,结合公交数据本身具有的有序性和周期性,选择恰当的数据聚类算法提取和挖掘数据特征,而后再运用适当的时间序列模型进行预测,在一定程度上可以取得更好的预测效果。基于此,本文先利用Fisher有序聚类算法划分公交客流量时段类型,并针对各时段类型数据运用时间序列模型进行公交客流量预测,对比分析不同模型预测效果的优劣,为城市公共交通系统的管理优化和线路调整提供指导。
1 理论基础
1.1 Fisher聚类算法
Fisher有序聚类算法是用离差平方和来表示同类样本之间的差异程度。通过简便的计算和作图,确定最优分类数,使同类样本间的差异最小,各类别样本间的差异最大,并用F检验法检验最优分类数的合理性[11]。Fisher聚类算法通常应用在公交客流分析中,通过对有序样本的聚类分析,能够有效地划分公交客流量的相似时段,降低预测的复杂程度,减少预测的重复性。
设有序变量依次为x1,x2,…,xn,如果b(n,k)表示对样本x1,x2,…,xn的最优k分割,则b(n,k)一定是在某一个截尾子段的最优k-1分割b(n,k-1)之后再添加一段形成的。这样就可以从各个截尾子段的最优二分段出发,建立一种递推公式,求出各种k值下的最优划分,从而使得求最优划分的精确解得以实现。
1.2 时间序列模型
时间序列预测方法是通过时间序列的历史数据揭示现象随时间变化的规律,将这种规律延伸到未来,从而对该现象的未来做出预测。常用的时间序列模型有两种,一种是自回归移动平均模型(autoregressive and moving average,ARMA),一种是自回归差分移动平均模型(ARIMA)[12]。当原始序列具有平稳性时,不存在差分阶数,被认为是第一种模型,即自回归移动平均模型(ARMA);当原始序列具有不平稳性时,需要进行差分处理,模型被认为是第二种模型,即自回归差分移动平均模型(ARIMA)。特殊的,当某些原始序列具有季节性时,可以提出季节因子,构造季节性自回归移动平均模型(SARMA)或者是季节性自回归差分移动平均模型(SARIMA)。
1.3 数据收集及预处理
公交客流量数据主要来源于乘客的刷卡数据,根据广州市交通部门提供的公交IC卡数据绘制原始数据图(如图1),发现数据具有间断点和异常点,这是由于公交IC卡数据在采集、传输和储存的过程中,不可避免会出现一些错误。本文通过数据清洗和数据检查等方式对异常数据进行处理,最终选择了2014年10月11日至12月31日的数据进行分析,其中10月11日至12月26日的客流量数据为模型的实验阶段,12月27日至12月31日的客流量数据为模型验证阶段。
图1 原始公交客流量数据序列Fig.1 Original bus traffic data sequence
为了更细致更直观地展现公交客流量的变化特征,利用统计学中均值的思想,将原始数据整合为单日平均客流量数据(如图2所示)。根据整合后的数据图能够发现各时刻客流量差异大小不一,乘客出行具有明显的早晚高峰的特质,在早晚阶段还具有一定的低峰现象。对不同时段的客流量进行预测能够极大提高预测精度,但由于涉及的出行时刻较多,预测工作量较大。采用聚类算法划分相似时段在一定程度上能够减轻预测繁琐性,也可以提高预测精度。
图2 单日平均客流量数据图Fig.2 Data graph of daily bus passenger flow sequence
2 实例分析
2.1 基于Fisher算法的聚类分析
2.1.1 定义类的直径
设时段点为i,i=1,2,…,n,公交客流区间划分时段表示为Gij={i,i+1,…,j},i≤j,其均值向量元素值
(1)
(2)
D(i,j)表示公交客流量不同时间段i,i+1,…,j内部变量之间的差异,值越小表示不同时段内公交客流量之间差异越小;反之,则表示不同时段内客流量差异越大,即公交出行的时间段越分散。根据公式(1)和(2)计算得到的相似时段类直径如表1所示。
表1 相似时段类直径Tab.1 Similar hour diameter
2.1.2 定义损失函数
用b(n,k)表示将n个样本分为k类的某一种分法,即将不同公交客流量划分为k类:
G1={i1,i1+1,…,i2-1},
G2={i2,i2+1,…,i3-1} ,
…
Gk={ik,ik+1,…,n}。
(3)
定义上述分类法的损失函数为
(4)
(5)
(6)
将表1中的直径数据代入上述公式,求得最小的损失函数如表2所示。以表2中第三行第二列数据2.70(4)为例,其意义为:有5个样本需划分为3种类型,存在{1},{2},{3,4,5}、{1},{2,3},{4,5}、{1,2},{3},{4,5}、{1},{2,3,4},{5}、{1,2},{3,4},{5}、{1,2,3},{4},{5}共6种划分情况,计算6种情况下的损失函数为分别为11.77、2.70、2,70、4.99、4.99、4.99,取损失函数最小的划分情况(即第二、第三种情况),最小值在j=4时取得,记为2.70(4)。
表2 损失函数e[b(n,k)]Tab.2 The value of loss function e[b(n,k)]
图3 损失函数变化曲线图Fig.3 Variation curve of loss function
k4567β2.3352.1081.7271.793
2.1.3 确定最优分类数k
由于Fisher聚类算法本身并未给出合适的划分类数k,目前常用的k值确定方法是曲线法和β检验法,本研究采用两种方法结合的方式确定k值[13]。
1) 曲线法。通过绘制最小误差函数e随划分类数k变化的曲线,取该曲线拐弯处或开始变平处对应的划分类数k作为最适宜的分类数,根据图3确定分类数为6或者7较为合适。
2)β检验法。通过计算β值确定分类数,当β值较大时,说明划分为k+1类比k类要好;β值接近于1时,则可以认为该划分数类k为最优分类数。通过计算得到的不同k值对应的β值如表4所示。当k=6时对应的β值最小且接近于1,因此,确定分类数为6。
(7)
在损失函数e和β值都变小的情况下,综合两种方法的分类结果,最终确定最优分类数k=6。
2.1.4 最优分类的确定
将样本划成k类,首先确定jk使得e[b(n,k)]达到极小值,即满足
e[b(n,k)]=e[b(jk-1,k-1)]+D(jk,n)。
(8)
得到第k类Gk={ik,ik+1,…,n}。进而找到jk-1,使其满足
e[b(jk-1,k-1)]=e[b(jk-1-1,k-2)]+D(jk-1,k-1)。
(9)
得到第k-1类Gk-1={ik-1,ik-1+1,…,ik-1}。依次可得到所有类,最终得到最优分类集合b(n,k)={G1,G2,…,Gk}。
根据表2结果,将公交客流量时刻划分为6时、7时至8时、9时至16时、17时至18时、19时、20时至21时共6种时段类型。聚类算法的意义在于降低相似时段公交客流量的差异性,认为划分时段内的公交客流量是相等的,因此,初始不平稳的公交客流量图转为划分后的流量图(如图4),根据图4所示的数据流量进行预测。
图4 划分后的公交客流量时序图Fig.4 Time series of bus traffic flow after it is divided
2.2 基于时间序列模型的预测实证
2.2.1 自回归差分移动平均模型(ARIMA)
自回归移动平均模型(ARMA)模型的基本思想是:将预测对象随时间推移形成的序列视为一个随机序列,用数学模型来近似描述[14],该模型描述的序列为平稳序列。根据公交客流量原始数据图得知,该序列不具有平稳性,通过一阶差分后该序列具有平稳性,因此,差分阶数d=1。假设随机变数yt是在时间t的一个观测值,则yt所构成的数列就成为随机序列,一般标准的ARIMA(p,1,q)模型可以记为yt~ARIMA(p,1,q),定义为
φp(B)Wt=θq(B)at。
(10)
式中:φp(B)=1-φ1B-…φpBp,Wt=(1-B)yt,θq(B)=1-θ1B-θ2B2-…-θqBq,at为白噪音,p、q为非负整数,B为后移分算子,即Byt=yt-1,φ1,φ2,…,φp为自回归参数,θ1,θ2,…,θq为移动平均参数。
表5 ARIMA模型预测结果对比Tab.5 Comparison of ARIMA model prediction results
运用Eviews软件对公交客流量进行预测,具体步骤如下:首先,构造原始序列的变化图像;其次,根据图像的变化趋势,对序列进行平稳化处理;再次,通过判断序列自相关系数和偏自相关系数以及模型的特点来确定阶数p,q,从而得到ARIMA(p,d,q),值得注意的是,在模型识别的过程中可能会存在不同阶数的模型,一般的,采用AIC最小准则来选择模型阶数;最后,运用最小二乘法对其进行参数估计,为确保所选模型符合实际要求,需要进行模型检验,一方面检验参数的估计值是否具有显著性,另一方面检验模型残差是否为白噪声,检验后本文确定的模型为ARIMA(2,1,2)。模型预测结果对比如表5所示。
2.2.2 季节性自回归差分移动平均模型(SARIMA)
当时间序列数据既存在趋势性又存在周期性时,可通过逐期差分使序列趋于平稳化。因此,选择季节性自回归差分移动平均模型,即SARIMA(p,d,q)(P,D,Q)S形式进行预测,其中D表示季节差分的阶数,P、Q分别表示季节性的自回归和移动平均阶数,S表示季节周期[15]。模型公式如下:
(11)
表6 SARIMA模型预测结果对比Tab.6 Comparison of SARIMA model prediction results
其中:φp(B)、ΦP(B)分别表示非季节与季节自回归多项式;θq(B)、ΘQ(B)则表示非季节与季节移动平均系数多项式,yt为t时刻的观测值,at为白噪声。季节性自回归差分移动平均模型的实证步骤与自回归差分移动平均模型的方法相类似,只是增加了季节性(周期性)因子以及差分阶数,在经过行图形的绘制、平稳化处理、模型识别、模型检验4个过程后,通过Eviews确定最终的预测模型为SARIMA(1,1,1)(1,1,1)7,模型预测结果对比如表6所示。
2.3 模型的预测误差
为了判断时间序列模型的预测效果,选用平均绝对误差(mean absolute error,MAE)和平均绝对百分比误差(mean absolute percent error,MAPE)来量化预测结果的好坏,误差计算公式如下:
(12)
(13)
表7 预测模型误差结果Tab.7 Predictive model error results %
本研究运用平均绝对误差(MAE)和平均绝对百分比误差(MAPE)对上述两个模型的预测效果进行对比(如表7所示)能够发现:在方法的选择上,季节性自回归差分移动平均模型的预测效果最好,季节性自回归差分移动平均模型比自回归差分移动平均模型的平均绝对误差(MAE)降低了4%左右,平均绝对相对误差降低了1%左右,这是由于本文所选择的数据具有明显的周期性。因而,运用季节性自回归差分移动平均模型提取周期因子,进而对原始序列进行预测更为合适。
3 讨论
目前,运用时间序列模型对原始交通客流量数据进行预测较为常见,为了验证Fisher聚类算法的有效性,本研究又分别利用两种时间序列模型对未聚类的客流量数据进行预测,数据选择仍为10月11日至12月31日6时至21时的公交客流量数据,其模型的预测结果如表8所示。
表8 聚类算法前后对比误差结果Tab.8 Results of comparison error before and after clustering algorithm %
结果表明:对原始序列进行聚类划分能够有效提高预测精度。从平均绝对误差(MAE)的结果来看,进行聚类划分后,每种预测模型的误差结果大约能降低4%左右;从平均绝对百分比误差(MAPE)的结果来看,每个预测模型的精度能提高3%至6%不等,说明对原始序列进行数据处理,能够有效提高预测精度。
4 结论
为提高交通客流量的预测效果,对初始数据进行处理和分析显得尤为重要。本研究从原始数据着手,利用Fisher聚类算法,将具有周期差异的时间序列数据进行聚类划分,降低了原始数据的波动性以及预测的复杂性。在预测模型的方法选择上,通过比较平均绝对误差和平均绝对相对误差的大小,发现季节性自回归差分移动平均模型(SARIMA)的预测效果最好。对于具有周期波动性的数据序列,选择含有周期因子的季节性自回归差分移动平均模型进行预测,预测精度较高;当原始序列的周期性不显著时,运用自回归差分移动平均模型进行预测也能够达到很好的预测效果,这为以后运用时间序列模型进行预测提供简便的选择方法;在数据处理上,利用Fisher聚类算法能够有效划分数据时段类型,对聚类后的数据进行预测能够有效提高预测精度。