基于数据挖掘的景区客流量预测模型研究
2021-08-06吴学成
吴学成
(凯里学院,贵州 凯里 556011)
0 引言
对景区客流量进行建模与预测,可以帮助景区管理人员了解景区客流量的变化动态,制定一些更加合理的管理措施,增强景区管理水平,因此景区客流量预测成为经济领域研究的一个热点课题[1⁃3]。
当前景区客流量预测模型分为三类:线性回归方法、时间序列分析法、神经网络[4]。其中线性回归方法主要有多元回归、逐步回归,对景区客流量数据直接进行建模,景区客流量预测误差大[5];时间序列分析法根据时间先后对景区客流量进行组合,然后对其进行建模[6⁃7],该类方法主要针对季节性、周期性等变化规律的景区客流量,通用性差[8⁃10];人工神经网络可以深层次挖掘景区客流量变化特点,是当前主要的建模工具[11⁃13]。在实际应用中,当前景区客流量预测模型同样存在一些不足,如景区客流量预测误差比较大,景区客流量预测稳定性比较差[14⁃16]。
为了解决回声状态网络的参数优化问题,以提高景区客流量预测效果为目标,提出了数据挖掘的景区客流量预测模型,并通过具体景区客流量预测仿真对比实验,验证了本文模型的有效性和优越性。
1 数据挖掘的景区客流量预测模型
1.1 回声状态网络
回声状态网络是一种数据挖掘技术,具有短期记忆数据的功能,其结构如图1所示。其中,Win,Wout分别表示输入层和储备层、储备层和输出层之间的连接权重矩阵。
图1 回声状态网络结构
回声状态网络的工作状态方程可以采用如下形式进行描述:
式中:W x为连接矩阵;u(t),x(t)分别为输入向量和储备池内部向量。
回声状态网络的输出形式可以描述为:
式中y(t)为输出向量。
采用最小二乘法对输出权值进行求解,那么目标函数可以描述为:
式中:X=[x(1),x(2),…,x(l)]T,X∈Rl×N,N为储备池节点数,l为训练样本数;Y=[y(1),y(2),…,y(l)]T。
对于大规模网络流量数据,训练样本数常大于储备池节点数,那么,根据式(3)得到解:
X的奇异值分解可以描述为:
式中:U=(u1,u2,…,ul)和V=(v1,v2,…,vl)是酉矩阵;Σ=diag(σ1,…,σr,σr+1,…,σN)。
当前X的秩是r,那么可以得到:
X的逆矩阵为X+,那么可以采用式(7)进行表示:
这样可以得到:
传统回声状态网络的鲁棒性差,为了克服该缺陷,选择拉普拉斯分布描述高斯分布,可得到:
这样,w的先验分布计算公式可以表示为:
那么可以得到:
式中p(y|a,β)为边际函数,且有:
基于边际优化原则有:
式中ε=y-Aw。
得到:
p(w|y)和p(y|a,β)替代函数分别为:
综合式(10)、式(16)以及式(18)产生如下公式:
其中:
最后得到w的计算公式为:
其中:
式中A表示对角矩阵。
对于参数a和β可以根据证据函数方法确定,通过对输出权值w积分,可得边际似然函数为:
式中,C=β-1Λ+ΦA-1ΦT。
将lnp分别对参数a和β求偏导,并令导数为零,可以得到a和β估计公式具体如下:
式中γj=1-aj Σij。
1.2 数据挖掘的景区客流量预测步骤
1)收集景区客流量预测数据,并根据时间先后顺序组成景区客流量的学习样本集合。
2)对原始的景区客流量时间序列数据进行重构,得到景区客流量预测的训练集和测试集合。
3)回声状态网络对景区客流量的训练集进行学习,并确定回声状态网络的参数。
4)根据参数建立景区客流量预测模型,采用测试样本对景区客流量预测模型性能进行分析。
2 景区客流量预测模型性能的仿真测试
2.1 景区客流量的历史数据
为了测试基于数据挖掘的景区客流量预测性能,采用黔东南地区某景区客流量历史数据作为研究对象,如图2 所示。图2 景区客流量数据具有一定的随机性和混沌性,因此不能采用原始的景区客流量数据进行建模与预测,需要对其进行相应的变换。
图2 景区客流量的历史数据
2.2 重构景区客流量的历史数据
景区客流量数据嵌入维和延迟时间如图3 所示。从图3 可以看出,景区客流量数据嵌入维和延迟时间最优值为3 和5,对图2 景区客流量重构,选择50 个样本作为景区客流量,其他景区客流量数据用于训练回声状态网络,建立景区客流量预测模型。
图3 景区客流量数据的嵌入维和延迟时间
2.3 与经典景区客流量预测模型的性能对比
为了检测基于数据挖掘的景区客流量预测的优越性,选择BP 神经网络的景区客流量预测模型、时间序列分析法的景区客流量预测模型进行对比实验,预测结果如图4 所示。
对图4的景区客流量预测结果进行对比和分析可知:
图4 不同模型的景区客流量预测结果对比
1)时间序列分析法的景区客流量预测值与实际的景区客流量值之间的偏差最大,这表明时间序列分析法无法描述景区客流量的变化态势,使得景区客流量预测误差大。
2)BP 神经网络的景区客流量预测值与实际的景区客流量值之间的偏差不大,这表明BP 神经网络可以描述景区客流量的变化态势,但是其个别景区客流量预测误差比较大,使得景区客流量预测结果不稳定,导致景区客流量预测整体精度比较低。
3)相对于时间序列分析法的景区客流量预测模型和BP 神经网络的景区客流量预测模型,本文模型的预测值与实际景区客流量之间的偏差最小,这表明本文模型可以更好地拟合景区客流量的变化态势,减少了景区客流量预测误差,获得了更加理想的景区客流量预测结果,体现了本文模型的优越性。
2.4 景区客流量预测模型的通用性测试
为了分析基于数据挖掘的景区客流量预测模型的通用性,采用全国10 个热门景区客流量作为研究对象,统计每一个景区客流量的预测精度,结果如表1 所示。
表1 不同景区客流量预测精度 %
对表1 的景区客流量预测精度进行对比可以发现,相对于BP 神经网络的景区客流量预测模型和时间序列分析法的景区客流量预测模型,本文模型的景区客流量预测精度得到了提高,景区客流量预测精度平均值超过了90%,景区客流量预测误差处于景区客流量实际管理范围内,获得了较好的通用性。
3 结语
针对当前景区客流量预测效果差的弊端,以改善景区客流量预测结果为目标,本文提出了基于互联网大数据的景区客流量预测模型。仿真实验结果表明,本文模型是一种精度高、通用性好的景区客流量平均预测模型,具有广泛的应用前景。