APP下载

基础设施投资预测——基于改进的GA-PSO 算法下的V-SVR 模型

2014-12-02唐丽春许秀娟

技术经济 2014年2期
关键词:基础设施粒子样本

唐丽春,许秀娟

(华南理工大学 工商管理学院,广州 510641)

1 文献综述

基础设施投资可以直接促进经济增长,兼具“溢出效应”和“网络效应”等特殊性质,是各国政府、机构和学者关注的重点。以往研究主要集中于探讨基础设施投资对社会生产和经济发展的贡献,而关于基础设施投资预测的研究相对较少。正确预测未来的基础设施投资关系到一个社会的经济和福利发展、基础设施的投融资和管理等,应得到高度重视。

常用的基础设施投资预测方法或模型有回归分析、趋势外推、矩阵模型和神经网络模型等[1-4]。社会经济系统客观具有的高维、非线性特性以及由此产生的小样本问题,使得神经网络模型得到越来越广泛的应用和发展[5]。例如,孙晓光、韩文秀和孙东基于小波神经网络构建了更优的基建设施投资预测模型[6]。然而,传统的神经网络学习算法基于经验风险最小化来求解目标函数,在小样本情况下普遍具有“过学习”和泛化能力不强等弊端[7]。鉴于此,Vapnik提出支持向量回归(support vector regression,SVR)[8],该方法服从结构风险最小化原理,可以较有效地克服“维数灾难”和“过学习”等问题。之后,Schölkopf、Smola和Williamson在此基础上提出了改进的V-SVR 模型[9]。由于该模型的参数需要人工确定、具有明确意义,更利于得到精确的回归解,因此在小样本预测方面具有显著优势。综上,本文构建用于预测基础设施投资的V-SVR 模型。同时,与以往的预测模型一样,V-SVR 模型参数的选取对预测性能的影响较大,传统的启发式搜索已不能很好地适用于具有多参数的V-SVR,而新的算法则尚处于探索中[10]。因此,寻找有效的多参数寻优算法非常有意义,这也是本文的另一个研究重点。

PSO(particle swarm optimization)算法是Eberhart和Kennedy[11]基于鱼鸟等生物群体的觅食行为提出的、能融入社会认知的一种全局性智能优化算法,该算法没有选择和交叉等复杂进化模式,因此十分简洁、强智和高效。但是,该算法在粒子解快速趋向最优过程中存在精密搜索能力有限、全局与局部寻优协调能力不足且易陷入局部最优等问题。近年来,国内外学者尝试通过将PSO 算法与其他寻优算法相融合来实现算法改进。例如:Ramesh和Jayabarath 为有效解决相关经济调度问题而将混合差分进化算法与PSO 算法相结合[12];黄为勇和户邑通过将PSO 算法与遗传算法(genetic algorithm,GA)串行迭代获得了一种寻优能力更强的算法[13]。但是,上述创新算法均存在计算过程复杂、组合结构欠优等问题。针对这些问题,本文提出一种改进的GA-PSO 算法。

本文旨在在小样本条件下,针对受众多社会和经济因素影响的我国城市基础设施投资,构建一个更有效的预测模型。该模型以V-SVR 模型为基础,通过有效的数据处理并利用改进的GA-PSO 算法进行模型训练,进而提高参数寻优效率和模型预测精度。

2 基础设施投资的影响因素分析

已有研究成果表明,影响基础设施投资的因素有很多。例如:Randolph、Hefley 和Bogetic 利用27个中低收入国家的面板数据和时序数据进行研究发现,反映经济结构的指标——如发展阶段、财政与国际收支平衡状况、贸易条件和制度等——对基础设施投资的影响较大,尤其以人口密度、城市化水平、城乡结构和劳动参与率等最为敏感[14];Marrero、Fay、Fay和Yepes等基于“经济增长最大化”视角的研究表明,影响基础设施投资的因素有GDP、经济结构和技术水平等[15];李世蓉等、刘阳和秦风鸣、Agénor和Davies等基于“人类发展指数”视角的研究表明,影响基础设施投资的因素有人口规模、人口密度、城市化率、市流动人口、城乡结构、客流量和货运量等[16];El-Assaly、Mishalani和Gong等基于“最小化生命期总成本”视角的研究表明,影响基础设施投资的因素有基础设施的检查、维护和复原等[17];毛腾飞、赵农和刘小鲁、杨友才和赖敏晖等从财政角度研究了财政分权、财政自给度、地方财政收入和城市维护建设资金收入等因素对基础设施投资的影响[18]。

基于上述研究成果并遵循全面性、可比性和可获得性等原则,本文认为,影响基础设施投资的主要因素有GDP、人均GDP、总人口、常住人口总数、就业人数、人口密度、货运量和客运量、城市(市区)维护建设资金收入、地方财政收入和贸易量(含进出口)等。同时,本文认为,通货膨胀也会造成基础设施投资的波动,因此将城市居民消费价格指数和城市商品零售价格指数也纳入分析。此外,本文还引入虚拟因子来反映期间重大事件的影响。

3 模型构建

3.1 基于V-SVR的基础设施投资预测模型

基于V-SVR的基础设施投资预测模型的优化目标是,在一个关于ε、w的距离函数的约束下,使目标变量与相应的回归曲线的距离最小。本文将求解转化为SVM(support vector machine)分类中的优化问题,从而构建如下运算机制:

式(2)中:xi、yi(i=1,2,…,n)是本文收集的样本,其中xi(xi∈Rd)是基础设施投资的各影响因素变量,yi(yi∈R)是基础设施投资变量;ε是不敏感损失函数中的不敏感度系数;w、b分别是回归函数中的法向量和偏移量;ξi是松弛因子;φ(·)是满足Mercer条件的核函数,本文取φ(x,xi)=exp(-‖x-xi‖2)/σ2,其中σ为核函数参量;C是惩罚函数;v∈(0,1),v是错误样本个数占总样本个数份额的上界或支持向量与总样本数比值的下界,为常数。

通过求解拉格朗日方程可得等式约束条件,之后将目标函数进行等效对偶转换,可得

式(3)中:αi和为对应于V-SVR 中支持向量的拉格朗日乘子,其值都不为0。

3.2 基于改进参数寻优算法的V-SVR模型

3.2.1 PSO 算法

基于V-SVR 的基础设施投资预测模型的有效性与模型参数C、v和σ的选择密切相关。笔者发现,新近提出的PSO 算法在多参数优化方面具有显著效果,因此该算法是本文首先考虑的优化算法。

本文将C、v和σ的潜在优化解称为“粒子”——它们是空间中的一系列点Xi=(xi1,xi2,xi3)(i=1,2,…,m),其中m为粒子数量,用V表示粒子速度的变化和方向。

动态的粒子速度由粒子的运动惯性、自身局部最优调整和种群间最优关系调整决定,同时粒子群体追随当前的最优粒子而在空间中搜索最优解,粒子速度与位置更新示意图见图1。

粒子速度与位置的更新公式为:

粒子的优劣由预定义的粒子适应度函数值来衡量,本文以V-SVR 输出结果与实际值的均方根误差(RMSE)作为适应度函数值,其计算公式如下:

图1 多维空间中粒子速度与位置更新示意图

3.2.2 改进的GA-PSO寻优算法

近期研究[19-20]从多方面对PSO 算法进行了改进,但同时也加大了模型的复杂度和计算量,致使粒子算法原有的高效和简单的优势减弱。为了构建更好的融合算法结构,同时兼顾算法的高效性和简单性、局部性和全局性以及粒子群体的多样性,本文对标准的PSO 算法做如下改进:

第一,将寻优群体分为并行和协同操作两部分,同时摒弃粒子算法中常用的自适应调节参数而采用固定惯性ω和c,以更好地实现局部遍历与全局寻优的统一、提升搜索优秀解的能力。本文取种群中前80%的个体为主群体,对其惯性权值ω取相对大值,以保证粒子的全局搜索性能;取剩余20%的个体为子群体,对其ω和c2取相对小值,以保证粒子的局部遍历搜索性能;两部分种群之间可交换信息。

第二,引入遗传算法来加强粒子全局寻优能力。本文将遗传算法引入粒子寻优过程。首先,从主群体中取最优的15%,在每一轮粒子搜索结束后进行多次杂交操作。杂交操作的群体由最优的15%的个体和随机产生的5%的个体构成;然后,根据适应度值对每次杂交产生的子代与父代一起排序,选出与父代数量相同的最优群体构成新的父代群体;最后,在杂交操作结束后,从主群体中优选出的15%的个体被杂交群体中相同数量的最优粒子取代,进而开始新的一轮粒子搜索过程。一般杂交次数不宜过多,以保证搜索速率。

第三,改进遗传算法变异规则,避免寻优过程陷入局部值域并保证种群多样性。当进化代数达到设定值的40%后,根据种群中所有粒子个体与全局最优粒子的各分量的欧式距离,将最初的固定变异值变为按距离取阶梯形变异值,根据实际情况确定阶数。变异规则与概率p的关系如式(7)所示:

式(7)中:D为初始化粒子时的搜索 范围;x为粒子位置。为减小时间复杂度,本文对所有粒子的每个分量进行简单累积,不考虑粒子间相似度的计算。根据基础设施投资输入数据的复杂度,本文将变异概率取为3 阶,10%D范围内变异概率为12%,20%D范围内变异概率为为9%,其余为6%。

3.3 基础设施投资综合预测模型——PCA与基于改进GA-PSO 算法的V-SVR模型结合

为了获取更佳的模型输入样本,本文基于主成分分析(principal component analysis,PCA)对输入变量进行预处理。PCA 是一种基于特征值及特征向量变换的降维去噪方法,在处理具有高斯分布和线性关系等特征的变量数据方面较为有效。但是,由于本文对基础设施投资进行预测时还需进一步考虑输入变量之间未知的非线性关系,因此直接通过PCA 进行降维的效果并不理想。鉴于此,本文利用PCA 得到的成分矩阵和冗余度信息以及在求解方差贡献率过程中得到的相关系数矩阵,对冗余变量进行剔除,再根据所得主成分的特征进行二次筛选。该过程主要利用了变量间的相关系数以及单个主成分因聚合性而形成的内在分类特征。

综上,本文将基于改进GA-PSO 算法的VSVR 模型与PCA 相结合,构建基础设施投资综合预测模型,模型构建流程如图2所示。

4 实例分析

4.1 数据来源与样本选取

本文以广州市基础设施投资为研究对象,选取1985—2011年的面板数据作为研究样本,数据来源于《广州统计年鉴》。

首先利用SPSS13.0 软件中的PCA 工具对前文初步选取的影响基础设施投资的主要变量进行分析,得到相关系数矩阵、总方差贡献率和成分矩阵。由于前2个成分的方差贡献率已达93.8%,故确定主成分个数m为2。第二主成分由城市(市区)维护建设资金收入、城市居民消费价格指数和城市商品零售价格指数构成,将之命名为波动关系显著类;其余变量为第一主成分,将之命名为递增关系显著类。如3.3节所述,传统成分变量加权方法的降维效果并不理想,故本文从所得主成分的特征出发,剔除部分冗余变量和无效变量。根据所得的相关系数矩阵,本文分别对2个主成分进行冗余变量分析,剔除了冗余变量——GDP和常住人口总数。然后,第二主成分——“波动显著类”与基础设施投资时间序列特征的关系不明确,本文对这些变量与基础设施投资的时间序列比较以进行二次筛选,剔除了无效变量——城市商品零售价格指数。

图2 改进的PCA-GA-PSO-V-SVR综合模型构建流程图

4.2 不同算法的模型参数寻优效率和性能比较分析

本文模型仿真基于Matlab09a软件,在lib-svm的基础上编制完成程序。

首先,本文对前文所得的有效样本数据进行归一化预处理。基于多次试验,本文将基础设施投资的目标值归一化在区间(10,20)内,将各输入变量的值归一化在区间(0,1)内。本文将样本时间段分为1985—2006年和2007—2011 年,分别用于检验模型参数寻优、模型训练和投资预测。

然后,本文按照前文所述的改进的GA-PSO 算法,求解预测模型的最优参数C、v和σ。本文定义搜索空间C∈(0,2000)、v∈(0.4,0.7)、σ∈(0.001,0.5),取主群体(80%个体)的加速度因子c1=c2=2及权重ω1=0.8,子群体(20%个体)的加速度因子c1=2.4、c2=1.6及权重ω2=0.5。基于改进的GA-PSO算法的参数优化适应度曲线见图3。

由图3可知,平均适应度没有收敛于最佳适应度。这是因为改进算法中存在自适应变异因子,它将随进化代数而改变(变大),而粒子群体搜索到最优位置的概率也因此而增大。

为测试本文提出的改进的GA-PSO 算法的寻优效率,本文同时选用GA 算法、PSO 算法、简单的GA-PSO 算法和改进的GA-PSO 算法,在相同的计算机和编程环境下,对V-SVR 模型的参数进行优选,对比结果见图4和表1。

图3 基于改进GA-PSO算法的参数优化适应度曲线

由图4 和表1 可见,本文提出的改进的GAPSO 算法实现了模型适应度的收敛值最小,表明该算法确实可加强粒子的全局寻优能力、保持粒子种群的多样性,而搜索结果也表明基于该算法得到的参数解更为优秀,从而证实了子群体在飞行过程中更细致地搜寻到了最优解。

图4 基于GA算法、PSO 算法和简单GA-PSO算法和改进GA-PSO算法的V-SVR模型参数寻优对比

表1 不同算法的V-SVR模型参数寻优效率和优化结果对比

4.3 投资预测与模型性能检验

将有效样本数据代入训练好的模型中,训练数据(即1985—2006 年的数据)用于检验V-SVR 模型的拟合能力,预测数据(2007—2011年的数据)用于检验该模型的泛化能力。为了反映2009 年和2010年广州亚运会建设对广州基础设施投资的影响,本文增设虚拟因子,并参照其他省市的类似事件对基础设施投资增量的影响来决定因子权重。图5展示了模型 的拟合及其预测结果。其中,黑竖线左边的曲线是模型的训练输出,展示了V-SVR 模型的拟合能力;黑竖线右边的曲线是预测的检验输出,展示了V-SVR 模型的泛化能力。从图5 可以看出,基于V-SVR 模型得出的基础设施投资值很接近于其真实数值,表明该模型具有较好的拟合能力和泛化能力。

为了进一步检验本文提出的改进的V-SVR 模型的预测能力,将该模型与BP(back propagation)神经网络模型和RBF(radical basis function)神经网络模型就广州市基础设施投资的预测结果进行对比。基于3个模型的预测值及其误差见表2,平均预测误差见表3。

图5 PCA与基于改进GA-PSO算法的V-SVR模型的广州市基础设施投资仿真与预测结果

表2 基于不同模型的广州市基础设施投资预测值及其误差

表3 不同模型的平均预测误差 %

同时,参考广州中长期规划中未来的地区生产总值、常住人口总数、进出口总值等指标的预期值,结合本文提出的预测模型及其构建过程,本文对2015年和2020 年广州市的基础设施投资进行预测,得到的基础设施投资预测结果如表4所示。

表4 广州市基础设施投资预测表

从表2和表3可以看出,与BP 网络和RBF 网络相比,本文提出的基于改进GA-PSO 算法的V-SVR预测模型的平均预测误差为3.36%,表明该模型的预测结果接近真实值,该模型具有较好的模拟、预测效果,以及良好的拟合能力和泛化能力。从表2、表4和图5可知,自1985年以来,广州市基础设施投资量不断上升,随着工业化和城市化进程的不断加快,其未来的基础投资量将持续增长——将由2012 年 的4486200 万元上升 至2020 年 的6268055万元,年均增长率为4.27%。如何高效、合理地分配资源以保证城市化进程健康有序地推进,是决策者面临的更大挑战,也是战略规划的重大议题。同时,与文献[21]的研究结果相比,由于进一步优化了GA-PSO 算法并保证样本输入有效,因此本文提出的基于改进GA-PSO 算法的基础设施投资预测V-SVR 模型的预测效果和预测精度略高于文献[21]中的优化模型,可为决策者提供更科学、精确的决策支持。

5 结论

基础设施投资受到社会和经济等众多因素的影响,并存在由此产生的小样本条件和高维复杂环境问题。本文针对过去研究的缺陷和不足,将改进的GA-PSO 算法应用于V-SVR 模型的参数寻优过程,并结合有效的样本输入构建了基础设施投资预测V-SVR 模型,最后利用1985—2011年广州市基础设施投资的面板数据,对该模型的预测效果和预测精度进行了论证。预测结果表明:

第一,将遗传算法引入粒子搜索过程,可以保证每次迭代过程中的最优值搜寻能力,同时改进的变异算法可以保证整个种群的多样性。与PSO 算法、GA 算法以及简单的GA-PSO 混合算法相比,本文提出的改进的GA-PSO 算法的寻优效率显著提高。

第二,相比BP神经网络模型和RBF 神经网络模型,基于改进的GA-PSO 算法的V-SVR 模型克服了传统神经网络“过学习”和泛化能力不强等缺点,其预测精度最高。在预测小样本条件下、受高维复杂关系影响的基础设施投资方面,该模型具有明显的优势。

综上,基于改进GA-PSO 算法的V-SVR 模型较传统预测模型具有显著的优势,而且该模型主要利用V-SVR 核函数的高维映射实现非线性空间变换以简化问题,对样本数据不具有特殊依赖性,因此该模型的应用具有普遍性,本文提出的模型构建理论和构建流程可以推广和应用于其他领域的相关创新决策中。

[1]FAY M,YEPES T.Investing in Infrastructure:What Is Needed from 2000-2010[R].Washington DC:World Bank,2003.

[2]李世蓉,蒋时节,户邑.城市化进程对基础设施投资需求量分析[J].城市发展研究,2005,12(4):29-32.

[3]SHARMA C,BHANUMURTHY N R.Estimating infrastructural investment needs for India[J].Margin:The Journal of Applied Economic Research,2011,5(2):221-243.

[4]KOBAYASHI K,KAITO K,LETHANH N.A statistical deterioration forecasting method using hidden Markov model for infrastructure management[J].Transportation Research Part B:Methdological,2012,46(4):544-561.

[5]郑烨,蒋轶.基于线性神经网络模型的政府财政支出结构预测——以新疆为例[J].技术经济,2012,31(10):106-112.

[6]孙晓光,韩文秀,孙东.基于小波神经网络的基建投资预测研究[J].西北农林科技大学学报:社会科学版,2004,4(5):29-32.

[7]YU L,WANG S Y,LAI K K.A novel nonlinear ensemble forecasting model incorporating GLAR and ANN for foreign exchange rates[J].Computer &Operation Research,2005,32(10):2523-2541.

[8]VAPNIK V N.Statistical Learning Theory[M].New York:Wiley,1998.

[9]SCHÖLKOPF B,SMOLA A,WILLIAMSON R C,et al.New support vector algorithms[J].Neural Computation,2000,12(5):1207-1245.

[10]於世为,魏一鸣,诸克军.基于粒子群-遗传的混合优化算法[J].系统工程与电子技术,2011,33(7):1647-1652.

[11]KENNEDY J,EBERHART R C.Particle swarm optimization[C].Proceedings of the IEEE International Conference on Neural Networks,1995:1942-1948.

[12]RAMESH V,JAYABARATHI T,SAMARTH A,et al.Combined hybrid differential particle swarm optimization approach for economic dispatch problems[J].Electric Power Components and Systems,2010,38:545-557.

[13]黄为勇,户邑.一种采用完全Logistic混沌的PSO-GA 优化方法[J].计算机应用研究,2012,29(9):3236-3239.

[14]RANDOLPH S,HEFLEY D,BOGETIC Z.The World Bank Policy Research Working Paper:Determinants of Public Expenditure on Infrastructure Transportation and Communication[M].Washington DC:World Bank Publications,1996.

[15]MARRERO G A.Revisiting the optimal stationary public investment policy in endogenous growth economies[J].Macroeconomic Dynamics,2008,12(2):172-194.

[16]DAVIES A.Human development and the optimal size of government[J].The Journal of Socio-Economics,2009,38(2):326-330.

[17]MISHALANI R G,Gong Liying.Optimal infrastructure condition sampling over space and time for maintenance decision-making under uncertainty[J].Transportation Research Part B,2009,43(3):311-324.

[18]赵农,刘小鲁.区位性因素与公共品的最优供给[J].经济研究,2008(10):93-103.

[19]SEDIGHIZADE D,MASEHIAN E.Particle swarm optimization methods,taxonomy and application[J].International Journal of Computer Theory and Engineering,2009,1(5):486-502.

[20]ZHAO F,TANG J,WANG J,et al.An improved PSO algorithm with decline disturbance index[J].Journal of Computers,2011,6(4):691-697.

[21]Li-Chun Tang,Xiu-juan Xu,Liang-Lu.Forecast model of V-SVR based on an improved GA-PSO hybrid algorithm[C].Fourth IEEE International Conference on Multimedia Information Networking and Security,2012:725-728.

猜你喜欢

基础设施粒子样本
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
用样本估计总体复习点拨
基于粒子群优化的桥式起重机模糊PID控制
推动医改的“直销样本”
基于粒子群优化极点配置的空燃比输出反馈控制
振动搅拌,基础设施耐久性的保障
随机微分方程的样本Lyapunov二次型估计
充分挖掘基础设施建设发展潜力
村企共赢的样本