基于主成分和BP神经网络方法的湖南省汽车保有量预测
2011-01-09田亚平李朝奎周新邵
李 吟,田亚平,李朝奎,周新邵,3
(1.湖南科技大学 煤炭资源清洁利用与矿山环境保护湖南省重点实验室,湖南 湘潭 411201;2.衡阳师范学院 资源环境与旅游管理系,湖南 衡阳 421008;3.湖南城市学院 计算机科学系,湖南 益阳 413000)
基于主成分和BP神经网络方法的湖南省汽车保有量预测
李 吟1,田亚平2*,李朝奎1,周新邵1,3
(1.湖南科技大学 煤炭资源清洁利用与矿山环境保护湖南省重点实验室,湖南 湘潭 411201;2.衡阳师范学院 资源环境与旅游管理系,湖南 衡阳 421008;3.湖南城市学院 计算机科学系,湖南 益阳 413000)
汽车保有量预测对城市交通的发展方向、城市交通的控制管理、城市道路的建设情况等都有直接的参考意义。本文通过分析影响城市汽车保有量的因素,通过参考部分参考文献,城区人口总数人均GDP、公路客运量等8个指标,首先采用主成分分析法将8个因素进行分析,然后建立BP神经网络模型对湖南省2006到2008年汽车保有量进行预测,预测结果分别为98.93万辆、122.18万辆、137.03万辆,与汽车保有量实际值94.64万辆、121.72万辆、142.67万辆很接近,预测精度比较高。这表明BP神经网络具有很强的学习与泛化能力,用于汽车保有量预测的可行性与有效性。
汽车保有量;主成分分析;BP神经网络;预测
汽车保有量预测是交通规划的一项基础性工作,对于城市交通的发展方向,城市交通的控制管理,城市道路的建设情况等都有直接的参考意义。国外早在20世纪40年代就己经开始了这方面的研究[1]。到目前为止,很多不同的汽车保有量预测模型被开发出来。许多汽车保有量模型主要是从城市经济、人口路网容量、土地利用状况以及停车设施供给条件等宏观因素出发,预测汽车保有数量。国内关于汽车保有量预测的问题也早有一些研究成果。我国目前主要的汽车保有量预测方法大致有时间序列预测、回归分析预测、分形理论预测、熵值法[2-5]。这些方法都不能描述出汽车保有量与其他因素之间的复杂关系,在本文中笔者选择了与汽车保有量有关的影响因素进行分析,对影响因素利用主成分分析法,获得主要因素,将这些因素利用BP神经网络建立与汽车保有量的预测关系,对湖南省2006到2008年汽车保有量进行预测,以便为湖南省汽车保有量预测对湖南省城市交通的发展、控制管理、城市道路的建设等都有直接的参考意义。
1 基于主成份和BP神经网络的预测模型
影响汽车保有量的因素较多,且因素间的相关性大,信息重叠多。在汽车保有量预测建模中,随着考虑因素的增多,其神经网络的结构变得更加复杂,网络性能下降。针对这个问题,本文将通过主成分分析法对变量指标进行特征分析,获得一个主要综合因子作为神经网络的输入,从而简化网络结构。这种方法考虑了汽车保有量与其他因素之间的相互关系,更科学、更据说服力。
1.1 主成分分析法
主成分分析(Principal Component Analysis,PCA)可以把多变量进行降维处理(唐守正,1986),其机理是根据变量间的相关性大小把变量进行分组,使同组变量之间相关性较高,而不同组变量间相关性较低,使较多的原始指标被综合为较少几个综合指标,即公因子或主成分。公因子或主成分的贡献率大小基本上反映了原始指标的信息程度,当累积贡献率80~90%以上时,公因子的代表性较强,其原理为:
式(1)中,对于组合系数uij有:同时zx1是x1,x2,…,xp的所有线性组合中方差最大者;zx2与zx1不相关,且在x1,x2,…,xp的一切线性组合中方差最大;依此类推,zxp与zx1,zx2,…,zxp-1均不相关,且在x1,x2,…,xp的一切线性组合中方差最大。
X=(x1,x2,…,xp)T的协方差阵Σ>0(λ1≥λ2≥…≥λp≥0,其中λi是Σ的非零特征根ui为对应于λi的特征向量(单位化的)。
第i主成分ZXi=Ui′X(i=1,2,…,p),称为主成分ZXk的贡献率为主成分zx1,zx2,…,zxs的累积贡献率,通常累积贡献率越大,丢失的数据信息就越少。选取主成分的个数取决于主成分的累计方差贡献率,一般累计方差贡献率大于85%所需的主成分能够代表p个原始变量所能提供的绝大部分信息。
1.2 人工神经网络
人工神经网络(Artificial Neural Network,简记为ANN)是一种包含许多简单的非线性计算单元或连接点的非线性动力系统,而BP网络是其中应用得最广泛的一种。BP神经网络是一种误差后向传播网络,一般采用三层网络型式,即由输入层、隐含层和输出层3层神经元组成,各层神经元的作用都是不同的,其结构如图1所示。BP网络的学习过程由正向信号传播和反向误差传播两阶段组成,即输入信息从输入层经隐含层(1层或多层)传向输出层,如果在输出层得到的实际输出与所期望得到的输出不一致,则转入反向传播,将误差信号(实际输出与期望输出之差)沿原来通路返回,通过学习来修改各层神经元之间的连接权值,从而最后使误差达到最小。
图1 BP网络结构图
1.3 预测模型原理
将以上两个步骤结合,进行主成分分析,找出主成分,将其作为神经网络模型的输入,取得主要的因素之后,将影响因素作输入向量,汽车保有量为唯一的输出向量,建立汽车保有量的神经网络预测模型。本文采用的三层BP神经网络结构,隐含层的数目根据n1=2n+1[6]确定,其中,n为输入单元数,多应用于三层网络BP神经网络中。
2 湖南省汽车保有量分析
湖南省政府门户网站统计显示湖南汽车产业区域布局上,形成了以“长株潭”为核心,衡阳、邵阳、常德、永州相呼应的格局,2008年,全省231家汽车制造规模工业企业中,长沙100家、株洲16家、湘潭6家,3市企业数占全省的52.8%,企业主营业务收入占全省的63.7%;其他4市企业数占全省的36.8%,主营业务收入占全省的31.3%。随着城乡居民收入的增加,城市化水平的提高以及交通环境的改善,近几年湖南汽车消费市场持续活跃。2001—2008年年均增加12.07万辆,其中“十五”时期年均增加7.33万辆,2006—2008年年均增加19.97万辆。2008年底,每千人汽车保有量为20.8辆,是2005年的1.7倍。用此对湖南省汽车保有量预测对城市交通的发展方向,城市交通的控制管理,城市道路的建设情况等都有直接的参考意义。
2.1 数据来源
通过参考部分参考文献,最后确定湖南省城镇居民人均可支配收入,人均GDP,市区人口总数,公路客运量,公路货运量,每万人拥有的公交车,人均道路面积,人均住宅面积8项指标作为影响湖南汽车保有量的主要因素,从湖南省统计年鉴(1995—2008)中查得1995年至2008年历年数据如表1所示。
表1 汽车保有量及影响汽车保有量的主要因素统计表
2.2 主成分分析
取1995—2008年的观测数据训练神经网络,预测2006—2008年的汽车保有量数据,在分析过程中,为了使各变量间具有可比性,用SPSS17.0进行主成分分析,计算相关系数矩阵的特征值、贡献率、累计贡献率。
因为涉及到8个元素,为了得到更好的分析结果,本文采用主成分分析法将上面因子进行分析。将表1的数据导入到SPSS中,利用主成分分析法进行处理,所得的结果如表2所示,即前2个主成份就可以很好的代表其他的因素。湖南省城镇居民人均可支配收入、人均住宅面积、人均道路面积、市区人口总数、公路客运量、公路货运量在第一个主成分上的载荷大,每万人拥有的公交车在第二个主成分上的载荷大,如表3,这8个因子能对数据充分概括,他们的累积贡献率达96.223%,因此在下面的BP神经网络预测分析的时候,本文采用的是这8个因子作为分析的输入因素。
表2 各主成分对应的特征值和方差贡献率
表3 主成分载荷矩阵
2.3 神经网络法评价
本例输入层有8个神经元,隐含层的数目根据n1=2n+1[7]确定,有17个神经元,输出层有一个神经元即汽车保有量,利用Matlab中的神经网络工具箱进行处理,其中,选择的newff、init、train、sim 分别进行网络的建立、初始化、训练和模拟。网络训练过程中,误差变化曲线如图2所示。所创建的函数是 net=newff(threshold,[17,1],{'tansig','logsig'},'traingdx');
图2 BP神经网络训练误差变化图
2.3.1 原始数据的归一化处理
由于BP神经网络本身的特性及其对输入数据的要求,对输入数据进行预测处理,以提高神经网络的泛化能力(即对未学习数据的正确应答能力),一般可将各输入量归一化到[0,1]区间,具体方法如下:
令maxx=Xmax,则Xmax为第i个样本第j个指标中的最大值;minx=Xmin,Xmin为第i个样本第j个指标中的最小值。则指标j的所有xi转化为无量纲的x'i为:X'i=0.1+0.8*(xi-Xmin)/(Xmax-Xmin)[2]i=1,2,……,n运用上面介绍的关于对实际数据进行归一化处理的方法,对表1中的数据的预处理如表4所示:
表4 原始数据归一化处理
最后在预测中产生的输出数据是归一化后的指标,因此还必须按反向规则进行变换以求出具体的数据。即:实际预测值 =(Oi-0.1)/0.8*(Xmax-Xmin)+Xmin,式中:Oi——神经网络训练后的输出值。
2.3.2 预测结果及与现实对比
由图2可以看出,当训练迭代至133步时,网络性能达标。利用上面训练的网络,进行预测,所得到的预测结果输出2006年的为0.574 3,2007年的为0.747 4,2008年的为0.858 0按反向规则进行变换以求出具体的数据如表5,2006年2007年2008年的预测值分别为98.93万辆,122.18万辆,137.03万辆,与现实值虽然存在误差,但总体趋势是一致的,因此可以用BP神经网络对汽车保有量进行预测。
表5 现实值与预测值
3 结 语
本文通过分析影响城市汽车保有量的因素,确定城市人口、人均GDP、公路客运量等8个指标,利用主成分和BP神经网络的预测模型首先对原始指标进行主成分分析,对相关性大指标进行筛选,然后利用BP神经网络对湖南2006年到2008年汽车保有量进行预测。研究表明:预测值与实际统计数据相差不大,在顾及模型误差后,两者是一致的。采用主成分和BP神经网络方法预测汽车保有量是一种可信的方法,能为相关部门决策提供可靠的、科学的参考依据。
[1]于俊梅,刘欣.基于BP神经网络的城市汽车保有量预测[J].烟台职业学院学报,2007,13(3):53-57.
[2]黄志刚,汤洪,丁胜春.基于BP人工神经网络的湖南省汽车保有量预测[J].山西科技,2005(2):106-107.
[3]蒋艳梅,赵文平.Logistic模型在我国私人汽车保有量预测中的应用研究[J].工业技术经济,2011(11):99-104.
[4]郭权广,栾媛媛.分形理论预测汽车保有量方法研究[J].齐齐哈尔职业学院学报,2008,2(3):38-41.
[5]王琦,王花兰.基于熵值法的城市汽车保有量组合预测[J].交通科技与经济,2009(6):53-55.
[6]韩亮,王卫亚,陈克鹏,等.中国轿车近期市场预测方法研究[J].西安公路交通大学学报,1999,19(2):89-93.
[7]康志坚,苏瑞霞,郭建胜.乌拉特前旗水土流失造成的危害及防治对策[J].生态建设,2006(4):90-91.
A Prediction of Vehicle Possession in Hunan Province Based on Principal Component and BP Neural Network
LI Yin1,TIAN Ya-ping2*,LI Chao-kui1,ZHOU Xin-shao1,3
(1.Clean Use of Coal Resources with Mining Environmental Protection Laboratory in Hunan Province,Hunan University of Science and Technology,Xiangtan Hunan 411201,China;2.Deparment of Resoources,Environment and Tourism Management,Hengyang Normal University,Hengyang Hunan 421008,China;3.Department of Computer Science,Hunan City University,Yiyang Hunan 413000,China)
Prediction of car ownership has a direct reference significance for the the development of urban transportation and construction of urban roads.By analyzing the impact factors of urban auto possession,this paper first analyzes 8indicators such as urban population,GDP,road passenger traffic and so on determined by some references,then establish BP neural network model to predicts the vehicles possession in Hunan Province from 2006to 2008.The figures of prediction is 989,300,1,221,800and 1,370,300respectively in 2006,2007and 2008,which is very close to the real ownership of 946,400,1,217,200and 1,426,700respectively.It shows the prediction is very accurate.This suggests that the BP neural network has very strong learning and generalization ability and can be employed in prediction of vehicle possession effectively.
vehicle possession;principal component analysis;the BP neural network;prediction
F570
A
1673-0313(2011)06-0122-05
2011-09-22
湖南科技大学研究生创新基金(S100130)
李吟(1986-),女,湖北荆州人,研究生,从事地理信息的应用研究.
*通讯作者:田亚平(1958-),女,河北卢龙人,教授,博士。主要从事自然地理学教学与研究.