PCA—BP模型在城乡建设用地规模预测中的应用
2017-02-27杨静师学义荣联伟
杨静+师学义+荣联伟
摘要:为探索提高BP神经网络在建设用地规模预测中的精度,提出主成分分析(PCA)和BP神经网络相结合的建设用地规模预测模型,并利用PCA-BP模型对山西省晋城市建设用地规模进行预测。首先,利用Pearson相关系数法分析筛选出影响建设用地规模的主要驱动因子;其次,利用主成分分析法(PCA)消除其相关性,并达到降维的目的;最后,以PCA结果作为输入层建立建设用地规模的BP神经网络模型,并利用BP模型进行训练预测,得到最终预测值。预测结果表明,PCA-BP模型的平均绝对误差MAE、平均相对误差MRE、均方误差MSE比传统BP神经网络模型小,平均预测精度R更高,具有较高的拟合度及可行性,在预测效率和预测精度方面都有进一步的改善。该方法的提出能为今后科学合理预测建设用地规模提供一种新思路,同时为土地利用总体规划修编提供重要决策基础。
关键词:PCA-BP;建设用地规模;预测;山西晋城
中图分类号: F301.23 文献标志码: A 文章编号:1002-1302(2017)01-0246-03
随着我国经济高速发展、人口不断增长、城镇化进程加快和产业结构不断调整,我国城乡建设用地出现“双扩张”的趋势,耕地保护与建设用地规模控制之间的矛盾日益凸显。在此背景下,土地利用规划修编要求各地根据国家产业发展政策和当地社会经济发展需求,科学测算若干年内各类建设用地需求,保障必要的建设用地、坚持集约用地、严格控制建设用地规模[1]。因此,对建设用地规模开展科学合理的预测对于促进经济、社会和生态的和谐发展具有重要意义。目前建设用地预测方法研究较为广泛,建设用地需求预测的方法有定额指标法、分项预测法、C-D生产函数模型、多元线性回归模型、双因素模型、灰色预测模型和BP神经网络模型等[2-7]。这些方法在实际应用中能够取得满意的效果,但仍然存在不足之处:如对非线性数据的效果预测不佳,未能全面地考虑自然因素、社会经济因素对建设用地的影响。近年来,鉴于BP神经网络具有较强的学习能力和非线性并行处理推理能力[8-12],BP神经网络模型在建设用地规模预测中已经得到了广泛的应用。但传统BP神经网络预测方法虽然准确性、稳定性较高,但可能会出现局部极值致使预测结果不精确,初始权值随机性导致训练次数多、收敛速度慢等缺点。同时,将影响建设用地规模的所有因素或部分主要因素都代入,很有可能会造成信息重叠或大量信息缺失。针对上述问题,一些专家学者提出了将主成分分析法(PCA)和BP神经网络相结合的方法[13-15],已延伸到各行各业,但在建设用地规模预测方面应用较少。本研究在分析山西省晋城市建设用地规模变化驱动因子的基础上,尝试采用主成分分析法(PCA)与BP神经网络模型相结合的方法构建预测建设用地规模模型。另外,为进一步说明PCA-BP神经网络的优势性,同时用传统BP神经网络模型进行预测,就预测精度等方面进行对比,以期为今后进行建设用地规模预测和土地利用规划修编提供科学依据。
1 数据与方法
1.1 数据来源
数据来源于《1997—2011年晋城市统计年鉴》《2008—2010年晋城市国民经济和社会发展统计公报》。根据研究区的自然条件和社会经济条件,选取相关影响因子进行研究。
1.2 研究方法
1.2.1 BP神经网络 BP神经网络由输入层、隐含层、输出层组成。其中,隐含层可以是1层,也可以是多层。前层与后层节点通过权值连接,即拓扑结构为单向传播的多层前向网络。BP神经网络的学习过程由2个部分构成,即正向传播和反向传播。正向传播时,输入信息从输入层经隐层处理后传入输出层,每一层神经元的状态只影响下一层神经元的状态。如果在输出层得不到希望的输出,则转入反向传播,将误差信号沿原来的神经元连接通路返回。返回过程中,逐一修改各神经元连接的权值。这种过程不断迭代,最后使得信号误差达到合适的范围。
本研究利用BP网络预测晋城市城乡建设用地规模,是根据BP神经网络的映射原理。假设晋城市城乡建设用地规模(Y)与诸多建设用地驱动因素(X)之间存在映射关系F,BP网络就是在输入和输出过程中建立非线性映射关系,实现F值的最优逼近。
1.2.2 PCA-BP神经网络 PCA方法以最少的信息丢失为前提,将众多的原有变量综合成较少的几个综合指标,有效地解决了变量信息重叠、多重共线性等问题,简化了数据输入,优化了BP网络结构,提高了网络运行速率,但PCA无法捕捉影响建设用地规模指标的非线性关系,不能直接用来进行建设用地规模预测。BP模型则能够很好地捕捉到数据中的非线性关系。因此,将PCA与BP神经网络相结合,在建設用地规模预测中,能够取长补短,充分发挥这2种方法的各自优势。
本研究利用PCA-BP模型对晋城市建设用地规模进行预测研究。首先,利用Pearson相关系数法分析筛选出影响建设用地规模的主要驱动因子;其次,利用主成分分析法(PCA)消除其相关性,并达到降维的目的;最后,以PCA结果作为输入层建立建设用地规模的BP神经网络模型,并利用BP模型进行训练预测,得到最终预测值。
2 晋城市城乡建设用地规模预测
2.1 驱动因子的选取
科学合理地选取影响建设用地规模的驱动因子是预测城乡建设用地规模的前提。影响建设用地规模的因子错综复杂,通过专家学者的相关研究,并结合晋城市的自然和社会经济条件,从人口、经济和人民生活水平3个方面选取了指标,具体包括总人口、生产总值、第二产业、第三产业、二三产业所占比重、人均生产总值、耕地面积、粮食总产量、固定资产投资、一般预算支出、财政总收入、城镇居民人均可支配收入、农民人均纯收入、城镇人口、农村人口、城镇化率、非农业人口比重、城乡居民人均收入等18个指标。
应用SPSS 20.0软件中的相关分析模块,对建设用地面积和18个指标作二元相关性分析,根据相关分析结果,剔除7个相关性不显著的因子,保留相关性显著的11个因子作为影响建设用地规模的主要驱动因子(表1),即总人口(X1)、非农业人口比重(X2)、生产总值(X3)、第二产业产值(X4)、第三产业产值(X5)、固定资产投资(X6)、财政总收入(X7)、一般预算支出(X8)、城镇居民人均可支配收入(X9)、城镇化率(X10)、耕地面积(X11),选择晋城市城乡建设用地面积为特征因素(Y)。构成影响建设用地面积(Y)扩张的驱动模型如下:
2.2.2 预处理 在BP神经网络运行之前,需要对训练样本进行一些前期处理,以便提高计算结果的精度。本研究在BP网络输入层样本数据的处理方面,首先通过利用在主成分分析过程中求出的主成分因子Z1、Z2与11个影响因子的标准化数据的线性关系,计算出1996—2013年的主成分因子Z1、Z2,并对其进行归一化处理。
2.2.3 模型构建、样本训练与结果预测 通过借鉴BP神经网络结构设置经验和系统反复调试,确定输入层、隐含层、输出层的节点数分别为2、8、1。网络训练权重通过随机方式确定,最大收敛次数为10 000,输入层至隐含层的传递函数选择S形对数函数,隐含层至输出层的传递函数选择线性函数,最大收敛误差设置为0.000 1,学习速率为0.1,显示迭代过程间隔为10,训练方法选择L-M优化算法,误差性能(Performance)通过MSE均方差表征,学习方法选择learngd。应用Matlab 8.0软件,编写BP神经网络程序代码,将1996—2007年的数据作为训练样本,用于网络预测,可反映预测方法对样本数据的拟合能力。并将预处理后的Z1、Z2作为输入数据,将归一化后的建设用地总量作为输出期望值。训练结果通过误差性能和误差变化特征曲线进行表征,最后得到建设用地总量模拟值(表3)。同时,选取2008—2010年的相关数据作为检测样本,其本身不参与网络训练,可用以检验预测方法的泛化能力,将预处理后2011—2013年的主成分因子Z1、Z2作为输入数据,可以预测得到2011—2013年晋城市城乡建设用地总量的归一化数据,再经反归一化处理,得到建设用地总量的预测值(表3)。
通过相关性分析和变量共线性诊断,进一步确定选择总人口和全社会固定资产投资作为晋城市城乡建设用地总量的主要影响因素。将归一化处理后的总人口和全社会固定资产投资作为输入数据,将归一化后的建设用地总量作为输出期望值。参数设置同PCA-BP网络模型。将1996—2007年的相关数据作为训练样本,2008—2010年的对应数据作为检验数据,检验该网络的范化能力,将预处理后的2011—2013年的主成分因子Z1、Z2作为输入数据,得到晋城市2011—2013的建设用地规模(表4)。
3 综合比较分析
从模型的结构来看,本研究传统BP神经网络系统的输入层考虑了总人口和社会固定生产投资2个指标,虽然这2个指标与建设用地规模的相关性都比较高,但考虑因素并不全面;而PCA-BP神经网络模型的输入层数据能够涵盖从人口、经济、人民生活水平等11个指标因子,在充分保障原始驱动因子信息的同时,可以达到降维及去除因子共线的目的。
从预测精度来看,根据表3、表4对2种模型在平均绝对误差MAE、平均相对误差MRE、均方误差MSE、平均预测精度R等4个方面进行对比发现,传统BP神经网络模型预测结果的平均绝对误差MAE、平均相对误差MRE、均方误差MSE、平均预测精度R分别为276.72、0.62、184 518.28、99.39;而PCA-BP神经网络模型预测结果的4项指标分别为119.17、0.27、35 864.06、99.73。显而易见,PCA-BP神经网络模型预测精度较传统BP神经网络模型高(图1)。
4 结论与讨论
本研究提出将PCA(主成分分析)和BP神经网络模型相结合的建设用地规模预测模型,该模型融合了PCA(主成分分析)和BP神经网络的优点。其中,PCA既全面保留了影响建设用地规模的人口、社会经济和人民生活水平等因素,又避免了这些驱动因子的共线性情况,将影响建设用地需求量的11个因子下降到了2个综合分值,起到降维去冗余的作用,提高了计算效率,增强了网络性能。而BP神经网络预测建设用地规模具有方便、快捷的特点,可以建立建设用地规模和各驱动因子之间的非线性映射关系,对于解决其复杂内部机制问题具有很好的效果。
在晋城市城乡建设用地规模预测中,PCA-BP神经网络较传统BP神经网络的平均绝对误差MAE、平均相对误差MRE、均方误差MSE指标值更低,平均预测精度R则有了一定程度的提高,也就意味着在预测精度方面有了进一步的改善,能够有效预测建设用地规模。可见,PCA-BP神经网络模型可以作为今后预测建设用地规模的一种新方法,并为今后进行建设用地规模预测提供一种新思路。
影响建设用地规模的指标体系有待进一步完善。本研究所构建的指标体系可能存在一些不尽完善之处,建设用地扩张受自然、社会经济、政策规划等多方面的影响,特别是地形地貌、城市规划等因素的影响也较为显著,但限于目前的研究水平,这些未能量化的影响因素并未纳入到指标体系中,探讨如何构建更加全面合理的指标体系也是今后研究的重要方向之一。
参考文献:
[1]杨 韬,朱明仓. 城镇建设用地需求预测研究——基于恩格尔系数与人均建设用地面积模型分析[C]//2006中国科协年会论文集:下册,2006:159-163.
[2]姜 海,曲福田. 建设用地需求预测的理论与方法——以江苏省为例[J]. 中国土地科学,2005(2):44-51.
[3]陈 华,邓传明,狄秀梅. 建设用地需求量预测的探讨[C]//2007年中国土地学会学术年会论文集,2007:590-597.
[4]刘胜华,詹长根. 基于国民经济和人口发展目标的建设用地需求规模预测研究——以武汉市黄陂区为例[J]. 中国人口·资源与环境,2005,15(5):47-51.
[5]邱道持,刘 力,粟 辉,等. 城镇建设用地预测方法新探——以重庆市渝北区为例[J]. 西南师范大学学报(自然科学版),2004,29(1):146-150.
[6]王玉波,唐 莹. 省域建设用地需求量预测研究——以黑龙江省为例[J]. 科技管理研究,2009,29(12):161-165.
[7]刘金国,张 希. 中国城市建设用地需求量预测研究综述[J]. 国土与自然资源研究,2011(2):16-18.
[8]孙华芬,赵俊三,潘邦龙,等. 基于GIS和BP神经网络技术的建设用地适宜性评价研究[J]. 国土资源信息化,2008(6):17-19.
[9]王良健,师迎春,林目轩. BP神经网络结合小波处理在城市扩张预测中的应用——以长沙市区为例[J]. 中国土地科学,2008,22(1):39-47.
[10]王增彬,迟恒智. 基于BP神经网络的济南市建设用地规模预测[J]. 水土保持研究,2007(5):222-224.
[11]郭 杰,欧名豪,刘 琼,等. 基于BP神经网络的南通市建设用地需求预测[J]. 资源科学,2009,31(8):1355-1361.
[12]段祖亮,張小雷,权晓燕. 基于BP神经网络模型的新疆建设用地分析[J]. 中国科学院研究生院学报,2009,26(4):451-457.
[13]朱志洁,张宏伟,韩 军,等. 基于PCA-BP神经网络的煤与瓦斯突出预测研究[J]. 中国安全科学学报,2013(4):45-50.
[14]蔡 红,陈荣耀. 基于PCA-BP神经网络的股票价格预测研究[J]. 计算机仿真,2011,28(3):365-368.
[15]陈建宏,郑荣凯,陈 浩. 基于PCA和BP神经网络边坡稳定性分析[J]. 中国安全生产科学技术,2014(5):142-147.晁 雷,崔东亮,赵晓光,等. 溶解氧对生物转盘技术处理乳制品废水效能的影响[J]. 江苏农业科学,2017,45(1):249-252.