基于PSO—OSVM的江苏省耕地变化预测
2014-12-22何厅厅赵艳玲石娟娟刘亚萍王亚云袁军马和平
何厅厅+赵艳玲+石娟娟+刘亚萍+王亚云+袁军+马和平
摘要:以江苏省1996-2009年耕地变化为例,利用粒子群算法(PSO)的全局搜索能力优化标准支持向量机(SVM),并结合增量式最小二乘支持向量机(LSSVR)和逆学习算法的特征,构建粒子群算法-在线学习SVM(PSO-OSVM)耕地变化预测模型,采用该模型对江苏省耕地变化进行预测,以期为土地资源可持续发展提供重要参考依据。结果表明,PSO可以有效收敛SVM内部参数γ和σ达到全局最优解;PSO-OSVM模型的内外精度和总精度均高于GM(1,1)、BP神经网络模型,且优于PSO-SVM模型。说明PSO-OSVM是一种有效的耕地变化预测模型。
关键词:在线学习支持向量机;粒子群算法;耕地变化预测
中图分类号:S159;P209 文献标识码:A 文章编号:0439-8114(2014)21-5315-05
DOI:10.14088/j.cnki.issn0439-8114.2014.21.068
Forecast of the Cultivated Land Change of Jiangsu Province Based
on PSO-OSVM Model
HE Ting-ting, ZHAO Yan-ling, SHI Juan-juan, LIU Ya-ping, WANG Ya-yun, YUAN Jun, MA He-ping
(Institute of Land Reclamation and Ecological Reconstruction, China University of Mining & Technology(Beijing), Beijing 100083, China)
Abstract: With the change in cultivated land of Jiangsu province from 1996 to 2009 as an example with the optimized standard support vector machine (SVM) by using the global search ability of particle swarm optimization (PSO) combined with the characteristics of least squares support vector machine (LSSVM) with converse learning algorithm, PSO-OSVM forecast model of change in cultivated land was established and then adopted to predict change in cultivated land of Jiangsu province in order to provide an important reference for sustainable development. The results showed that PSO could effectively converge SVM internal parameters γ and σ to achieve the global optimal solution. The internal and external precision and total precision of PSO-OSVM were higher than GM (1,1) and BP neural network, and it was better than PSO-SVM. Result showed that the PSO-OSVM was an effective forecast model of cultivated land change.
Key words: online learning SVM; particle swarm optimization; forecast of cultivated land change
耕地变化预测是指对耕地变化趋势的动态分析。准确地预测耕地变化,对土地经济发展格局[1]和资源配置,以及对土地利用总体规划编制和未来土地利用决策等都有重要意义[2]。耕地变化数据由一组按时间序列排列的数据组成。因此,耕地变化预测属于时间序列数据预测,等价于函数估计和逼近问题。传统的预测方法有回归预测、灰色预测、BP神经网络预测等,其中前两种方法是时间序列数据的纯数学处理,缺乏对社会和经济方面变化的综合考虑;BP神经网络结构复杂、参数确定困难,且收敛速度慢,容易出现局部最小点等问题[3-6]。
支持向量机(Support vector machine,SVM)是Vapnik在1995年提出的基于统计学习理论的VC维理论和结构风险最小化原则的新型学习机器。该方法能够获得比神经网络更好的性能,且具有小样本学习、效率高、推广性好等特点,在模式识别和回归估计等研究领域都取得了很好效果[7-10]。SVM求解一个二次凸规划问题,当训练数据量大和维数高时,SVM解算速度较慢。Suykens等人提出的最小二乘支持向量机回归算法(Least square support vector machine regression, LSSVR)创造性地把标准SVM的线性不等式约束转化成了线性等式约束,从而使得SVM的求解问题等价于求解一组线性方程组[11],提高了SVM的求解效率,降低了SVM的学习难度,极大地促进了SVM的应用[12,13]。张豪等[14]将遗传算法和最小二乘支持向量机模型相结合,建立了耕地变化预测模型,但是仍然难以解决优化陷入局部最优的缺陷。Liu等[15]、Diamantaras等[16]在LSSVR算法的基础上提出了增量式LSSVR学习算法,解决了当有新样本加入学习集时,利用原有核相关矩阵的逆求解新核相关矩阵逆的问题。Wu等[17]、Cauwenberghs等[18]提出了逆学习算法,即在已经学习过的样本集中按照一定的选择策略去除某个样本,并使得新的学习问题可以在原有的问题基础上进行,而不必重新求解全部回归参数。在耕地变化预测问题中,近期数据提供的信息多于远期数据所包含的信息,因此,本研究综合增量式 LSSVR 和逆学习算法特征,加入滑动训练窗口策略,使SVM具有在线学习能力,并利用粒子群算法(Particle swarm optimization, PSO)优化SVM内部参数,提出了基于PSO的在线学习SVM算法(PSO-based parameter optimization online support vector machine, PSO-OSVM)。以江苏省为例,建立PSO-OSVM耕地变化预测模型,经验证该模型在耕地变化预测中具有适应性,为土地资源的可持续利用提供了可靠的理论依据。endprint
1 研究方法
1.1 在线学习SVM模型
已知训练样本集S大小为(l+p),将前个样本构成工作集,D={si|si=(xi,yi)|i=1,2,…,l},其中xi∈Rn为输入数据,yi∈R是输出类别。在权w空间(原始空间)中,传统的LSSVR回归问题相当于下面的最小值求解[19]:
J(w,b,e)=wTw+γe (1)
约束条件:yi=wT?渍(xi)+b+ei,i=1,2,…,l,其中, ?渍(xi):Rn→Rnh是核空间映射函数,权向量w∈Rnh (原始空间),误差变量ei∈R,b是偏差量。损失函数J是SSE误差和规则化量之和,γ是惩罚因子(常数)。核空间映射函数的目的是从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。
由于w可能为无限维的,于是直接计算规划(1)是极其困难的,因此将这一规划问题转化到其对偶空间中,构建拉格朗日函数:
L(w,b,e:a)=J(w,e)-ai{wT?渍(xi)+b-yi+ei}(2)
式(2)中,ai∈R是拉格朗日算子,在LSSVR形式中可以为正,也可以为负。分别对w,b,e,a进行偏微分,可以得到式(2)的最优条件,如下:
=0 → w=ai?渍(xi)
=0 → ai=0
=0 → ai=rei
=0 → wT?渍(xi)+b-yi+ei=0 (3)
式(3)中,i=1,2,3,…,l。消除w和e,得矩阵方程:
0 IIv ?赘+Eba=0y (4)
式(4)中,y=[y1,y2,…,yl]T,I=[1,…,1]T,E是N×N维的单位矩阵,?赘=?渍(xi)T?渍(xi),i,l=1,2,…,l,。结合mercer条件[20],a=[a1,a2,…,al]T存在映射函数?渍和核函数K(xi,xl)使得:
K(xi,xl)=?渍(xi)T?渍(xi) (5)
记?赘ij=K(xi,xl),选择RBF核函数K(xi,xl)=exp(-),?滓为核函数参数(常数)。设Al=?赘+E,由式(4)可知:
b=,a=A(y-bI) (6)
式(6)中,Al称为核相关矩阵。由式(5)、(6)得到传统LSSVR回归函数:
y(x)=aiK(x,xi)+b (7)
式(7)中,a,b统称为回归参数。由式(6)、(7)知回归参数的确定关键在于计算核相关矩阵的逆A-1。
滑动窗口,将Sl+1=(xl+1,yl+1)新样本加入工作集,此时工作集D={S1,S2,…,Sl,Sl+1},新的核相关矩阵为:
Al+1=A1 b1b2 c (8)
式(8)中,Al+1代表工作集D1的核相关矩阵,b2=(?赘l+1,1,…,?赘l+1,l),b1=(?赘l+1,1,…,?赘l+1,l)T=b,c=?赘l+1,l+1。根据增量式学习算法[14-15],算得Al+1的逆矩阵为:
A=A 00 0+(c-b2 Ab1)-1A b1 -1[b2A-1] (9)
式(9)中,A代表工作集D的核相关矩阵。剔除工作集中S1,构建工作集D={S2,…,Sl,Sl+1},新的相关矩阵为A,由式(8)、(9),设,A=(aij),Q=A,A=(aij)i,j≠k,i,j=1,2,…,l+1。根据逆学习算法[17-18],算得的逆矩阵为:
A=Q-q1q2 (10)
式(10)中,Q=(q1,…,qk-1,qk+1,…,ql+1),qi=(q1i,…,q(k-1)i,q(k+1)i,…,qli)T,(i=1,2,…,l+1,i≠k),q1=(q1k,…,q(k-1)k,q(k+1)k,…,q(l+1)k)T,q2=(qk1,…,qk(k-1),qk(k+1),…,qk(l+1)),根据式(6),从而得到样本集{S2,…,Sl,Sl+1}的在线学习SVM的回归函数为:
y(x)=aiK(x,xi)+b (11)
依照上述过程,逐个对训练样本集后p个样本依次进行回归分析。在线学习SVM回归函数的估算精度和收敛速度受参数(?酌,?滓)影响,本研究选用粒子群算法[21](PSO)对其进行最优选择。
1.2 粒子群算法优化在线学习SVM算法参数
粒子群算法是一种模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法,最早由Kennedy和Eberhart在1995年提出。在该算法中,每个优化问题的候选解都是搜索空间中一个粒子的状态,每个粒子都对应一个由目标函数决定的适应度值,粒子的速度决定了它们飞翔的方向和距离。粒子根据自身及同伴的飞行经验进行动态调整,即粒子自身所找到的最优解和整个种群当前找到的最优解。如此在解空间中不断搜索,直至满足要求为止[22]。该算法具有很强的搜索能力,而且容易实现,几乎不需要调整参数[23]。endprint
本研究充分利用该算法操作简单、精度高、收敛快等优势[24],对在线学习SVM模型的惩罚因子γ和RBF核函数参数σ在设定的范围内进行最优或近似最优参数的选择,以使模型的预测精度获得提高,具体的PSO和OSVM结合方式如图1。
2 案例分析
2.1 研究区概况
江苏省位于中国大陆东部沿海中心,濒临黄海,地处暖温带与北亚热带,长江与淮河下游地区,介于东经116°18′~121°57′,北纬30°45′~35°20′之间。地势、地形以平原为主,全省平原面积700多万hm2,占全省国土面积的70%以上,比例居全国各省首位,主要由苏南平原、苏中江淮平原、苏北黄淮平原组成。省内河湖众多,水网密布,素有“水乡江苏”之称,年降雨径流深在150~400 mm。共有大小河流和人工河道2 900多条,陆域水面面积达173万hm2,水面所占比例之大,在全国各省中居首位。近年来,江苏省土地利用结构变化快,耕地流失严重。由于价值高的经济作物及牧渔副业用地增加,导致农业用地结构调整,粮食作物用地减少,非农占用耕地急剧增加。从1996-2009年,耕地面积共减少373 640 hm2。
2.2 预测结果分析
结合我国基本国情,经济发展制定计划、经营决策等大多数是以5年为计划周期。因此,本研究的耕地变化预测模型用前5年的耕地总面积预测第6年的耕地总面积。即预测模型中前5个数据为输入量,第6个数据为输出量。
根据上述理论模型,针对江苏省耕地变化的实际情况,依据2010年《江苏省统计年鉴》,将江苏省1996-2009年耕地面积进行时间序列归一化处理(表1)。利用1996-2006年耕地面积组成训练数据集,建立PSO-OSVM土地利用变化预测模型。2007-2009年耕地面积组成预测数据集进行耕地面积预测(表2)。同时,利用表2中训练数据分别建立GM(1,1)预测模型、BP神经网络预测模型和PSO-SVM预测模型,算得2007-2009年耕地面积,并与实际耕地面积比较,对各预测模型进行精度评价和验证,具体的土地利用变化预测结果和精度数据见表3、表4和图2。
由表3、表4、图2可知:①BP神经网络模型预测精度最差,模型内和总精度的均方根误差、最大绝对误差和平均绝对误差均大于其他3种耕地预测模型,模型外精度中仅最大相对误差略低于GM(1,1)耕地预测模型,且BP神经网络结构复杂,参数不易确定,易产生过拟合现象;②GM(1,1)耕地预测模型的模型内精度较高,仅次于PSO-OSVM耕地预测模型,模型外精度劣于其他预测模型,且模型在实际应用中存在误差累计的问题,其多次迭代产生的发展系数序列收敛性尚无理论依据[25];③PSO-SVM耕地预测模型的模型外精度和总精度均高于前两个预测模型,模型内精度仅高于BP神经网络模型;④PSO-OSVM耕地预测模型的预测精度最高,各项预测指标优于其他3种模型,因为OSVM算法在标准SVM的基础上,综合了增量式LSSVR 和逆学习算法特征,增加了算法的在线学习能力,增强了近期数据在预测过程中的重要性,提高了算法的预测精度。可见,PSO-OSVM是一种有效的耕地变化预测模型。
3 结论
本研究针对耕地的变化预测模型问题,以江苏省2001-2009年的耕地变化为例,提出了一种PSO-OSVM耕地变化预测模型。通过比较分析BP神经网络、GM(1,1)、PSO-SVM、PSO-OSVM等模型在耕地变化中的预测能力,得到如下结论。
1)针对SVM内部参数难以确定的问题,利用PSO的全局搜索能力对惩罚因子?酌和RBF核函数参数?滓进行了最优或近似最优选择,结果证实,PSO能有效的收敛到参数和的全局最优解。
2)增量式LSSVR学习算法和逆学习算法,在原有核相关矩阵逆的基础上,求解新核相关矩阵逆,充分利用已有的学习经验解决新的学习问题,避免了全部回归参数的重新求解,降低了PSO-OSVM模型的复杂度,提高了模型的计算效率和预测精度。
3)PSO-OSVM模型的各项精度指标均高于BP神经网络、GM(1,1)模型,且优于PSO-SVM模型;PSO-OSVM耕地变化预测模型简单易懂、实现简单、结果可信,能很好地表述耕地变化系统,精确地模拟耕地的变化趋势,是一种有效的耕地变化预测新方法,具有实际推广价值。
参考文献:
[1] 崔邢涛,许 皞,薛保民,等.耕地质量占补平衡评价方法探讨—以河北省霸州市为例[J].河北农业大学学报,2004,27(6):88-92.
[2] 徐 艳,周 勇,湛 蓝.基于灰色模型GM(1,1)的荆州市耕地动态变化分析[J].湖北农业科学,2007,46(5):713-715.
[3] 车明亮,聂宜民,刘登民,等.区域耕地数量变化预测方法的对比研究[J].中国土地科学,2010,24(5):13-18.
[4] 赵永华,刘晓静,奥 勇.陕西省耕地资源变化及耕地压力指数分析与预测[J].农业工程学报.2013,29(11):217-223.
[5] 赵海英,张明旭.基于灰色模型的耕地变化预测[J].吉林师范大学学报(自然科学版),2007,5(2):66-67.
[6] 胡喜生,洪 伟,吴承祯.基于BP神经网络的福建省耕地预测模型[J].福建农林大学学报(自然科学版),2008,37(4):425-427.
[7] 王锡淮,朱思锋.基于支持向量机的船舶电力负荷预测[J].中国电机工程学报,2004,24(10):36-39.
[8] 任向辉,李向平,李 言,等.基于支持向量机回归模型的稻田二化螟历史数据预测[J].广东农业科学,2012(16):179-181.endprint
[9] 欧 敏,林从谋.支持向量机预测高边坡爆破质点振动速度[J]. 金属矿山,2011(6):56-58.
[10] HAO P Y,CHIANG J H. Fuzzy regression analysis by support vector learning approach[J].IEEE Trans on Fuzzy Systems, 2008,16(2):428-441.
[11] VAPNIK VN. Statistical Learning Theory[M]. New York:Springer-Verlag,1998.
[12] TSUJINISHI D, ABE S. Fuzzy least squares support vector machines for multi-class problems[J]. Neural Networks, 2003,16(5):785-792.
[13] BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery, 1998,2(2):121-167.
[14] 张 豪,罗亦泳,张立亭,等.基于遗传算法最小二乘支持向量机的耕地变化预测[J].农业工程学报,2009,25(7):226-231.
[15] LIU J H, CHEN J P, JIANG S, et al. Online SL-SVM for function and classification[J]. Journal of University of Science and Technology,2003,10(5):73-77.
[16] DIAMANTARAS K I, KUNG S Y. Principal Component Neural Networks theory and Applications[M]. New York: John Wiley and Sons,1996.
[17] WU C G, LIANG Y C, YANG X W, et al. Equivalence of classification and regression under support vector machine theory[J]. Lecture Notes in Computer Science,2005, 3612:1257-1260.
[18] CAUWENBERGHS G, POGGIO T. Incremental and decremental support vector machine learning, in Advances inNeural Information Processing Systems, Cambridge, MA:MIT Press.2001,13:426-433.
[19] 彭珍瑞,孟建军,祝 磊,等.基于支持向量机的铁路客运量的预测[J].辽宁工程技术大学学报,2007,26(2):269-272.
[20] 朱家元,陈开陶,张恒喜.最小二乘支持向量机算法研究[J].计算机科学,2003,30(7):157-159.
[21] Waligóra G. Discrete-continuous project scheduling with discounted cash flows-A tabu search approach[J]. Computers & Operations Research,2008,35(7):2141-2153.
[22] 何同弟,李见为,黄 鸿.基于PSO优选参数的SVR水质参数遥感反演模型[J].信息与控制,2011,40(4):532-536.
[23] LIU B, WANG L, JIN Y H. An effective hybrid PSO-based algorithm for flow shop scheduling with limited buffers[J]. Computers & Operations Research,2008,35(9):2791-2806.
[24] BRITS R, ENGELBRECHT A P, VAN D B F. Locating multiple optima using particle swarm optimization[J]. Applied Mathematics and Computation,2007,189(2):1859-1883.
[25] 徐维维 高 风.灰色算法在股票价格预测中的应用[J].计算机仿真,2007,24(11):274-276.
(责任编辑 陈 杰)endprint
[9] 欧 敏,林从谋.支持向量机预测高边坡爆破质点振动速度[J]. 金属矿山,2011(6):56-58.
[10] HAO P Y,CHIANG J H. Fuzzy regression analysis by support vector learning approach[J].IEEE Trans on Fuzzy Systems, 2008,16(2):428-441.
[11] VAPNIK VN. Statistical Learning Theory[M]. New York:Springer-Verlag,1998.
[12] TSUJINISHI D, ABE S. Fuzzy least squares support vector machines for multi-class problems[J]. Neural Networks, 2003,16(5):785-792.
[13] BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery, 1998,2(2):121-167.
[14] 张 豪,罗亦泳,张立亭,等.基于遗传算法最小二乘支持向量机的耕地变化预测[J].农业工程学报,2009,25(7):226-231.
[15] LIU J H, CHEN J P, JIANG S, et al. Online SL-SVM for function and classification[J]. Journal of University of Science and Technology,2003,10(5):73-77.
[16] DIAMANTARAS K I, KUNG S Y. Principal Component Neural Networks theory and Applications[M]. New York: John Wiley and Sons,1996.
[17] WU C G, LIANG Y C, YANG X W, et al. Equivalence of classification and regression under support vector machine theory[J]. Lecture Notes in Computer Science,2005, 3612:1257-1260.
[18] CAUWENBERGHS G, POGGIO T. Incremental and decremental support vector machine learning, in Advances inNeural Information Processing Systems, Cambridge, MA:MIT Press.2001,13:426-433.
[19] 彭珍瑞,孟建军,祝 磊,等.基于支持向量机的铁路客运量的预测[J].辽宁工程技术大学学报,2007,26(2):269-272.
[20] 朱家元,陈开陶,张恒喜.最小二乘支持向量机算法研究[J].计算机科学,2003,30(7):157-159.
[21] Waligóra G. Discrete-continuous project scheduling with discounted cash flows-A tabu search approach[J]. Computers & Operations Research,2008,35(7):2141-2153.
[22] 何同弟,李见为,黄 鸿.基于PSO优选参数的SVR水质参数遥感反演模型[J].信息与控制,2011,40(4):532-536.
[23] LIU B, WANG L, JIN Y H. An effective hybrid PSO-based algorithm for flow shop scheduling with limited buffers[J]. Computers & Operations Research,2008,35(9):2791-2806.
[24] BRITS R, ENGELBRECHT A P, VAN D B F. Locating multiple optima using particle swarm optimization[J]. Applied Mathematics and Computation,2007,189(2):1859-1883.
[25] 徐维维 高 风.灰色算法在股票价格预测中的应用[J].计算机仿真,2007,24(11):274-276.
(责任编辑 陈 杰)endprint
[9] 欧 敏,林从谋.支持向量机预测高边坡爆破质点振动速度[J]. 金属矿山,2011(6):56-58.
[10] HAO P Y,CHIANG J H. Fuzzy regression analysis by support vector learning approach[J].IEEE Trans on Fuzzy Systems, 2008,16(2):428-441.
[11] VAPNIK VN. Statistical Learning Theory[M]. New York:Springer-Verlag,1998.
[12] TSUJINISHI D, ABE S. Fuzzy least squares support vector machines for multi-class problems[J]. Neural Networks, 2003,16(5):785-792.
[13] BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery, 1998,2(2):121-167.
[14] 张 豪,罗亦泳,张立亭,等.基于遗传算法最小二乘支持向量机的耕地变化预测[J].农业工程学报,2009,25(7):226-231.
[15] LIU J H, CHEN J P, JIANG S, et al. Online SL-SVM for function and classification[J]. Journal of University of Science and Technology,2003,10(5):73-77.
[16] DIAMANTARAS K I, KUNG S Y. Principal Component Neural Networks theory and Applications[M]. New York: John Wiley and Sons,1996.
[17] WU C G, LIANG Y C, YANG X W, et al. Equivalence of classification and regression under support vector machine theory[J]. Lecture Notes in Computer Science,2005, 3612:1257-1260.
[18] CAUWENBERGHS G, POGGIO T. Incremental and decremental support vector machine learning, in Advances inNeural Information Processing Systems, Cambridge, MA:MIT Press.2001,13:426-433.
[19] 彭珍瑞,孟建军,祝 磊,等.基于支持向量机的铁路客运量的预测[J].辽宁工程技术大学学报,2007,26(2):269-272.
[20] 朱家元,陈开陶,张恒喜.最小二乘支持向量机算法研究[J].计算机科学,2003,30(7):157-159.
[21] Waligóra G. Discrete-continuous project scheduling with discounted cash flows-A tabu search approach[J]. Computers & Operations Research,2008,35(7):2141-2153.
[22] 何同弟,李见为,黄 鸿.基于PSO优选参数的SVR水质参数遥感反演模型[J].信息与控制,2011,40(4):532-536.
[23] LIU B, WANG L, JIN Y H. An effective hybrid PSO-based algorithm for flow shop scheduling with limited buffers[J]. Computers & Operations Research,2008,35(9):2791-2806.
[24] BRITS R, ENGELBRECHT A P, VAN D B F. Locating multiple optima using particle swarm optimization[J]. Applied Mathematics and Computation,2007,189(2):1859-1883.
[25] 徐维维 高 风.灰色算法在股票价格预测中的应用[J].计算机仿真,2007,24(11):274-276.
(责任编辑 陈 杰)endprint