基于支持向量机的湖北省洪涝农业损失预测模型
2014-11-20王平黄河吴玮
王平+黄河+吴玮
摘要:洪涝农业灾情预测在灾害管理和应急救灾等领域都具有非常重要的研究价值,以支持向量机(SVM)模型为基础,以1998~2006年湖北省洪涝灾情数据为样本,构建了基于SVM的洪涝农作物损失预测模型。结果表明,基于径向核函数的SVM模型适合湖北地区洪涝农业损失的预测。
关键词:农作物;洪涝;预测;支持向量机
中图分类号:X43 文献标识码:A 文章编号:0439-8114(2014)18-4437-04
随着全球环境变化,极端气候事件不断发生,自然灾害损失明显上升,对人类生产、安全和发展带来前所未有的挑战[1]。我国国土辽阔,自然地理条件复杂,降水在时空分布上十分不均匀,洪涝灾害的发生十分频繁。洪涝灾害是我国各种自然灾害中发生频率高、造成经济损失严重的一种自然灾害。根据水利部公布的数据,1990年洪涝灾害造成的直接经济损失为239.0亿元,1995年增加到1 653.3亿元,1999年高达2 550.9亿元。进入21世纪后,洪涝灾害所造成的直接经济损失年均超过1 200亿元。随着社会发展的进步,洪涝灾害已成为威胁国民经济持续发展和制约国家可持续发展的主要因素之一。为了便于灾情分析及防灾减灾救灾工作,对洪涝灾害损失进行预测的研究显得尤为重要,本研究从我国自然灾害风险管理的需求出发,构建了基于支持向量机(Support vector machine, SVM)的洪涝灾害农业损失预测模型,为我国洪涝灾害风险管理提供参考,研究结果对自然灾害管理工作具有重要的指导意义[2]。
1 洪涝灾害损失评估预测模型
洪涝灾害(包括洪灾和涝灾)是由于降雨、融雪、冰凌、风暴潮、溃堤等引起洪流和积水而造成的自然灾害。我国历朝历代对重大灾害事件的记载为研究历史灾害留下了宝贵的文献资料。目前民政部和水利部等部委都开展了洪涝灾害造成的损失风险进行评估,其中民政部的《自然灾害情况统计制度》主要从受灾人口、农作物受灾面积、农作物成灾面积、倒塌房屋、直接经济损失等方面统计了包括洪涝在内的自然灾害损失信息,而水利部也从农作物受灾面积、农作物成灾面积、倒塌房屋和直接经济损失等方面统计洪涝灾害损失数据(表1)。
洪涝灾害的致灾因子、孕灾环境和承灾体共同组成了洪涝灾害复杂系统,而洪涝灾情是该复杂系统各组成部分相互作用的结果[3]。洪涝灾害灾情评估是通过所建立的模型,对因洪涝灾害造成的破坏程度进行评价。从广义上讲,洪涝灾害损失评估包括孕灾环境稳定性分析、致灾因子危险性分析、承灾体易损性评价和灾情损失评估[4];从狭义上讲,洪涝灾害损失评估是研究在一定时间段内,洪涝灾害对可能发生区域带来的各种损失。目前,对洪涝灾害损失评估进行研究,评估方法主要有:遥感和GIS方法[5,6]、抽样统计方法[7]、基于承灾体易损性的评估方法[8,9]和基于历史灾情数据的评估模型[10,11]。基于历史灾情数据的分析方法是依据历史灾情数据,其本身就是洪涝与承灾体相互作用的结果,这种“从灾害研究灾害”的方法避免了从洪涝研究灾害的迂回[12]。
2 基于SVM的洪涝农作物灾情预测模型
SVM模型是继人工神经网络之后新一代的学习算法,是一种先进的非线性统计分析模型。目前,SVM模型逐步被应用到台风、地震和滑坡等自然灾害的灾情预测上,并取得了很好的研究成果[13-15]。
2.1 支持向量机模型
SVM是由Vapnik[16]提出的一种非常有发展前景的分类和回归预测技术,可以替代多层感知器、RBF神经网络等算法。SVM主要利用核函数将线性不可分的数据转换为高维空间的线性可分数据。
一般的SVM被设计用于解决分类问题,假设训练样本xi(i=1,2,…,n)由两类构成,即yi=±1。SVM的目标是在n维空间上寻找一个超平面,以最大间距区分训练样本中的两类,同时使分开两类数据点距离分类面最远,这里的超平面既可以是平面也可以是曲面。
对于一般线性可分情况[13],超平面通过以下公式获得:
2.2 基于SVM的洪涝农作物灾情预测模型
2.2.1 选择洪涝灾害案例数据作为训练数据 根据民政部自然灾害灾情统计报表,选择了受灾人口(a1)、紧急转移安置人口(a2)、农作物绝收面积(a3)、倒塌房屋间数(a4)、损坏房屋间数(a5)、直接经济损失(a6)和农作物受灾面积(a7)等为洪涝农作物灾情案例属性。选择1998~2006年湖北省的20个洪涝案例数据(u1~u20)作为训练样本[17],具体情况如表2。
2.2.2 构建基于SVM的洪涝农作物灾情预测模型 基于SVM的洪涝灾害农作物灾情预测模型主要包括:①由于洪涝灾情数据属于线性不可分情况,选用公式(2)作为预测的模型基础;②基于表2中的洪涝灾情数据,分别利用线性核函数、多项式核函数、径向核函数和S形核函数作为核函数,通过对洪涝灾情样本数据训练,分别得到基于SVM的洪涝农作物灾情的预测模型;③通过参数寻优,优化训练结果,这样可以得到较好的预测模型,使预测的精度得到进一步改善,提高预测模型的精度,重点主要包括优化SVM中的惩罚参数和核函数参数等。
3 结果与分析
在Matlab平台上,利用洪涝灾害灾情农作物预测训练数据,通过综合比较分析4种核函数模型,发现基于径向核函数的SVM预测模型能较好地预测农作物灾情,并获得湖北地区洪涝农作物灾情预测模型为:
3.1 洪涝农作物灾情预测结果
利用公式(7)对1998~2006年湖北省的农作物绝收面积进行预测。结果表明,农作物绝收面积的整体预测精度为85.67%,整体预测误差为26.46%,具体的农作物绝收面积预测误差如图1所示。
由图1可知,利用基于径向核函数的SVM预测模型能有效地预测湖北地区的洪涝农作物绝收面积,预测曲线与样本曲线变化趋势基本一致。但预测结果也表明,也存在预测值明显大于真实值,如样本2、样本10、样本11、样本16、样本18和样本19;也存在预测值明显小于真实值,如样本14。整体来说,样本9至样本10,预测结果与真实数据基本吻合。本研究所建立的SVM预测模型能预测湖北地区洪涝农作物绝收面积,但对小面积的农作物绝收面积预测效果较差。endprint
同样利用公式(7)对1998~2006年湖北省的农作物受灾面积进行预测。交叉验证结果表明,农作物受灾面积整体预测精度为87.22%,整体预测误差为23.33%。从整体上来看,洪涝农作物成灾面积的预测精度比农作物绝收面积更准确。具体的农作物绝收面积预测误差如图2所示。
由图2可知,本研究所构建模型对农作物受灾面积预测曲线与样本曲线变化趋势一致。但预测结果也表明,存在预测值明显大于真实值,如样本16;存在预测值明显小于真实值,如样本1。整体来说,在9至11这个阶段本文预测值基本吻合历史数据,预测的准确度较高。在5至8,12至20这二个阶段预测值误差相对较大,尤其是11至20历史阶段模型所预测的值高于样本数据。综上所述,所建立的SVM预测模型能有效预测湖北地区洪涝灾害的农作物绝收面积,但对小面积的农作物受灾面积预测效果较差。
3.2 预测结果分析
洪涝农作物受灾面积比成灾面积预测精度高可能的原因主要为:①本研究只是从洪涝损失灾情中选择了7类属性进行分析,其中受灾人口、紧急转移安置人口和直接经济损失等属性与农作物受灾面积相关性更强;②本研究选择的7类属性在洪涝灾害系统之间的相关关系非常复杂。当样本数据值较小时,本研究所构建的SVM模型对农作物受灾面积和绝收面积的预测较差的原因主要包括:①样本数据自身质量问题,本研究选择的湖北省洪涝灾情数据是针对一次灾害过程中不同受灾区域的灾情汇总数据,在汇总过程中会存在一定的“脏”数据;②洪涝灾情在时空上具有非均匀性,如样本u19中农作物绝收和成灾面积分别为18、18 900 hm2,而u14中2个属性分别为45 200、85 800 hm2,使洪涝灾情数据在多维空间上分布呈现不规律的状态。
综上所述,提出的基于径向核函数的SVM模型能对洪涝农作物灾情进行有效预测,当受灾和绝收面积比较大时预测准确度很高,但对于相对较小的受灾面积与绝收面积的样本预测有一定的偏差,预测值比原始数据要偏大一些。
4 结论
本研究以支持向量机(SVM)模型为基础,以1998~2006年湖北地区洪涝灾情数据为样本,构建了基于SVM的洪涝农作物损失预测模型。研究结果表明,基于径向核函数的SVM模型适合湖北地区洪涝农业损失的预测,对农作物受灾面积的预测精度高于农作物绝收面积;而且当样本数据中的农作物灾情数据较小时,预测值会高于真实值。在构建SVM农作物灾情预测模型时综合考虑更多的洪涝灾情属性,特别是降雨量、受灾时间、灾害持续时间和受灾区域等信息。
参考文献:
[1] 袁 艺.自然灾害灾情评估研究与实践进展[J].地球科学进展, 2010,25(1):22-32.
[2] 张 弛,宋绪美,李 伟.可变模糊评价法在洪涝灾情评价中的应用[J].自然灾害学报,2008,17(5):34-39.
[3] 史培军.四论灾害的理论与实践[J].自然灾害学报,2002,11(3):1-9.
[4] 邹 铭,范一大,杨思全,等.自然灾害风险管理与预警体系[M]. 北京:科学出版社,2005.
[5] 高霞霞,苏 伟,谢伯承,等.基于GIS的湖南洪涝灾害农业风险评估[J].安徽农业科学,2011,39(2):1122-1123,1147.
[6] 聂 娟,范一大,邓 磊,等.山洪灾害雷达遥感灾情评估技术研究与应用[J].自然灾害学报,2010,19(3):105-110.
[7] 胡俊锋,范春波,杨月巧.基于抽样统计方法的洪涝灾害损失评估[J].自然灾害学报,2010,19(6):27-30.
[8] 梁留科.农业灾情与抗灾能力的定量指标探讨[J].灾害学,1992,7(1):7-11.
[9] 蒲 淳.关于我国粮食生产的易损性评价[J].自然灾害学报,1998,7(4):30-34.
[10] 叶正伟.自然灾害对农业经济影响的态势分析及对策研究——以苏浙皖旱涝灾害为例[J].安徽农业科学,2006,34(4):772-774,803.
[11] 李柏年.洪涝灾害评价的威布尔模型[J].自然灾害学报,2005, 14(6):32-36.
[12] 黄大鹏,刘 闯,彭顺风.洪灾风险评价与区划研究进展[J].地理科学进展,2007,26(4):11-22.
[13] 许 冲,徐锡伟.基于不同核函数的2010年玉树地震滑坡空间预测模型研究[J].地球物理学报,2012,55(9):2994-3005.
[14] 张新厂,娄伟平.基于主成分支持向量机的台风灾害房屋倒塌间数评估[J].安徽农业科学,2010(12):6339-6341.
[15] 牛瑞卿,彭 令,叶润青,等.基于粗糙集的支持向量机滑坡易发性评价[J].吉林大学学报(地球科学版),2012,42(2):430-439.
[16] VAPNIK V. The Nature of Statistical Learning Theory[M]. Germany:Springer-Verlag,2000.
[17] 吴雪莲,孙丙宇,李文波,等.基于粗糙集和CBR的救灾口粮需求预测[J].计算机工程,2012,38(9):158-161.endprint
同样利用公式(7)对1998~2006年湖北省的农作物受灾面积进行预测。交叉验证结果表明,农作物受灾面积整体预测精度为87.22%,整体预测误差为23.33%。从整体上来看,洪涝农作物成灾面积的预测精度比农作物绝收面积更准确。具体的农作物绝收面积预测误差如图2所示。
由图2可知,本研究所构建模型对农作物受灾面积预测曲线与样本曲线变化趋势一致。但预测结果也表明,存在预测值明显大于真实值,如样本16;存在预测值明显小于真实值,如样本1。整体来说,在9至11这个阶段本文预测值基本吻合历史数据,预测的准确度较高。在5至8,12至20这二个阶段预测值误差相对较大,尤其是11至20历史阶段模型所预测的值高于样本数据。综上所述,所建立的SVM预测模型能有效预测湖北地区洪涝灾害的农作物绝收面积,但对小面积的农作物受灾面积预测效果较差。
3.2 预测结果分析
洪涝农作物受灾面积比成灾面积预测精度高可能的原因主要为:①本研究只是从洪涝损失灾情中选择了7类属性进行分析,其中受灾人口、紧急转移安置人口和直接经济损失等属性与农作物受灾面积相关性更强;②本研究选择的7类属性在洪涝灾害系统之间的相关关系非常复杂。当样本数据值较小时,本研究所构建的SVM模型对农作物受灾面积和绝收面积的预测较差的原因主要包括:①样本数据自身质量问题,本研究选择的湖北省洪涝灾情数据是针对一次灾害过程中不同受灾区域的灾情汇总数据,在汇总过程中会存在一定的“脏”数据;②洪涝灾情在时空上具有非均匀性,如样本u19中农作物绝收和成灾面积分别为18、18 900 hm2,而u14中2个属性分别为45 200、85 800 hm2,使洪涝灾情数据在多维空间上分布呈现不规律的状态。
综上所述,提出的基于径向核函数的SVM模型能对洪涝农作物灾情进行有效预测,当受灾和绝收面积比较大时预测准确度很高,但对于相对较小的受灾面积与绝收面积的样本预测有一定的偏差,预测值比原始数据要偏大一些。
4 结论
本研究以支持向量机(SVM)模型为基础,以1998~2006年湖北地区洪涝灾情数据为样本,构建了基于SVM的洪涝农作物损失预测模型。研究结果表明,基于径向核函数的SVM模型适合湖北地区洪涝农业损失的预测,对农作物受灾面积的预测精度高于农作物绝收面积;而且当样本数据中的农作物灾情数据较小时,预测值会高于真实值。在构建SVM农作物灾情预测模型时综合考虑更多的洪涝灾情属性,特别是降雨量、受灾时间、灾害持续时间和受灾区域等信息。
参考文献:
[1] 袁 艺.自然灾害灾情评估研究与实践进展[J].地球科学进展, 2010,25(1):22-32.
[2] 张 弛,宋绪美,李 伟.可变模糊评价法在洪涝灾情评价中的应用[J].自然灾害学报,2008,17(5):34-39.
[3] 史培军.四论灾害的理论与实践[J].自然灾害学报,2002,11(3):1-9.
[4] 邹 铭,范一大,杨思全,等.自然灾害风险管理与预警体系[M]. 北京:科学出版社,2005.
[5] 高霞霞,苏 伟,谢伯承,等.基于GIS的湖南洪涝灾害农业风险评估[J].安徽农业科学,2011,39(2):1122-1123,1147.
[6] 聂 娟,范一大,邓 磊,等.山洪灾害雷达遥感灾情评估技术研究与应用[J].自然灾害学报,2010,19(3):105-110.
[7] 胡俊锋,范春波,杨月巧.基于抽样统计方法的洪涝灾害损失评估[J].自然灾害学报,2010,19(6):27-30.
[8] 梁留科.农业灾情与抗灾能力的定量指标探讨[J].灾害学,1992,7(1):7-11.
[9] 蒲 淳.关于我国粮食生产的易损性评价[J].自然灾害学报,1998,7(4):30-34.
[10] 叶正伟.自然灾害对农业经济影响的态势分析及对策研究——以苏浙皖旱涝灾害为例[J].安徽农业科学,2006,34(4):772-774,803.
[11] 李柏年.洪涝灾害评价的威布尔模型[J].自然灾害学报,2005, 14(6):32-36.
[12] 黄大鹏,刘 闯,彭顺风.洪灾风险评价与区划研究进展[J].地理科学进展,2007,26(4):11-22.
[13] 许 冲,徐锡伟.基于不同核函数的2010年玉树地震滑坡空间预测模型研究[J].地球物理学报,2012,55(9):2994-3005.
[14] 张新厂,娄伟平.基于主成分支持向量机的台风灾害房屋倒塌间数评估[J].安徽农业科学,2010(12):6339-6341.
[15] 牛瑞卿,彭 令,叶润青,等.基于粗糙集的支持向量机滑坡易发性评价[J].吉林大学学报(地球科学版),2012,42(2):430-439.
[16] VAPNIK V. The Nature of Statistical Learning Theory[M]. Germany:Springer-Verlag,2000.
[17] 吴雪莲,孙丙宇,李文波,等.基于粗糙集和CBR的救灾口粮需求预测[J].计算机工程,2012,38(9):158-161.endprint
同样利用公式(7)对1998~2006年湖北省的农作物受灾面积进行预测。交叉验证结果表明,农作物受灾面积整体预测精度为87.22%,整体预测误差为23.33%。从整体上来看,洪涝农作物成灾面积的预测精度比农作物绝收面积更准确。具体的农作物绝收面积预测误差如图2所示。
由图2可知,本研究所构建模型对农作物受灾面积预测曲线与样本曲线变化趋势一致。但预测结果也表明,存在预测值明显大于真实值,如样本16;存在预测值明显小于真实值,如样本1。整体来说,在9至11这个阶段本文预测值基本吻合历史数据,预测的准确度较高。在5至8,12至20这二个阶段预测值误差相对较大,尤其是11至20历史阶段模型所预测的值高于样本数据。综上所述,所建立的SVM预测模型能有效预测湖北地区洪涝灾害的农作物绝收面积,但对小面积的农作物受灾面积预测效果较差。
3.2 预测结果分析
洪涝农作物受灾面积比成灾面积预测精度高可能的原因主要为:①本研究只是从洪涝损失灾情中选择了7类属性进行分析,其中受灾人口、紧急转移安置人口和直接经济损失等属性与农作物受灾面积相关性更强;②本研究选择的7类属性在洪涝灾害系统之间的相关关系非常复杂。当样本数据值较小时,本研究所构建的SVM模型对农作物受灾面积和绝收面积的预测较差的原因主要包括:①样本数据自身质量问题,本研究选择的湖北省洪涝灾情数据是针对一次灾害过程中不同受灾区域的灾情汇总数据,在汇总过程中会存在一定的“脏”数据;②洪涝灾情在时空上具有非均匀性,如样本u19中农作物绝收和成灾面积分别为18、18 900 hm2,而u14中2个属性分别为45 200、85 800 hm2,使洪涝灾情数据在多维空间上分布呈现不规律的状态。
综上所述,提出的基于径向核函数的SVM模型能对洪涝农作物灾情进行有效预测,当受灾和绝收面积比较大时预测准确度很高,但对于相对较小的受灾面积与绝收面积的样本预测有一定的偏差,预测值比原始数据要偏大一些。
4 结论
本研究以支持向量机(SVM)模型为基础,以1998~2006年湖北地区洪涝灾情数据为样本,构建了基于SVM的洪涝农作物损失预测模型。研究结果表明,基于径向核函数的SVM模型适合湖北地区洪涝农业损失的预测,对农作物受灾面积的预测精度高于农作物绝收面积;而且当样本数据中的农作物灾情数据较小时,预测值会高于真实值。在构建SVM农作物灾情预测模型时综合考虑更多的洪涝灾情属性,特别是降雨量、受灾时间、灾害持续时间和受灾区域等信息。
参考文献:
[1] 袁 艺.自然灾害灾情评估研究与实践进展[J].地球科学进展, 2010,25(1):22-32.
[2] 张 弛,宋绪美,李 伟.可变模糊评价法在洪涝灾情评价中的应用[J].自然灾害学报,2008,17(5):34-39.
[3] 史培军.四论灾害的理论与实践[J].自然灾害学报,2002,11(3):1-9.
[4] 邹 铭,范一大,杨思全,等.自然灾害风险管理与预警体系[M]. 北京:科学出版社,2005.
[5] 高霞霞,苏 伟,谢伯承,等.基于GIS的湖南洪涝灾害农业风险评估[J].安徽农业科学,2011,39(2):1122-1123,1147.
[6] 聂 娟,范一大,邓 磊,等.山洪灾害雷达遥感灾情评估技术研究与应用[J].自然灾害学报,2010,19(3):105-110.
[7] 胡俊锋,范春波,杨月巧.基于抽样统计方法的洪涝灾害损失评估[J].自然灾害学报,2010,19(6):27-30.
[8] 梁留科.农业灾情与抗灾能力的定量指标探讨[J].灾害学,1992,7(1):7-11.
[9] 蒲 淳.关于我国粮食生产的易损性评价[J].自然灾害学报,1998,7(4):30-34.
[10] 叶正伟.自然灾害对农业经济影响的态势分析及对策研究——以苏浙皖旱涝灾害为例[J].安徽农业科学,2006,34(4):772-774,803.
[11] 李柏年.洪涝灾害评价的威布尔模型[J].自然灾害学报,2005, 14(6):32-36.
[12] 黄大鹏,刘 闯,彭顺风.洪灾风险评价与区划研究进展[J].地理科学进展,2007,26(4):11-22.
[13] 许 冲,徐锡伟.基于不同核函数的2010年玉树地震滑坡空间预测模型研究[J].地球物理学报,2012,55(9):2994-3005.
[14] 张新厂,娄伟平.基于主成分支持向量机的台风灾害房屋倒塌间数评估[J].安徽农业科学,2010(12):6339-6341.
[15] 牛瑞卿,彭 令,叶润青,等.基于粗糙集的支持向量机滑坡易发性评价[J].吉林大学学报(地球科学版),2012,42(2):430-439.
[16] VAPNIK V. The Nature of Statistical Learning Theory[M]. Germany:Springer-Verlag,2000.
[17] 吴雪莲,孙丙宇,李文波,等.基于粗糙集和CBR的救灾口粮需求预测[J].计算机工程,2012,38(9):158-161.endprint