基于遥感和随机森林的香榧林空间分布提取
2018-05-14嵇佳怡俞徐苗俞春晖章宇超李登秋
嵇佳怡 俞徐苗 俞春晖 章宇超 李登秋
摘 要 准确获取香榧林空间分布是进行合理经营管理的重要前提。以浙江香榧林主产区为研究对象,利用Landsat OLI遥感数据及地形数据,采用随机森林模型提取了香榧林的空间分布,研究结果表明本文采用的方法总体精度为78%,明确了香榧林在各乡镇的分布,其中面积最大的为虎鹿镇,种植比例最高的为雅璜镇。
关键词 香榧林;Landsat;遥感影像;随机森林模型;空间分布
中图分类号:S717.1 文献标志码:A DOI:10.19415/j.cnki.1673-890x.2018.34.027
近年来,随着科学技术的进步和成功经验的积累,加上香榧极高的栽植效益、繁育困难问题的突破,以及提高造林成活率技术的发展,浙江及周边省份掀起了发展香榧的热潮。然而人们对香榧的生长适应性认识仍有限并且缺乏定量化研究,由于规划不合理、林分结构单一、管理不到位等问题,导致引种栽培的香榧产量低、品质差,影响周边生态环境等,使得经济效益和社会效益下降。准确提取香榧林种植的空间分布,研究其分布规律和生长情况,对于科学评价香榧林生态环境及合理经营管理具有重要意义。
随着遥感技术的发展,利用遥感数据获取地表信息成为区域尺度森林监测的重要手段。遥感影像具备丰富的空间信息,清楚地反映地物类型差异,并且具有几何结构、纹理结构清晰的特点,已经广泛应用于经济建设和国防等多种领域,尤其在农业、森林、城市规划方面作用显著。从20世纪70年代出现民用资源卫星后,农业成为遥感技术最先投入应用和收益显著的领域。随着高空间、高光谱和高时间分辨率遥感数据的出现,农业遥感技术在农作物种类细分、田间精细农业信息获取等关键技术方面取得了突破,农业生产向集约化方向转变[1]。虽然目前采用遥感数据对地表各类信息进行了大量研究,但针对香榧林的提取研究还较少。
本文拟利用2016年的Landsat OLI影像数据和地形数据,并结合高分辨率遥感数据和野外观测数据,利用随机森林模型进行土地利用类型分类,对结果进行精度验证和评价,进而获得研究区主要土地利用类型的空间分布,并重点分析香榧林空间分布特征。
1 数据与方法
1.1 研究区状况
以浙江省诸暨市东南部及周边乡镇为主要研究区。诸暨市为全国香榧的主产地,利用和栽培香榧已有1 300多年历史,地处浙中内陆,属亚热带季风气候区,年平均气温16.3 ℃,年平均降水量1 462 mm,年平均蒸发量882.1 mm,年均日照时数1 887.6 h。其主要森林植被类型有暖性针叶林、常绿阔叶林、落叶阔叶林、常绿落叶阔叶混交林、针阔混交林、竹林、经济林、灌木林等。诸暨市拥有香榧种植面积
6 667 hm2,盛产2 667 hm2,香榧干果年产量750 t,产值达2.85亿元,有百年以上香榧树4.1万株,由于种植香榧经济效益显著,带动了周边乡镇香榧大量发展。在2016年之前,谷来镇、竹溪镇、王院镇、石璜镇、雅璜镇、通源镇等香榧主要产地,人均香榧年已收入达到1万元。
1.2 数据
通过USGS下载2016年9月20日覆盖研究区的Landsat OLI数据,对Landsat 遥感影像数据进行预处理,主要包括几何校正、大气校正、研究区裁剪等,得到研究区反射率影像图。根据研究区土地利用情况,将研究区土地利用类型分为建设用地、水体、农田、香榧林、裸地、灌木、阔叶林、针叶林、竹林共9种类型,通过外业调查,并结合Google Earth影像获取了512个样点数据(各类型样本数见表1),用于随机森林分类建模的训练样本和验证样本。
1.3 方法
1.3.1 数据处理
1)NDVI(归一化植被指数)
NDVI也称为生物量指标变化,能反映出植物冠层的背景影响,和植物的蒸腾作用、太阳光的截取、光合作用以及地表净初级生产力等密切相关。
计算公式:NDVI=(NIR-R)/(NIR+R)
式中,NIR为近红外波段反射值,R为红波段处的反射率值。基于R语言,利用相应的算法公式计算研究区域的植被指数。
2)利用ASTER DEM数据获得研究区30 m空间分辨率影像,并计算高程、坡度、坡向,结合NDVI数据用于随机森林建模自变量。
1.3.2 利用随机森林模型进行分类
随机森林是一种数据挖掘模型,常用于分类预测,其中包含了多个树形分类器,预测结果由多个分类器投票得出[2]。随机森林建模与分类在R中进行。其主要原理是通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
具体实现过程如下:
1)原始訓练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据;
2)设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量,然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;
3)每棵树最大限度地生长,不做任何修剪;
4)将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
1.3.3 验证
通过计算混淆矩阵来对香榧林覆盖分类结果进行精度评价。总体分类精度和Kappa系数可以从误差矩阵中计算出来,并用来对所选分类方法的整体效果进行评估;生产者精度和用户精度可被用来评价每种地类的分类效果[3]。
2 结果与分析
2.1 分类结果的精度验证
分类结果的精度验证表明,基于随机森林分类模型的总体精度为78%,其中香榧林的用户精度为92%,生产者精度为88%,达到较好的分类效果(见表1)。但其中对于阔叶林和针叶林的分类精度较低,阔叶林用户精度为64%,生产者精度为48%,针叶林用户精度为72%,生产者精度为58%。分析原因,香榧林在遥感影像上呈现明显的簇团形状,而针叶林和阔叶林在影像上较为相似,且往往存在针阔混交,区分难度较大,导致精度较低。对数据进行Kappa系数的计算,得到Kappa为75%,说明总体分类结果一致性较好。
2.2 香榧林空间分布特征分析
从表2可见,2016年研究区香榧总种植面积为251.31 km2。其中:虎鹿镇香榧种植总面积最大,为36.34 km2,占乡镇土地总面积的29.36%;雅璜乡种植香榧密度最大,香榧面积占乡镇总面积的42.60%,竹溪乡次之,香榧面积占乡镇总面积的35.73%;陈宅镇香榧种植总面积最小,为2.99 km2,并且种植密度最低。
结合香榧的生长习性与当地的实际情况分析分布原因:
1)香榧为亚热带比较耐寒的树种,喜温湿润、弱光凉爽的气候环境下,朝夕多雾的溪流两旁和直射光较少而散射光较多的山地是它最佳栖息地,适宜在长江中下游以南地区。诸暨市属亚热带季风气候区,四季分明,雨水较多,光照充足,年温差大于同纬度邻县,小气候差距显著,属于典型的丘陵山地气候特征,十分适宜香榧的生长。同时,在研究区域具有会稽山脉,其主峰东白山在诸暨、嵊县、东阳三县交界处,属虎鹿镇境内,因此虎鹿镇优越的地理条件使得其香榧种植面积最大。
2)近年来,随着科学技术的进步和成功经验的积累,繁育困难问题被突破,以及提高造林成活率技术的发展,为香榧林种植提供了技术保障,降低了种植培育难度,能够支持大面积种植和管理香榧,并保证一定的收益。
3)政府这几年的支持力度也是香榧林面积快速增长的主要原因。研究区作为浙江种植香榧的主要地区,其政府持续扶持推进香榧产业发展,做实产业规模;做优产业结构,实施支持发展产品精深加工和休闲旅游产业,优化结构、提高效益;做深产业开发,加大香榧产品开发,拓展香榧延伸产品,深入挖掘香榧文化。
3 结论
通过遥感数据结合随机森林模型,提取了浙江香榧主产区土地利用类型空间分布图,并对香榧林空间分布特征进行了分析,研究发现本文采用的方法能够较好地提取香榧林的分布,提取结果表明香榧林分布相对集中,主要分布在诸暨、东阳、绍兴三市的交界处,且香榧对生长环境要求较高,集中于稽东镇、谷来镇、璜山镇、巍山镇等地区。
參考文献:
[1] 赵春江.农业遥感研究与应用进展[J].农业机械学报,2014,45(12):277-293.
[2] 赵北康.基于R语言randomforest包的随机森林建模研究[J].计算机光盘软件与应用,2015(2):152-153.
[3] 王亚杰.基于多源数据的香榧林分布信息提取及动态变化监测研究[D].杭州:浙江农林大学,2017.