基于随机森林模型的太湖水生植被遥感信息提取*
2016-09-01李旭文牛志春李继影
侍 昊,李旭文,牛志春,李继影,李 杨,李 宁
(1:江苏省环境监测中心,南京 210036)(2:苏州市环境监测中心站,苏州 215004)(3:南京师范大学虚拟地理环境教育部重点实验室,南京 210023)(4:南京大学生命科学学院,南京 210046)
基于随机森林模型的太湖水生植被遥感信息提取*
侍昊1,李旭文1,牛志春1,李继影2,李杨3,李宁4**
(1:江苏省环境监测中心,南京 210036)(2:苏州市环境监测中心站,苏州 215004)(3:南京师范大学虚拟地理环境教育部重点实验室,南京 210023)(4:南京大学生命科学学院,南京 210046)
水生植被作为太湖湿地的重要组分,其数量和范围变化影响着湖泊生态系统的平衡,故利用遥感技术对水生植被的空间分布开展研究有助于太湖湿地生态系统的保护. 以Landsat 8多光谱遥感影像为主要数据源,利用光谱指数和图像变换方法构建多个特征变量,结合随机森林(RF)模型,提取太湖水生植被的空间分布. 结果表明:(1)通过对比分析训练样本特征值的平均值、标准差和变异系数,NDVI、NDWIF、SR等指数更易于区分开敞水域和沉水植被、浮叶植被和挺水植被;(2)当设置1000棵分类树和4个分割节点的随机变量时,RF分类模型的袋外误分率小于6%,误分主要受SR、MNDWI和NDVI等特征变量影响;(3)通过验证分析,基于RF模型获得的2014年7月太湖水生植被覆盖面积约为306.0 km2,分类精度为88.56%(Kappa系数为0.88),主要分布在湖体的东部和南部,以沉水和浮叶植被为主,两者占水生植被覆盖总面积的84.9%.
水生植被;随机森林模型;特征变量;Landsat 8;太湖
水生植被具有净化水质、保护环境等生态功能,是湖泊生态系统演化和平衡的重要调控者,对陆域水体的物理和化学环境具有显著改善作用[1-2]. 但近几十年来,随着我国部分湖泊藻型富营养化严重,造成水质急剧恶化,进而导致水生高等植物的消失. 同时由于湖泊渔业结构的调整,使得浅水草型湖泊植物群落结构发生改变,沼生植物比例不断增加,湖泊沼泽化现象也有所加剧[3-5]. 为此,为了准确及时了解和分析水生植被的空间分布和变化趋势,保护和恢复水生植被资源和生态环境,国内外研究人员应用遥感技术开展了一系列水生植被的研究工作.
与陆地植被遥感相比,水生植被遥感信息提取易受到多种因素影响,如水体透明度对沉水植被信息提取的干扰,蓝藻水华对浮叶植被提取精度的影响[6-8]. 因此,除了利用影像的原始波段外,研究人员还常借助光谱指数和图像变换等方法建构多个变量增强水生植被的光谱特征,然后将多组特征变量结合决策树模型进行水生植被遥感信息提取[6,9-14]. 目前决策树方法在水生植被信息提取中,拥有训练复杂度较低、预测过程快速、模型易于表达等优点. 但随着类别和特征变量个数的增加,造成树形过于复杂,分类错误数量不断上升,后期需要对树进行必要的修剪,避免过度拟合现象发生;同时在修剪的过程中,也常会丢失一些看似无用但实际却包含重要信息的变量,限制了决策树分类精度的提高[12]. 针对这些问题,有学者在决策树算法的基础上,提出了随机森林(Random Forest,RF)算法,该算法不仅具有数据处理量大、运行速度较快、抗噪音能力强和抑制过度拟合等优势,同时也不需要顾虑多元共线性问题,可以在不做变量选择的情况下,对特征变量重要性进行估计,有效地提高了模型的可靠性和可解释性[15-17]. 尽管与决策树方法相比,RF具有众多优势,但将该方法应用到水生植被遥感信息提取上的研究鲜有报道.
因此,本文以太湖地区Landsat 8多光谱遥感影像为主要数据源,利用光谱指数和图像变换方法构建多组特征变量,分析其对不同类型水生植被的识别能力;在此基础上,以多组特征变量为输入量结合RF模型提取水生植被的空间分布,并对模型的分类精度和特征变量的重要性进行分析和评价,以期为大型湖泊水生植被遥感监测与信息提取提供有效的方法补充.
1 研究区概况
太湖(30°55′40″~31°32′58″N,119°52′32″~120°36′10″E)是我国第三大淡水湖泊,位于长江三角洲南翼坦荡的太湖平原上. 按平均水位3 m(吴淞基面)计算,其湖泊面积为2427.8km2,除去湖中51个岛屿面积(89.7km2),实际水域面积为2338 km2,太湖南北长68.5km,东西平均宽34 km,最宽处56 km,湖泊平均水深1.9m,是一个典型的浅水湖泊. 随着太湖流域经济快速发展和湖泊资源高强度利用,太湖水生植物从1960s至今出现了明显的衰退,除东太湖及局部区域有少量分布外,湖区内水生高等植物几乎绝迹,“水下森林”现象逐步消失[18]. 近年来整个湖区水生植物的多样性也出现了明显的空间差异,东太湖表现出9个植物类型,而西太湖面积虽为东太湖的16.8倍,但仅有4个植物类型[3,19].
1.1野外调查
太湖水生植被野外调查在2013和2014年的5-9月份展开,调查区域遍及整个湖区,调查内容包括植被类型、经纬度信息、植被覆盖度、群丛组成和优势种等各类专题信息. 根据实际调查情况和相关文献资料[3,7,9,19],湖区共有116个调查点(其中2013年79个,2014年37个),东部和南部沿岸等水生植被较为密集区域设置的调查点相对较多(图1). 调查点要求植被覆盖面积一般大于60 m×60 m(利用GPS结合遥感影像进行量测),同时植被覆盖度大于50%(随机选择3~5处区域,在其上方1.2m处拍摄照片,利用CAN_EYE软件提取覆盖度参数).
图1 太湖水生植被调查点的空间分布Fig.1 Distribution of field survey points of aquatic vegetation in Lake Taihu
1.2遥感数据
遥感数据以Landsat 8的多光谱影像为主,OLI陆地成像仪包括9个波段,不仅拥有ETM+传感器所有的波段,还有两个新增的波段:主要应用于海岸带观测的深蓝波段(band 1:0.433~0.453 μm)和可用于云检测的卷云波段(band 9:1.360~1.390 μm)[20]. 本文共选取6幅太湖地区的Landsat 8遥感影像(覆盖区域云量小于5%)开展水生植被遥感信息提取工作,成像时间分别为2013年4月14日、2013年7月19日、2013年11月8日、2013年12月10日、2014年3月16日和2014年7月22日,数据下载来自美国地质勘探局(United States Geological Survey,http://glovis.usgs.gov/).
2 研究方法
2.1光谱特征变量选择
植被一般对近红外和红外波段较为敏感,而蓝、绿和红波段在提取水体上具有较好的效果,故多数研究主要基于上述波段构建提取水生植被的特征变量,如归一化植被指数、归一化水体指数、均值指数和比值指数等[6-9]. 也有研究表明主成分变换和缨帽变换能够增强水生植被光谱特征信息[10-11],其中主成分变换可以分离主要信息和噪音,减小数据冗余度及波段之间的相关性;缨帽变换中前3个分量可以表征土壤光谱、植被光谱和地物湿度信息,利于植被和水体信息的分离. 因此,本文基于Landsat 8影像,构建上述常采用的特征变量(表1),利用均值(Mean)、标准差(SD)和变异系数(CV=SD/Mean×100%)对各变量识别水生植被能力进行对比分析.
2.2随机森林模型构建
RF模型是一个以分类回归树(Classification and Regression Tree,CART)作为元分类器的组合分类器算法,它由多个决策树(h(x,θk),k=1,2,…,l)组成,其中θk是相互独立且同分布的随机向量,每个决策树对于输入给出独立的分类结果,最终根据所有决策树的分类结果通过多数投票决定最终输出结果(图2)[15-17]. 在运算过程中,RF主要通过Bootstrap自助抽样法生成各不相同的训练集来构建各个元分类器;当利用抽样方法生成子集时,原始样本中近37%的袋外数据(Out of Bag,OOB)不会出现在新的子集中,这些数据被用于估计RF的泛化误差(泛化误差即分类器对训练集之外数据的误分率),以此来表征模型的稳定性和准确性. RF也可以根据OOB数据进行特征变量重要性的估计,如利用所有树计算出某一特征变量的重要性度量值取平均,获得这一特征变量的原始重要性度量值,采用同样的方法,可以得到其它特征变量的原始重要性度量值[21,22]. 因此,本文以NDVI等11个特征变量为输入量,结合RF模型进行水生植被信息提取,并对模型精度和各变量的重要性进行评价.
表1 遥感影像特征变量
图2 随机森林模型结构示意图Fig.2 The structure scheme of Random Forest Model
2.3影像训练样本的建立
根据水生植被在遥感影像上的光谱特征,一般将水生植被划分为开敞水域(无明显水生植被聚集区域)、挺水植被、浮水植被和沉水植被4种类型[2,10],但实际调查点位中常出现不同类型植被间并无明显的边界、多种类型植被共生现象,如浮叶-沉水植被群落(以浮叶植被为主或以沉水植被为主),同时一般水生植被野外调查时间跨度较长,植物生长状态及分布区域也会受到季节等各种因素影响而发生变化,给水生植被信息提取带来一定难度[7,9]. 为此,本文首先利用野外调查数据结合相近时间的6景Landsat 8影像,以调查中区域最大覆盖面积的植被类型为主,从影像色调、颜色、大小、形状等要素上建立水生植被的遥感影像判别标志(如影像上某一区域所对应的相近时间实地调查中的浮叶植被覆盖面积最大,则该解译标志被判别为浮叶植被);其次参考相关研究成果[7,9,19],并结合6景影像发现,太湖水生植被在6月份之前生长较为缓慢,一般8-9月份植被覆盖范围最大,并且保持相对稳定的状态,故选择与该时间段最为相近的2014年7月22日影像数据;最后利用建立的水生植被解译标志,在待分类影像上建立开敞水域、挺水植被、浮水植被和沉水植被4类训练样本,并进行水生植被信息提取. 同时为了保证样本数据的可靠性,根据实际调查中水生植被分布,并利用NDVI值的平均值+三倍标准差方法[23],对训练样本中离异值进行剔除,最终获得每类的训练样本不小于2000个像元(样本中50%像元用于构建水生植被分类模型,50%像元用于遥感影像分类后精度评价).
遥感数据的预处理工作主要基于ENVI(The Environment for Visualizing Images)平台开展:首先利用FLAASH(Fast Line-of-sight Atmospheric Analysis of Spectral Hypercubes)模块对影像进行大气校正;然后利用Landsat系列卫星影像数据的GLS2005控制点库[24],在每期影像上均匀选取20~25个参考点进行几何精校正,要求校正后影像的均方根误差小于1个像元;最后将太湖矢量图层(WGS_1984_UTM投影坐标系)与影像叠加裁剪出太湖水体区域.
3 结果与讨论
3.1水生植被光谱特征变量比较
利用光谱指数和图像变换方法获得的11个光谱特征值的空间分布(图3)表明,NDVI、NDWIF、SR、PC1、TC(G)和TC(W)等能够较好地识别开敞水域和水生植被,但对不同类型的水生植被分离能力差异较大. 通过比较4种类型训练样本特征值的统计量(表2)发现,在归一化指数中,NDVI和NDWIF对不同类型的分离效果较好,NDVI均值和标准差分别在-0.27~0.69和0.07~0.09之间,NDWIF均值和标准差分别在-0.56~0.39和0.06~0.11之间;而NDWI和MNDWI分离透明度较低的水域和沉水植被的能力较差,两种类型的标准差变化范围明显较大. 在均值和比值指数中,SR在浮叶植被、挺水植被和沉水植被、开敞水域上具有较好的辨识能力;而AVE234、SRWC能够较好地分离开敞水域和沉水植被,但是很难区分浮叶植被和挺水植被,浮叶植被和挺水植被的AVE234均值分别为895.42和843.09,SRWC均值分别为1.12和1.14.
从图像变换方法构建的特征变量上看,利用多光谱波段(除了卷云波段和全色波段)进行主成分变换获得第1分量的特征值贡献率达到了80%以上,对特征信息具有较好的解释能力,训练样本的PC1均值在-2632.03~-254.28之间,但识别浮叶植被和挺水植被能力较差,其标准差波动较大. 而利用缨帽变换获得的TC(B)、TC(G)和TC(W)能够较好地区分开敞水域-沉水植被和浮叶植被-挺水植被,尤其是TC(W)对这两大类有较好的区分效果,但进一步细分能力较弱,如TC(B)很难分离浮叶植被和挺水植被,以及TC(G)和TC(W)很难区分开敞水域和沉水植被.
图3 基于光谱指数和影像变换方法的计算结果Fig.3 The calculation results based on spectral index and image transformation
表2 水生植被特征变量统计参数
与利用Landsat TM/ETM+影像构建的特征变量相比[6-11],基于Landsat 8遥感数据建立的光谱指数具有较好的延续性,如NDVI、NDWIF、SR对不同类型的水生植被仍具有较强的敏感性. 但在传感器新增深蓝波段和卷云波段,并且对部分波段的波长范围进行了调整的情况下[20,25],主成分变换和缨帽变换方法并没有表现出原有的优势,4种类型样本特征值的变异系数波动性较大,明显高于光谱指数法. 因此,目前所采用主成分变换和缨帽变换等增强算法可能需要Landsat 8影像的特征进一步改进和优化.
3.2水生植被信息提取模型评价
图4 OOB数据误分率变化(1~1000棵)Fig.4 The variation of OOB errors with the trees from 1 to 1000
与先采用线性判别分析等方法[30]筛选重要特征变量,然后结合决策树构建分类模型的流程不同,RF可以把变量的重要性扩展到所有的变量中,通过利用OOB误分率对特征变量的重要性变化进行判别,避免剔除重要的变量[31]. 从特征变量重要性排序(图5)来看,SR、MNDWI和NDVI的重要性值超过了6,对模型精度具有较高的贡献率,其中MNDWI对开敞水域和沉水植被的分离效果较差,但在区分浮叶植被和挺水植被上仍具有一定的优势;而缨帽变换的TC(G)、TC(B)和主成分变换的PC1对模型的重要性较低,其中PC1的重要值仅为1.38. 与单一采用图像变换,以及图像变换结合光谱指数的方法进行水生植被信息提取的研究相比[10-12],在保持全体特征变量的情况下,图像变换方法并没有表现出信息增强的优势,尤其是主成分变换和缨帽变换(TC(G)、TC(B))对模型精度的贡献明显低于光谱指数变量. 但需要注意的是,RF重要性估计有助于对模型中各特征变量进一步了解分析,有效提高模型运算的效率和精度,但RF也是一个黑箱模型,无法获得分割节点随机变量的名称及分割阈值大小.
图5 RF模型中变量的重要性排序Fig.5 The rank of variable in order of importance in Random Forest Model
3.3水生植被空间分布格局分析
利用RF模型提取2014年7月太湖开敞水域、沉水植被、浮叶植被和挺水植被的空间概率分布(概率分布图上的值越高,表明被判别为该类型的可能性越高). 从概率分布(图6)看,太湖西部和湖心区几乎无明显的水生植被集聚现象(图6a):环西山岛水域、七都水域和东太湖浮叶植被的分布面积较大(图6b);沉水植被主要分布在贡湖湾、胥口湾和西南区一带(图6c);挺水植被以东太湖及沿岸两侧的浅水区域分布居多(图6d).
综合各类型概率分布获得2014年7月太湖水生植被的空间分布,并利用检验样本对分类结果进行精度验证(表3),结果表明:水生植被总体分类精度为88.56%(Kappa系数为0.88),沉水植被的用户精度为84%,在沉水植被和水域之间的误分较为明显,浮叶植被的制图精度为85%,在沿岸交错带的浮叶植被常错判成挺水植被. 从分类结果统计(图6、7)上看,提取的水生植被覆盖面积约306.0 km2,其中沉水植被、浮叶植被和挺水植被面积分别为132.4、127.5和46.1km2,沉水植被和浮叶植被占水生植被总面积的84.9%;东部和南部湖区的水生植被分布面积相对较大,主要分布在贡湖湾、广福湾、胥口湾、环西山岛水域、七都水域、西南区、东太湖等区域;不同类型的水生植被存在一定的共生现象,以浮叶-沉水植被居多. 与近年来太湖水生植被空间信息提取研究成果相比,本文提取的水生植被面积总体略有下降,从2007年的364.1km2[9]减少到2014年的306.0 km2;与Zhao等[9]2010年9月获取的面积相近,但由于太湖水生植被生长不仅受到温度、光照和生物等因素影响,而且也受到围网养殖、水体富营养化、水利工程和生态修复等人类活动共同影响[3-5,19],沉水植被的空间分布上存在一定空间差异,主要表现为环西山岛水域的沉水植被面积略有减少,而太湖南部的沉水植被面积略有扩大,并呈现出集聚状分布趋势. 这一空间分布特征也验证了野外调查的结果,2014年夏季太湖南部水域出现大面积沉水植被,以马来眼子菜(Potamogetonmalaianus)为主,物种结构较为单一;随着优势种生物量急剧增加,分布范围逐渐扩大,由东向西、由沿岸带向湖中心蔓延,影响了部分航道的运行,但目前对湖泊生态系统是否产生影响,还需要结合多年的调查资料进一步分析和讨论.
图6 2014年7月太湖水生植被的概率分布Fig.6 The probability of aquatic vegetation types in Lake Taihu in July of 2014
表3 基于RF分类精度评价*
*总体精度=88.56%,Kappa系数=0.88.
图7 2014年7月太湖水生植被的空间分布Fig.7 The distribution of aquatic vegetation types in Lake Taihu in July of 2014
4 结论
本文以Landsat 8多光谱遥感影像为主要数据源,将光谱指数和图像变换方法构建的多特征变量作为输入量,利用RF模型提取了太湖水生植被空间分布. 结果表明该方法较好地提取了2014年7月太湖水生植被空间信息,同时清晰地判别了多特征变量的重要性. 在计算过程中,该方法实现简单,具有数据处理量大、运行速度较快、抗噪音能力强和抑制过度拟合等优点,有效地提高了分类结果的可靠性和可解释性,可为水生植被遥感监测体系提供方法补充. 但从目前研究中也发现,在利用Landsat 8影像新特征改进探测水生植被信息的特征变量、优化RF模型中分类树和分割节点随机变量个数的设置以及利用长时间序列遥感数据对水生植被的空间分布及变化趋势开展深入分析等方面还需要进一步研究探讨.
[1]杨清心. 东太湖水生植被的生态功能及调节机制. 湖泊科学, 1998, 10(1): 67-72. DOI 10.18307/1998.0111.
[2]李俊生, 吴迪, 吴远峰等. 基于实测光谱数据的太湖水华和水生高等植物识别. 湖泊科学, 2009, 21(2): 215-222. DOI 10.18307/2009.0209.
[3]谷孝鸿, 张圣照, 白秀玲等. 东太湖水生植物群落结构的演变及其沼泽化. 生态学报, 2008, 25(7): 1541-1548.
[4]Cai YJ, Gong ZJ, Qin BQ. Benthic macroinvertebrate community structure in Lake Taihu, China: Effects of trophic status, wind-induced disturbance and habitat complexity.JournalofGreatLakesResearch, 2012, 38: 39-48.
[5]Dong BL, Qin BQ, Gao Getal. Submerged macrophyte communities and the controlling factors in large,shallow Lake Taihu (China): Sediment distribution and water depth.JournalofGreatLakesResearch, 2014,40:646-655.
[6]张寿选, 段洪涛, 谷孝鸿. 基于水体透明度反演的太湖水生植被遥感信息提取. 湖泊科学, 2008, 20(2): 184-190. DOI 10.18307/2008.0208.
[7]Ma RH, Duan HT, Gu XHetal. Detecting aquatic vegetation changes in Taihu Lake, China using multi-temporal satellite imagery.Sensors, 2008, 8: 3988-4005.
[8]Oyama Y, Matsushita B, Fukushima T. Distinguishing surface cyanobacterial blooms and aquatic macrophytes using Landsat/TM and ETM+ shortwave infrared bands.RemoteSensingofEnvironment, 2015, 157: 35-47.
[9]Zhao DH, Jiang H, Yang TWetal. Remote sensing of aquatic vegetation distribution in Taihu Lake using an improved classification tree with modified thresholds.JournalofEnvironmentalManagement, 2012, 95(1): 98-107.
[10]林川, 宫兆宁, 赵文吉. 基于中分辨率TM数据的湿地水生植被提取. 生态学报, 2010, 30(23): 6460-6469.
[11]贾永红, 李芳芳. 一种新的湿地信息遥感提取方法研究. 华中师范大学学报: 自然科学版, 2007, 41(4): 641-644.
[12]那晓东, 张树清, 李晓峰等. 基于QUEST决策树兼容多源数据的淡水沼泽湿地信息提取. 生态学杂志, 2009, 28(2): 357-365.
[13]韦玮, 崔丽娟, 李胜男等. 基于偏差平均值的乌梁素海湿地变化监测研究. 林业科学研究, 2012, 25(6): 719-725.
[14]徐德兰, 张东东, 张翠英. 3个时期骆马湖大型水生植物的分布及变化. 湿地科学, 2013, 11(3): 320-325.
[15]Breiman L. Bagging predictors.MachineLearning, 1996, 24(2): 123-140.
[16]Breiman L. Random forests.MachineLearning, 2001, 45(1): 5-32.
[17]李欣海. 随机森林模型在分类与回归分析中的应用. 应用昆虫学报, 2013, 50(4): 1190-1197.
[18]雷泽湘. 太湖大型水生植被及其环境效应研究[学位论文]. 广州: 暨南大学, 2006.
[19]刘伟龙, 胡维平, 陈永根等. 西太湖水生植物时空变化. 生态学报, 2007, 27(1): 159-170.
[20]徐涵秋, 唐菲. 新一代Landsat系列卫星:Landsat 8遥感影像新增特征及其生态环境意义. 生态学报, 2013, 33(11): 3249-3257.
[21]雷震. 随机森林及其在遥感影像处理中应用研究 [学位论文]. 上海: 上海交通大学, 2012.
[22]张雷, 王琳琳, 张旭东等. 随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例. 生态学报,2014, 34(3): 650-659.
[23]Timm BC, McGarigal K. Fine-scale remotely-sensed cover mapping of coastal dune and salt marsh ecosystems at Cape Cod National Seashore using Random Forests.RemoteSensingofEnvironment, 2012, 127: 106-117.
[24]张浩, 葛小青, 冯旭祥. Landsat 8影像像元地理坐标计算. 遥感信息, 2013, 28(5): 52-58.
[25]初庆伟, 张洪群, 吴业炜等. Landsat-8卫星数据应用探讨. 遥感信息, 2013, 28(4): 110-114.
[26]Rodriguez-Galiano VF, Ghimire B, Rogan Jetal. An assessment of the effectiveness of a random forest classifier for land-cover classification.ISPRSJournalofPhotogrammetryandRemoteSensing, 2011, 67: 93-104.
[27]Rodriguez-Galiano VF, Chica-Olmo M, Abarca-Hernandez Fetal. Random Forest classification of Mediterranean land cover using multi-seasonal imagery and multi-seasonal texture.RemoteSensingofEnvironment, 2012, 121: 93-107.
[28]Beijma SV, Comber A, Lamb A. Random forest classification of salt marsh vegetation habitats using quad-polarimetric airborne SAR, elevation and optical RS data.RemoteSensingofEnvironment, 2014, 149: 118-129.
[29]Magdon P, Fischer C, Fuchs Hetal. Translating criteria of international forest definitions into remote sensing image analysis.RemoteSensingofEnvironment, 2014, 149: 252-262.
[30]Pu RL, Landry S. A comparative analysis of high spatial resolution IKONOS and World View-2 imagery for mapping urban tree species.RemoteSensingofEnvironment, 2012, 124: 516-533.
[31]刘海娟, 张婷, 侍昊等. 基于RF模型的高分辨率遥感影像分类评价. 南京林业大学学报: 自然科学版, 2015, 39(1): 99-103.
Remote sensing information extraction of aquatic vegetation in Lake Taihu based on Random Forest Model
SHI Hao1, LI Xuwen1, NIU Zhichun1, LI Jiying2, LI Yang3& LI Ning4**
(1:JiangsuEnvironmentalMonitoringCenter,Nanjing210036,P.R.China)(2:SuzhouEnvironmentalMonitoringCenter,Suzhou215004,P.R.China)(3:KeyLaboratoryofVGE,MinistryofEducation,NanjingNormalUniversity,Nanjing210023,P.R.China)(4:SchoolofLifeScience,NanjingUniversity,Nanjing210046,P.R.China)
Aquatic vegetation is a vital component of the ecosystem of Lake Taihu. Assessment of its distribution and abundance by using remote sensing techniques is important for the protection of Lake Taihu as the information serves as an excellent indicator of aquatic environmental quality. In this research, to extract spatial distribution of the different aquatic vegetation types in Lake Taihu, we took Landsat 8 multi-spectral images as the main data source and applied them with Random Forest Model on the basis of multiple characteristic variables, which were constructed by the method of spectral index and image transformation. The results show: (a) By analyzing and comparing statistics mean, standard deviation and variable coefficient obtained from different training samples, we foundNDVI,NDWIFandSRwere better characteristic variables for distinguishing open water and floating-leaf vegetation, submerged vegetation and emergent vegetation than others. (b) Under the condition of 1000 classification trees with 4 random variables in split node, the out-of-bag error of Random Forest Model was below 6%. The error of model was mainly affected bySR,MNDVIandNDVI. (c) According to validation analysis, the overall accuracy classification of image based on Random Forest Model was about 88.56% with a high Kappa index of 0.88. The total area of aquatic vegetation was about 306.0 km2in July of 2014, in which floating-leaf vegetation and emergent vegetation accounted for 84.9% and were mainly distributed in the eastern and southern parts of Lake Taihu.
Aquatic vegetation; Random Forest Model; characteristic variables; Landsat 8; Lake Taihu
J.LakeSci.(湖泊科学), 2016, 28(3): 635-644
10.18307/2016.0320
©2016 byJournalofLakeSciences
*高分辨率对地观测系统重大专项(05-Y30B02-9001-13/15-WX2)、国家水体污染控制与治理科技重大专项(2012ZX07506003)、江苏省环境监测科研基金项目(1315、1416)、环保公益性行业科研专项(201309008)和江苏省普通高校研究生科研创新计划资助项目(KYLX15_0745)联合资助.2015-05-24收稿;2015-09-09收修改稿. 侍昊(1986~),男,博士;E-mail:shihao_752@163.com.
**通信作者;E-mail: lining196@126.com.