基于无人机高光谱影像的互花米草植被覆盖度反演

2023-11-14何建男

赤峰学院学报·自然科学版 2023年10期

方铧，郑浩，李想，何建男

（1.华北理工大学矿业工程学院，河北唐山 063210；2.河北省地质矿产勘查开发局第七地质大队，河北廊坊 065201）

引言

植被覆盖度通常定义为单位面积内的植被垂直投影面积占统计面积的百分比[1]，是评价植物生理过程最常用的监测指标之一[2]，在水文、水土保持及土壤沙漠化方面具有重要意义[3]。受资金与野外地形等因素限制，传统野外实测植被覆盖度难以在较大空间尺度进行[4]。无人机遥感技术由于具有便捷及分辨率高等特点，适合无损及高精度的野外采样，大大减少了资金与时间的浪费，为提高植被覆盖度反演精度奠定数据基础[5]。

目前，遥感技术反演植被覆盖度的主要方法包括回归模型法与混合像元分解法等。回归模型法通过提取高光谱数据中的波段组合构建植被指数，并与植被覆盖度建立回归分析，从而反演植被覆盖度值[6]。回归模型常用NDVI、DVI 及RVI 等植被指数作为输入变量反演植被覆盖度。NDVI 能够准确反应植被覆盖信息与土壤水分，DVI 能够精确识别植被与水，RVI 对植被覆盖度较为敏感。大量研究表明，将植被指数结合回归模型法进行建模具有普适意义，是植被覆盖度反演的有效方法。混合像元分解法在假定情况下将混合像元分解成不同类别的组合，以各类别在混合像元中所占比例展示最终结果[7]。该方法不过多依赖野外实测数据，适用于大范围及各种植被类型的植被覆盖度反演。常用的混合像元分解模型包括像元二分模型、Carlson 模型、Baret 模型及SDVI 模型等。魏石磊等基于像元二分模型，采用置信度与克里金插值方法确定像元二分模型中NDVIveg和NDVIsoil的值，实现了植被覆盖度估算[3]。吴青云等基于像元二分模型、线性光谱混合模型进行植被覆盖度估算，结果表明像元二分模型较线性光谱模型能更好地适用于芜湖市繁昌县的植被覆盖度反演[8]。刘佳丽等通过对高寒草地生长季与非生长季植被盖度遥感进行反演，证实了像元二分模型的有效性[9]。温小乐等分别使用像元二分模型与Carlson 模型对海岛建设后的高植被覆盖区与低植被覆盖区进行植被覆盖度反演[10]。丁艳玲使用像元二分模型、Baret 模型等、Carlson 模型及SDVI 模型进行植被覆盖度反演[11]。大量研究均表明混合像元分解法反演植被覆盖度具有可靠性。在利用回归模型法对植被覆盖度进行反演方面，程俊毅等利用随机森林模型构建植被覆盖度的估算模型，结果表明随机森林模型在测试集上的R2为0.923，RMSE 为0.087，优于常用的像元二分模型[12]。柳絮等基于遥感数据和野外实测数据，估算了草本植物的植被覆盖度，证实了随机森林模型估算植被覆盖度的准确性。

为了比较不同植被覆盖度反演模型的普适性，韦钦桦分析了像元二分模型、Carlson 模型和Baret模型等六种模型的反演性能[13]。董显聪等人对比了像元二分模型、Carlson 模型和Baret 模型对于草原植被的植被覆盖度反演准确性[14]。以往研究多基于混合像元分解法之间的对比，缺少与回归模型法的比较研究。因此本文旨在基于无人机高光谱数据，利用混合像元分解法(像元二分模型、Carlson 模型、Baret 模型及SDVI 模型)与随机森林回归模型对滨海湿地互花米草植被覆盖度的反演精度进行比较。

1 材料与方法

1.1 研究区概况

研究区位于河北省黄骅市东部沿海地区(117°38′21″-117°38′33″-E，38°29′10″-38°29′14″-N)，属暖温带半湿润季风气候，年平均气温12.1℃，年平均降水627mm。该区域为淤积型泥滩，半日潮，盐碱化草甸沼泽土壤。研究区长约360m，宽约260m，海拔-5m 左右，由陆向海海拔逐渐降低。植被以互花米草为主，少量分布有芦苇和碱蓬。研究区内互花米草分布特征明显，具有较为明显的高度与低度植被覆盖度区域，适用于植被覆盖度反演研究。

1.2 数据获取与处理

1.2.1 无人机高光谱影像获取与处理

无人机高光谱影像通过大疆M300 Pro 无人机搭载Cubert 公司生产的ULTRIS X20 Plus 成像仪获取，光谱范围350～1002nm，包含164 个波段，光谱分辨率10nm，光谱采样间隔4nm。影像采集于2022 年8 月15 日，正值互花米草生长旺盛期，水热充足，植被覆盖度达到最大。无人机飞行任务在正午时间11 点至13 点之间，天气晴朗无风。无人机飞行前进行白板标定，飞行高度设置为80m，飞行速度为5m/s。正反方向重叠度设置为80%，空间分辨率为3cm。获取无人机高光谱影像后进行图像拼接和辐射校正，以提取每个波段的光谱反射率。

1.2.2 植被覆盖度验证数据提取

地表植被覆盖度的准确采集是一项耗时耗力的复杂任务，故在模型建立与地面验证过程中，通常使用无人机高分辨率影像提取植被覆盖度作为验证数据[5]。在遥感影像植被取样地布设时为避免间距过近产生同质性，在研究区随机创建渔网、创建要素类，获取到距离间隔相等的植被取样地121个(图2)。利用面向对象分类方法，对高光谱影像进行多尺度分割，在分割基础上基于规则分类构建NDVI、DVI 及RVI 三种植被指数并建立规则集，分别提取互花米草图斑与土壤背景图斑(图3)。最后通过单位面积内的植被土壤面积计算研究区内的植被覆盖度。将上述方法得到的植被覆盖度作为验证数据对四种混合像元分解模型的估测值进行验证。将人工目视解译分类结果与上述方法提取的分类结果进行混淆矩阵计算，得到总体分类精度(OA)，计算公式如式(2)所示。

式中：FVC 为植被覆盖度；Sveg为植被像元面积；Ssoil为土壤背景像元面积。

式中:Q 为植被取样地总数；Qij为矩阵中第i行第j 列上的频数；k 为类别数，仅有植被与土壤背景之分，k=2。

1.3 植被覆盖度反演模型

本研究选取的反演植被覆盖度的五种模型均需构建植被指数，其中像元二分模型、Carlson 模型及Baret 模型需构建NDVI，SDVI 模型需构建DVI，随机森林模型需构建NDVI、DVI 及RVI。因本文采用无人机高光谱影像反演植被覆盖度，以上方法均采用802nm 与670nm 处反射率构建植被指数[15]，并与植被覆盖度进行相关性分析判断植被指数可用性。

式中R802nm与R670nm分别为波长为802nm 与670nm 时的高光谱反射率值。

1.3.1 像元二分模型

像元二分模型[16,17]假设每个像元只由植被与裸地两种地物组成，定义fc是一个像元中植被所占面积百分比，则裸地所占面积百分比用(1-fc)表示。设植被的NDVI 为NDVIveg，裸地的NDVI 为NDVIsoil，则混合像元的NDVI 如式(3)所示：

根据公式(6)推到得到fc的计算公式(7)：

对于裸土表面NDVIsoil理论上应该无限接近于0，受土壤水分、颜色、粗糙度及类型等因素影响，NDVIsoil取值范围一般处于-0.1～0.2 之间[18]。因此，本研究根据NDVI 实际属性值的累计概率选取5%的最小值作为NDVIsoil，95%的最大值作为NDVIveg，最后确定NDVIsoil与NDVIveg的值分别为0.012 和0.847。

1.3.2 Baret 模型

Baret 模型的原理是建立植被覆盖度与植被垂直间隙率的关系。通常使用叶面积指数(LAI)的指数函数估算植被冠层垂直间隙率P0(0)：

当NDVI 对应的裸土与LAI 无限大时，得到式(9)：

结合式(8)与式(9)推导出垂直间隙率P0(0)，如式10 所示：

则植被覆盖度Baret 模型表达式如式(11)所示：

Kp为消光系数，取决于植被结构；KNDVI取决于植被冠层结构、太阳天顶角和观测角和植被叶片的光学特性；DVIS和NDVI∞分别为裸土和叶面积指数无限大时对应的植被指数值。已有研究显示NDVI 对应Kp/KNDVI=0.6175 时，该方法能较好地反演植被覆盖度[14]。则改进的Baret 模型计算公式如式(12)所示：

1.3.3 Carlson 模型

文献[18]对植被、裸地和大气之间辐射传输模型建立了NDVI、LAI 及植被覆盖度之间的关系，得到植被覆盖度与NDVI 的平方关系，如式(13)所示：

1.3.4 SDVI 模型

SDVI 模型[11]综合考虑植被，光照土壤和阴影土壤三种地物反射率，基于光照土壤的近红外波段和红波段的差值与阴影土壤的近红外波段减红波段的差值推导出植被覆盖度计算公式：

式(14)中N 和R 为像元的近红外波段反射率和红波段反射率，Nveg、Rveg和Nsoil、Rsoil分别为纯植被和纯裸地的近红外和红波段反射率。

1.3.5 随机森林模型

随机森林模型是一种利用多棵决策树对样本训练并预测的机器学习模型[19]，其主要原理是将多棵决策树组合起来，并对结果进行平均，随着决策树泛化误差的收敛，可以得到更好的预测结果[20]。随机森林模型选择NDVI、DVI 及RVI 作为模型输入变量，植被覆盖度数据以7:3 的比例划分为训练集与测试集，通过网格搜索法寻找最优参数，确定最优决策树个数为500，深度为3，每棵树使用的特征数为2。

1.4 精度评价方法

本研究采用决定系数(R2)和均方根误差(RMSE)验证模型的稳定性，相对分析误差(RPD)评估模型的预测能力。R2值越高，RMSE 值越低，预测精度越高。此外，RPD 值大于2.0 表示预测能力较强，RPD值在1.4～2.0 之间表示预测能力一般。RPD 值小于1.4，说明预测能力较差[21]。计算公式如下所示：

其中，yi表示植被覆盖度的实测值，表示植被覆盖度的预测值，表示植被覆盖度的平均验证值，n 表示样本数，i=1,2,…,n,k 为参数个数，SD 为验证值的标准差。

2 结果与分析

2.1 植被覆盖度提取精度

本研究采用总体精度作为评价提取黄骅滨海湿地植被覆盖度作为验证数据可靠性的评价指标。在Rstudio 软件中随机抽取研究区内40 个植被取样地进行精度验证。结果显示，研究区内40 个植被取样地平均总体精度值为93.2%，表明本研究提取的取样地的植被覆盖度可用于后续反演。

2.2 植被覆盖度与不同植被指数的相关性分析

基于Rstudio 软件，将植被覆盖度与三种植被指数进行Person 相关性分析(表1)。植被覆盖度与NDVI、DVI 及RVI 相关性在0.01 水平(双侧)上显著相关，说明NDVI 与DVI 可分别应用于混合像元分解模型法反演植被覆盖度。此外，三种植被指数均与植被覆盖度显著相关，可共同作为随机森林模型的输入变量反演植被覆盖度。

2.3 植被覆盖度反演结果

根据本研究选取的四种混合像元分解模型与随机森林模型法，使用无人机高光谱影像进行互花米草植被覆盖度反演研究，得到研究区植被覆盖度分布情况(图4)。由图4 可以得到，五种模型均能较好地区分植被与裸地，除SDVI 模型，其余四种模型反演的互花米草植被覆盖度空间分布趋势相似，均表现为高度植被覆盖度区域大面积连续集中在研究区东南与北部区域，而在土壤与互花米草交界处植被覆盖度相对较低。植被覆盖度的差异主要集中在研究区中部地区，SDVI 模型反演值显著低于其他四种模型，像元二分模型高估了土壤范围的植被覆盖度，而Carlson 模型与Baret 模型在该区域植被覆盖度较为相似，随机森林模型则表现出较高的估测精度。

图4 不同模型反演的植被覆盖度分布图

2.4 植被覆盖度反演精度验证分析

本研究选取50%的植被覆盖度值为高植被覆盖度与低植被覆盖度区域分界线[13]。植被覆盖度低于50%的为低植被覆盖度区域，50%以上的为高植被覆盖度区域。基于无人机高光谱影像获取的植被覆盖度作为验证数据与上述五种反演方法估算的植被覆盖度值进行整体对比分析(图5)。从图中可以看出，五种植被覆盖度反演模型均产生较小的RMSE与较大的R2，除SDVI 模型外，其余模型的RPD 均达到1.4 以上且线性拟合曲线与1:1 对角线偏差较小，这说明像元二分模型、Carlson 模型、Baret 模型及随机森林模型均能反演互花米草植被覆盖度。此外，根据随机森林模型估算值与验证值得到的三种精度评价指标均优于四种混合像元分解模型的评价指标，随机森林具有最优的建模精度。分析四种混合像元分解模型与回归模型的估测值与1:1 对角线关系可知，像元二分模型的估算值多位于1:1对角线的上方，有明显高估植被覆盖度的趋势，出现高估现象的原因可能是采用了裸地NDVI 与茂密植被NDVI 之间的值导致[22]；而Carlson 模型、Baret 模型与SDVI 模型的估测值大多位于1:1 对角线下方，具有明显低估的趋势。SDVI 模型因选取DVIsoil与DVIveg的值被限定在一定阈值内而出现估测值被低估的现象；因Carlson 模型和Baret 模型与像元二分模型具有差异性，故此两种模型反演过程产生低估趋势的原因同样为选取裸地的NDVI 与茂盛植被的NDVI 之间的值导致，此外，植被覆盖度的增加导致NDVI 饱和等因素也会影响反演效果的准确性。随机森林模型因强大的泛化能力，其估算值与验证值的拟合曲线与1:1 对角线偏差较小，使得随机森林模型估算值更接近于验证值。

为了定量化比较估算误差，本研究对5 种植被覆盖度反演模型进行精度评价，结果显示除像元二分模型外，其余四种模型R2相近，均达到0.80 以上；从RMSE 来看，Carlson 模型与Baret 模型具有相同的RMSE 值，而随机森林模型精度最高，其RMSE 小于其他四个混合像元分解模型；对于RPD而言，除SDVI 模型的RPD 未超过1.4 反演植被覆盖度效果较差以外，其余四种模型均可用于反演植被覆盖度。

为了探究模型普适性，对低植被覆盖度区域进行研究发现(图6A)，四种混合像元分解模型都有高估植被覆盖度的情况，而随机森林模型较为均匀的分布在1:1 对角线附近。进一步对比低植被覆盖度区域下5 种模型的反演精度发现(表2)，随机森林模型估算的植被覆盖度的RMSE、RPD 及R2分别达到0.073、2.454 及0.903，在五种反演模型中表现最优，其次是Baret 模型与Carlson 模型。此外，研究显示像元二分模型与SDVI 模型的RPD 小于1.40，不适用于在低植被覆盖度区域进行反演。

表2 低植被覆盖度区域各反演模型精度

图6 地面验证值与模型预测值(A)低FVC；(B)高FVC

通过对比上述5 种模型在高植被覆盖度区域下的估算精度可以得到(表3)，四种混合像元分析模型精度较差，除像元二分法外，其他三种混合像元分解模型产生的预测值大多处于1:1 对角线下方(图6B)，说明其在高植被覆盖度区域易低估植被覆盖度值；而随机森林模型的估测值与验证值之间有较优的相关性。从不同植被覆盖度区域情况上看，五种植被覆盖度反演模型的反演效果排序为整体植被覆盖区优于低植被覆盖区优于高植被覆盖度区反演效果，而随机森林模型在不同植被覆盖度区域情况下均表现出优异的反演效果。

表3 高FVC 区域各反演模型精度

综上所述，基于无人机高光谱影像反演滨海湿地互花米草植被覆盖度，随机森林模型估测精度在不同植被覆盖度区域均优于四种混合像元分解模型。从理论上分析，混合像元分解模型在一定程度上基于前人研究的经验值，例如像元二分模型与Carlson 模型中NDVIveg与NDVIsoil值需要通过置信区间确定；Baret 模型中的多依据前人研究结果确定取值；SDVI 模型同样依赖置信区间取值。这导致了模型反演结果随研究区的改变产生不同程度的差异[23]。随机森林模型因不依赖传统经验，同时能克服变量之间复杂的耦合关系避免过拟合[24]获得了优异的反演效果。