基于无人机遥感的多特征组矿区草本植物地上生物量反演
2024-03-14张世文芮婷婷李唯佳蔡慧珍
俞 静 2, ,张世文,芮婷婷,李唯佳 2, ,蔡慧珍
(1.安徽理工大学空间信息与测绘工程学院, 安徽 淮南 232001;2.矿山采动灾害空天地协同监测与预警安徽普通高校重点实验室, 安徽 淮南 232001;3.矿山环境与灾害协同监测煤炭行业工程研究中心,安徽 淮南 232001;4.安徽理工大学地球与环境学院, 安徽 淮南 232001)
植被生长状况是对废弃矿区生态修复情况的直接反映,矿区地表植被生物量是反映植被生长状况的直接且重要的指标,可为矿区植被恢复的效果评价提供基础数据,因此实现矿区植被生物量快速准确的预测对矿区修复效果评价具有重要意义[1-4]。传统植被生物量估测采用野外人工实地采集方法,不仅费时费力,而且会对当地植被生长产生不同程度的不良影响[5]。随着遥感技术的快速发展,无人机遥感凭借其高灵活性、高空间分辨率和能够进行较小面积的植被监测等优势,已成为植被长势监测的重要手段,并广泛应用于资源调查、环境监测等领域[6]。
近些年,众多专家学者使用各种监测手段对不同植被的各种长势指标进行了一系列研究,并获得了诸多成果。如苗春丽等[7]基于无人机高光谱影像光谱数据构建随机森林模型对天然草地地上生物量进行了反演研究,实现了高寒草甸地上生物量高精度监测;黄家兴等[8]基于Sentinel-2 和Landsat 8数据计算5 种植被指数建立草地地上生物量反演模型,结果表明使用10 m 分辨率的Sentinel-2 构建的生物量反演模型精度高于30 m 的Landsat 8 数据;肖武等[9]运用无人机多光谱影像,在传统植被指数基础上引入红边波段扩展植被指数用于构建高潜水位采煤沉陷区玉米生物量反演模型,结果表明红边波段能提高玉米生物量反演精度;邓尚奇等[10]利用图像阈值分割去除无人机影像背景像元后提取小麦像元平均反射率,构建植被指数利用偏最小二乘回归构建反演模型,结果显示剔除背景像元后并使用植被指数构建的反演模型精度有较明显的提 升; Stratoulias 等[11]采 集 同 期 的Sentinel-1 和Sentinel-2 卫星影像不同光谱信息,并比较了基于卫星影像不同光谱信息估算生物量的方法,证明了相比于传统植被指数,所有Sentinel-1 和Sentinel-2 的波段的简单光谱比值组合与生物量具有更高的相关性;Wan 等[12]基于无人机利用辐射传输模型建立水稻全生育期生物量与叶片叶绿素含量、叶面积指数以及冠层叶绿素含量之间的关系,验证了模型性能。以上研究对于植被生物量的遥感监测,多集中于提取遥感影像的单一光谱特征作为特征变量实现地上生物量的反演,然而当植被过于稀疏或密集时,光谱特征与地上生物量相关性会降低。并且,卫星遥感时空分辨率低且受天气影响较大,难以有效提取矿区的精细植被长势信息,而新兴且轻小型无人机遥感监测技术可以弥补卫星遥感在小尺度区域监测方面的不足,其可以搭载多光谱传感器实时准确获取修复矿区高分辨率遥感影像,从而实现修复矿区植被精细化监测。
因此本研究以无人机遥感为监测手段,以修复矿区草本植物地上生物量为研究对象,在单波段光谱和植被指数两光谱特征的基础上引入纹理特征和地形特征,将3 种特征分为光谱特征组和多特征组分别作为模型输入变量构建反向传播神经网络(back propagation neural network, BPNN)、卷积神经网络(convolutional neural network, CNN)和Elman 神经网络草本植物生物量反演模型,并将该模型应用于全区生物量反演,对全区草本植物地上生物量进行分级评估,研究结果可为无人机遥感矿区修复地草本植物地上生物量反演研究提供参考。
1 研究区与数据
1.1 研究区概况
本研究以铜官山(117.81° E,30.91° N)为研究区,区域面积约为0.11 km2。其位于安徽省铜陵市市中心东南方向2 km。铜官山全年平均气温为18~19 ℃,年降水量为1 384.7 mm,平均海拔495.7 m,呈东南低、西北高的地势,山顶标高493.1 m,属于北亚热带湿润季风气候,特点是季风明显,四季分明,雨量丰沛,日照充足,雨热同季,无霜期长。春季雨水偏多,常出现低温连绵阴雨天气;夏季天气炎热;秋季晴朗少雨,常出现秋季干旱;冬季天气晴朗、寒冷干燥。实地调查结果显示研究区主要以灌草丛为地表覆盖植被类型,其中自然生长的草本植物为主要植物类型,代表性草本植物主要有小蓬草(Conyza canadensis)、狗尾巴草(Setaria viridis)、鸡眼草(Kummerowia)、狗牙根(Cynodon dactylon)、狼杷草(Bidens tripartita)和通奶草(Euphorbia hypericifolia)等,研究区域地理位置和采样点分布如图1 所示。
图1 研究区位置及采样点分布图Figure 1 Location of the study area and distribution of sampling points
1.2 数据获取与预处理
1.2.1 无人机数据获取与预处理
无人机平台采用大疆Phantom 4 多光谱版植保无人机搭载一体式多光谱成像系统,集成1 个可见光传感器和5 个多光谱传感器(蓝光、绿光、红光、红边和近红外),其中蓝光波段中心波长为450 nm,带宽为32 nm;绿光波段中心波长为560 nm,带宽为32 nm;红光波段中心波长为650 nm,带宽为32 nm;红边波段中心波长为730 nm,带宽为32 nm;近红外波段中心波长为840 nm,带宽为52 nm,同时无人机内置GPS 和IMU 系统(图2)。
图2 无人机和多光谱相机Figure 2 UAV and multispectral camera
进行航拍作业前,首先需要考虑到天气条件,避免雨雪、大风等天气,飞行时应选择天气晴朗无云,风力较小的时候。同时需要对研究区域的地理情况及外部设施进行调查,确保在无人机飞行过程中不会受到高压电线、高大树木等物体的干扰。综上考虑,无人机多光谱影像的采集时间于2021 年9 月26 日,飞行时间为11:00-14:00。起飞前手动控制无人机飞行至校准白板的正上方约2.5 m 处,采用相机单摄模式来拍摄标准白板。无人机的飞行模式按照提前规划的S 型航线飞行,航向重叠度70%,旁向重叠度60%,无人机飞行高度50 m,传感器镜头垂直向下,拍照模式为等时间间隔,共获取了约3 000 张影像。
获取影像后利用Pix4D-mapper 拼接软件进行影像拼接得到正射影像,并以正射影像为参考影像,使用ArcGIS 10.6 软件分别在5 个单波段影像上均匀选取30 个参考点进行几何校正,且几何校正误差在0.5 个像元之内。获取各个波段中的白板的DN(digital number)值并计算5 个波段的DN 均值,使用ENVI 5.3 软件中的Band Math 工具对多光谱影像进行辐射校正。计算公式为:
式中:f目标为目标地物的反射率,DN目标为目标地物的DN值,DN白板为白板DN均值,f白板为标准白板反射率。
经上述预处理后即获取到无人机多光谱影像,空间分辨率为0.03 m。在ENVI 5.3 软件中导入预处理后的多光谱影像以及采样点GPS 点位信息,以采样点为中心,并对应于样方大小以及影像分辨率,在图像上裁剪出33 × 33 (像素)的影像作为感兴趣区,提取每个样方内的各个波段的平均反射率。
1.2.2 生物量数据获取
在进行无人机数据采集前,需进行样方布设,待无人机数据采集结束后立即进行样方采集。根据研究区域范围,利用均匀布点原则布设采样点,研究区内共布设采样点43 个,如图1 所示,设置1 m ×1 m 的样方,然后通过GPS 记录每一个样方点的位置信息,将样方内的植被齐地面剪下并对每个样方进行编号。实验室处理时,将植被放入烘箱内杀青30 min,温度设置为105 ℃;考虑到样方内植株水分含量较大,为了避免烘干温度不适而致使植被没有充分烘干[13],将其再置于80 ℃的烘箱中24~48 h直到得到恒定的生物量,最后称取每个样方的生物量干质量[14]。
2 研究方法
2.1 变量提取
2.1.1 光谱特征
植被指数是不同光谱波段之间的线性或非线性组合,可以反映绿色植被的相对丰富度。植被的光谱反射率与非植被地区的光谱反射率之间具有明显的差异,很多学者根据植被的光谱响应特征,利用不同波段反射率构造植被指数来表征植被状况[15]。根据本研究参考传感器波段设置和前人的生物量反演研究,共选择了18 种植被指数以及无人机5 个单波段光谱反射率用于生物量反演,本研究所用到的植被指数计算公式如表1 所列。
表1 选用于反演的植被指数计算公式Table 1 Calculation formulae of vegetation indexes selected for inversion
2.1.2 纹理特征
纹理特征是物体固有的特性且稳定性较好,很难受到外界因素的影响,灰度共生矩阵法具有旋转不变性和多尺度特性,常常用于提取纹理信息。本研究采用灰度共生矩阵法共提取5 个波段的8 个纹理特征,包括每个波段的均值(mean)、方差(variance)、同质性(homogeneity)、对比度(contrast)、非相似性(dissimilarity)、熵(entropy)、角二阶矩(angular second moment)、相关性(correlation)[26-27]。提取出的纹理特征及其计算公式如表2 所列。
表2 纹理特征及其计算公式Table 2 Texture features and their calculation formulae
2.1.3 地形特征
自然地形影响降水和阳光辐射的空间分布,从而导致土壤的质地、养分和含水量分布差异,进而决定植被生物量分布以及生长更新[28]。由此本研究引入坡度、坡向等地形特征建立生物量反演模型,实现矿区植被生物量准确监测。在ArcGIS 10.6 中利用实测高程点数据生成不规则三角网(triangulatedirregular network, TIN)后转成高精度DEM 栅格数据,并生成坡度、坡向、剖面曲率和平面曲率4 种地形数据,如图3 所示。
图3 研究区地形特征Figure 3 Topographic characteristics of the study area
2.2 变量筛选
经以上数据处理后,共获取67 个特征变量,其中光谱特征变量23 个,纹理特征40 个,地形特征4 个。本研究先后采用灰度关联法和熵权法对光谱特征和纹理特征分别进行筛选,由于地形特征较少,则全部作为输入变量。
灰度关联法是判断变量是否相关并确定其相关程度的一种分析方法,其根据各变量间的相对变化趋势表征变量间的关联程度,如果变量间相对变化趋势越一致,则该变量间的关联度越大,其基本思想是通过计算关联度找出系统各因素之间的主次关系,从而找出影响最大的因素[29]。
熵权法是通过信息熵计算变量包含的信息量大小并且对变量进行赋权[30],根据权重大小对变量进行筛选。问题涉及多个变量,需确定每个变量的相对权重,一个变量的信息熵值越小其权重越大,即越能反映真实信息,该方法可以消除人为的干扰,为一种较为客观的变量筛选方式。在计算完熵权值后,可通过设定阈值的方式对变量进行筛选,即当熵权值大于阈值时,保留该变量,反之则删除。本研究设定的阈值为0.1。
2.3 反演模型构建
实地共采集43 个生物量样方数据,在43 个实测生物量样方数据中随机选取33 个用于反演模型的训练,剩余10 个用于模型的验证,以此作为模型的输入样本,构建神经网络反演模型。将最终筛选出所有特征变量分为光谱特征组和多特征组。选用反向传播神经网络(BPNN)、卷积神经网络(CNN)和Elman 神经网络分别构建两组输入变量的草本植物生物量反演模型,3 种算法均于MATLAB 2022a软件中实现。
反向传播神经网络是一种多层前馈神经网络,该机器学习方法的特点是信号向前传递,误差反向传播,因其具备非线性映射能力且适用于具有复杂内部机制的数据问题,并具有自学习和自适应能力以及泛化能力[31-32]。本研究依据输入变量个数设置神经网络输入层个数,输出层为1,对模型进行多次训练调试后最终确定隐含层为10,激活函数为“tansig”函数,学习率为0.01,迭代次数为1000。
卷积神经网络是具有卷积结构的深度神经网络,减少了网络参数和过拟合问题,卷积神经网络具有学习性可以构建高精度作物估产模型[33]。卷积神经网络由输入层、卷积层、池化层、全连接层和输出层组成。其具有的局部连接、参数共享和下采样降维3 个核心思想,使其可以加快网络收敛和计算速度,去除冗余特征。本研究采用了2 个卷积层、2 个池化层和一个全连接层构建CNN 网络结构,其中卷积核个数为32,大小设置为2 × 2,步长设为1;池化核尺寸为3 × 3,步长为1,池化方式为最大池化;卷积层和全连接层由ReLU 激活函数激活。
Elman 神经网络是一种典型局部回归神经网络,可以被看作是具有局部记忆单元和反馈连接的递归神经网络,其较好地适应动态变化的数据[34];Elman 神经网络主要由输入层、隐含层、上下文层和输出层组成,上下文节点的自连接使其对历史输入数据较为敏感。本研究选择sigmoid 函数作为隐含层的传递函数,输出层采用purelin 传递函数,隐含层节点数设为10。网络训练函数为traingdm,其具有较快的收敛速度。
2.4 模型精度评价方法
本研究采用决定系数(R2)、均方根误差(RMSE)两个指标来评价模型的精度。其中R2值越接近1 表明模型预测精度越高,RMSE 值越小表明模型精度越高,预测值与实测值越接近。计算公式如下:
式中:yi为实测值,yˆi为预测值,y¯为实测值的均值。
3 结果与分析
3.1 变量筛选
本研究首先利用灰色关联度方法分别对光谱特征和纹理特征进行处理,并根据关联度大小进行从大到小排序,且保留排序前10 的光谱特征和纹理特征;然后使用熵权法计算所保留变量的熵权值,以设定的阈值0.1 对变量进行二次筛选,最终筛选出5 个光谱特征和4 个纹理特征,计算结果如表3 所列。将筛选结果与地形特征相结合,从而构建出两个生物量反演模型的输入变量组:将筛选出的光谱特征变量作为模型输入变量,即为光谱特征组;在光谱特征变量基础上同时引入纹理特征和地形特征变量,即为多特征组。
表3 本研究输入模型变量Table 3 Model input variables used in this study
3.2 基于光谱特征组的矿区草本植物生物量反演
利用无人机多光谱影像提取采样点的单波段光谱反射率,并构建相关植被指数,将5 个波段光谱反射率和构建的18 种植被指数作为光谱特征与实测地上生物量进行相关程度分析,先后使用灰色关联法和熵权法选出相关程度较高且信息熵较大的光谱特征变量建立草本植物生物量反演模型。基于光谱特征分别构建BPNN、CNN 和Elman 神经网络的生物量反演模型,其反演结果如图4 所示,可以看出,基于BPNN 构建的生物量反演模型的决定系数(R2)为0.762,均方根误差(RMSE)为14.459 g·m-2;CNN 构建的反演模型R2为0.540,RMSE 为20.119 g·m-2;Elman 神经网络反演模型R2为0.763,RMSE为14.442 g·m-2。结果表明,输入相同的光谱特征,3 个模型表现出不同的反演精度,其中Elman 神经网络模型反演效果最佳,其次为BPNN 模型,CNN模型反演精度最低。
图4 基于光谱特征组反演模型精度验证Figure 4 Accuracy verification of inversion models based on spectral features
3.3 基于多特征组的矿区草本植物生物量反演
根据表3 所筛选出的5 个光谱特征,4 个纹理特征以及4 个地形特征共13 个变量,分别构建BPNN、CNN 和Elman 神经网络的生物量反演模型,反演结果如图5 所示,可以看出,BPNN反演模型R2为0.841,RMSE 为11.813 g·m-2,CNN 反 演 模 型R2为0.683,RMSE 为16.709 g·m-2,Elman 神经网络模型R2为0.814,RMSE 为12.784 g·m-2。其中,所建立的BPNN 反演模型的预测精度最高。
图5 基于多特征组反演模型精度验证Figure 5 Accuracy verification of inversion models based on multiple features
3.4 模型的综合评价
3.4.1 模型精度对比
以单波段光谱和植被指数作为光谱特征组,以光谱特征、纹理特征和地形特征作为多特征组,分别用作输入变量构建基于BPNN、CNN、Elman 神经网络的草地地上生物量反演模型,对构建的生物量反演模型进行精度验证,各特征组的模型反演结果如表4 所列。其中,在以光谱特征组作为模型输入变量时,BPNN 和Elman 算法模型精度较为接近,CNN 算法精度最低;以多特征组作为输入变量时,BPNN 算法精度最高,R2为0.841,RMSE 为11.813 g·m-2。根据表4 可得,构建的6 个生物量反演模型R2均在0.5 及以上,均表现出良好的反演精度。对比光谱特征组,基于多特征组构建的反演模型呈现出较优的性能,纹理特征变量和地形特征变量的加入使3 种机器学习算法模型都有不同程度的提高,相比于光谱特征组,基于多特征组BPNN 算法构建的生物量反演模型R2提高了10.37%,CNN 算法构建的反演模型R2提高了26.48%,Elman 神经网络构建的模型的R2提升幅度为6.68%。对比6 个生物量反演模型结果精度可得,基于多特征组的BPNN 草地地上生物量反演模型表现出最优性能,模型预测精度最高,因此本研究采用该模型对研究区进行全区生物量反演。
表4 基于不同特征组的算法模型Table 4 Algorithm models based on different feature groups
3.4.2 模型稳定性分析
单独分组构建的草本植物地上生物量模型的验证集结果显示BPNN 算法性能较好,且基于多特征组构建的模型精度较单特征有明显的提升。为进一步评价模型的稳定性,分别以两组特征作为模型输入变量,将样本数据分为6 组,对各模型进行交叉验证,结果如表5 所列,可以看出,以均值分析,对于相同的输入变量组,BPNN 构建的模型R2、RMSE 均为最优,其次为Elman 模型,CNN 模型精度最差;从标准差结果来看,以光谱特征组作为输入变量组时,CNN 模型精度交叉验证结果较为集中,而BPNN 结果较为分散,而多特征作为输入变量时,BPNN 稳定性显著提升,且稳定性最优。结合最优模型精度综合分析可得,BPNN 拟合精度最优,且相较于光谱特征组,多特征组提高了3 种模型的拟合精度,且提升了BPNN 模型预测结果的稳定性。
表5 基于不同特征组的模型交叉验证Table 5 Model cross-validation based on different feature groups
3.5 反演模型应用
为获取全研究区草本植物生物量分情况,使用训练好的多特征BPNN 神经网络模型对全区草本植物生物量进行反演,反演所得的生物量分布情况如图6 所示,其中区域为红色表示该区域生物量高,区域为绿色表示该区域生物量低。由图6 可以看出研究区生物量主要分布于0~100 g·m-2。将区域生物量分为5 个等级,如表6 所示,全区生物量多集中于第2 等级,即20~40 g·m-2,生物量低于60 g·m-2的区域的面积占全区87.39%,说明研究区大部分区域的生物量处于较低等级。反演结果与实地采样情况大致相同。
表6 研究区生物量分级Table 6 Biomass classification in the study area
图6 研究区生物量分布图Figure 6 Biomass distribution map of the study area
4 讨论
修复矿区地表的植被生物量可以反映矿区生态恢复情况,故实现对矿区植被生物量精确预测有利于修复矿区生态监测工作。本研究在选用光谱特征作为生物量反演模型输入变量的基础上,引入纹理特征变量和地形特征变量,并采用BPNN、CNN 和Elman 神经网络3 种算法构建草本植物生物量反演模型,比较模型性能后选用基于多特征的BPNN 反演模型对全区生物量进行了反演。研究结果可为无人机遥感矿区修复地草本植物生物量反演研究提供参考。
本研究首先分别对光谱特征和纹理特征使用灰色关联度和熵权法进行筛选,光谱特征中单光谱波段筛选结果为红边波段和近红波段,说明红边波段和近红波段对估算生物量的贡献较大,这与李淑贞等[35]的研究筛选结果相同;植被指数筛选结果为绿度指数、比值指数和非线性植被指数,这些植被指数主要为绿波段、红波段以及近红波段的组合,同时发现筛选出的纹理特征也是来源于这些波段,这与刘畅等[5]纹理指标筛选结果一致,由此本研究筛选结果可为植被生物量反演相关研究提供参考。
从所构建的生物量反演模型精度可以看出,引入纹理信息和地形信息后,3 种机器学习模型的反演精度都有相应程度的提升,这主要的原因是纹理信息增加了地上植被的空间特性,而地形差异直接影响着植被分布和生长状态,引入纹理特征和地形特征后同时考虑了3 种特征对生物量的贡献性,解决了光谱特征的单一光谱信息不足以及光谱饱和问题[36-37]。其中基于CNN 生物量反演模型精度提升幅度最大,但是精度依然是最低,其原因是CNN训练需要大量的样本数据,而本研究样本量过少,使其没有得到充分的训练。
本研究基于两组输入变量使用3 种机器学习算法构建生物量反演模型并进行反演精度比较,其中以多特征组为输入变量构建的BPNN 反演模型精度最高,相同的输入变量基于BPNN 构建的反演模型也表现出较优的预测性能。本研究结果与以往的研究结果一致,Lyu 等[38]以内蒙古草原为例,分别构建单因素参数模型、多因素参数模型和多因素非参数模型反演草地地上生物量,结果表明BPNN 反演模型的准确性和稳定性均高于其他模型;Yang 等[39]基于最大贡献变量建立BPNN 反演模型,验证了BPNN 反演模型比传统多变量回归模型有更好的性能。其主要原因是BPNN 较其他机器学习算法更具有鲁棒性和容错性且适用于解决复杂的非线性关系。
修复矿区草本植被生长状态可以由多种长势指标反映,如叶片叶绿素含量、植株含水率等;本研究仅以生物量作为单一指标反映矿区植被长势,未来可以综合多个指标实现对修复矿区植被监测;此外本研究仅使用了3 种机器学习算法进行反演模型的构建,未来可以选择更多的算法并对算法进行优化以实现针对特定区域构建更高精度的反演模型。
5 结论
1) 对光谱特征和纹理特征变量分别使用灰度关联法和熵权法进行初次筛选和二次筛选,最终确定光谱特征变量为红边、近红外波段、绿度指数、比值植被指数和非线性植被指数,纹理特征变量为var-840、con-840、con-730 和var-560,地形特征变量包括坡度、坡向、平面曲率和剖面曲率。
2) 在单波段光谱和植被指数两光谱特征的光谱特征基础上引入纹理特征和地形特征,并划分为光谱特征组和多特征组,将其作为模型输入变量构建BPNN、CNN 和Elman 神经网络反演模型,其中基于多特征组构建的3 种反演模型精度均高于基于光谱特征组构建的反演模型,且BP 神经网络模型精度最高,该模型R2为0.841,RMSE 为11.813 g·m-2,并对3 种反演模型进行了交叉验证,进一步表明了基于多特征构建的BPNN 草本植物地上生物量反演模型更加稳定,反演精度最优。
3) 基于多特征构建的BPNN 生物量反演模型对研究区生物量分布进行预测分析可得,全区草本植物生物量估测值范围为0~100 g·m-2、20~40 g·m-2的所占比重较大,占全区面积的52.9%,绘制结果与实地调查情况较为相符,研究结果可实现对草地地上生物量快速、准确的预测。