基于数据融合和机器学习的多年生苎麻产量估测
2023-11-23付虹雨王薇岳云开卢建宁龚喜红王梓薇崔国贤佘玮
付虹雨,王薇,岳云开,卢建宁,龚喜红,王梓薇,崔国贤,佘玮
(湖南农业大学农学院,湖南 长沙 410128)
多年生作物是指能够进行多年生长,或地上部分在冬季枯萎,第二年继续生长和开花结实的作物[1],与一年生作物相比,其根系发达,具有更高的养分利用率和光能利用率,生产潜力巨大[2-3]。 苎麻是典型的多年生作物之一[4],高效、无损、准确地掌握苎麻产量信息不仅可为多年生作物生产管理提供技术支持,还能辅助进一步挖掘多年生作物的产量潜力和遗传资源。
目前,遥感技术能够基于各种平台(地面遥感、航空遥感、卫星遥感)捕获作物冠层信息,为大面积田间作物的长势监测、营养诊断、产量估测、病虫害监测等提供支持。 其中,无人机低空遥感凭借其高分辨率、高准确性、灵活机动等优势引起了越来越多学者的关注,并在精准农业的定量观测中得到广泛应用。
无人机遥感平台可搭载多种传感器,如RGB相机、多光谱、高光谱等,从而获取光谱、纹理、冠层结构等多维数据信息[5]。 因此,有学者提出多维数据融合的策略,使多种类型数据互相补充,以提高作物指标估测模型性能。 如,Yue 等[6-7]结合无人机高光谱传感器获取的光谱参数和作物高程进行了小麦地上生物量估测,结果表明,作物高程的纳入可以有效改善生物量的估算精度;除作物高程参数外,他还指出,利用高地面分辨率图像的纹理信息也能提升高植被覆盖率下作物生物量的估测精度。 Li 等[8]结合无人机高光谱成像数据和RGB 图像提取的株高数据预测了马铃薯地上鲜生物量,改进后的产量预测精度可达到0.81。刘杨等[9]通过无人机获取了马铃薯冠层的多光谱影像,然后结合提取的植被指数、高频信息和株高构建了精度更高、更稳定的生物量估测模型。以上研究表明,多维数据融合是提高作物产量估测精度的重要手段,但现有的大多数研究都是将多类别数据作为单独变量直接引入估测模型中,缺乏对多数据间关系的深入探究,往往导致数据融合不充分和数据信息冗余。 樊意广等[10]利用融合特征参数提高了马铃薯植株氮含量的估测精度,为基于数据融合的作物产量估测提供了新思路。
另一种数据融合策略是基于无人机遥感获取的多时序数据。 如,Campos 等[11]利用多个生长阶段数据构建了小麦产量估测模型,结果表明多时序数据的融合能够显著提高作物产量估测精度,因为在某些物候期发现的差异可以在其他物候期得到补偿。 Dhillon 等[12]同样提出,利用多时序遥感影像预测冬小麦地上生物量比使用单一时期的遥感“快照”更可靠、更精确。
针对苎麻多年生生长特性,本研究拟采用3种数据融合策略提升基于无人机遥感的多年生作物产量估测精度。 首先基于无人机RGB 影像提取苎麻遥感特征值,分别包括植被指数(vegetation indexes,VIs)、株高(HDSM)、覆盖率(VCUAV)、株数(PN);然后构造VIs × HDSM× VCUAV、VIs/(1+HDSM)、VIs(1+ VCUAV)3 种融合特征参数(fusion feature parameters,FFPs);最后以历史产量、遥感特征值、融合特征参数为变量,利用4 种机器学习方法构建苎麻产量估测模型,探究历史数据融合、多时序数据融合、多维数据融合估测多年生作物产量的潜力。
1 材料与方法
1.1 研究区概况
研究区位于湖南省长沙市芙蓉区湖南农业大学耘园种植基地(28°11'1.981″N,113°4'10.159″E)。 该地区属典型的亚热带季风性湿润气候,降水充沛,光热条件良好,是苎麻生长的主产区之一。 研究区域内共栽有154 份苎麻种质材料,各材料于2017 年12 月育苗移栽,2018 年6 月首次收获。 小区面积为3.6 m2,小区内种植8 蔸苎麻(2 行×4 蔸),小区间距为0.6 m,排水沟宽为0.5 m。 试验区土壤成分均一且肥沃,灌溉排水便捷,田间水肥管理一致。 为完成后期影像的重建,提高经纬、高程位置校准的精度,在试验地内均匀布置了6 个地面控制点(GCP)。
1.2 数据采集
于2019—2021 年间,对试验材料进行了连续多次监测。 采集的数据包括两种来源,即地面测量数据和无人机影像数据。 为保证数据的时效性,地面数据测量与无人机航拍在同一天同步进行。
1.2.1 地面数据采集 采集了苎麻株高、成熟期株数及产量数据。 每小区随机选取10 株苎麻,利用直尺测量植株底部至冠层顶端的距离,取其平均值作为小区尺度株高;株数为每个小区内苎麻植株总数,通过目视获得;产量利用电子秤称取每个小区的苎麻总重量获得。
1.2.2 遥感影像采集及预处理 采用大疆悟2搭载禅思X5s 高清数码相机获取苎麻冠层RGB影像。 为保证太阳辐射稳定和充足,飞行作业选择在当地时间12—14 时进行。 采用DJI GS Pro(大疆地面站专业版)在指定区域内自动生成航线,设置主航向上重叠率80%,主航线间图像重叠率70%,飞行高度为20 m,云台俯仰角为-90°,相机曝光模式选择自动。
遥感影像的预处理在Pix4Dmapper 软件中完成,最终生成研究区域的正射影像以及数字地表模型(digital surface model,DSM),见图1。 拼接过程中,为获取准确的地理参考,导入地面控制点的三维空间位置信息进行地理校正。
图1 试验区域正射影像及数字地表模型
1.3 遥感特征值提取
从无人机遥感影像中提取的遥感特征值包括VIs、HDSM、VCUAV以及PN。
1.3.1 VIs、HDSM的提取 VIs 由不同波段反射率的均值及其线性或非线性方式组合而成[13-14],HDSM通过对不同时期获取的DSM 进行差值运算提取,具体计算公式如表1。 在ArcGIS 10.2 软件中,采用栅格工具绘制矩形感兴趣区域(area of interest,AOI),提取单位小区的平均VIs 和HDSM。绘制时,小区四周边缘余留10%以消除边缘效应干扰。
表1 VIs 和HDSM的计算公式
1.3.2 VCUAV的提取 本研究参考多篇文献求取植被覆盖率的思路[15-17],提出一种利用HSV 颜色转换空间,从无人机遥感影像中快速提取植被覆盖度的方法。 首先利用HSV 颜色空间的H 通道对苎麻植株及土壤进行阈值分割;然后使用最大间类方差法去除影像中包含的杂草,生成苎麻植被影像;最后分别计算原影像总像元数和植被影像总像元数,两者的比值结果即为VCUAV,计算公式如下:
其中,PO表示植被影像包含的总像元个数,P 表示未分割前原影像中包含的总像元数。
1.3.3 PN 的提取 利用2019、2020 年获取的苎麻冠层影像,采用FCOS 目标检测(fully convolutional one-stage object detection)算法构建了苎麻植株计数模型,模型召回率达到0.892,精度为0.819,RMSE 为0.089,表明该模型可用于识别遥感影像中的苎麻株数。 FCOS 模型采用残差网络ResNet101 作为主干网络(backbone),FPN(特征金字塔网络)用于提取特征,训练次数为20 次。图2 为苎麻植株检测结果,蓝框标注实际植株样本,红框标注识别样本。
图2 基于FCOS 的苎麻植株计数
1.4 FFPs 的构造
为充分融合苎麻光谱特征和结构特征,基于上述提取的遥感特征值,分别构造了VIs × HDSM×VCUAV、VIs/(1+ HDSM)、VIs/(1+ VCUAV)3 种共计33 个FFPs。
1.5 模型构建与评估
采用线性回归(linear regression,Linear)、偏最小二乘回归(partial least squares regression analysis,PLSR)、支持向量回归(support vector regression,SVR)和随机森林(random forest,RF)4 种方法建模。 建模过程中,采用网格搜索方法寻找不同模型的最佳参数;采用五折交叉验证方法评估模型;采用7 ∶3比例将数据划分为训练集和验证集,训练集用于训练数据构建经验模型,验证集用于评估模型稳定性;采用决定系数(R2)、均方根误差(RMSE)评估模型性能。
2 结果与分析
2.1 苎麻产量的统计描述
表2 为2019—2021 年不同季度每小区苎麻产量的统计分析结果。 可见,试验材料间产量差异明显,变异系数为5.99%~15.75%;不同季苎麻产量变异程度表现为头麻>三麻>二麻。 2019—2021 年头麻、二麻、三麻平均产量分别为10.195、7.433、8.067 kg,表现为头麻>三麻>二麻,与苎麻产量变异的趋势一致。 这可能是因为,头麻和三麻生长期长(约80 d),并且生长周期内雨量充沛,日照条件好,有利于苎麻的生长;而二麻生长周期短(50~60 d),且期间易受高温干旱影响,生长受限。 综上所述,头麻、三麻的产量比二麻产量存在更大差异,数据分布更加分散。
表2 2019—2021 年苎麻种质材料的小区产量统计结果
2.2 融合历史产量的苎麻产量估测
2.2.1 相关性分析 表3 为苎麻产量与遥感特征值(HDSM、PN、VIs)、历史产量的Pearson 相关性分析结果。 可见,不同年份不同季苎麻产量间存在极显著相关关系(P<0.01),平均相关系数范围为0.482 ~0.644,表明历史产量可以作为苎麻产量估测的重要数据来源。 PN、HDSM与产量的平均相关系数分别为0.375、0.351,这是因为株数和株高是苎麻产量的重要构成因素;对于由高清数字图像构建的VIs,B、R、ExGR 与苎麻产量具有较好的相关关系,平均相关系数分别为0.266、0.212、0.199;另外,与头麻产量相关性达到极显著水平的VIs 较多,而与三麻、二麻产量极显著相关的VIs 较少,表明基于VIs 的苎麻产量估测效率可能不高,数据的融合有望弥补单一光谱特征估测的缺陷。
表3 苎麻产量与遥感特征值、往年产量数据的相关性分析
2.2.2 利用历史产量和遥感特征值估测苎麻产量 融合历史产量和从遥感影像中提取的4 项遥感特征值(HDSM、PN、VCUAV、VIs),采用Linear、RF、PLSR、SVR 4 种机器学习算法,分别构建了2019—2021 年各季苎麻产量估测模型。 图3 为不同机器学习算法的建模效果,可知,Linear、RF、PLSR、SVR 总体表现非常接近(Std.<0.1)。 总体来说,SVR 的产量估测表现略好于其他算法,在2019 年三麻、2020 年头麻、2020 年二麻的产量估测中表现最佳;Linear 和PLSR 也具有较好的表现,PLSR 在2019 年二麻产量估测中R2最大;RF对2020 年三麻产量及2021 年头麻产量的估测效果最好。
图3 不同机器学习算法的建模效果
表4 对比了最优模型下,基于遥感特征值的苎麻产量估测精度与融合历史产量和遥感特征值的苎麻产量估测精度。 可知,仅基于遥感特征值的苎麻产量估测模型精度较低,验证集R2为0.012~0.420,RMSE 在2.020~3.554 范围内;而融合历史产量后,苎麻产量估测模型精度显著提高,验证集R2为0.289 ~0.832,RMSE 为1.256 ~3.556,对比遥感特征值估产结果,建模集R2提高4.619%~631.915%, RMSE 降低 14. 644% ~54.427%,验证集R2提高87.647%~2 308.333%,RMSE 降低4.307%~39.088%(除2020 年二麻增加外)。 综上所述,对于多年生作物,历史产量数据对当季产量预测及估测具有重要意义。
表4 融合历史产量和遥感特征值的苎麻产量估测
2.3 融合多时序、多维数据的苎麻产量估测
上述研究中,使用的遥感特征值是单一时期(成熟期)获取的,并且各项遥感特征值是作为单独变量直接输入到产量估测模型中的。 为进一步探究生育周期内多时序数据、多维数据融合对苎麻产量估测精度的影响,以2021 年头麻为例,着重探讨多时序FFPs 估测苎麻产量的潜力。
2.3.1 FFPs 与苎麻产量的关系 由图4 可知,VIs 和FFPs 在4 个生育期都表现出与产量较好的相关性。 其中,苗期有8 个VIs 与产量极显著相关(P<0.01),相关系数绝对值介于0.223 ~0.408之间,按相关性大小排序前三的VIs 分别为VARI(0.408)、NGRDI(0.408)、ExR(-0.364),而相关性位于前三的FFPs 分别为VARI×HDSM×VCUAV、B×HDSM×VCUAV、NGRDI×HDSM×VCUAV,相关系数范围为0.520 ~0.531;封行期有VARI(0.3)、WI(0.267)、B_mean(0.249)、G_mean(0.246)、NGRDI(0.229)5 个VIs 与产量呈极显著相关关系,相关系数绝对值介于0.229 ~0.300,排序前三的FFPs 分别为VARI×HDSM×VCUAV、G×HDSM×VCUAV、B×HDSM×VCUAV,相关系数范围为0.559 ~0.565;旺长期VIs 与产量之间的相关性在4 个时期中最弱,相关系数范围为0.019 ~0.200,而该时期FFPs 与产量的相关系数范围为0.019 ~0.398;在4 个时期中,成熟期VIs 与产量的相关性最强,除ExG 外,其他VIs 与产量均达到极显著相关水平,相关系数绝对值范围为0.251 ~0.459,排序前三的FFPs 为RF×HDSM×VCUAV、ExGR×HDSM×VCUAV、NGRDI/(1+VCUAV),相关系数分别达到0.499、0.493、0.489。 由以上分析可知,构造的大部分FFPs 与产量的相关性都明显高于单一光谱特征值,并且不同生育期特征参数均对产量敏感,这表明融合特征参数与苎麻产量联系更紧密,通过融合光谱特征和结构纹理特征能更好地估测苎麻产量,多时序数据可能有助于苎麻产量的早期预测,提高最终产量估测精度。
图4 不同生育期苎麻产量与融合特征参数的相关性分析
2.3.2 利用多时序融合特征参数估测苎麻产量为评估融合特征参数估测苎麻产量的能力,将各生育期构建的FFPs、PN、历史产量作为变量,采用RF 算法构建2021 年头麻产量估测模型。由图6 可知,对比单参数估测苎麻产量,以融合特征参数为变量构建的单一生育期苎麻产量估测模型性能有所提升,R2提高7.624%~19.031%,其中苗期、封行期、旺长期、成熟期模型的R2分别达到0.638、0.607、0.593、0.663,表明多参数构建的模型具有更高的精度和稳定性,这与相关性分析的结果一致。
基于多时序融合特征参数的苎麻产量估测模型精度同样提升,训练集R2为0.917,RMSE 为1.030,验证集R2达到0.671(图5),验证集多时序融合特征参数构建模型的R2比单一生育期融合特征参数构建模型的R2提高1.207%~13.153%,RMSE 为2.376。 综上所述,多时序融合特征参数包含更多作物生长细节,能够有效提高苎麻产量估测精度。
图5 单参数和融合参数构建模型估测苎麻产量的效果比较
3 讨论
长期栽培生产发现,当环境因素较为稳定时,不同年份不同收获季间苎麻产量存在高度相关性和连续性,与本研究的相关性分析结果一致。 造成这一现象的原因是,苎麻属多年生宿根性作物,具有稳定的再生能力和优质高产的可持续性[18]。
根据这一生长特征,本研究提出了优化苎麻产量估测模型的3 种数据融合策略,分别是历史产量数据融合、多维数据融合以及多时序数据融合。 结果表明,融合历史产量数据后,2019—2021年各季苎麻产量估测精度明显提升,表现为建模集和验证集的R2提高,RMSE 降低,证实了历史产量对多年生作物产量预测及估测的意义。 在当前全球资源紧缺、气候变化的背景下,多年生作物因具有比一年生作物更高的水分、养分利用率以及更强的生产潜力日益受到人们关注,世界各国已开展多年生作物育种计划[19],因此,把握多年生作物生长规律,精确获取多年生作物产量,对于筛选优质高产品种、挖掘其遗传资源具有重要意义。
将VIs、FFPs 和苎麻产量进行相关性分析,发现各生育期融合特征参数与苎麻产量具有更高的相关性,说明光谱特征值与结构特征值的深度融合有利于更好地反映作物长势情况。 樊意广等[10]研究表明,包含了作物冠层和垂直结构2 个层次变化信息的FFPs 与植株氮含量具有更好的相关性。 株高是苎麻产量的主要构成因素[20-21],植被覆盖度能一定程度消除土壤背景的影响,因此本研究所构建的FFPs 能有效反映苎麻产量。
本研究成果都是基于RGB 相机拍摄影像获得的,尽管RGB 相机具有高性价比、高图像分辨率的优势,利用RGB 影像也取得了较满意的苎麻估产结果,但今后的研究还需从更多源的数据中探索更多的特征,例如高光谱数据、热数据、气象数据、雷达数据等,而所获取的作物表型也不应仅停留在冠层层面,从而有望通过更多源数据的融合在估测精度及稳定性上取得更大突破。
4 结论
本研究探究了利用无人机搭载高清数码相机获取的图像估测多年生作物苎麻的产量潜力,通过采用3 种数据融合策略和4 种常用机器学习方法,优化了基于无人机遥感的苎麻产量估测模型,主要结论如下:
(1)对于多年生作物,历史产量是重要的参考数据,融合无人机遥感特征值和历史产量的苎麻产量估测模型精度明显提升。 其中,基于随机森林方法的2020 年三麻估产模型具有最高精度,R2=0.832,RMSE =1.256。
(2)与原始遥感特征值相比,构造的大部分融合特征参数与苎麻产量的相关性较高,可以用于估算作物产量。
(3)对比单一生育期产量估测,基于生长周期内多时序数据构建的估产模型效果更好。 利用随机森林算法构建模型对2021 年头麻产量的估测结果显示,模型训练集R2为0.917,RMSE 为1.030;验证集R2达到0.671,比单一生育期融合参数构建模型的R2提高1.207% ~13.153%,且RMSE 为2.376。