基于多源数据回归分析的糖料蔗产量估计
2020-06-16查元源史良胜
黄 凯,查元源,史良胜
(1.广西壮族自治区水利科学研究院,南宁 530023;2.武汉大学,武汉 430072)
0 引 言
糖料蔗生产作为广西农业生产的优势特色产业,现已发展成为广西经济的支柱产业和农民增收的重要载体。2005 年以来,其甘蔗种植面积和产糖量均占全国总产量的 60%以上[1,2]。另外,糖料蔗生产年均贡献30多亿元税收,对促进广西经济社会发展、推动脱贫攻坚、保障民生具有重要作用[3]。由于水利化程度低、蔗区分散且多为坡地[4,5],甘蔗产量呈现强烈的空间变异性。为避免蔗糖产业依赖国际市场的风险,确保国家食糖安全[6],准确预估糖料蔗产量成为了亟待解决的难题。作物模型,例如WOFOST,可以估计甘蔗产量,但是模型需要较多的输入参数及大量观测数据来校核模型[7]。利用无人机等可以较为方便地得到甘蔗不同时期的区域叶面积指数和株高等信息[8],地面的传感器也可以采集不同深度的土壤含水率。当空间变异观测较为充足时,利用多源线性回归预测产量计算量小、精度高,已经在农业产量估计中得以广泛应用[9-11],但用于甘蔗产量估计的研究较少。本文拟分析广西崇左60个试验小区2016年采集的叶面积指数、株高、土壤水数据和糖料蔗产量的相关性,并利用多源数据回归分析方法,建立该地区甘蔗产量估计模型。
1 研究区与数据
1.1 研究区概况
研究区位于广西壮族自治区崇左市江州区,其经纬度为22.31°N, 107.23°E,海拔高度180 m。该试验站地处广西壮族自治区西南部,为喀斯特地貌,属热带季风气候,年平均降雨量约1 300 mm,平均温度22°,全年雨量充沛,气候温暖湿润,适宜糖料蔗的生长。试验区共设有60个小区进行糖料蔗的种植,每个小区面积为64 m2(8 m×8 m),相邻小区间隔2 m,种植时间为2016年4月4日至2016年12月9日,共250 d。
1.2 观测数据
实验阶段主要进行地面数据观测及无人机遥感数据观测,其中地面观测包括LAI和土壤水分测量以及最终的产量测定,而通过计算无人机遥感平台获得的RGB照片,可进行株高的提取。
1.2.1 地面数据观测
采用LAI-2200C冠层分析仪进行无损叶面积指数(LAI)测量,测量时间段控制在晴天日出后2 h或日落前2 h或云层厚度均匀的阴天,每个小区随机选取4个观测点,将所获得的平均值作为该小区的LAI,LAI的采集日期与飞行日期同步,分别为2016年6月5日、6月28日、7月17日、8月6日、8月31日、10月2日及12月4日,每次观测日期下60个小区的平均LAI值及标准差如图2(a)所示。利用TRIME-PICO-IPH频域反射仪进行土壤含水量的测量,观测深度为各小区地面下10, 20, 30, 40, 60和80 cm等6个深度,观测频率为3~5 d。
1.2.2 无人机遥感平台观测
试验采用八旋翼无人机(S1000, 大疆公司生产),搭载SONY DSC-QX100 (日本 SONY 公司生产)数码相机。无人机净重4 kg,最大载重约6 kg,续航时间大约18 min。数码相机传感器尺寸13.2 mm×8.8 mm,像素为2020万,镜头焦距10.4 mm。数据采集选择晴朗无云的天气,采集时间为10∶00-14∶00,飞行高度50 m,图像纵向重叠度为60%~80%。
利用Agisoft PhotoScan Professional (Russia) 以及Eris Arcmap软件对RGB照片进行处理并计算株高,其具体流程如下:①生成点云并对齐照片;②输入地面控制点(如图1所示)坐标进行几何校正;③重建高度并输出三维立体的作物表面模型(crop surface models,CSMs);④栅格计算输出株高。详细流程请参考杨等[1]。实验期间共获取7次株高数据,观测均值及标准差如图2(b)所示。
图1 实验小区总体布置
图2 实测60个小区LAI及株高均值随时间的变化规律
1.2.3 干物质量观测
甘蔗干物质测量需要茎鲜重及烘干含水率。在收割日期(12月9日)分别测得60个小区的茎鲜重,并选取其中的7个样本进行烘干实验。每个样本被切成长宽高不超过2 cm的小块,放入80 ℃的烘箱烘干至重量不再变化。图3展示了收割时期,甘蔗茎鲜重和干物质量转化关系图。通过该回归公式,我们可以推导出60个田块的茎的干物质量。
2 研究方法
本文以糖料蔗为例,基于多种观测平台(无人机、地面观测和地下观测)获取的多源数据(株高pH、叶面积指数LAI和土壤水SM),与实测产量进行相关性分析,对比不同类型的观测与产量的相关性大小,同时采用回归的方法对甘蔗不同生长阶段的观测的数据价值进行分析,挑选出甘蔗不同生育阶段最有价值的观测,从而指导农业监测与产量估算。本文采用相关系数R2来评估预测模型精度,R2越大说明模型拟合效果越好。
图3 收割时期甘蔗茎鲜重与干物质量转换关系
3 结果与分析
3.1 LAI与甘蔗产量回归分析
为了评价利用LAI观测预估产量的可行性,图4 (a)展示了伸长中期(8月6日),甘蔗LAI与干物质量的相关性图。由图4可知,利用LAI回归产量,其相关系数最多可以达到0.57,说明LAI和甘蔗产量具有较好的相关性,这个结果是合理的,因为干物质的累积主要和叶面积有关,LAI越大,叶片通过光合作用生成的干物质量也就越多,从而糖料蔗茎的产量也就越多。为了分析LAI观测在甘蔗不同生育阶段对产量预估的数据价值,图4 (b)画出了LAI和产量的相关系数随时间的变化。如图所示,LAI和产量的相关性具有很明显的先增加后减少的变化趋势,并在伸长中期(8月6日)达到最大,结合图2中LAI随时间的变化规律(即LAI在6月5日-8月31日逐渐增加至最大,然后在8月31日之后由于衰老而逐渐降低),我们可以得知,LAI和产量相关性达到最高的时间并不是LAI达到最大的时刻,而是叶面积生长最快的伸长中期,这是因为在伸长期末期,甘蔗的生长率降低,此时的LAI的差异对整体的干物质累积量的影响较小,然而,在伸长中期,干物质累积速度最快,受叶面积的影响也就越大,因而相关性最高。
图4 甘蔗LAI和产量DM的回归分析
3.2 株高与甘蔗产量回归分析
同理,为了评价由无人机RGB图像提取的株高对产量预测的可行性,图5 (a)展示了伸长末期(10月2日),甘蔗株高与产量的相关性分析图。此时,株高与产量的相关系数达到了0.80,说明相比于LAI,株高和产量具有更强的相关性。这个结果是合理的,因为甘蔗产量主要是由茎高,茎宽和有效茎数决定的,而株高能在最大程度上反映茎高的特征,因此其与甘蔗产量的相关性也就最大。然而值得注意的是,甘蔗株高与产量相关性最大的时刻并不是在最后的成熟期,而是在伸长末期[8月31号及10月2号,如图5(b)所示],这是因为在成熟期,某些田块的甘蔗发生了倒伏现象(如图2所示,无人机在12月4日监测到的株高略低于10月2日),此时由RGB图像提取的株高数据不能代表其真实的茎高,因此导致其与产量相关性的降低。
图5 基于RGB图片提取的株高pH和产量DM的回归分析
3.3 土壤水与甘蔗产量回归分析
根据前人的研究,土壤水是影响作物生长的重要因素之一,因此对土壤水分的监测以及分析是农业生产的关键。图6画出了不同深度下,每月平均含水量值(红五角星)及其与甘蔗产量的相关系数(蓝+)。如图所示,10 cm含水量由于受气象影响较大,波动最剧烈,因此与产量的相关性最弱,而20 cm和30 cm是根系吸水的主要区域,因此和产量的相关性较高,然而,80 cm含水量与产量的相关性最高,这可能是因为该实验区的土壤渗透性很强,大部分的水都渗透到了深层,并成为了作物吸水的主要来源;另外,从趋势上看,20,30,80 cm处含水量与产量的相关系数R2在5月份分别达到了0.31, 0.30, 0.41,并随着时间逐渐降低,这说明对于甘蔗而言,播种后一到两月的含水量对于甘蔗产量的形成至关重要。
图6 不同深度的月度平均含水量(红五角星)与甘蔗产量相关性(蓝+)分析
图7 基于多元线性回归的甘蔗产量预测
3.4 基于多元线性回归的甘蔗产量预测
为了探究多源数据融合对甘蔗产量估计的影响,我们基于叶面积指数LAI(x1)、株高(x2)、取样时间前的不同深度的含水量平均值(10, 20, 30, 40, 60, 80 cm深度分别对应x3~x8)对产量进行了多元线性回归分析。图7(a) 展示了伸长末期(10月2日),通过多元线性回归估计的甘蔗产量与实际观测测量的比较,其回归方程为产量y=0.05x1+0.49x2-0.16x3+0.07x4+0.03x5-0.02x6-0.002x7-0.003x8+6.39。如图所示,通过多元线性回归得到的产量估计值与实测值的相关性(R2=0.87) 要优于只存在LAI或株高一种观测时的相关性(R2分别为0.57和0.8),说明通过融合不同类型的观测,我们可以获得更加全面的信息,从而更好的估计甘蔗产量。图 7(b)展示了产量估计值与实测值的相关系数R2随时间的变化,可以发现在任何采样时间下,利用多元线性回归得到的甘蔗产量估计值都优于只使用一种观测得到的结果,说明了利用多元数据融合可以提高产量的估计效果。另外,产量估计值与实测值的相关性仍满足先增大后减小的规律,并在10月2日达到最大,这可能是因为在多元回归分析中,株高观测的价值占比更大,因此其形状更符合株高与产量的相关性特征。
4 讨 论
本文基于多平台(地面、无人机观测平台)下的多源数据(LAI、株高、土壤水),比较了不同类型的观测对估计甘蔗产量的影响,并探究了各类型观测在甘蔗不同生育阶段的数据价值。研究表明无人机获取的株高观测与甘蔗产量的相关性最高,而土壤水分观测与甘蔗产量的相关性最低。这是因为株高可以直接地反映出甘蔗茎长的特征,从而表征甘蔗产量,而土壤水与作物的相互作用机理更加复杂,涉及作物生理、生化等多个过程,并且,土壤水的时空变异性更强,利用点尺度的土壤水数据往往没有办法代表实验小区的整体水平,从而导致土壤水和产量的弱相关。此外,LAI观测影响到了作物的干物质累积过程,但与作物产量并不直接相关,因此其相关性要弱于株高,高于土壤水。
不同类型的观测在甘蔗生长的不同生育阶段所反映的数据价值不同。对于LAI观测,在甘蔗伸长中期,其与产量的相关性最高,而不是LAI值最大的时刻,这是因为伸长中期,甘蔗的干物质累积速度最快,叶面积对产量的影响最大,而LAI最大的时刻,甘蔗的生长已经偏中后期,此时的LAI对整体的干物质累积过程影响较小;对于株高观测,在甘蔗伸长末期,其与产量的相关性最高,此时甘蔗已经达到其生长的最大值,能直接反应产量的差异,而到了成熟期,少数糖料蔗发生了倒伏现象,导致最后测得的株高与产量的相关性发生了下降;对于土壤水分观测,我们发现播种之后1~2个月的土壤水与产量的相关性最高,说明甘蔗生长前期水分的供给情况影响到了最终产量的形成。
最后,基于多元线性回归分析,我们探究了多源数据融合对甘蔗产量预测的影响,发现利用多元线性回归得到的产量估计值与实测值的相关性要高于只存在LAI或株高一种观测时的相关性,说明利用多源数据,我们可以更全面评判甘蔗长势,提高甘蔗产量预测精度。
5 结 论
(1) 相比于地面的LAI观测和土壤水分观测,利用无人机平台所提取的株高观测更有利于糖料蔗的产量估计。
(2)不同类型的观测在甘蔗生长的不同生育阶段所反映的数据价值不同。LAI观测在伸长中期阶段,数据价值最大,而株高观测则在伸长末期与产量的相关性最高。
(3)相比于表层含水量,根系区含水量以及播种后1~2个月的土壤水分对甘蔗最终产量的形成起到了至关重要的作用。
(4) 利用多元数据融合方法,甘蔗产量的预测精度有了显著提高。
致谢:感谢博士生胡顺、叶豪、余丹阳等采集数据付出的辛劳。