光谱指数筛选方法与统计回归算法结合的水稻估产模型对比

2022-01-27王耀民陈皓锐陈俊英王慧芸张智韬

农业工程学报 2021年21期

王耀民，陈皓锐，陈俊英,2，王慧芸，邢正，张智韬,2

王耀民1，陈皓锐3※，陈俊英1,2，王慧芸1，邢正1，张智韬1,2

（1. 西北农林科技大学水利与建筑工程学院，杨凌 712100； 2. 西北农林科技大学旱区农业水土工程教育部重点实验室，杨凌 712100； 3. 中国水利水电科学研究院流域水循环模拟与调控国家重点实验室，北京 100048）

为了探寻高效的水稻产量估算方法，在获取2019年黑龙江省三江平原别拉洪河流域内水稻产量数据和MOD09A1遥感数据基础上，对比不同指数筛选方法和统计回归算法结合的建模估产效果，以得到其中最佳的产量估算模型。通过相关系数（correlation coefficient，）分析法、变量投影重要性（Variable Importance in Projection，VIP）分析法和袋外数据重要性（Out-Of-Bag data importance，OOB）分析法分析水稻4个生育期（分蘖期、抽穗期、孕穗期和乳熟期）的不同波段和光谱指数对于水稻产量的敏感性，筛选出特征波段和指数，再结合随机森林（Random Forest，RF）、支持向量机（Support Vector Machine，SVM）和偏最小二乘（Partial Least Squares，PLS）3种统计回归方法，构建了9种水稻产量估算模型：-RF、-SVM、-PLS、VIP-RF、VIP-SVM、VIP-PLS、OOB-RF、OOB-SVM、OOB-PLS。结果表明：同一指数筛选方法对不同模型的契合程度不同，OOB与RF更为契合，VIP和与PLS更为契合，与SVM更为契合；在3种建模方法中偏最小二乘模型和支持向量机模型有较好的效果，随机森林模型效果最好，其中OOB-RF模型最优，其模型验证决定系数为0.742，均方根误差为206 kg/hm2。研究结果可为水稻产量估算模型研究提供参考，具有一定的理论意义。

遥感；产量；模型；水稻；支持向量机；指数筛选方法

0 引言

区域农作物产量的准确估测能为农业管理部门的农业生产管理及国家的粮食政策提供有效依据,而水稻作为中国主要的粮食产物之一，其产量信息的大范围快速、准确估测对粮食生产管理具有重大意义[1]。遥感具有覆盖范围大、重复周期短和较容易获得的优点，在农作物的长势监测和产量估算中已广泛使用[2-3]。

现有的遥感估产方法大多是经验统计模型，其原理是利用一个或者多个光谱参数与作物产量建立回归关系进行估产[4-5]。早期研究多采用线性回归方法，程乾[6]用各生育期和复合生育期的水稻归一化植被指数（Normalized Difference Vegetation Index，NDVI）和增强植被指数（Enhanced Vegetation Index，EVI）与水稻产量构建了一元线性模型和多元线性模型，发现复合生育期的EVI指数与产量构建的估产模型效果较好。Ren等[7]在分析研究区NDVI和冬小麦产量的线性回归关系的基础上，利用逐步回归方法建立了冬小麦的估产模型，模型决定系数达到了0.87，并且在小麦孕穗期就能较好地预测冬小麦产量。

但作物的生长及生物量的积累并不是一个线性的过程，而且线性模型指标单一并不能很好的反映作物的生长状况[8]。近年来，学者们开始关注非线性的估产模型方法，如神经网络[9-11]、支持向量机[12-14]、随机森林[15-18]等。黎锐等[13]利用支持向量机回归模型结合Landsat多时相遥感数据构建了冬小麦产量估算模型，并与多元回归模型相比较，发现支持向量机回归模型优于多元回归模型。谭昌伟等[19]对比了偏最小二乘回归算法、线性回归算法和主成分分析算法建立的小麦估产模型，发现偏最小二乘法模型精度分别比其他两种高20%和18%。Zeng等[20]运用偏最小二乘算法和人工神经网络算法结合变量投影重要性分析指数筛选方法估算了葵花籽产量，发现筛选后的模型精度高于未筛选的，且人工神经网络模型精度高于偏最小二乘模型。岳继博等[15]利用3种指数筛选方法（相关系数分析法、袋外数据重要性、灰色关联分析）对遥感指数进行排序，再结合随机森林算法构建了3种冬小麦生物量估算模型，发现相关性分析法和袋外数据重要性指数筛选方法在使用少量参数时就能使模型达到较好的精度。杨北萍等[16]利用相关性分析、主成分分析和袋外数据变量重要性分析对特征变量进行筛选，结合随机森林模型建立水稻估产模型，分析发现特征变量筛选后的随机森林模型水稻估产精度更高，明显优于多元逐步回归模型。Shiu等[14]利用相关性分析筛选遥感变量，结合普通最小二乘、支持向量回归和局部模型地理加权回归构建了水稻产量估计模型，分析发现通过特征选择，局部模型地理加权回归模型的估产性能比普通最小二乘模型和支持向量回归模型相对稳定。目前，研究学者利用机器学习算法估算作物产量、生物量等参数时，大多是将遥感变量直接作为自变量输入模型或者只是单纯使用变量筛选方法与机器模型结合。遥感估算作物产量，主要的技术思路是利用合适的遥感指标和统计回归方法来建立模型，而不同的遥感指标和回归算法建立的模型之间的精度差别较大，在进行建模估算作物产量的时候，需要先通过筛选合适的指标和统计回归算法及其组合来确定最合适的建模方法。因此对比不同指数筛选方法与统计回归模型算法的耦合建模效果，有助于提高产量估算模型精度。

本文基于MODIS多时相遥感数据，将相关系数、变量投影重要性（Variable Importance in Projection，VIP）和袋外数据重要性（Out-Of-Bag data importance，OOB）3种指数筛选方法，与偏最小二乘（Partial Least Squares，PLS）、随机森林（Random Forest，RF）和支持向量机（Support Vector Machine，SVM）3种建模算法进行耦合，构建9种水稻估产模型，分析对比不同指数筛选方法与机器学习算法的契合程度，筛选出其中最优的水稻产量估算模型，以期为水稻及其他作物产量估算研究提供参考。

1 材料与方法

1.1 研究区概况

研究区位于黑龙江省佳木斯市别拉洪河灌区（47.2°～47.6° N，132.6°～133.4° E），地处三江平原，地势平坦，面积约为105hm2，属于温带湿润、半湿润大陆性季风气候，雨热同季，夏季温暖，全年有2 400～2 500 h的日照时间，适合水稻等作物的种植生产（图1）。

图1 研究区示意图及采样点分布

1.2 数据来源

1.2.1 遥感数据获取

研究使用的遥感数据为美国NASA提供的MODIS免费数据中的MOD09A1产品，在NASA提供的Earthdata网站中下载（https://earthdata.nasa.gov/）。MOD09A1产品时间分辨率为8 d，空间分辨率为500 m，共包含7个波段的地表反射率。下载研究区（黑龙江三江平原别拉洪河灌区）水稻4个关键生育期（分蘖期、孕穗期、抽穗期和乳熟期）的遥感数据，图像日序数分别为169、193、209、241。使用MRT（MODIS Reprojection Tool）软件对图像进行图像拼接、波段提取、坐标系转换和文件格式转换，利用ENVI对图像进行裁剪和采样点像元亮度值提取。

本研究基于卫星光谱数据提取红、绿、蓝以及近红外波段的光谱反射率信息，并计算了EVI、NDVI、SAVI、OSAVI、RVI等光谱指数用于建立水稻估产模型，具体计算公式如表1所示。

1.2.2 水稻产量测量

在研究区选取83个采样点作为水稻产量测点，考虑到遥感影像的分辨率为500 m，精度偏低以及地面土地利用类型混杂，为提高采样点的代表性，采样点尽量在地面大面积纯水稻分布处选取。采样点通过手持式GPS定位仪获得其经纬度位置。水稻成熟收获期，在研究区以采样点为中心的1/15 hm2地为该采样点的测量单位，在地块东南西北中5个方位各收割1 m2水稻，对收割的水稻进行脱粒、烘干、质量称量，取平均数，得到该采样点水稻单产数据。

1.3 研究区水稻空间分布图

卫星遥感监测水稻产量信息，需要对水稻种植结构进行识别。以500 m空间分辨率的MODIS数据为数据源，构建了陆地水分指数（Land Surface Water content Index，LSWI）、EVI、NDVI和RVI时间序列数据集并对其进行降噪处理，建立了水稻种植面积决策树提取模型，提取了研究区水稻种植面积，得到空间分辨率为500 m、总体分类精度（正确分类像元数/总像元数）为86.4%的水稻空间分布图。

表1 遥感变量及其计算公式

注：R、NIR、B、G为红光、近红外、蓝光和绿光波段的光谱发射率值，下标= t、b、h、m，分别代表水稻分蘖期、孕穗期、抽穗期和乳熟期4个生育期；表示植被密度变化的参数，取值为0.5。

Note: WhereR,NIR,B,Gare spectral emissivity of red, near infrared, blue and green light bands, subscript= t, b, h, m represent four growth stages of rice, respectively, tillering stage, booting stage, heading stage and milk ripening stage;represents the parameter of vegetation density change, and its value is 0.5.

1.4 估产模型构建方法

将研究区83个采样点随机选取2/3（56个）作为模型的建模集，另外1/3（27个）作为模型的验证集。利用相关性分析法、变量投影重要性分析法和袋外数据重要性分析法筛选的指数作为自变量，以水稻实测产量作为因变量，再分别利用偏最小二乘、支持向量机和随机森林3种回归算法对其进行建模分析，从而获得最佳的估产模型。3种机器学习模型算法均在R 4.0.2软件中进行。

为减少噪声数据对模型精度的影响，利用相关性、VIP和OOB分析法筛选出敏感波段指数，并对已筛选的波段指数从大到小排序。利用随机森林、支持向量机和偏最小二乘模型分别与以上3种指数筛选方法的筛选排序结果建立水稻估产模型。第一次建模仅使用前两组数据，第二次建模使用前三组数据，以此类推第次建模使用前+1组数据。

1.4.1指数筛选方法

1）相关系数分析

相关系数分析是对两个以上的变量进行分析，衡量变量间的相关密切程度的方法[24]。元素之间必须要存在一定的联系或者概率才能进行相关性分析，本研究采用相关性分析来评价水稻产量和遥感参数之间的相关程度，以筛选合适的光谱指数。选用皮尔逊相关系数作为相关性大小的衡量标准，的绝对值越接近1，证明两个变量元素之间的相关性越大。相关性分析在IBM SPSS statistics 23软件上完成。

2）变量投影重要性分析

VIP变量筛选法是一种基于偏最小二乘法的变量筛选方法[25]。VIP变量筛选法描述自变量对因变量的重要程度是通过主成分来传递的，其中自变量对其相关自变量所提取的主成分作用大，而主成分又对因变量有强的解释能力，则可以认为该自变量对因变量的解释能力强[26-27]。用于评价变量投影重要性的值是VIP值，若是所有自变量对因变量解释能力相同，则它们的VIP值都等于1，如果自变量VIP值小于1，则认为该自变量对因变量解释能力不足[28]。本研究中VIP指数筛选分析在SIMCA-P 11.5上完成。

3）袋外数据重要性分析

OOB重要性分析是一种基于随机森林算法的特征重要性评估方法[29]。可以用袋外数据对输入特征进行重要性评估，其原理是随机改变某参数输入，并计算所造成的估算误差，根据误差来计算此参数的重要性，重要性值越大表示改参数越重要[30]。本文以均方根误差增加（increase in Mean Squared Error，IncMSE）来评价特征重要性，通过对每一个预测变量随机赋值，如果该预测变量更为重要，那么其值被随机替换后模型预测的误差会增大，因此，IncMSE越大表示该变量越重要。袋外数据重要性分析在R 4.0.2软件中完成。

1.4.2 统计回归方法

1）偏最小二乘模型

偏最小二乘回归模型是一种多元数据统计分析模型，与传统多元最小二乘回归模型相比，PLSR模型可较好地解决自变量之间存在的多重共线性问题，实现数据的降维、信息综合与筛选，有效提取对系统解释能力最强的综合变量，排除无解释作用的噪声[31]，因此在多光谱遥感模型中得到了广泛的应用。本研究建模过程中采用留一验证法（Leave One Out，LOO）从光谱数据中提取最佳主成分个数，获得最优的模型参数[32]。

2）支持向量机模型

支持向量机回归模型是根据内核统计学习理论，以结构风险最小化原则为基础的一种新型机器学习方法，其特点是能够解决小样本、非线性和高维数据空间模式识别等问题[33]。在SVM中，核函数类型、惩罚参数、核参量等3个参数对建模精度有很大的影响。本研究中，核函数使用径向基核函数（radial），用训练集交叉验证和网格搜索法（Grid search）进行参数寻优，按照均方差最小原则确定惩罚参数和核参量的值[34]。

3）随机森林模型

随机森林模型是一种基于多重决策树理论的新型机器学习方法，主要针对系统分类、回归等问题。RF模型可以辨识独立变量和响应变量之间复杂的非线性关系，从而具有较高的准确率，且RF模型具有很好的抗噪声能力，很难产生过拟合现象。因此，RF模型已经被证明是一种有效的回归方法。本研究中，RF模型参数设置为：决策树的数量（ntree）为500，变量子集（mtry）的大小和最小节点数（nodesize）都为5。

1.5 模型精度评价

本文通过决定系数2、均方根误差（Root Mean Squared Error，RMSE）和归一化均方根误差（Normalized Root Mean Squared Error，nRMSE）来评价模型的优劣，其中2越接近1，RMSE和nRMSE相对越小，说明估算结果的误差越小，模型的效果越好。

2 结果与分析

2.1 特征指数筛选排序

将基于研究区水稻4个生育期（分蘖期、孕穗期、抽穗期和乳熟期）卫星遥感图像建立的共36个遥感指标与水稻产量分别进行相关性分析、变量投影重要性分析和袋外数据重要性分析，结果如图2所示。

注：IncMSE为均方根误差增加。

Note：IncMSE is increase in mean squared error.

图2 指数筛选排序图

Fig.2 Index filter sort diagram

图2a为水稻产量与各个遥感指数的相关系数绝对值排序图。从图中可以看出，抽穗期和乳熟期的遥感变量与产量相关性较高，分蘖期大多数遥感变量与产量的相关性都较低，其中SAVIh的相关性绝对值最高，达到了0.742，t的相关性绝对值最低，只有0.002。对变量的显著性进行检验，显著性达到0.01的指数有14个，排序从大到小依次为：SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm、EVIm、SAVIb、OSAVIb、EVIb、NIRb、RVIh、OSAVIm。VIP值的大小反应了自变量对因变量解释作用的大小，从图2b中可以看出排在前面的指数抽穗期占据较多，其中EVIh最高，达到了2.17，而分蘖期的指数的VIP值都较低。本研究选取VIP数值大于1的变量为特征变量，共有9个，将其从大到小排序，依次为：EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb、SAVIb、SAVIm。图2c是袋外数据重要性排序图，从图中可以看出，排序靠前的主要是抽穗期和乳熟期的遥感变量，排序靠后的大多为分蘖期和孕穗期的遥感变量，其中IncMSE值最大的是OSAVIh，最小的是SAVIt，本文筛选IncMSE值大于5的变量为OOB法筛选的敏感特征变量，共有9个，从大到小排序依次为OSAVIh、SAVIh、EVIh、NIRh、NDVIh、m、Greenm、RVIh、NIRm。

2.2 水稻产量估算模型

利用不同的统计回归算法，分别对相关性分析、变量投影重要性分析和袋外数据重要性分析后得到的光谱指数进行估产回归建模分析，结果见图3。

图3a为PLS模型建模结果。其中相关性分析法耦合偏最小二乘回归模型共建模13次，VIP和OOB法建模8次。从图中可以看出，3种变量筛选排序结果下，PLS模型验证集的2和RMSE随自变量个数增加的变化情况。其中-PLS模型，随着相关性分析筛选排序的遥感变量增加，模型的估算精度先增加后减小再趋向稳定，在使用前7个变量（SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm）的时候模型2（0.655）最大、RMSE（256kg/hm2）最小，模型预测效果最好。VIP-PLS模型，随着VIP法筛选排序的遥感变量的增加，模型估算效果先增大后减小，在使用VIP排序前7个遥感变量（EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb）时模型2（0.66）最大，RMSE（254 kg/hm2）最小，模型效果达到最佳。OOB-PLS模型，随着OOB法筛选排序的遥感变量的增加，模型估算效果先增大后趋向稳定，在使用OOB排序前8个遥感变量（OSAVIh、SAVIh、EVIh、NIRh、NDVIh、m、m、RVIh）时模型2（0.648）最大，RMSE（257 kg/hm2）最小，模型效果达到最佳。综上所述，在3种特征变量筛选排序方法与偏最小二乘算法耦合建立回归模型中，VIP方法与偏最小二乘算法的耦合效果最好。

图3b为SVM回归建模结果。可以看出3种变量筛选排序结果下，SVM模型验证集的2和RMSE随自变量个数增加的变化情况。-SVM模型，随着相关性分析筛选排序的遥感变量增加，模型的估算效果先增加后减小，在使用前10个变量（SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm、EVIm、SAVIb、OSAVIb）时，模型2（0.71）最大，RMSE（214 kg/hm2）最小，模型估算效果最好。VIP-SVM模型，随着VIP法筛选排序的遥感变量的增加，模型估算效果先增大后趋向稳定，在使用VIP排序前7个遥感变量（EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb）时模型2（0.7）最大，RMSE（216 kg/hm2）最小，模型效果达到最佳。OOB-SVM模型，随着OOB法筛选排序的遥感变量的增加，模型估算效果先增大后趋向稳定，在使用OOB排序前7个遥感变量（OSAVIh、SAVIh、EVIh、NIRh、NDVIh、Redm、m）时模型2（0.69）最大，RMSE（220 kg/hm2）最小，模型效果达到最佳。综上所述，3种特征变量筛选排序方法与支持向量机算法耦合建立回归模型时，估算精度十分接近，但是-VIP模型，在使用了6个遥感指数时，模型的估算精度已经高于OOB-SVM模型，因此VIP和相关系数分析法与支持向量机的耦合效果较好。

图3c为RF回归算法建模结果。可以看出，3种变量筛选排序结果下，RF模型验证集的2和RMSE随自变量个数增加的变化情况。-RF模型，随着相关性分析筛选排序的遥感变量增加，模型的估算效果先增加后趋向稳定，在使用前10个变量（SAVIh、EVIh、OSAVIh、NIRh、NDVIh、NIRm、SAVIm、EVIm、SAVIb、OSAVIb）的时候模型2（0.731）最大，RMSE（211 kg/hm2）最小，模型估算效果最好。VIP-SVM模型，随着VIP法筛选排序的遥感变量的增加，模型估算效果整体呈先增大后趋向稳定，在使用VIP排序前7个遥感变量（EVIh、SAVIh、OSAVIh、NIRh、NDVIh、NIRm、OSAVIb）时模型2（0.73）最大，RMSE（210 kg/hm2）最小，模型效果达到最佳。OOB-SVM模型，随着OOB法筛选排序的遥感变量的增加，模型估算效果先增大后减小再趋向稳定，在使用OOB排序前6个遥感变量（OSAVIh、SAVIh、EVIh、NIRh、NDVIh、m）时模型2（0.742）最大，RMSE（206 kg/hm2）最小，模型效果达到最佳。如上所述，3种特征变量筛选排序方法与随机森林算法耦合建立回归模型时，预测效果十分接近，决定系数都高于0.73，但是OOB-RF和VIP-RF只用了较少的遥感参数就达到了较好的预测效果，而OOB-RF的模型决定系数高于VIP-RF，因此OOB法与随机森林的耦合效果最好。

2.3 模型综合评价

在自变量不断增加情况下，3种指数筛选方法与3种机器学习回归算法耦合精度最高的模型如表2所示。

表2 模型综合评价

注：nRMSE为归一化均方根误差。

Note: nRMSE is normalized root mean square error.

对比不同指数筛选模型与机器学习回归算法耦合建模结果，可以看出随机森林模型的估算效果最好，其次是支持向量机模型，最后是偏最小二乘模型。从表中可以看出，不同的指数筛选方法与模型的耦合效果不同。偏最小二乘回归模型中，3种模型的产量估算效果相近。

-PLS和VIP-PLS在使用了7个遥感参数的情况下的估产效果略好于OOB-PLS使用了8个遥感参数的估产效果，可见相关系数分析法和变量投影重要性分析法与偏最小二乘回归算法耦合建模的效果比袋外数据重要性分析法与偏最小二乘回归建模好；支持向量机模型中，-SVM和VIP-SVM模型均在使用7个遥感指数的时候模型估算效果几乎达到最好，可见相关系数分析和VIP法耦合支持向量机回归算法的建模效果较好；随机森林回归模型中，OOB-RF模型的2最高，RMSE最低，且所用参数遥感仅为6个，可知袋外数据重要性分析法耦合随机森林回归算法建模较其他两种筛选排序方法好。

基于OOB-RF模型对研究区水稻产量进行估算，结合研究区水稻空间分布图绘制了水稻产量空间分布图，如图4所示。图中研究区内白色部分为非水稻种植处，从图中可以看出水稻产量大多处于6 500～6 700 kg/hm2，与2019年当地整体产量情况相符。其中水稻高产像元在研究区西部较为密集，研究区内空间上水稻产量出现的变化，可能与农户的不同生产管理制度有关。

图4 基于OOB-RF模型的水稻产量空间分布图

3 讨论

本文采用水稻4个关键生育期的遥感指数作为自变量，分别使用相关性分析、VIP和OOB方法对指数进行筛选，结果表明对水稻产量敏感的指数主要分布在孕穗期、抽穗期和乳熟期，其中处于抽穗期的最多，主要是因为分蘖期处于生育前期，所得到的作物参数，难以预测水稻生育后期的长势及生物量的积累，并且农民后期的生产管理也会影响作物最终的产量。从两种指数筛选排序的结果可以看出，其中排序靠前的为抽穗期的遥感指数，排序靠后的为其他两个生育期的指数，根据本文建模结果可以看出随着指数的增加，多生育期指数加入建模，模型的效果有所提高，这说明多时相数据复合建模比单一时相的数据能更好的估算水稻产量，这与程乾[6]的研究一致。

本文利用3种不同的指数筛选方法耦合3种不同的机器学习方法建立-PLS，VIP-PLS，OOB-PLS，-SVM，VIP-SVM，OOB-SVM，-RF，VIP-RF，OOB-RF九种模型对水稻产量进行估算，发现不同的指数筛选方法与不同的统计回归模型模型耦合建模效果不同，相关性分析指数筛选排序方法比VIP和OOB指数筛选排序方法与支持向量机模型更契合，VIP和相关性分析指数筛选排序方法比OOB指数筛选排序方法与偏最小二乘模型更契合，OOB指数筛选排序方法比相关性分析和VIP指数筛选排序方法更与随机森林回归模型更契合。这是因为不同的指数筛选方法其中的算法和模型算法的契合度不一样，VIP方法与偏最小二乘回归模型更加契合，是因为VIP法是一种基于偏最小二乘回归的变量筛选方法，它通过相关自变量综合的主成分来判断自变量对应变量的解释能力[27-28]，而偏最小二乘回归模型是利用自变量的主成分来进行回归建模，VIP法筛选出的自变量的主成分对应变量解释能力较强，有利于偏最小二乘回归模型建模；OOB方法与随机森林回归模型契合，是因为OOB方法中对变量重要性判断依据是根据变量在随机森林回归模型中参与建模的贡献度来判断的[31]，岳继博等[15]研究也发现OOB法与随机森林模型耦合建模效果较好；相关系数分析法，作为一种常用的较为基础的变量筛选分析方法，其具有较好的普适性，在与3种模型的结合中模型的精度都达到了较好的效果。

本研究使用的MODIS数据，空间分辨率为500 m，单个像元的覆盖面积很大，许多像元中必然覆盖着其他植被或者裸土，这导致许多像元的光谱反射率不能完全的反映水稻的生长状态，因此遥感植被指数和光谱发射率与水稻产量相关性会较低。水稻的生长是个复杂的过程，其受生长环境和气候条件的影响，本文因数据有限并未考虑其中。以上原因都会降低了模型的水稻产量估算精度。精确的作物估产模型应该考虑到作物本身的生长环境及气象等因素，今后研究将加入这些因素并选择高分辨率卫星数据以提高模型的估产效果。

4 结论

本文基于MODIS光谱数据和水稻产量实测数据，利用相关系数、变量投影重要性和袋外数据重要性分析3种指数分析筛选方法分别耦合偏最小二乘算法、随机森林算法和支持向量机算法构建了9种水稻估产模型，对比了不同指数筛选方法与统计回归算法建模的耦合效果，得出了研究区水稻产量估算的最佳模型。本研究主要有以下结论：

1）在相关性分析法和变量投影重要性分析法分别耦合随机森林、支持向量机和偏最小二乘法建立水稻估产模型中，支持向量机和随机森林回归模型均取得了良好的建模验证精度，其中OOB-RF模型精度最高, 其模型验证决定系数为0.742，均方根误差为206 kg/hm2，归一化均方根误差为3.10%。

2）不同的指数分析筛选方法与回归统计模型的契合程度不同。本研究中，对于支持向量机回归算法而言，相关性分析法和变量投影重要性分析法比袋外数据重要性分析法更能提高模型的精度，其中-SVM和VIP-SVM的模型2达到0.7以上，而OOB-SVM的只有0.685，且-SVM和VIP-SVM的RMSE比OOB-SVM低；对于偏最小二乘回归算法而言，变量投影重要性分析法和相关性分析法比袋外数据重要性分析法对模型精度提高作用大，其中-PLS和VIP-PLS在使用使用较少遥感参数的情况下模型2达到0.65以上，RMSE低于256 kg/hm2，而OOB-RF使用较多的遥感参数2仅为0.645，RMSE为265 kg/hm2；对于随机森林回归算法而言，袋外数据重要性分析比其他两种指数筛选方法更加契合，OOB-RF在使用较少的遥感参数的情况下模型2达到0.742，RMSE为206 kg/hm2，而-RF和VIP-RF使用更多的遥感参数模型2分别为0.730和0.731，且RMSE都为211 kg/hm2，精度较OOB-RF低。

[1] 江东，王乃斌，杨小唤. 我国粮食作物卫星遥感估产的研究[J]. 自然杂志，1999(6)：351-355.

Jiang Dong, Wang Naibin, Yang Xiaohuan. Study on forecasting of crop yield using satellite remote sensing in China[J]. Chinese Journal of Nature, 1999(6): 351-355. (in Chinese with English abstract)

[2] Wigneron J P, Combal B, Wegmuller U, et al. Estimation of microwave parameters of crops from radiometric measurements[J]. International Journal of Remote Sensing, 1996, 17(14): 2875-2880.

[3] 钱永兰，侯英雨，延昊，等. 基于遥感的国外作物长势监测与产量趋势估计[J]. 农业工程学报，2012，28(13)：166-171.

Qian Yonglan, Hou Yingyu, Yan Hao, et al. Global crop growth condition monitoring and yield trend prediction with remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(13): 166-171. (in Chinese with English abstract)

[4] 尚松浩，蒋磊，杨雨亭. 基于遥感的农业用水效率评价方法研究进展[J]. 农业机械学报，2015，46(10)：81-92.

Shang Songhao, Jiang Lei, Yang Yuting. Review of remote sensing-based assessment method for irrigation and crop water use efficiency[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(10): 81-92. (in Chinese with English abstract)

[5] 徐新刚，吴炳方，蒙继华，等. 农作物单产遥感估算模型研究进展[J]. 农业工程学报，2008, 24(2)：290-298.

Xu Xingang, Wu Bingfang, Meng Jihua, et al. Research advances in crop yield estimation models based on remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2008, 24(2): 290-298. (in Chinese with English abstract)

[6] 程乾. 基于MOD13产品水稻遥感估产模型研究[J]. 农业工程学报，2006，22(3)：79-83.

Cheng Qian. Models for rice yield estimation using remote sensing data of MODl3[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2006, 22(3): 79-83. (in Chinese with English abstract)

[7] Ren J, Chen Z, Zhou Q, et al. Regional yield estimation for winter wheat with MODIS-NDVI data in Shandong, China[J]. International Journal of Applied Earth Observation and Geoinformation, 2008, 10(4): 403-413.

[8] 朱再春，陈联裙，张锦水，等. 基于信息扩散和关键期遥感数据的冬小麦估产模型[J]. 农业工程学报，2011，27(2)：187-193.

Zhu Zaichun, Chen Lianqun, Zhang Jinshui, et al. Winter wheat yield estimation model based on information diffusion and remote sensing data at major growth stages[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(2): 187-193. (in Chinese with English abstract)

[9] Schwalbert R A, Amado T, Corassa G, et al. Satellite-based soybean yield forecast: Integrating machine learning and weather data for improving crop yield prediction in southern Brazil[J]. Agricultural and Forest Meteorology, 2020, 284: 107886.

[10] Ji B, Sun Y, Yang S, et al. Artificial neural networks for rice yield prediction in mountainous regions[J]. The Journal of Agricultural Science, 2007, 145(3): 249-261.

[11] 周亮，慕号伟，马海姣，等. 基于卷积神经网络的中国北方冬小麦遥感估产[J]. 农业工程学报，2019, 35(15)：119-128.

Zhou Liang, Mu Haowei, Ma Haijiao, et al. Remote sensing estimation on yield of winter wheat in North China based on convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 119-128. (in Chinese with English abstract)

[12] 曾妍，王迪，赵小娟. 基于支持向量回归的关中平原冬小麦估产研究[J]. 中国农业信息，2019，31(6)：10-20.

Ceng Yan, Wang Di, Zhao Xiaojuan. Study on yield prediction of winter wheat in Guanzhong Plain based on SVR[J]. China Agricultural Informatics, 2019, 31(6): 10-20. (in Chinese with English abstract)

[13] 黎锐，李存军，徐新刚, 等. 基于支持向量回归（SVR）和多时相遥感数据的冬小麦估产[J]. 农业工程学报，2009，25(7)：114-117.

Li Rui, Li Cunjun, Xu Xingang, et al. Winter wheat yield estimation based on support vector machine regression and multi-temporal remote sensing data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2009, 25(7): 114-117. (in Chinese with English abstract)

[14] Shiu Y, Chuang Y. Yield estimation of paddy rice based on satellite imagery: Comparison of global and local regression models[J]. Remote Sensing, 2019, 11(2): 111.

[15] 岳继博，杨贵军，冯海宽. 基于随机森林算法的冬小麦生物量遥感估算模型对比[J]. 农业工程学报，2016，32(18)：：175-182.

Yue Jibo, Yang Guijun, Feng Haikuan. Comparative of remote sensing estimation models of winter wheat biomass based on random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(18): 175-182. (in Chinese with English abstract)

[16] 杨北萍，陈圣波，于海洋，等. 基于随机森林回归方法的水稻产量遥感估算[J]. 中国农业大学学报，2020，25(6)：26-34.

Yang Beiping, Chen Shengbo , Yu Haiyang, et al. Remote sensing estimation of rice yield based on random forest regression methone[J]. Journal of China Agricultural University, 2020, 25(6): 26-34. (in Chinese with English abstract)

[17] Hunt M L., Blackburn G A, Carrasco L, et al. High resolution wheat yield mapping using Sentinel-2[J]. Remote Sensing of Environment, 2019, 233: 111410.

[18] Sakamoto T. Incorporating environmental variables into a MODIS-based crop yield estimation method for United States corn and soybeans through the use of a random forest regression algorithm[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 160: 208-228.

[19] 谭昌伟，罗明，杨昕，等. 运用PLS算法由HJ-1A/1B遥感影像估测区域小麦实际单产[J]. 农业工程学报，2015，31(15)：161-166.

Tan Changwei, Luo Ming, Yang Xin, et al. Remote sensing estimation of wheat practical yield on regional scale using partial least squares regression algorithm based on HJ-1A/1B images[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(15): 161-166. (in Chinese with English abstract)

[20] Zeng W, Xu C, Gang Z, et al. Estimation of sunflower seed yield using partial least squares regression and artificial neural network models[J]. Pedosphere, 2018, 28(5): 764-774.

[21] Huete A R. A soil-adjusted vegetation index (SAVI)[J]. Remote Sensing of Environment, 1988, 25(3): 295-309.

[22] Rondeaux G, Steven M, Baret F. Optimization of soil-adjusted vegetation indices[J]. Remote Sensing of Environment, 1996, 55(2): 95-107.

[23] Priebe S, Huxley P, Knight S, et al. Application and results of the manchester short assessment of quality of life (Mansa)[J]. International Journal of Social Psychiatry, 1999, 45(1): 7-12.

[24] 赵德银，张菁，王爽，等. 基于相关系数指标筛选法的油田集输泵机组用能评价体系研究[J]. 数学的实践与认识，2021，51(2)：137-144.

Zhao Deyin, Zhang Jing, Wang Shuang, et al. Study on energy consumption evaluation system of oil field gathering pump unit based on correlation coefficient index screening method[J]. Mathematics in Practice and Theory, 2021, 51(2): 137-144. (in Chinese with English abstract)

[25] de Almeida M R, Correa D N, Rocha W F C, et al. Discrimination between authentic and counterfeit banknotes using Raman spectroscopy and PLS-DA with uncertainty estimation[J]. Microchemical Journal, 2013, 109: 170-177.

[26] Chavana-Bryant C, Malhi Y, Anastasiou A, et al. Leaf age effects on the spectral predictability of leaf traits in Amazonian canopy trees[J]. Science of the Total Environment, 2019, 666: 1301-1315.

[27] 张政，冯国双. 变量投影重要性分析在自变量筛选中的应用[J]. 现代预防医学，2012，39(22)：5813-5815.

Zhang Zheng, Feng Guoshuang. Application of variable importance for projection in the variables selection[J], Modern Preventive Medicine, 2012, 39(22): 5813-5815. (in Chinese with English abstract)

[28] Xing Z, Chen J, Zhao X, et al. Quantitative estimation of wastewater quality parameters by hyperspectral band screening using GC, VIP and SPA[J]. PeerJ, 2019, 7: e8255.

[29] 方匡南，吴见彬，朱建平，等. 随机森林方法研究综述[J]. 统计与信息论坛，2011，26(3)：32-38.

Fang Kuangnan, Wu Jianbin, Zhu Jianping, et al. A review of technologies on random forests[J], Statistics & Information Forum, 2011, 26(3): 32-38.(in Chinese with English abstract)

[30] 宋述芳，何入洋. 基于随机森林的重要性测度指标体系[J]. 国防科技大学学报，2021，43(2)：25-32.

Song Shufang, He Ruyang. Importance measure index system based on random forest[J]. Journal of National University of Defense Technology, 2021, 43(2): 25-32. (in Chinese with English abstract)

[31] Wold S, Sjöström M, Eriksson L. PLS-regression: A basic tool of chemometrics[J]. Chemometrics and Intelligent Laboratory Systems, 2001, 58(2): 109-130.

[32] 于雷，洪永胜，耿雷, 等. 基于偏最小二乘回归的土壤有机质含量高光谱估算[J]. 农业工程学报，2015，31(14)：103-109.

Yu Lei, Hong Yongsheng, Geng Lei, et al. Hyperspectral estimation of soil organic matter content based on partial least squaresregression[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(14): 103-109. (in Chinese with English abstract)

[33] 王海峰. 基于高光谱遥感的土壤水盐监测模型研究[D].杨凌：西北农林科技大学，2019.

Wang Haifeng. Hyperspectral Remote Sensing Based Models for Soil Moisture and Salinity Prediction[D]. Yangling: Northwest A&F University, 2019. (in Chinese with English abstract)

[34] Xiao Z, Li Y, Feng H. Modeling soil cation concentration and sodium adsorption ratio using observed diffuse reflectance spectra[J]. Canadian Journal of Soil Science, 2016, 96(4): 372-385.

Comparation of rice yield estimation model combining spectral index screening method and statistical regression algorithm

Wang Yaomin1, Chen Haorui3※, Chen Junying1,2, Wang Huiyun1, Xing Zheng1, Zhang Zhitao1,2

(1.712100,; 2.712100; 3.100048)

A crop yield is one of the most important parameters in agricultural production. An accurate estimation of regional crop yield can greatly contribute to agricultural production management and national food policy. However, only a few studies have been focused on the combined effects of different exponential screening and statistical regression at present, even though there are various models of crop yield estimation. In this study, a comparative investigation was performed on the three types of index screening and three regression models, in order to explore the coordinated effect of the estimation model for the rice yield. The influence mechanism was also proposed to achieve an optimal yield estimation model suitable for the local production conditions. An important rice-producing area, the Sanjiang Plain in the Heilongjiang Province of China was taken as the study area. The rice unit yield and MOD09A1 remote sensing data were collected in the Bielahong River basin of the study area in 2019. After preprocessing, a total of 36 remote sensing variables were obtained, where four original bands and five vegetation indices of rice at the four growth stages, including the tillering, booting, heading, and milk ripening stage. Subsequently, the remote sensing variables were screened for the high sensitivity to the rice yield using the correlation coefficient (), Variable Importance in Projection (VPI), and Out-Of-Bag (OOB) data importance analysis. After that, nine estimation models of rice yield were constructed to combine with the Random Forest (RF), Support Vector Machine (SVM), and Partial Least Squares (PLS) regression, such as the-RF,-SVM,-PLS, VIP-RF, VIP-SVM, VIP-PLS, OOB-RF, OOB-SVM, and OOB-PLS. Several experiments were carried out for each model. Thus, the best input data was achieved for the optimal model. The determination coefficient, Root Mean Square Error (RMSE), and normalized Root Mean Square Error (nRMSE) were also used to evaluate the model. The results showed that the same index screening was fitted the different models with different degrees, where the OOB was more suitable for RF, the VIP was more suitable forand PLS, and thewas more suitable for SVM. Specifically, the PLS and SVM model performed better in the three modelings, whereas, the RF model performed the best, among which the combined OOB-RF model was the best, with the model determination coefficient of 0.742, RMSE of 206 kg/hm2, and nRMSE of 3.10%. Therefore, the index screenings varied greatly with the regression, where the OOB-RF model presented the best yield estimation in the study area. This finding can provide a strong theoretical reference to integrate the exponential screening and regression for the rice yield estimation model.

remote sensing; yield; models; rice; support vector machine; exponential screening method

10.11975/j.issn.1002-6819.2021.21.024

S25

1002-6819(2021)-21-0208-09

王耀民，陈皓锐，陈俊英，等. 光谱指数筛选方法与统计回归算法结合的水稻估产模型对比[J]. 农业工程学报，2021，37(21)：208-216.doi：10.11975/j.issn.1002-6819.2021.21.024 http://www.tcsae.org

Wang Yaomin, Chen Haorui, Chen Junying, et al. Comparation of rice yield estimation model combining spectral index screening method and statistical regression algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 208-216. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.21.024 http://www.tcsae.org

2021-06-22

2021-10-22

国家重点研发计划课题（2019YFC0409203）；国家自然科学基金（51779273）；中国水利水电科学研究院技术创新团队项目（ID0145B022021）

王耀民，研究方向为农业遥感研究与应用。Email：wangyaomin@nwafu.edu.cn

陈皓锐，博士，正高级工程师，研究方向为灌区水循环模拟与调控。Email：chenhr@iwhr.com