基于梯度提升算法的温室黄瓜株高生长模拟
2022-05-17翟子鹤陈小文高莉平张天柱
翟子鹤 陈小文 高莉平 张天柱*
(1.中国农业大学 水利与土木工程学院,北京 100083; 2.北京中农富通园艺有限公司,北京 100083)
黄瓜的表型可以直观的反映出特定品种的生长状况,对黄瓜的精细管理、可视化建模和遗传改良具有重要的研究意义。准确模拟黄瓜表型可以减少人工测量成本,跟踪监测作物长势,是黄瓜表型研究中的重要方向。目前主要通过经验回归模型和图像学技术对黄瓜表型进行模拟。但是经验回归模型在应用时需要确定较多的参数,应用性有限;基于图像学的模拟缺乏生物学基础。株高是黄瓜的重要表型性状,与叶面积指数(LAI)有一定关系,同时株高也是黄瓜高产稳产的基础。黄瓜株高与周围的小气候密不可分,有学者针对环境因子对黄瓜株高的影响进行了研究,为种植者提供了管理依据,同时也为黄瓜株高生长模拟提供了研究基础。
温室黄瓜株高的模拟可以实时评估作物长势,了解环控效果,从而优化环控目标,许多学者对温室黄瓜株高模拟进行了研究。Kahlen等利用光量和叶面积作为黄瓜株茎节间变化的驱动因子,用回归分析的方法建立了黄瓜最终节间长度的模拟模型;李青林等建立了黄瓜节间长度和节间直径的线性模型;李叶萌等分别以有效积温、活动积温和辐射积作为株高的影响因子,建立了黄瓜株高的Logistic模型,结果显示利用辐热积指标模拟的精度较高。上述模型具有较强的机理性,但模型应用需要依赖较多的经验因子,实用性不强,而且实际生产中黄瓜株高的变化往往受多种因素的共同影响,难以用特定的数学函数关系来表达。机器学习是通过一定的算法从大量的历史数据中去学习规律,从而对新的样本去做预测或者分类,不需要任何经验值,近年来已应用在部分作物株高的模拟中。但是基于机器学习算法的温室黄瓜株高的模拟研究尚不多见。
XGBoost(Extreme gradient boosting)模型对于中小数据集具有较佳的预测表现,且具有算法可拓展性强、对异常值包容性强、并行速度快和加入正则项以防止过拟合等优点。本研究在3个连栋玻璃温室中进行温室环境数据和黄瓜株高生长数据的采集,采用XGBoost模型分别建立黄瓜5个生育期的株高生长量模拟模型,并与LASSO模型进行对比试验,同时进行黄瓜5个生育期各因子与株高生长量的相关性分析,并结合XGBoost模型的特征重要性确定各生育期影响株高生长的重点因子,为温室黄瓜生产环境调控优化提供决策支持,同时为进一步建立黄瓜的产量和品质模型奠定基础。
1 材料与方法
1.1 温室概况
试验地点位于河北省邢台市南和区的连栋温室群,该温室群由1个育苗温室,10个生产温室,共11个连栋温室及中部连廊组成。温室顶部覆盖材料为钢化玻璃,温室立面为中空玻璃。温室立面底部的外墙材质为砖墙,高度为1.0 m,厚度为370 mm。单栋温室东西方向19跨,每跨长9.6 m,共182.4 m;南北方向共13个开间,每个开间4.0 m,共52.0 m。温室冬季的采暖方式为热水供暖,夏季采用湿帘-风机降温。栽培方式采用岩棉-椰糠复合栽培,行距为1.6 m,株距为25 cm。整枝方式为单秆整枝。灌溉方式为滴灌,在结果期之前和结果期分别使用不同的配方,每周根据基质的EC/pH进行浓度的动态调整,保证植株正常的营养供给。温室的环控由北京豪根道农业技术有限公司开发的气候环境控制系统(ISII)进行调控。本试验选用的温室为6、7和8号生产温室。
1.2 数据采集方法
单栋温室面积较大,温室不同方向的建筑结构和设备的不同会影响温室的保温性和光照分布的均匀性,进而造成温室不同区域内的环境存在较大差异,因此将温室划分为多个小区域,每个区域均布点测量。考虑到东西侧和南北侧的边际效应,东侧和西侧的传感器分别布置在距离东墙19.2 m和西墙28.8 m处,东西方向各传感器之间的距离为 67.2 m。南侧和北侧的传感器分别布置在距离南墙8.0 m和距离北墙12.0 m处,各传感器之间的距离为16.0 m。每个温室设9个测点,3个温室共27个测点。每个测点均采用普锐森社高精度温湿度传感器测量空气温湿度,采用普锐森社光照传感器测量光照强度,各传感器设备参数见表1。温湿度传感器布置在椰糠条上方1.5 m处,并在其探头处套一个铝箔盒使其免受太阳辐射,光照传感器布置在植株上方,并且保证其不受遮挡。温湿度传感器和光照传感器的采集间隔均设置为5 min。
黄瓜的品种为荷兰瑞克斯旺公司研制的‘冬之光’,该品种耐寒性好,抗病性强,适合于早春、早秋和秋冬温室栽培。黄瓜为三叶一心时定植,从定植后开始计算生育期。黄瓜自根部往上第6茎节处开始留果,由于黄瓜植株个体间存在差异,每个测点周围选择固定3棵试验植株进行株高测量,取其均值。由于黄瓜在温室中的长速较快,故设定测量频率为1天1次,测量时间为每天8:00—9:00。株高前期用钢卷尺测量岩棉上表面至生长点的高度,待植株长到一定高度后用30 cm直尺直接测量其生长量。
表1 传感器设备参数
Table 1 Sensor device parameters
传感器名称Sensor name型号Type量程Range精度Accuracy误差Error温度传感器 Temperature sensorPR-3003-WS-5-40~80 ℃0.1 ℃±0.1 ℃传感器湿度 Humidity sensorPR-3003-WS-50~100%0.1%±1.5%光照传感器 Light sensorPR-3002H-M-4G0~20万 lx1 lx±7.0%
试验共进行了3个播期的数据采集。7号温室黄瓜的生长周期为2020年8月28日—2020年12月7日,6号温室黄瓜的生长周期为2020年9月26日—2021年1月7日,8号温室黄瓜的生长周期为2020年10月29日—2021年2月25日。
1.3 数据预处理
生育期阶段划分:黄瓜在不同生育期的生长特性存在差异,为减小植株本体生长特性对模拟结果的影响,根据文献资料[22-23]和研究实际情况,将黄瓜的生长周期划分为5个阶段,分别建立株高生长量模拟模型,阶段划分依据如下:幼苗期:定植至第4~5片真叶展开;伸蔓期:第4~5片真叶展开至第一雌花完全开放;结果前期:第1雌花完全开放至根瓜采收;结果中期:根瓜采收至大量产瓜结束;结果末期:果实成熟缓慢至拉秧。将全部数据按照上述标准进行划分。
缺失值:光照传感器的数据传输方式为GPRS,且需外接电源,由于园区内的断电或者传输信号的不稳定会造成数据缺失,故对于缺失值先用3次样条插值法进行插值,对插值后产生的个别负值进行剔除,并用线性插值法再次进行插值。
异常值:对光照异常数据采用均值法进行平滑修复,即:
(1)
式中:x
为异常数据,lx;x
-1和x
+1为相邻有效数据,lx。特征选择:由日常管理经验和文献资料可知,温室内每天温湿度的上下限、平均温度、平均湿度、平均光强、最大光强、生长天数和水肥条件对黄瓜的生长发育有不同程度的影响,但是水肥条件在温室中往往较易控制,且本试验中植物在黄瓜结果前和结果后分别采用固定的配方,故在本研究中水肥作为定量因子,不作为模型特征。同一生育期不同的生长阶段植株本体生长势不同,为减小由于植物当前生长势差异对株高生长量造成的影响,引入当前生育期生长天数这一特征,每一生长期的第1天测量标记为“1”,第2天测量标记为“2”,依次类推。最终选取的特征为:日平均光强、日最大光强、日平均温度、日最高温度、日最低温度、日平均湿度、日最大湿度、日最小湿度和当前生育期生长天数。
1.4 模型建立方法
梯度提升(Gradient boosting)算法是Boosting中的一大类算法,其基本原理是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。采用决策树作为弱分类器的梯度提升算法被称为梯度提升树(Gradient boosting decison tree, GBDT)。XGBoost是基于梯度提升树的一种集成算法,其基学习器为分类回归树,损失函数对误差部分进行了二阶泰勒展开,提升了精准度。其目标函数分为2个部分,一部分是损失函数,一部分是正则化项(用于控制模型的复杂度,包括L正则化和L正则化)。目标函数表达式如下:
(2)
式中:n
为样本数,个;为整个模型第i
个样本的预测值,cm;y
为第i
个样本的真实值,cm;K
代表全部树的数量,颗。若使用L正则化,则正则化项展开式如下:
(3)
若使用L正则化,则正则化项展开式如下:
(4)
若同时使用L正则和L正则,则正则化项的展开式如下:
(5)
式中:γ
控制叶子数量,个;α
为L正则参数;λ
为L正则参数;ω
为决策树所有叶子节点值组成的向量;T
为叶子节点数,个。XGBoost模型中的各关键参数释义如下:N_estimators是集成算法中弱评估器的数量,此参数值越大,模型的学习能力越强,但是模型过拟合的风险越大,一般以300以下为佳;Max_depth为模型中树的最大深度,用于避免过拟合,此参数的值越大,代表模型越复杂,越容易过拟合,一般的取值范围为3~10;Min_child_weight控制叶子上所需的最小样本量,用于控制过拟合;Subsample控制对于随机抽取的用于训练的数据的比例,典型值为0.5~1.0;Learning_rate为迭代速率,通过减小每一步的权重以提高模型的鲁棒性,典型值为0.01~0.30。
LASSO回归是在普通线性回归的目标函数后面加入了L范数惩罚项,能够同时实现变量选择和参数估计。其目标函数如下:
(6)
式中:m
为样本数,个;h
(x
())为整个模型第i
个样本的预测值,cm;y
()为整个模型第i
个样本的实测值,cm;n
为参数数量,个;λ
为调整参数;θ
为回归系数。本研究用XGBoost模型分别建立黄瓜5个生育期的株高生长量模拟模型,并与LASSO模型进行对比分析。模型的输入量为日平均光强、最大光强、日平均温度、日最高温度、日最低温度、日平均湿度、日最大湿度、日最小湿度和当前生育期生长天数,输出量为每日株高生长量。
根据每个生育期数据集的大小进行训练集和测试集的划分。其中,苗期、伸蔓期、结果前期和结果末期的数据集均按照8∶2随机划分为训练集和测试集,结果中期的数据集按照9∶1随机划分为训练集和测试集。
1.5 模型评估指标
采用决定系数R
,均方误差(MSE),平均绝对误差(MAE)作为模型的评价分析指标。若模型的R
越大,MSE和MAE的值越小,则说明模型的拟合效果越好。(7)
(8)
(9)
式中:n
为样本数,个;为第i
个样本的预测值,为n
个样本的平均值,cm;y
为第i
个样本的真实值,cm。1.6 影响株高生长重点因子的确定方法
相关性分析和模型特征重要性得分均可在一定程度上反映各因子对株高生长的影响程度。Pearson相关系数法能在一定程度上反映因子间的相关性大小,但是由于其假设是线性相关,而实际上植物和环境因子之间并非完全的线性相关,所以不可仅仅依照Pearson相关系数法的结果确定影响株高生长的重点因子。XGBoost模型的特征重要性得分是基于已经建立好的模型所得出的,特征重要性得分一方面可以反映某一特征对模型预测精度的影响,同时也可在一定程度上反映某一特征对因变量的影响,体现模型的可解释性,所以把这2种方法的结果放在一块可以更好的确定哪个因子对株高生长量的影响最大:即若某因子和株高的相关性很强,同时这一因子的特征重要性得分也很高,即可认为这一因子对株高生长的影响最大。
采用SPSS软件进行各因子间、各因子与株高的Person相关分析,得到相关系数。相关系数的取值范围为[-1,1],相关系数的绝对值越大,代表相关性越强。基于已经建立好的各生育期XGBoost模型采用Gain(信息增益的泛化概念,在XGBoost中指节点分裂时,该特征带来信息增益优化的平均值)获得特征重要性得分,特征重要性得分取值范围为[0,1],得分越高,代表此特征对模型预测精度的影响越大。因子确定原则为:以相关性分析为主,取排名前3的相关性分析和特征重要性分析中的共有因子。
2 结果与分析
2.1 黄瓜株高生长量模拟模型的建立
机器学习的模型的预测效果一方面取决于数据本身的质量,另一方面取决于模型参数的调整。在调参过程中,首先进行XGBoost模型和LASSO各关键参数的范围设置,如表2所示。
由于XGBoost模型各关键参数的重要程度不同,且部分关键参数互相之间的影响很大,故将关键参数分为3组,按调参顺序依次为:N_estimators和Learning_rate,Max_depth和Min_Chil_weight,Subsample。使用网格搜索和交叉验证的方法依次对上述3组的参数组合进行调整,每个参数在参数设置范围内选取3~5个候选值,调整过程中上组参数调到最优后在下一组中固定最优参数,然后进行调整,依次类推。LASSO模型的关键参数Alpha为L正则化参数,用于控制模型的过拟合。经过多轮测试调参,最终确定的关键参数值如表3所示。
表2 模型参数范围设置
Table 2 Range setting of model parameters
模型Model参数Parameter范围RangeN_estimators 50~300Learning_rate0.01~0.30XGBoostMax_depth3~7Min_child_weight0~6Subsample0.50~1.00LASSOAlpha 0~10
表3 XGBoost和LASSO的模型参数
Table 3 Model parameters of XGBoost and LASSO
生育期Development stageXGBoostLASSO学习率Learning_rate最小样本和权重Min_child_weight最大树深Max_depth树的个数N_estimators随机采样比Subsample正则参数Alpha苗期 Seedling stage0.01662500.740.10伸蔓期 Tendril elongation stage0.03651250.740.20结果前期 Initial fruiting stage0.03632000.851.92结果中期 Full fruiting stage0.03352000.740.05结果末期 Last fruiting stage0.03432100.940.01
由最终所得的模型得到在测试集上各生育期株高生长量的模拟曲线(图1~5),由模拟曲线可以看出,在苗期、伸蔓期、结果前期和结果末期,XGBoost模型的拟合效果较好。而在结果中期,XGBoost模型的拟合效果一般,对于日平均株高生长量较多的少数点(>8 cm),XGBoost的模拟值明显偏小。LASSO模型在5个生育期的拟合效果均较差,模拟性能均低于XGBoost。LASSO模型在结果中期的模拟效果在5个生育期中最差,对日平均生长量较多的点和日平均生长量较低的点均不能较好的拟合,个别点的模拟值和真实值的差距过大。
图1 苗期株高生长量模拟曲线Fig.1 Simulation curve of plant height growth at seedling stage
图2 伸蔓期株高生长量模拟曲线Fig.2 Simulation curve of plant height growth at tendril elongation stage
图3 结果前期株高生长量模拟曲线Fig.3 Simulation curve of plant height growth at initial fruiting stage
图4 结果中期株高生长量模拟曲线Fig.4 Simulation curve of plant height growth at full fruiting stage
图5 结果末期株高生长量模拟曲线Fig.5 Simulation curve of plant height growth at last fruiting stage
表4 2种模拟方法的结果评价
Table 4 Evaluation of two simulation methods
生育期Development stage模型ModelR2MSEMAE训练Train测试Test训练Train测试Test训练Train测试Test苗期Seedling stageXGBoost0.8350.8210.2310.1410.2620.254LASSO0.4300.3630.7970.5020.6270.548伸蔓期Tendril elongation stageXGBoost0.8930.8051.1121.7170.7540.892LASSO0.6550.6433.5843.1351.4551.387结果前期Initial fruiting stageXGBoost0.8700.8011.3792.7380.8921.227LASSO0.5070.5025.2246.8321.7882.017结果中期Full fruiting stageXGBoost0.7720.5020.9962.5500.7661.192LASSO0.3420.2162.8734.0121.3231.448结果末期Last fruiting stageXGBoost0.8550.7010.8871.5630.7390.967LASSO0.5580.5232.7062.5001.3001.239
从模型的模拟效果来看,XGBoost在5个生育期训练集和测试集的R
均高于LASSO,MSE和MAE均低于LASSO,表明XGBoost在整个生育期的模拟性能要优于LASSO。XGBoost在苗期、伸蔓期、结果前期和结果末期的测试集的R
均大于0.700,具有良好的模拟性能,其中苗期的模拟效果最好,测试集的R
为0.821。XGBoost在结果中期的测试集R
为0.502,模拟性能一般。LASSO模型在5个生育期的测试集的R
均较低,模拟性能较差。从模型的稳定性上来看,XGBoost在苗期、伸蔓期、结果前期和结果末期的训练集和测试集的表现较为稳定,但在结果中期有一定波动,训练集和测试集的R
的差距较大,表明模型存在轻度过拟合的现象。LASSO在5个生育期的训练集和测试集的表现较为稳定。2.2 影响株高生长的重点因子的确定
由于因子组合的共线性现象会影响相关性分析结果的可信度,故需要先确定各生育期因子组合是否存在共线性,以便后面更好的进行影响株高生长的重点因子的确定。考虑温室生产的实际情况,规定若因子间相关系数的绝对值>0.85,即说明因子间存在共线性。采用Person相关数法进行分析,结果如表5所示。
表5 各生育期的共线性因子
Table 5 Collinearity elements of every stage
生育期Development stage共线性因子Collinearity element苗期 Seedling stage日平均温度和日最低温度、日平均湿度和日最大湿度、日平均湿度和日最小湿度伸蔓期 Tendril elongation stage无结果前期 Initial fruiting stage日平均湿度和日最大湿度结果中期 Full fruiting stage无结果末期 Last fruiting stage无
进行了各生育期因子间的共线性分析后即可进行影响株高生长的重点因子的确定(图6~图10)。苗期相关性分析和模型特征重要性得分见图6。在苗期和株高生长量相关性排名前3的因子从高到低依次为:当前生育期生长天数、日最大光强和日最低温度,其中当前生育期生长天数的相关系数最大,为0.40。当前生育期生长天数代表黄瓜在苗期不同阶段的长势情况。在苗期的初始,植株较小,整体长势较弱,随着生长天数的增加,植株叶片逐渐增加,植株自身的长势逐渐增强,株高的增量也逐渐增加。但是这一因子的值并非越大越好,若过大,表明植物可能存在徒长,影响开花结果,造成生殖生长和营养生长不平衡,这会影响植物的干物质积累,从而影响产量。因此在实际生产过程中,若随着生长天数的增加植物出现长速过快的情况,则需要及时采取措施来进行调整。同时当前生育期生长天数在模型的特征重要性得分中最高,这表明此特征对模型的预测结果影响最大,且由表5可知,当前生育期生长天数与其他因子间不存在共线性。故综合分析可得当前生育期生长天数是苗期影响株高生长的重点因子。
Lave表示日平均光强,Lmax表示日最大光强,Tave表示日平均温度,Tmax表示日最高温度,Tmin表示日最低温度,Have表示日平均湿度,Hmax表示日最大湿度,Hmin表示日最小湿度,Day表示当前生育期生长天数。下同。 Lave represents the daily average light intensity, Lmax is the daily maximum light intensity, Tave is the daily average temperature, Tmax is the daily maximum temperature, Tmin is the daily minimum temperature, Have means daily average humidity, Hmax is the maximum daily humidity, Hmin represents the minimum daily humidity, Day represents the growth days of the current growth stage. The same below.图6 苗期株高与各因子相关性分析(a)和模型特征重要性得分(b)Fig.6 Correlation analysis between plant height and various elements (a) and feature importance score of model (b) at seedling stage
伸蔓期相关性分析和模型特征重要性得分见图7。在伸蔓期和株高生长量相关性排名前3的因子从高到低依次为:日平均湿度、日平均温度和日最大湿度,其中日平均湿度的相关系数最大,为0.63(日平均湿度的相关系数为0.634 7,大于日平均温度的0.634 5)。湿度可以影响作物蒸腾,而蒸腾作用是植物吸收水分和营养物质的动力,空气湿度过大会降低植株的蒸腾作用,导致营养物质的吸收和运输能力下降;空气湿度过低,会造成叶片边缘以及叶尖的坏死,进而影响植株生长。在伸蔓期,黄瓜的长势较苗期显著增强,并由营养生长为主向生殖生长过渡,对水分和营养物质的需求加大,故此阶段日平均湿度对株高生长量的影响较大。同时日平均湿度在模型特征重要性得分中最高,且由表5可知伸蔓期日平均湿度与其他因子间不存在共线性。故综合分析可得日平均湿度是伸蔓期影响株高生长的重点因子。
图7 伸蔓期株高与各因子相关性分析(a)和模型特征重要性得分(b)Fig.7 Correlation analysis between plant height and various elements (a) and feature importance score of model(b) at tendril elongation stage
结果期相关性分析和模型特征重要性得分见图8~10。在结果前期、中期和后期,和株高生长量相关性最强的因子均为日平均温度,相关系数分别为0.72、0.55和0.49。温度对黄瓜的生长至关重要,结果期植株同时进行营养生长和生殖生长,且以生殖生长为主。适宜的温度可以让植株更加有效的进行光合作用,促进株高的生长,同时日平均温度这一特征在结果前期、中期和后期的特征重要性得分排名依次为第3、第1和第1,且由表5可知,这3个生育期日平均温度与其他因子均不存在共线性。故综合分析可得日平均温度是结果期影响株高生长的重点因子。
图8 结果前期株高与各因子相关性分析(a)和模型特征重要性得分(b)Fig.8 Correlation analysis between plant height and various elements (a) and feature importance score of model(b) at initial fruiting stage
图9 结果中期株高与各因子相关性分析(a)和模型特征重要性得分(b)Fig.9 Correlation analysis between plant height and various elements (a) and feature importance score of model(b) at full fruiting stage
图10 结果末期株高与各因子相关性分析(a)和模型特征重要性得分(b)Fig.10 Correlation analysis between plant height and various elements (a) and feature importance score of model(b) at last fruiting stage
3 讨论与结论
3.1 各生育期XGBoost模型的模拟性能
黄瓜的生长发育受温度、湿度和光照等多种环境因素的影响,采用1种或2种环境因子对黄瓜生长进行模拟难免产生一定的模拟误差。本研究选取3个高产连栋玻璃温室,以温室内日平均光强、日最大光强、日平均温度、日最高温度、日最低温度、日平均湿度、日最大湿度、日最小湿度和当前生育期生长天数为输入量,黄瓜株高每日生长量为输出量,采用XGBoost模型建立了黄瓜不同生育期的株高生长量模拟模型,并与LASSO模型进行了对比分析。XGBoost模型在黄瓜不同生育期的模拟性能均优于LASSO模型,苗期、伸蔓期、结果前期和结果末期表现出了较好的拟合效果,结果中期的拟合效果一般,本研究所建立的XGBoost模型的模拟性能整体上与李叶萌等通过辐热积法建立的黄瓜株高模拟模型较为接近,但是XGBoost模型不依赖3基点温度等经验因子,实用性更强。XGBoost模型在结果中期的模拟效果相对一般的原因可能是此阶段营养生长和生殖生长同时进行,株高的变化规律较其他时期更为复杂,模型对数据集的学习难度增加,导致模拟效果不如其他时期。从拟合曲线综合来看,XGBoost模型对每个时期中绝大部分数据点都进行了较好的拟合,但是日株高生长量较多点XGBoost模型没有很好的拟合上,在结果中期的表现尤为明显,这可能是由于数据集本身的样本量不多,而增长量较多的样本在数据集中的占比很低,模型不易学习到这种变化规律。曾志雄等利用XGBoost模型对猪舍温度预测的研究表明个别离群点和小规模数据集可能会降低模型的拟合效果,与本研究的结果类似。因此在后续研究中可增加样本数据量和优化特征工程,以进一步提高XGBoost模型的模拟性能。
3.2 各生育期影响株高生长的重点因子
在黄瓜的生长过程中,不同的环境因子对株高生长的影响程度在不断变化,确定黄瓜各个生育期影响株高生长的重点因子可以为温室黄瓜生产环境调控提供参考依据。本研究分别进行了黄瓜不同生育期株高生长量与各因子的相关分析,并结合各生育期已经建好的XGBoost模型的特征重要性得分来确定各生育期影响株高生长的重点因子。结果表明:苗期、伸蔓期和结果期影响株高生长的重点因子分别是当前生育期生长天数、日平均湿度和日平均温度。张帆洋等研究发现在黄瓜全生育期的中后段,日平均温度和株高生长量有极显著的相关性,与本研究的研究结果一致。由于温室的环境因子和时间因子存在一定的耦合关系,这种耦合关系是温室内多种因素综合作用的结果,往往较为复杂,可能有线性和非线性等多种形式,本研究所得出的各生育期影响株高生长的重点因子在确定过程中只考虑了线性耦合形式,而对于非线性耦合对最终结果的影响还有待进一步研究。
3.3 XGBoost模型的适用性
在中国现有的温室作物种植中,温湿度和光照是最为常见的环境监测因子,数据获取较为便利,同时由于XGBoost是基于数据驱动的模型,不依赖于经验因子,所以本研究所建立的温室黄瓜株高生长模拟模型具有通用的潜力,也可为温室作物其他生长量的模拟提供研究思路。由于本研究是在可控温室内进行的,黄瓜的生长未受到营养胁迫和环境胁迫,若外部环境和水肥条件变化较大,模型的模拟性能则会受到一定影响,所以该模型在适应性和稳定性方面存在一定局限性。本研究所建立的温室黄瓜株高生长模拟模型主要针对特定的黄瓜品种和栽培条件,对不同黄瓜品种和栽培条件还有待进一步研究。