日光温室基质培生菜鲜质量无损估算方法
2021-10-13刘雪美
刘 林 苑 进 张 岩 刘雪美
(1.山东农业大学机械与电子工程学院, 泰安 271018; 2.山东省农业装备智能化工程实验室, 泰安 271018)
0 引言
设施栽培中作物鲜质量动态变化作为生长发育的指示性特征,是蔬菜长势无损监测的重要指标之一[1-2]。蔬菜鲜质量作为最重要的生理性状表征之一,可为蔬菜生长状况提供更准确的评估信息[3],如用于预测蔬菜生长期、确定最佳采收时间和预测蔬菜产量等[4-5],为栽培数字化管理提供精准数据支撑。
国内外学者对鲜质量估算做了深入研究,REYES-YANES等[6]提出了一种深度学习图像分割方法用于在水培生菜鲜质量估算中以冠层图像获取信息,建立作物尺寸与鲜质量间的回归模型。JUNG等[5]在环境可控的循环水水培生菜系统中,研究了基于机器视觉的形态学分析方法,将图像处理后的生菜冠层投影图像的像素数与离水称量的生菜实际鲜质量直接关联,建立了生菜冠层投影面积与实际测量鲜质量的关系模型。由于其离水鲜质量称量精度高,因而该模型预测精度高,由此也证明了植株冠层投影面积与其鲜质量间存在显著相关性。基于上述预测模型,JIANG等[7]开发了基于在线实时影像处理的水培生菜鲜质量估算系统,在生产环境控制质量较高的状况下,实现了生菜鲜质量的高精度估算。水培蔬菜生长条件下,植株允许暂时脱离营养液而直接称量,且不妨碍其继续生长,因而方便对鲜质量进行无损标定,容易实现无损的高精度鲜质量估算;但土培或基质培蔬菜条件下,虽然植株离开基质直接称量也能得到准确的即时鲜质量,但植株已无法继续生长,即无法对该植株生长过程中的鲜质量进行连续采集[8-9],难以直接建立该植株样本生长过程中冠层投影面积与其鲜质量变化序列的相关关系,因而使土培或基质培蔬菜在生长过程中的在线无损鲜质量估算成为技术难点。
另一方面,因为日光温室环控手段少、调控稳定性差,造成温室内的环境存在高低温、弱光多发频发等问题,使得蔬菜的生长发育受到影响,难以一直处于健康的生长状态[10]。温度和辐射是影响生菜光合作用的2个重要因子,即显著影响生菜生长过程中的体内含水率,也对叶片干物质积累和产量形成起着重要作用[11]。因而生菜鲜质量受温度和光照辐射的影响较大,从而最终显著影响生菜产量。与受控环境下的水培生菜不同,日光温室在温度和辐射变化较大,蔬菜生长难以维持在最佳生长状态,因而在叶厚等方面存在显著差异,因此沿用水培生菜的冠层投影图像面积很难准确估算日光温室条件下的生菜鲜质量。
日光温室条件下,不同批次种植的生菜所处的温度和辐射环境不同,存在相同冠层投影面积的生菜,可能存在叶片厚度、颜色、纹理等参数的差别,造成鲜质量差异。这些特征又很难通过冠层投影面积表征,造成日光温室基质培蔬菜难以仅仅依靠冠层投影面积估算鲜质量。本文提出基于生菜表型特征参数和生长过程环境参数融合的鲜质量估算方法,用于日光温室基质培环境下生菜个体和群体的鲜质量无损估算。
1 试验与方法
1.1 试验设计
试验地点(图1)为山东农业大学科技创新园(园艺实验站)的6号日光温室,跨度约8 m,高度约4 m,东西长约50 m(36.16°N,117.16°E)。温室北墙为实体墙,主采光面附有塑料薄膜,形成封闭小气候环境,留有通风口,用于换气除湿降温。冬季早晚依靠卷帘机提供动力完成棉被铺卷任务。试验材料为意大利生菜(河北茂华种业有限公司)。品种主要特性为:耐寒、耐湿、耐热、晚抽苔、株半直立、叶片近圆形、颜色翠绿、散叶不接球。将生菜种子放入穴盘中进行培育,待幼苗生长到“五叶一心”时,将生菜定植到基质槽中,选用蔬菜通用型基质作为生菜生长载体。缓苗成功后,选用山崎配方营养液连续浇灌,保证生菜正常生长,进行两批次生菜种植试验。
1.2 数据采集
生菜鲜质量受多种因素的影响,与生菜形状、颜色、纹理等表型特征因素和环境因素有关[12]。因此,利用这些特征快速估算生菜的鲜质量具有重要意义。为了能够低成本获取温室中生菜形状、颜色和纹理信息,待生菜缓苗成功后,每隔一段时间,利用可见光成像技术,获取随机样本的俯视图像和侧视图像。利用传感器实时获取温室内温度和光合有效辐射。
如图2所示,采用摄像头获取生菜的两类图像样本。俯视图像是生菜冠层垂直映射到基质表面的投影,侧视图像是生菜映射到竖直平面中的投影。两类图像经过数字图像处理技术得到生菜的形状、颜色和纹理等表型特征信息。形状特征选取冠层投影面积、冠层投影周长和株高。颜色特征选取生菜冠层图像中生菜区域H通道和S通道图像的特征值。纹理特征选取生菜区域H通道和S通道图像的熵值。采用温度传感器和光合有效辐射传感器获取温室内环境信息,经过数学运算得到累积辐热积作为环境特征。每次采集完样本图像后,将样本去除根部,用电子秤(精度0.01 g)称其质量,得到鲜质量。整个生长期中总共获取260株样本用于模型的建立和验证。为了验证模型的泛化能力和可靠性,从第2批次生菜中挑选3个时间(代表不同的生长阶段)采集10株样本数据作为模型的测试集。
1.3 特征提取
利用计算机(CPU:i7-8750,内存16 GB,显卡GTX1060,Windows 10操作系统),对样本图像进行处理得到生菜的形状、颜色和纹理等特征参数。
1.3.1特征分割
由于获取的图像中生菜与背景有明显的区别,为了能够获取冠层轮廓图像和株高图像,采用超绿色法分割图像。RGB颜色空间是当前使用最广泛的颜色系统之一,几乎包含了人类能感知的所有颜色[13]。超绿色法作为一种作物识别或者杂草识别最常用的灰度化方法,在RGB颜色空间中经过计算,图像中阴影、草和土壤等均能较明显地被抑制,提取绿色植物图像效果好,使得叶片图像更为突出[14]。超绿色法计算式为
Exg=2g-r-b
(1)
式中Exg——像素点经过计算后的值
r、g、b——像素点的R分量、G分量和B分量
利用超绿色法对生菜初步分割后,提取组合图像像素值分布直方图,如图3所示。从图3中看出,叶片像素值聚集在中间区域,背景像素值聚集在两侧,叶片与背景有明显区别。将两侧背景区域和叶片区域像素值的交界处作为阈值分割点,组合图像经过两次图像阈值处理后得到生菜冠层投影的二值图像。
为了验证分割方法的分割效果,参考GEORGE等[15]建立的图像分割性能指标,应用重合度和识别率作为分割性能评价指标[16],计算式为
(2)
(3)
式中e——识别区域与人工提取区域识别重合度,%
Fkq——分割图像的二值图
k——图像序号
q——分割方法序号
Fkp——Photoshop人工提取植物图像二值图
i0——图像行号j0——图像列号
m0——图像行数n0——图像列数
f——分割方法识别率,%
试验期间选择图像5幅,以在Photoshop软件中采用套绳工具人工提取的生菜区域作为参考依据[16-17],从表1看出,图像分割重合度不小于98.3%,识别率不小于97.9%。
表1 图像分割性能
1.3.2形状特征提取
生菜形状特征提取包括生菜冠层投影面积、周长和株高特征的提取,其中生菜冠层投影面积和周长特征提取过程如图4所示。首先,读取俯视投影原图信息,并提取RGB通道图像,将三通道图像信息按照超绿色法处理后得到组合图像,组合图像经过阈值处理后得到生菜冠层投影的二值图像。利用二值图像提取冠层轮廓并计算面积和周长。
生菜株高特征提取过程如图5所示。首先,读取侧视投影原图信息,并提取RGB通道图像,将三通道图像信息按照超绿色法处理得到组合图像,组合图像经过阈值处理分割后得到生菜高度二值图像。如果将生菜高度二值图像置于平面直角坐标系中,其中水平向右为x轴正方向,竖直向上为y轴正方向,则在直角坐标系中,二值图像像素点最低点为生菜基部,横坐标相同纵坐标最大的点形成的区域代表生菜冠层上部区域。将生菜冠层上部区域点的横坐标值不变,其纵坐标值减去生菜基部点的纵坐标值,构造的新点形成生菜高度轮廓曲线。因为生菜散叶呈现的高度也不一样,为了能够更全面反映植株高度,计算高度曲线轮廓上所有点纵坐标的平均值,将计算结果作为生菜植株高度的特征值。
为验证图像方法测量株高的准确性,从生菜高度轮廓曲线中选择3个点,用米尺人工测量实际生菜3个点对地高度,图像测量与人工测量株高如表2所示,其结果相对误差在2.5%以内。
表2 图像测量与人工测量株高比较Tab.2 Comparison of image measurement and artificial measurement of plant height
1.3.3颜色特征提取
由于人的视觉对亮度的敏感程度明显高于对颜色浓度的敏感程度,所以使用HSI颜色空间更能反映人类观察彩色的方式。在HSI颜色空间中,H和S都不受光强变化影响[18],因而用于描述生菜图像时能够更好地表征生菜的颜色和纹理情况。I表示强度或亮度,极易受到光强变化的影响,不易作为表征生菜的颜色和纹理情况。RGB转HSI通道[18]计算式为
(4)
式中h、s、i——像素点H分量、S分量和I分量
在提取生菜的颜色特征和纹理特征时,减少因为采集过程中光强对成像图像质量的影响,选取用于描述生菜图像时能够更好地表征生菜颜色情况的H通道和S通道图像作为计算图形[18]。生菜颜色特征提取过程如图6所示。首先,将RGB通道图像(图4b~4d),利用式(4)得到H通道和S通道分量图像,如图6a、6d所示。由于背景在整个图像中所占的比例比较大,在实际计算中,必须将背景部分去除,只提取生菜区域的H通道和S通道图像。将图6a、6d分别做掩膜运算,得到背景为黑色的图6b、6e。
掩膜运算是指用选定的物体、图形或图像,遮挡待处理的全部或局部图像,来控制图像处理区域,其中用于覆盖的特定图像称为掩膜图像[19]。如图7所示,以3×3的图像与3×3的掩膜图像进行运算为例:原图中的每个像素和掩膜图像中的对应像素进行运算,如果掩膜图像中的像素点为1,则原图中的像素点保留;如果掩膜图像中的像素点为0,则原图中的像素点被设置为0。
利用掩膜运算原理,将图4f中的冠层二值图像进行处理得到掩膜图像(将白色区域的像素点设置为0,黑色区域的像素点设置为1),在图6a和图6d做掩膜运算时,保留的像素点为生菜区域图像,其像素的频率分布直方图如图6c、6f所示。为了兼顾运算效率,选取生菜区域H通道和S通道像素值的众数作为颜色的特征值。
1.3.4纹理特征提取
纹理特征是一种区域性特征,用于表征像素的分布规律和变化规律,并能代表像素与其邻域的空间关系,在反映物体的表面粗糙度、颗粒度、光滑度、规范程度和随机性等方面较为客观,可以很好地兼容图像宏观性质与微观结构,可用于描述物体表面的结构组织排列信息及其与环境的关系[20]。在众多纹理特征中,熵值能够反映图像中纹理特征的非均匀程度,其值越大表示图像纹理越复杂[21],生菜的纹理特征选取生菜区域图像的H通道和S通道图像的熵值作为特征值。计算式为
(5)
式中ENT——熵值P(i,j)——图像像素
1.3.5生长环境特征提取
温度和辐射是影响生菜叶片生长的两个重要因子,对植物的光合作用、植株生长和产量形成起着重要作用。鲜质量作为衡量作物产量的重要指标,受温度和辐射的累积影响,温度和辐射对生菜鲜质量的影响可用累积辐热积来度量,具体计算公式为[22-23]
(6)
TEP=∑RTEP
(7)
(8)
式中Tb——生长下限温度,℃
Tm——生长上限温度,℃
Tob——生长最适温度下限,℃
Tou——生长最适温度上限,℃
T——环境温度,℃
RTE——相对热效应
RTEP——每日相对辐热积,MJ/(m2·d)
RTEi——第i小时内的相对热效应
PARi——第i小时平均光合有效辐射,MJ/(m2·d)
TEP——累积辐热积,MJ/m2
在栽培阶段,根据生菜生长发育期知识[11],本文设定Tb、Tob、Tou和Tm分别为5、15、30、40℃。
为了提高鲜质量估算精度和减小计算复杂度,将样本采集时刻前5 d的累积辐热积作为估算生菜鲜质量的生菜生长环境特征。
生菜样本部分表型中的形状、颜色、纹理特征和环境中累积辐热积如表3所示。
表3 部分生菜样本表型和环境信息Tab.3 Phenotypic and environmental information of some lettuce samples
1.4 模型建立
1.4.1数据集划分
数据集划分是模型实用性的关键,选择合适的训练集,能使模型预测能力增强[24]。一般训练集包括总样本50%~75%,试验共采集到样本260个,将数据按照7∶3的比例分为训练集和验证集。其中训练集数为182,验证集数为78。
1.4.2高斯过程回归
机器学习的高斯过程是一个通用的监督学习方法,高斯过程回归是使用高斯过程先验对数据进行回归分析的非参数模型。高斯过程回归中预测是对观察值的插值且带有概率,可以用来计算经验置信区间和超越概率,以便重新拟合预测,在小样本上能够获得泛化能力强的模型[25]。
1.4.3支持向量机回归
支持向量机回归是一种通过引入一个损失函数,使经验风险与置信风险之和最小化的回归分析方法,其遵循结构风险最小化原则,可以巧妙解决小样本、高维度、非线性问题,模型对未来数据具有较好的泛化能力[26]。
1.4.4线性回归
线性回归是利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计[27]。
1.4.5岭回归
岭回归是一种旨在消除最小二乘估计因多重共线性而引起的不良后果的回归估计方法,是一种有偏估计,由HOERL和KENNARD提出的一套改进方法[28]。
1.4.6神经网络回归
神经网络回归是模拟人脑神经元进行预测的一种经典机器学习算法,其特点是预测精度高,应用广泛,具备非常良好的非线性收敛能力, 并且在训练过程中具有简单高效的特点,可以模拟系统的非线性特征[29-32]。
1.5 模型评价指标
1.5.1决定系数
决定系数用于考察数据集样本预测值和真实值之间的相关程度,取值范围为0~1,越接近1,表明模型对数据拟合越好。
1.5.2误差
因为生菜在不同的生长阶段,样本鲜质量差别很大,所以不适合采用平方根误差、均方根误差作为模型的评价指标。相对误差RE是测量所造成的绝对误差与被测量真值的比值,更能反映生菜鲜质量样本点测量的可信程度。相对误差平均值MRE是所有样本点的相对误差的平均值,所以采用相对误差的平均值更适合描述生菜鲜质量估算模型,其值越小,表明模型对样本预测能力越高。相对误差标准差σ是所有样本点相对误差的标准差,采用相对误差标准差能够反映模型预测样本相对误差的波动程度,其值越小,表明模型对样本预测能力越高。
2 结果与讨论
2.1 生菜鲜质量预测最优模型
选用机器学习中的高斯过程回归、支持向量机回归、线性回归、岭回归和神经网络回归模型对训练集数据进行训练,建立训练模型。将验证集数据导入训练的模型中,用决定系数、相对误差平均值和标准差评价5种模型,选出最优模型。
从图8可以看出,日光温室生菜鲜质量估算的最优模型为高斯过程回归建立的模型。模型的决定系数为0.949 3,高于支持向量机、线性回归、岭回归和神经网络回归模型。模型相对误差的平均值和标准差分别为11.50%和11.21%,明显小于支持向量机回归、线性回归、岭回归和神经网络模型。这主要因为高斯过程回归模型中预测值是对观察值的插值,预测是带有概率,可以用来计算经验置信区间和超越概率,以便重新拟合预测,特别适用于小数据集预测模型[26-27]。其中线性回归模型和岭回归模型当生菜鲜质量比较小时,预测出的鲜质量有负值出现;神经网络回归当生菜鲜质量低于50 g时,预测出的鲜质量误差比较大。所以,利用高斯过程回归方法预测的生菜个体鲜质量更准确。
2.2 不同输入特征下模型比较
将模型输入分别去除颜色、纹理和环境特征后,利用剩余特征数据训练得到相关模型,分别定义为模型a、模型b和模型c,其中将模型输入原特征(带有颜色、纹理和环境特征)数据训练得到的模型定义为模型d。用决定系数、相对误差平均值和标准差,评价颜色、纹理和环境参数在生菜鲜质量估算中的作用。
如表4所示,对比模型d,模型a的R2减小0.020 9、MRE增加5.01个百分点、σ增加8.37个百分点,模型b的R2减小0.012 8、MRE增加1.97个百分点、σ增加2.01个百分点,模型c的R2减小0.015 0、MRE增加0.98个百分点、σ增加0.10个百分点,说明颜色、纹理和环境特征在生菜鲜质量估算中具有一定作用。一般来说,生菜外层叶子外轮廓表现为整株生菜冠层轮廓特征(冠层面积和冠层周长),中层或内层叶子很难通过整株生菜冠层轮廓特征表征。当生菜冠层轮廓特征比较接近时,如果生菜缺水,呈现的纹理和颜色特征会发生变化。另一方面,假设生菜历经5 d辐射和温度累积的影响后,如果生菜健康生长,叶片表现较厚,如果生菜不健康生长,叶片表现较薄。同时,由于叶片存在相互遮挡,叶片厚度将很难通过主视或俯视二维图像呈现。上述情况下若仅依靠冠层投影轮廓将很难准确估算生菜鲜质量,因此,颜色、纹理和环境特征参数在生菜鲜质量估算中有不可替代的作用。
表4 不同输入特征下回归模型性能参数比较Tab.4 Comparison of performance parameters of regression models under different input characteristics
2.3 生菜鲜质量模型分段预测能力
将验证集中生菜样本按照鲜质量分成3个区间,代表生菜生长不同阶段样本。评估利用高斯过程回归方法建立的模型对生菜不同生长阶段个体鲜质量的预测能力。
将验证集数据按照鲜质量真实值划分为0~55 g、55~102 g、102~300 g 3个鲜质量区间,每个区间26个样本数据,分别编号,得到样本区间的相对误差的平均值和标准差。从图9可以看出,0~55 g区间的预测生菜鲜质量相对误差的平均值和标准差明显大于55~102 g、102~300 g 2个区间,而且出现一个相对误差为74.06%的数据,表明当生菜鲜质量比较小时,鲜质量估算相对误差比较大,主要是因为当生菜比较小时,叶片薄且数量少,形状特征参数很容易受到外界环境(例如温度、光照、风速等)变化的影响;当生菜比较大时,生菜的叶片相对较厚、数量多且紧凑,形状特征参数不易受到外接环境变化的影响,由图9b生菜预测鲜质量的相对误差的平均值和标准差居中可以得到验证;在生菜生长后期,由于生菜的叶面积较大,根部吸收的水分和叶片蒸散的水分比较大,对生菜鲜质量的影响较前一阶段影响大,由图9c预测生菜鲜质量的相对误差的平均值和标准差比55~102 g区间大可以得到验证。
2.4 验证模型的泛化能力
在第2批次生菜的生长期内选择3个阶段,每个阶段选取10个样本数据,预测生菜群体的鲜质量,验证模型的泛化能力和可靠性。个体可以看作样本数量为1的群体,为了能够利用有限的样本获得不同数量的群体样本,将每阶段生菜样本做组合处理,具体步骤如下:
(2)计算第1阶段预测生菜群体鲜质量样本数为l的相对误差的平均值和标准差。
(3)依次选取第2、3阶段的样本,分别循环步骤(1)~(2),得到第2阶段和第3阶段的预测生菜群体鲜质量样本数为l(l=1,2,…,10)的相对误差的平均值和标准差。
如图10所示,可以看出模型预测个体(l=1)生菜鲜质量相对误差的平均值和标准差较大,预测生菜群体鲜质量的相对误差的平均值和标准差较小,预测生菜群体(l=10)鲜质量相对误差的平均值与预测的生菜个体(l=1)鲜质量相对误差的平均值在3个生长阶段分别相差4.44、5.71、5.89个百分点;随着群体样本数的增多,预测生菜群体鲜质量相对误差的平均值和标准差逐渐减小,其中相对误差的平均值最终趋于稳定,相对误差的标准差逐渐减小。主要因为生菜样本个体差异,预测的生菜个体鲜质量有正偏离,有负偏离,经过求和,抵消了一部分鲜质量差异,使得预测群体鲜质量的相对误差明显减小。
在实际的应用过程中,比较容易获取群体生菜的冠层投影图像信息,群体生菜的株高参数却不易获取[33]。所以在群体鲜质量估算时,研究去除株高特征参数的模型具有重要的意义。因此,将数据集中的株高特征参数去除,仅利用冠层投影图像中的形状特征(冠层投影面积和周长)、颜色特征、纹理特征和环境信息,采用高斯过程回归方法建立模型,验证模型对生菜群体鲜质量的预测能力,并将两种模型(有株高(模型1)、无株高(模型2))的预测能力做比较。生菜群体样本数量为10。
从图11可看出,模型1和模型2预测生菜群体鲜质量的相对误差比较接近,最大不超过1.54个百分点,说明采用模型2能够达到模型1估算生菜群体鲜质量的目的。模型2的输入数据集中去除了生菜株高这一维度的特征数据,导致模型2预测的个体鲜质量比模型1预测的相对误差波动大,表明模型2预测生菜个体鲜质量能力有所下降。然而,对于生菜群体鲜质量来说,较大的个体鲜质量误差,最终对群体的预测能力有可能增加,从图11b中模型2比模型1预测的生菜群体鲜质量的相对误差小得到验证。所以,模型1和模型2都能够达到准确预测生菜群体鲜质量的目的。对于实时监测生菜群体鲜质量的场所,采用模型2更具有优势。因为不需要获得生菜的株高信息,而仅需要获得生菜群体冠层图像就可以准确预测出群体鲜质量。因此,在无损监测生菜群体鲜质量方面,模型2比模型1更具有优势。利用上述方法预测的群体鲜质量,可为基质培绿叶菜类作物的栽培管理决策提供数据支撑。
3 结论
(1)提出了基于表型特征参数和生长过程环境参数融合的鲜质量估算方法,并用于日光温室基质培环境下生菜个体和群体的鲜质量无损估算。利用具有少样本建模优势的高斯过程回归方法,以生菜生长过程为对象,建立了表型参数和环境参数与生菜鲜质量的回归关系模型。
(2)通过采集同批次生菜样本个体在不同生长阶段的表型特征参数及其鲜质量,用于表征该生长点的作物表型参数与鲜质量的回归关系,通过在生菜全生育期上密集取样,获得了整个生长期上表型参数与鲜质量的完备表达。
(3)日光温室基质培生菜鲜质量估算,最优模型为高斯过程回归建立的模型,模型的决定系数R2为0.949 3,相对误差平均值为11.50%,相对误差标准差为11.21%。与支持向量机回归、线性回归、岭回归和神经网络回归模型相比,高斯过程回归模型更适用于小样本数据集建立的鲜质量估算模型,预测精度更高,相对误差更小。
(4)本文生菜鲜质量估算模型,可以预测出生菜在生长过程中个体鲜质量和群体鲜质量。虽然生菜的个体鲜质量预测相对误差比较大,但是生菜群体鲜质量预测相对误差较小,预测生菜群体鲜质量相对误差的平均值与预测的生菜个体鲜质量相对误差的平均值在3个生长阶段分别相差4.44、5.71、5.89个百分点;随群体数量的增加,预测生菜群体鲜质量相对误差的平均值和标准差逐渐减小。利用预测的群体鲜质量数据可为基质培绿叶菜类作物的栽培管理决策提供数据支撑。