APP下载

基于颜色参数和BP神经网络的紫叶李叶片花青素含量估算

2022-11-29刘秀英余俊茹刘长秀邓小菲

西北林学院学报 2022年6期
关键词:紫叶花青素线性

刘秀英,余俊茹,刘长秀,邓小菲

(1.绵阳师范学院 资源环境工程学院,四川 绵阳 621000;2.河南科技大学 农学院,河南 洛阳 471023)

植物色素时间和空间的变化信息是植被和生态系统中一系列关键特性和过程的一个有价值的指示器,其信息特征是植物生理生态状况的重要表征之一,因此,植物色素在生物圈中具有极其重要的作用。植物色素主要包括叶绿素(chlorophyll)、类胡萝卜素(carotenoid)和花青素(anthocyanin)3大类。花青素是一种广泛存在于自然界植物中的天然色素,是黄酮类化合物,水溶性强[1],因其所带羟基、糖基化、甲基化数目、糖种类、环境条件及连接位置等的影响而呈现不同颜色[2],在细胞液为酸性的条件下以内盐形式呈红色,碱性条件下则以醌式呈现蓝色[3],且其颜色的深浅与花青素含量呈正相关性[4]。

花青素的存在对植物有重要意义,如能络合金属离子,阻止具有氧化还原活性的金属离子加速生成自由基,清除多种氧自由基,是天然有效的抗氧化剂[5-6];是植物与食草昆虫、真菌之间协同进化的重要产物,具有抗虫、光保护作用,免除植物的光抑制、紫外线辐射和可见光引起的有害影响,不同时期、不同生长条件下的紫叶李花青素含量不同;调节渗透压,提高植物在恶劣条件下的耐受力[7-8]。紫叶李(Prunuscerasiferaf.atropurpurea)是常见的园林绿化树种,其果实作为一种天然抗氧化剂,具有护肝、养中益气、滋阴生津、润肠通便等药用和保健价值。紫叶李叶片含有较高的花青素含量,在整个生长季节均呈现紫红色[9],具有很高的观赏价值[10],是研究叶片花青素含量的典型样本。通过无损估测紫叶李叶片中花青素的含量,对于人们判断紫叶李的季节性变化规律、生长条件和受病虫害情况,及时采取保护措施具有重要意义[11]。

近年来,高效液相色谱法逐渐应用于花青素的测定[12-13],操作简单,测定速度快,但是损伤叶片,不能重复测定,且高效液相色谱仪价格昂贵,难以推广起来。传统的花青素提取和含量测定的湿化学法[14],虽能准确测出花青素的全量,但存在破坏植物叶片、持续的周期长和费时费力等缺点[15]。

本文在不破坏植物叶片组织的基础上,从可以重复测定植物叶片花青素含量入手,提出了一种基于颜色参数和BP神经网络的紫叶李叶片花青素含量估算方法。计算机视觉作为一种图像处理和分析技术,已经广泛应用于社会各个领域,其中对植物色素含量的测定研究居多[14,16-19]。BP神经网络(back propagation neural network,BPNN)作为目前应用最广泛的三大非线性处理方法之一,是能根据误差逆向传播算法训练的多层前馈神经网络,具有学习性、容错性和实时性的特点[20],多用于影像识别和近红外/高光谱分析领域,而结合颜色参数和BP神经网络估测花青素含量的研究尚少[20-24]。通过提取紫叶李叶片R、G、B(红、绿、蓝色彩空间)值,与测得的花青素含量进行皮尔逊相关分析,选择相关系数绝对值较大的颜色参数建立一元线性回归(single linear regression,SLR)模型、逐步多元线性回归(stepwise multiple linear regression,SMLR)模型,同时引入BP神经网络建立模型,进行非线性分析,对比各模型分析结果,选取紫叶李叶片花青素最优拟合模型,从而实现花青素含量的快速、无损估测。

1 材料与方法

1.1 材料

选取河南科技大学开元校区不同区域各个季节的紫叶李为试验对象,从每棵树中间部位不同方向随机摘取完整、无斑点、新鲜的紫叶李叶片5片,放入保鲜袋内,做好标记。将保鲜袋置于加有冰块的保温箱中,防止水分挥发,共采集有效样本166份。

1.2 试验过程

1.2.1 紫叶李叶片图像采集 叶片样本采集完成后,带到开阔区域进行拍照。使用配有EF系列镜头、有9个自动对焦点的Canon-EOS 500数码相机(Canon Inc.,Japan),相机具有22.3×14.9 mm CMOS 传感器(4752×3168像素),手动调节相机光圈F/5.6,感光度ISO为1 600,以此降低因相机晃动产生的模糊,每次拍照设置相同参数。将叶片平铺在黑色背景上,调整好三脚架高度(距离地面约40 cm)后,将相机固定在三脚架上,调整相机,使镜头与叶片样本垂直,在自然光照条件下获取叶片样本的数码照片。拍照时间选择晴朗天气的11:00-14:00,注意避免叶片上产生阴影,采集的图像形成JPG格式导入计算机[12]。

将JPG图像导入ENVI4.3遥感图像处理专用软件,根据叶片大小构建感兴趣区(region of interest,ROI),右键填充颜色,ROI区域选择成功;统计ROI区域内3个波段(R、G、B)的Mean均值,即为我们需要的RGB特征值。考虑到环境光照强度和物体阴暗对RGB颜色特征值的影响,将提取的特征值归一化为r、g、b来消除环境差异带来的误差[17],其关系式为:r=R/(R+G+B),g=G/(R+G+B),b=B/(R+G+B)。其中,r+g+b=1。

1.2.2 湿化学法测定花青素含量 采集完图像信息的样本叶片立即带回实验室进行色素测定。将叶片剪碎,取0.250 g分别放入有一系列编号的25 mL试管中,加10 mL盐酸乙醇溶液(由8.3 mL浓盐酸和91.7 mL 95%乙醇配置而成),在50 ℃水浴锅中浸提30 min;把溶液倒入25 mL容量瓶中,再加5 mL盐酸乙醇浸提15 min,如此反复,共浸提1 h。盐酸乙醇做参比液,在722型分光光度计上测定提取液在530、620、650 nm波长下的光密度值。按照以下方法计算花青素含量:

花青素的光密度值ODλ=(OD530-OD620)-0.1(OD650-OD620)

花青素含量(μmol/g) =(ODλ/ε)×(V/m)×1 000

式中:ODλ为花青素在530 nm波长下的光密度;ε为花青素摩尔消光系数4.62×104;V为提取液总体积(mL);m为取样质量(g);1 000为计算结果换算成μmol的倍数。

试验所得紫叶李样本的花青素含量的统计特征参数如表1所示。

表1 紫叶李样本花青素含量统计特征

1.2.3 数据处理、模型构建及验证 通过查阅资料,以R、G、B基本特征值为基础经过简单的算术组合和形式变换,共得到15种常见的颜色参数R、G、B、r、g、b、G-B、B/G、(G-B)/(G+B)、(G+B-R)/2R、G/(R+B)、B/(R+G)、R-B、(B+R)/2)-G、G/((B+R)/2)[14,18-19]。在SPSS25.0中对这些颜色参数与花青素含量进行皮尔逊相关分析和显著性检验,选择相关系数绝对值较大的颜色参数作为自变量,构建花青素含量的一元线性回归估算模型、多元逐步线性回归模型、BP神经网络估算模型[21]。随机选取[14,16]166个样本中2/3的样本构建模型,另外的1/3的样本作为验证集,用来验证模型的准确度。

(1)

式中:k为输入层参数个数;m为输出层参数个数;X为[1,10]的常数。

为验证模型的拟合精度,利用统计分析软件Excel2019对以上模型的预测值和实际值进行回归拟合,以决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)及显著性检验来评价模型的拟合程度,计算公式如表2所示。其中,决定系数越接近于1,表明预测值与实际值的拟合程度越高;均方根误差越小,表示预测值与实际值的偏离度越小,拟合精度越高;平均绝对误差越小,表示预测值和观测值之间绝对误差的平均值越小,预测效果越好[18,27]。

表2 模型评价指标

2 结果与分析

2.1 颜色特征参数与花青素含量的皮尔逊相关分析

通过对15个颜色参数与实测花青素含量的Pearson相关分析[28],得到相应相关系数及显著性检验结果如表3所示。结果表明,有14个颜色参数与花青素含量存在极显著相关性(P<0.01);B与花青素含量的相关性较弱,但当与其他参数组合变换之后,表现出的相关性较强,相关系数绝对值>0.7的特征参数都是经过G和B变换之后的颜色参数;参数G-B与花青素含量的相关性最好,相关系数达-0.820;大部分颜色特征参数的相关系数的绝对值>0.5,具有较好的拟合性。

表3 花青素含量与颜色参数的相关分析

2.2 逐步多元线性回归模型

以上述15个颜色参数为自变量,在SPSS中构建花青素含量的逐步多元线性回归估测模型,结果如表4所示。从表4可以看出,此次逐步多元回归模型共进行了2步:第1步输入变量G-B,第2步输入r。其余变量均排除,从模型的共线性诊断来看,输入的2个参数的VIF为1.435,远<10,因此二者不存在多重共线性。最终模型的结果显示,花青素含量与颜色参数的相关系数达到0.840,R2达到了0.706,显著性检验达极显著水平,具有较强的相关性。

表4 模型摘要c

根据初始建模结果,以参数G-B和r作为自变量,随机选取全部样本中的111份作为建模集,剩余55份作为验证集构建模型,分析结果如表5所示,标准化残差的正态分布P-P图和残差图分别如图1、图2所示。由表5可知,建模集和验证集的相关系数均>0.800,达到极显著水平,RMSE分别为0.630和0.616,离散程度均较小;MAE分别为0.495和0.509,说明预测值的平均绝对误差较小。图1中,实际与预测累积概率基本在一条直线上,服从正态分布;图2是关于花青素含量作为因变量的标准化残差散点图,以0点为对称轴,可以看出,各散点平均分布在其附近,无明显偏正或偏负,表明参数G-B和r与花青素含量之间的线性关系是准确的。以上说明SMLR模型与花青素含量的拟合精度较高,可以用来估测紫叶李花青素的含量。

图1 建模和验证集标准化残差的正态P-P图

图2 回归标准化残差与预测值的残差

表5 排除非显著影响变量后的多元逐步回归建模及验证结果

2.3 一元线性回归模型

首先筛选参数。根据表3的皮尔逊相关分析结果,选取R、G、B基础特征参数,r、g、b归一化参数及相关系数>0.7的颜色参数G-B、B/G、(G-B)/(G+B)在SPSS中构建多元线性回归估测模型,模型排除了对花青素含量没有显著影响的参数B和b,保留了R、G、r、g、G-B、B/G和(G-B)/(G+B)7个颜色参数。利用这些参数构建的一元线性回归模型见表6。由表6可知,经G和B变换所得的参数与花青素含量的拟合程度较好;参数G-B的相关性最好,建模集的决定系数达0.699,验证集的决定系数达到0.601,RMSE和MAE是这些参数中最小的,说明用参数G-B预测的花青素含量离散程度最小,且预测平均绝对误差最小,与实测值的拟合程度最好,在满足要求精度的情况下,可以用来快速估测紫叶李叶片花青素的含量,但是建模仅用了1个颜色参数,模型的估算精度有限。

表6 颜色特征参数与花青素含量之间的一元线性回归模型

2.4 BP神经网络模型

用上述7个参数作为BP神经网络的输入层,试错法确定隐含层最佳节点数为6,花青素含量实测值作为输出层,构建一个网络结构为7-6-1的BP神经网络模型,通过试错法得到的最佳模型的训练结果及标准化残差散点图如图3、图4所示。由图可知,建模集和训练集的结果都表现出较好的相关性;建模集和验证集的相关系数均达极显著水平,R2分别为0.883和0.796,RMSE分别为0.412和0.462,离散程度很小;MAE分别为0.323和0.353,说明建模集和验证集预测值的平均绝对误差均较小,预测效果较好;BP模型中标准化残差散点图表明,各散点平均分布在0点对称轴附近,无明显偏正或偏负,表明BP神经网络的预测值与实测值之间关系是准确的。

注:output_train,anth; output_test,anth分别表示用来建模的花青素含量,建模集自变量代入方程后得出的因变量预测值;验证模型的花青素含量和验证集自变量输入方程以后得出的预测值。

图4 回归标准化残差与预测值的残差

3 讨论

紫叶李叶片含有较高浓度的花青素,其含量影响着紫叶李的生长状况、光合作用和观赏价值,前人研究花青素大多是通过湿化学法[29]和高效液相色谱法,这些方法能够准确测定花青素含量,但费时费力,损伤叶片;也有基于特征波长的光谱估测[30],这种方法简单、高效,能够实现叶片花青素的无损估测,但是采集反射光谱数据所用仪器为美国Spectra Vista公司生产的SVC HR-1024i便携式光谱仪,价格昂贵,难以普及。本研究使用的数码相机价格友好,操作简单,且利用颜色参数和花青素含量建立的模型准确度高于光谱估测,为花青素含量估测的良选。

从表1可知,花青素含量与颜色参数G-B呈负相关关系,说明G-B对花青素含量预测呈负影响。从一元线性回归预测模型的参数可知,颜色参数G-B对花青素含量的预测效果最好。从多元逐步回归预测模型的参数可知,颜色参数G-B、r对花青素含量的预测效果最好,并且G-B和r对花青素含量的预测分别为负影响和正影响。颜色参数G-B是G与B的差值,式中利用B作为基数值,这样可以减少G的偏移噪声[31],从而可以提高花青素含量的预测精度。另外,前期进行牡丹叶片花青素含量的研究可知,随着花青素含量增加,绿光波段(550 nm)的吸收峰明显增大,当花青素含量增大到一定值时,绿光波段的吸收峰几乎消失[8],说明绿光波段对叶片花青素含量的影响最大,进一步证明了颜色参数G-B对花青素含量的预测效果最好是正确的。而r值是以R为基色,对其做归一化而得到的数值,因而r对光照强度的变化不敏感,从而能够消除光线差异引起的误差[14,17],所以r与G-B均能提高花青素含量的预测精度。

将BP神经网络模型与一元线性回归模型、逐步多元线性回归模型进行比较,从结果数据中可以看出,BP神经网络具有最好的建模效果,相关系数为0.940,达到极显著水平,决定系数达0.883,RMSE仅为0.412,MAE为0.323;其次是逐步多元线性回归,相关系数为0.851,达到极显著水平,决定系数为0.724,RMSE为0.630,MAE为0.495;一元线性回归模型的效果相对较差,特征参数G-B的相关系数为-0.820,决定系数为0.699,RMSE为0.803,MAE为0.645。验证集的拟合性变化规律与建模集一致,BP神经网络模型的验证效果最好,一元线性回归模型的验证效果相对较差。综上所述,BP神经网络估测模型效果最佳,逐步多元线性估测模型次之。BP神经网络将预测值与实测值的误差反向传播,进行权值修正,能够无限逼近任意复杂的非线性函数,使误差信号趋于最小[32]。如果隐层的传递函数是合理的,那么基于BPNN的任意一个隐层都可以实现任意精确的拟合[33]。但是BP神经网络模型每次训练得到的结果都不同,隐含层的层数和节点数需用试错法来确定,因此训练结果具有随机性,难以达到全面最优模型,因此BP神经网络的实用性还需进一步研究。就本研究而言,BP神经网络与其他回归模型相比,具有最优的建模效果。

4 结论

针对紫叶李叶片花青素的含量,利用数码相机获取紫叶李叶片的R、G、B特征值,并对特征值进行变换,建立了花青素含量与颜色特征参数的一元线性回归、逐步多元线性回归和BP神经网络估测模型,比较了不同模型的估测精度,得出的结论如下。

颜色参数与花青素含量之间具有明显的相关性,利用数码相机获取的颜色特征值估测紫叶李叶片花青素含量具有可行性,其中参数G-B与花青素含量的线性相关性最强,相关系数达-0.820。

BP神经网络模型的估测效果较好,建模集的R2、RMSE、MAE分别为0.883、0.412、0.323,验证集的R2、RMSE和MAE分别为0.796、0.462和0.353,其相关系数均达到极显著水平。

通过比较可知,BP神经网络模型的估测效果最好,能准确、有效地估测紫叶李叶片花青素的含量,其次为逐步多元线性回归模型,一元线性回归模型的预测效果相对较差。

猜你喜欢

紫叶花青素线性
山葡萄原花青素在食品中的稳定性研究
紫叶李叶片总多酚提取工艺优化及抗氧化活性研究
李腾双
紫叶李胶理化性质及其对小球藻生长的影响
线性回归方程的求解与应用
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
不同处理对刺葡萄愈伤组织花青素和原花青素生物合成的影响
ℝN上带Hardy项的拟线性椭圆方程两个解的存在性
干旱环境下的‘紫叶’狼尾草生长发育及生理特点分析