APP下载

甘蓝型油菜分枝籽粒油酸含量的光谱估测

2022-03-16田容才卢俊玮官春云

中国油料作物学报 2022年1期
关键词:甘蓝型主茎油酸

田容才,卢俊玮*,官春云,2

(1.湖南农业大学农学院,湖南 长沙,410128;2.南方粮油作物协同创新中心,湖南 长沙,410128)

油酸是菜籽油脂肪酸的重要成分,高油酸菜籽油不仅营养价值高,而且稳定性好,耐贮藏[1]。因此在保持双低品质的基础上进一步提高油酸含量是油菜脂肪酸改良的热点[2]。油菜高油酸育种通常采用定向选择、杂交选育、诱变育种、基因工程及分子辅助标记选择等方法[3],但对其后代材料的筛选存在周期长、工作量大、专业性强等弊端[4],因此建立一种快速、无损、高效的油酸含量检测方法具有重要意义。

高光谱技术具有波段多、连续性强、信息量大等特点,已广泛应用于农作物品质检测[5,6]。近年来,国内外学者在应用光谱技术对油料作物脂肪酸成分检测方面进行了较多研究。Niewitetzki 等[7]利用近红外光谱技术实现了每小时500粒的单粒油菜种子油酸含量检测,其模型交叉验证R2达0.96。李建国[8]利用近红外光谱技术建立了单粒花生种子油酸含量估测的PLSR 模型,其建模集R2达0.91,RMSE 为3.46%,且应用该模型成功选育出高油酸花生品种中花215。Parsaeian[9]将数字图像技术与多层感知人工神经网络相结合,实现了对125 份不同基因型的芝麻籽的脂肪酸含量估测,其中对油酸估测R2为0.98,RMSE 为0.62%。Cantarelli 等[10]利用近红外漫反射光谱仪采集了100份向日葵种子光谱数据,从而建立了基于一阶微分光谱的PLSR 模型,实现了对葵花籽油酸含量的快速测定。Weinstock 等[11]运用近红外高光谱成像技术,实现了单粒玉米籽粒含油量和油酸含量估测,其PCA-PLSR 模型预测RMSE 分别为0.7%和14%。蒋蘋等[12]比较分析了PLS、PCR 和RBF 等3 种方法在油茶内部品质检测中的效果,得出RBF 效果最好,其中与油酸含量的交叉验证相关系数为0.94。郝勇[13]通过对原始光谱数据进行一阶求倒和多元散射校正的预处理,再采用变量组合集群分析降维,最终建立PLSR模型,实现了山茶油混合油品中油酸和亚油酸的快速测定。常涛[14]通过分析不同生育时期冠层光谱反射率与叶片叶绿素含量及成熟后籽粒含油量的相关关系,得出幼苗期冠层光谱反射率可进行含油量预测,实现高含油油菜种质资源的早期筛选。李施蒙[15]、吴建国[16]、高建芹[17]等应用近红外光谱法实现了油菜籽脂肪酸组分的估测。由此可知,大多数研究都是利用近红外光谱仪对油料作物的群体籽粒或单粒脂肪酸成分进行估测,应用高光谱仪器对甘蓝型油菜油酸含量检测研究较少,进行不同部位的籽粒油酸含量估测更是鲜见报道。

本研究将成熟收获后的44 份高油酸甘蓝型油菜按照主茎、一次分枝、二次分枝等部位进行划分,采集不同部位的籽粒反射光谱及对应的油酸含量数据,通过相关性分析与反射光谱特征相结合的方法筛选出可用于籽粒油酸含量估测的特征波长,从而建立基于原始及一阶微分光谱反射率的全波长和特征波长的不同部位籽粒油酸含量估测的SMLR、PLSR、PCR 模型,以及通过任意两波长组合构建光谱指数,建立基于光谱指数的一元线性模型,采用R2、RMSE 和RPD 对模型精度进行评价,以期找到用于高油酸甘蓝型油菜油酸含量估测的最佳部位,为高油酸油菜种质资源筛选提供一种低成本、快速的方法。

1 材料与方法

1.1 材料与试验设置

试验材料为湘油15 号辐射诱变后代中的高油酸定向育种材料,由湖南农业大学国家油料改良中心湖南分中心提供,共44 个。试验于2018 年9 月-2019 年5 月在湖南农业大学耘园基地(28°10' N,113°4' E,海拔44.9 m)进行,采用完全随机布置试验,小区面积1.8 m × 5 m,株行距15 cm × 25 cm。2018 年9 月24 日播种(穴直播,田间成苗后,每穴留单株),2019 年5 月8 日收获,施肥量为525 kg/hm2(复合肥15-15-15),其它管理同当地丰产田。

1.2 数据采集

1.2.1 籽粒样品采集 44 个小区各选择3 株长势一致,且具体代表性的植株地上部分,平铺于室内阴凉通风处,自然风干2 个月。按照主茎、一次分枝、二次分枝,脱粒、过筛、除杂。

1.2.2 光谱数据采集 使用LAMP Pro 50 W 主动光源,光源垂直于置物台正上方,垂直距离15 cm,探头向下与垂直方向呈30°夹角,与置物台中心距离9 cm。籽粒样品铺满于直径4 cm、高1 cm 的托盘内。采用美国ASD FieldSpec 3 地物波谱仪进行数据采集。光谱范围为350~2500 nm,光谱分辨率为3 nm @ 350~100 nm;10 nm @ 1000~2500 nm。首次使用热机15 min 并进行优化与白板定标,测试每个样品前重新白板定标。每次测量均重新混合取样,重复测量5次,记录光谱反射率的平均值。

1.2.3 籽粒油酸含量测定 采用美国Agilent GCMS 7980B 气相色谱分析脂肪酸组成。脂肪酸测定方法按照GB/T17376-2008 标准,取0.02 g 样品于2 mL EP 管中,磨碎,加入0.4 mol/L KOH-甲醇溶液400 μL 和乙醚石油醚1:1 混液800 μL,萃取4 h,加蒸馏水分层(静置30 min或高速离心1 min),取上清100 μL,加乙醚石油醚混液稀释至600 μL。色谱条件:以氮气为载气,HP-5 毛细管柱(30 m × 320 μm× 0.25 μm),恒流流速6.5 mL/mim,进样口温度250℃,检测器温度330℃;升温程序:初始温度为40℃,保存0.1 min,以720℃/min 升至350 ℃保持2 min,再以100℃/min 降至250℃保持10 min。分流比为30:1,进样体积1.0 μL。

1.3 方法

1.3.1 光谱指数选择 根据油菜光谱特征及其前人的研究成果[18~20],选取3 个常用的光谱指数用于油菜籽粒油酸含量的估算,具体计算公式见表1。

表1 光谱指数的计算公式Table 1 Spectral index calculation formula

1.3.2 模型构建及评价 首先利用ViewSpec Pro 6.2 软件对各分枝原始光谱数据进行平均及一阶微分计算并导出,然后进行主茎、一次分枝、二次分枝的原始及一阶微分光谱数据与其对应的籽粒油酸含量的相关性分析,再根据Rc 选取β-coefficient 绝对值高的波长及各分枝反射光谱峰谷特征相结合的方式,筛选出特征波长,最后利用Unscrambler 10.4 软件建立基于全波长和特征波长的SMLR、PLSR、PCR 模型,并用OriginPro 9.1 软件进行绘图。任意两波长组合构建的DSI、NDSI 和RSI,基于最佳光谱指数的单变量估测模型,利用R 语言编程并绘图。采用R2、RMSE 和RPD 对模型精度进行验证与评价。R2越接近1,RMSE 越小,表明模型预测精度越高。RPD 通过衡量预测值与实测值之间的偏差程度来表明模型的预测能力。通常认为RPD<1.5,不具备预测能力;1.5<RPD<2,预测能力可接受;RPD>2,预测能力极好[21]。R2、RMSE 和RPD[22]的计算公式如下:

式中,yi为实测值,ŷi为预测值,SD为验证集标准差,n为样本数,p为自由度。

2 结果与分析

2.1 不同分枝油酸含量

将44 个高油酸甘蓝型油菜材料,按照主茎、一次分枝、二次分枝测定其籽粒油酸含量,对测得的结果进行升序排序,再按照隔二选一的方式划分校正集和验证集,结果如表2。由表2 可知,高油酸甘蓝型油菜主茎油酸含量范围为72.99~87.6,平均含量为83.72±3.64,一次分枝油酸含量范围为74.34~87.52,平均含量为84.2±2.91,二次分枝油酸含量范围为74.11~87.37,平均含量为83.49±3.04,说明选用的高油酸材料油酸含量涵盖范围较宽,具有一定的代表性。按照2∶1 划分校正集和验证集,各部位校正集样本数为30,验证集样本数为14,且由表可知,验证集样本油酸范围基本位于校正集样本油酸含量之内,可用于校正集模型精度的外部验证。

表2 甘蓝型油菜不同部位的籽粒油酸含量Table 2 Oleic acid content in different parts of B.napus seeds

2.2 油菜不同分枝籽粒反射光谱特征

高油酸甘蓝型油菜主茎、一次分枝、二次分枝籽粒油酸含量最大值和最小值对应的原始及一阶微分光谱反射率曲线如图1。由图1A、B、C 可知,甘蓝型油菜主茎、一次分枝、二次分枝反射率曲线具有相同的变化趋势,呈现显著的“双峰”特征,即在1119 nm、1305 nm 附近出现反射高峰,在1209 nm 附近呈吸收谷,但不同部位的籽粒反射光谱也有所不同,具体表现为主茎和一次分枝油酸含量最大值对应的反射率高于最小值对应的反射率,而二次分枝相反,总体看来,三个部位在529~1132 nm、1240~1354 nm、1434~1687 nm、1775~1894 nm 和1938~2258 nm 等波段范围内反射强度存在差异。对原始光谱进行一阶微分变换能提高数据的信噪比,显示更多的信息,由图1D、E、F 可知,各部位一阶微分光谱最大值和最小值差异较小,但经过一阶微分变换后,不同部位油菜籽粒反射光谱的峰与谷数量显著增多,共出现14 个反射峰,分别在688 nm、938 nm、1058 nm、1225 nm、1396 nm、1543 nm、1597 nm、1734 nm、1770 nm、1989 nm、2071 nm、2192 nm、2316 nm、2355 nm 等波长附近,共出现12个吸收谷,分别在912 nm、1156 nm、1184 nm、1382 nm、1407 nm、1566 nm、1688 nm、1752 nm、1894 nm、2043 nm、2251 nm、2338 nm 等波长附近。由于1450 nm 和1950 nm 两波长对水强吸收,因此在后续的特征波长筛选中剔除1450 nm和1950 nm附近的吸收峰。

图1 甘蓝型油菜不同部位的油酸含量最大和最小值对应的原始及一阶微分光谱反射率曲线Fig.1 Original and first derivative spectral reflectance curves corresponding to the maximum and minimum oleic acid content in B.napus seeds from different parts

2.3 光谱反射率与籽粒油酸含量相关分析

将高油酸甘蓝型油菜主茎、一次分枝、二次分枝的原始及一阶微分光谱反射率数据分别与其对应的籽粒油酸含量进行相关性分析,结果如图2。由图2A可知,主茎和一次分枝在大部分波段与籽粒油酸含量呈正相关关系,其中主茎在629~894 nm和1437~1684 nm 两波段呈极显著正相关,一次分枝在495~1018 nm 波段达极显著正相关,二次分枝在350~1176 nm 波段呈正相关,1176 nm 之后变为负相关,且在1651~2487 nm 波段达极显著负相关。主茎、一次分枝、二次分枝原始光谱最大相关系数分别位于1583 nm(r=0.54)、723 nm(r=0.7)和2381 nm(r=-0.74)附近。由图2B 可知,一阶微分光谱与籽粒油酸含量的相关系数在部分波段略高于原始光谱,但相关系数变异性较大,相关系数不稳定,主茎、一次分枝、二次分枝在498~1945 nm 波段范围内相关系数较稳定,其中主茎、一次分枝和二次分枝的最大相关系数分别位于1715 nm(r=-0.79)、1734(r=0.76)和924 nm(r=-0.73)波长处。

图2 甘蓝型油菜不同部位籽粒原始及一阶微分光谱与油酸含量相关系数Fig.2 Correlation coefficients between original and first derivative spectral reflectance and oleic acid content in B.napus seeds from different parts

2.4 基于光谱特征的籽粒油酸含量估测

2.4.1 全波长估测模型的建立 利用主茎、一次分枝和二次分枝的原始、一阶微分光谱数据和对应油菜籽粒油酸含量数据,建立基于全波长的SMLR、PLSR 和PCR 的籽粒油酸含量估测模型,并用验证集数据对估测模型精度进行外部检验,建模结果如表3 所示。由表3 可知,在基于原始光谱建立的模型中,主茎、一次分枝和二次分枝均以PLSR 模型估测效果最理想,尤以对主花序角果籽粒估测精度最高,R2C、R2V分别达0.83 和0.71,RMSEC和RMSEV分别为1.63%、1.92%。在一阶微分光谱建立的模型中,则以SMLR 估测效果较理想,虽然在主茎和一次分枝的PLSR 模型中,建模集R2达0.93 和0.95,但是用剩余材料验证效果不理想,R2仅为0.56 和0.37,远低于建模R2,这可能是对数据过拟合所致。对比三种建模方法,发现PCR 模型效果最差,表现为最低,RMSEC最高,其主要原因可能是PCR 只分解光谱阵,没有充分考虑光谱阵与浓度阵的关系[23]。综合来看,在基于全波长的估测模型中,以主茎的PLSR模型对籽粒油酸含量估测效果最好,RPD为2.00,说明模型的估测能力可接受。

表3 基于全波长的甘蓝型油菜籽粒油酸含量估测Table 3 Estimation of oleic acid content in B.napus seeds based on full wavelength

2.4.2 基于特征波长的估测模型 基于全波长的模型虽估测结果精度较高,但存在信息冗余、运算效率低、设备成本高等弊端,在实际推广应用中的价值不大,因此在大量的光谱信息中,提取少数的特征波长,建立基于特征波长的估测模型,具有更大的应用价值。结合高油酸甘蓝型油菜反射光谱的波峰、波谷特征及反射光谱与籽粒油酸含量相关系数绝对值的高低,筛选出用于高油酸甘蓝型油菜籽粒油酸含量估测的特征波长,结果见表4。由表4可知,在基于原始光谱的数据中,主茎、一次分枝、二次分枝分别筛选出5 个、4 个、7 个特征波长,仅占全波长0.23%、0.19%、0.33%的信息量。由于光谱一阶微分变换能提高数据信噪比,显示更多的信息,因此基于一阶微分光谱筛选出的特征波长数量多于原始光谱数据,主茎、一次分枝、二次分枝特征波长数分别占全波长光谱的0.75%、0.75%、0.56%。

将表4 筛选出来的高油酸甘蓝型油菜主茎、一次分枝、二次分枝的原始及一阶微分特征波长与其对应的籽粒油酸含量进行SMLR、PLSR、PCR 建模,并用验证集数据(n=14)对所建模型精度进行外部验证,结果见表5。基于原始特征波长数据的主茎和一次分枝油酸含量估测模型效果均不理想,而二次分枝原始特征波长的SMLR、PLSR、PCR模型效果较好,以PLSR 模型估测效果最好,校正集R2为0.67,RMSE 为1.71%,验证集R2为0.61,RMSE 为1.93%,RPD 为1.37,仅用全波长0.33%的信息量达全波长模型78.21%的效果,这可能是主茎和一次分枝油酸含量光谱估测建模时,入选的特征波长数少于二次分枝,且波长的相关系数没有二次分枝高,因为二次分枝的原始特征波长均与籽粒油酸含量达极显著相关关系。在基于一阶微分特征波长光谱建立的估测模型中,虽然主茎的SMLR、PLSR、PCR 模型具有较高的建模集R2,分别为0.71、0.84、0.73,但验证集效果不理想,这可能是由于主茎16个特征波长中,仅10个与籽粒油酸含量达极显著相关,模型过拟合所致;一次分枝的PLSR 模型估测效果较优,R2C、R2V达0.85、0.87,RMSEC、RMSEV分别为1.08%、1.13%,这可能是因为PLSR 模型能同时对光谱阵和浓度阵进行分解,有利于提高模型精度[24],同时建模所用的16个特征波长中有13个与籽粒油酸含量达极显著相关;二次分枝的三种模型效果均不理想,模型RPD 为1,不具备预测能力。总体看来,在基于一阶微分特征波长的模型中,对一次分枝籽粒油酸含量的PLSR 模型估测效果最优,模型RPD为2.57,具有极好的预测能力。

表4 特征波长Table 4 Characteristic wavelengths

表5 基于特征波长的甘蓝型油菜不同部位籽粒油酸含量估测Table 5 Estimation of oleic acid content in different parts of B.napus seeds based on characteristic wavelengths

2.5 基于光谱指数的单变量估测模型

图3为高油酸甘蓝型油菜不同部位籽粒原始光谱反射率任意两波长进行组合后的光谱指数(DSI、NDSI、RSI)与其对应的籽粒油酸含量进行相关分析所得决定系数图,由图可知,NDSI 和RSI 与籽粒油酸含量的相关性在主茎、一次分枝、二次分枝等3个不同部位中具有相似性,即决定系数R2高的归一化组合其比值组合R2也高。且决定系数大的波长组合以近红外区域居多,说明近红外区域波长在进行籽粒油酸含量估测时的表现较好。

图3 甘蓝型油菜任意两波长构建的光谱指数与籽粒油酸含量的决定系数Fig.3 Determination coefficient of spectral index constructed by any two wavelengths and content of oleic acid in B.napus seeds

在任意两波长构建的光谱指数中,筛选出与籽粒油酸含量决定系数最高的波长组合,建立基于最优光谱指数的一元线性回归模型,并用验证集数据对模型精度进行外部检验,结果见表6。由表6 可知,在3个部位中,利用NDSI和RSI筛选出的用于油酸含量估测的波长组合一致,分别为2117 nm 和2305 nm、2254 nm 和2304 nm、2199 nm 和2239 nm,且两者的建模效果相当。对比不同部位的模型效果,发现对二次分枝籽粒油酸含量的估测效果较好,以DSI(2471,1726)、NDSI(2239,2199)、RSI(2199,2239)为变量构建的模型R2C分别达0.62、0.71、0.71,RMSEC为1.84%、1.62%、1.61%,但用剩余品种验证效果不理想,验证集R2为0.4 左右,RMSE 为2.5%左右,RPD 仅为1.1 左右,但效果优于对主茎和一次分枝油酸估测的模型。在基于光谱指数的估测模型中,以DSI(1757,1701)为变量建立的一元线性模型在估测一次分枝籽粒油酸含量时的效果最优,R2c 为0.69,R2v 为0.57,RPD 为1.35,这与程潜等[25]研究得出基于DVI建立的油酸含量估测模型达显著或极显著水平结果相近。但是基于光谱指数的估测模型中RPD 均小于1.5,均不能有效地估测高油酸油菜籽粒油酸含量,这可能是由于一元线性模型过于简单,而光谱与油酸含量呈非线性关系所致。

表6 基于光谱指数的甘蓝型油菜不同部位籽粒油酸含量估测Table 6 Estimation of oleic acid content in different parts of B.napus based on spectral index

2.6 模型优选与验证

通过上述分析,发现PLSR 模型在估测不同部位籽粒油酸含量的效果优于SMLR、PCR 和一元线性模型,尤以建立的一阶特征波长PLSR 模型对一次分枝籽粒油酸含量的估测效果最优,建模集R2达0.85,RMSE 为1.08%,说明该模型可有效地估测高油酸油菜籽粒油酸含量,一次分枝可作为油酸含量光谱快速无损估测的特征器官。为评价模型的稳定性及适用性,用剩余材料(n=14)对模型精度进行外部验证,图4 为一次分枝籽粒油酸含量光谱估测的实测值与预测值的关系。可知,验证集R2达0.87,RMSE 为1.13%,RPD 为2.57,说明基于一次分枝特征波长一阶微分光谱反射率的籽粒油酸含量PLSR 估测模型效果稳定且可靠性高,为高油酸甘蓝型油菜品质育种材料筛选提供借鉴方法。

图4 籽粒油酸含量PLSR模型外部验证实测值与预测值间的1:1关系Fig.4 The 1:1 relationship between measured and predicted value of PLSR model external verification of oleic acid content in seeds

3 讨论

虽然应用近红外光谱技术进行油菜脂肪酸含量检测的报道较多[26~29],但在使用近红外仪器检测油菜脂肪酸成分时,对样品的选择具有随机性、受人为因素影响大等弊端。曾宇等[30]认为在品质测定取样时如果没有考虑主茎与分枝比例,仅采用充分混匀的样本,测定结果会受影响。因此本文将油菜植株按照主茎、一次分枝、二次分枝等部位进行细分,分别测定其籽粒反射光谱及对应的籽粒油酸含量,以期找到可用于油酸含量估测的最佳部位,减轻取样工作量及样品制备的人为误差。结果显示,PLSR 模型在对不同部位籽粒油酸含量估测中效果较其它模型理想,尤以基于一阶微分特征波长的PLSR模型估测一次分枝籽粒油酸含量效果最优,模型外部验证RPD 为2.57,这一结论与国内外成熟的近红外光谱分析软件在进行农产品品质检测时大多采用PLS 建模[31]的结果相似,但模型缺乏机理解释,因此接下来将以生育期叶片理化指标为中间量,建立“叶片光谱—叶片理化指标—一次分枝籽粒油酸含量”的关系模型,增强模型的解释性。

同时,本文的研究是基于成熟收获后的籽粒光谱,仅可达到估算油酸含量的效果,筛选时间滞后,而高建芹研究得出叶片中油酸含量蕾薹期>花期>苗期、越冬期,且营养器官中的油酸与成熟籽粒中的油酸含量成正相关[32],因此接下来将按照“生育期叶片光谱—生育期叶片油酸含量—一次分枝籽粒油酸含量”的技术路线开展试验,以期实现高油酸甘蓝型油菜新材料的生育前期筛选,缩短选育种周期,降低育种成本。虽然本文得出PLSR 模型估测效果较好,但建模方法对预测模型精度影响较大[33],研究表明[34]支持向量机、随机森林、人工神经网络等机器学习算法能有效提高模型精度,故今后将从建模方法上做进一步探究,提高预测精度。

猜你喜欢

甘蓝型主茎油酸
不同来源小麦品种主要产量性状的比较分析
金荞麦收集系株型相关性状遗传变异分析
Bna-miR171g提高甘蓝型油菜耐渗透胁迫能力的功能鉴定
高油酸油菜遗传育种研究进展
通过CRISPR/Cas9技术突变BnMLO6基因提高甘蓝型油菜的抗病性
甘蓝型油菜白花基因InDel连锁标记开发
甘蓝型油菜双主茎YD 4899的选育及表型性状比较分析
花生中的翘楚――高油酸花生
以六倍体(AnAnCnCnCoCo)为桥梁创制抗旱新型甘蓝型油菜(AnArCnCo)
高油酸花生特征特性及栽培技术要点