APP下载

基于光声光谱和TCA迁移学习的稻种活力检测

2021-01-19张孜谞蔡苗苗张壹峰

农业工程学报 2020年22期
关键词:光谱信息光声稻种

卢 伟,张孜谞,蔡苗苗,张壹峰

(南京农业大学人工智能学院 江苏省现代设施农业技术与装备工程实验室,南京,210031)

0 引 言

水稻富含淀粉、蛋白质等营养物质,是人类第二大食物来源,水稻的产量是中国粮食安全的重要保障。水稻产量既取决于品种和田间管理,又与稻种质量密切相关,高品质的稻种是水稻高产的重要保障。目前评判稻种质量的指标主要包括含水率、活力、表面损伤程度等,其中,种子活力[1]是稻种质量检测中的最重要参数,种子活力的快速无损检测可用于优质种子筛选,对精准播种、精准农业和种质创新具有重要现实意义。种子活力是指其生理衰弱的程度或种子发芽高的批次在宽环境下表现出控制其能力的内在完整性的指数。传统的种子活力检测方法和设备如电导率法[2]、风筛清选机[3]、重力式清选机[3]等存在耗时长、操作步骤繁琐、易损害种子等缺点。

为实现种子活力的快速无损检测,近年来国内外将图像处理、近红外、高光谱等技术都应用于种子质量检测领域。Mahajan等[4]使用非破坏型成像技术测试大豆种子的物理纯度和活力,筛选剔除缺陷种子,并建立种子活力模型;闫彬等[5]基于机器视觉技术,采用模糊集和浮雕算法的图像增强方法检测玉米种子机械损伤;但图像处理技术仅能提取谷物种子的形态特征进行种子品种鉴别[5]。为进一步提取种子的生物化学信息,近红外光谱仪(Near Infrared Spectrum Instrument,NIRS)被引入并建立种子活力的近红外检测模型。彭彦坤等[6]基于近红外光谱建立支持向量机(Support Vector Machine,SVM)模型进行热损伤番茄种子的快速无损鉴别,判别模型验证集总正确率大于96%;Reis等[7]采用近红外反射光谱技术,结合偏最小二乘回归法构造校准方程以获得较佳拟合模型R2大于0.615。但近红外技术仅局限于光谱信息[4],为了进一步拓展检测维度,高光谱图像处理技术(Hyperspectral Imagery,HSI)被引入种子检测中。刘爽等[8]采用高光谱技术结合主成分分析法和连续投影法建立小麦种子赤霉病鉴别模型,建模集准确率为95.5%,均方根误差为0.212 1。Baek等[9]使用高光谱成像技术优化最佳波长,检测被细菌性穗枯病感染的变色病稻种,结果表明,可见光谱的紫色和红色区域是反映病害稻种特征的关键波长。但高光谱技术难以提取不同深度的光谱信息,无法检测种子不同深度的生物化学成分[9],本文拟基于多深度光声光谱技术进行稻种活力无损检测并结合迁移学习进行新品种稻种活力检测。

光声光谱(Photoacoustic Spectrometry Technology, PAS)技术[10]是基于光声理论和现代热量转换的一种新技术。光声光谱技术避免了组织散射特性对测量结果的影响,不需要对样品预处理,即可探测稻种不同深度的光谱信息,具有速度快、效率高、无损且不受种子表面形态限制等优点,能提取稻种不同深度的光声光谱信息。近年来,已成为医药、物理、化学、生物、故障检测和无损检测等方面研究分析的有用工具。

本文拟对不同活力的水稻种子,利用多深度光声光谱技术将稻种光谱信息拓展到光谱-声音-深度的维度,构建水稻种子活力检测模型,并通过 TCA(Transfer Component Analysis)迁移学习方法提高所建模型对新品种稻种活力的预测精度,为稻种活力快速无损检测提供新手段。

1 材料与方法

1.1 试验材料

试验选取 Y 两优(颜色:淡绿色,111°~123°E,27°~34°N)、龙粳(颜色:亮黄色,123°~135°E,44°~50°N)、南粳(颜色:秆黄色,118°~122°E,31°~33°N)、宁粳(颜色:秆黄色,105°~108°E,36°~44°N)、武运粳(颜色:秆黄色,119°~121°E,32°~35°N)、新两优(颜色:浅褐色,119°~122°E,25°~32°N)这 6种具有地域代表性的水稻种子作为研究对象,并人工剔除缺陷稻种,选择大小形状、颗粒饱满度基本一致且无霉变的良好稻种作为试验材料,每类种子200粒,一共1 200粒,用于人工老化,同一类种子每个老化天数老化25粒。

1.2 稻种老化试验

对筛选的稻种进行高温高湿人工老化试验[11]。将每类品种的稻种分为8份,按照0~7编号,将编号后的样品置于托盘放入老化箱(宁波江南仪器厂,RXZ-128A)中进行0~7 d不同程度的老化,确保老化箱的温度(45 ℃)和相对湿度(95%)保持不变。按时从老化箱中取出老化后的水稻种子,自然条件下风干1 d后装入密封袋中并进行分类和编号,放入5 ℃冰箱冷藏保存。

1.3 光声光谱检测

试验使用 Nicolet Is50R 红外光谱仪(Thermal Fish,美国),配合美国MTEC Photoacoustics公司生产的PA300光声池搭建水稻种子光声光谱采集系统,如图1。试验中光声光谱仪器开机后先预热 0.5 h,用氮气对整个光谱仪仓体内部进行吹扫,然后对光谱仪器进行标定,减少外界因素(如水分)对光谱测试的干扰,确保试验测量数据的准确性和有效性。将不同种类不同老化天数的稻种单颗均匀放入光声池中(直径10 mm,高5 mm),用干燥的氦气和氮气连续吹扫10 s(10 mL/min)。光谱扫描范围为400~4 000 cm-1,扫描分辨率为8 cm-1,光谱连续扫描32次,动镜速率为0.32 cm/s,碳黑背景作为对照。

图1 稻种光声光谱检测原理Fig.1 Principle of photoacoustic spectroscopy detection of rice seeds

在调制光的照射下,光声池中的样品吸收光能转化为热能,物体内能增加产生热膨胀,并将热传导给样品池中周围的气体,气体体积涨缩产生热波,即为光声信号。光声光谱是通过测定光声信号来获得物质的光学和热学信息的一种检测方法[12],同时也能得到调制光与样品相互作用的特性。

1.4 发芽试验

1)用发芽纸制备发芽床。

2)数取试验样品:不同老化天数水稻种子各取 144粒,分为4组,每组36粒稻种,其中Y两优、龙粳、南粳、宁粳、武运粳、新两优各6粒。

3)置床:① 发芽皿用工业酒精消毒,再称100 g砂置于其中,加20 g水湿润;② 将稻种在30 ℃温水中浸24 h,然后将同种老化程度稻种(6颗)排在一个发芽皿内,种子间不可相互碰着,并轻压种子使其与纸面(砂面)相平;③ 发芽皿粘贴标签,注明品种,发芽试验开始时间(日期)以及老化天数。

4)置于适宜条件下发芽(20 ℃),放入智能人工气候箱。

5)每天检查管理:① 每日进行检查和加水,记载发芽粒数,若发芽床上稻种已霉烂应从发芽床上移出并登记,若50%以上稻种生霉,则需换置发芽床;② 温度保持在规定温度上下不超过1 ℃之间;③ 对发芽床水分不足的,应按照一致性原则加水,若种粒四周(纸床)出现水膜,则表示水分过多。

6)初期(5 d)进行鉴定计数正常幼苗数。

7)末期(14 d)鉴定并记载正常幼苗、不正常幼苗、未发芽稻种。

发芽率计算公式为

式中G为第t天的发芽数,D为发芽试验天数。

1.5 集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)去噪处理

EEMD[13]去噪是一种新的时频分析方法,也是一种自适应的时频局部化分析方法。光声光谱信息EEMD去噪算法按以下步骤:① 将正态分布的白噪声加到原始光声光谱信号中;② 将加入白噪声的光声光谱信号作为一个整体,进行EMD分解,得到各IMF分量;③ 重复步骤①和②,每次加入新的正态分布白噪声序列;④ 将每次得到的IMF做集成平均处理后作为最终结果。

1.6 基于光声光谱的稻种活力预测建模

为减小仪器、测量环境(温度、相对湿度、外界声音等)因素对模型结果造成的影响,先对原始光谱数据用多元散射校正(Multiplicative Scatter Correction,MSC)、标准正态变量校正(Standard Normal Variate,SNV)进行预处理,再采用集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)平滑去噪。

在光声光谱分析中,由于光谱数据的高维度、重叠、非线性、冗余数据的特性,给提取光谱特征以及定性定量分析光谱数据带来了一定的困难。光声光谱测量水稻时,其测量环境(如温度、相对湿度、外界声音等)、仪器状态及气体浓度的变化会导致稻种光谱的非线性变化[14],稻种本身官能团的吸收也会出现非线性叠加,需要非线性降维方法减少光声光谱数据的冗余和过度拟合。用主成分分析(Principal Component Analysis,PCA)[15-16]、竞争性自适应重加权算法(Competitive Adaptive Reweighted Sampling,CARS)[17]2种降维算法提取特征波长,来降低计算消耗和提高运算速度。PCA是一种使用最广泛的数据降维算法,旨在构造少数几个能保留原指标的主要信息且较原指标有更好性质的主成分指标。CARS将指数衰减函数和自适应重加权采样技术相结合建立PLS(Partial Least Squares)模型,去掉权重较小的波长点,利用交互验证选出交叉验证均方根误差RMSECV(Root Mean Square Error of Cross-validation)最低的子集,将其作为最优波长组合。

本研究对5类水稻种子Y两优、龙粳、南粳、宁粳、武运粳分别建立偏最小二乘回归(Partial Least Squares Regression,PLSR)、反向传播神经网络(Back Propagation Neural Network,BP)、广义回归神经网络(Generalized Regression Neural Network,GRNN)、支持向量回归(Support Vector Regression,SNV)、深度卷积神经网络(Convolutional Netural Network,CNN)的稻种活力预测模型,选择出最优调制频率和预测模型;并通过迁移学习将所建立的模型迁移到新两优稻种进行活力预测。

1.6.1 偏最小二乘回归模型(Partial Least Squares Regression)

PLSR[18]能提取稻种光谱中与因变量相关的潜变量,以建立回归模型。当各变量内部高度线性相关时,用偏最小二乘回归法更有效。

1.6.2 反向传播神经网络模型(Back Propagation Neural Network)

BP神经网络[19]是一种误差反向传播算法训练的多层前馈网络,将稻种的光声光谱数据作为BP神经网络的输入,输出为稻种活力预测值。

1.6.3 广义回归神经网络模型(Generalized Regression Neural Network)

GRNN[20]有很强的非线性映射能力和学习速度;在分类和拟合上,当稻种光声光谱数据精准度较差时,GRNN模型效果较优。

杜威认为:“一切教育活动的首要根基在于儿童本能的、冲动的态度和活动。”[7]但如果“实验”仅仅等同于“活动”,显然缺少了数学教育的价值。回顾以上几个教学案例,可以看到,我们设计的每一节数学实验课,都是带着对数学问题的思考,带着对学生学习中遇到的问题与他们对困难的理解而设计。我们理解的数学实验,数学是核心内容,促进学生隐性知识的积累是目的,实验是教学方式。虽然教学环境下的实验,不那么精准,但它却极具生态性,让隐性知识的教学变得可操作、可把握。希望数学实验课能够带领学生在“发现”“研究”“探索”中不断成长。

1.6.4 支持向量回归模型(Support Vector Regression)

SVR[21]算法可用于回归、线性分类和非线性分类,计算复杂度较低,模型结果误差低。本文以3∶1为比例随机选出训练集和预测集,搭建SVR稻种活力预测模型。

1.6.5 深度卷积神经网络模型(Convolutional Neural Network)

CNN[22]架构包括一维卷积层、非线性激活和完全连接的块、最大池化层,其中一维卷积层和最大池化层用于稻种原始输入数据主要特征的提取。

1.7 对新品种稻种活力检测的迁移学习方法

为有效缓解模型失效问题,提高模型的泛化能力,本文拟将所建立的模型迁移到新两优稻种进行活力预测。迁移学习中最常用的就是数据分布自适应方法,其基本思想是:源域、目标域的数据可通过一些变换由数据概率分布不同变为数据分布拉进,从而使得源域数据建立的模型同样适用于目标域数据。本文利用源域数据概率分布P(x)和目标域数据概率分布P(y)之间的距离近似两个领域之间的差异,从而减小源域和目标域的概率分布距离,完成迁移学习成分分析(Transfer Component Analysis,TCA)。

通过迁移学习 TCA算法,使源域数据和目标域数据具有相似的分布,选用线性核函数;经过变换后的源域数据和目标域数据以 3∶1为比例随机划分选出校正集与预测集。利用源域的校正集样本数据校正模型,利用该模型预测源域的预测集样本数据及目标域预测集样本数据。

2 结果与分析

2.1 稻种发芽率

随着水稻种子老化程度的加深,稻种的发芽率逐渐降低,幼苗株高降低,干质量减少,幼苗瘦弱且生长缓慢。此时稻种内部物质发生变化,蛋白质(主要组成元素:C、H、O、N)含量随老化时间的延长而下降[23]。

表1 不同老化天数的水稻种子发芽率Table 1 Germination rate of rice seeds with different aging days

2.2 光声光谱数据去噪处理

采用EEMD对光声光谱信号进行分解与重构,能在一定程度上剔除由测试条件、气体浓度、仪器精确度、水分等不确定因素导致的噪声,使得光声光谱信息更精确。采集光谱波段数为400 ~4 000 cm-1,以Y两优为例,去除信噪比低的波数段 3 700~4 000 cm-1和400~ 940 cm-1。以300 Hz调制频率下的光谱数据去噪处理为例,图2为Y两优水稻种子在调制频率为300 Hz下的光声光谱原始信号和EEMD去噪后信号。

由图2可见,不同老化程度的稻种在940~3 700 cm-1之间有相似的吸收特性,总的趋势基本一致。在1 050 cm-1附近有一强吸收峰,1 500~1 200 cm-1波段有鼓起一段平缓且不明显小峰;1 630 cm-1处有明显尖峰。在1 800~2 800 cm-1波段范围内,光声光谱较为平缓;在 2 850 ~3 010 cm-1处出现一尖峰;在3 100~3 600 cm-1处有较宽吸收峰;以上吸收峰均反映了水稻种子内部成分的光声光谱特性。

图2 不同老化天数Y两优在300 Hz下去噪前后光声光谱Fig.2 PAS spectrum before and after noise reduction at 300 Hz of Yliangyou with different aging days

2.3 光声光谱数据降维

2.3.1 基于PCA的特征波长提取

经过预处理后,各检测深度水稻种子光谱组成的数据矩阵可作为模型的输入,但巨大的计算量会降低模型预测的精度。因此,以 95%为目标累计贡献率完成光谱的特征提取,主成分的特征值和贡献率如表2所示。由表2可知,稻种前3个主成分累计贡献率为98.015 8%,大于 95%,包含了稻种光声光谱的大部分有用信息,因而可用前 3个主成分代替原光谱信息。特征光谱如图3所示。

由图3可见,特征光谱1 000~1 160 cm-1波段内出现吸收峰主要由稻种中蛋白质、可溶性糖中C—O键、C—N键的伸缩振动所致[5];1 412 cm-1附近的吸收峰为淀粉中CH2、C—O—O 伸缩振动吸收区域;1 317~1 440 cm-1附近为亚甲基和甲基对称弯曲振动及 CH3剪式振动吸收区;1 200~1 500 cm-1范围内的吸收峰由多糖、蛋白质混合振动产生[19];1 635 cm-1处的小吸收峰主要由不饱和油脂中C—C键、蛋白质 C—O 键的伸缩振动(酰胺I)和水的 O—H键的弯曲振动伸缩振动叠加而产生[20];稻种中丙二醛、油脂和纤维素等物质中 C—H 键伸缩振动导致 2 850~3 000 cm-1处出现尖吸收峰;蛋白质中 N—H键和水中 O—H键的振动伸缩的叠加作用导致 3 100~3 500 cm-1处有宽的吸收峰[24]。

图3 Y两优在300 Hz(10.4 μm)特征光谱Fig.3 Characteristic spectrum of Yliangyou at 300 Hz(10.4 μm)modulation frequency

表2 主成分的特征值和方差贡献率Table 2 Eigenvalues and variance contribution rates of principal components

图4 基于CARS的Y两优特征波长提取过程Fig.4 Characteristic wavelength extraction process of Yliangyou based on CARS

2.3.2 基于CARS提取特征波长

对原始光声光谱采用CARS降维,以未老化、调制频率为300Hz的Y两优稻种为例,光谱特征波长提取过程如图4所示。随着采样次数的增加,保留的波长数逐次减少,且速度先快后慢。在0~26次采用过程中,消除的波长对RMSECV影响小,所以RMSECV值减小缓慢;当采样次数超过 26时,RMSECV值呈上升趋势,产生较大RMSECV。因此可提取采样次数为26时的特征波长,此时共提取了28个特征波长:604.4、607.0、609.5、629.7、747.0、767.7、770.3、809.1、990.9、1 111.3、1 352.2、1 397.0、1 402.6、1 699.5、1 710.7、1 716.3、1 873.2、1 878.8、1 912.4、1 918.0、1 923.6、1 929.2、2 018.8、2 097.2、2 102.8、2 209.3、2 382.9、2 388.5 nm。

2.4 稻种活力检测建模

本文先分别采用 BP神经网络(BP)、广义回归神经网络(GRNN)、最小二乘法回归(PLSR)、支持向量回归(SVR)4种建模方法,基于8种调制频率建立水稻种子活力预测模型,特征波长作为模型输入,水稻种子活力作为模型输出,且每种检测频率均以 3∶1为比例随机选出校正集与预测集。以Y两优为例,基于不同深度与不同特征提取方法的建模结果对比如表3所示。由表3可知,Y两优在不同深度下的SVR建模结果均较优,BP、PLSR和GRNN建模在不同深度下的结果优劣情况不同,且稳定性较差。结合建模精度,300 Hz为较优调制频率,该频率下校正集和预测集的相关系数较高且均方误差较小。其余4种品种水稻活力的预测模型建立结果与Y两优呈现相同趋势,均在调制频率 300 Hz下 SVR预测结果较优,且CARS的降维效果较好。因此,选用CARS降维方式,在调制频率为300 Hz时,获得不同品种稻种SVR模型较优预测结果,如表4所示。

表3 不同深度Y两优光声光谱建模结果Table 3 Photoacoustic spectral modeling results of Yliangyou at different depths

表4 不同品种稻种SVR模型较优预测结果Table 4 The better prediction results of SVR models for different varieties of rice

由表4可知, SVR稻种活力预测模型的相关系数较优值为0.989 1,均方根误差较优值为0.752 0。为进一步优化稻种活力预测模型,建立基于CNN的稻种活力预测模型。在选用 CARS降维和 300 Hz调制频率时建立的CNN稻种活力预测模型有较优预测结果,不同品种稻种的CNN较优预测结果如表5所示。比较CNN模型与SVR模型的稻种活力预测结果,如表5,预测集相关系数均在0.99以上,高于0.989 1;预测集均方误差较优值为0.507 7,低于0.752 0。因此,CNN稻种活力预测模型较优。

表5 不同品种稻种CNN模型较优预测结果Table 5 The better prediction results of CNN models for different varieties of rice

2.5 基于迁移学习的新品种稻种活力预测

由上述研究可知,300 Hz为种子活力光声光谱检测的较优调制频率,CNN为较优建模算法。为基于已有稻种活力预测模型实现对新品种稻种活力的精确检测,本文将新品种稻种的光声光谱信息和前述 5种稻种光声光谱数据通过迁移学习TCA算法,使其具有相似分布的空间,再根据迁移后的 5种稻种光声光谱数据建立稻种活力预测模型,并进行新稻种活力预测。首先,选取80粒新两优稻种作为样本数据,每种老化天数有10粒;然后在光声光谱调制频率为300 Hz时采集新两优的光声光谱信息,获得80组光声光谱信息数据,通过TCA算法将源域数据(Y两优、龙梗、南梗、宁梗和武运梗光声光谱数据)和目标域数据(新两优的光声光谱数据)映射到同一空间,使源域和目标域边缘概率分布距离最小化;再使用源域数据建立新的稻种活力CNN预测模型;最后将迁移后的新两优稻种光声光谱目标域数据输入新建立的CNN活力预测模型。结果表明,通过TCA迁移算法能将新两优稻种活力预测的相关系数从 0.718 5提高到0.990 3,均方根误差由9.488 9降至0.788 3,经过TCA迁移学习可实现新品种稻种活力的精确预测。

3 结 论

1)针对目前稻种活力光谱检测易受种子表皮颜色影响,提出基于光声光谱的稻种活力无损检测方法,对 Y两优、龙粳、南粳、宁粳、武运粳、新两优 6个不同品种、0~7 d不同老化程度的稻种,采集1 000、800、500、400、300、200、100、50 Hz共8种调制频率下的稻种深度光声光谱信息,通过预处理和 EEMD(Ensemble Empirical Mode Decomposition)去噪后,利用 PCA(Principal Component Analysis)和 CARS(Competitive Adaptive Reweighted Sampling)进行光声光谱信息降维后建立稻种活力预测模型。其中,Y两优、龙粳、南粳、宁粳、武运粳5种稻种当光声光谱扫描频率为300 Hz,选用CARS降维和CNN(Convolutional Netural Network)稻种活力预测模型结果较优,相关系数和均方根误差分别不低于0.990 9、不高于0.967 5。

2)为提高所建模型对新品种稻种的活力预测精度,通过TCA(Transfer Component Analysis)迁移学习方法对新两优稻种的光声光谱信息进行迁移学习和稻种活力建模,与迁移前相比,将新两优稻种活力的预测相关系数从0.718 5提高到0.990 3。

研究结果表明,通过光声光谱技术拓展信息维度,进行不同颜色稻种活力的精确预测是可行的,且通过TCA迁移学习,仅需通过对源域数据的训练即可实现未知品种稻种活力的精确预测。

猜你喜欢

光谱信息光声稻种
基于光谱信息和支持向量机的绿色植物检测方法研究
基于光谱和Gabor纹理信息融合的油桃品种识别
基于植被光谱信息的龟裂碱土碱化程度预测研究
光声成像研究进展
一种基于区域生长的高分辨率遥感影像道路提取方法
双探头光声效应的特性研究
光声成像宫颈癌诊断仪
秋收:胭脂米重回京城
光声光谱遥测装置中音叉光激励振动的数值模拟