基于LVQ和THz时域光谱的玉米品种分类鉴别研究
2019-03-08吴静珠刘翠玲孙晓荣
李 慧 吴静珠 刘翠玲 孙晓荣 余 乐
(北京工商大学;食品安全大数据技术北京市重点实验室,北京 100048)
中国是全球第二大玉米生产国,同时也是全球第二大消费国。玉米的产量与品质与其自身品种紧密相关,因此品种鉴别直接关系到农业生产和农民经济利益。
传统鉴定方法有籽粒形态鉴定法、幼苗形态鉴定法、田间小区种植鉴定法、生理生化鉴定法[1-2]等,其中生理生化鉴定法有电泳法[3-4]、高效液相色谱法[5]等,这些方法步骤繁琐,操作复杂,且检测过程中需要消耗化学试剂。近年来,分子光谱检测技术以其快速、便捷的特点成为研究热点,尤其是新兴的太赫兹技术逐渐受到人们的关注及研究[6]。
太赫兹(Terahertz, THz)波是指频率在0.1~10 THz(波长3 000~30 μm)之间的电磁波,其波段位于微波和红外波之间,是宏观电子学向微观电子学过渡的区域,具有非常重要的学术价值和应用价值。理论研究表明[7],大量生物大分子(DNA、蛋白质等)的振动和转动能级正好处于THz的频带,因此物质的THz光谱包含有丰富的物理和化学信息;THz光子能量极低(毫电子伏特),不会电离损伤生物样本;THz辐射对于很多干的介电材料和非极性液体具有良好的穿透性,尤为适用于预包装农产品品质检测。近年来,作为重要交叉前沿领域的太赫兹技术[8]以其特有的波谱分辨能力、低能性和透视性等优势在农业及食品检测领域崭露头角[9-12],极有潜力成为红外光谱技术[13]和X射线技术[14]的有力补充。
本研究采用太赫兹时域光谱技术结合神经网络方法建立快速鉴别玉米品种的定性分析模型,通过分析ATR光谱吸收系数分类的准确性来快速判定玉米品种,为玉米品质的鉴别提供一种快速、准确的检测方法。太赫兹技术具有独特的指纹图谱特性,在玉米快速检测方面具有独特的优越性,并且在空间分辨率和灵敏度上要优于红外光谱。
1 材料与方法
1.1 实验材料
选取4种不同品种的玉米种子,如表1所示。
表1 4种玉米种子参数列表
1.2 设备仪器
本实验采用英国TeraView公司的TeraPulse 4000系列太赫兹产品,图1为TeraPulse 4000仪器及其脉冲光谱操作示意图,主要功能是太赫兹基础成像和光谱分析,所能测量的光谱范围是0.06~4.3 THz,具有高信噪比>70 dB,分辨率优于1.7 GHz,主要包括衰减全反射(ATR)附件、反射成像模块、镜面反射模块等用于物体检测。
TeraPulse 4000的ATR附件其穿透深度为1 mm,只需要1 mg的样品材料且在很少或不进行样品制备的情况下即可直接测量,该模块可以测量片剂或粉剂,易于使用。
本实验主要应用仪器中的ATR附件对四类玉米种子样品进行检测,先测定无样本时参考值并记录下来,再将籽粒粉碎后置于ATR扫描区域进行扫描并记录。
图1 赫兹仪器及其脉冲光谱操作示意图
1.3 光谱采集与解析
被测对象经过THz-TDS系统测试后,获得样品的时域光谱信号,经过傅里叶变换得到频域谱,通过扫描样品和空样品分别得到参考光谱Eref(ω)和样品光谱Es(ω)。根据菲涅尔方程[15]和光的传播方程,得到复透射函数:
(1)
实验中,当样品厚度d较厚时,忽略FP(Fabry-Perot)效应,并且样品在弱吸收的情况下,样品的折射率n(ω)和吸收系数α(ω)分别表示为:
(2)
(3)
式中:φ(ω)为样品与参考信号的相位差;ρ(ω)
为样品与参考信号的振幅的比值;c为光速;d为被测对象样品厚度;ω为角频率。
实验中太赫兹仪器TeraPulse 4 000的ATR组件扫描玉米获得样品的光谱图如图2所示,其中图2a为太赫兹仪器扫描玉米种子时域图,图2b为时域经过快速傅里叶变换(FFT)后的频谱图。
图2 太赫兹光谱图
由于使用太赫兹ATR组件扫描需要校正光谱,所以数据分析时需要根据式(1)、式(2)和式(3)计算ATR参数,其中样品厚度d较厚,可忽略,即可得到ATR吸收系数谱,如图3所示。
图3 ATR吸收系数谱
1.4 光谱采集与解析
本实验采用神经网络学习矢量量化(LVQ)方法对4种玉米进行分类。LVQ在神经网络中是有导师与无导师相结合的分类方法。LVQ网络的结构由输入层、竞争层和输出层神经元组成,如图4所示。输入层有N个神经元接受输入向量,与竞争层之间完全连接;竞争层有M个神经元,分为若干组并呈一维线阵排列;输出层每个神经元只与竞争层中的一组神经元连接,连接权值固定为1。在LVQ网络的训练过程中,输入层和竞争层之间的连接权值被逐渐调整为聚类中心。当一个输入样本被送至LVQ网时,竞争层的神经元通过胜者为王竞争学习规则产生获取神经元,容许其输出为1,而其他神经元输出为0。与获胜神经元所在组相连接的输出神经元其输出也为1,而其他输出神经元输出为0,从而给出当前输入样本的模式类。
图4 学习向量量化网络
利用LVQ网络实现模式识别时,不需要将输入向量归一化、正交化,只需要直接计算输入向量与竞争层之间的距离,从而实现识别。LVQ网络的学习规则结合了竞争学习和有导师学习规则,是一种非线性映射算法,能够将非线性可分问题转化为线性可分问题。
本研究中,输入向量为每条光谱的扫描点(即维数),实验中整段光谱的维数为1 135,0~70 cm-1的维数为289;竞争层有8个神经元;输出层为4(即分为4类);训练次数设定为1 000次。然后将120个样本数据送至LVQ网络中进行训练,获胜神经元输出为1,则其他三个神经元均为0。
2 结果与分析
本实验将所采集玉米样本数据中ATR吸收系数谱提取出来,4类玉米×每类30粒=120条光谱信息,将这120组光谱分为三组实验,分别以1/2为训练集、1/2为测试集;2/3为训练集、1/3为测试集;5/6为训练集、1/6为测试集,对这三组数据分别进行LVQ训练,训练集即为有导师学习规则,测试集即为分类结果。数据处理在MATLAB2013b完成,分类结果表如2所示。
表2 ATR吸收系数分类结果
由表2可以看出,3组数据1/2测试集、1/3测试集、1/6测试集利用LVQ方法在全光谱的分类准确率分别为93.33%、97.5%、100%,而在0~70 cm-1的分类准确率分别80%、82.5%、95%。结果表明,随着训练集的增多,测试集的减少,分类的准确率在增高。
3 结论
采用ATR采样方式获取了玉米种子的THz-TDS光谱,通过提取光学常数-吸收系数结合LVQ建立了快速鉴别玉米品种的定性分析模型。比较不同谱区建模,不同数量训练样本的测试结果可得,品种识别模型的预测准确率可达80%~100%,由此探索了一种玉米品种快速分类鉴别的方法,为玉米品种分类鉴别提供一种参考。
全谱区分析过程中,尽管在>70 cm-1的光谱信号貌似噪声很大,但实际分析建模效果较好,因此噪声中应该仍带有样品的特征信息,在今后的实验研究中亦可使用特征选取的方法进行特征筛选,提取有用信息分析,加强模型的可行性和稳健性。