APP下载

基于GA-BP算法的太赫兹波鉴定苜蓿草品种

2022-01-14王芳张玉张春红夏红岩

关键词:苜蓿草赫兹时域

王芳,张玉,张春红,夏红岩

(1.中国石油大学(北京) 理学院,北京 102249;2.内蒙古自治区草原工作站,内蒙古自治区 呼和浩特 010020)

苜蓿牧草是牧草种类中非常重要的一大类,对于草业、畜牧业、奶业的发展起着至关重要的作用[1-2].由于苜蓿牧草种类繁多,且种子的外形、大小极其相似,因此对苜蓿草种进行鉴定是极其困难的.目前,对于苜蓿草种的鉴定方法主要有传统的田间种植法[3-4]以及生物化学鉴定法,例如:DNA分子标记法[5]和蛋白质电泳法[6-7]等.田间种植法鉴定结果比较准确,但耗费时间周期长、受环境因素影响比较大.同样,生物化学鉴定法在对于苜蓿草种的鉴定也存在经济造价偏高的不足.近年来,随着光谱检测技术的迅速发展,为苜蓿草种的鉴定识别提供了新的方法,也为快速、经济的牧草种子鉴定奠定了基础[8-10].王芳等[11-12]利用太赫兹时域光谱技术(THz-TDS)结合聚类分析方法和主成分分析法对苜蓿草种的鉴别进行了研究.结果表明这些方法对于已知样品信息的草种鉴别卓有成效,但对于未知样品的鉴别仍然面临挑战.

机器学习算法是近年来在有机物的研究中应用较为广泛的一种分析方法,它能将一些基于实验结果的被动研究转换为主动学习.2019年,周月等[13]利用朴素贝叶斯自适应提升算法对转基因油菜种子进行了分类识别并获得了96.6%的检测准确率.2020年,基于合成少数类过采样技术(SMOTE)的随机森林模型,章龙等[14]在中草药牛黄及其易混品的分类研究中得到了94.17%的分类识别率.通过建立经多元散射校正结合归一化校正处理后的广义回归神经网络,Hu等[15]对奶粉中三聚氰胺的含量进行测量,得到了0.996 7的相关系数.王璞等[16]基于网格搜索的支持向量机模型在生物活性肽的分类识别,其准确率也达到了95%.以上研究表明机器学习算法是一种较为有效的能够对有机物进行鉴定识别的分析方式.

本文在太赫兹时域光谱技术测量的基础上,利用遗传算法优化BP神经网络模型(GA-BP)对不同品种的苜蓿进行分类识别.结果表明该方法对苜蓿样本平均分类准确度达到了94%.本项研究为苜蓿草种的分类提供了一种新的分析方法.

1 样品制备及实验装置

1.1 样品制备

本次实验样品由内蒙古草原站提供,共8类苜蓿品种(中苜1号,中苜2号,中苜3号,龙牧801,龙牧803,龙牧806,草原2号,草原3号,样品采集时间2014年,产地为黑龙江).实验样品制备流程如下:首先,将苜蓿草种进行清洗,挑出杂质,接着将清洗后的种子放在阳光下进行晾晒5 h,随后对草种进行充分的研磨,利用标准筛对研磨后的草种粉末筛选出0.125~0.095 mm的颗粒,之后将筛选后的草种粉末放在烘干箱中,55 ℃干燥8 h,最后称取1.6 g干燥后的草种粉末,置于20 MPa下压2 min.成型样品片的半径为30 mm,其厚度为1.80~1.85 mm,每个品种的牧草制作2个样品片.

1.2 实验装置

苜蓿草种的测试是利用美国zomega公司生产的透射式太赫兹时域光谱系统获得的,实验装置如图1所示.在测试系统中泵浦光源为钛蓝宝石飞秒锁模脉冲激光器,其激光脉冲的中心波长、重复频率和脉冲宽度分别为810 nm、80 MHz和100 fs .在实验中为了减少空气中水分子对实验测试的影响,所有实验样品都在恒温23 ℃且充满氮气的实验情况下进行测试.在测试中对每个样品片分别测量3次,且3次测量点在样品片上呈等比三角形.每个品种测量6次,测量结果的平均值就是这种苜蓿的测量结果.

2 光谱处理及模型建立

2.1 光谱处理

THz-TDS可以测量穿透氮气或样品的THz脉冲的振幅和相位.使用快速傅里叶变换将时域中的THz波形变换为频域频谱[17].样品的复折射系数N(ω)可以表示为

N(ω)=n(ω)-ik(ω),

(1)

式(1)中的实部为折射系数,虚部为消光系数.将太赫兹波穿过干燥空气后的透射时域信号作为参考信号eRef(ω),随后放入样品并将采集得到样品的透射时域信号ESam通过公式(2)、(3)[18]计算得到样品的折射率n(ω)和吸收系数α(ω),其中d为样品厚度,单位mm,ω为角频率,φ(ω)为相位差,ρ(ω)为参考信号与样品信号模的比,c为光速.

(2)

(3)

2.2 GA-BP模型建立

遗传算法优化BP神经网络是一种有监督的机器学习方法,其用于牧草品种分类的主要思想是根据已有的牧草品种太赫兹光谱数据,通过模拟生物脑部处理问题的方式,建立一种简化模型用于牧草品种的分类.其中模型构建的流程示意图如图2所示.模型选取了8类苜蓿草种的太赫兹折射率光谱有效频段0.2~1.0 THz内的数据,随后将每种6次测试结果进行多次平均后建立每种样品40组数据集,8类样品共320组的数据集.GA-BP模型的种群规模为5,进化代数为10,变异概率为0.1,交叉变异概率为0.15,个体长度10,代沟为0.95,隐含层23个,输出层为11个,误差为0.01,学习率为0.1,迭代1 000次.任意选取训练集216个,建立GA-BP网络模型,测试集104个用于牧草品种分类预测.为降低模型的特殊性,训练集与测试集任意选取6次.

3 结果与分析

图3a为龙牧801草种6次测试的太赫兹时域光谱曲线.由图3a可知,同一品种的牧草6次太赫兹波测试存在误差,但是6次太赫兹光谱之间差异较小.将6次太赫兹波测试结果进行平均,得到该苜蓿品种的太赫兹波光谱曲线.图3b为太赫兹时域光谱(THz-TDS)实验测试得到的8个苜蓿草种的光谱曲线.由图3b可知8个苜蓿品种在0.2~1.0 THz的有效频段内振幅峰值强度和响应时间上都存在差异,造成这些差异的主要原因是太赫兹脉冲透过样品时折射率的不同造成的,这说明太赫兹时域光谱技术在鉴定识别不同种类苜蓿草种上是可行的.

图3 龙牧801草种6次测试的太赫兹时域光谱(a),8种苜蓿草种的太赫兹时域光谱(b)Fig.3 Terahertz time domain spectra of Longmu 801 alfalfa species tasted 6 times(a), Terahertz timedomain spectra of 8 alfalfa species(b)

图4是8个苜蓿草种的太赫兹折射率光谱谱线,能较为清晰显示8个品种折射率的差异性.具体来说,平均折射率最小的是中苜1号,为1.740;平均折射率最大的为草原8号,为1.812.由于测试样品的实验初始条件是一致的,所以平均折射率的差异性可能是苜蓿草种内部生物组分的不同引起的.

以上实验结果表明太赫兹时域光谱技术应用在苜蓿草种及种间差异的鉴别方面是可行的,但进一步分析可以发现,一些草种之间的光谱数据差异十分微小,所以为了进一步精确地对8类苜蓿草种进行分类,可以通过构建GA-BP神经网络算法模型来提高分类准确度.表1是利用GA-BP模型计算后得到的分类结果.

通过表1可以看到经过6次测试的GA-BP网络模型对于苜蓿草种的平均分类准确率为94%.其中第5次测试分类准确率最高,为95%;对于单个样品来说龙牧806号样品在6次的测试中,平均分类准确率最高,为94.6%;模型对龙牧803号的分类效果较差,为93.2%,但模型总体对于8个品种的分类准确率均达到了90%以上.以上结果表明GA-BP模型在对苜蓿草种的鉴定识别上,是一种较为精确有效的分析方法,它能在一定程度上提高牧草品种鉴定识别的准确率.

4 结论

本文针对8类苜蓿草种的种间分类问题,提出了折射率光谱数据结合GA-BP算法的分类鉴别模型.利用该模型对折射率数据训练后进行分类,测试结果能达到94%的平均分类准确率.测试结果表明GA-BP模型可以有效地对苜蓿草种的种类进行鉴别,从而可以进一步解决牧草草种的种间分类问题,为牧草品种的分类鉴别研究提供了一种新的思路.

猜你喜欢

苜蓿草赫兹时域
OFDM 系统中的符号时域偏差估计
硬件时域门技术在宽频带天线罩测试中的应用
频域滤波产生的时域端点效应及避免方法
引黄灌区紫花苜蓿优质的高产种植技术研究
网络分析仪时域测量技术综述
半导体太赫兹技术常温操作的设备和系统
首都师范大学太赫兹光电子学省部共建教育部重点实验室诚招英才
首都师范大学太赫兹光电子学省部共建教育部重点实验室诚招英才
断送的天才