APP下载

基于多特征算法选择的太赫兹时域光谱用于水稻种子掺假研究

2023-02-20接昭玮周世瑞王继芬孔艺青李文凭邵作山

分析测试学报 2023年2期
关键词:特征选择赫兹时域

接昭玮,周世瑞,王继芬*,孔艺青,李文凭,邵作山

(1.中国人民公安大学 侦查学院,北京 100038;2.中国人民公安大学 犯罪学院,北京 100038;3.国家体育总局反兴奋剂中心,北京 100029;4.青岛青源峰达太赫兹科技有限公司,山东 青岛 266100)

粮食安全在保障百姓饮食安全方面具有重大战略地位。自“昆仑行动”开展以来,全国公安机关对于粮食安全生产高度重视,加大了对危害粮食生产安全类犯罪行为的打击。自专项行动开展至今,全国共破获制售种子掺假类犯罪案件1 200余起,打掉犯罪团伙260余个,涉案总金额高达20.5亿元[1]。在粮食生产领域,水稻不仅是当今世界重要的粮食作物,还具有极其显著的经济和药用价值。近年来,某些不法分子将未达标的水稻种子掺杂于合格水稻种子中兜售以获得巨额经济利益,使国家和社会利益蒙受巨大损失。因此,种子安全事关国计民生,是国家粮食生产安全的第一道防线。

当前针对种子鉴定的常用方法主要有两种,即特异性、一致性和稳定性栽培(Distinctness,uniformity and stability,DUS)实验鉴定及简单重复序列(Single sequence repeat,SSR)标记鉴定。其中,DUS鉴定属于田间鉴定,鉴定周期由植物生长周期决定,因此鉴定时间较长,且实验误差相对较大;SSR鉴定属于DNA鉴定,即利用DNA点位标记法对样本进行标记,其成本较高。这两种鉴定方法均不能满足一线执法人员对掺假种子鉴定的快检需求。近年来,有研究人员采用高光谱成像技术对水稻种子开展分类识别工作[2],研究过程中发现高光谱成像技术虽然能够同时获得样品的光谱分辨率和空间分辨率,但其灵敏度较低,同时会导致数据冗余,增加后续数据处理的工作量。而太赫兹光谱作为一种新兴的时域光谱检测技术,具有光子能量低、穿透性强、空间分辨率高以及脉冲时间短等特点,可有效探测复杂物质在太赫兹波段的物理和化学信息。吴静珠等[3]采用太赫兹时域光谱及其成像技术发现了玉米种子活力敏感的太赫兹波段,证明了将太赫兹技术用于种子活力无损检测的可行性;谭佐军等[4]利用太赫兹时域光谱技术对谷粒中的储粮害虫及其种类开展识别工作,结合机器学习模型构建了谷粒中是否有害虫的快速无损检测方法。因此,太赫兹时域光谱在农产品和食品加工业等领域具有重要应用前景[5-6]。

机器学习是对计算机算法的研究,其本质是计算机在已知样本数据的基础上建立模型从而解决特定问题的过程,在灵活性、精度和执行速度等方面具有显著优势。在司法鉴定领域,现代仪器分析技术的广泛应用为分析复杂混合物物证提供了便利条件,但这些分析方法会产生大量数据集,使鉴定人员的工作变得更加繁琐,出现错误的概率成倍增加。因此,将机器学习算法应用于现代仪器分析领域可以帮助鉴定人员获得更加准确而有意义的分析结果[7-8]。

傅里叶变换(Fourier transform,FT)是数字信号处理领域的一种重要分析方法,该方法对于信号频率具有较高的分辨率,因而可以清晰得到光谱信号中所包含的频率成分(即频谱)。王毅凡等[9]采用太赫兹时域光谱对四环素类抗生素进行定性分析,结果表明四环素类抗生素经FT方法处理后在太赫兹波段具有不同的特征吸收峰,实验根据该方法找到了定性鉴别抗生素种类的新思路。孙然等[10]借助太赫兹时域光谱技术对对羟基苯甲酸酯类物质进行分类识别,通过傅里叶变换方法获得样本在0.3 ~ 2.4 THz频段的频域光谱,并基于此对不同比例混合样品的光谱特性进行了定性分析。

鉴于此,本文利用太赫兹时域光谱结合机器学习算法对不同水稻种子品牌进行分类识别。通过太赫兹时域光谱系统获得不同品牌水稻种子样本的光谱数据,并采用特征选择算法进行处理,同时设计分类器对特征选择后的样本进行分类,并针对分类结果对模型进行优化,从而为公安机关在侦破种子掺假类案件方面提供侦查方向和完整证据链。

1 实验部分

1.1 样本与设备

结合实际案例,从济南食药环侦大队等实战部门收集4种不同品质与品牌的水稻种子样本,研磨粉碎后均制备成单一样本,每种样本压片40个。将粉碎后的单一样本按质量比1∶1两两混合均匀,共制备成6种混合样本,每种样本压片40个。种子样本信息详见表1。

表1 种子样本信息统计表Table 1 Statistical table of seed samples

(续表1)

实验采用型号为QT-TS 2000的快速太赫兹时域光谱系统对10种种子样品压片进行扫描。其中,仪器的光谱宽度区间为0.1 ~ 4 THz,频谱分辨率为8 GHz,工作模式选择透射式,工作电源选择24 V直流电源。

1.2 数据预处理方法

通过太赫兹时域光谱系统扫描并结合快速傅里叶变换方法对10类种子样本的时域光谱信号进行处理,最终得到各类样本在0 ~ 1.5 THz频段的频域光谱(图1)。为更加准确地对水稻种子进行光谱模式识别研究,采用不同的特征选择方法对种子进行特征波长提取,以获得更为精确的分类效果。

图1 经FT方法预处理后的10类水稻种子的太赫兹光谱图Fig.1 Terahertz spectra of 10 kinds of rice seeds pretreated by FT method

特征选择是从已有样本的原始特征数据集中选择某些有效特征从而使系统内特定指标最优化的过程[11]。采用合适的特征选择方法不仅可以解决批量样本数据的“维度灾难”问题,更会提升分类器的学习效率,有效降低模型的运行时间和增加模型的可解释性。

1.2.1Relief算法Relief算法是一种基于特征权重进行特征选择的算法,即在各类别及其特征的相关性基础上分析各特征权重,当其特征权重小于某个阈值时该特征被剔除。张萌[12]团队采用高光谱成像技术对苹果轻微损伤开展快速识别工作,借助Relief算法提取到8个特征波段,最终有效提升了后续分类器的学习效率。

1.2.2随机森林算法随机森林(RF)算法作为一种集成学习方法,具有分析复杂相互作用分类特征的能力,该算法可通过对变量的重要性度量使数据作为特征选择的工具。冯志立等[13]利用RF算法对不同类型的冬小麦光谱进行特征选择研究,发现基于RF算法的特征选择方法使得冬小麦的分类精度高达98.33%,其模型能够有效提升分类器的学习效率;袁自然等[14]采用RF特征选择算法对辣椒叶片的高光谱图像和叶绿素含量进行数据筛选,发现利用RF算法选择的波段所建模型的决定系数均大于0.8,说明该方法具有较高的稳定性和预测精度。

1.2.3支持向量机递归特征消除算法支持向量机递归特征消除(SVM-RFE)算法是一种寻找最优特征子集的贪心算法,即建立支持向量机(SVM)模型选择最优特征,对剩余特征重复该过程直至遍历所有特征,其过程中特征被消除的次序即为特征排序。SVM-RFE的优势在于其模型性能好、泛化能力强,被选择的特征子集对样本整体更具有代表性[15]。陈辉煌等[16]建立了SVM-RFE模型对9种鲜茶叶的高光谱数据进行特征提取并采用线性SVM分类器进行分类,实验结果表明基于SVM-RFE特征选择后的SVM分类结果准确率达95%以上,证明了SVM-RFE模型在数字信号处理领域的稳定性和有效性。

1.2.4最大相关最小冗余算法最大相关最小冗余(mRMR)算法是一种滤波式特征选择算法,即在原始特征集合中筛选出与分类变量间相关性最大而与特征间相关性最小的一组特征,其优势在于能够找到最优区分度的特征,并最大程度地消除特征变量的冗余。张天亮等[17]利用高光谱成像技术对8个玉米品种的叶片各区域进行光谱分析,采用mRMR算法成功提取到各叶片区域的品种分类特征;沈宇等[18]采用高光谱成像技术对苹果损伤时间开展识别预测工作,实验通过建立mRMR模型提取到利于预测苹果损伤时间的光谱特征,其结果对于提升苹果损伤时间的预测精度具有参考价值。

因此,本实验采用Relief算法、RF算法、SVM-RFE算法和mRMR算法对不同品牌水稻种子样本的太赫兹时域光谱进行研究,以提高后续分类器的分类效率,为种子掺假类案件的侦破提供参考。

2 结果与讨论

2.1 4种特征选择方法的提取结果分析

实验采用MATLAB R2021b软件建立基于Relief、RF、SVM-RFE和mRMR算法的4种特征选择模型,分别对10类水稻种子样本进行特征波长选择,结果如图2所示。

图2 4种特征选择算法对样本波长的提取结果Fig.2 Extraction results of sample wavelengths by four feature selection algorithms

由图2可知,不同特征选择方法由于其建模原理不同,因此所选择出的特征波长结果也会有较多差异。基于Relief算法的特征选择方法对10类水稻种子的波长选择结果主要集中在0.6 ~ 0.8 Thz区间内;RF算法对样本波长的特征选择结果主要集中在0.1 ~ 0.6 Thz和0.8 ~ 1.5 Thz区间;SVM-RFE算法主要集中在0.1 ~ 0.82 Thz和1.0 ~ 1.5 Thz区间;mRMR算法则集中在0.9 ~ 1.32 Thz区间。特征选择方法的优势在于能够去除与后续机器学习任务不相关的特征,从而增加模型效果的稳定性。此外,特征选择还能够降低过拟合风险并使模型的泛化能力加强,最终增大特征与特征值之间的相关性。

2.2 模型分类及优化

2.2.1 模型分类结果极限学习机(ELM)是一种基于前馈神经网络搭建的机器学习模型,凭借其学习效率高和泛化能力好等优势被应用于法庭科学领域[19]。张晗等[20]利用相机采集图像并结合ELM模型对玉米单粒种子发芽潜力进行研究,结果表明基于ELM的机器视觉技术对种子发芽的查准率预测高达88.51%。支持向量机则是一种监督式线性分类模型[21],其本质是找到样本间最佳决策边界从而对样本进行分类。在解决多分类问题时,SVM模型可将多个分类面参数求解并合并至一个最优化问题中最终实现多样本分类。本实验采用MATLAB R2021b软件分别建立ELM和SVM分类模型,将训练集与测试集的比例设置为7∶3。在ELM模型中,隐含层节点个数设置为40个,使用Sigmoid函数作为激活函数;在SVM模型中,对特征数据进行归一化处理,同时采用径向基函数(RBF)作为核函数进行分类。两种模型的分类结果如图3和图4所示。

图3 ELM模型对10类水稻种子样本的分类结果图Fig.3 Classification results of ELM model on 10 categories of rice seed samples

由图3和图4可知,经特征选择后的水稻种子样本分类准确率均远高于未经特征选择的原始样本。分析原因在于原始样本中的无关特征和冗余特征太多,增加了分类器的复杂性,从而使机器学习任务的难度提高,最终导致模型分类的准确度降低。

图4 SVM模型对10类水稻种子样本的分类结果图Fig.4 Classification results of SVM model on 10 categories of rice seed samples

2.2.2 分类模型的优化将基于不同特征选择方法的ELM模型和SVM模型分类结果可视化(图5)。由图5可知,ELM模型对经过不同特征选择方法处理的种子样本的分类结果总体高于SVM模型。原因在于SVM分类模型是通过二次规划求解支持向量进行分类,对大规模训练样本难以实施,需要耗费大量的机器内存和运算时间;而ELM模型具有隐含层,机器学习过程中仅计算权重,因此在学习速率和泛化能力方面更具优势。在ELM模型的分类结果中,基于RF算法进行特征选择的样本分类准确率最高(90%),原因在于RF算法能够对变量的重要性进行度量并且对特征进行排序,从而可有效识别并消除冗余特征和不相关特征,提高分类器的分类性能。但ELM模型本身可控性较差,没有考虑结构化风险,会导致样本结果出现过拟合等问题。因此,本实验对ELM分类模型进行优化,以进一步提升其分类的准确率。

图5 基于不同特征选择方法的ELM模型和SVM模型分类结果比较Fig.5 Comparison of classification results of ELM model and SVM model based on different feature selection methods

布谷鸟搜索(Cuckoo search,CS)算法是一种群智能优化算法,其主要特点是参数少、操作简单且寻优能力强[22]。高桂革等[23]建立了CS-ELM模型对风速序列进行预测,论证了模型应用的合理性;童成宝等[24]利用CS-ELM模型对遥感影像开展分类鉴别工作,结果发现CS算法可以解决ELM模型中因参数计算错误导致分类结果较差的问题。鉴于此,本实验将CS算法应用于ELM模型中并对输入层和隐含层的权值进行优化,以提高模型的预测精度。

在建立CS-ELM模型的过程中,将训练集与测试集的比例设置为7∶3,ELM隐含层节点数设置为2 000,迭代次数设置为70,布谷鸟巢穴数量设置为9个,被宿主发现的概率设置为0.2。CSELM模型对样本的分类结果如图6所示。

由图6可知,经RF算法对10类水稻种子样本的太赫兹时域光谱进行特征选择后,CS-ELM模型对于样本的分类准确率达到100%。其中,RF特征选择算法对于水稻种子样本波长的重要性度量结果如图7所示。结合图2B可知,RF模型选择图7中依据重要性从大到小顺序排列的前15个波长点作为特征波长点进行后续分类识别。图6结果表明,基于RF特征选择算法的CS-ELM模型具有较高的分类精度,能够很好地弥补传统ELM模型训练速度慢、可控性能差等不足。因此,实验结果证明太赫兹时域光谱结合RF-CS-ELM模型在种子掺假鉴定领域具有一定的实用性。

图6 基于RF特征选择算法的CS-ELM模型分类结果Fig.6 Classification results of CS-ELM model based on RF feature selection algorithm

图7 基于RF算法的波长重要性度量结果图Fig.7 Results of wavelength importance measurement based on RF algorithm

3 结 论

本文利用太赫兹时域光谱技术结合机器学习方法对不同品牌水稻种子的掺假问题进行研究。基于太赫兹时域光谱系统采集到的10类水稻种子样本在不同频率下的吸收率谱图,采用傅里叶变换对原始光谱数据进行预处理,在预处理的基础上,建立了4种特征选择方法对经预处理后的光谱样本进行特征波长选择,并搭建ELM和SVM模型对经过特征选择的样本数据进行分类识别。结果显示,通过优化建立的CS-ELM分类模型对基于RF算法进行特征选择后的10类水稻种子样本的识别效果最好,准确率达到100%。因此,将太赫兹时域光谱与机器学习相结合,可对待测样本进行快速检测与分类识别,为太赫兹时域光谱技术在种子掺假鉴定领域的应用提供了一定的参考与借鉴。

猜你喜欢

特征选择赫兹时域
基于时域信号的三电平逆变器复合故障诊断
基于双频联合处理的太赫兹InISAR成像方法
太赫兹低频段随机粗糙金属板散射特性研究
太赫兹信息超材料与超表面
山区钢桁梁斜拉桥施工期抖振时域分析
Kmeans 应用与特征选择
基于极大似然准则与滚动时域估计的自适应UKF算法
基于时域逆滤波的宽带脉冲声生成技术
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统