APP下载

结合SG-LDA-SVC的太赫兹时域光谱快速无损鉴别陈皮产地的方法研究

2022-08-31余静孝韦庆益蒲洪彬

现代农业装备 2022年4期
关键词:时域赫兹准确度

余静孝,韦庆益,罗 洁,李 茜,蒲洪彬

(1.华南理工大学食品科学与工程学院,广东 广州 510641;2.江门市华讯方舟科技有限公司,广东 江门 529000)

0 引言

陈皮(Citri Reticulatae Pericarpium)为芸香科植物橘及其栽培变种的干燥成熟果皮[1]。陈皮中含有大量以橙皮苷、川陈皮素和橘皮素为主的黄酮类活性成分,这些活性成分通常具有抗过敏、降低血管脆性、维持血压正常渗透压、抗病毒、抑制癌变、降低人体胆固醇含量和降血压等生理作用[2]。自然界的环境多种多样,陈皮的种类也多种多样,由于陈皮品质与产地息息相关,因而对陈皮产地的鉴别显得尤为重要[3]。

目前,对陈皮产地的鉴别方法很多。李旻等[4]采用分光测色计获得陈皮颜色信息实现了对中药材品种的简单鉴别,此方法虽然简单、快速,但是不法商贩通常会对陈皮进行染色,给这种陈皮表面性状鉴别方法带来一定的干扰。对于陈皮内在成分的鉴别成为了一种常见的方法,宋玉鹏等[5]采用高效液相色谱法(HPLC)法测定了不同陈皮来源药材中橙皮苷、川陈皮素、橘皮素和辛弗林的含量,证实了不同产地的陈皮中活性有所差异,进一步对陈皮产地进行了鉴别,化学分析法虽然较为精确,但是其前处理过于复杂,时间较长,无法达到快速、高效鉴别的目的。光谱检测法作为一种新兴、高效、无损的检测方法,已被广泛地应用于药材的检测,余梅等[6]采集不同产地陈皮近红外光谱,采用化学计量学方法建立了陈皮产地的鉴别模型实现了陈皮产地的判别。

太赫兹波是指频率在0.1~10 THz 的电磁波,其波段介于微波与红外之间[7]。相对于其他电磁波,太赫兹波具有穿透性强、光子能量低、光谱频带宽和信噪比高等优势[8]。由于陈皮中的大多数活性成分的低频振动和转动模式均处于太赫兹的测量范围之内,太赫兹时域光谱(THz-TDS)技术为陈皮产地的快速无损鉴别提供了新的技术途径。目前采用太赫兹时域光谱技术对陈皮产地的研究鲜有报道,仅有杨少壮等[9]采用PCA-SVM 模型对不同年份的陈皮进行鉴别分析。

太赫兹光谱采集的过程中,往往会出现不同的谱峰之间的重叠、基线漂移等外界干扰,通常需要结合化学计量学方法对采集完的太赫兹光谱数据进行处理,进而减小由于外界干扰所带来的误差[10]。胡军等[11]发现经过归一化后建立的面粉中添加剂苯甲酸的PLSR 模型较原始光谱建立的模型更优,预测集的R2为0.979 0,预测集的RMSE 为1.28%。由于光谱数据维度过大,通常需要通过一定的数据降维方法来减少数据分析的难度和提高建模的速度[12]。刘陵玉等[13]利用太赫兹时域光谱技术结合PCA-LDA 算法实现了萃取过的西洋参和正宗西洋参的光谱数据的降维处理。对于多维度的光谱数据,往往最终需要结合机器学习方面的建模方法实现准确的分析[14]。林红梅等[15]基于太赫兹时域光谱技术利用支持向量机模型对软玉和仿品实现了精确的鉴别,模型识别率高达98.6%。

本文主要通过基于太赫兹时域光谱技术结合化学计量学方法对陈皮产地进行快速无损鉴别分析,为陈皮产地的无损快速鉴别提供了一种新的研究方向和理论依据,具有十分重要的实际应用价值。

1 材料与方法

1.1 材料与仪器

新会陈皮;CCT-1800 太赫兹检测仪,深圳市太赫兹科技创新研究院;HY-12 压片机,天津天光光学仪器科技有限公司。

文中的新会陈皮主要包含了古井、七堡、双水、梅江和三江5 个产地的陈皮。5 个产地的陈皮品种均为二红皮,种植方式均为驳枝密植,由于几个产地的地理位置较为相近,气候差异相差不大,各个产地的陈皮均由江门市新会陈皮研究院采用统一的陈化方式和陈化环境对陈皮进行陈化之后供样。

1.2 光谱数据的采集

将陈皮片剪成约直径13 mm 的圆片状,再放入特制的模具并置于压片机(1 Mpa,30 s)中将圆片压平,最后将压平的圆片状样品连同特制模具放于已充满氮气的太赫兹检测仪(为保证光谱测量的准确性,样本重复测量100 次,取平均值作为该样品的原始光谱)中获取太赫兹光谱数据,试验流程如图1 所示。

图1 太赫兹光谱数据获取流程图

获得样本个数如下:2017 年174 个(古井、七堡、双水、梅江和三江各34、48、26、32 和34 个);2018 年152 个(古井、七堡、双水、梅江和三江各42、27、23、24 和36 个);2019 年170 个(古井、七堡、双水、梅江和三江各36、35、35、27 和37 个);2020 年112 个(古井、七堡、双水、梅江和三江各20、21、21、19 和31 个);2021 年168 个(古井、七堡、双水、梅江和三江各34、62、24、18 和30 个)。本太赫兹时域光谱仪的测量范围为0.06~10.00 THz,由于0.06~0.20 THz 和2.0~10.0 THz 波段的信噪比较低,故采用0.2~2.0 THz 之间的吸收系数谱进行分析。

1.3 光谱数据分析

本文运用到的化学计量学方法多种多样。数据预处理方法[16]有:标准正态变换(Standard Normal Variate Transform,SNV)、标准归一化(Normalization,normal)、去趋势(Detrended,DT)、一阶导数(1st Derivative,1st-der)、二阶导数(2nd Derivative,2ndder)、多元散射校正(Multiplicative Scatter Correction,MSC)、平滑滤波(Savitzky-Golay,SG)、移动平均平滑(Moving Average Smoothing,MAS)、均值中心化(Mean Centering,MC);数据特征提取方法为:线性判别分析(Linear Discriminant Analysis,LDA);分类建模方法有:K 邻近分类(K-Neighbor Classification,KNNC)、支持向量机分类(Support Vector Machine Classification,SVC)、随机森林分类(Random Forest Classification,RFC)、模型评价指标:准确度(Accuracy,acc)。光谱数据分析运用到化学计量学方法均基于python3.8 的Scikit-Learn 库 在Jupyter Notebook上实现。

2 结果与讨论

2.1 不同产地陈皮的原始光谱分析

不同产地陈皮的平均光谱如图2 所示。从图2 可以看出,同一年份不同产地的吸收系数谱在0.2~2.0 THz 之间没有明显的吸收峰,随着频率的不断增大,吸收系数也不断增大,同一年份不同产地的吸收系数曲线重叠交叉严重,难找到一个适合的频率区间来对不同产地的陈皮进行区分。从图2(a)、(b)和(c)可以看出,梅江产地的吸收系数随着频率的不断增大而逐渐地与其他产地吸收系数谱分离,可以实现初步的简单鉴别。不同产地的土壤和气候不同,理应会造成不同产地的陈皮中活性成分会有较大差异,可能是由于陈皮中所含的活性成分过多,导致太赫兹吸收系数谱呈现出来的是多种物质的混合光谱信息[17],这可能是由于其成分结构发生了变化或者由于样品表面不平整引起了多重反射[18],总体来说从图2 中无法准确清晰地根据光谱曲线鉴别出不同产地的陈皮。可见无法通过观察陈皮的原始平均光谱准确地实现同一年份不同产地的鉴别,因而考虑结合化学计量学的分析方法做进一步的研究分析。

图2 同一年份不同产地陈皮的平均光谱

2.2 基于不同于预处理方法不同产地陈皮的鉴别分析

往往会有很多的外界干扰存在于获取太赫兹光谱的过程中,如:光谱的基线漂移、光谱的噪声、光谱的散射和光谱的光程差异等[19]。因此,需要采用一定的预处理方法对太赫兹光谱数据进行处理,进而减小由于外界干扰所带来的误差,以提高后续建立的模型的准确度。本文采用Kennard-Stone(K-S)算法划分光谱数据集,训练集占比为75%,测试集占比为25%;模型均采用10 折的交叉验证的网格搜索(Grid Search,CV)的方法获取模型的最佳超参数,实现最佳的模型准确度。

采用不同预处理方法之后的KNNC、SVC 和RFC 模型不同年份陈皮的不同产地鉴别的训练集、验证集和测试集准确度如图3 所示。从图3 中可以看出,当采用SG 预处理之后的分类模型的准确度都非常高,均高达90%,表明SG 预处理可以减小外界干扰引起的光谱数据振动幅度过大引起的误差[20],从图4 中可以看出,SG 预处理的光谱曲线相比于原始光谱更加光滑,表明SG 一定程度上减小了光谱的振动幅度。由此说明陈皮光谱数据的噪音主要来自于光谱振幅所带来的误差。与此同时,发现光谱经过有些预处理方法处理后,准确度非但没有提高,反而下降了,表明有些预处理方法会扣除光谱中的有效信息,导致准确度降低[21]。从模型的角度进行分析,KNNC的验证集和测试集的准确度均普遍低于SVC和RFC,表明SVC和RFC的鲁棒性均优于KNNC。将SVC和RFC进行对比发现,两者的验证集和测试集的准确度不相上下,可能是由于每个年份的数据集中陈皮产地的组成不一样,样本类别本身具有一定的差异性;划分数据集时,样本的均衡性不一致均会小幅度地影响SVC和RFC模型的性能[22-23]。可见,光谱振动幅度过大带来的影响是光谱数据的主要误差,因此SG预处理很大程度上减小了这种误差,各种模型的准确度均有了很大程度的提高。

图3 基于不同预处理方法的KNNC、SVC、RFC模型陈皮产地的准确度柱状图

图4 2021 年不同产地的太赫兹光谱图

2.3 基于LDA特征提取方法不同产地的陈皮的鉴别分析

尽管通过SG 预处理建立的SVC 和RFC 模型均已有较高的准确度,但是为了实现快速识别的目的,考虑通过特征工程提取不同产地陈皮光谱数据的特征进而提高模型的运行速度。接下来将对经过SG 预处理后的光谱数据进行特征提取,并建立SVC 模型。线性判别分析(LDA)是一种有效的特征提取方法,可以将有用信息进行重新融合,形成更为有用的特征,由于其优越的性能,常用于光谱特征提取的过程当中[24]。

经过LDA 特征提取过程后,每个样品的光谱特征个数由原来的393 降为了4 个,减少了每个样本的特征数,大大节约了建模时间以及模型预测时间。从表1 可以看出,经过LDA 特征提取后,进一步减少了模型中的冗余信息,降低了模型的复杂度[25],解决了模型过拟合的问题,每个年份的验证集和测试集的准确度均得到了进一步的提高,每个年份的预测集、验证集和测试集的准确度均由原来的90% 多提高到了100%。可见,经过LDA 特征提取后,将每个样本具有高质量信息的特征进行融合,得到了更少但更为有价值的特征,提高模型验证集的准确度的同时进一步提高了模型的鲁棒性,测试集准确度的提高则进一步验证了模型的可行性。

表1 基于SG预处理方法结合LDA特征提取的SVC模型陈皮产地的准确度

3 结论

本文利用太赫兹时域光谱技术对2017、2018、2019、2020、2021 年5 个年份的古井、七堡、双水、梅江、三江5 个产地的陈皮进行溯源分析。发现无法从原始平均光谱的特征峰和形状等信息准确地鉴别出不同产地的陈皮,接着采用PCA 的无监督方法初步发现少数产地具有成簇现象,但是依然无法准确地实现不同产地的快速鉴别,进而先采用多种预处理方法以减小外界干扰的影响,发现SG 预处理对于光谱中产生的振动幅度过大的误差具有很大程度的减弱效果,并且SVC 模型具有更加精确和快速的鉴别效果,最后再次采用LDA 对SG 处理后的光谱进行特征提取,发现在提高SVC 模型运行速度的同时,也一定程度上提高了准确度。可见采用SGLDA-SVC 模型可以有效地对不同产地的陈皮进行鉴别,对陈皮地道性的快速无损检测具有意义。

猜你喜欢

时域赫兹准确度
影响重力式自动装料衡器准确度的因素分析
晚霞浅淡少年糖
论提高装备故障预测准确度的方法途径
基于MATLAB 的信号时域采样及频率混叠现象分析
Word中“邮件合并”功能及应用
半导体太赫兹技术常温操作的设备和系统
两种常用漂浮式风力机平台动态特性分析
对GB 17167实施过程中衡器准确度要求问题的探讨
不同入射角风波流海上漂浮式风力机频域与时域动态特性
首都师范大学太赫兹光电子学省部共建教育部重点实验室诚招英才