APP下载

基于太赫兹光谱技术的贝母品种鉴别方法研究

2021-11-11刘燕德李茂鹏崔惠桢

光谱学与光谱分析 2021年11期
关键词:川贝母贝母赫兹

刘燕德,徐 振,胡 军,李茂鹏,崔惠桢

华东交通大学机电与车辆工程学院,江西 南昌 330013

引 言

贝母为多年生草本植物,其鳞茎部分常作药用。《本草经集注》说:“形似聚贝子”,名为贝母,主治止咳化痰、清热散结等。常将贝母类药材分为:川贝母、浙贝母、平贝母、伊贝母、土贝母等,贝母品种不同药效也略有差异,且极易混淆。川贝母是贝母中的珍品,药用效果相对较高,生存环境脆弱,生长周期漫长,产量相对较低,市场需求较高,价格极高,易被冒充[1]。广大群众鉴别易混淆中草药多基于传统“一看、二闻、三尝”的经验鉴别,此方法需要积累丰富的经验,且极易出错、难以鉴别高仿。近年来基于理化分析的高效液相色谱法(high PerforMance liquid chromatography,HPLC)、薄层色谱法(thin layer chromatography,TLC)、气相色谱法(gas chromatography,GC)、质谱法(mass spectrometry,MS)以及联用技术等方法也被广泛应用于测定中草药的主要成分及鉴别种类[2-3]。但此类检测手段需要复杂的样品处理,以及专业人员的操作,费时费力[4]。因此有必要开发探索一种新的检测手段来弥补传统方法的缺陷。

太赫兹波频率处于0.1~10 THz之间,具有能量低、频谱宽、穿透强与吸收强的特征,基于太赫兹光谱的鉴别检测技术具有识别率高、耗时短、操作简单等优势,是一种新颖的检测手段。太赫兹光谱独特的优势,使其近些年在食品、生物、化工、材料和医药检测等领域得到广泛应用。中草药的药用成分结构复杂,其有机分子之间的弱相互作用和振动跃迁以及晶体中的低频振动和吸收频率大多数处于太赫兹波段范围内。这些振动充分反映了中草药的分子结构及相关信息,因此使得太赫兹光谱技术对中药材检测鉴别成为可能。

马品等[5]使用太赫兹光谱检测技术对天麻含水量进行检测,表明太赫兹可以在测定中药饮片含水量中得到应用。徐哲等[6]为对五种不同产地、不同批次的鸡血藤和大血藤进行鉴别,采用太赫兹光谱技术结合光谱角算法对鸡血藤与大血藤进行分类,效果较为理想,两类中药样品总计100组数据的分类正确率达到 95%。Zhang等[7]先后对中药中的添加剂、易混淆中草药、有毒中草药进行鉴别研究,效果均较为理想。李辰等[8]对正品与伪劣冬虫夏草进行鉴别,发现冬虫夏草正品存在1.01 THz和1.13 THz特征吸收峰,根据吸收峰实现对正伪冬虫夏草的鉴别。杨少壮等[9]对陈皮的THz图谱进行分析以判断储存年份,建立了基于主成分分析-支持向量机(PCA-SVM)的高效陈皮贮存年限预测模型, 其年限预测准确度可达94%以上。上述研究利用太赫兹光谱技术从不同的角度对中药材的品质进行把控,为后续研究者提供了经验借鉴。本研究将太赫兹光谱技术与多种化学计量学方法结合,对川贝母、平贝母、伊贝母、浙贝母四种不同品种的贝母进行定性鉴别,试图探索一种快速无损的贝母品种鉴别方法。

1 实验部分

1.1 仪器

实验所用的THz-TDS系统由日本Advantest公司研制,系统使用两个超短脉冲激光器(1.55 μm)分别作为偏置输出(太赫兹波产生)和信号输入(太赫兹波探测)的光源。飞秒激光脉冲输出功率20 mW,中心波长1 550 nm,脉宽50 fs,重复频率50 MHz。由于太赫兹波对水分比较敏感,为减少实验误差,将太赫兹电磁辐射通过的光路封闭在干燥箱内,并通入干燥空气,在实验过程中,湿度保持在10%的恒定值,温度25 ℃。图1为实验所用设备的原理图。

图1 太赫兹设备原理图

1.2 样品制备

实验所用4种贝母均采购于中药房,首先将四种贝母样品放入干燥箱中50 ℃,干燥2 h,磨成粉末再过200目筛,密封保存。每种样品均按照同一比例(62.5%)加入高密度聚乙烯,用涡旋振荡器震荡3 min,以确保聚乙烯与样品粉末充分混匀。压片时每次称取(0.1±0.005)g,设置压力16 MPa,压片控制时长2 min,使每个样品片厚度维持在0.8 mm左右,放入密封袋保存。四种样品各压制25个待测样品片,共计100个。每个样品采集5个点,每个点采集2次。为保证采集环境的稳定性,将样品放入样品仓后,等待3 min后开始采集光谱,每类贝母的太赫兹时域光谱各250条,共采集到1 000条光谱。

1.3 数据采集

所有测量均采用图1所示的THz-TDS系统进行。依据Dorney等[10]和Dragoman等[11]提出的光学参数提取方法提取所需的光谱信息,参数包括透射率、折射率、吸收系数等,此类参数对具有厚度均匀且两面平行固体样品,在透射模式下的太赫兹光谱吸收特性进行描述。实验记录参考太赫兹时域信号Eref(t)和样本的太赫兹时域信号Esam(t),利用快速傅里叶变换(fast Fourier transform,FFT)算法可以得到光谱。根据菲涅耳公式,大多数低损耗材料的THz振幅透射率T可以表示为

(1)

式(1)中,Eref(ω)和Esam(ω)分别为入射和透射的THz频域谱;A和φ分别为基准信号和样本信号的幅值比和相位差;N=N+ik为样品的复折射率,k为消光系数;d为试样厚度;ω是角频率,c是真空中的光速。由式(2)和式(3)得到折射率n(ω)和吸收系数α(ω)。

(2)

(3)

1.4 数据处理流程

获取到的太赫兹光谱除包含其自身的物理化学信息外,还夹杂其他干扰信息,因此在使用化学计量学方法建模前,需要对原始光谱进行预处理,去除噪声。同时由于样品光谱数据量较大,还需要进行降维处理。采用K-S算法将光谱数据按3∶1随机分为建模集和预测集,分别建立二分类和多分类模型。图2为实验具体过程图。

图2 贝母分类流程图

1.5 算法介绍

预处理:实验为寻求对贝母样品光谱最优的预处理方法,主要用到移动平滑、S-G平滑、多元散射校正(multiplicative scatter correction,MSC)、标准正态变量变换(standard normal variable transformations,SNV)和基线偏移校正(Baseline offset)五种预处理方法,进行光谱预处理是为了消除光谱的冗余信息,提高模型稳定性与准确性。

主成分分析(principal component analysis,PCA)是常用在光谱分析中进行数据降维,以减少数据运算量,其基本原理是通过正交变换将相关变量转换为线性不相关的变量,经过变换之后得到原始光谱的主成分,同时这些主成分基本能够代替原始光谱的信息[12]。累计方差贡献率决定主成分的个数,当累计方差贡献率能够提供原始变量的绝大部分信息时,即根据方差贡献率与主成分数关系图确定所需的主成分数。

偏最小二乘判别分析(partial least squares-discriminant analysis,PLS-DA)是一种基于偏最小二乘(PLS)的多变量分析方法,该方法将主成分分析与相关性分析结合,对光谱数据与分类变量进行线性拟合[13]。

随机森林(random forest,RF)是基于决策树的一种机器学习方法,其与自然界中由树组成森林的概念类似,以决策树作为基本组成单元,决策树之间彼此独立。根据若干个有差异性的样本子集建立决策树,再采用投票机制得到最终判断。由于其具有优秀的预测精度和较小的运算量,随机森林目前已经得到广泛的关注[14]。

支持向量机(support vector machine,SVM)是一种基于结构风险最小化准则的模式识别方法,该方法对小样本、非线性和高维度问题中优势显著。本实验主要采用高斯核函数的SVM分类,此方法需要寻求惩罚因子C和核函数g两个参数的最佳优化值,两个参数对分类效果有着重要影响。

反向误差传输神经网络(back propagation neural network,BPNN)是一种前馈多层神经网络,由非线性变换神经单元组成,可以实现输入和输出间的任意非线性映射,非线性映射逼近能力和泛化能力强大,在建立大样本的非线性校正模型中被广泛应用[15]。

2 结果与讨论

2.1 各类贝母的THz光谱

图3为四种贝母在0.6~3.0 THz波段的平均吸收曲线,未对光谱做任何预处理。可以看出四种样品的光谱曲线趋势较为相似,均无明显的吸收峰,在低频区域四种样品的平均光谱曲线重叠较为严重:在高频区域川贝母的吸收系数明显低于其他三类贝母,且平贝母、伊贝母、浙贝母区分不够明显,这可能是由于四种贝母某些药用成分含量不同造成的。

图3 四种贝母的平均吸收光谱

2.2 建模与分析

2.2.1 贝母样品的二分类鉴别

根据采集到的样品原始光谱,建立PLS-DA定性分析模型对川贝母与其他三类贝母进行鉴别区分。每两种样品光谱数据各250组,共计500组样品数据,随机选取120组作为验证集,380组光谱数据为建模集。表1为二分类PLS-DA判别模型正确率。

表1 PLS-DA模型分类正确率

共建立了6个二分类模型,其中川贝母-平贝母、川贝母-浙贝母、平贝母-伊贝母、伊贝母-浙贝母4个二分类模型正确率均为100%。川贝母-伊贝母二分类模型的整体正确率为93.333%,其中川贝母的正确分类率为91.667%,伊贝母的正确分类率为95%。平贝母-浙贝母二分类模型的整体正确率为98.333%,其中平贝母的正确分类率为96.923%,浙贝母的正确分类率为100%。二分类模型整体分类效果较好。

根据原始光谱数据建立PLS-DA模型进行预测时,其中川贝母-伊贝母鉴别时,5个川贝母被错误识别成伊贝母,3个伊贝母被错误识别成川贝母。进行平贝母-浙贝母鉴别时,2个平贝母被错误识别成浙贝母,其他贝母均无错分现象,整体效果较好。图4为各种PLS-DA二分类模型。

图4 六种PLS-DA二分类模型

2.2.2 贝母样品的多分类鉴别

当多种贝母掺杂在一起时,采用PLS-DA鉴别,结果精度较差,为寻求最佳解决贝母的多分类问题,在采用多种预处理方法多光谱数据进行预处理之后,利用主成分分析提取数据的主要特征,降低光谱数据的维度。图5为四种贝母样品的太赫兹光谱经过SNV预处理之后的主成分数与方差贡献率关系图,图6为前三个主成分评分图。当主成分大于13时,随着主成分数的增加,方差贡献率增幅趋于0,累积方差贡献率达到95%。

图5 主成分数与方差贡献率关系图

图6 四种贝母的前3个主成分三维得分图

由于贝母成分复杂,特征吸收峰不明显,无法通过直接观察进行分类,需借助机器学习算法,故在对主成分分析之后的数据分别建立RF,SVM和BPNN多分类模型。表2为各模型鉴别四种贝母产地的具体正确率。

表2 贝母多分类结果对比

其中BPNN类模型的效果最差,尽管结合多种预处理方法,但整体正确率均未超过80%。可能是由于BPNN可以对大量数据进行模型训练,但其极易陷入模型训练速度较慢的状态。RF结合SNV建模时,效果较好,正确率为95.417%,共计11个贝母样品被错误分类。综合三类模型,SVM结合SNV建模效果最好,整体正确率高达97.490%,预测集剔除一个异常点之后共计239个样本,被错误分类6列,其中川贝母4例,正确率为97.490%,浙贝母1例,正确率为96.552%,平贝母与伊贝母均无出错。

3 结 论

以川贝母、平贝母、伊贝母、浙贝母四种贝母为例,介绍太赫兹时域光谱技术结合化学计量学方法在中药材定性鉴别中的应用。对原始光谱预处理之后,采用主成分分析(PCA)提取主要特征,再建立二分类判别模型,其中川贝母-伊贝母二分类模型正确率为93.333%,平贝母-浙贝母二分类模型正确率为98.333%,其他二分类模型正确率均为100%,表明PLS-DA可以实现贝母的两两准确分类;最后分别建立随机森林(RF)、支持向量机(SVM)、反向误差神经网络(BPNN)建立多分类模型并进行对比,SVM结合SNV预处理建模效果最好,整体正确率高达97.490%。这表明四种贝母样品的太赫兹吸收光谱虽均无明显的吸收峰,但经过光谱预处理结合合理的分类模型,可以实现相似贝母的准确区分。本研究对维护中药材的安全以及中国传统医药市场秩序具有重要的意义,也为后期利用太赫兹时域光谱技术对中药材更深层次的研究提供理论借鉴。

猜你喜欢

川贝母贝母赫兹
王莹作品赏析
中药止咳有川贝母
川贝母的量效关系及其临床应用探讨
言采其蝱说贝母
一株川贝母内生真菌的分离鉴定及其产贝母类生物碱分析
基于双频联合处理的太赫兹InISAR成像方法
太赫兹低频段随机粗糙金属板散射特性研究
太赫兹信息超材料与超表面
电子舌技术鉴别川贝母粉及其掺伪品
HPLC法同时测定新疆贝母中3种核苷类成分