APP下载

基于太赫兹时域光谱和模式识别技术软玉和仿品鉴别

2021-11-11林红梅曹秋红张同军李照鑫黄海青李学敏张庆建吕新民李德华

光谱学与光谱分析 2021年11期
关键词:软玉仿品赫兹

林红梅, 曹秋红, 张同军, 李照鑫, 黄海青,李学敏, 吴 斌, 张庆建,吕新民,李德华*

1.山东科技大学电子信息工程学院,青岛市太赫兹重点实验室,山东 青岛 266590 2.中国电子科技集团公司第四十一研究所,山东 青岛 266555 3.青岛海关技术中心,山东 青岛 266002 4.阿拉山口海关技术中心,新疆 阿拉山口 833400

引 言

玉石有软玉、硬玉之分,平常人们所说的玉多指软玉,而硬玉指的是翡翠。玉与石的主要区别就是玉的质地较为细腻,富有韧性,呈半透明状,且有光泽;而石基本上是没有光泽的,且入手粗糙,通常是不透明的。随着加工技术的进步,玉石仿品的做工可以以假乱真,单靠肉眼很难鉴别。因此很多现代科技手段被用于玉石鉴别。例如红外光谱技术,但是该技术需要已知的样品光谱参数,并且光谱分析工作难度较大;拉曼光谱技术[1]中荧光现象会造成很大的背景干扰,且进行傅里叶变换时,常出现曲线的非线性问题。因此寻找一种实用、便捷、准确可靠的玉石无损检测技术极为重要。

由于太赫兹波对非金属材料具有很好的穿透性,光子能量低、使用安全,且具有很宽的波谱范围,因此被广泛用于无损检测和安检成像。孟倩等[2]使用太赫兹时域光谱技术对玉石和仿品进行分析,试图根据其折射率、吸收系数以及介电常数的差别来鉴别和田玉的真伪。杨婷婷[3]等使用太赫兹时域光谱技术对不同产地的白色软玉进行研究,根据光谱折射率的数值差异,以及特征吸收峰的不同来区分不同产地的软玉。但是大部分的软玉在太赫兹波段没有特征吸收峰,只根据其特征谱的差异,不能准确的对软玉进行鉴别。

利用太赫兹时域光谱技术结合模式识别方法对软玉和仿品进行鉴别。实验测量软玉和仿品的折射率,使用主成分分析(principal component analysis,PCA)对原始折射率数据进行降维处理。通过支持向量机(support vector machines,SVM)建立相应的分类模型,并引入网格搜索(Grid Search)、遗传算法(genetic algorithm,GA)和粒子群算法(particle swarm algorithm,PSO)对SVM的相关参数进行优化,实现了对软玉和仿品的有效识别。

1 实验部分

1.1 装置

本实验中使用的太赫兹时域光谱系统是由德国BATOP公司生产的TDS-1008,仪器光路示意图如图1所示。实验在恒温、恒湿下进行。本实验采用透射模式测量样品太赫兹时域谱。

图1 THz-TDS实验原理图

1.2 样品

实验选用来自我国新疆、青海,以及巴基斯坦、阿富汗四个地区的软玉样品,仿品选用玻璃、大理石、石包玉三种样品,样品表面光滑,厚度在3 mm左右。使用太赫兹时域光谱系统测得样品的折射率,其有效光谱范围为0.1~1.5 THz。每个地区软玉样品各测得12组数据,四个地区共48组数据,仿品共测得12组数据,软玉和仿品数据共60组。

1.3 方法[4]

主成分分析(PCA)是一种统计方法,该方法通过正交变换把高维的原始数据空间映射到一个小维度的空间,即通过提取包含原始数据信息的特征数据(主成分),组成一个新的低维数据集[5-6]。主成分PC1包含原始数据信息最多,其次是主成分PC2,主成分PC3,…,且各主成分两两正交。求解主成分的步骤如下。

(1)对原始数据矩阵Xn×p(n为样本的数量,p为数据的维度)进行标准化

(1)

(2)计算样本的相关系数矩阵Rp×p;

(3)计算样本相关系数矩阵Rp×p的特征值λi和相应的特征向量μi;

(4)提取重要主成分,一般而言,当前k个主成分的累计方差贡献率超过85%时,就可以用前k个主成分代替原始数据。

1.4 支持向量机[7-8]

支持向量机是一种分类方法,它的基本思想是寻找一个能够把特征数据准确无误的分割开,且具有最大几何间距的分离超平面。超平面的表达式如(2)所示

f(x)=ωTx+b

(2)

式(2)中:x为折射率光谱数据经降维后提取出来的特征向量;ω和b分别表示超平面的法向量及对应的截距。

求解最优超平面,就要使两类样本之间的间距达到最大,即L达到最小,L的表达式为

(3)

为了能够将全部的数据点正确分类在超平面的两侧,L需满足

(4)

式(4)中:α为拉格朗日乘子,β≥0;xi为要分类的数据点;yi为根据映射函数得到的值。当数据线性不可区分时,就需要将其映射到一个高维空间,把数据转换成线性可分再进行分类。通过引入核函数来避免数据在高维空间计算困难。在此选择径向基函数作为核函数。核函数K(xi,xj)可表示为

K(xi,xj)=exp(-|xi-xj|2/σ2)

(5)

通过核函数映射后,L的表达式可转化为

(6)

只要确定了式(6)中的ω和b,即可得到最优超平面。

2 结果与讨论

2.1 光谱分析

使用MATLAB软件分别对我国新疆、青海,以及巴基斯坦、阿富汗四个地区软玉样品和玻璃、大理石和石包玉三种仿品的时域光谱进行傅里叶变换处理,得到每种样品的频域谱,如图2(a)所示。由于样品对太赫兹波有一定的吸收,因此样品的光谱振幅会有所降低。图2(b)是样品的折射率谱。从图2可以看出,无法通过特征谱线区分软玉和仿品。

图2 玻璃、大理石、石包玉和阿富汗、中国青海、巴基斯坦、中国新疆四个地区玉石样品的太赫兹(a)频域谱,(b)折射率

2.2 主成分分析

为了去除光谱中的重叠信息以及与样品性质不相关的信息,缩短模型的计算时间、提高运行效率[9],将提取的0.1~1.5 THz频率范围内折射率60×78的原始数据减少到60×4(选取方差累计贡献率最高的4个主成分),折射率的各主成分的方差贡献率以及累计方差贡献率如表1所示,前四个主成分的总贡献率高达98.408%,因此前四个主成分被认为在很大程度上代表了原始折射率谱的光谱特征。图3为样品在第一、二主成分上的得分,从图中可以看出,软玉和仿品可以很明显的区分开来,不同地区的软玉也有聚合现象,但几种软玉聚合相对比较集中,所以此种方法对于不同地区的软玉无法进行区分。

表1 折射率各主成分方差贡献率及累计方差贡献率

图3 阿富汗、中国青海、巴基斯坦、中国新疆四个地区玉石样品和仿品在第一、二主成分上的得分

2.3 支持向量机分析

在进行主成分分析后,用新数据矩阵(60×4)代替原来的光谱数据矩阵并输入到SVM中建立分类模型。在SVM中,数据集被分为两类,一类作为训练集,一类作为测试集。随机抽取包含软玉和仿品在内的45组数据作为训练集,剩下的15组数据作为测试集。

分类模型的性能主要取决于惩罚参数c和径向基函数核参数g的选择。为了达到期望的分类效果,模型参数的选择尤为重要,因此分别采用网格搜索法、遗传算法、粒子群算法[10]对参数进行优化。

首先选用网格搜索法对参数c和g进行优化,建立网格搜索-支持向量机模型,图4为网格搜索选择SVM参数的结果。

图4 网格搜索-支持向量机参数选择结果

遗传算法的灵感来自于连续几代生物遗传特性的变化和生物的自然选择,该算法通过迭代从群体中选取较优的个体[9]。这里将GA的相关参数进行如下设置:最大进化代数设为200、种群数量设为20、将c的范围设定在(0~100)之间、将g的范围设定在(0~1 000)之间、交叉验证数设为5,其仿真结果如图5所示。从图中可以看出利用遗传算法寻找出的最优参数(c=1.740 1,g=4.544 6)可以使训练集分类准确率达到100%,算法的平均适应度约为97%。

图5 遗传算法的适应度曲线

粒子群优化算法的灵感来自于动物群体之间的社会互动。它首先用一组粒子表示一个可能的优化方案,然后通过迭代搜索最优解[11]。这里将PSO的相关参数进行如下设置:学习因子C1代表局部搜索能力设为1.5、C2代表全局搜索能力设为1.7、进化代数设为200、种群数设为10、将c的范围设定在(0.1~100)之间、将g的范围设定在(0.01~1 000)之间、交叉验证数设为5,其仿真结果如图6所示。从图中可以看出利用粒子群算法寻找出的最优参数(c=11.287 2,g=1.833 1)可以使训练集分类准确率达到100%,算法的平均适应度约为86%。

图6 粒子群算法的适应度曲线

将三种支持向量机参数优化方法进行对比,相关参数如表2所示,其中分类准确率为20次分类的平均值。从表中可以看出这3种优化方法均可以获取分类器的最优参数,虽然参数并不相同但基本可以实现正确分类,识别率分别为97.7%,98.3%和98.6%。

表2 支持向量机结合网格搜索、遗传和粒子群三种优化方法对比

3 结 论

将太赫兹时域光谱技术与支持向量机相结合,建立了软玉和仿品的分类器。采用主成分分析对原始折射率数据进行降维和特征提取,将提取后的结果输入到支持向量机建立的模型中。引入网格搜索法、遗传算法和粒子群算法对支持向量机参数进行优化。三种算法的优化识别率分别为97.7%,98.3%和98.6%,实验结果表明,太赫兹时域光谱结合支持向量机模型能够实现软玉和仿品的有效识别。这种通过太赫兹时域光谱技术结合模式识别的方法,为真假软玉的鉴别提供了一种新的方法。

猜你喜欢

软玉仿品赫兹
Beautiful And Rich Xinjiang
明朝成化时期斗彩鸡缸杯研究
基于双频联合处理的太赫兹InISAR成像方法
太赫兹低频段随机粗糙金属板散射特性研究
太赫兹信息超材料与超表面
玉器收藏第一步:软玉硬玉要分清
如何鉴定瓷器的真伪
艺术衍生品不等于艺术仿品
Applying image processing method to treat digital signals∗
断送的天才