激光诱导击穿光谱和人工神经网络的青白色软玉产地溯源
2023-01-31鲍珮瑾陈全莉赵安迪任跃男
鲍珮瑾,陈全莉, 3*,赵安迪,任跃男
1.中国地质大学(武汉)珠宝学院,湖北 武汉 430074 2.国检珠宝培训中心,北京 102627 3.滇西应用技术大学珠宝学院,云南 大理 671000
引 言
近年来宝石产地溯源的研究越来越重要,由于价格和市场需求的影响,越来越多的方法被运用在宝石的产地溯源上。软玉中目前价值相对较高的是产自于新疆昆仑山和阿尔金山地区的软玉,该产地所产的软玉结构细腻、质地温润、质量较高,而由于产地效应而在价格上略占优势的哥伦比亚祖母绿、缅甸红宝石、克什米尔蓝宝石等都是主要的受益者。所以软玉也具有产地效应,在此情况下,对软玉进行产地溯源就显得尤为重要。
目前宝石的产地溯源所使用的方法大致可分为以下几种:(1)从内外部特征上区分。例如缅甸红宝石的“鸽血红”、“糖浆状”颜色特点,克什米尔蓝宝石的“矢车菊”浓重蓝色、哥伦比亚祖母绿的三相包体等[1];(2)从特殊光学效应上区分,这个适用于那些具有特殊光学效应的宝石,如变石。不同产地变石的变色效应有差别,如斯里兰卡变石在日光下偏黄绿色,在烛光下显棕或橙色调,而巴西变石在日光下偏蓝绿色,在烛光下为偏紫的红色[2];(3)从化学元素上区分,不同产地的宝石因其形成原因不同,所含有的化学元素种类和含量也有一定差别。一般来说,由于是同种宝石,所以主要化学元素上差别不大,若要进行产地区分,从元素和同位素上入手可有较好效果[3-4]。
随着计算机和多元统计方法的发展,数理模型越来越多地被应用在更广泛的学科上。传统的利用元素含量进行宝石产地溯源的方法是二维或三维投点图[3-5],但所用的微量元素往往倾向于高维,若进行降维,可能会损失很多必要的分类信息。人工神经网络又称为深度学习,它能够使计算机通过层次概念来学习经验和理解世界。属于机器学习的一种[6]。
本研究旨在利用激光诱导击穿光谱仪结合人工神经网络技术,通过自主学习的模型达到利用数据中尽可能多的信息来对青白色软玉进行产地鉴别,也是光谱技术结合人工神经网络在宝石溯源方面的一次尝试。
1 实验部分
1.1 样品
选取以下六个产地——新疆、广西大化、江苏小梅岭、青海、韩国和俄罗斯的样品。其中新疆样品18块、广西大化7块、青海20块、韩国9块、俄罗斯15块、江苏小梅岭1块,每个样品的表面为轻微抛光的平面,之后选择相对均匀干净的区域测试五个点,因江苏小梅山的样品太少,为使得不同产地间数据样本大致相同,在其上测试五十个点。综上,新疆样品采集的光谱数据共90个,广西大化样品共35个,江苏小梅岭样品共50个,青海样品共100个,韩国样品共45个,俄罗斯样品共采集75个光谱数据。
图1 软玉样品
1.2 仪器
所选用的仪器为中国地质大学(武汉)珠宝学院自制的激光诱导击穿光谱仪,主要由样品台、激光器、光谱仪和计算机四部分组成,分为激光光源、等离子体信号采集系统、分光系统和光电探测系统。波长为1 064 nm的Nd∶YAG脉冲激光器,脉冲宽度为20 ns,激光重复频率1~20 Hz;4CCD光纤光谱仪(AvaSpec-2048FT-4-DT), 内置延迟系统,光谱分辨率为0.1 nm。仪器参数如表1所示。激光累积次数为20次、激光能量为70 mJ、采集延时为1.1 μs。
表1 LIBS仪器参数表
1.3 数据处理
为消除基底效应、激发光能量、收集效率等测量误差和参数对实验数据的影响,一般需要对光谱进行归一化预处理。强度归一化与面积归一化都可以增强值的稳定性,在此选用较为便捷的强度归一化的处理方式。软玉为硅酸盐矿物,其中Si元素在样品中稳定出现且含量都为56%左右,可以此进行峰值归一化,选择强度最大的Si的波长作为归一化的数据。
图2 软玉LIBS光谱图
2 结果与讨论
2.1 数据选择与共线性(相关性分析)
软玉样品属于硅酸盐矿物,主要成分是透闪石-阳起石类质同象系列矿物。其中镁、铁可呈完全类质同象替代。在激光诱导击穿光谱实验中,由于光谱仪的分辨率限制,有些相邻谱线靠的太近无法分辨,测得的谱线很可能是很多谱线叠加在一起。根据王亚军的选线原则,不同元素的选择谱线分立、信噪比高、发射强度大、谱线轮廓清晰对称的谱线;同种元素的则选择强度大的谱线。
不同产地的样品中不同元素的含量不同,有些元素几乎在每一个产地的每一个样品上都能都检测到,但有些元素只有在少数几个样品上能够检测到,这对于数据分析非常不利。因此为了后期的数据分析,选择相对稳定的元素,即相同产地的每个样品上几乎都有的元素,剔除掉那些不确定因素,以排除干扰。本工作的样品中出现的元素种类有稀土元素、过渡元素、造岩元素以及铁族元素等,根据各类元素特点以及样品所能检测到的最终数据对元素进行筛选。
在剔除掉过于少量的元素、不稳定元素及非金属元素之后,留下所需要的金属元素种类,通过筛选最终选择CeⅡ 413.80 nm,ErⅠ400.80 nm,HfⅡ 273.92 nm,MnⅡ 259.31 nm,NaⅠ 589.08 nm,TiⅡ 334.98 nm作为最终使用的数据样本,部分数据如表2所示。
表2 不同产地的软玉LIBS数据
建立人工神经网络模型需要及其庞大的数据,数据量越大,得出的效果就越好[6]。为了能对现有的少量数据进行随机排列组合以增加数据量,利用因子分析和线性回归分析判断不同元素之间是否存在相关性。
利用因子分析可得如下KMO和巴特利特检验表。其中KMO值为0.514,小于0.6,表明变量间的相关性较低,因此可看做相互独立的变量[7-9]。
表3 KMO和巴特利特检验
以产地为因变量,利用线性回归分析可得表4,每个变量的VIF值都小于5,表明这些变量之间不存在严格的多重共线性,与因子分析结论相符合,因此变量之间的信息几乎不重叠[7-9]。
表4 线性回归分析结果
2.2 人工神经网络的构建与结果
在进行深度学习的数据分析前,一般会进行可视化,用以对数据进行直观了解。当我们想要对高维数据进行分类但是又不确定数据是否可分时,先对数据进行降维,把数据投到二维或三维空间中观察,若在低维空间中是可分的,则数据可分。目前来说t-SNE是效果最好的数据降维和可视化方法,因为所用的数据有六个产地并且每个产地都有六个元素特征因此属于高维数据,仅用肉眼并不能观察出数据是否可分,因此用t-SNE对所用数据进行降维和可视化处理,得到图3。
图3 软玉t-SNE图
图3显示,经过降维和可视化处理后的数据全都堆叠在一起,表明此数据进行简单聚类和相关分析是无法区分产地的。
鉴于以上结论,需要对数据进行深度学习训练。由于这些数据均可做为相互独立的数据,所以可把每个产地的数据进行排列组合,得到大化产地软玉有166个数据组、新疆产地软玉有406个数据组、江苏小梅岭产地软玉有126个数据组、青海产地软玉有276个数据组、俄罗斯产地软玉有186个数据组,韩国有96个数据组。
为简化训练过程,每个产地仅产生十万个数据点,然后随机选取五分之四的数据作为训练集,剩下五分之一作为测试集。
把训练集的数据组输入Keras模型中让其进行自主学习和结果收敛,如图4所示构建了一个三层的神经网络模型(输入层一般不算一层神经网络,图中中间层就是隐含层,为两个隐含层的神经网络)。
图4 三层神经网络结构图
神经网络具体的参数为;第一层有128个神经元,选取“relu”激活方式,dropout的比率为0.5,第二层也有128个神经元,同样选取“relu”激活方式,dropout的比率为0.5,第三层有6个神经元(因为是6个产地),采用“softmax”激活方式。
从六十万个数据中随机抽取五分之四作为训练集供神经网络学习,在经过不停的迭代学习后,可以得到一个成型的神经网络模型。然后输入测试集中的数据对模型进行测试,所得到的结果为模型的正确率是93.84%,错误率仅为0.198。此时的各个参数所对应的模型为我们所需要的模型。
抽取预测集中六个产地的数据进行测试,如表5所示,发现韩国的软玉正确率最高,高达99%,而青海的最低只为80%。对此结果进行分析,初步推断对于测试的6个微量元素来说,青海的软玉所含的微量元素含量与其他产地相比差别最小,而韩国与其他产地差别较大,因此分辨正确率较高。
表5 神经网络结论表
3 结 论
宝石的产地溯源是近些年来宝石行业及市场和消费者最为关心的问题,传统的鉴别方法不仅需要鉴定者多年的积累、无法普及而且耗时长、准确性低。由于不同产地的同种宝石因为地质矿床的不同而具有不同的微量元素成分和含量,近些年有些学者利用不同元素的含量进行二维或者三维投点图的绘制,以期划分出不同产地元素含量范围。然而微量元素属于高维数据,降维势必会造成数据信息的损失,人工神经网络能够充分利用高维数据中的信息,建立自主学习的网络模型,对未知产地的数据进行产地的判别。本研究显示,利用人工神经网络结合激光诱导击穿光谱仪测试得到的元素数据进行青白色软玉的产地溯源,正确率可以达到93.84%,错误率仅为0.198,表明此方法在宝石产地溯源方面具有很大的潜力。