基于高光谱成像技术的绿松石在线鉴别系统研发
2021-08-18吴金泉黄昆鹏林兆祥
吴金泉,王 戬,熊 伟,黄昆鹏,林兆祥,冯 欣
1 中南民族大学,湖北 武汉 430074;2 中国藏学研究中心,北京 100101
1 引 言
绿松石是一种富含多种微量元素的铜铝磷酸盐矿物,在中国具有丰富的矿藏储量[1-2]。绿松石除了能够加工成念珠、摆件等饰物外,在藏区还是一种经典的矿物药材,对于治疗风寒、降低血压、调节呼吸系统及治疗肝脏疾病等有着极佳的功效[3],具备较高的药用价值。
由于绿松石的经济价值较高,市场上充斥着各种仿制品和处理品。当前,对绿松石的鉴别是一个巨大的挑战,国内外科研团队已经在此领域进行过许多探索:曲雁等[4]人利用宝石显微镜、紫外-可见光谱仪、傅里叶红外光谱仪对“微沁”处理绿松石样品进行了测试分析;陈全莉等[5]人利用红外反射光谱技术,鉴别了市面上所流通的经过充填或者压制处理过的绿松石、仿绿松石以及天然绿松石;左锐等[6]人运用傅里叶变换红外光谱仪技术,鉴别出了不同种经过丙烯酸酯类聚合物来处理过的绿松石样品;徐娅芬等[7]人通过电子显微镜、激光拉曼光谱仪以及紫外可见光谱仪,对湖北天然绿松石、浸胶绿松石以及注蜡绿松石开展了研究,发现了其红外、拉曼以及紫外的光谱吸收特征峰;Bettina 等[8]人利用分析热解和红外光谱法很好地区分了天然绿松石和合成绿松石。上述的研究结果表明,通过红外吸收光谱等方法可以对绿松石及其处理品进行区分,但是这些方法或多或少都有着一些缺陷:利用宝石的折射率、色散和密度的传统宝石鉴定方法,不能测定非透明的绿松石矿石;使用电子显微镜检测需要对样品进行切片处理,会对样品造成破坏;尽管使用紫外光谱和拉曼光谱技术也能够同时分辨天然绿松石、沁胶绿松石和注蜡绿松石,但是这些方法对于检测环境的要求比较苛刻,只能在专业实验室中开展,无法满足工业现场环境下快速分拣的应用需求。
高光谱成像技术是一种新兴、先进、非破坏性的光学检测手段,它具有获取光谱及成像的双重功能,其结合了传统成像技术和光谱技术的优点,可以快速高效地同时获得被测物体的空间信息和光谱信息,实现样品的图谱合一[9]。同时,高光谱成像技术具有上百个波段、光谱检测范围广和光谱分辨率高的优点,采集到的光谱图像信息数据丰富且识别度较高。与传统的成像技术相比,高光谱成像技术可以分辨出更细微的、图像难以识别的物体外部差异;而与其它光谱技术相比,高光谱技术又能完成多点或整个面的光谱检测。
因此,高光谱成像技术在样品无损检测等方面具有巨大的优势和广阔的应用前景。目前,高光谱分辨技术可以实现空间的遥感遥测,在地质检测、海洋遥感、植被覆盖分析以及军事勘测等方面都有着非常广泛的应用[10-14];其又能够进行实验室的定性和定量分析,完成农产品和果蔬的无损检测[15-17]。本文受中国藏学研究中心的委托,将高光谱成像技术应用于绿松石的鉴别分析中,开发了一套可以满足工业现场快速分拣需求的绿松石鉴别系统。
2 系统软件的关键算法
本文针对市场上常见的天然绿松石、绿松石处理品(过蜡绿松石、沁胶过蜡绿松石)和伪品绿松石开展真伪鉴别研究,通过天然绿松石、绿松石处理品、伪品与天然绿松石标准谱线之间的相关性系数差异,利用双尺度鉴别法实现了绿松石的真伪鉴别,相应的分析鉴别算法的具体描述如下。
2.1 相关性系数
样品的高光谱成像信息具有丰富的空间和光谱信息,每一个像元都可以提取出连续的光谱曲线,能够反映该像元处样品的物质成分信息。在同一条件下,由于同一物质的光谱曲线形状相同,因此可将采集到的光谱曲线与已知的参考光谱的曲线形状进行比对分析,以某种相似性测度表征它们之间的相似性或相关程度,根据相似性或相关程度区分物质种类,实现光谱匹配[18-20]。
在国内外定性鉴别实验中,常将相关性系数作为相似性测度的标准。相关性系数是反映不同特征之间相似度的有效指标,可以用来客观地分析不同变量之间相关性程度的强弱,通常用字母ρ来表示。根据ρ值的范围,即可实现对样品的分类区分[19]。对于光谱匹配来说,样品间光谱曲线形状的差异程度,可通过样品光谱间的皮尔森(Pearson)相关系数大小判断。对Pearson 相关系数有:
其中:D(X)、D(Y)为X、Y的方差,CCov(X,Y)为变量X、Y的协方差,其协方差具体如下:
式中:E(X)为X的期望,E(Y)为Y的期望[18]。如果两条光谱曲线完全相同,物质成分一样,则它们的Pearson 相关系数ρ为1;否则其相关系数ρ小于1。
2.2 标准光谱的确定
进行Pearson 相关系数计算前,首先需要确定天然绿松石的标准谱线。而国内的绿松石产区主要集中在湖北竹山县、郧西县、陕西白河等地[21],因此本文利用双利合谱科技有限公司的Gaia Sorter 高光谱分选仪(N25E-SWIR),分别检测了来自湖北的云盖寺、秦古808 矿、丫角山、洞子沟、七宝寨及陕西的月儿潭等6 个不同产区的天然绿松石原矿样品,获取了可见-近红外光谱区的高光谱数据。
本文的仪器参数均设置为:波段范围为 400 nm~1000 nm,光谱分辨率为3 nm,波段数为520 个,空间像素为960 pixels,采用的测量方式为漫反射,扫描方式为面扫描,采集到的图像像面尺寸为6.15 mm×14.2 mm。实验前,先利用标准反射率板进行空白测试,样品放置在标准反射率板的有效扫描范围内,镜头焦距设置为25 mm。
利用ENVI5.1 软件提取上述6 种产地天然绿松石的光谱如图1 所示,a(云盖寺)、b(秦古808 矿)、c(丫角山)、d(洞子沟)、e(七宝寨)、f(月儿潭)分别表示这6种天然绿松石原矿样品的原始谱线。在图1 中,6 种天然绿松石原矿样品的光谱曲线,虽然绿松石表面及形状的不均匀性致使谱线存在一定的差异,但其趋势仍呈现出相似性。对这6 条谱线去本底、取平均后,得到了代表天然绿松石原矿样品的标准特征谱线,如图1(a)中的STD 所示。
为了验证该标准谱线的普适性,本文还分别计算了来自上述6个产区的其它矿口的48份天然绿松石原矿样品的高光谱数据和该标准谱线之间的Pearson 相关性系数,结果如图1(b)所示,相关性系数均大于0.97,均值为0.9939,标准差为0.0038,方差为0.000014。其结果说明这48 份天然绿松石原矿样品的光谱和该标准谱线之间的差异程度小、相似度高,反映出了该标准谱线具有较高的普适性,能够作为本文中的国内天然绿松石原矿样品的标准谱线。
图1 标准光谱的提取。(a)天然绿松石样品的光谱图;(b)各样品光谱与标准光谱之间的相关系数Fig.1 Extraction of standard spectra.(a)Spectra of a natural turquoise sample;(b)Correlation coefficient between each sample spectrum and the standard spectrum
本文基于Pearson 相关性系数,进一步开展了针对市面上常见绿松石的真伪鉴别研究,所用样品是随机采购市场上流通的、常见的绿松石样品,分别标记为天然绿松石样品(TR)、过蜡绿松石样品(GL)、沁胶过蜡绿松石样品(QJGL)以及伪品绿松石(WP),共计4种,每种绿松石样品的总质量约为50 g,其中各样品的直径大小约为10 mm,各绿松石样品的外观及命名如表1 所示。
表1 绿松石样品Table 1 Turquoise samples
图2 绿松石样品图Fig.2 Pictures of turquoise samples
为了了解各样品的物质结构和元素成分,对上述4 种样品还开展了XRD 和ICP_MS 检测[22],其实验结果表明这4 种样品中,每种样品的物质成分的比例和物质结构基本一致,因此利用高光谱的数据信息可实现对4 种样品分类鉴别。
在利用高光谱相机采集图像的过程中,由于存在不均匀的光源强度分布、相机的暗电流噪声以及不规则的绿松石形状等各种环境因素,会影响到绿松石数据的准确性,因此在进行数据分析前需要经过归一化、去本底、多点取均值等预处理过程以消除设备和环境噪声的干扰。本文对上述的4 种样品均在相同条件下,获取高光谱图像数据,对每一张高光谱图像均读取6个有代表性区域内的高光谱数据,将这些光谱数据进行归一化、去本底、多点取均值等操作,其结果作为该样品的最终光谱数据,如图3 所示。
图3 光谱对比Fig.3 Spectral comparison
从图3 可看出,如果利用全谱(400 nm~1000 nm)范围作为依据,由于伪品绿松石中含有的主要是Mg元素,与其他绿松石样品所含的物质成分存在较大的差异,伪品绿松石(图3 中的WP)的曲线趋势与其它样品谱线存在明显差异,并在452.89 nm 附近存在一个吸收峰,利用标准谱线能够很好区分出伪品绿松石;而在全谱范围内,绿松石的处理品中含有的主要元素成分与天然绿松石样品相同,因此绿松石的处理品(沁胶、过蜡)与标准谱线的趋势相似,区分度较小。利用式(1)在全谱范围内,计算天然绿松石(图3 中的TR)、伪品绿松石(图3中的WP)、过蜡绿松石(图3中的GL)、沁胶过蜡绿松石(图3 中的QJGL)的谱线与标准特征谱线之间的Pearson 相关性系数ρ,分别为0.99752、-0.2999、0.9636 和0.9345。
由ρ的计算结果可知,在400 nm~1000 nm 的波段范围内,伪品绿松石与天然绿松石标准谱线之间的相关性系数小于0,两者间的相关性低。而天然绿松石、过蜡绿松石、沁胶过蜡绿松石的谱线与标准特征谱线之间的相关性系数,其数值均大于0.9,差异较小,针对绿松石的处理品利用全谱无法区分,借鉴方圣辉等人[23]的工作经验,本文采用双尺度鉴别法鉴别绿松石的处理品。
2.3 双尺度鉴别
相比于其它的光谱技术而言,虽然利用高光谱技术能够获得样品更多的光谱信息,但在这些信息中也由于其包含了许多冗余光谱波段的信息,影响了数据的分析传输和样品的光谱分析。因此在进行光谱分析时,选择合适尺度的分析波段是一种有效减少冗余、增加光谱信息有效性的方法[19]。
通过分析图3的数据,可以发现在400 nm~600 nm范围内,过蜡绿松石(GL)、沁胶过蜡绿松石(QJGL)与标准特征谱线(STD)相比,在谱线的峰值、趋势上均存在一定的差异:过蜡绿松石(GL)在425.29 nm 附近存在一个明显的吸收峰,且其光谱峰值位置在490 nm 附近;而沁胶过蜡绿松石(QJGL)的光谱峰值位置虽在490 nm 附近,但在425.29 nm 附近没有明显的吸收峰。利用式(1)计算在400 nm~600 nm 范围内,天然绿松石、过蜡绿松石、沁胶过蜡绿松石的谱线与标准谱线之间的Pearson 相关性系数ρ值分别为0.9791、0.3096、-0.3750,其中过蜡绿松石、沁胶过蜡绿松石样品的相关系数均小于0.4,表明上述两种绿松石处理品的谱线与标准谱线之间的光谱曲线相关性较低。因此基于该光谱范围下的Pearson 相关性系数,可以有效区分出上述两种绿松石处理品。
3 绿松石在线鉴别系统
基于双尺度下的相关性系数计算的鉴别算法,本文开发了一套专用的绿松石分类鉴别系统,系统的硬件构成及工作原理如下。
3.1 硬件构成
绿松石分类鉴别系统如图4 所示,主要由控制系统、光学成像采集系统(高光谱相机、光源和暗室)、分析鉴别系统(专业检测分析软件)以及分拣系统(机械拣拾臂)组成。工作时,由光学成像采集系统采集图像,分析鉴别系统实现绿松石的分类鉴别,分拣系统实现样品的在线分类,控制系统通过网络实时控制各子系统的工作。
图4 系统原理图Fig.4 System schematic
3.2 成像采集系统
图5 所示为成像采集系统的原理图,其参数如下:波长范围为400 nm~1000 nm,光谱分辨率为3 nm,波段数为520 个,像面尺寸为6.15×14.2,镜头焦距为25 mm。
图5 成像采集原理图Fig.5 Software flow chart
成像采集系统工作时,待检测样品由综合控制系统精确定位于样品检测台上的固定位置(位置由位置感应器监测确定)后,由综合控制系统通过暗室控制器打开暗室内的标准光源,并使之照射到待检测样品上。
由于绿松石原矿的外形体积都会有所不同,为获得高质量的图像,由综合控制系统利用成像采集系统中的相机控制软件,实现相机的自动聚焦及高光谱图像的采集。
图6(a)为成像采集系统获取的,来自于6 个绿松石产区的天然绿松石原矿样品的高光谱图像。此外绿松石的表面一般都是粗糙不平的,部分还存在着少量杂质(如图6(a)中的黑褐色裂纹所示),为了提取到有代表性的绿松石样品的光谱,在考虑到绿松石的元素组成和含量前提下,由专业人员利用相机控制软件并结合人工筛选的方式,获取样品中颜色为均匀蓝色或蓝绿色[7]的有代表性区域内的光谱。图6(b)为选取的感兴趣区域(a、b、c、d、e、f),感兴趣区域内的光谱则如图1(a)所示。
图6 天然绿松石光谱区域的选取。(a)天然绿松石样品;(b)感兴趣区域的选取Fig.6 Selection of natural turquoise spectral region.(a)Natural turquoise sample;(b)Selection of the region of interest
综合控制系统通过互联网实时控制成像采集系统的各种操作,采集到的高光谱数据信息通过互联网实时传输回综合控制系统的网络数据库。
3.3 分析鉴别系统
分析鉴别系统依据图7 所示的流程图,对采集到的数据进行分析处理。首先,综合控制系统通过网络控制分析鉴别系统,在400 nm~1000 nm 范围内,计算待测样品的光谱与天然绿松石标准谱线之间的相关性系数ρ1,若ρ1<0.9,则判断为伪品,并结束软件流程,否则进行下一步:在400 nm~600 nm 范围内,计算该样品与天然绿松石标准谱线之间的相关系数ρ2,若ρ2>0.9,则判断为天然绿松石;若ρ2<0.4,则判断为绿松石处理品。待上述分析过程完成后,分析鉴别系统将结束软件流程,并将分析结果传输给综合控制系统。
图7 软件流程图Fig.7 Software flow chart
本文利用上述分析鉴别系统对实验室现有的305个市面上常见的绿松石样品进行了鉴别实验,实验结果如表2 所示。实验结果表明:根据高光谱数据在双尺度(400 nm~600 nm 和400 nm~1000 nm)下的Pearson相关性系数差异,能够实现对天然绿松石和伪品绿松石的准确鉴别,而在鉴别两种绿松石处理品时,只有1 个沁胶过蜡绿松石鉴别失误。若根据此结果调整相关参数,其鉴别结果的准确率有望达到100%,目前受限于样品的数量,尚未对样品开展基于大数据的分类研究,下一步我们将继续收集更多的绿松石样品,进行高光谱探测,完善数据集,开展神经网络研究,搭建适合的训练网络,提高鉴别准确率。
表2 鉴别实验结果Table 2 Identification test results
3.4 分拣系统
分拣系统原理图如图8 所示。分拣系统根据综合控制系统通过网络传输的分析结果,控制机械臂将绿松石处理品(过蜡绿松石和沁胶过蜡绿松石)以及伪品绿松石分别分拣到绿松石处理品分拣盒与伪品绿松石分拣盒中,而天然绿松石则被传送带送入到下一设备中,进行进一步的处理。工作时,综合控制系统将通过探测器监控传送带速度,并控制样品的传输与分拣系统的分拣。利用图8 所示的绿松石鉴别系统,可实现对绿松石的大批量、实时和在线检测。
图8 绿松石在线鉴别系统Fig.8 Online identification system of the turquoise
4 总结
本文利用高光谱成像技术,依据天然绿松石原矿样品在400 nm~1000 nm 波段的高分辨光谱图像数据,获取天然绿松石样品的标准光谱谱线,其具有较高的普适性。本文利用双尺度下(400 nm~1000 nm 和400 nm~600 nm)的相关性分析鉴别算法,开发了一套针对天然绿松石、过蜡绿松石、沁胶过蜡绿松石及伪品绿松石的在线鉴别系统,开展了对实验室现有的305 个市面上常见的绿松石原矿、伪品及处理品样品的分析鉴别实验。目前,该样机系统的光谱区域选择还需要人工设定,样本的数据量还不够丰富,下阶段将结合人工智能、图像处理技术和机器学习等技术,开发快速、无损、在线的绿松石专用检测系统,并应用到藏药企业的矿物原材料选择流水线中,为进一步促进藏医药矿物原材料选材的规范化和现代化发展提供技术支撑。
致 谢
感谢北京中国藏学研究中心提供的样品-四川双利合谱科技有限公司提供的检测设备。