基于拉曼光谱和DCGAN数据增强的珍珠粉掺伪检测研究

2022-03-14谈爱玲楚振原王晓斯

光谱学与光谱分析 2022年3期

谈爱玲，楚振原，王晓斯，赵勇

1.燕山大学信息科学与工程学院，河北省特种光纤与光纤传感重点实验室，河北秦皇岛 066004 2.燕山大学电气工程学院，河北省测试计量技术及仪器重点实验室，河北秦皇岛 066004

引言

珍珠粉是将双壳贝类动物受刺激所产的珍珠加工而制成的粉状物。珍珠粉作为一种名贵中药材，在药用和美容方面都具有极高的价值，在中国已有两千余年药用历史，具有治疗溃疡、养肝明目、辅助降压、补充微量元素、润肤祛斑之功效[1]。珍珠层粉则是珍珠母贝内层经粉碎磨细而成的粉状物。两者成分较相似，但因其内部有机质成分不同，因此药用功效不同；此外，珍珠层粉制备比较容易，成本较低，常被不法商家用于冒充珍珠粉或掺入珍珠粉中，谋取利益。目前，珍珠粉和珍珠层粉的质量鉴别多采用X射线衍射法、显微红外光谱、电感耦合等离子等分析方法[2-4]，这些方法通常需要进行样品热处理、操作繁琐、分析时间长。因此，对珍珠粉进行快速、便捷的真伪鉴别和质量评价具有重要的意义。

激光拉曼光谱是基于拉曼散射效应的分子结构表征技术，其谱线位置、谱带强度等可反映物质成分等信息，无需对样品进行前处理，具有操作简便、测定时间短、灵敏度高等优点，已经广泛应用于诸多行业[5-7]。在中草药产品分析和检测领域，明晶等采用拉曼光谱技术对鱼脑石、鹅管石、花蕊石、南寒水石4种中药材进行定性鉴别[8]。另外，拉曼光谱技术也可以实现中药材的定量分析，王清蓉等采用拉曼光谱法对丹参根鲜样的不同植物组织进行原位检测，发现丹参酮类成分的分布与周皮细胞颜色分布之间呈正相关特性[9]。

本文基于拉曼光谱结合深度学习方法对掺伪珍珠粉进行检测。深度学习神经网络需要大量数据训练，通常情况下需要对原始数据进行扩充[10]。Esben等针对一维光谱数据提出了左右平移、叠加噪声和平移噪声组合三种方法进行增强[11]。Frédéric等提出相邻像素法进行拉曼光谱数据增强[12]。赵勇等提出线性叠加方法扩充拉曼光谱数据[13]。目前的方法没有充分利用原始样本的内部特征，导致增强的数据模型具有局限性。针对这一问题，本文提出基于深度卷积生成式对抗网络(deep convolutional generative adversarial networks，DCGAN)的拉曼光谱数据增强方法，得到大量与原始光谱数据集独立同分布的样本，并在此基础上结合一维卷积神经网络算法，建立掺伪珍珠粉真假鉴别的判别模型和纯度定量分析模型，为拉曼光谱技术结合深度学习方法在掺伪珍珠粉检测中的应用提供科学依据。

1 实验部分

实验样品珍珠粉(淡水)和珍珠层粉(淡水)均选购于北京同仁堂(亳州)饮片有限责任公司。将纯珍珠粉与纯珍珠层粉按一定比例混合以模拟掺杂珍珠层粉的掺伪珍珠粉，珍珠粉在掺伪样本中的质量分数定义为珍珠粉纯度。同时，将纯珍珠粉纯度定义为100%，纯珍珠层粉纯度定义为0%，掺伪样本纯度由掺杂比例计算得到，控制掺杂比例使掺伪样本纯度在25%～95%范围内按5%的纯度梯度分布，因此共制得纯度为0%，25%，50%，75%，80%，85%，90%，95%和100%共9种掺伪珍珠粉样本。

实验所用拉曼光谱仪型号为i-RAMAN®plus 785S，激发光源波长为785 nm，光谱范围为166～2 851 cm-1，分辨率为4.5 cm-1，最大功率为300 mW。拉曼光谱采集激光功率设定为20 mW，积分时间设为3 000 ms，为避免杂散光影响，全部测量在暗室内进行。每种纯度配置30个样本，共采集270个拉曼光谱，每个样本采集3次光谱取平均值。9种纯度样本原始平均拉曼光谱如图1(a)所示。光谱信号的预处理可消除环境噪声、荧光背景等多种干扰因素的影响，提高定性分析和定量模型结果的稳定性。本文采用基线校正与平滑滤波对所有样本的拉曼光谱进行预处理，预处理后拉曼光谱如图1(b)所示。

图1 样本的平均拉曼光谱图(a)：原始光谱；(b)：预处理后的光谱Fig.1 Mean Raman spectra of the samples(a)：Original spectra；(b)：Spectra with pretreatment

由图1(a)可以看出，所有样本在203.92，703.20与1 083.89 cm-1处具有强度较高的特征峰，包含丰富的所含成分信息。纯珍珠粉拉曼光谱的荧光背景最低，纯珍珠层粉拉曼光谱荧光背景最高，随着掺伪比例的增加，拉曼光谱的荧光背景逐渐增高。由图1(b)可以看出，纯珍珠粉的拉曼信号强度最大，随着掺伪比例的上升，样本信号强度总体呈下降趋势。另外，纯珍珠层粉在更多拉曼位移处有特征峰，是珍珠层粉与珍珠粉有机质成分不同所导致。

2 深度卷积生成式对抗神经网络

2.1 生成式对抗网络基本理论

蒙特利尔大学的Coodfellow等在2014年提出的生成式对抗网络(generative adversarial net,GAN)是生成效果非常好的一种网络模型[14]。GAN主要由生成器与判别器组成，具体执行流程如图2所示。

图2 生成式对抗网络流程图Fig.2 Generative adversarial network flow chart

首先，设置一个输入噪声z，噪声符合随机分布，然后通过生成器生成新的数据。生成器G的计算公式如式(1)所示

(1)

式(1)中，E为数学期望，Pz(z)为高斯噪声分布，D(G(z))为判别器对于输入伪造样本的输出概率。训练的目的是让G的值尽可能的小。生成器生成的新数据与原始数据Pdata(x)输送到判别器D当中，由判别器分辨生成数据的真伪，判别器D的计算公式如式(2)所示

Ez～Pz(z)[log(1-D(G(z)))]

(2)

式(2)中，D(x)为判别器对于输入真实样本的输出概率。判别器D的值越大，说明生成的光谱数据越“逼真”。GAN的训练方式是使生成器生成的数据尽可能地“欺骗”过判别器，如果判别器不能区别原始数据与生成数据，则证明生成的数据具有“真实性”。同时，判别器也会调整自身的判别能力，与生成器形成一种对抗博弈关系。其理论公式如式(3)所示

Ez～Pz(z)[log(1-D(G(z)))]

(3)

由式(3)可以看出，对于判别器来说，它需要使得V(D,G)获得最大值，那么就需要最大化D(x)，并且最小化D(G(z))；对于生成器来说，它需要使得V(D,G)获得最小值，那么它只与等式右边第二项有关，即其只需最大化D(G(z))。

2.2 深度卷积生成式对抗网络模型的搭建

本文在生成式对抗网络模型基础上，增加1维卷积核、LeakyReLU激活函数和最大池化层等组成部分，构建深度卷积生成式对抗网络。深度卷积生成式对抗神经网络主要由随机噪声、生成网络、判别网络、全连接层与激活函数构成，具体模型结构如图3所示。

图3 深度卷积生成式对抗网络结构图Fig.3 DCGAN structure diagram

首先，在生成网络模型中输入叠加100维随机噪声的原始数据，该数据经过全连接层，并经标准化，目的是更容易正确地收敛数据从而得到最优解。然后，将标准化的数据输入给第一层的卷积核、ReLU激活函数与上采样，得到的数据再次输入第二层、第三层，最终传递给tanh激活函数。模型具体参数配置如表1所示。

表1 生成网络参数Table 1 Parameters of generate network

判别器具有判别生成数据与原始数据的作用，主要由3个卷积层、3个LeakyReLU激活函数，3个最大池化层组成，最终通过sigmoid激活函数判别生成数据与原始数据的差异。具体参数设置如表2所示。

表2 判别网络参数Table 2 Parameters of discriminating network

本文采用Adam优化器，学习率设为0.000 2，Batch Size大小设为50，迭代训练次数设为200。针对9种不同纯度的样本基于深度卷积生成式对抗网络进行光谱数据增强，每种纯度的样本扩充到1 000个。

3 结果与讨论

3.1 基于DCGAN的拉曼光谱增强结果分析

实际中，不法厂家通常在小比例范围内掺伪纯珍珠粉，目的是欺瞒质检部门从而谋取非法利润。因此本文选取100%，95%，90%与85%的4种纯度的样本进行珍珠粉真伪鉴别定性分析。每种样本随机选取20条原始拉曼光谱与基于DCGAN增强生成的拉曼光谱，其平均值结果分别如图4(a)和(b)所示。

由图4可知，基于DCGAN增强生成的拉曼光谱与原始的拉曼光谱并不相同，原因是生成式对抗神经网络在原始的归一化光谱中叠加了随机噪声，使得扩充后的光谱数据具备良好的多样性。本文采用峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)指标来评价原始光谱与生成光谱数据的相似性，检验生成数据效果。

图4 原始光谱与基于DCGAN增强的生成光谱(a)：原始光谱；(b)：生成光谱Fig.4 Original spectrum and generated spectrum based on DCGAN(a)：Original spectra；(b)：Generated spectra

PSNR计算生成拉曼信号与原始拉曼信号的差异来反应二者失真程度，单位为dB，其值越大，表示两种数据越接近，计算如式(4)所示

(4)

式(4)中，Imax和Imin分别是原始拉曼信号强度的最大值和最小值，MSE指均方误差(mean square error,MSE)，是生成光谱和原始光谱对应拉曼强度差平方和的均值，计算如式(5)所示

(5)

式(5)中，H为拉曼信号数量，x(i)和y(i)分别为第i个拉曼位移处原始信号和生成信号的强度值。

SSIM是从结构来衡量原始和生成拉曼光谱信号x和y之间的结构相似度，计算公式如式(6)所示

(6)

式(6)中，σx和σy分别为原始光谱和生成光谱的方差，c为常数，γ是大于0的数值，通常取1。该指标通常是介于0 和1 之间的一个数值，其值越趋近于 1，表示两种光谱在结构上越相似。

针对100%，95%，90%和85%这4种掺伪比例较小的珍珠粉样本，分别采用左右平移、叠加噪声及平移噪声三种数据增强方法和本文提出的DCGAN数据增强方法，采用PSNR和SSIM两个评价指标，相似性分析对比结果如表3所示。

由表3可知，对于四种纯度的掺伪珍珠粉样本拉曼光谱，基于DCGAN数据增强方法所生成的光谱，与原始光谱作比较，在峰值信噪比和结构相似度指标上均明显优于其他三种传统数据增强方法所得结果，PSNR值均是最大，SSIM值均最接近1。结果表明深度卷积生成式对抗神经网络可以对掺伪珍珠粉样本拉曼光谱进行增强，同时增强后数据具有多样性。

表3 基于传统数据增强和DCGAN增强方法所生成光谱与原始光谱相似性评价Table 3 Similarity evaluation between the spectra generated by traditional data enhancement and DCGAN enhancement methods and the original spectra

3.2 基于DCGAN光谱增强的掺伪珍珠粉真假鉴别

基于DCGAN方法对样本的拉曼光谱进行数据增强后，将4种纯度共120个掺伪珍珠粉样本数据集随机划分为训练集和测试集，其中训练集样本72个，测试集样本48个。然后，分别结合K近邻(K-nearest neighbor，KNN)、随机森林(random forest)、决策树(decision tree)和一维卷积神经网络(one-dimensional convolution neural network,1DCNN)四种分类算法，建立珍珠粉真伪鉴别的分类模型。同时，为了验证本文提出的深度卷积生成式对抗神经网络的数据增强效果，建立基于左右平移、叠加噪声以及平移与噪声组合的三种数据增强方法的定性分析结果。四种光谱数据增强方法结合四种分类算法的掺伪珍珠粉真假鉴别模型的分类正确率对比结果如表4所示。

表4 掺伪珍珠粉真假鉴别正确率结果对比Table 4 Comparison of the identification results of adulterated pearl powder

由表4可知，基于DCGAN方法对掺伪珍珠粉拉曼光谱扩充的数据集，在分别结合KNN，random forest,decision tree与1DCNN四种分类算法时，所建模型的分类正确率均可以达到100%，优于基于左右平移、叠加噪声以及平移噪声组合数据增强方法结合四种分类算法的分类正确率。此外，传统左右平移和叠加噪声等数据增强方法数据扩充所需时间较长，相比而言，深度卷积生成式对抗神经网络数据增强方法在建立模型的正确率和数据扩充效率上具有明显优势。

3.3 基于DCGAN光谱增强的掺伪珍珠粉定量分析

本文基于深度卷积生成式对抗神经网络光谱数据增强方法，结合一维卷积神经网络算法，建立了9种纯度的掺伪珍珠粉样本的纯度定量回归模型，并与基于左右平移、叠加噪声以及平移+噪声三种传统数据增强方法所建定量模型结果进行对比。将270个掺伪珍珠粉样本数据集随机划分为训练集和测试集，其中训练集样本162个，测试集样本108个。采用测试集决定系数(coefficient of determination,R2)和预测均方根误差(root mean square error of prediction，RMSEP)作为定量模型评估指标。R2值越接近1，模型的拟合效果越好；RMSEP值越小，模型预测准确度越高。此外一维卷积神经网络模型的损失值反映样本预测纯度与真实纯度的差距，其值越小，表示预测纯度与真实纯度越接近。4种数据增强方法分别结合1DCNN算法所建定量模型指标对比结果如表5所示。

表5 不同数据增强方法结合1DCNN算法所建定量模型结果对比Table 5 Comparison of quantitative models built by different data enhancement methods combined with 1DCNN

由表5可知，基于DCGAN-1DCNN方法所建掺伪珍珠粉定量分析模型，对于测试集样本，其决定系数R2为0.988 4，均方根误差RMSEP为0.034 8，一维卷积神经网络的损失值Loss为0.001 2，定量模型拟合度最高。模型性能明显优于其他三种数据增强方法结合一维卷积神经网络所建定量模型。

针对测试集样本，基于DCGAN、左右平移、叠加噪声以及平移+噪声四种数据增强方法结合1DCNN算法所建定量模型的预测纯度与真实纯度相关曲线分别如图5(a)，(b)，(c)和(d)所示。从图5可以清晰地看出：基于DCGAN-1DCNN方法所建掺伪珍珠粉定量模型的预测纯度与真实纯度非常接近，预测精度最优。

图5 不同数据增强方法结合1DCNN算法所建定量模型真实纯度与预测纯度相关曲线(a)：DCGAN-1DCNN；(b)：叠加噪声-1DCNN；(c)：左右平移-1DCNN；(d)：噪声+平移-1DCNNFig.5 Correlation curve between real and predicted purity of quantitative models built by different data enhancement methods combined with 1DCNN(a):DCGAN-1DCNN；(b):Noise addition-1DCNN；(c):Translation-1DCNN；(d):Noise+Translation-1DCNN

4 结论

将激光拉曼光谱和深度学习数据增强应用于珍珠粉掺伪的定性鉴别和纯度定量回归分析。针对拉曼光谱数据不足的问题，提出一种基于深度卷积生成式对抗神经网络光谱数据增强方法，并结合一维卷积神经网络建立珍珠粉掺伪的定性和定量分析模型。结果表明基于DCGAN数据增强方法扩充的光谱数据与原始数据相比，PSNR和SSIM性能指标优于传统数据增强方法；DCGAN结合四种分类器对小比例掺伪珍珠粉样本的分类正确率均达到100%；DCGAN-1DCNN方法所建立的掺伪珍珠粉纯度预测模型，测试集决定系数R2和均方根误差RMSEP均优于传统数据增强方法所建模型结果，预测纯度与真实纯度非常接近。深度卷积对抗式神经网络数据增强方法具有精度高、抗干扰性好、简便快速等优点，为深度学习在光谱数据分析领域应用提供了新思路。