基于贝叶斯优化卷积神经网络的金线莲伪品鉴别
2022-03-03柴琴琴
柴琴琴,曾 建,张 勋
(1.福州大学 电气工程与自动化学院,福建 福州 350108;2.福州大学 教育部医疗器械与制药技术重点实验室,福建 福州 350108;3.福州大学 晋江科教园,福建 晋江 362251;4.福建中医药大学 药学院,福建 福州 350122)
珍贵中药材金线莲(,)主要分布在在中国福建、浙江、江西等南方省份,其含有糖类、黄酮及苷类等活性成分,具有抗癌、降血糖、抗氧化等药效。虽然金线莲药用价值高,但生长环境非常苛刻,供应短缺造成金线莲市场价格较高。不法商家为了提高利润,常常用金线莲同科同属的台湾银线莲冒充金线莲在市场上出售,甚至使用外形相似的同科不同属斑叶兰或血叶兰掺杂在金线莲中出售。虽然金线莲和台湾银线莲活性成分相似,但是比例不同,干燥的全植金线莲与台湾银线莲的多糖提取率将近相差3倍。为了更好地规范金线莲市场,保证金线莲质量,需要一种快速可靠的金线莲及其伪品的鉴别方法。
文献报道的金线莲质量检测方法主要有性状鉴定法、显微鉴定法、DNA鉴定法、高效液相色谱法等。这些传统分析方法虽然分析精度非常高,但是分析过程时间长、效率低,需要大量的专业知识,并且会破坏样本。因此,建立一种准确可靠、简便易行、低成本且适用于快速检测金线莲及其伪品的检测方法成为了新的研究方向。近红外光谱(near infrared spectroscopy,NIRS)技术是一种高性能、快速、绿色、高灵敏度的无损检测方法。当前,NIRS结合传统机器学习模型已广泛应用于中药材定性分析。然而传统机器学习模型在实际应用中往往需通过数据降维方法或波长优选方法来降低NIRS数据的维度以提高模型性能,同时也增加了识别方法的主观性和复杂性。
近年来,卷积神经网络(convolutional neural network,CNN)在高维数据中表现了出色的特征提取能力,并在图像分类,目标检测等任务中取得了巨大的成功。CNN强大的特征提取能力非常适合应用于高维度NIRS数据特征提取。针对NIRS数据为序列数据的特点,一般使用一维卷积神经网络(1D convolutional neural network,1D-CNN)应用于NIRS数据分析。然而,目前基于1D-CNN的NIRS中药材质量分析模型的参数选择主要为实验试凑法,不仅耗费了大量的时间成本,还可能得不到最优模型参数。
针对这些问题,本文以金线莲及其3种掺杂伪品的NIRS数据作为研究对象,构建基于简化1D-CNN的质量鉴别模型,并结合贝叶斯优化算法对1D-CNN进行参数寻优,得到最佳鉴别模型参数,实现金线莲及其伪品的高准确度预测判定。为了进一步验证提出的模型性能,通过结合贝叶斯优化算法分别对1D-CNN,最近邻算法(K-nearest neighbor,KNN)和支持向量集(support vector machine,SVM)的超参数进行寻优,将最优的超参数组合建立模型,并对判别效果进行比较。实验表明,1D-CNN结合贝叶斯优化方法可以快速有效地鉴别金线莲及其伪品。
1 材料与方法
1.1 样本获取和光谱数据集划分
分别收集了不同批次的80批金线莲样本和80批台湾银线莲样本,每批大约180 g。另外,收集了用于掺杂的斑叶兰和血叶兰共2 000 g。分批清洗新鲜样品3~5遍,置于60 ℃烘箱烘干至恒重,粉碎过60目筛。金线莲及其掺伪样品的近红外光谱数据在温度25 ℃、湿度60%的条件下由NIRFlex N-500 近红外光谱分析仪所采集,扫描范围为4 000~10 000 cm,扫描次数为32,分辨率为8 cm。金线莲及其伪品样本平均近红外光谱图如图1所示。其中光谱数据点有1501维,范围在4 000~10 000 cm。
A1,金线莲;A2,金线莲掺杂斑叶兰;A3,金线莲掺杂血叶兰;A4,台湾银线莲。下同。
所有样本中,纯金线莲和纯台湾银线莲各有80个,掺杂的斑叶兰和掺杂的血叶兰样本各有84个,共328个样本数量。样本集中25%的样本被随机分为测试集,剩余75%以3∶1的比例随机分为训练集和验证集。数据集详细信息如表1所示。训练集数据用于建立鉴别模型,验证集用于选择模型的参数,测试集用于评估模型的性能。
表1 金线莲及其伪品样本信息
1.2 方法及模型
1.2.1 1D-CNN卷积神经网络
CNN的基本结构由输入层、卷积层、池化层、全连接层以及输出层构成,一般卷积层和池化层需交替设置多层。卷积层和池化层用于从输入层光谱数据提取特征。全连接层用于进一步选择波长信息,然后将样本分类并通过SoftMax分类器输出结果。本研究采用文献[13]中的1D-CNN结构,结构如图2所示。1D-CNN主要分为6层,分别是输入层F0,卷积层C1,池化层S2,两个全连接层(F3和F4)和输出层F5。其中,1D-CNN模型的详细参数如下:F0输入维度为1×1501的近红外光谱数据,C1尺寸为64×1×15,表示卷积核数量为64,卷积核尺寸为1×15,步长stride为1,S2为最大值池化,池化核尺寸为1×2,步长stride为1。F3和F4的神经元个数分别为512和4。F5经过SoftMax分类器输出样本类别的概率置信度。
图2 1D-CNN结构图
研究表明,CNN对超参数敏感,相同的CNN结构采用不同的超参数模型性能可能差异巨大。然而文献[13]中超参数选择采用实验试凑法,不仅耗费了大量的时间成本,还可能得不到最优模型参数。因此,需进一步研究实现超参数自动优化调节,提高CNN的模型性能。
1.2.2 基于贝叶斯优化算法的CNN超参数优化
CNN模型的泛化性能往往取决于其预设超参数的选取。常用的参数选择方法有网格搜索算法和随机搜索,其中网格搜索算法是穷举搜索,使得模型训练时间和计算成本相对高昂,不能用于实际CNN模型的参数搜索;随机搜索算法随机性强,容易漏掉重要的信息。贝叶斯优化算法是一种全局的优化算法,通过给定的黑盒目标函数,不断添加样本点,更新目标函数的后验分布,直到后验分布基本贴合真实分布,只需要少次数的迭代即可获得理想解,并且在非凸优化问题中的表现依然稳健。因此,本文使用贝叶斯优化算法对1D-CNN、SVM、KNN的超参数进行优化,优化变量如表2所示。其中,1D-CNN优化的超参数包括:卷积核数量(Filters),卷积核大小(Kernel-size),最大池化窗口大小(Pooling-size),全连接层神经元数量(Units),批大小(Bath-size),训练回数(Epoch)。SVM优化参数有惩罚项系数(C)和核函数(Kernel),其中核函数rbf,linear,sigmoid,poly分别表示高斯核函数,线性核函数,逻辑核函数和多项式核函数。KNN的优化参数为近邻个数(Neighbors)和距离度量方法(Metric),其中距离度量方法包括闵可夫斯基距离(Minkowski),欧式距离(Euclidean),曼哈顿距离(Manhattan)和切比雪夫距离(Chebyshev)。
表2 1D-CNN、SVM和KNN超参数寻优设置
1.2.3 模型性能评价指标
实验结果采用正确识别率(correct identification rate,CIR)来评估模型性能,CIR的计算公式如下:
(1)
其中,为正确分类样本数量,为总样本数量。CIR值越高,表示模型的预测性能越好。
2 结果与讨论
为比较本文提出模型的分类性能,基于金线莲及其伪品训练集分别建立1D-CNN、SVM和KNN分类模型,并各自使用贝叶斯优化算法对表2中的模型参数进行优化,迭代次数为100,优化目标函数为:
=1-CIR。
(2)
1D-CNN模型的超参数寻优结果如图3所示。图3中当迭代次数为80时,目标函数值为0,获得了最佳的结果。但随着迭代次数的增加,目标函数值仍在变化,表明贝叶斯优化算法在接近最优值的同时,仍在尝试探索其它最优位置。
图3 1D-CNN模型超参数寻优结果
经过贝叶斯优化后的1D-CNN模型最优参数(1D-CNN-B)如下,Epoch为200,Max pooling-size为5,Batch-size为64,Units为200,Filters为12,Kernel-size为15。经过贝叶斯优化后的KNN模型(KNN-B)最优参数如下,Neighbors为9,Metric为chebyshev。经过贝叶斯优化后的SVM模型(SVM-B)最优参数如下,C=466.046 05,Kernel为poly。为了进一步对比参数优化后的模型性能,采用1.2.2节中介绍的超参数训练1D-CNN模型,参数如下Epoch为50,Max pooling-size为2,Batch-size为12,Units为512,Filters为12,Kernel-size为15。
1D-CNN,1D-CNN-B,SVM-B和KNN-B模型性能对比如表3所示,从表3性能指标分析可得,相比KNN-B和SVM-B模型,1D-CNN模型性能更具有竞争力,而1D-CNN-B精度最高,说明,经过贝叶斯优化超参数能提高模型分类性能。
表3 KNN、SVM和1D-CNN鉴别性能对比
3 结论
本文基于NIRS技术建立了1D-CNN模型应用于金线莲及其掺杂品的鉴别。为了解决实验试凑法选择1D-CNN超参数导致时间成本高和易陷入局部最优的缺点,使用贝叶斯优化算法对CNN模型的参数进行寻优,充分挖掘1D-CNN的模型性能。通过对比贝叶斯优化超参数的1D-CNN模型和人为选定超参数的1D-CNN 模型的性能,结果表明,超参数自动优化调节后,可以进一步提高1D-CNN的模型性能。另外,本文还建立了传统模型包括KNN和SVM模型,用于论证1D-CNN的性能。实验结果表明,1D-CNN模型的分类性能比SVM和KNN更高,进一步论证了在高维数据中,1D-CNN模型比传统的机器学习模型的学习能力更强。综上所述,基于NIRS技术的1D-CNN模型可以快速有效地鉴别金线莲及其掺杂品。