基于红外光谱结合机器学习方法的牛膝不同炮制品及炮制程度的判别分析
2023-11-27田瀚举杨颜溶李莹莹段浩瀚赵新梅张春亚雷敬卫谢彩侠杨春静龚海燕
田瀚举,杨颜溶,贾 豪,李莹莹,段浩瀚,赵新梅,张春亚,雷敬卫*,谢彩侠,杨春静, 3,龚海燕*
基于红外光谱结合机器学习方法的牛膝不同炮制品及炮制程度的判别分析
田瀚举1, 2,杨颜溶1, 2,贾 豪1, 2,李莹莹1, 2,段浩瀚1, 2,赵新梅1, 2,张春亚1, 2,雷敬卫1, 2*,谢彩侠1, 2,杨春静1, 2, 3,龚海燕1, 2*
1. 河南中医药大学药学院,河南 郑州 450046 2. 河南省中药质量控制与评价工程技术研究中心,河南 郑州 450046 3. 河南中医药大学第三附属医院,河南 郑州 450046
采用红外光谱技术结合机器学习算法建立牛膝炮制品类别与炮制程度的定性判别模型。采集不同炮制品与不同炮制程度牛膝的中红外光谱(mid infrared spectroscopy,MIRS),运用BP神经网络(back propagation neural network,BPNN)、遗传算法优化BP神经网络(GA-BP)、随机森林(random forest,RF)、径向基神经网络(radial basis function network,RBFN)、卷积神经网络(convolutional neural networks,CNN)等机器学习算法建立牛膝炮制品类别与炮制程度的定性判别模型;采集不同炮制品与不同炮制程度牛膝的近红外光谱(near infrared spectroscopy,NIRS),使用TQ Analyst软件中的判别分析法建立牛膝炮制品类别与炮制程度的定性分析模型。机器学习算法模型结果显示CNN判别模型较优秀,BPNN、RF及RBFN性能相近,GA-BP模型性能相对较差。3个NIRS定性模型结果显示验证集准确率均为100%,可准确预测炮制品类别与炮制程度。通过红外光谱技术建立的定性分析模型可作为牛膝炮制品类别与炮制程度的鉴别手段。同时提供了快速、无损的检测手段及可靠的数据分析方法,为中药材炮制品类别与炮制程度精准识别提供新的方法参考。
牛膝;炮制品;炮制程度;红外光谱;正交偏最小二乘法-判别分析;机器学习算法
牛膝为苋科牛膝属植物牛膝BL的干燥根[1],最早出自《神农本草经》,其根入药,具有补肝肾、强筋骨、活血化瘀的功效[2],主要含有皂苷类、甾酮类、多糖类等化合物[3]。现国内有三大牛膝产区:内蒙赤峰、河北安国和河南焦作[4]。牛膝炮制历史悠久,古代炮制方法有酒制(酒渍、酒浸、酒煮、酒洗、酒炒、酒蒸等)、炒制、焙制、炙制、药汁制等[5]。现代临床所用的牛膝饮片主要为牛膝生品、酒牛膝、盐牛膝等[6]。牛膝生品经酒炙后能增强活血祛瘀、通经止痛的作用,盐炙后能增强补肝肾、强筋骨作用[7]。
红外光谱法作为一种快速无损分析技术,且具有样品制备简单、无污染、经济实惠等特点,在诸多领域均有应用[8-10]。随着化学计量学和机器学习算法与红外光谱技术的结合,复杂的样品光谱信息得以有效可视化,成为中药快速鉴别及质量评价的一种有效手段[11],目前,该技术已广泛应用于中药材产地溯源研究[12-17]。
本课题组前期采用红外光谱技术开展了牛膝产地的快速识别研究[18],在此基础上本研究通过采集3个产地的牛膝生品,不同炮制程度的酒牛膝和盐牛膝近红外光谱(near infrared spectroscopy,NIRS)和中红外光谱(mid infrared spectroscopy,MIRS)信息,结合BP神经网络(back propagation neural network,BPNN)、遗传算法优化BP神经网络(GA-BP)、随机森林(random forest,RF)、径向基神经网络(radial basis function network,RBFN)、卷积神经网络算法开展对牛膝炮制类别与炮制程度研究,建立适合的定性判别模型,为牛膝炮制类别与炮制程度的精准识别提供方法支撑。
1 仪器与材料
1.1 仪器与试剂
INVENIOS型傅里叶变换红外光谱仪,德国Bruker公司;Nicolet 6700型傅里叶红外光谱仪,美国Thermo Fisher公司;Spectrum for Window软件(版本3.02),美国Pekin Elmer公司;Matlab软件(版本R2022b),美国MathWorks公司;FW-4A型粉末压片机,天津市拓扑仪器有限公司;FW-100型高速万能粉碎机,北京科伟永兴仪器有限公司;101-3AB型点热恒温鼓风干燥箱,北京中兴伟业仪器有限公司;ME204E/OL型万分之一天平,上海梅特勒-托利多仪器有限公司。
溴化钾,光谱纯,天津市科密欧化学试剂有限公司;无水乙醇,分析纯,天津市致远化学试剂有限公司;黄酒,酒精度≥10.0% vol,批号20220616D,浙江古越龙山绍兴酒股份有限公司;精纯盐,河南省盐业集团有限公司。
1.2 样品
牛膝样品于2021年12月采集自道地产区河南省焦作市西陶镇、非道地产区河北省安国市西佛落镇与内蒙古自治区赤峰市喀喇沁旗牛家营子镇,共计15个批次,均为1年生,所有样品经河南中医药大学陈随清教授鉴定为苋科牛膝属植物牛膝Bl的干燥根。
牛膝除去杂质,洗净,润透,除去残留芦头,切段,干燥得到牛膝生品,粉碎后过3号和9号筛,贮藏备用。取牛膝生品,照参照《中国药典》2020年版四部0213炮制通则中酒炙法[19],加黄酒10%拌匀,焖透,置炒锅内,文火炒制,炒至表面颜色略深,偶见焦斑,微有酒香气,制备炮制不及、炮制适中(酒牛膝)和炮制过3种不同程度,粉碎后过3号和9号筛,贮藏备用。
取牛膝生品,参照《中国药典》2020年版四部0213炮制通则中盐炙法,加食盐2%,用10%蒸馏水溶解拌匀,焖透,置炒锅内,文火炒制,炒至表面色深,略有焦斑,制备炮制不及、炮制适中(盐牛膝)和炮制太过3种不同程度,粉碎后过3号和9号筛,贮藏备用。具体样品信息见表1,部分样品示图见图1。
图1 不同产地来源牛膝生品及炮制品
2 方法
2.1 MIRS信息的采集
称取样品粉末(过9号筛)约2 mg与干燥溴化钾以1∶100研磨混匀,取适量混合均匀的样品置于专用压片模具中,用8 MPa的压力压制30 s,压成均匀半透明的薄片,取出,置红外光谱仪中采集各样品MIRS图。光谱扫描范围400~4000 cm−1,每张光谱扫描次数16次每秒,光谱分辨率为4 cm−1,扫描速度0.2 cm−1,扫描时扣除CO2和H2O,室温20~25 ℃,相对湿度25%~35%。每张图谱重复扫描3次,取其平均光谱,每份样品扫描3张图谱。
2.2 NIRS信息的采集
称取样品粉末(过3号筛)约6 g,置于石英样品杯中,混合均匀,轻轻压平,以空气为背景,扣除背景采集光谱图,采用积分球漫反射,分辨率为8 cm−1,扫描64次,扫描范围为4000~12 000 cm−1,温度范围为25~30 ℃,空气湿度为25%~30%。每张图谱重复扫描3次,取其平均光谱,每份样品扫描3张图谱。
2.3 光谱信息的预处理
MIRS信息均采用Spectrum for window 3.02软件对各样品采集的原始MIRS进行处理,采用TQ Analyst软件对NIRS进行多元信号修正(multiple signal correction,MSC)、标准正则变换(standard normal variate transform,SNV)、一阶导数(first derivative)、二阶导数(second derivative)、SG平滑(Savitzky-Golay,SG)、ND平滑(Norris derivative,ND)。
2.4 数据处理
使用GraphPad Prism软件绘制牛膝生品、酒牛膝和盐牛膝平均相对峰高柱状图,使用Matlab软件构建不同炮制品和不同炮制程度分类模型,将数据样本随机拆分成训练集(70%)和测试集(30%),运用BPNN、遗传算法优化BP神经网络(GA-BP)、随机森林(random forest,RF)、径向基神经网络(radial basis function network,RBFN)、卷积神经网络(convolutional neural networks,CNN)等算法构建分类模型。使用TQ软件建立不同炮制品和不同炮制程度牛膝近红外定性分析模型。
3 结果与分析
3.1 样品红外光谱
MIRS进行透过率与吸光度转换、基线校正、归一化处理,计算得到14个共有峰(图2),对1号峰进行归一化之后,牛膝生品的2~14号峰经酒炙与盐炙后相对峰高均升高,且酒牛膝增长幅度大于盐牛膝,结果见图3。不同产地牛膝样品的原始MIRS及不同炮制品(以河南为例)原始MIRS如图4、5所示,原始NIRS及不同炮制品(以河南为例)原始NIRS如图6、7所示。
3.2 MIRS判别模型的选择及建立
采用BPNN、GA-BP、RF、RBFN、CNN等算法建立牛膝不同炮制品及不同炮制品不同炮制程度MIRS分类判别模型。
BPNN是一种按照误差逆向传播算法训练的多层前馈神经网络,具有很强的非线性映射能力、适应能力和学习能力[20],具备任意复杂的分类模式和良好的多维函数映射的能力[21],是应用最为广泛的人工神经网络之一[22];与BPNN因在模型连接权值和阈值选取时具有随机性,从而易于陷入局部最优解不同。遗传算法(genetic algorithm,GA)是模拟自然界中遗传机制及物种进化的过程中形成的一种并行随机搜索优化方法,二者相结合得到的GA-BP算法发可以做到优化可行域内BP神经网络模型连接权值和阈值选取的随机性,有效增强模型的泛化能力和收敛性[23];以决策树为核心的多分类RF算法作为一种典型的多分类器算法,可以很好地对数据进行集成学习[24],同时根据数据的多样性进行分类处理,故此,RF算法拥有非常强大的适用性,可以在许多领域进行广泛应用,特别是针对一些非线性高维数据,随机森林算法也可以很快地进行数据处理[25],此外,RF算法对噪声和随机误差的防控非常到位,可以极大地减少因数据产生的误差,从而降低了数据处理难度,节约了大量的人力物力,帮助数据得到快速、准确的分析;RBFN具有唯一最佳逼近、训练简洁、学习收敛速度快等良好性能,并且具有很强的非线性拟合能力,可逼近任意的非线性函数,具有较好的泛化能力,现已成功应用于语音识别、自动控制、信息图像处理和故障诊断等多个领域[26];CNN是一种常见的文本分类模型,是由卷积层、池化层、全连接层组成的人工神经网络结构[27]。相对于传统的多层感知神经网络,其卷积层具有局部链接、权值共享以及池化操作既能够有效地提取特征,大幅度地简化了网络的复杂度[28]。
图2 MIRS共有峰示意图
图3 牛膝不同炮制品的平均相对峰高柱状图
图5 河南牛膝不同炮制品MIRS示意图
图6 牛膝样品的原始NIRS
图7 河南牛膝不同炮制品的NIRS示意图
以BPNN为例,将已划分好的不同炮制品的数据集导入Matlab R2022b软件,模型判别结果如图8所示,不同炮制品判别模型中训练集的准确率为98.9%,而测试集的准确率为92.5%,训练集与测试集准确率均大于90%。对于不同炮制品的不同炮制程度BPNN模型判别结果显示:酒牛膝与盐牛膝不同炮制程度模型训练集的准确率分别为96.0%和98.4%,测试集的准确率分别为92.6%和94.4%,两个模型训练集与测试集准确率均大于90%,说明基于该样本集建立的BPNN模型适用于酒牛膝、盐牛膝不同炮制程度的预测判别。对比GA-BP的模型判别结果,随着迭代次数的增加,判别模型错误率呈现降低趋势(图9)。不同炮制品的GA-BP判别模型中训练集的准确率为93.6%,测试集准确率为90%。对于不同炮制品的不同炮制程度GA-BP模型判别结果显示:酒牛膝与盐牛膝不同炮制程度模型训练集的准确率分别为90.5%和96.8%,测试集准确率分别为90.7%和94.4%,如图10所示。CNN模型迭代曲线如图11所示,CNN、RBFN、RF模型判别准确率结果见图12~14。
3.3 MIRS判别模型性能评估
在机器学习中,混淆矩阵作为一个误差矩阵,常用来可视化地评估监督学习算法的性能,是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断2个标准进行汇总。分类的正确性可以通过计算正确预测样本属于此样本数量(true positives,TP),正确预测的样本数量不属于此样本集数量(true negatives,TN),和样本被错误地预测为此样本数量(false positives,FP)以及样本被错误地预测为不属于样本数量(false negatives,FN)来进行衡量,评价指标主要包括准确度(accuracy)、精确度(precision)、召回率(recall)等[29]。其中精确度可以用来衡量模型的整体有效性,即预测正确的结果占总样本的百分比;样本类别于模型判别结果的一致性则可以通过精密度来衡量;召回率即在实际为样本中被预测为该样本的概率。本实验以混淆矩阵结合准确度、精确度以及召回率评估模型性能,其数据越接近1,模型的性能越好。具体计算公式如下。
图9 GA-BP模型适应度曲线
图10 GA-BP模型判别准确率
准确度=(TP+TN)/(TP+TN+FP+FN)
精确度=TP/(TP+FP)
精确度=TP/(TP+FN)
不同炮制品预测输出有3个类别,其中1代表生品,2代表酒牛膝,3代表盐牛膝。不同炮制品不同炮制程度预测输出有4个类别,其中1代表生品,2代表炮制不及,3代表炮制适中,4代表炮制过。模型混淆矩阵可视化见图15~19,评价指标数值见表2~4。
图11 CNN模型迭代曲线
图12 CNN神经网络模型判别准确率
图13 RBFN模型判别准确率
上述结果表明,5种算法对于训练集以及预测集的判别准确率除GA-BP外均在0.90以上,展现了良好的分类性能,但是不同模型之间判别性能有较大差异。例如,在对于不同炮制品的判别模型中,CNN模型性能极佳,对于训练集以及预测集的判别成功率分别达到了1.00和0.98,且二者差距较小,说明该模型在当前样本量下面对不同数据集时鲁棒性较佳。反观GA-BP算法,虽然弥补了BPNN算法易陷入局部极小、收敛速度慢的缺点,但在本样本集建立的模型判别结果中不难看出,对于不同炮制品判别模型以及炮制品不同炮制程度判别模型中,BPNN模型整体优于GA-BP模型。
图14 RF模型判别准确率
图15 不同炮制品(A)、酒牛膝不同炮制程度(B)、盐牛膝不同炮制程度(C)的BPNN模型混淆矩阵(1训练集、2测试集)
由此可见,不同建模方法对于数据集特征提取逻辑不同,应根据数据集特性选择合适的建模方法进行判别以及分析。
3.4 牛膝不同炮制品NIRS定性模型建立
本实验采用判别分析法建立不同炮制品NIRS定性判别模型,以及不同炮制品不同炮制品程度的NIRS定性判别模型,以性能系数(PI)和误判例数为评价指标,PI值越大,误判例数越小,说明NIRS定性模型的判别分析结果越准确。本实验考察了光谱预处理方法对定性模型的影响,得不同炮制品定性模型的最佳预处理条件为SNV+SG;不同炮制品光谱预处理结果见表5。以PI和误判例数为评价指标,考察不同波段对NIRS定性模型的影响,得不同炮制品定性模型的最佳波段为4250~5150 cm−1,不同炮制品不同波段分析结果见表6。采用TQ Analyst软件,根据NIRS最佳预处理方法及最佳的光谱波段进行判别分析,建立不同炮制品的定性分析模型(图20)。
图16 不同炮制品(A)、酒牛膝不同炮制程度(B)、盐牛膝不同炮制程度(C)的GA-BP模型混淆矩阵(1训练集、2测试集)
图17 不同炮制品(A)、酒牛膝不同炮制程度(B)、盐牛膝不同炮制程度(C)的CNN模型混淆矩阵(1训练集、2测试集)
图18 不同炮制品(A)、酒牛膝不同炮制程度(B)、盐牛膝不同炮制程度(C)的RBFN模型混淆矩阵(1训练集、2测试集)
图19 不同炮制品(A)、酒牛膝不同炮制程度(B)、盐牛膝不同炮制程度(C)的RF模型混淆矩阵(1训练集、2测试集)
将验证集样品的NIRS图谱输入所建模型,结果显示,不同炮制品可被准确分为3类,正确率为100%。本实验考察了光谱预处理方法对定性模型的影响,得酒牛膝不同炮制程度定性模型的最佳预处理条件为SNV+ND+1stDer,盐牛膝不同炮制程度定性模型的最佳预处理条件为MSC+SG。酒、盐牛膝不同炮制程度光谱预处理结果(表7、8)。
表2 不同炮制品判别模型评价指标
表3 酒牛膝不同炮制程度判别模型评价指标
表4 盐牛膝不同炮制程度判别模型评价指标
表5 不同炮制品NIRS预处理结果
表6 不同炮制品不同建模波段结果
图20 不同炮制品定性分析模型
表7 酒牛膝不同炮制程度NIRS预处理结果
表8 盐牛膝不同炮制程度NIRS预处理结果
以PI和误判例数为评价指标,考察不同波段对NIRS定性模型的影响,得酒牛膝不同炮制程度定性模型的最佳波段为4150~5150 cm−1,盐牛膝不同炮制程度定性模型的最佳波段为4050~5000 cm−1,酒、盐牛膝不同炮制程度、不同波段分析结果见表9、10。
采用TQ Analyst软件,根据NIRS最佳预处理方法及最佳的光谱波段进行判别分析,建立酒、盐牛膝不同炮制程度的定性分析模型(图21、22)。
表9 酒牛膝不同炮制程度不同建模波段结果
表10 盐牛膝不同炮制程度不同建模波段结果
图21 酒牛膝不同炮制程度定性分析模型
图22 盐牛膝不同炮制程度定性分析模型
将验证集样品的NIRS图谱输入所建模型,结果显示,酒、盐牛膝不同炮制程度可被准确分为4类,正确率为100%。
4 讨论
本实验通过采集不同炮制品以及炮制品不同炮制程度牛膝MIRS图谱,使用4种不同的机器学习算法建立判别模型,其结果显示,当前样本量下,不同炮制品判别模型中CNN模型性能较好,仅在预测集中1个样品被错误预测,并且训练集与预测集准确度差异较小,显示出较佳的鲁棒性,BPNN、RBFN以及RF算法模型准确度相差较小性能相当,GA-BP算法模型性能相对较差;而炮制品不同炮制程度判别模型中,CNN模型效果最好,其次为BPNN模型,RF与RBFN模型性能相近,GA-BP模型较差。
使用NIRS技术采集不同炮制品以及不同炮制程度牛膝红外图谱,建立定性模型结果显示3个NIRS定性模型验证集准确率均为100%,可准确预测炮制品类别与炮制程度。
由表2~4可知,GA-BP算法虽然使用了遗传算法对BPNN进行了优化,弥补了一些方面的不足,但是在本样本数据集中并没有展现优于BPNN的效果,这可以归结于如下原因:GA-BP对BPNN最核心的改进在于通过随机搜索的方法避免了模型的局部最优解,而这一改进在数据样本相对较少,数据特征并不复杂的情况下是很难起到作用的。因为对机器学习模型而言,在一个简单低维的特征空间中求解,往往其局部最优解正是全局最优解。因此,在本实验中,由于数据样本构造的特征空间较为简便,因此模型在能够很容易找到其全局最优解,进而在实验结果上呈现出GA-BP没有展现优于BPNN的效果。
另一方面,当数据量进一步扩大时,GA-BP或许能够有效提升BPNN的效果。以上论断提示提示应当根据数据集特征选择合适的算法进行建模。同时,为了提高判别模型建立的效率、准确度以及鲁棒性,可以在建模前选择合适的数据预处理方法在建模前期对数据集进行预处理,进行去噪声、基线校正、散射校正等操作,同时结合如竞争自适应重加权采样算法(competitive adaptive reweighted sampling,CARS)[30]、投影算法(successive projections algorithm,SPA)、非信息变量剔除(uninformative variables elimination,UVE)、区间偏最小二乘法(interval partial least squares,iPLS)[31]等方法选择合适的建模波段,提高建模效率。
此外,从上文数据可以看出,虽然各算法在不同炮制品以及炮制品不同炮制程度模型判别过程中表现出相当的适应性,但是随着样本类别、数量的增加,其判别准确率均有不同程度的下降,可以通过如下手段提升判别的准确性:首先,对炮制工艺进行优化,保证炮制品工艺稳定,产品合格,在确保炮制品质量均一的前提下扩大样本量。其次,与光谱照相机等多光谱成像技术相结合[32],提升产品信息维度,得到更为饱满的产品信息,最后,可以使用如图神经网络[33]以及具有时序属性的改进神经网络等深度学习算法进行建模,最终建立准确度高、适用性广、鲁棒性佳的判别模型。
随着中医药行业的高速发展,对中药材的需求量不断提升,中药饮片质量参差不齐已成为制约中医药产业健康发展的主要因素,红外光谱技术结合化学计量学和机器学习算法可实现快速对中药材产地进行溯源、炮制品以及不同炮制程度的判别,同时结合不同来源数据进行整合分析[34],从而明确药材来源,保证药材质量。
利益冲突 所有作者均声明不存在利益冲突
[1] 王小燕, 郭常润, 常军民, 等. 怀牛膝多糖的柱前衍生化-HPLC指纹图谱建立及单糖成分含量测定 [J]. 中国药房, 2021, 32(3): 294-300.
[2] 唐维维, 梁献葵, 马驰虹, 等. 不同采收季节怀牛膝指纹图谱研究 [J]. 中药材, 2019, 42(9): 2079-2085.
[3] 纪亮, 刘倩茹, 梁献葵, 等. 不同规格怀牛膝不同极性部位HPLC指纹图谱 [J]. 中国药学杂志, 2020, 55(8): 580-587.
[4] 施之琪, 朱月琴, 曹琰, 等. 基于标准汤剂的牛膝配方颗粒质量评价研究 [J]. 中药新药与临床药理, 2019, 30(7): 863-869.
[5] 翁倩倩, 赵佳琛, 金艳, 等. 经典名方中牛膝类药材的本草考证 [J]. 中国现代中药, 2020, 22(8): 1261-1268.
[6] 李思懿, 张凤玲, 王晓倩. 牛膝炮制方法的历史沿革与现代研究 [J]. 中医药管理杂志, 2022, 30(3): 19-22.
[7] 陶益, 杜映姗, 黄苏润, 等. 牛膝不同炮制品中化学成分的UPLC-Q-TOF/MS分析 [J]. 中国实验方剂学杂志, 2017, 23(12): 1-5.
[8] 陈露萍, 徐芳芳, 张欣, 等. 基于偏最小二乘法建立大株红景天片素片硬度近红外光谱预测模型 [J]. 中草药, 2023, 54(8): 2446-2452.
[9] Xue J T, Liu Y F, Ye L M,. Rapid and simultaneous analysis of five alkaloids in four parts ofby near-infrared spectroscopy [J]., 2018, 188: 611-618.
[10] 黄志伟, 郭拓, 黄文静, 等. 近红外光谱技术在名贵中药材质量评价中的研究进展 [J]. 中草药, 2022, 53(20): 6328-6336.
[11] 姜泽明, 周甜甜, 卜洪洋, 等. 落叶松树皮原花青素生产过程的红外光谱分析[J]. 光谱学与光谱分析, 2018, 38(1): 62-67.
[12] 田胜尼, 李亚楠, 胡艺璇, 等. 安徽齐云山石斛傅里叶红外光谱分析 [J]. 生物学杂志, 2021, 38(6): 65-69.
[13] 郑司浩, 赵莎, 曾燕, 等. 中药材品种与产地鉴别研究现状与思考 [J]. 中国现代中药, 2021, 23(12): 2037- 2045.
[14] 李超, 李孟芝, 李丹霞, 等. 基于傅里叶变换红外光谱指纹技术的艾叶产地溯源研究 [J]. 光谱学与光谱分析, 2022, 42(8): 2532-2537.
[15] 王小鹏, 张璐, 陈鹏举, 等. 近红外光谱技术应用于中药四类味觉分类辨识的可行性分析[J]. 中草药, 2023, 54(4): 1076-1086.
[16] 赖长江生, 周融融, 余意, 等. 基于近红外分析和化学计量学方法对不同产地灵芝快速鉴别及多糖含量测定的研究 [J]. 中国中药杂志, 2018, 43(16): 3243-3248.
[17] 张振宇, 常相伟, 严辉, 等. 基于近红外光谱分析技术的干姜质量快速评价研究[J]. 中草药, 2022, 53(23): 7516-7523.
[18] 贾豪, 雷益铭, 张维方, 等. 牛膝药材的红外指纹图谱建立及多元统计分析 [J]. 中国药房, 2022, 33(2): 153-159.
[19] 中国药典[S]. 四部. 2020: 31.
[20] 方翔, 侯淑萍, 刘琐, 等. 基于BP神经网络算法和公式法纠正黄疸对仪器测定血红蛋白的影响及探讨 [J]. 中国卫生检验杂志, 2022, 32(18): 2233-2236.
[21] Xie F Y, Fan H D, Li Y,. Melanoma classification on dermoscopy images using a neural network ensemble model [J]., 2017, 36(3): 849-858.
[22] 孙炬仁. 基于遗传算法优化BP神经网络下马铃薯产量预测模型 [J]. 农机化研究, 2023, 45(6): 53-57.
[23] 于旭峰, 李红梅, 卓伟, 等. 基于近红外光谱技术的马铃薯叶片含水率高效预测 [J]. 光学仪器, 2020, 42(4): 7-13.
[24] Lam C, Calvert J, Siefkas A,. Personalized stratification of hospitalization risk amidst COVID-19: A machine learning approach [J]., 2021, 10(3): 100554.
[25] 汤卫东, 肖大军, 谈林涛, 等. 机器学习下随机森林算法在电网故障分析指挥系统中的应用 [J]. 计算技术与自动化, 2022, 41(3): 59-63.
[26] 冯麟涵, 杨俊杰, 焦立启. 基于RBF神经网络的船舶冲击谱速度数据挖掘与预报 [J]. 振动与冲击, 2022, 41(13): 189-194.
[27] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述 [J]. 计算机学报, 2017, 40(6): 1229-1251.
[28] 何力, 郑灶贤, 项凤涛, 等. 基于深度学习的文本分类技术研究进展 [J]. 计算机工程, 2021, 47(2): 1-11.
[29] Sokolova M, Lapalme G. A systematic analysis of performance measures for classification tasks [J]., 2009, 45(4): 427-437.
[30] Li H D, Liang Y Z, Xu Q S,. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration [J]., 2009, 648(1): 77-84.
[31] Zou X B, Zhao J W, Povey M J W,. Variables selection methods in near-infrared spectroscopy [J]., 2010, 667(1/2): 14-32.
[32] 吴刚, 彭要奇, 周广奇, 等.基于多光谱成像和卷积神经网络的玉米作物营养状况识别方法研究 [J]. 智慧农业: 中英文, 2020, 2(1): 111-120.
[33] 徐冰冰, 岑科廷, 黄俊杰, 等. 图卷积神经网络综述 [J]. 计算机学报, 2020, 43(5): 755-780.
[34] 赵倩, 缪培琪, 李小莉, 等. 数据融合技术在中药分析领域中的应用进展 [J]. 中草药, 2023, 54(11): 3706-3714.
Discrimination analysis of different processed products and processing degree ofbased on infrared spectroscopy combined with machine learning methods
TIAN Han-ju1, 2, YANG Yan-rong1, 2, JIA Hao1, 2, LI Ying-ying1, 2, DUAN Hao-han1, 2, ZHAO Xin-mei1, 2, ZHANG Chun-ya1, 2, LEI Jing-wei1, 2, XIE Cai-xia1, 2, YANG Chun-jing1, 2, 3, GONG Hai-yan1, 2
1. School of Pharmacy, Henan University of Chinese Medicine, Zhengzhou 450046, China 2. Henan Engineering Technology Research Center for TCM Quality Control and Evaluation, Zhengzhou 450046, China 3. Third Affiliated Hospital of Henan University of Chinese Medicine, Zhengzhou 450046, China
To establish a qualitative discrimination model for the type and degree of processing of Niuxi (, AB) using infrared spectroscopy and machine learning algorithms.The infrared spectra of AB with different processing types and degree was collected, and various machine learning algorithms, including back propagation neural network (BPNN), genetic algorithm-optimized BP neural network (GA-BP), random forest (RF), radial basis function network (RBFN), and convolutional neural networks (CNN) were used to establish a qualitative discrimination model for the type and degree of processed products of AB. The near-infrared spectra (NIRS) of AB with different processing types and degree was collected, and TQ Analyst software was used to establish a qualitative analysis model for the type and degree of processed products of AB.The results of the machine learning algorithm models showed that the CNN discriminative model was superior, the BPNN, RF and RBFN had similar performance, and the GA-BP model had relatively poor performance. The three NIRS qualitative models had validation accuracies of 100%, indicating that they could accurately predict the type and degree of processed products of AB.The qualitative analysis model developed in this study by infrared spectroscopy can be used as a means to identify the type and degree of processed products of AB. It also provides a rapid and non-destructive means of testing and a reliable method for data analysis, with view to providing a new method of reference for the accurate identification of the type and degree of preparation of Chinese herbal processed products.
BL.; processed product; processing degree; infrared spectroscopy; orthogonal partial least squares- discriminant analysis; machine learning algorithm
R283.6
A
0253 - 2670(2023)22 - 7387 - 15
10.7501/j.issn.0253-2670.2023.22.015
2023-05-29
国家重点研发计划“中医药现代化研究”重点专项项目(2018YFC1707000);河南省中医药科学研究专项课题(2022ZY1156)
田瀚举,男,硕士研究生,研究方向为中药质量分析研究。E-mail: tianhanju@163.com
通信作者:雷敬卫,男,教授,研究方向为中药质量分析研究。Tel: (0371)65955281 E-mail: 925390812@qq.com
龚海燕,女,副教授,研究方向为中药质量分析研究。Tel: (0371)65575838 E-mail: ghy_mz@163.com
[责任编辑 郑礼胜]