APP下载

基于迁移学习与TrAdaBoost-SVM方法的XRF中药重金属超标研究

2023-09-11杨婉琪李福生程惠珠赵彦春

光谱学与光谱分析 2023年9期
关键词:金银花中药材准确率

马 骞, 杨婉琪, 李福生*, 程惠珠, 赵彦春

1. 电子科技大学自动化工程学院, 四川 成都 611731

2. 电子科技大学长三角研究院(湖州), 浙江 湖州 313001

引 言

中药作为我国传统的民族瑰宝, 随着国家医疗水平的提高与养生保健需求的增加, 中药材的需求量也在不断增大[1]。 然而中医药产业的蓬勃发展时期, 中药材重金属污染问题时有发生, 严重阻碍了中药行业健康有序发展与国际化的脚步。 有关中药材重金属问题, 2015年中国中医科学院牵头制定了ISO国际标准《中医药-中药材重金属限量》, 明确制定了中药材重金属标准[2]。 传统的中药材元素分类方法有判别分析、 模糊聚类分析法、 卷积神经网络等。 其中判别分析可准确有效鉴定天麻不同产地[3], 运用模糊分类方法可判别药物微量元素与疗效的相关性[4], 卷积神经网络与指纹图谱成功运用于中药的视图识别与鉴定中[5-6]。 在实验样本充足的条件下, 这些传统的分析算法有时也能够达到很好的效果。 然而传统的机器学习分类模型通常建立在训练集和测试集服从相同数据分布的基础上, 而实际情况下, 这种条件并不一定能够满足。 当我们分类的目标发生改变, 无法使用的旧数据会被直接丢弃, 导致大量的浪费, 而建立新的数据集往往需要较大的成本。 中药种类繁杂、 地区特性明显, 全国仅用于饮片和中成药的药材就有1 000~1 200余种, 建立标准中药样品数据集的工作量非常庞大, 因此研究人员几乎无法购买到大量的标准样品用于实验分析, 大大阻碍了中药材重金属超标问题的研究[7]。 迁移学习作为一种利用相似样本的信息来帮助完成目标样本中的学习任务, 可以有效地在辅助样本与目标领域之间进行信息的共享与迁移, 针对具有相似信息的辅助样本与目标领域样本, 使用大量已有的数据对小样本目标进行数据扩充。 这种方法已被成功运用于物体种类识别与小样本高光谱图像分类[8], 证明其可以运用于样本分类问题, 解决小样本带来的分析准确性差的缺陷。

传统的中药元素检测方法主要有ICP-AES法、 原子吸收光谱法、 火焰原子吸收光谱法等, 这些方法往往需要对固体样本进行化学消解, 分析费用高, 仪器也比较贵[9-11]。 XRF即X射线荧光光谱分析技术, 由于其几乎不需要样品预处理、 无污染以及快速便捷分析的特点可以满足中药中检测微量元素的需求[12-14]。 XRF在矿物药真伪鉴别和质量控制应用中已取得了较好的工作成果, 在防风样品中也实现了多种金属元素含量测定[15-16]。 XRF光谱分类常使用支持向量机算法(SVM), 成功应用于汽油牌号的快速识别与建立药品组分含量的检测模型中, 结果表明SVM的预测效果较优, 分类效果最好, 具有广泛的应用价值[17]。

我国的科研工作者对中药重金属超标问题已经展开了大量的研究工作, 韩小丽等统计并分析了中药材中4种重金属元素的污染情况, 各国对于Pb的含量要求较其他3种元素更为详实, 且超标率较高[18]。 根据谭镭等的研究发现金银花在Pb含量超标的统计结果中较突出, 铅超标排名前20的药材中, 金银花就占了10项[19]。 在有关的统计结果中不难发现金银花在ISO国际标准下存在4种重金属同时超标现象[20]。 土壤作为中药材生长的温床, 为其提供了良好的生根立足条件、 充足的营养、 水分和空气, 土壤是否受重金属和农药等污染也是判断中药材品质、 道地性的重要因素。 本工作使用金银花作为实验样本, 针对四大重金属中的铅元素(Pb)展开研究, 使用与中药成分息息相关的大量土壤样本数据, 建立了基于迁移学习与支持向量机结合(TrAdaBoost-SVM)的分类模型, 将该模型用于小数据集的分类测定, 并与单独使用支持向量机与AdaBoost的分类模型进行比较, 提出了针对小样本中药材重金属分类的新方法。

1 实验部分

1.1 材料与仪器

实验辅助样本使用的59份土壤样本购自国家标准样品网站, 包括GSS系列、 GBW(E)系列土壤组分与GSD河流泥沙组分样本。 样本中的铅元素含量范围为0.077~552 mg·kg-1, 具有适当的含量梯度。

30份金银花样本购买自河南、 山东、 湖南及广西省。 由于中药重金属Pb超标率并不高(为3.46%), 导致少数样本几乎无法概括各个含量梯度的重金属含量样本, 因此实验中购买了0.101 4 mol·L-1的硝酸铅溶液, 将其加水稀释配置10~1 000 mg·kg-1不同重金属浓度的Pb元素溶液。 将20份实验金银花样本置于干净的平面上, 将上述配置好的溶液均匀滴入金银花中, 置于通风处自然风干。 将风干后的金银花均匀混合搅拌, 放入研磨机过200(0.074 mm)目筛, 完成30份样本的装杯制作。 实验测试采用的安装Ag阳极X射线管TS-XH4000-P型手持式ED-XRF荧光分析仪(由TecSonde生产), 最大电压均为45 kV。

选取2020年最新版《中国药典》对重金属含量的规定, 将59份国家标准土壤样本与30份金银花样本按照Pb含量大于5 mg·kg-1标记为1, 小于5 mg·kg-1标记为-1的规则进行类别划分, 设置为两类重金属Pb的污染程度。 实验中, 59份国家标准土壤样本均作为训练集, 30份金银花样本按照比例随机划分为训练集与测试集。

1.2 方法

1.2.1 数据预处理

土壤及中药样本中的基体效应对谱图的准确性有非常大的影响, 因此在进行分类模型建立之前, 使用对XRF光谱背景扣除具有较好效果的迭代离散小波变换算法(IDWT)对光谱数据进行预处理。 以具有代表性的GBW07380(GSD-29)土壤样品与山东金银花样品为例, 选择db5小波对土壤谱图进行7层低频分解, 选择最佳分解层数a7, 并且在使用IDWT处理光谱数据后, 得到了此时拟合曲线决定系数(R2)的值均有了一定幅度的提升, 证明了算法的有效性。 使用sym3小波对金银花谱图进行7层低频分解, 最终得到的土壤与中药的拟合曲线分别如图1(a, b)所示。

图1 (a)处理前后土壤中Pb元素的拟合曲线对比与(b)处理前后中药中Pb元素的拟合曲线对比

1.3 迁移学习与支持向量机模型(TrAdaBoost-SVM)

1.3.1 TrAdaBoost-SVM算法原理

训练支持向量机(SVM)模型, 定义核函数及相关参数, 简化多分类问题为二分类问题。 迁移学习(Tradboost)算法是一种利用不同分布的辅助土壤样本数据与少量中药目标样本数据, 从辅助土壤样本的数据中, 筛选有效数据, 在分类算法实施的过程中, 过滤掉与目标中药样本不匹配的数据。 在迭代的过程中, 调用SVM分类算法, 根据结果在辅助土壤样本中增加有效数据权重, 降低无效数据权重, 使得元素分类朝正确的方向进行, 进而实现在原有土壤模型的基础上迁移至中药元素分类并能够准确地预测。

在类别空间Y={-1, 1}中, 定义土壤样本的重金属元素数据Xa的辅助样本与少量金银花样品的重金属元素数据Xb的源样本, 将其合并为训练数据集T[式(1)], 定义包含未标注类别的中药元素为测试数据集S[式(2)]。

T∈{(Xb∪Xa)×Y}

(1)

(2)

式中,j=1, 2, …,k;k是未标记的测试集S的大小。

(3)

(4)

(5)

分类模型的度量是准确率, 以训练集和测试集的分类准确率作为模型度量。 准确率Accuracy为正确分类的样本数Ts占总样本数S的比值, 由式(6)得到

(6)

2 结果与讨论

为更直观地了解这两组XRF数据集的固有特性, 采用t-SNE算法将350维的XRF特征映射到二维空间并在同一幅图中进行可视化分析。 如图2所示, 两个数据集在二维空间聚集成了两个分布位置不同的簇。 首先, 两组样本在含有重要相关信息的350维数据在二维图中有了明显的区分, 比原始XRF反射光谱图更易于分辨; 其次, 从特征维度上观察实测金银花样本, 发现由于样本数量过少, 进行特征可视化之后样本基本聚集在一起, 对于训练模型而言很难在聚集维度中训练出较好的结果, 而本研究所使用的辅助土壤样本在横向和纵向的特征维度中拓展了数据特征, 为实验的可行性提供了较为直观的理论依据。

图2 两组XRF样本集的t-SNE特征降维可视化图

对于含有同种污染物Pb的不同区域种类样本集(样本颜色相同), 可以看出在二维空间样本集区分度很高。 t-SNE算法保留了数据集的内部非线性特征, 从图2可直规地看出样本集的内部特征之间其实差异很大。 t-SNE可视化进一步验证了使用XRF技术在不同数据集中评估中药材重金属Pb污染水平的可行性, 并可进一步分析后续可迁移模型构建的结果。

在SVM模型中, 可以看出当用源域数据训练的SVM模型用于目标域的重金属Pb污染程度检测后, 模型对于目标域中Pb污染的平均检测准确率为28.1%~15.6%, 准确率整体上有了明显的下降, 由于两组样本虽然有着一定的相关性, 但数据集内部非线性特征亦存在相当大的差距, 在没有数据特征提取筛选的迁移学习加入时, 准确率的下降是可以预见的。 就AdaBoost模型而言, 准确率达到88%~91%, 略低于TrAdaBoost-SVM分类模型。 建立TrAdaBoost-SVM分类模型时, 将30份金银花样本数据按照训练集与测试集分别为1∶2、 1∶1、 2∶1、 1∶5、 5∶1的比例进行10次随机实验, 其中Pb元素超标的样本随机分布在训练集与测试集中, 每种测试条件下重复测试10次的结果准确率如表1所示。 实验结果中, TrAdaBoost-SVM分类模型中无论测试集样本数量如何分布, 其分类准确率均高于仅使用SVM与AdaBoost分类模型的准确率, 并且三组算法在训练集的准确率均优于测试集。 显然, 本实验中, 辅助样本的同分布数据符合迁移学习的数据要求, 故迁移出的相关特征有效辅助了目标样本的分类, 提高了分类精度, 有效扩充了原本的小样本数据。 TrAdaBoost-SVM的准确率在测试集与训练集上, 当数据为5∶1分布时, 准确率最高。 当参与训练的金银花样本由25份逐渐减少至5份时, 分类准确性也随之降低, 即小样本条件越苛刻, 相似样本分类效果越不明显。 但是在这种数据量很小的情况下TrAdaBoost-SVM模型均优于SVM与AdaBoost模型, 表示可以有效利用土壤模拟出的谱图信息辅助完成金银花样本的分类, 分类准确性得到了有效的提高, 较好地解决了小样本情况下使用XRF光谱对中药重金属元素超标分类准确性低的问题。

表1 SVM、 AdaBoost与TrAdaBoost-SVM模型在土壤迁移至中药金银花任务中的准确率(单位: %)

3 结 论

采用X荧光光谱分析技术, 借助TrAdaBoost-SVM分类模型将辅助土壤样本的有效信息迁移至中药材金银花的重金属分析, 实现对金银花中Pb含量超标现象进行快速、 准确区分。 本实验对单一分类模型SVM、 AdaBoost与基于迁移学习和SVM结合的TrAdaBoost-SVM分类模型效果进行比较, 结果表明TrAdaBoost-SVM分类模型可将准确度可达96.7%。 这两种算法结合可作为中药材重金属分类可靠、 准确的分类方法, 并且利用研究人员可大量获取的土壤样本辅助建立中药材分类模型, 有效解决了中药材标准样品稀少, 购买困难的问题。 未来工作中, 可以将此类模型迁移的方法扩展至其他种类元素的分析过程, 在样品组成等条件发生变化的情况下使用其他有效样本辅助, 达到准确预测分类的目的, 为XRF元素无损检测与定性分类提供有效的分析工具。

猜你喜欢

金银花中药材准确率
夏季中药材田间管理做好这五点
中药材促农增收
金银花“香溢”致富路
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
宋四清:种植中药材 托起致富梦
金银花
高速公路车牌识别标识站准确率验证法
DNA提取4种中药材方法的筛选