基于人工智能-多元多息指纹图谱探索中药一法通识品种鉴定新方法
2021-01-29周炳文朱丽丽赵爽利李任时刘秀峰刘吉华余伯阳
周炳文,朱丽丽,朱 林,赵爽利,李任时, 刘秀峰,刘吉华,戚 进,余伯阳*
(1.中国药科大学 中药学院 中药可追溯与标准化研究中心,江苏 南京 211198;2.中国药科大学 中药学院 江苏省中药评价与转化重点实验室,江苏 南京 211198)
中医药是我国独有的医疗体系和文化传承。我国幅员辽阔,中药种类繁多,由于历代本草记载及地区用药名称和使用习惯的不同,致使中药基源混乱现象严重,且近缘种属间性状及显微特征十分相似,不易区分。而中药材作为商品在市场流通中更是来源各异,优劣混杂,一些不法商贩为谋取更大利益利用近似药材或近似药用部位混掺销售,严重影响中医临床用药的有效性和安全性,并阻碍了中医药的现代化和国际化进程[1]。因此实现快速准确鉴别中药品种对中医临床用药及保障患者生命安全具有重要意义。
目前,传统的中药品种鉴定四大方法为基源鉴别、性状鉴别、显微鉴别和理化鉴别,在实际鉴别过程中常将几种方法联合应用[2-3]。由于传统的鉴别主要依靠鉴别师的工作经验积累及药材鉴别知识的储备,鉴别者需具备专业的知识和丰富的实践经验,且受主观判断影响较大,因此鉴别难度大,准确率不高[4]。随着分析手段的不断提高,薄层色谱[5]、高效液相色谱[6]、气相色谱[7]、紫外光谱[8]、红外光谱[9]及DNA分子生物学[10]等识别方法开始应用于中药鉴定,衍生出能够表征化学特征的中药指纹图谱,体现遗传差异的DNA条形码[11]等,促进了中药鉴定的发展。但中药的化学成分受生长环境、采集时间、生长年限、加工及储藏方法等多种因素的影响,同种也存在多元化现象[12-14],采用上述方法仍不能完全准确鉴别中药材的掺伪掺假等现象,准确率有待进一步提高。此外,由于不同操作者采用不同标准各自形成相关质量控制方法,不同方法间缺乏统一性,使得这些方法大多难以普及,即使一些已经颁布的标准也存在容错率低和系统适应性差等缺点。因此,亟待通过标准化设计,建立一种可推广的、客观精准的用于多种中药品种的识别方法。基于此,本文提出一种具有普适性的中药一法通识品种鉴定新方法,对中药材进行统一化、标准化处理,并基于高效液相色谱法构建了能够全面表征中药化学信息的多元多息指纹图谱,结合卷积神经网络对指纹图谱进行识别,可实现中药品种快速、准确、高效的鉴别。
表1 50种药材编号信息Table 1 Information of 50 kinds of medicinal materials
1 实验部分
1.1 仪器、试剂与药材
Agilent 1260 Prime UPLC色谱仪(安捷伦科技有限公司);中药打粉机(南京平岗机械设备有限公司);NV222ZH电子天平(百分之一,奥豪斯仪器有限公司);SK-O180-E震荡仪(南京拓海自动化科技有限公司);5804R离心机(德国Eppendorf股份有限公司);SB-5200DTD超声波清洗仪、DK-S24水浴锅(南京以马内利仪器设备有限公司)。
乙腈(色谱级,德国Merck公司);甲醇(色谱级,上海星可高纯溶剂有限公司);乙酸、甲酸、乙酸铵(色谱级,上海Aladdin试剂公司);超纯水(美国Millipore公司)。
50味药材均为市售或药材种植基地直销,经中国药科大学余伯阳教授鉴定基源准确,可用于实验研究(表1)。
1.2 供试品制备
将50批供试药材打成粉末,过四号筛(250 μm ± 9.9 μm)。精密称取1.0 g药材粉末于50 mL具塞锥形瓶中,加入25 mL 75%乙醇溶液,称定重量,在功率240 W、频率40 kHz及25 ℃条件下超声30 min,于室温下补足失重,以8 000 r/min在20 ℃下离心15 min后,分离上清液备用。
取上清液2 mL,低温(≤50 ℃)挥干,用超纯水复溶并定容至2 mL,过0.22 μm水系膜,作为分子排阻色谱供试品。
取上清液5 mL,缓慢滴加乙腈,进行有机溶剂沉淀至乙腈浓度达95%,于4 ℃条件下静置12 h,以8 000 r/min离心10 min,分离上清液与沉淀,沉淀备用。上清液低温(≤50 ℃)挥干,以现制75%乙腈复溶并定容至5 mL,过0.22 μm有机滤膜,作为反相色谱供试品; 取上述沉淀部分,加入10 mL 70%甲醇溶解,在20 ℃下以8 000 r/min离心10 min,取上清液,低温(≤50 ℃)挥干,以50%乙腈复溶并定容至5 mL,过0.22 μm有机滤膜,作为亲水色谱供试品。
1.3 反相色谱条件
Agilent ZORBAX Extend C18(4.6 mm × 150 mm,5 μm)色谱柱;流动相为乙腈(A)-0.1%冰乙酸水溶液(B),流速1.0 mL/min,梯度洗脱程序:0~30 min,5%~35% A;30~50 min,35%~95% A;50~60 min,95% A。柱温25 ℃,进样量5 μL,二极管阵列检测器检测,检测波长为205、230、254、280、305、330、365、420 nm,步长1 nm。
1.4 亲水色谱条件
Poroshell 120HILIC-Z(3.0 mm ×100 mm,2.7 μm)色谱分析柱;流动相为含0.1%乙酸的10 mmol/L乙酸铵水溶液(A)-10 mmol/L乙酸铵乙腈溶液(B),流速0.4 mL/min,梯度洗脱程序:0~5 min,100% A;5~10 min,100%~95% A;10~35 min,95%~90% A;35~45 min,90%~75% A;45~60 min,75%~65% A。柱温30 ℃,分析时间60 min,进样量5 μL,二极管阵列检测器检测,检测波长同反相色谱,步长1 nm。
1.5 分子排阻色谱条件
Sepax SRT SEC-150Å(7.8 mm×300 mm,5 μm)分子排阻色谱分析柱,流动相为5 mmol/L乙酸铵-甲醇(100 ∶1),等度洗脱,流速0.6 mL/min,柱温30 ℃,分析时间为80~100 min,进样量5 μL,二极管阵列检测器检测,检测波长同反相色谱,步长1 nm。
1.6 人工智能识别
1.6.1 数据预处理液相色谱图以保留时间-信号响应值的形式导出,并按公式(x′=(x-xmin)/(xmax-xmin),式中x为原始值,x′为归一化后的值,xmin和xmax分别为单张图谱中最小值和最大值)进行归一化处理,同一药材在同一波长下,按照正相色谱、反相色谱以及分子排阻色谱的顺序重新合并为新的色谱图,作为卷积神经网络的训练数据集。采用K折交叉验证[15]策略将所有数据随机打乱后划分为5份,每次取其中4份,即80%的数据作为训练集,剩余20%作为测试集评估神经网络模型的性能,直到所有数据都分别作为测试集,最后将所得5个模型测试集准确率的平均值作为最后模型的准确率。
图1 一法通识反相色谱条件考察——色谱柱考察
1.6.2 卷积神经网络模型超参数的正交优化本试验采用深度残差网络Resnet18作为网络架构,该网络架构中提出的残差结构能够有效改进卷积神经网络在深度加深时产生的梯度爆炸与梯度弥散,提升模型的性能[16]。选取学习率(Learning rate:0.01、0.001、0.000 1)、卷积核大小(Kernel size:3、5、7)以及学习次数(Epochs:100、500、1 000)为影响因素,设计3因素3水平的正交实验对模型参数进行微调。
2 结果与讨论
2.1 色谱条件优化
本研究所建立的判别方法为以一种标准化的样品制备及色谱数据获取方法,通过建立识别系统,用于广泛识别多种中药材。因此,本实验以分离度、色谱峰数目为考察指标对液相条件进行优化,综合考察色谱条件在不同药材中的表现,确定反相色谱、亲水色谱以及分子排阻色谱的最优条件。
图2 一法通识反相色谱条件考察——流动相条件 考察(以丹参为例)Fig.2 Conditions of reverse chromatography—— mobile phase(salvia) S1:methanol-0.1% formic acid;S2:methanol-water; S3:methanol-5 mmol/L ammonium acetate;S4:methanol- 0.1% acetic acid;S5:acetonitrile-0.1% formic acid; S6:acetonitrile-water;S7:acetonitrile-5 mmol/L ammonium acetate;S8:acetonitrile-0.1% acetic acid
2.1.1 反相色谱条件的优化以陈皮为例比较了7种常用的反相色谱柱对陈皮、黄连、麦冬、丹参、升麻、白芍、荷叶7种药材的分离效果(图1)。结果显示:Dikma Diamonsil C18、Agilent ZORBAX Extend-C18、Phenomenex Luna®C18、Agilent ZORBAX SB-C18、Sepax HP-C18、SHIMADZU Shim-pack VP-ODS、Waters Atlantis®T3 7种不同色谱柱的出峰效果差别较大,综合黄连等其他六味中药的色谱图发现Agilent ZORBAX Extend C18获得的色谱峰数量较多,且峰高及峰面积较高,分离效果较好,因此选择Agilent ZORBAX Extend C18作为一法通识方法用色谱柱。
以丹参为例考察了8种不同流动相体系(甲醇-0.1%甲酸水溶液、甲醇-水溶液、甲醇-5 mmol/L乙酸铵水溶液、甲醇-0.1%乙酸水溶液、乙腈-0.1%甲酸水溶液、乙腈-水、乙腈-5 mmol/L乙酸铵水溶液、乙腈-0.1%乙酸水溶液)对分离的影响(图2)。结果显示:不同流动相组合对色谱峰的分离度和色谱峰数目影响较大,综合对比黄连等其他六味中药的色谱图发现,以乙腈-0.1%乙酸水溶液为流动相时获得的色谱图最佳,因此选取乙腈-0.1%乙酸水溶液为流动相。
以葛根为例比较了常用色谱柱温度(40、30、25、20 ℃)对7种药材的分离效果。结果发现,当柱温为25 ℃时分离效果最好。综合其他6种药材的色谱出峰情况,确定25 ℃作为一法通识方法的反相色谱柱温条件。
2.1.2 亲水色谱条件优化通过比较当归在Poroshell 120 HILIC-Z、Amide-80HR色谱柱的分离情况,结果发现Poroshell 120 HILIC-Z分离的峰形较好,分离效果最佳,故选择Poroshell 120 HILIC-Z色谱柱作为一法通识亲水色谱条件的色谱柱。
以当归为例比较了不同流动相体系(乙腈-5 mmol/L甲酸铵-0.1%甲酸水溶液、乙腈-5 mmol/L乙酸铵-0.1%乙酸水溶液、乙腈-15 mmol/L甲酸铵-0.1%甲酸水溶液、乙腈-15 mmol/L乙酸铵-0.1%乙酸水溶液、乙腈-10 mmol/L乙酸铵-0.1%乙酸水溶液、乙腈-10 mmol/L甲酸铵-0.1%甲酸水溶液)的分离效果。结果显示,乙腈-10 mmol/L乙酸铵-0.1%乙酸水溶液具有最好的分离效果,色谱图基线稳定,色谱峰个数最多,响应最高。
2.1.3 分子排阻色谱条件优化综合考虑分子排阻柱的分离效果、耐用性、普适性及经济性,选择Sepax SRT SEC-150Å分子排阻分析柱作为一法通识分子排阻色谱法的分析柱。
以麦冬为例比较了不同流动相体系(5 mmol/L乙酸铵-1%甲醇、5 mmol/L乙酸铵-10%甲醇、5 mmol/L乙酸铵-10%乙腈、10%乙腈、10 mmol/L乙酸铵、5 mmol/L乙酸铵水溶液)的分离效果。结果发现以5 mmol/L乙酸铵-1%甲醇为流动相时,分离效果更好,色谱图基线稳定,色谱峰数量最多。因此选择5 mmol/L乙酸铵-1%甲醇为流动相。
实验还比较了不同流动相流速(0.4、0.6、0.9 mL/min)对液相出峰的影响,并综合考虑出峰数量、出峰时间及总检测时长,最终选择0.6 mL/min作为一法通识分子排阻色谱法的流速。
2.2 方法学考察
2.2.1 精密度以陈皮、黄芩、前胡三味药材为对象考察反相色谱及分子排阻色谱方法,以大黄和当归药材为对象考察亲水色谱方法,按“1.2”方法制备样品溶液,分别连续进样6次。结果显示,中药材中各主要色谱峰相对时间及其相对峰面积均满足相对标准偏差(RSD)<3.0%,相似度均大于0.9,表明各方法均符合指纹图谱研究技术要求,精密度良好。
2.2.2 稳定性试验以陈皮、黄芩、前胡三味药材为对象考察反相色谱及分子排阻色谱方法,以大黄和当归为对象考察亲水色谱方法,按“1.2”方法制备样品溶液,分别于0、2、4、8、12、24 h检测各药材的指纹图谱。结果显示,中药材中各主要色谱峰的相对保留时间及其相对峰面积均符合RSD<3.0%,相似度均大于0.9,表明各提取方法下样品在24 h内稳定,满足指纹图谱研究技术要求。
2.2.3 重现性实验以陈皮、黄芩、前胡三味药材为对象考察反相色谱及分子排阻色谱方法,以大黄和当归为对象考察亲水色谱方法,精密称取6份药材粉末,按照“1.2”方法制备样品溶液进样测定。结果显示,各药材中主要色谱峰的相对保留时间及其相对峰面积均符合RSD<3.0%,相似度均大于0.9,表明方法重现性良好,符合指纹图谱研究技术的要求。
表2 卷积神经网络超参数正交实验表Table 2 Orthogonal test factorTable of convolutional neural network hyperparameters
2.3 人工智能识别
2.3.1 正交试验优化实验通过基于Torch的开源python机器学习库PyTorch构建Resnet卷积神经网络。再将上述液相色谱条件下所得图谱作为卷积神经网络的输入,通过卷积核提取特征,以神经元计算各特征权重,最后由全连接层通过Softmax函数输出神经网络的判别结果(图3)。判别结果通常是以判别概率的形式输出,神经网络判别当前输入的药材是某一类药材的概率,并以概率最大的为最后输出结果,通过计算输出结果与给予的标签之间的差异,并将差异反向传播反馈给前面的神经元,不断更正权重系数,从而达到不断学习的效果。卷积神经网络的超参数直接影响模型学习性能,本文根据正交试验优化了模型的3个超参数,并根据K折交叉验证所划分的数据集依次带入模型训练,对5次模型在测试集上的准确率取平均值作为模型的准确率,以期得到性能更优越的模型,正交实验结果见表2。由表中数据可见最优的超参数组合为学习率0.001、卷积核大小为3、学习500次,其测试集准确率达92%。
图3 卷积神经网络预测概率结果Fig.3 Predicted probability of convolutional neural network
2.3.2 正交试验结果验证将上述正交试验所得卷积神经网络最佳参数带入Resnet18网络结构中,将数据集随机打乱后按训练集 ∶测试集=8 ∶2进行划分(图4)。由图可见,人工智能神经网络在训练400次后训练集准确率稳定在100%,在测试集上的准确率为88%,而测试集的准确率在500次时达到最优(92%)。
3 结 论
本研究建立了一种中药一法通识品种鉴定的新方法,根据中药材中化学成分的不同性质,将其大致拆分成三个部位,并通过不同的液相色谱体系在多个维度下进行信息采集,对中药化学成分信息进行全方位展示。通过卷积神经网络对所得一法通识液相图谱进行分类识别,这种识别模式在保证准确率的情况下,克服了传统中药识别所带的主观色彩。本方法的训练与预测数据主要针对中药材的化学物质信息,因此对失去原本样貌的药材也可鉴别。更为重要的是,卷积神经网络作为深度学习的代表算法之一,不仅性能强劲,且随着训练次数的不断增多,其模型准确率、容错率及泛化能力将不断增强,是一种可持续发展的鉴别新模式。本文目前所展示的神经网络对于50味药材的鉴别仅为阶段性成果,并不代表该网络的识别能力仅限于50味药材,随着后期标准化实验数据的不断增加,中药鉴别种类的拓宽,中药品种鉴别的精度与宽度将不断增加。