APP下载

人工智能视域下拉曼光谱分析技术融合深度学习算法在中药生产过程质量控制中的应用

2022-03-03陶益陈林朱菲潘美玲

中国现代中药 2022年1期
关键词:曼光谱拉曼矿物

陶益,陈林,朱菲,潘美玲

浙江工业大学 药学院,浙江 杭州 310014

1928 年,印度科学家Raman 根据激发光子在分子表面发生非弹性散射的现象,提出了拉曼光谱分析技术,用来获取分子结构及化学官能团信息[1]。拉曼光谱分析技术弥补了红外光谱在非极性分子检测上的缺陷,提供的谱图分辨率高、峰形尖锐,并因其快速、便携及无损等检测优点,在食品、化纤、纳米材料、艺术、考古等多个领域广泛应用[2-4]。在医药领域,拉曼光谱分析技术也有所应用,但多为化学药成分检测[5],在中药领域的应用仍然处于摸索阶段。本文从拉曼光谱的图谱预处理、峰归属、特征波段提取及深度学习算法等角度,总结了拉曼光谱分析技术在矿物药鉴别、中药产地分类、含量测定、中成药生产过程轨迹和终点控制中的应用,并对5G和人工智能视域下拉曼光谱分析技术在中药制药过程质量控制中的应用进行展望。

1 拉曼光谱的原理与优势

单色光照射非离子结构的物体时,并非所有的光都发生瑞利散射,有一小部分光会因为被照射物体中分子振动和转动而改变发射波长,这部分改变发射波长的光形成的光谱图就是拉曼光谱。包括波长变长的斯托克斯拉曼散射和波长变短的反斯托克斯拉曼散射。利用拉曼谱图的特征峰进行快速定性分析,通过人工智能算法进行准确定量分析。

与液质联用相比,拉曼光谱分析技术检测无损、快速和便携,尤其对于贵重或是带包装的待测品,在保证待测样品完整性的同时,又节省检测时间。而液质联用前处理复杂、液相条件优化耗时且仪器昂贵不易挪动。

与近红外光谱相比,拉曼光谱是散射光谱,信号较弱,光谱为40~4000 cm-1,主要用于研究非极性基团与骨架的对称振动,可测水溶液;而近红外光谱是吸收光谱,是由含氢原子团伸缩振动的倍频及合频吸收产生,光谱为4000~12 800 cm-1,信号较强,主要用于研究极性基团的非对称振动,不适用于水溶液的测定。拉曼光谱和近红外光谱在实际应用中可以互补。

2 拉曼光谱数据处理及建模方法

2.1 预处理方法

拉曼光谱原始谱图在去电噪声、杂散光及样品背景后,需要进行基线矫正和预处理。常用的光谱预处理方法:1)平滑处理,可以消除噪音,包括厢车平均法、移动窗口平均法和Salvitzky-colay 法(SG);2)基线校正,通过一阶(first derivative,FD)/二阶(second derivative,SD)导数法可以分辨重叠峰、弱峰;3)多元散射矫正(multiple scatter correction,MSC),能消除待测物颗粒分布不均匀和大小不同产生的散射,也有降低基线偏移的能力,并且不会降低信噪比;4)标准正态变量校正(standard normal variate correction,SNV),用来校正样品因颗粒散射而引起的光谱误差,以上预处理方法常常组合使用。

2.2 拉曼光谱峰归属

中药拉曼光谱特征峰的归属一直是一个难题,一般是通过搜索文献或与对照品进行比对归属,费时费力,构建中药拉曼数据库刻不容缓。建立中药拉曼数据库有2 个挑战:1)中药饮片种类基数庞大,有效成分复杂,对照品不足[6]。2)中药成分中同分异构体较多,同一分子在构象上的差异也会使得拉曼光谱有所不同,使部分特征峰的位置发生偏移。针对这一问题,Liang 等[7]提出,将拉曼图谱预处理上传至云端之后,采用深度学习方法进行识别,提取关键特征峰进行匹配,方便检索者进行拉曼峰指认。拉曼光谱分析技术的云架构平台见图1。采用手持式或便携式拉曼光谱仪器采集中药生产过程中间体拉曼光谱数据,之后,将拉曼光谱数据通过5G 网络上传到云平台,并分配给深度学习模型以执行数据训练、自学习和参数优化,最后对生产过程轨迹和终点控制进行实时反馈。深度学习算法和拉曼光谱的融合将为中药生产智慧化发展提供强有力的技术支撑和保障。

图1 拉曼光谱分析技术的云平台架构

2.3 特征波段提取方法

为了建立有效、可靠的模型,需要对拉曼光谱特征波段进行提取,主要波段提取方法包括竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)、连续投影算法(successive projection algorithm,SPA)、无信息变量消除法(uninformative variable elimination,UVE)和间隔偏最小二乘法(synergy interval partial least squares,siPLS)[8]。

2.4 建模方法

众所周知,拉曼光谱在进行中药多成分混合物分析时会产生大量的振动光谱数据,需要采用机器学习算法进行建模,主要机器学习算法包括偏最小二乘回归(PLSR)、极限学习机(ELM)、支持向量机(SVM)、人工神经网络(ANN)、卷积神经网络(CNN)等。

2006年,Hinton等[9]采用预训练方法解决了神经网络只能得到局部最优化的问题,将隐含层推动到了7 层,神经网络真正意义上有了“深度”,由此揭开了深度学习的热潮,随后的深度信念网络(DBN)、递归神经网络(RNN)、长短期记忆人工神经网络(LSTM)等才逐渐出现。CNN 是目前运用较多的深度学习算法,包括卷积运算、池化运算、全连接运算和识别运算这4 个基本运算单元。拉曼光谱数据无需进行预处理,可以直接进行CNN 建模输出结果。有文献报道CNN比传统的PLSR、SVM、ELM 等机器学习算法的建模效果更好,尤其是CNN在其模型架构中采用了共享权重滤波器和池化层,使模型具有更高的特异性和敏感性[10]。

3 中药饮片质量控制

3.1 中药鉴别

拉曼光谱在中药矿物药鉴别方面应用较多[11]。硇砂是氯化物类卤砂族矿物卤砂,分为白硇砂和紫硇砂两类,具有消积软坚、化腐生肌的功效。白硇砂又常与白矾、硼砂混淆,有研究者把拉曼光谱和另外2种光谱技术(X射线衍射和近红外光谱)结合起来,用于硇砂的快速鉴别[12]。白硇砂和紫硇砂的特征谱段都为1800~70 cm-1,白硇砂有5 个明显的特征峰和3 个氯化铵的较弱特征峰;紫硇砂主要含有氯化钠,表现为(345±7)cm-1处有宽型强峰。利用这些特征峰可以在混淆品中区分出白硇砂和紫硇砂。

除了氯化物类矿物药,中药中的硫酸盐类矿物药种类繁多,容易混淆。雷咪等[13]对6种含硫酸盐矿物药(白矾、胆矾、绿矾、石膏、玄精石、芒硝)及其炮制品进行了拉曼光谱鉴别。首先采用矢量归一化法对拉曼图谱进行预处理,再建立聚类模型,选择一阶导数和9 点平滑来减弱干扰、消除噪音。除了胆矾和绿矾因自身不同程度的颜色而具有强度不一的荧光干扰,仅能微弱区分之外,拉曼光谱在其他矿物药及其炮制品的快速区分上表现出色。此外,有报道采用拉曼光谱分析技术对白矾、枯矾及其伪品(铵明矾)进行了快速鉴别,白矾在990、974 cm-1有强吸收峰,而伪品无974 cm-1吸收峰[14]。

碳酸盐类矿物药是中药矿物药的重要组成部分。明晶等[15]采用拉曼光谱技术对4 种碳酸钙类矿物药(鱼脑石、鹅管石、花蕊石、南寒水石)进行区分,采用一阶导数、多元散射校正和17 点平滑对拉曼光谱图进行预处理,消除干扰。然后,选择特征波段,使用Ward算法进行聚类分析,发现鱼脑石和鹅管石未被区分,通过建立PLSR 模型进行区分,模型预测准确率达到90%。

部分矿物药由于含有As、Hg、Pb 等有毒元素,需要进行准确鉴别。有报道采用拉曼光谱分析技术对朱砂、轻粉、雄黄、信石、密陀僧、铅丹及硫黄7 种毒性矿物药进行鉴别,发现这7种毒性矿物药拉曼光谱特征峰峰形尖锐,差异显著,可以用来快速鉴别这7种毒性矿物药[16]。

除了矿物类中药,拉曼光谱技术在植物类中药的鉴别中也发挥了重要作用。姜黄是姜科多年生草本植物姜黄的根茎,在抗肿瘤方面受到国内外学者的高度重视。董晶晶等[17]使用拉曼光谱技术采集姜黄拉曼图谱,进行二阶求导,得到8 个较强的特征峰,对这些峰进行归属发现,其与已知的姜黄含有的碳水化合物、姜黄素类化合物、β-谷甾醇和脂肪酸是相符的,可以用于姜黄的快速鉴定。

中药芍药以其根入药,有赤芍和白芍之分,两者功效差异很大。白芍养血柔肝,赤芍清热凉血。黄浩等[18]采用共聚焦显微拉曼对赤芍、白芍的饮片和药材水煎汤剂进行比较,对图谱进行简单的5 点平滑处理后扣除荧光背景,发现有5 组拉曼信号在白芍药材汤剂和饮片汤剂中同时存在,另有2 个拉曼光谱发生了频移,从637、1636 cm-1频移至633、1633 cm-1,剩余在于饮片中的拉曼峰则未曾在白芍药材中见到重叠。赤芍与白芍的拉曼光谱差异较大,783、847、1091 cm-1等拉曼峰仅出现在白芍饮片汤剂的拉曼光谱中,而734、836、1072 cm-1等拉曼峰仅存在于赤芍饮片汤剂的拉曼光谱中,这表明共聚焦显微拉曼可以用于赤芍和白芍饮片汤剂的鉴别和区分。

3.2 产地分类

人参是中国传统的滋补佳品,在韩国、美国及中国东北等地均有分布。Edwards等[19]对不同产地的人参进行拉曼光谱分析发现,西洋参在1600、1003 cm-1都有拉曼峰,而高丽参仅在1600 cm-1有拉曼峰,中国人参仅在1003 cm-1有拉曼峰。因此,通过拉曼光谱可以对人参的产地进行识别。

黄芪是豆科植物膜荚黄芪和蒙古黄芪的干燥根,对心脑血管、消化、免疫等多种系统都有保护作用,还能降低血糖、抗肿瘤。黄浩等[20]采用拉曼光谱分析技术结合主成分回归(PCR)和偏最小二乘回归-判别分析(PLSR-DA)判别模型对5 个产地的黄芪进行分类,该模型对于未知产地黄芪饮片的识别准确度达到100%。上述例子说明拉曼光谱结合PLSRDA可以实现黄芪产地的快速识别。

3.3 含量测定

拉曼光谱不但可用于定性分析,而且可以进行定量分析。陈龙等[21]对siPLS 算法的区间数进行改进,将区间数减少到10,加快了最佳谱段选取过程;采用内部交叉和外部验证交叉验证方法,其中预测系数(R2)更接近1,交叉验证均方差(RMSECV)和外部验证均方差(RMSEP)更小,模型效果更好。该模型RMSEP 为0.259,R2为0.977 9,为5种CaCO3类矿物药(鱼脑石、鹅管石、花蕊石、南寒水石、钟乳石)的拉曼定量分析提供了可靠的方法。此外,该团队还采用相同的方法对紫石英中氟化钙含量进行测定[22]。

3.4 中药制药过程控制

在中药制药过程中,实时获取产品关键质量属性对中成药的质量控制非常重要。将工业生产设备通过光纤探头耦合到拉曼光谱仪,可以实现中药生产过程控制。靳磊等[8]使用便携式拉曼光谱仪结合CARS-PLSR 建模,采集葡萄糖、麦芽糖、何首乌多糖及党参多糖的拉曼特征峰,对稳心颗粒中的总糖类成分进行含量测定,并据此对稳心颗粒提取工艺中多糖的生产过程轨迹变化进行监控,模型R2达到97.43%,接近于1。

水解是山羊角生产过程中的关键工艺步骤之一。有研究者建立了基于CNN 的在线拉曼光谱定量校准模型,用于山羊角水解过程的终点监测[10,23]。在建立PLSR模型时,首先采用实验设计方法对拉曼光谱的预处理方法进行优化,包括SG平滑、一阶导数和二阶导数基线校正、散射校正和归一化。同时,比较肯纳德-斯通(KS)算法和基于联合X-Y 距离的样本集划分(SPXY)算法对校正集模型的影响。PLSR 模型的RMSEP 为0.759 9,R2为0.988 4,而CNN 模型的RMSEP 为2.579 3,R2为0.987 0,上述结果说明,CNN 模型和PLSR 模型的预测能力相当,这可能和数据量太少有关。一般来说,基于CNN 的深度学习模型在大数据的建模中会优于常规的机器学习算法。

4 结语

拉曼光谱分析技术在中药鉴定、产地分类方面的应用较多,而在中药制药过程控制领域的应用仍然较少,这可能有以下原因:1)拉曼光谱检测灵敏度较低,受荧光干扰严重。近年发展出的表面增强拉曼光谱(SERS)、针尖增强拉曼等,不但能削弱荧光物质的干扰,而且使检测限降低至10-18mol·L-1,能够完成痕量检测[24-25],这将拓展拉曼光谱在中药制药过程中的应用。例如,杨方等[26]采用SERS技术,以Au 膜-Ag 纳米颗粒为基底,采用785 nm 激光器为激发光源,避免了荧光的干扰,测定不同年份的陈皮煎剂。通过峰的归类发现,7 年及以上陈皮在808、884、1132、1212 cm-1多出4处拉曼峰,可以用来鉴别陈皮年份。2)中药制造企业内部网络无法支撑工业互联网场景下的海量数据实时传输和网络同步,亟须进行基础网络升级改造,提升网络传输带宽。5G 具备大带宽、低时延、海量连接的网络特性,能够提供端到端毫秒级时延和接近100%的高可靠性通信保障,满足工业大数据传输需求和即时处理需求。因此,随着5G技术的日益成熟,拉曼光谱技术在中药制药领域中的应用障碍将被扫清。拉曼光谱分析技术将为中药智能制造提供强有力的手段,为中药制药过程的智慧化奠定坚实的基础。

猜你喜欢

曼光谱拉曼矿物
贼都找不到的地方
煤泥水中煤与不同矿物相互作用的模拟研究
我国首列106节重载列车抵达济矿物流
基于单光子探测技术的拉曼光谱测量
基于NAIRS和PCA-SVM算法快速鉴别4种含铁矿物药
基于相干反斯托克斯拉曼散射的二维温度场扫描测量
BMSCs分化为NCs的拉曼光谱研究
便携式薄层色谱-拉曼光谱联用仪重大专项获批
苯的激光拉曼光谱研究
新型4H-3,1-苯并噁嗪类化合物的合成及拉曼光谱研究