近红外光谱技术无损检测克咳片中麻黄类生物碱和吗啡含量研究
2024-04-23向超群陈启文李欣怡陈炜璇乔卫林
孙 鹏,向超群,陈启文,贾 彬,李欣怡,陈炜璇,乔卫林*,肖 雪*
(1.中山市中智药业集团有限公司,广东 中山 528437;2.山东中医药大学 中医药创新研究院,山东 济南 250355;3.广东药科大学 广东省代谢病中西医结合研究中心(中医药研究所),广东 广州 510006;4.广州中医药大学 第二附属医院,广东 广州 510006)
克咳片由麻黄、罂粟壳、甘草、苦杏仁、莱菔子、桔梗、石膏七味药组成,具有止咳、定喘、祛痰的功效,主要用于治疗咳嗽、喘急气短[1]。方中麻黄的主要活性成分为麻黄类生物碱,包括盐酸麻黄碱和盐酸伪麻黄碱,具有松弛平滑肌、收缩血管、抗炎、镇咳平喘等作用[2-3];罂粟壳主要含有吗啡、那可汀、罂粟碱等生物碱,具有降低咳嗽中枢的兴奋性、抑制咳嗽反射等作用[4-5]。《中华人民共和国药典》(下称《中国药典》)2020年版第一部中克咳片含量检测指标为麻黄中的盐酸麻黄碱和盐酸伪麻黄碱、罂粟壳中的吗啡[1]。传统的化学检测方法灵敏度高,但存在检测成本高、效率低、具有破坏性等不足,不能实现高通量快速检测,难以满足克咳片中麻黄类生物碱以及吗啡含量的大批量快速检测要求。因此,建立一种快速、无损且准确度高的检测方法是实现克咳片质量快速检测的关键。
近红外光谱(NIRS)因快速、无损、绿色、低成本等优点,在多个行业得到了广泛应用。NIRS通过观察待测物质内部各种氢键(X—H,如O—H、C—H、N—H 等)振动的倍频和合频吸收,以光谱信号的方式收集物质内部信息,进而对样品指标成分进行定性和定量分析,实现物质的快速检测[6-7]。偏最小二乘回归(PLSR)作为一种线性校正方法,可全波长参与多元校正模型的建立,适用于处理高维数据和多重共线性问题。PLSR通过特定波长选择方法筛选特征波长或波长区间,有望得到更好的定量校正模型[8]。
本文采用标准正态变量变换(SNV)、多元散射校正(MSC)、一阶解卷积导数(1stDec)、二阶解卷积导数(2ndDec)、归一化(Normalization)、平滑(SG)对光谱进行预处理,并利用PLSR 建立模型,以校正集决定系数(Rc2)、验证集决定系数(Rp2)和相对分析误差(RPD)为评价指标,基于竞争自适应重加权采样(CARS)、最小绝对收缩和选择算法(LASSO)、随机蛙跳(RF)3种变量选择方法进行模型优化。结果显示SNV 预处理结合CARS 变量选择方法的模型最稳定,预测效果最好。本文拟采用近红外光谱技术建立克咳片的快速定量分析模型,以期为实现其质量快检提供参考。
1 实验部分
1.1 仪器与材料
MPA Ⅱ型近红外光谱分析仪(德国Bruker 公司),配备积分球漫反射检测器。50 批克咳片(批号为20230122~20230205)由中山市中智药业集团有限公司提供。
1.2 近红外光谱的采集
实验前,将近红外光谱仪预热30 min,并进行质控检测以保证仪器运行稳定。光谱采集参数设置为吸光度,波长范围为11550~3950 cm-1,采用积分球漫反射方式直接测定原片。样品扫描时间为32 s,背景扫描时间为32 s,分辨率为16 cm-1,软件为OPUS 8.5。实验室温度25 ℃。将采集的140个光谱数据用于校正集,260个光谱数据用于外部验证。
1.3 含量测定
目标物含量参考《中国药典》2020年版一部中“克咳片含量测定”项测定。麻黄以盐酸麻黄碱和盐酸伪麻黄碱的总量计,罂粟壳以吗啡计。
1.4 定量模型的建立
采用PLSR建立克咳片质量标准中含量测定指标——麻黄类生物碱和吗啡的定量分析模型。首先利用蒙特卡罗交互验证(MCCV)剔除光谱中的异常值,然后用SPXY(Sample Set Partitioning based on Joint X-Y distance)方法划分两个指标的校正集和验证集,再对光谱进行预处理和变量选择。结合潜变量数(LVs)、R2和交叉验证均方根误差(RMSECV)、预测均方根误差(RMSEP)及RPD建立定量分析模型。
1.5 外部验证
比较麻黄类生物碱以及吗啡外部验证样品预测值与真实值之间的差异,并通过模型预测率[9](公式(1))以及预测值与真实值的关系判断模型对外部验证预测结果的准确性。
1.6 参数评价
通过决定系数(R2)、RMSECV、RMSEP 和RPD 对预测模型的性能和稳定性进行评价。R2用于评估样本预测值与真实值之间的相关程度,R2越接近1,表示预测值与真实值之间的相关程度越好;RMSECV 用于评估模型对校正集的预测能力,RMSECV 越小,表明模型的预测能力越强;RMSEP 用于评价模型对测试集的预测能力,RMSEP越小,表明模型的泛化能力越高;RPD 用于评价所建模型的稳定性,RPD越大,模型稳定性越好,通常RPD>3时,可用于实际应用。
1.7 数据处理
采用The Unscrambler X 10.4(挪威Camo Analytic 公司,Demo 版)软件对光谱数据进行预处理并建立PLSR 模型;采用Matlab 软件(R2022a,美国MathWorks 公司)对光谱数据进行MCCV、CARS、LASSO、RF处理,实现异常样本的筛选和变量选择;利用IBM SPSS Statistics 22对数据进行独立样本T检验;Origin Pro 2022b用于图形绘制。算法包使用libPLSR和PLSR-da-v.0.9.4[10]。
2 结果与讨论
2.1 含量测定结果
根据《中国药典》[1]2020年版检测方法,分别测得克咳片样品的麻黄类生物碱总含量和吗啡含量(见表1),两者均具有相对较大的含量范围。
表1 克咳片中麻黄类生物碱和吗啡的样本集划分结果Table 1 Sample set partition results of ephedrine alkaloids and morphine in Keke tablets
2.2 近红外光谱分析
克咳片的原始近红外光谱如图1A所示。图中的光谱高度重叠,难以区分目标成分的光谱信息。同时,近红外光谱在采集时,容易受到散射、背景、噪声等的影响。因此,建模前需要借助化学计量学方法对光谱数据进行分析。
图1 经不同方法预处理后克咳片的近红外光谱图Fig.1 NIR spectrograms of Keke tablets by different pretreatment methods
2.3 模型建立
2.3.1 数据集划分首先采集140 个光谱数据用于校正集,使用10 折交叉验证优化模型参数,通过算法剔除个别异常光谱后,麻黄类生物碱选择134个光谱数据用作校正集、内部验证;吗啡选择130个光谱数据作为校正集、内部验证,样本集划分结果见表1。为了更好地评估和检验模型效果,进一步采集260个光谱数据用于外部验证。
2.3.2 模型优化光谱除含有样品自身化学信息外,还包括其他无关信息和噪声,在建立模型时需要进行消除[11]。本实验通过对比None、SG、MSC、SNV、1stDec、2ndDec 对光谱的预处理效果(图1A~F),发现SNV预处理得到的模型最稳定,预测能力最好。这可能是因为SNV可消除固体颗粒大小、表面散射以及光程变化对NIRS漫反射光谱的影响[12]。有研究将光谱进行分段处理,对分段后的区间进行SNV处理,其效果优于对全谱进行SNV处理[13]。
CARS 是Liang 等[14]基于回归系数及达尔文进化论提出的一种波长点选择方法,具有速度快、预测精度高的特点,可有效选择与所测性质相关的最优波长组合。LASSO 是在线性回归的基础上,通过增加范式函数,将模型回归系数的绝对值约束在某一个设定的阈值,并最小化模型残差平方和,只保留与目标变量相关性高的解释变量以实现特征变量的筛选,可对全光谱区间进行特征筛选,有效降低数据维度[15]。RF法由Li等[16]提出并用于疾病的基因表达数据分析,可在变量不多的情况下,通过计算每个变量被选的概率评价变量的重要性。由于冗余信息会掩盖有效变量,导致光谱模型存在过拟合或欠拟合问题,增加模型的复杂性,降低其准确性。借助变量选择方法选择最佳波长范围,压缩光谱数据,有助于简化模型,减少计算量,提高模型质量。研究表明,对波长变量进行筛选,既可剔除无关变量,又可实现模型简化,提高模型的预测精度和稳健性[17]。本实验通过采用不同预处理方法结合不同的变量选择方法,选取最佳LVs,优化模型,结果如表2所示。结果显示SNV预处理方法结合CARS变量选择所得结果最佳。
表2 不同预处理方式结合不同变量选择方法的结果Table 2 Results of different pretreatment methods combined with different variables selection methods
麻黄类生物碱及吗啡的变量选择结果见表2。采用CARS法选择波数变量时,麻黄类生物碱主要位于11600~8000 cm-1、7000 cm-1以及4000 cm-1附近3个区域,吗啡主要位于11600~8000 cm-1、7000 cm-1以及5000~4000 cm-13个区域(图1D)。两者在11600~8000 cm-1范围筛选的波数变量较多,主要由C—H伸缩振动产生;7000 cm-1处的波数则主要由游离O—H键一倍频的伸缩振动产生;5000~4000 cm-1区域主要为C—H、—CH2、—CH3组合频的吸收[18-20]。克咳片中的麻黄类生物碱以及吗啡富含羟基、甲基、亚甲基、酚羟基等官能团,在空间结构中容易形成氢键。故CARS法所筛选的变量可反映指标成分相关的化学结构。
2.3.3 模型建立与内部验证结果经SNV+CARS 优选后建立的麻黄类生物碱及吗啡含量的PLSR 模型如表3及图2所示,两者的Rc2、Rp2、RMSECV、RMSEP、RPD值分别为0.91、0.93、0.1540、0.1164、4.00 和0.92、0.94、0.0249、0.0194、4.24。模型的RMSECV 和RMSEP 值相近且较低表明模型稳定,性能较好,未出现过拟合;Rc2和Rp2接近1,说明模型的线性关系良好;两者的RPD>3,说明模型的预测能力较好[21]。
表3 麻黄类生物碱以及吗啡的内部验证结果Table 3 Internal verification results of ephedrine alkaloids and morphine
2.4 外部验证结果
根据《中国药典》2020年版规定,克咳片中麻黄含量以盐酸麻黄碱和盐酸伪麻黄碱的总量计,不得少于2.5 mg;每片含有的罂粟壳以吗啡计,应为0.15~1.10 mg。对麻黄类生物碱和吗啡的真实值和预测值进行统计学检验,结果显示两者真实值与预测值无显著性差异(麻黄P=0.554,吗啡P=0.790)。其中麻黄类生物碱含量的预测率为83.26%~99.99%,吗啡含量的预测率为84.80%~99.96%,且预测结果均符合药典规定,见图3。结果表明预测值与真实值之间具有较好的相关性,说明所建立的PLSR 模型预测性能较好。
图3 克咳片中麻黄类生物碱(A)和吗啡(B)的预测值与真实值Fig.3 Predicted values and actual values of ephedrine alkaloids(A) and morphine(B) in Keke tablets
3 结 论
本研究参考药典方法测定了不同批次克咳片中的麻黄类生物碱以及吗啡含量,首次利用无损方式采集了不同批次克咳片的近红外光谱,经不同预处理、变量选择和LVs 选择后,麻黄类生物碱、吗啡含量两个模型的RPD 值分别为4.00、4.24,说明模型性能较好,具有较高的预测准确性,能够满足工业生产中快速且无损的检测要求,为克咳片的质量控制提供了一种新的方法。