APP下载

基于广义路径追踪算法建立桂枝茯苓胶囊和天舒胶囊中间体水分的近红外光谱通用定量模型

2023-11-27张永超徐芳芳李执栋李秀梅刘洪波王振中

中草药 2023年22期
关键词:中间体预处理光谱

张永超,徐芳芳*,李执栋,李秀梅,吴 云,刘洪波,王振中,张 欣*

基于广义路径追踪算法建立桂枝茯苓胶囊和天舒胶囊中间体水分的近红外光谱通用定量模型

张永超1, 2,徐芳芳1, 2*,李执栋1, 2,李秀梅2,吴 云1, 2,刘洪波1, 2,王振中1, 2,张 欣1, 2*

1. 中药制药过程控制与智能制造技术全国重点实验室,江苏 连云港 222001 2. 江苏康缘药业股份有限公司,江苏 连云港 222001

以桂枝茯苓胶囊(Guizhi Fuling Capsules,GFC)和天舒胶囊(Tianshu Capsule,TC)为研究对象,将近红外光谱(near-infrared spectroscopy,NIRS)技术与机器学习算法结合,建立快速检测2种制剂中间体水分的方法。采集GFC总混颗粒和TC总混颗粒的NIRS,考察不同的预处理方法、变量筛选方法及算法对模型的影响,筛选最佳建模条件,并对2种中间体建立1个水分NIRS通用定量模型。对同一中间体建立定量模型时,广义路径追踪(generalized path seeker,GPS)算法均优于偏最小二乘(partial least square,PLS)算法;GPS通用模型与PLS通用模型相比,预测性能更高,验证集相对偏差(relative standard errors of prediction,RSEP)由3.17%降至3.03%,性能偏差比(ratio of performance to deviation,RPD)由4.83升至5.05,可用于水分的预测,且与独立模型的预测性能相差不大。GPS算法结合NIRS技术建立的通用定量模型,可快速、准确地检测2种制剂中间体的水分。

桂枝茯苓胶囊;天舒胶囊;中间体;广义路径追踪算法;偏最小二乘算法;近红外光谱;机器学习算法;水分;通用模型;验证集相对偏差;性能偏差比

水分是中药制剂中间体质量评价的重要指标,中间体的水分含量会影响多种关键质量属性,例如流动性、溶化性和崩解时间等,最终会影响药物的稳定性[1-3]。常规水分检测方法存在检测时间长、分析效率低、样品被破坏等缺点,同一样品不能再次检测,数据可追溯性较差。

近红外光谱(near infrared spectroscopy,NIRS)主要由C-H、N-H、O-H和S-H等基团基频振动的倍频和合频组成。将NIRS与化学计量法结合,能够快速检测化学成分含量及物理性质指标,目前已实现了对制剂中间体的水分[4]、粒径[5]和成分含量[6]等关键质量属性的快速检测。但是,多数研究均是对1种中间体进行分析,最终只能实现快速检测1种中间体的相关指标。NIRS通用模型是指针对1个共有指标建立1个NIRS模型,可以分析2种或2种以上的样本,通用性强,稳健性更高,相比单一样本NIRS模型,能够节约更多成本。NIRS通用模型在食品和农产品检测中应用较多[7],在中药领域应用较少,仅有部分研究者针对不同的中药材建立了水分[8]、成分含量[9]等共有指标的通用模型,说明对不同样本建立通用模型具有一定的可行性。然而建立NIRS通用模型的算法较为单一,多数研究均基于常规的偏最小二乘(partial least square,PLS)算法建立模型,采用广义路径追踪(generalized path seeker,GPS)算法结合NIRS技术的应用未见报道。

GPS算法是一种高度多样化的正则化回归,是Jerome H. Friedman于2008年发明的,主要用于处理连续或二元数据,并产生若干路径的回归或逻辑回归模型,其性能优于多数其他类型的回归模型。本研究以桂枝茯苓胶囊(Guizhi Fuling Capsules,GFC)和天舒胶囊(Tianshu Capsule,TC)为研究对象,尝试将GPS算法与NIRS技术结合,建立一个快速检测2种中间体水分的通用模型。

1 仪器与材料

1.1 仪器

Antaris II型傅里叶近红外变换光谱仪,配有积分球漫反射采样系统、Result光谱采集软件,美国Thermo公司;XY-105MW型快速水分测定仪,常州市幸运电子设备有限公司;ME104E型电子天平,梅特勒-托利多仪器(上海)有限公司。

1.2 材料

63批桂枝茯苓胶囊总混颗粒(GFCKL),批号为220801~220817、220901~220914、221001、221002、221201~221211、230101~230108、230201~230211;60批天舒胶囊总混颗粒(TCKL),批号为220801~220811、220901~220908、221001~221006、221101~221112、230101~230110、230201~230213,均由江苏康缘药业股份有限公司提供。

2 方法与结果

2.1 NIRS采集

取6 g左右样品,置于配备的样品杯里,轻轻压实,采用积分球漫反射方式采集NIRS。扫描范围为10 000~4000 cm−1,分辨率为8 cm−1,2倍增益,扫描次数64次,以空气为背景,每小时扫描1次背景。每个样品扫描3次,平均值用于分析。

2.2 水分参考值测定

精密称取2.0 g待测样品,均匀平铺于水分测定仪样品盘上,在105 ℃下加热10 min,根据仪器读数即得。每个样品测量3次,平均值用于分析。

2.3 NIRS预处理方法

NIRS质量会受到各种因素影响,例如环境温湿度、仪器状态和颗粒粒度等,最终获得的NIRS会存在噪声信号、基线漂移等现象。为了消除无关信息,提高模型的稳健性,通常在建模前对NIRS进行合适的预处理。常见的预处理方法有矢量归一化法,标准正态变量变换法(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)、导数法(一阶求导、二阶求导)、卷积平滑法(Savitzky-Golay,S-G)、基线校正和去趋势法等。矢量归一化法能增强光谱差异,校正由光程或样品稀释等导致的光谱变化;MSC和SNV可以消除样品颗粒分布不均带来的干扰;导数法可以消除基线漂移和背景干扰;卷积平滑法能够有效去除噪声[10]。

2.4 GPS算法[11]

GPS算法以正态多元回归的形式建立高质量的线性模型,它利用广谱的弹性系数建立多个候选线性模型,初始模型没有预测变量,之后在每一步中添加1个新变量或者更新现有变量的1个系数,建立若干个步数不同的路径模型,并自动筛选最优线性模型,从速度和覆盖率2个方面显著提升正则化回归。其主要优势之一是能够有效处理具有大量预测因子和相对较少观测值的数据矩阵,并能很好地处理高度相关的预测因子。相对传统回归,GPS模型性能会更好、更稳定,能够应对大数据高纬度降维的挑战,但也有一些局限性,该算法不能自动发现非线性因素、预测因子之间的交互作用等。

不同于传统回归模型,GPS算法使用弹性惩罚函数族作为数学工具来实施不同的变量选择策略,弹性惩罚函数族是由弹性的实数参数来定义。弹性可以设置为0和2(包括0和2)之间的任何实数,并在数学上对得到的路径解施加具有不同稀疏度的变量选择策略。无论选择的弹性的实际值是多少,任何路径最终都将达到(至少在理论上)完整预测集合中的最优解,关键的区别在于路径如何到达该点,以及在各种变量中引入或调整系数的力度有多大。同时,由稀疏策略产生的路径可能由于路径迭代、调整率以及其他因素的限制而过早终止。本研究中GPS模型的弹性惩罚函数族设置为0.0、1.0、1.1、2.0,路径迭代参数设置为迭代速度为1,学习率为0.001,以均方误差(mean square error,MSE)为评价指标自动筛选最优系数路径模型。

2.5 数据处理与评价方法

采用Unscrambler 11.0(Camo Analytics AS,Norway)软件进行主成分分析(principal component analysis,PCA)、NIRS预处理及PLS模型建立,采用SPM 8.3(Salford Systems,USA)软件建立GPS模型。本研究以样本水分为因变量,以对应的NIRS值为自变量,分别采用PLS算法与GPS算法建立通用定量模型。以校正集相关系数(correction set correlation coefficient,cal)、验证集相关系数(verification set correlation coefficient,pre),校正均方根误差(root mean square errors of calibration,RMSEC)、交叉验证均方根误差(root mean square errors of cross validation,RMSECV),验证均方根误差(root mean square errors of prediction,RMSEP)、验证集相对偏差(relative standard errors of prediction,RSEP)和性能偏差比(ratio of performance to deviation,RPD)为指标评价模型性能。cal、pre越大,模型相关性越高,RMSEC和RMSECV越小且较接近时,校正模型性能越高;RMSEP较小、RPD较大时,模型预测性能较高;当RPD>3时,表示模型预测精度高[12]。本研究采用留一交叉验证法,以残余方差为评价指标确定PLS模型的主成分数[13]。本研究以交叉验证的MSE为评价指标确定最优路径的GPS模型。

2.6 NIRS差异性分析

对先收集的111个样品的NIRS进行PCA,前2个主成分可以解释90%的光谱信息,主成分得分图见图1。2种中间体分布较集中,没有明显聚集成2类,提示2种中间体的NIRS相似度较高,推测对NIRS相似度较高的中间体建立1个通用定量模型具有一定的可行性。

2.7 PLS算法建模

2.7.1 样本划分 对先收集的111个样品,包括57批GFCKL和54批TCKL,采用随机抽样法,按照4∶1划分校正集与验证集,划分结果见表1。验证集中参考值范围包含于校正集中,表明该划分较为合理。

2.7.2 光谱预处理方法的选择 中间体的原始NIRS见图2。由图2-B可知,2种中间体的NIRS较为相似,在5000 cm−1和7000 cm−1附近均有较强的信号吸收,与O-H的伸缩振动相符[14-15]。图2-C为不同水分样本的NIRS变化图,随着水分含量的增加,吸光度在5000~7000 cm−1呈现增长趋势。

图1 111批样品的主成分得分图

表1 样品校正集与验证集水分参考值范围

本研究考察了以下预处理方法:SNV、MSC、基线校正、归一化、去趋势、一阶求导结合SG平滑法(S-G 1st)、SNV+S-G 1st、MSC+S-G 1st和归一化+S-G 1st,不同预处理方法对模型性能的影响见表2。以RPD与RSEP为评价标准,综合其他指标优选最佳预处理方法。GFCKL模型中,采用归一化结合一阶求导SG平滑法预处理方法最佳,RPD为3.83,RSEP为3.14%;TCKL模型中,采用基线校正预处理后建模性能最佳,RPD为4.30,RSEP为3.33%;通用模型中,采用SNV预处理后模型性能最佳,RPD为4.83,RSEP为3.17%。

A-111个样品的原始NIRS B-2种中间体的平均光谱 C-不同水分样本的光谱图

表2 不同预处理方法对PLS模型的影响

续表2

2.7.3 特征变量筛选 筛选特征变量可以剔除无关信息,提高模型性能。本研究在上述筛选出的最佳预处理方法基础上进一步筛选特征变量。主要考察了以下变量筛选方法:间隔偏最小二乘法(interval PLS,iPLS),组合间隔偏最小二乘法(synergy interval PLS,siPLS)和移动窗口偏最小二乘法(moving window PLS,mwPLS)。

iPLS[16]是将全光谱划分成若干个子区间,然后在每个子区间进行建模。本研究是将光谱划分成20个区间,以RMSECV为评价指标,选出最佳光谱区间。siPLS[17]是将全光谱划分成若干个子区间后,再将子区间任意组合进行建模。本研究是将全光谱划分成20个区间,以组合数为4,以RMSECV为评价指标,选出最佳光谱区间。mwPLS[18]是从整个光谱的第1个波长点开始移动,沿波长变化方向截取选定窗口宽度的区间,建立一系列的PLS模型。本研究是以全波长的10%(155个波数)为窗口,以RMSECV为评价指标,选出最佳光谱区间。

本研究采用上述方法筛选变量后建模,结果见表3。GFCKL模型中,采用mwPLS法筛选变量后模型的性能提升最多,最佳建模区间为4 157.77~ 5 230.00 cm−1,在5170 cm−1处的强吸收峰是水分子伸缩振动和弯曲震动的组合频谱带,包含上述区间内;TCKL模型和通用模型,经不同方法筛选变量后,RSEP均变大,RPD均变小,模型预测性能均降低,最佳建模区间均为3 999.64~10 001.03 cm−1。

表3 不同变量筛选方法对PLS模型的影响

续表3

2.8 GPS算法建模

2.8.1 样本划分 方法和结果同“2.7.1”项。

2.8.2 光谱预处理方法的选择 考察不同的预处理方法对模型的影响,所用方法同“2.7.2”项,结果见表4。GFCKL模型中,MSC结合一阶求导SG平滑法预处理方法最佳,RPD为6.69,RSEP为1.80%;TCKL模型中,采用基线校正预处理光谱最佳,RPD为4.84,RSEP为2.96%;通用模型中,采用SNV结合一阶求导SG平滑法预处理光谱最佳,RPD为5.05,RSEP为3.03%。

2.8.3 特征变量筛选 基于上述筛选的最佳预处理方法,进一步筛选特征变量。按照变量重要性排序,通过软件自动剔除最不重要的变量,重新建模。以交叉验证的MSE和决定系数(coefficient of determination,2)为评价指标优选最佳模型,筛选变量过程见图3。GFCKL模型中,随着变量个数减少,2呈现增大趋势,MSE呈现减小趋势,当变量个数减少至11时,2达到最大值0.983,MSE最小为0.012,认为此时的模型最优;TCKL模型中,当变量个数减少至6时,2达到最大值0.949,MSE最小为0.033;通用模型中,当变量个数减少至22时,2达到最大值0.971,MSE为最小值0.021。

表4 不同预处理方法对GPS模型的影响

续表4

图3 变量筛选过程中模型性能变化趋势

由表5知,GFCKL模型和通用模型经变量筛选后,RSEP变大,RPD变小,模型预测性能降低,最佳建模区间均为3 999.64~10 001.03 cm−1;TCKL模型经变量筛选后,模型性能提升,因此,最佳建模波数为5 129.72、5 546.27、8 161.27、8 450.54、8 469.83、9 403.20 cm−1。在5170、5350 cm−1处的强吸收峰是水分子伸缩振动和弯曲震动的组合频谱带,筛选出的波数5 129.72、5 546.27 cm−1在此吸收峰附近;在8310 cm−1附近存在较弱的吸收峰,筛选出的波数8161.27、8 450.54、8 469.83 cm−1在此吸收峰附近。

2.9 PLS算法模型与GPS算法模型比较

分别采用2种算法建立的模型如表6所示。对同一中间体建立定量模型时,GPS算法模型均优于PLS算法模型,可能是因为GPS算法更擅长高纬度降维,面对较多维度的光谱数据更具有优势,认为GPS算法为最佳建模算法。

2.10 定量模型建立

采用上述筛选的最佳算法建立定量模型,结果见表7和图4。各模型的cal、pre接近于1,说明参考值与预测值相关性较高;RMSEC、RMSECV、RMSEP较小,RPD大于3,RSEP小于5%,说明独立模型和通用模型的预测性能均较高,均可用于预测水分。

2.11 外部验证

将后收集的12批样品作为外部验证样本导入GPS模型中,包括6批GFCKL和6批TCKL,预测中间体的水分,并与参考值进行比较,结果见表8。独立模型和通用模型的平均相对预测误差(average relative prediction error,ARPE)均小于5%,说明2种模型的预测准确性较高。同时,独立模型和通用模型对同一中间体的ARPE差值小于2%,说明2种模型预测性能相差较小,通用模型可以代替独立模型快速预测2种中间体水分。

表5 不同变量筛选方法对GPS模型的影响

表6 2种算法模型比较

表7 最佳GPS模型的评价参数

图4 参考值与预测值的相关性

3 讨论

本研究以GFC和TC为研究对象,考察了不同预处理方法和不同变量筛选方法对模型的影响,并采用GPS和PLS 2种算法建立了中间体水分的NIRS通用定量模型。结果表明:(1)GPS算法比PLS算法表现更优,对相同中间体建立模型时,GPS算法模型的预测性能更高;(2)采用GPS算法建立通用模型与独立模型时,2种模型预测性能相差较小,均可用于预测2种中间体的水分。

表8 独立模型与通用模型ARPE比较

对不同品种中间体能够成功建立通用模型,推测有以下原因:(1)本研究中2种制剂中间体的NIRS相似度较高,这可能是建立通用模型的前提条件;若再纳入更多制剂中间体再建模,能否可行还有待探索。(2)使用全光谱建模可能是关键,本研究中的2种算法模型,均是采用全光谱建模效果最佳。分析认为全光谱信息丰富,不会造成关键信息丢失,可能更利于通用模型的建立。(3)NIRS对水分子的吸收较为明显,一般在5000 cm−1和7000 cm−1附近存在较强的吸收峰,使得光谱信息包含较多的水分信息,因此,NIRS与水分的关联性较强,利于对不同含水量的样本建立通用模型。本研究中GPS算法模型均优于PLS算法模型,可能是因为GPS算法能够自动建立多个线性模型,且自动优选最佳模型,能更好应对高维度的光谱数据。由于本研究样本量较少,后续将纳入更多样本对2种算法再验证与比较。相比独立模型,通用模型在模型建立、维护、更新等方面等会节省较多成本。目前,在制药领域,近红外通用模型研究较少,通用的深层次机理还需要进一步探索。本研究首次尝试将GPS算法与NIRS技术结合,成功建立了快速检测2个不同品种中间体水分的通用模型,模型的准确性优于常用的PLS模型,提示在建模研究中,可以采用多种算法提高模型的预测性能,为NIRS技术在定量模型研究方面提供新思路。

利益冲突 所有作者均声明不存在利益冲突

[1] Faulhammer E, Llusa M, Radeke C,. The effects of material attributes on capsule fill weight and weight variability in dosator nozzle machines [J]., 2014, 471(1/2): 332-338.

[2] 汪盛华, 秦春娟, 安双凤, 等. 水提干法制粒的中药配方颗粒溶化性与粉体物理属性相关性研究 [J]. 中草药, 2023, 54(5): 1439-1448.

[3] 夏春燕, 徐冰, 徐芳芳, 等. 天舒片素片崩解时间实时放行检验研究 [J]. 中国中药杂志, 2020, 45(2): 250-258.

[4] 李民, 张春辉, 刘春兰, 等. 近红外光谱法测定骨龙胶囊中间体粉末中水分 [J]. 现代药物与临床, 2019, 34(8): 2280-2282.

[5] 张永超, 徐芳芳, 张欣, 等. 腰痹通胶囊4种中间体粒径的近红外光谱通用定量模型研究 [J]. 中草药, 2021, 52(1): 55-64.

[6] 宋侨, 胡俊杰, 白玉, 等. 马应龙麝香痔疮膏中间体中煅炉甘石与冰片近红外含量模型建立 [J]. 药学研究, 2020, 39(1): 16-21.

[7] 李明, 韩东海, 鲁丁强, 等. 近红外光谱通用模型在农产品及食品检测中的研究进展 [J]. 光谱学与光谱分析, 2022, 42(11): 3355-3360.

[8] 马卉, 冯雪静, 陈明, 等. 近红外光谱结合化学计量学快速测定蓝芩口服液原药材水分含量 [J]. 中国现代应用药学, 2021, 38(23): 2932-2939.

[9] 张丝雨. 基于近红外光谱技术的一清胶囊原药材质量控制研究 [D]. 杭州: 浙江大学, 2020.

[10] 褚小立, 袁洪福, 陆婉珍. 近红外分析中光谱预处理及波长选择方法进展与应用 [J]. 化学进展, 2004, 16(4): 528-542.

[11] Friedman J H. Fast sparse regression and classification [J]., 2012, 28(3): 722-738.

[12] 张娜, 徐冰, 贾帅芸, 等. 丹参提取过程多源信息融合建模方法研究 [J]. 中草药, 2018, 49(6): 1304-1310.

[13] 刘燕德, 黎丽莎, 李斌, 等. 多品种苹果可溶性固形物近红外无损检测通用模型研究 [J]. 华中农业大学学报: 自然科学版, 2022, 41(2): 237-244.

[14] Rantanen J, Antikainen O, Mannermaa J P,. Use of the near-infrared reflectance method for measurement of moisture content during granulation [J]., 2000, 5(2): 209-217.

[15] Ma L J, Peng Y F, Pei Y L,. Systematic discovery about NIR spectral assignment from chemical structural property to natural chemical compounds [J]., 2019, 9(1): 9503.

[16] 吴静珠, 石瑞杰, 陈岩, 等. 食用油油酸的近红外特征谱区优选 [J]. 中国粮油学报, 2015, 30(2): 118-121.

[17] 徐芳芳, 杜慧, 张欣, 等. 在线中红外光谱监测热毒宁注射液金银花与青蒿醇沉过程7种指标成分研究 [J]. 中草药, 2021, 52(10): 2909-2917.

[18] 刘秋安, 徐芳芳, 张欣, 等. 基于近红外光谱技术和分类与回归树算法建立天舒片崩解时间预测模型 [J]. 中草药, 2021, 52(16): 4837-4843.

Based on generalized path seeker algorithm to establish near infrared universal quantitative model of moisture content in intermediates of Guizhi Fuling Capsules and Tianshu Capsules

ZHANG Yong-chao1, 2, XU Fang-fang1, 2, LI Zhi-dong1, 2, LI Xiu-mei2, WU Yun1, 2, LIU Hong-bo1, 2, WANG Zhen-zhong1, 2, ZHANG Xin1, 2

1. National Key Laboratory on Technologies for Chinese Medicine Pharmaceutical Process Control and Intelligent Manufacture, Lianyungang 222001, China 2. Jangsu Kanion Pharmaceutical Co., Ltd., Lianyungang 222001, China

Taking Guizhi Fuling Capsules (GFC, 桂枝茯苓胶囊) and Tianshu Capsules (TC, 天舒胶囊) as research objects, a rapid method for detecting the moisture content of two preparation intermediates was established by combining near-infrared spectroscopy (NIRS) technology with machine learning algorithms.The NIRS of GFC total mixed particles and TC total mixed particles were collected. The effects of different preprocessing methods, variable screening methods and algorithms on the model were investigated. The optimal modeling conditions were selected to establish a universal NIRS quantitative model for moisture content of two intermediates.The generalized path seeker (GPS) algorithm was superior to the partial least squares (PLS) algorithm in establishing quantitative models for the same intermediate. Compared with the PLS universal model, the GPS universal model had higher predictive performance, with the relative standard errors of prediction (RSEP) decreasing from 3.17% to 3.03%, and the ratio of performance to deviation (RPD) increasing from 4.83 to 5.05. The GPS universal model could be used to predict the moisture content of intermediates, and there was little difference in prediction accuracy between GPS and that of the independent models.The universal quantitative model established by GPS algorithm combined with NIRS technology could quickly and accurately determine the moisture content of two preparation intermediates.

Guizhi Fuling Capsules; Tianshu Capsules; intermediate; generalized path seeker; partial least square; near infrared spectrum; machine learning algorithms; moisture; universal model; relative standard errors of prediction; ratio of performance to deviation

R283.6

A

0253 - 2670(2023)22 - 7436 - 09

10.7501/j.issn.0253-2670.2023.22.020

2023-04-06

连云港市重大技术攻关“揭榜挂帅”项目:中药口服固体制剂智能化连续制造关键技术研究(CGJBGS2101)

张永超,硕士,研究方向为中药制药过程新技术。E-mail: zyc020896@163.com

通信作者:徐芳芳,博士,研究方向为中药制药过程新技术。E-mail: 879164331@qq.com

张 欣,博士,研究方向为中药制药过程新技术。E-mail: zxtcm@126.com

[责任编辑 郑礼胜]

猜你喜欢

中间体预处理光谱
基于三维Saab变换的高光谱图像压缩方法
建立A注射液中间体中肉桂酸含量测定方法
激发态和瞬态中间体的光谱探测与调控
激发态和瞬态中间体的光谱探测与调控
基于预处理MUSIC算法的分布式阵列DOA估计
浅谈PLC在预处理生产线自动化改造中的应用
星载近红外高光谱CO2遥感进展
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法
苦味酸与牛血清蛋白相互作用的光谱研究