DOSC—SBC在近红外定量模型批次间传递中的应用
2017-07-13贾一飞张盈盈徐冰王安冬詹雪艳
贾一飞+张盈盈+徐冰+王安冬+詹雪艳
[摘要] 模型傳递可使特定条件下建立的近红外模型能够应用于新的样品状态、环境条件或仪器状态。正交信号回归是一类基于“光谱背景校正”的模型传递方法,利用虚拟标准光谱拟合主从批次光谱间的线性关系,将从批次光谱向主批次光谱映射,以实现近红外定量模型的传递,但该方法对虚拟光谱的代表性要求较高,回归过程中易出现较大偏差。因此,该文提出一种直接正交信号校正法(direct orthogonal signal correction,DOSC)联合斜率截距校正算法(slope and bias correction,SBC)(DOSC-SBC)的数据处理方法,针对近红外定量模型对不同批次样本制剂过程中目标成分含量预测准确度较差的问题,分析不同批次样本间因组分差异带来的光谱背景差异和模型预测误差的性质,通过DOSC消除与目标值无关的光谱背景差异,联合SBC算法对不同批次间样本批次间系统误差进行校正,实现近红外定量模型在不同批次间传递。该研究将DOSC-SBC应用于金银花水提和醇沉制剂过程中,模型对新批次样本的预测误差由32.3%,237%降低到7.30%,4.34%,预测准确度显著提高,实现了制剂过程中新批次样本目标成分的快速定量。DOSC-SBC模型传递方法实现了近红外定量模型在不同批次间传递,且该方法不需要标准样品,有利于促进近红外技术在中药制剂过程的应用,为中药生产过程中有效成分的实时监测提供参考。
[关键词] DOSC-SBC; 近红外定量分析; 模型传递; 中药质量控制
[Abstract] Near infrared model established under a certain condition can be applied to the new samples status, environmental conditions or instrument status through the model transfer. Spectral background correction and model update are two types of data process methods of NIR quantitative model transfer, and orthogonal signal regression (OSR) is a method based on spectra background correction, in which virtual standard spectra is used to fit a linear relation between master batches spectra and slave batches spectra, and map the slave batches spectra to the master batch spectra to realize the transfer of near infrared quantitative model. However, the above data processing method requires the represent activeness of the virtual standard spectra, otherwise the big error will occur in the process of regression. Therefore, direct orthogonal signal correction-slope and bias correction (DOSC-SBC) method was proposed in this paper to solve the problem of PLS model′s failure to predict accurately the content of target components in the formula of different batches, analyze the difference between the spectra background of the samples from different sources and the prediction error of PLS models. DOSC method was used to eliminate the difference of spectral background unrelated to target value, and after being combined with SBC method, the system errors between the different batches of samples were corrected to make the NIR quantitative model transferred between different batches. After DOSC-SBC method was used in the preparation process of water extraction and ethanol precipitation of Lonicerae Japonicae Flos in this paper, the prediction error of new batches of samples was decreased to 7.30% from 32.3% and to 4.34% from 237%, with significantly improved prediction accuracy, so that the target component in the new batch samples can be quickly quantified. DOSC-SBC model transfer method has realized the transfer of NIR quantitative model between different batches, and this method does not need the standard samples. It is helpful to promote the application of NIR technology in the preparation process of Chinese medicines, and provides references for real-time monitoring of effective components in the preparation process of Chinese medicines.
[Key words] direct orthogonal signal correction-slope and bias correction (DOSC-SBC); NIR quantitative model; model transfer; quality control of traditional Chinese medicine
红外光谱技术因其快速、环保、无损等优势已被广泛应用于医药、食品、农业等领域。近红外定量模型是将光谱数据与被测量进行关联并建立两者之间的关系。但在特定条件下建立的定量模型,对于来自不同仪器、不同来源或者不同环境下的样本,其预测准确度可能会下降,出现模型“失效”的问题,而对不同仪器、环境、来源的样本分别建模,则会消耗大量的人力物力。因此,需要对在特定条件下建立的模型进行模型传递以提高模型的稳健性和包容性。
模型传递是通过一定数量的传递样本,在不同的样本状态、环境条件或仪器状态下,用数学方法在检测信号之间寻求一种变换关系,来增强光谱数据间的通用性和可比性。模型传递可使特定条件下建立的模型能够应用于新的样品状态、环境条件或仪器状态。目前,国内外主要从基于“预测值校正”和 “光谱背景校正”2种思想开展近红外定量模型传递方法的研究。基于“预测值校正”通常采用斜率截距校正算法(slope and bias correction,SBC)[1]来建立主从仪器光谱预测值间的线性关系,利用该线性关系实现新样本预测值的校正。基于“光谱背景校正”的模型传递方法有直接校正法(direct standardization,DS) [2]、分段直接校正法(piecewise direct standardization,PDS)[3]、正交信号校正法(orthogonal signal correction,OSC)[4]、直接正交信号校正法(direct orthogonal signal correction,DOSC)[5]以及正交信号回归(orthogonal signal regression,OSR)[7]等。其中,DS和PDS法针对同一样本不同测量条件下的光谱变异进行校正,常用于不同仪器间的模型传递,但没有考虑待测量的特征,难以在校正无关干扰信息的同时不损失与待测量有关的光谱信息,而正交信号校正法(OSC)、直接正交信号校正法(DOSC)将光谱正交分解后,仅去除与待测量无关(即正交)的光谱信息,能很好地校正光谱中其他组分、温度、时间、仪器等因素变动带来的光谱背景的影响[6],OSR是利用DOSC光谱预处理后,利用主从批次的虚拟标准光谱拟合主从批次的光谱间的线性关系,完成从批次光谱向主批次光谱的映射,实现近红外定量模型批次间的传递[7],但是该方法对主批次和从批次虚拟光谱的代表性要求较高,回归过程中容易出现大的偏差。如果主从批次光谱间存在线性关系,主从批次的预测值间也线性相关,可以利用SBC算法对从批次预测值校正,实现近红外定量模型在主从批次间的传递。
不同批次样本制剂过程因为原料、工艺的波动,不同批次的原药材制剂过程中样本内组分群的差异,造成近红外光谱背景差异和定量模型的较大预测误差,导致PLS线性模型预测 “失效”。本文对不同批次样本间因组分差异带来的光谱背景差异和PLS线性模型预测误差的性质进行分析,提出DOSC联合SBC的模型传递方法,通过DOSC减小不同批次样本的光谱背景差异,联合SBC算法对不同批次间样本预测的系统误差进行校正,实现近红外定量模型在不同批次样本间的传递。
1 材料
1.1 仪器
Waters 1525高效液相色谱仪(美国Waters公司),Breeze2 HPLC色谱工作站,Waters 2998二级管阵列检测器,Waters 2707自动进样器,Waters 038040柱溫箱。XDS PROCESS ANALYZER 近红外光谱仪(Foss公司),夹套式100 L多功能提取罐(天津市隆业中药设备有限公司)。
1.2 试剂
绿原酸对照品(上海源叶生物科技有限公司);磷酸(分析纯,北京化工厂);乙腈[色谱纯,赛默飞世尔科技(中国)有限公司];乙醇(北京化工厂);水为去离子水。
1.3 药材
金银花药材(批次Ⅰ、批次Ⅱ购于安国长安中药材有限公司;批次Ⅲ、批次Ⅳ购于安国云天中药行;批次Ⅴ购于安国永益中药材有限公司)。
2 方法
2.1 数据来源
2.1.1 金银花水提液的数据 金银花提取液中绿原酸含量按照《中国药典》(2015 年版)金银花药材项下规定的方法进行测定[8]。金银花药材投料量为 6 kg,一煎加水12倍,加热回流提取1 h,并于提取前浸泡30 min。二煎加水10 倍,加热回流提取1 h。浸泡及一煎过程 3 min采样10 mL;二煎过程每4 min采样10 mL。利用Foss公司的XDS PROCESS ANALYZER在线采集中试金银花水提液样品NIR透射光谱,光程2 mm,光谱范围12 500~5 263 cm-1,扫描次数32次,分辨率7.8 cm-1,实验采用空气作为参比,每个样品平行采集 3 次。
本实验采用购自安国长安中药材有限公司的金银花制备中试水提样本批次Ⅰ和Ⅱ,采用购自安国云天中药行的金银花制备中试水提样本批次Ⅲ,用3个批次的66个样本作为建模样本,以K-S法选择42个代表性的样本建模,剩下的24个作为内部预测集。以购自安国永益中药材有限公司的金银花水提样本批次Ⅳ的19个样本作为外部预测集,各数据集对应的绿原酸浓度分布见表1。
2.1.2 金银花醇沉液的数据 取一定量的金银花药材,加水煎煮2次,一煎加水15 倍,二煎10倍,每次 0.5 h。合并提取液,滤过,浓缩密度至1.10。3 000 mL烧杯中取400 mL浓缩液,在500 r·min-1的转速下,以75 mL·min-1速度加入95%乙醇,不同批次加入不同量的乙醇。乙醇加入完毕后继续搅拌30 min。每隔30 s取样1.5 mL,9 000 r·min-1离心10 min,取上清液分别测量NIR光谱和参考值。利用Thermo Nicolet Antaris FT-NIR Analyzer 室温下采集透射光谱,光程8 mm,分辨率为4 cm-1,扫描范围1万~4 000 cm -1,扫描次数16 次,增益为4,每个样品平行采集3 次。
本研究采用5批醇沉液(批次Ⅰ~Ⅴ)进行过程定量分析。前3批(批次Ⅰ~Ⅲ)用K-S的方法筛选出120个样本作为初始校正集,剩余60个样本作为内部测试集,批次Ⅳ和Ⅴ的110个样本作为外部测试集,各数据集对应的绿原酸浓度分布见表2。
2.2 数据处理
数据处理均在Unscrambler数据分析软件(version 9.7挪威CAMO软件公司)和MATLAB软件(version7.0,美国Math Works公司)上完成。
2.3 直接信号校正(DOSC)算法
DOSC算法是在OSC算法的基础上提出的一种改进算法[5],其作为一种光谱预处理方法,是将光谱矩阵(X)与浓度矩阵(Y)正交,将正交后与Y无关的信号滤过,保留与目标值Y相关的光谱信息,并基于以上光谱信息建立定量分析模型。该方法的实现过程简介如下。
求建模集浓度(Ym)在光谱矩阵(Xm)所张开的空间中的投影Ypj,Ypj=XmXm+Ym(Xm+代表X的广义逆);计算Xm在Ypj正交补空间的投影Xpj,Xpj=(1-YpjYpj+)Xm;对XpjXpj′进行主成分提取,取前几个主成分得到得分矩阵T,[T,D]=SVD(XpjXpj′);计算权重矩阵W,W=Xm+T;重新计算得分矩阵,Tnew=XmW;计算载荷矩阵P,P=XmTnew/(T′newTnew);去除正交信号后,可得新的光谱矩阵,Xnew=Xm-TnewP′=Xm-XmWP′=Xm(E-WP′);由DOSC方法可知,对于待转移的光谱数据Xtest,根据载荷矩阵P及权重矩阵W即可求出校正后的光谱,XDOSCtest=Xtest-XtestWP′=Xtest(E-WP′)。
从上可以看出该算法是将原光谱Xm经过矩阵(E-WP′)投影到一个由建模集光谱X和浓度Y确立的空间中,光谱X在此空间中只保留了与Y相关的部分,与Y无关的部分被过滤,因此消除了光谱中与目标值Y无关的背景信息造成的偶然误差。通常利用DOSC算法光谱预处理后所建PLS模型能够取得比未经过光谱预处理更好的结果。
但是经过映射后,光谱本身可能存在的系统误差也同时被映射到同一个空间中,故DOSC可能会将原本系统误差放大,因此需要能消除系统误差的算法来弥补本方法的不足。
2.4 SBC算法
SBC算法是一種常用的模型传递方法,通过对模型斜率和截距的调整,使待转移样本与建模样本的预测结果相近。
假设原线性校正模型的参数为[β,b],其中β为系数矩阵,b为偏差,主批次光谱X1,从批次光谱X2,这2条光谱对应同一个参考值Y,X2对应的原模型预测值为Y2,X1与X2存在一定的线性关系[20],可写作X1=kX2+L(其中k为斜率,L为截距);由于所见模型是适合于主批次的,故Y=βX1+b;合并二式可得Y=β(kX2+L)+b;又因Y2为X2的预测值,故Y2=βX2+b;由此可以得到Y与Y2的关系:Y=kY2+(L×Σβ+b-kb)。
因k,L以及模型[β,b]为常数,可知Y与Y2之间存在线性关系,可利用少量从批次光谱的原模型预测值和参考值拟合得到式中k和L×Σβ+b-kb。
2.5 DOSC-SBC算法简介
DOSC-SBC模型传递方法先利用DOSC算法来消除不同批次样本间由不确定的光谱背景差异造成的偶然误差,然后利用SBC算法消除不同批次光谱间存在的系统误差,具体实现步骤见图1。
首先采用DOSC处理后的模型光谱X1建立PLS模型,然后用所得模型对从批次代表性样本X2,即转移样本进行预测,将其预测值Y2t与参考值Y2进行线性回归,建立近红外定量模型对新批次样本预测值与参考值间的线性关系Y2 = slope×Y2t+ bias,基于该线性关系将原模型对从批次样本集X3预测值进行回归校正,完成模型传递,得到从批次待转移光谱经过DOSC-SBC模型传递后的预测值Y3′。
DOSC联合 SBC模型传递方法适用于不同批次样本制剂过程的光谱背景同时存在不确定偶然误差和较大系统误差的情况,如果不存在系统误差,使用本方法可能会出现过拟合的现象。
3 结果与讨论
3.1 误差分析
3.1.1 金银花水提过程光谱误差分析 对金银花水提过程中水提液光谱与绿原酸浓度进行相关性分析,8 500~7 300 cm-1波段与绿原酸含量的预测密切相关,该波段所建的绿原酸定量模型预测性能最佳,因此选取光谱中该波段的光谱数据进行分析,分析同批次和不同批次样本光谱的误差来源,见图2。
图2中的a图中同一批次金银花水提液样本2条光谱基本重合,c图分别以2光谱的吸光度A作横轴和纵轴,2条光谱A基本落在y=x(对应的空心圆散点连线)这一直线上,偏离较小,且A偏离不具有单向性,这些小的偏离可以看作平行测量间的偶然误差。b图中不同批次金银花水提液样本光谱可以看出在7 800~7 300 cm-1发生了较大偏离,d图中这2条光谱的A作横轴和纵轴,线性关系较为明显,但2条光谱A偏离y=x(对应的空心圆散点连线)这一直线较大,可以看出不同批次的样本光谱A的偏离除了测量的偶然误差外,还存在较大的不同批次金银花的组分差异造成的光谱背景差异。
3.1.2 金银花醇沉过程光谱误差分析 金银花醇沉液光谱中8 500~7 300 cm-1波段所建的绿原酸定量模型预测性能最佳,因此选取光谱中该波段的光谱数据进行分析,分析同批次和不同批次样本光谱的误差来源,见图3。图3 a图中相同绿原酸浓度同一批次的金银花醇沉样本2条光谱基本重合,c图以绿原酸浓度为4.462 g·L-1的同批次2条光谱吸光度分别作为横纵坐标作散点图,其值基本落于y=x(对应的空心圆散点连线)直线上,有较小偏离且上下波动不具有单向性,这些可以看作平行测量之间的偶然误差;b图中,不同批次之间2条相同浓度的光谱在7 400~7 300 cm-1波段基本重合,然而在8 500~7 400 cm-1波段偏离较为明显;d图中绿原酸浓度为2.235 g·L-1不同批次2条光谱吸光度关系图中,线性关系较为明显,但所作散点均位于y=x(对应的空心圆散点连线)以下,偏离较大,且偏向性明显,说明不同批次的光谱之间除了偶然误差之外,还存在由于不同批次而造成的较大系统误差。
3.2 结果分析
为了对比DOSC与DOSC-SBC进行光谱数据处理的效果,本实验用来自同批次样本的内部和来自不同批次样本的外部验证集的RPD与RSEP 2个指标衡量预测效果。验证集中各样本模型预测值和化学测量值相关系数Rp和RPD越大,RSEP越小,说明预测效果越好。不同光谱预处理下金银花水提过程和醇沉过程近红外光谱近红外模型的预测结果见表3,4。
表3中以3个批次金银花水提过程的样本光谱直接建模,校正集预测相对误差为8.36%,选择与校正集相同一批次金银花重复制剂,该过程中水提液样本绿原酸含量预测相对误差为4.99%,误差较小,符合快速含量预测的要求,但是对于不同批次金银花在相同条件下水提样本绿原酸含量预测的相对误差达32.3%,预测误差过大,不能用于新批次金银花制剂过程中绿原酸含量的预测。
DOSC 光谱预处理后,校正集的预测相对误差由8.36%下降到4.55%,校正集预测准确度提高;内部验证集的相对误差由4.99%变为8.08%,虽略有升高但仍符合快速含量测定的要求;外部验证集的RSEP由32.3%降低到21.9%,预测相对误差有所降低,但还未控制在10%以内,预测误差过大,不能用于新批次制剂过程的预测。以上数据表明DOSC有一定的光谱背景校正效果,但还不能消除不同批次样本间的所有误差,仅仅起到了消除背景误差的作用。
利用SBC算法对外部验证集的预测结果进行校正,预测相对误差由32.3%下降到7.5%,表明SBC能够显著消除不同批次样本光谱间的系统误差。
对校正集进行DOSC光谱预处理并联合SBC算法对不同批次的外部测试集进行校正,原模型对外部验证集RSEP由32.3%降低到7.3%,RPD由1.17提高到5.19,与仅使用DOSC或SBC一种方法相比,预测准确度均得到提高,表明DOSC-SBC能够较好的校正和消除不同批次样本的光谱差异,实现金银花水提过程中不同批次间的模型传递。
表4以金银花醇沉液光谱中的8 500~7 300 cm-1波段直接建模,校正集预测相对误差为7.45%,内部验证集中同批次金银花醇沉过程绿原酸含量预测相对误差为9.64%,误差较小,符合快速含量预测的要求,但对外部验证集不同批次样本预测的相对误差达到237%,预测误差过大,模型不能用于新批次金银花醇沉过程中绿原酸含量的预测。
对光谱进行DOSC光谱预处理后,校正集相对预测误差由7.45%减小至4.43%,内部测试集相对预测误差由9.64%减小至8.16%,表明DOSC算法消除光谱中与绿原酸含量无关的光谱背景差异,但模型对外部验证集中不同批次样本的预测相对误差很大,对外部测试集的预测值进行SBC校正后,预测相对误差降低到5.25%,表明SBC校正能夠显著消除批次间的系统误差。
对金银花醇沉液进行DOSC光谱预处理,并联合SBC算法对新批次样本的外部测试集进行校正,RSEP由237%降低到4.34%,RPD由0.125提高到6.80,预测结果优于仅使用DOSC或SBC一种方法的结果,表明DOSC算法消除与目标值无关的光谱背景差异后,再采用SBC方法校正批次间的系统误差,进一步减小模型的预测误差,DOSC-SBC校正对于批次间的模型传递起到了更为显著的校正效果。
4 结论
本文将DOSC光谱预处理方法与SBC斜率截距校正法相结合,用于金银花水提和醇沉制剂过程中不同批次间的模型传递,对新批次金银花水提和醇沉制剂过程样本的预测误差分别由28.7%降低到8.33%以及由237%降低到4.34%。2组金银花制剂过程中的数据处理结果表明,DOSC-SBC方法能够有效消除金银花水提或醇沉过程中批次间的差异,实现制剂过程近红外定量模型批次间的传递和制剂过程新批次样本目标成分的快速定量。本方法通过DOSC消除与目标值无关的光谱背景批次间的小差异,然后通过SBC校正批次间系统误差,从而实现近红外定量模型批次间的传递。但本方法仍然存在一定的局限性:首先本方法适用于批次间光谱本身确实存在系统误差,如果只存在平行测量的偶然误差,可以仅用DOSC来减小。其次,原模型的预测值与样本的参考值之间存在一定的线性关系,才能利用SBC校正的预测误差满足快速定量的要求。本研究提出了一种新的数据处理策略,实现中药制剂过程中近红外定量模型在不同批次间的传递。此外,本方法的实现不需要标准样品,便于在实际制剂过程的应用,为进一步促进中药中试乃至大规模生产过程中有效成分的实时监测和质量控制提供参考方法。
[参考文献]
[1] Bouveresse E, Hartmann C,Massart D, et al. Standardization of near-infrared spectrometric instruments [J]. Anal Chem, 1996,68(6):982.
[2] 李庆波,张广军,徐可欣,等. DS算法在近红外光谱多元校正模型传递中的应用 [J].光谱学与光谱分析,2007,27(5):43.
[3] Wang Y,Veltkamp D, Kowalski B. Multivariate instrument standardization[J]. Anal Chem,1991,63(23):2750.
[4] Wold S,Antti H,Lindgren F,et al. Orthogonal signal correction of near-infrared spectra [J]. Chemom Intell Lab Syst,1998,44(1): 175.
[5] Westerhuis J A, de Jong S, Smilde A K. Direct orthogonal signal correction [J]. Chemom Intell Lab Syst,2001,56:13.
[6] Soldado A, Fearn T,Martinez-Fernandez A,et al . The transfer of NIR calibrations for undried grass silage from the laboratory to on-site instruments: comparison of two approaches [J]. Talanta,2013,105(1):8.
[7] Lin Z Z, Xu B,Yang L,et al. Application of orthogonal space regression to calibration transfer without standards [J]. J Chemometrics,2013,11(27):406.
[8] 中國药典. 一部[S]. 2015:221.
[责任编辑 孔晶晶]