基于SPA-PLS的秦皮提取液中秦皮甲素的快速测定
2011-05-26陈佳蕾余敏英史秀峰顾希钧钮慧珏
杨 铭, 陈佳蕾, 余敏英, 史秀峰, 顾希钧, 钮慧珏, 徐 嘉
(1.上海中医药大学附属龙华医院药剂科上海 200032;2.复旦大学附属肿瘤医院药剂科上海 200032)
美国FDA在2004年提出把过程分析技术(Process Analytical Technology,PAT)作为一个创新药品开发、生产和质量保证的重要手段[1]。据此,国内中医药学者[2-3]认为PAT技术能够实现中药生产的全过程质量控制,是提高中药产品质量,推进中药产业现代化发展的必由之路。而PAT技术的关键性问题是需要研发中药材和中成药产品快速分析技术,建立中药生产过程在线分析方法学,实现中药制药过程质量监测和优化控制。
光谱分析具有操作简单,成本低和样本处理量大的特点,可实现药品质量的快速分析,仍然是目前主要的药品快速分析方法。近年来,众多学者[4-5]应用了近红外光谱分析结合化学计量学,实现了部分中药制剂生产的过程分析的在线检测。近红外光谱技术是目前药品快速分析的普遍方法,其实,对于那些具有紫外吸收的中药,紫外(UV)光谱法同样也可以实现药品的快速分析[6-7]。
由于光谱信息量大,重叠严重,本试验为提高模型校正的速度与建模效率,提出使用连续投影算法(Successive Projections Algorithm,SPA)对紫外光谱进行特征波长的优选。SPA算法是一种新兴的光谱变量筛选方法,SPA能在光谱矩阵中寻找含有最低限度的冗余信息的变量组,使得变量之间的共线性达到最小,最大限度地降低模型的复杂度,并以其简单、快速的特点在红外光谱筛选中得到了一定的应用[8]。
秦皮具有清热燥湿,收涩,明目的功能。作为本院制剂秦冰滴眼液的主要原料药材,其质量将直接关系到制剂的质量。本试验采用连续投影算法结合偏最小二乘法(partial least squares,PLS)建立秦皮提取液中秦皮甲素的快速分析模型,从而为秦皮提取的过程分析提供有效的快速检测手段。
1 仪器、试剂及编程软件
日本岛津 LC-10Avp高效液相色谱仪,SPD-10Avp紫外检测器,CTO-10Avp柱温箱,Class-vp色谱工作站,Kromasil LAAI-KR006 C-18色谱柱(250 mm ×4.6 mm,5μm),日本岛津 UV-2450紫外分光光度计,Sartorius BS110S精密电子天平,SB2200超声仪(上海必能信超声仪器公司),TGL-16G台式高速离心机(上海医用分析器械厂)。
秦皮甲素对照品购自中国药品生物制品检定所(批号0740-200104),甲醇为色谱纯,水为纯净水,其他试剂均为分析纯。使用的软件为基于MATLAB的 Robust Calibration Toolbox(http://www.chemometria.us.edu.pl)。
2 药材及饮片
本实验所选用的12批秦皮均通过上海市食品药品检验所吴赵云教授鉴定,其来源见表1。
3 方法与结果
3.1 溶液的配置
3.1.1 HPLC 供试品溶液制备
精密称定秦皮药材粗粉4.0 g,置于具塞锥形瓶中,移取100 mL水,摇匀。超声提取,并于30 min取样,以后每隔10 min取一次样,总提取时间80 min。样液过滤,高速离心(5 000 r/min)10 min,取上清液经微孔滤膜(0.45 μm)过滤,作为供试品溶液。12批药材共得72个供试品溶液。
3.1.2 紫外(UV)光谱供试品溶液制备
表1 秦皮来源及批号Tab.1 Source of Fraxini Cortex
精密量取3.1.1项下所得各溶液0.1 mL于10 mL量瓶中,加水定容,摇匀即得。
3.1.3 对照品溶液制备
精密称定秦皮甲素对照品10 mg置于10 mL量瓶中,加甲醇定容,作为对照品母液。再精密量取秦皮甲素母液3 mL,至10 mL量瓶,用甲醇定容,摇匀,即得浓度为300μg/mL的秦皮甲素对照品溶液。
3.2 标准值测定
HPLC法测定秦皮提取液中秦皮甲素的色谱条件参见文献[9-10],并对该法进行了相应的方法学考察,结果方法精密度,重现性与稳定性(54 h内)RSD均小于3.0%(n=6),平均回收率为103.41%,RSD=1.46%(n=6)。以保留时间定性,峰面积定量,外标法计算。结果72个秦皮提取液样本秦皮甲素的质量浓度均值为3.095μg/mL,质量浓度范围1.260 ~5.517μg/mL。
3.3 样本紫外(UV)光谱采集
取3.1.2项下供试品溶液,以水为空白,在200~400 nm间,采样间隔为0.5 nm,测定各供试品溶液的吸收度,得到样本数×波长点数数据矩阵,即该矩阵大小为72×401。
3.4 异常值的发现与剔除
异常值对模型的拟合精度和预测精度都会产生相当大的影响,对于异常值的剔除,主要有基于统计的检测,基于距离的检测及基于偏离的检测[11],本试验采用基于距离测度的SCADA算法(Spss Clementine Anomaly Detection Algorithm,SCADA),该算法先根据相似性运用二阶聚类算法将样本进行归类,再依次计算各样本的类内距离及类间距离来确定异常指数,算法原理可参考文献[12],SCADA算法默认将异常指数大于2的样本确认为异常值。由于光谱变量间存在高度相关,因此本试验先对样本光谱数据进行主成分压缩后再进行SCADA检测。结果前2个主成分的累计方差贡献率大于90%,基本保留了样本信息,SCADA算法对主成分的投影空间进行分析发现1个异常样本(第54号),见图1。
图1 异常值检测结果Fig.1 Result of anomaly detection
3.5 校正集和预测集样本的划分
光谱分析的定量建模需要大量的样本,选择有代表性的校正集样品不但可以减少建模的工作量,而且直接影响所建模型的适用性和准确性。目前,比较常用的样本划分方法主要有随机法(RS),Kennard-Stone算法(KS)及双向算法(Duplex)等。本试验采用SPXY算法[13]对样本进行划分。SPXY算法是在KS算法基础上发展而来,通过计算各个样本自变量和因变量之间的欧氏距离,选择出样品集中最具有代表性的样品作为校正集。SPXY算法优点在于能够有效地覆盖多维向量空间,从而改善所建模型的预测能力。本试验应用SPXY算法对剔除了异常样本后的71个样本,按照5∶1的比例划分校正集和预测集样本,划分结果见表2。
表2 样本划分结果Tab.2 Result of selecting a representative subset by SPXY
3.6 基于SPA的特征波长筛选
SPA算法是一种前向循环选择方法,它从一个波长开始,每次循环计算它在未选入的波长上的投影,将投影向量最大的波长引入到波长组合,直到循环需要选出的波长数的次数。每一个新选入的波长都与前一个线性关系最小。SPA算法的具体步骤如下[8]。
①初始化n=1(第一次迭代),在光谱矩阵中任选一列向量xj,记为xk(0);
②集合 S 定义为:S={j,1≤j≤K,j∉{k(0),…,k(n-1)}},即还没有被选择进波长链的列向量,分别计算xj对S中向量的投影向量Pxj
③记录最大投影的序号:k(n)=arg(max‖pxj‖,j∈s);
④将最大投影作为下轮的投影向量:xj=Pxj,j∈s;
⑤n=n+1,如果小于总迭代次数,回到②继续投影;
本试验采用留一交互验证法所得的预测均方根误差(RMSE)来评价SPA中每一步所得到的波长组合,最小的RMSE对应的波长组合及波长数即是筛选结果。
SPA筛选结果见图2,共筛选到65个特征波长点,占总波长数的16.21%,留一法预测均方根误差RMSE=0.011 37。
图2 SPA特征波长筛选结果Fig.2 Selected wavelength by SPA
3.7 PLS潜变量数的选择
交互验证是确定模型参数的有效方法,本文采用蒙特卡罗交互验证法[13](Monte Carlo Cross-Validation,MCCV)确定PLS潜变量数。蒙特卡罗交互验证的基本思想以较多样本作为验证集为前提,随机地将样本分割为两部分,Sc(i)(校正集)和Sv(i)(验证集),每次都随机选出一定数量(n)的样本作为验证集,通过N次运算后,得到验证集样本的RMSECV来确定模型最佳潜变量数。其中yv分别为验证集样本的实测值与通过模型得到的预测值,k为模型的潜变量数,n为验证集样本数,N为迭代次数。因此只需确定n与N,所得到的最小的RMSECVmccv所对应的k,即是模型最佳的潜变量数。
本试验取6n=12,N=500,对k值1~30,进行MCCV运算。结果见图3,可见当k=9时,RMSECVmccv达到最小,所以模型确定的潜变量数为9。
图3 PLS潜变量数的选择
Fig.3 Number of factors selection by MCCV
3.8 SPA-PLS建模及与全谱模型的比较
以校正集样本(59个)UV光谱的65个特征波长为自变量,相应HPLC分析值为因变量,潜变量数为9个,进行 PLS建模,以模型拟合均方根误差(RMSEC)与模型拟合相关系数(RC)作为评估模型的拟合能力,以预测集样本(12个)的模型预测值与实测值的均方根误差(RMSEP)及相关系数(RP)作为评估模型的预测性能。
其中,m与n分别为校正集样本数与预测集样本数,y与y^分别为实测值与模型预测值或拟合值。与不做SPA波长筛选的全谱模型作比较,结果见表3。可见SPA-PLS法所建的模型的拟合性能与预测能力均略高于全谱PLS模型。SPA-PLS法对12个预测集样本的预报结果见表4,SPA-PLS预报的平均准确度达99.38%,RSD为2.47%,并对该方法进行了相应的精密度、重现性及稳定性(每12 h测定一次,共8次)考查,结果秦皮甲素、秦皮乙素及秦皮素的精密度、重现性的RSD(n=7)均小于3.0%,并在84 h内稳定,RSD<3.0%(n=8)。可见经SPA-PLS法建立的模型可以满足快速定量分析秦皮提取液中秦皮甲素量的要求。
表3 模型比较Tab.3 Comparison of different models
表4 SPA-PLS预报结果Tab.4 Result of prediction by SPA-PLS
4 结论
本实验运用SPA算法对UV光谱数据进行压缩,提取出特征波长,再运用PLS法建模,建立了秦皮提取液中秦皮甲素的快速定量分析模型。实验结果表明,SPA算法可以有效消除UV光谱数据的冗余信息,从而降低模型的复杂度,SPA-PLS模型的拟合能力及预测性能均略高于全谱PLS模型。据此,SPA-PLS结合UV光谱可以实现对UV有吸收的中药的快速分析,具有一定的应用推广价值。
5 讨论
5.1 提取时间的选择 曾对超声提取的时间做过考察,考察总时间达120 min,并每间隔10 min取样一次进行分析,结果秦皮甲素色谱峰的单位质量峰面积在80 min后趋于恒定,由此确定提取时间为80 min。
5.2 关于SPA算法 SPA算法是一种新兴的变量筛选方法,该算法虽然可以比较高效地筛选到特征波长,但是也具有一定的局限性。当波长点数远大于样本数时,由SPA算法得到的特征波长数不可能大于样本数,即SPA算法得到的特征波长数的上限就是样本数。如果SPA算法得到的特征波长等于样本数(上限),那么建议再采用其他的变量筛选技术(如遗传算法、模拟退火算法等)进行验证,以防漏选。
5.3 关于PLS潜变量数的选择 PLS潜变量数的选择通常有两种方法,一种是应用交互验证法进行筛选,一种是根据潜变量的贡献率进行筛选。交互验证法通常有留一法与n-折交叉验证。在样本量足够大的情况下,留一法的验证次数虽然很大,但是每次的验证样本数却只有一个。n-折交叉验证(通常n=10,即10折)虽然可以有1/n的验证样本数,但是验证的次数只有n。MCCV法通过指定验证集样本数及迭代次数,可以达到较大的验证样本数及较大的验证次数,从理论上说MCCV法是一种比较高效的交互验证方法。本试验曾按照贡献率法得到的潜变量数为5个(前5个累计贡献率达99%以上),其 RMSEC及 RMSEP分别为 0.3033与0.2420,可见其拟合能力及预测性能均低于本试验采用的MCCV法筛选的结果。
[1]U.S.Department of Health and Human Services Food and Drμg Administration.Guidance for Industry PAT.[EB/OL].2004.http://www.fda.gov/cvm/guidance/published.html.
[2]汤继亮.我国中药自动化工程项目在规划、设计和实施中的有关问题[J].中国医药工业杂志,2008,39(4):308-312.
[3]汤继亮,丁红星.谈我国医药工业自动化与信息化之路[J].医药工程设计,2007,28(1):1-44.
[4]杨辉华,王 勇,吴云鸣,等.丹参多酚酸盐柱层析过程的近红外光谱在线检测及质量控制[J].中成药,2008,30(3):409-412.
[5]王 静,莫必琪,李 斌,等.近红外光谱法预测红参醇提过程中总皂苷的变化研究[J].中草药,2007,38(9):1323-1326.
[6]赵明波,姜 勇,张洪全,等.大孔吸附树脂纯化贯叶金丝桃总黄酮的在线检测研究[J].中国中药杂志,2008,33(7):769-772.
[7]胡秀丽,游景艳,张寒琦,等.动态超声萃取分光光度法在线测定红花中的总红花黄色素[J].高等学校化学学报,2008,29(4):690-693.
[8]陈 斌,孟祥龙,王 豪.连续投影算法在近红外光谱校正模型优化中的应用[J].分析测试学报,2007,26(1):66-69.
[9]杨 铭,余敏英,史秀峰,等.BP神经网络结合遗传算法多目标优化秦皮提取工艺的研究[J].中国中药杂志,2008,33(22):2622-2626.
[10]杨 铭,周寅敏,陈佳蕾,等.遗传算法在秦皮提取液混批勾兑中的应用[J].中国中药杂志,2009,34(20):2594-2598.
[11]Han Jiawei,Kamber M,范 明,等译.数据挖掘:概念与技术[M].北京:机械工业出版,2005:254-259.
[12]SPSSInc.Anomaly Detection Algorithm.Clementine 11.0 Algorithms Guide[M].USA:Integral Solutions Limited,2006:15-20.
[13]展晓日,朱向荣,史新元,等.SPXY样本划分法及蒙特卡罗交叉验证结合近红外光谱用于橘叶中橙皮苷的含量测定[J].光谱学与光谱分析,2009,29(4):964-968.