基于吸光度的波长筛选方法用于近红外光谱定量模型的优化
2016-12-06梁瑜
梁 瑜
(95269部队83分队,广东广州,510000)
基于吸光度的波长筛选方法用于近红外光谱定量模型的优化
梁 瑜
(95269部队83分队,广东广州,510000)
建立一种基于吸光度的波长筛选方法,以近红外光谱测定中成药制剂的多糖含量为例,对模型优化效果进行验证。考虑模型稳定性,在计算机平台上搭建一种新的样本集划分框架,基于吸光度筛选出最优波段为400~1882 & 2072~2364 nm,建立偏最小二乘(PLS)模型得到的SEPAve、RP,Ave分别为27.13 mg L-1、0.856,与全扫描谱区(400~2498 nm)的PLS模型预测效果做比较。结果表明,基于吸光度的波长筛选方法,可以优选出高信噪比波长,从而提高了近红外光谱定量模型的性能。
近红外光谱;吸光度;波长筛选; PLS
0 引言
近红外(NIR)光谱主要反映含氢基团X-H(如C-H、N-H、O-H等)振动的倍频和合频吸收。由于其吸收强度弱,对大多数样品不需要预处理便可直接测量,在快速、在线和原位分析方面具有明显优势,成功应用于农业、食品、环境、石油化工、生物医学等领域。
无试剂快速测定方法在应用上具有明显的优势,但也是方法学的难点。因为直接测定多组分的复杂样品(如中成药制剂),需要克服很多干扰,必须借助计算机平台,运用有效的化学计量学方法,开发创新的高信噪比波长筛选方法,从而建立精确、有效的定量分析模型。
偏最小二乘(PLS)回归是一种有效的化学计量学方法,被广泛用于综合筛选光谱数据,提取信息变量和克服光谱共线性。然而,波长的筛选也是必要的,因为当波长组合的信噪比(SNR)不够高时,PLS模型的预测效果是很难提高的。
由于吸光度过大的波长对应了强烈的样品吸收和噪音干扰。因此,提出一种基于吸光度的波长筛选方法。该方法通过设定吸光度上限,将全扫描谱区的吸光度划分为若干区间。利用光谱波长与吸光度的对应关系,在每个吸光度区间上建立PLS定标预测模型。根据预测效果优选吸光度上限,从而得到高信噪比波长组合,达到光谱降维和信息波段提取的目的。
复合多糖是中成药制剂的主要活性成份。多糖含量的传统测定方法为比色法,需要复杂的前期处理,耗时长、消耗大量化学试剂。研究制剂多糖含量的快速、精确测定方法,对于生产过程中药物质量的控制具有重要的意义。
本文以近红外光谱测定中成药制剂的多糖含量为例,基于吸光度进行波长筛选,对模型优化效果进行验证。考虑模型稳定性,建立样品集划分新框架。即利用定标、预测集的多个不同划分,建立具有稳定性的PLS模型,得到客观、可靠的分析结果。
1 材料与方法
1.1实验材料、仪器和测量方法
收集到1286个中成药制剂样品。样品的多糖值采用高锰酸钾滴定法测定,作为光谱分析的参考值。测量仪器为UV2300紫外-可见分光光度计(上海天美公司)。多糖的实测值的统计分析参见表1。
光谱仪器为XDS型近红外光谱分析仪(福斯公司)。光谱扫描范围400~2498nm;波长间隔2nm;400~1100、1100~2498(nm)波段分别用Si、PbS探测器。透射附件为2 mm比色皿。每个样品测量三次,三次光谱均值用于光谱分析。实验温度、湿度分别为25℃ ± 1℃、45% ± 1RH。1286个制剂样品的近红外光谱如图1所示。
1.2样品集划分新框架
考虑模型稳定性,利用定标、预测集的多个不同划分,建立具有稳定性的PLS模型。
首先,从全体1286个样品中随机选取693个样品作为检验集,余下的840个样品作为建模集;建模集划分成相似的定标集(420个样品)和预测集(420个样品),总共进行100次划分,使得模型具有稳定性;最后,采用随机选取的检验样品对模型进行检验。样品划分过程参见图2。
1.3模型评价指标
对单个划分的模型评价指标有建模预测均方根偏差(SEPi)、建模预测相关系数(RP,i), i = 1, 2,……,100,计算公式如下:(2)(3)
其中, m为预测集样品的个数,Ck和分别是第k个预测集样品的化学值和预测值,和分别是预测集样品的化学值均值和预测值均值。
对整体模型的评价指标包括SEPi和RP,i的均值(M_SEPAve,M_RP,Ave)及标准差(M_SEPSD、M_RP,SD)。
1.4基于吸光度的波长筛选方法
本文提出一种通过移动吸光度上限筛选最优波段的方法,具体步骤如下:
第一步、在所测得的光谱波段中,根据测定对象的物理学、化学特性以及光谱仪器的性能,预先设置一个波长筛选范围Δ(它可以设置为全扫描谱区),同时确定该波长范围内样品平均光谱对应的吸收率最大值Amax和最小值Amin;设置适当的吸收率步长ε,将全吸光度范围(Amin, Amax)n等分,共有n+1个吸光度的节点;
第二步、从n+1个吸光度的节点中任意取一点最为吸光度上限,根据光谱数据的波长与吸光度的对应关系,在波长筛选范围Δ内,确定该吸收率上限Aupper所对应的波段;
第三步、按照上述步骤,穷举所有的吸光度上限,对每一个吸光度上限所对应的波段建立PLS定标预测模型,计算光谱预测值与实测值的SEPAve、SEPSD、RP,Ave、RP,SD;
第四步、找到SEP最小值所对应的吸光度,将其确定为最优吸光度上限,并进而找到该最优吸光度上限对应的波段,完成建模过程。
2 结果与讨论
2.1全扫描谱区与筛选波长的PLS模型比较
建立全扫描谱400~2498nm的PLS模型。预测效果汇总在表2中
基于吸光度的进行波长筛选。本文中,波长筛选范围Δ设置为1868~2498nm,该范围的吸光度最小值(Amin)和最大值(Amax)分别为0.90和4.63,如图2所示。设置吸收率步长ε为0.01, PLS因子个数F为。基于MATLAB7.6软件平台,实现上述算法程序。
每个起点波长、波长数局部最优模型的M_SEPAve值分布如图4所示。可观察到多糖的最优吸光度上限Aupper。
根据最优吸光度上限1.73筛选出的最优波段为400~1882&2072~2364(nm),对应PLS模型的M_SEPAve、M_ RP,Ave、M_SEPSD、M_RP,SD值汇总在表2中。结果表明,基于吸光度进行波长筛选,使定量模型的平均预测精度和稳定性均大幅度优于全扫描谱区PLS模型;所采用的波长个数减少,显著降低了模型复杂性。
2.2最优波长模型的检验
采用不参与建模的693个检验样品对优化后的定量模型进行检验。得到多糖值的检验预测均方根误差(SEP)为21.16 mg L-1;检验预测相关系数(RP)为0.908。693个检验样品的多糖预测值与实测值的比较参见图5。观察到光谱预测值与实测值的相关性、吻合性均良好。
3 结论
高信噪比波长筛选可以提高近红外光谱定量模型的分析精度、降低计算复杂度,对于模型优化具有重要意义。本文提出的基于吸光度的波长筛选方法,通过优选吸光度上限避免了由于高吸光度引入的噪声干扰。根据吸光度区间与光谱波长的对应关系实现波长筛选。本文以近红外光谱测定中成药制剂多糖为例,在一种稳定的样品集划分框架下运用该波长筛选方法,成功的对定量模型进行优化。
本文所建立算法和计算机程序框架也有望应用于其他的分析对象的定量模型优化。
表1 1286个中成药制剂样品多糖实测值(mg L-1)的统计分析
表2 全谱、最优AO-PLS波段PLS模型的建模效果
图1 1286个中成药制剂样品的近红外光谱
图2 样品集划分
图3 波长筛选范围中,波长和吸光度的关系示意图
图4 吸光度上限Aupper对应多糖值的局部最优模型的M_SEP:
图5 检验样品多糖值的预测值与实测值的比较
[1]严衍禄. 近红外光谱分析基础与应用[ M ].北京:中国轻工业出版社,2005 .
[2]Moron, A., Cozzolino, D. Application of near infrared reflectance spectroscopy for the analysis of organic C,total N and pH in soils of Uruguay.Journal of Near Infrared Spectroscopy,2002,10,215-221.
[3]杨莲芳,刘珍,复方制剂中多糖含量测定方法研究[J], 现代中医药, 2009, 29: 80~81.
Optimization of near infrared spectroscopy quantitative model based on absorbance wavelength selection method
Liang Yu
(83 troops, 95269 division, Guangdong Guangzhou,510000)
To establish a screening method based on the absorbance wavelength,the polysaccharide content of the Chinese traditional medicine determination of near infrared spectroscopy as an example,to verify the effect of optimization model.Considering the stability of the model,the computer platform to build a new framework to optimize the sample set,absorbance wavelength of 400 ~ 1882 and 2072 ~ 2364 nm based on the established partial least squares(PLS) model of SEPAve,RP and Ave were 27.13 mg,0.856 L-1,and full scan spectral region (400 ~ 2498 nm) PLS model to predict the effect comparison.The results show that the wavelength of the high signal to noise ratio can be optimized by the wavelength selection method based on the absorbance,which can improve the performance of the quantitative model of the near infrared spectrum.
near infrared spectroscopy;absorbance;wavelength selection;PLS