基于支持向量回归的女贞子中齐墩果酸的快速测定方法
2015-03-16段凌瑶李芸玲高慧玲邓绍新侯振雨
段凌瑶,李芸玲,高慧玲,邓绍新,侯振雨
(河南科技学院,河南新乡,453003)
基于支持向量回归的女贞子中齐墩果酸的快速测定方法
段凌瑶,李芸玲,高慧玲,邓绍新,侯振雨
(河南科技学院,河南新乡,453003)
采用数据平滑和连续小波变换(CWT)的方法,对女贞子样品的近红外光谱数据(NIR)进行处理,建立了基于支持向量回归(SVR)和NIR快速测定齐墩果酸含量的方法.该方法用于测定女贞子样品中齐墩果酸的含量,与紫外光谱法测得的数据相比,回收率为95.54%~104.2%.
女贞子;齐墩果酸;近红外光谱(NIR);支持向量回归(SVR)
女贞子为木犀科植物女贞的成熟果实,具有滋补肝肾、明目乌发的功能[1].齐墩果酸是女贞子的有效成分(分子式为C30H48O3),其主要分析方法有高效液相色谱法(HPLC)、薄层色谱法(TLC)、紫外光谱法(UV)、气相色谱法(GC)和毛细管胶束电动色谱层析法(MECC)等[2-6].这些方法的共同缺点是分析速度较慢,不能对女贞子的齐墩果酸含量进行快速测定.本文中采用的近红外光谱技术(near infrared spectra,简称NIR)正好弥补了这一缺点,可以实现复杂样品的快速分析.因此,将近红外光谱技术用于女贞子样品有效成分的快速测定,对女贞子样品的进一步开发利用具有重要意义.
支持向量机(SVM)是一种通过结构风险最小化原理来提高泛化能力的新型机器学习算法[7],在小样本、非线性和高维数等实际问题方面得到广泛的应用[8].在SVM方法中引入不敏感损失函数后,SVM也可用来解决非线性的回归和函数逼近问题,即支持向量回归方法(SVR).该方法在复杂体系多组分的同时测定方面得到了一定的应用[8-9].将SVR方法用于建立测量女贞子样品中齐墩果酸含量的校正模型,对女贞子样品有效成分的快速测定具有很好的指导作用.
实验采用数据平滑和连续小波变换(CWT)[9]等方法对女贞子样品的NIR数据进行处理,建立了基于NIR技术测定女贞子中齐墩果酸含量的CWT-SVR回归模型.结果表明CWT-SVR模型优于SVR模型,可实现对女贞子样品中齐墩果酸含量的快速测定.
1 实验部分
1.1 仪器与样品
仪器:紫外可见分光光度计(北京普析通用仪器有限责任公司TU-1950);近红外分析仪(FOSS分析仪器公司NIRsystem).
样品:58个不同采摘地的女贞子样品,采取广泛取样的原则,样品分别来自河南科技学院校内、新乡市周边以及网购的云南丽江、安徽亳州等地的样品.
1.2 实验方法
1.2.1 工作曲线的绘制 准确称量0.005 00 g齐墩果酸标准品,用适量甲醇溶解后定容至100 mL.准确量取6.0 mL、8.0 mL、10.0 mL、12.0 mL、14.0 mL标准溶液分别置于25 mL容量瓶定容至刻度线,充分摇匀后以甲醇为空白,于紫外可见分光光度计 209 nm处测量溶液的吸光度,其回归方程为 A= 0.015 4C-0.009 8,R2=0.999 1.
1.2.2 女贞子样品的处理及齐墩果酸含量的测定 挑选不同采摘地点的女贞子样品58个,晾干后去除表层,洗涤后于65℃烘干12 h,粉碎至粉末状,装袋密封保存.
准确称量女贞子样品1.000 g,以滤纸包裹置于索氏提取器中,准确量取100 mL甲醇,加入适当甲醇没过滤纸,其余甲醇加入烧瓶,两部分甲醇比例约为1∶3.将索氏提取器与烧瓶、冷凝管连接,确保不漏气.将整套仪器置于水浴锅上90℃恒温加热回流3 h.提取完成后,收集所有溶剂于烧瓶中,并连接至旋转蒸发仪于80℃减压蒸馏,待近乎蒸干溶剂时取下烧瓶,冷却至室温后加入甲醇定容至25 mL.取1 mL样品加入100 mL容量瓶定容,充分振荡摇匀后静置.按工作曲线所用方法测定其吸光度并计算含量.结果表明,58个女贞子样品含齐墩果酸量在56~98 mg/g之间,说明不同采摘地点的齐墩果酸含量存在较大的差异.
1.2.3 女贞子样品的NIR光谱测定 取适量女贞子粉末置于样品盒内并压实,在波长400~2 500 nm范围内,间隔2 nm对样品进行NIR测定.
1.2.4 SVR模型校正集的选择 基于SVR模型的ε-不敏感二次损失函数和径向基核函数,采用留一交叉验证法对58个样品的奇异点进行检验,删除了5个奇异样本,保留了53个样本.将53个样本随机分为校正集(45个)和预测集(8个).所用模型在优化过程中均以预测结果的均方根误差(RMSEP)最小作为评价标准.
2 结果与分析
2.1 NIR数据的平滑对SVR模型的影响
在对样品进行NIR测定时,样品的状态、光的散射、杂散光及仪器响应等能够导致NIR数据的基线漂移和光谱的不重复性.因此,采用合适的方法对原始光谱进行处理是非常必要的.常用的处理方法有数据平滑、小波变换和微分等方法.数据平滑采用窗口移动平均法,通过改变移动平均滤波器窗口的宽度,考察滤波器宽度对SVR模型预测结果RMSEP影响,结果见图1.
图1 窗口宽度对校正集RMSEP的影响Fig.1 The influence of window width on calibration RMSEP
由图1可以看出,滤波器宽度在19~23范围内,RMSEP最小.实验选择滤波器宽度为21对NIR数据进行平滑处理.
2.2 NIR数据的CWT处理对SVR模型的影响
CWT方法可以有效地扣除NIR数据的基线漂移和噪声所产生的干扰.为了得到CWT处理NIR数据的优化参数,以预测结果的RMSEP最小为标准,对CWT的尺度因子进行优化,结果见图2.
图2 尺度因子对校正集RMSEP的影响Fig.2 The influence of scale factor on calibration RMSEP
从图2-a中可以看出尺度因子为126时,RMSEP有一个最小值,故选择此点对NIR数据进行处理.试验中发现,在第1次CWT处理NIR数据的基础上再进行第2次CWT处理,预测集结果的RMSEP明显减小.第2次CWT的尺度因子对RMSEP的影响见图2-b,可以看出,RMSEP变化较为平缓,在尺度因子为12时,RMSEP最小.
2.3 NIR数据的处理
女贞子样品的原始NIR光谱结果如图3所示,可以看出NIR光谱图中具有一定程度的噪声干扰,不同样品之间的NIR光谱具有较严重的基线漂移.根据NIR光谱数据的平滑对SVR模型的影响结果,选定移动平均滤波器的窗口为21,对NIR数据进行处理,结果见图4.与图3相比可以看出,NIR光谱较为光滑,噪声对NIR数据的干扰得到了消除.
图3 女贞子样品的NIR光谱Fig.3 The NIR of Ligustrum lucidum
图4 数据平滑后的NIR光谱Fig.4 The NIR after data smoothing
根据NIR数据的CWT处理对SVR模型的影响结果,对NIR信号进行CWT处理,结果如图5所示.
图5 CWT处理的NIR光谱Fig.5 The NIR after treatment of CWT
由图5可知,选用db1小波基函数,在尺度因子为126的条件下对NIR信号进行第一次CWT处理,原始光谱信号的背景得到有效的扣除.对于一次CWT处理后的数据,选用尺度因子为12,再进行CWT处理,NIR数据经连续两次CWT处理后,特征信息更加明显.
3 建模与结果预测
基于SVR方法,采用留一交叉验证的方法对模型参数进行优化,结果见表1.
表1 建模参数优化结果Tab.1 Optimization results of modeling parameters
由表1可知,对NIR数据进行平滑和CWT处理后,SVR模型的RMSEP由4.863减小到2.542,预测结果与实验测定值的相关系数由0.452 2增加到0.908 8,即SVR方法预测结果的准确度得到了明显的改善.在优化条件下对预测集样品的齐墩果酸进行测定,结果见表2.
表2 含齐墩果酸量预测结果与实验值对比Tab.2 The comparison between predicted and experimental value of oleanolic acid content
由表2可以看出,SVR方法对齐墩果酸含量的预测结果与紫外光谱法测得的实验结果相比,回收率可达95.54%~104.2%,能够满足NIR分析的基本要求.
4 小结
将数据平滑与CWT技术用于NIR数据的预处理,再与SVR技术相结合,建立了用于女贞子样品齐墩果酸快速测定的CWT-SVR方法.结果表明,数据平滑与CWT技术对女贞子NIR数据的处理,提高了SVR方法的预测准确度,为女贞子品质的快速评价提供了一种有效方法.
[1]王萍,田龙,单银花.女贞子中齐墩果酸的提取工艺及测定方法研究进展[J].化工时刊,2008,22(6):51-53.
[2]石力夫,蔡溱,吴广通,等.不同产地女贞子中水溶性活性成分及齐墩果酸的反相高效液相色谱分析[J].中国中药杂志, 1998,23(2):77-79.
[3]曹艳丽,张秋香.薄层扫描法测定女贞子中齐墩果酸的含量[J].陕西中医,2002,23(8):745-746.
[4]邓世星,孙志勇,周卿,等.紫外光谱法测定齐墩果酸含量[J].遵义医学院学报,2003,26(6):556-557.
[5]周静,刘垣升.气相色谱法测定女贞子中齐墩果酸和熊果酸的含量[J].中国新药与临床杂志,2003,22(10):596-598.
[6]王萍,田龙,单银花,等.女贞子中齐墩果酸的提取工艺及测定方法研究进展[J].化工时刊,2008,22(6):51-54.
[7]Vapnik V.统计学习理论的本质[M].张学工,译.北京:清华大学出版社,2000.
[8]侯振雨,蔡文生,邵学广.主成分分析:支持向量回归建模方法及其应用研究[J].分析化学,2006,34(5):617-620.
[9]侯振雨,王国庆,蔡文生,等.连续小波变换:支持向量回归用于植物样品多组分分析[J].计算机与应用化学,2005,22(9):714-716.
(责任编辑:卢奇)
Study on rapid determination of oleanolic acid based on support vector regression
Duan Lingyao,Li Yunling,Gao Huiling,Deng Shaoxin,Hou Zhenyu
(Henan Institute of Science and Technology,Xinxiang 453003,China)
The near-infrared spectral data(NIR)of Ligustrum lucidum sample were processed by using smooth and continuous wavelet transform (CWT)method.A method for rapid determination of oleanolic acid content was established based on support vector regression (SVR)and NIR.This method was used to measure oleanolic acid content in L.lucidum sample and the recovery was 95.54%~104.2%compared with the data measured by UV spectra.
Ligustrum lucidum;oleanolic acid;near-infrared spectra(NIR);support vector regression(SVR)
O657.37
A
:1008-7516(2015)02-0038-05
10.3969/j.issn.1008-7516.2015.02.009
2014-12-22
2012年河南省科技厅攻关项目(122102310278);2013年河南省教育厅重点研究项目(13A150282)
段凌瑶(1990―),女,河南卫辉人,助理实验师.主要从事催化剂和数据挖掘研究.
侯振雨(1965―),男,河南卫辉人,教授.主要从事化学计量学和气敏材料研究.