基于近红外光谱和QPSO-LSSVM模型的玉米脂肪测定

2017-08-28陈素彬胡振

化学工程师 2017年8期

关键词：校正预处理光谱

陈素彬，胡振

（南充职业技术学院，四川南充637131）

基于近红外光谱和QPSO-LSSVM模型的玉米脂肪测定

陈素彬1，胡振

（南充职业技术学院，四川南充637131）

为了建立一个精确、稳健的玉米脂肪近红外光谱定量模型，提出了以全波段光谱建立最小二乘支持向量机（LS-SVM）模型、用量子行为粒子群优化（QPSO）算法结合留一交叉验证（LOO-CV）规则优化模型参数的新方法，并用76份样本数据进行了验证。与常用的偏最小二乘（PLS）校正模型相比，当采用原光谱数据建模预测时，相关系数（Rp）和相对分析误差（RPD）分别由0.9248、2.43升至0.9801、4.38以上，预测均方根误差（RMSEP）从0.0624降到0.0311以下；若将光谱进行多元散射校正（MSC）预处理之后再建模预测，则Rp和RPD分别由0.9618、3.95升至0.9934、8.11以上，RMSEP从0.0395降到0.0215以下。试验结果表明，以全波段近红外光谱建立的QPSO-LSSVM校正模型完全可用于玉米脂肪的实际检测。

玉米；近红外光谱；脂肪；最小二乘支持向量机；量子行为粒子群优化算法

玉米是重要的粮食和饲料，也是生产玉米油的主要原料，其品质高低取决于水分、蛋白质和脂肪等主要成分的含量。目前,检测玉米脂肪含量的国标方法为索氏抽提法和酸水解法[1]，所用的主要试剂乙醚是众所周知的有害物质，而且测定时间长、成本高[2]。因此，企业在进行原料玉米检测时，更愿意选用无损、快速、低成本的近红外光谱（Near infrared spectroscopy，NIRS）分析方法，但国标GB/T 24902-2010仅给出了大致流程[3]，完全没有操作性。

近红外光谱（波长为780～2526nm）是由分子振动的非谐振性使其从基态向高能级跃迁时产生的，主要反映含氢基团X-H（X=C、O、N、S等）振动的倍频和合频吸收，记录了几乎全部有机化合物和混合物的组成、结构和状态信息。各种基团（或同一基团处于不同化学环境）在近红外区域具有特定的吸收波长与强度，其相关性符合Beer-Lambert定律。研究表明，玉米的几种主要成分在近红外区域同样有着明显的选择性吸收，其吸收程度取决于相应成分的含量，可以据此建立近红外光谱校正模型来测定成分含量。

现有研究大多采用基于最小二乘原理的线性建模方法[4-6]，如多元线性回归（Multivariate linear regression，MLR）、主成分回归（Principal component regression，PCR）和偏最小二乘（Partial least squares，PLS）等；另外一些则建立了基于机器学习理论的人工神经网络（Artificial neural network，ANN）或支持向量机（Support vector machine，SVM）等非线性回归模型[7，8]。这两类模型各具优势，并在实际应用中取得了一定的效果。然而，当物质的待测属性与光谱数据之间的线性相关度较差时，不适合建立线性回归模型[9]；另一方面，非线性模型的参数优化则一直是个难题，常用的几种方法都有明显缺陷，难以找到确定的最优值。为此，本文采用最小二乘支持向量机（Least squares support vector machine，LS-SVM）建立玉米脂肪测定的近红外光谱校正模型，并运用量子行为粒子群优化（Quantum-behaved particle swarm optimization，QPSO）算法实现参数寻优，以增强模型的适应性和泛化性能。

1 材料与方法

1.1 样品采集与制备

收集不同地区、不同品种玉米样品76个，各样品用四分法缩分至约300g，用旋风磨粉碎过40目筛（0.42mm）。将玉米粉末样品分为2份，分别用于常规分析和近红外光谱扫描。

1.2 常规测定与光谱采集

按国家标准GB5009.6-2016之第一法（索氏抽提法）准确测定每个玉米粉样品的脂肪含量，作为近红外光谱定量模型的参考值。所得数据见表1。

表1 玉米样品的脂肪含量数据Tab.1Fat content data of corn samples

使用NIRSystems 6500型近红外多功能分析仪进行光谱采集：玉米粉样品装载于矩形杯（4.6× 5.7cm）中；因1000nm以下和2500nm以上波段光谱的信噪比较低，故选择扫描范围为1100～2498nm，波长间隔2nm。每个样品重复装样、扫描3次，取平均值并转换为log 1/R形式保存。全部样品的近红外光谱见图1。

图1 玉米样本的近红外光谱图Fig.1Near infrared spectra of corn samples

1.3 近红外光谱校正模型的建立

1.3.1 样品近红外光谱预处理近红外谱带较宽，各种基团的吸收较弱、且重叠严重，因而光谱信息复杂、信噪比低。同时，在测量中难免存在一些与样品待测属性无关的干扰，如样品的粒度、密度和均匀性，光的散射、杂射、背景以及仪器噪声等因素，会导致NIRS的基线漂移和重现性差等现象[10]。因此，需首先对光谱数据进行预处理，减弱以至于消除各种非目标因素对光谱的影响，尽可能去除无关信息，提高分辨率和灵敏度[11]，从而提高NIRS校正模型的预测精度和稳健性。

光谱预处理的方法众多，各种方法对于不同待测样本有着特定的优越性和缺点。根据研究经验和玉米粉末样品的特点，主要试验矢量归一化（Vector normalization）、均值中心化（Mean centering）、Savitzky-Golay卷积平滑（Savitzky-Golay smoothing）、一阶导数（1st derivative）、标准正态变量变换（Standard normal variable transformation，SNV）、多元散射校正（Multiplicative scatter correction，MSC）和正交信号校正（Orthogonal signal correction，OSC）。其中OSC是一种新概念的光谱预处理方法，它不是仅对光谱数据进行处理，而是通过与浓度阵的正交运算，滤除光谱中与浓度无关的信号，从而减少建模的主因子数，达到简化模型、提高预测能力的目的[12]。

应用上述几种方法及其部分组合方案进行76个玉米粉末样品的NIRS预处理，并以PLS方法建模预测脂肪含量，以模型的相关系数R（Correlation coefficient）、校正均方根误差（Root mean square error of calibration，RMSEC）、预测均方根误差（Root mean square error of prediction，RMSEP）和相对分析误差（Ratio of performance to standard deviate，RPD）为评价指标。该过程用The Unscrambler X 10.4软件完成。

1.3.2 样本集划分采用随机法（Random sampling，RS）进行样本集划分。先将全部玉米样本按脂肪含量升序排列，再随机抽取16个样本组成预测集，其余60个样本作为校正集，使校正集和预测集样本的属性值分布范围相近。

1.3.3 LS-SVM定量模型建立LS-SVM是SVM的扩展，它用等式约束代替了后者的不等式约束，并将SVM中的不敏感损失函数项转换为残差的平方和，使得求解二次规划问题转化成为求解线性方程组，降低了计算的复杂度，加快了求解速度。

LS-SVM能够用于线性和非线性建模，其稳健性优于一般的线性建模方法，而且避免了ANN存在的训练速度慢、容易陷入局部最优、过拟合和泛化能力较差等局限性。从运行过程看，LS-SVM模型的训练主要是求解线性方程组，预测则是计算各建模样本与待测样本之间的核函数，其计算量取决于校正集的样本数目，而与光谱维数无关。因此，本文采用样品NIRS的全波段信息来建立LS-SVM校正模型测定脂肪含量，而不进行波长的选择处理。

1.3.4 用QPSO算法优化模型参数核函数选择与参数优化是LS-SVM建模过程中的两个关键问题。比较而言，采用径向基核函数（Radial basis function，RBF）具有支持向量数少、计算复杂度低、能以小样本完成模型训练等优势。LS-SVM的正则化参数γ在模型的复杂度和训练误差之间取得折衷，直接影响其泛化性能；核函数宽度σ2则控制样本数据在特征空间中分布的复杂程度，与支持向量数目和模型预测精度密切相关。

常用的LS-SVM模型参数寻优算法各有缺点：网格搜索法复杂度高、学习精度偏低，对大样本集不太适用；模式搜索法计算量大，不能确保结果为全局最优值；遗传算法、粒子群算法则易发生早熟现象，还可能因过拟合而降低模型的泛化性能。为此，采用QPSO算法结合留一法交叉验证（Leave-one-out cross validation，LOO-CV）规则来对LS-SVM模型参数寻优，以交叉验证均方根误差（Root mean square error of cross validation，RMSECV）为适应度函数：

式中n：训练集样品数；yi、y：第i个样品的参考值和预测值。

QPSO算法实现LS-SVM模型参数寻优的步骤如下：（1）设定参数（γ,σ2）的大致寻优范围[γmin,γmax]和[σmin,σmax]；

（2）分别在[γmin,γmax]和[σmin,σmax]区间初始化粒子群（每个粒子在两个维度的位置即分别为参数（γ, σ2）的值）；

（3）取样本集中的1个样本作预测集、其余样本为校正集，建立LS-SVM模型；

（4）以当前粒子位置为（γ,σ2）参数值完成LS-SVM模型训练，并用预测集进行待测成分含量估计；

（5）重复步骤（3）、（4），直到每个样本都作一次测试集。根据式（1）计算RMSECV；

（6）根据RMSECV的最小值确定当前粒子的个体最优位置和全局最优位置，然后根据QPSO算法公式更新粒子位置；

（7）重复步骤（3）～（6），直到迭代终止。最后的粒子全局最优位置即是参数（γ,σ2）的最优值[13]。

本文的样本集划分、LS-SVM建模和参数寻优过程皆用MATLAB R2015b编程实现。

2 结果与分析

2.1 样品光谱预处理及建立PLS定量模型

主要试验了11种光谱预处理方案，结合建立玉米NIRS的PLS回归模型预测其脂肪含量，通过结果比较选取其中最优者。在The Unscrambler X 10.4软件环境中，进行光谱预处理并建立PLS校正模型时设置：Savitzky-Golay的“Smoothing points”（平滑点数）为7、“Polynomial order”（多项式次数）为2；MSC的“Function”（函数）选“Full MSC”；OSC的“Option”（选项）取“NIPALS”、“Number of components”（成分数）置5；PLS的“Cross validation method”（交互验证方法）选“Full”、“Algorithm”（算法）为“Kernel PLS”。结果见表2。

根据国际谷物科技协会（International association for cereal science and technology，ICC）标准，RPD≥3的定量分析模型才可用于实际检测。显然，仅有方案6能够达标，其PLS模型的Rc、Rp分别为0.9779、0.9618，RMSEC、RMSEP分别为0.0277、0.0395，这两对指标值都相差较小，且RPD为3.95，因此该预处理方案最佳；SNV和矢量归一化所得结果较差，相应模型的Rc、Rp较小而RMSEC、RMSEP较大，但其两对指标值都比较接近，说明模型稳健性较好；均值中心化预处理之后，所建模型的两对指标值相差较大，意味着其泛化性能有待提高；Savitzky-Golay卷积平滑、OSC则与无预处理的建模效果非常相近，但OSC方法的模型RMSEC、RMSEP高达2.5088、2.4956，且RPD仅为0.07，表明其预测误差较大。由表2还可发现，5个预处理组合方法的效果都不及其中一种方法的单独应用。

表2 各种光谱预处理方法的PLS模型测定玉米脂肪结果Tab.2Results of corn fat by PLS model with various spectral pretreatment methods

此外，还试验了矢量归一化、均值中心化分别与SNV、MSC、OSC的组合方法，其结果与单独使用后3种方法并无明显差别；而一阶导数、二阶导数及其与其它预处理的组合方法效果都很差，因此，未将其列入表中。图2为MSC预处理之后的玉米样品近红外光谱。

图2 MSC预处理的玉米样本近红外光谱图Fig.2Near infrared spectra of corn samples pretreated by MSC method

2.2 用QPSO算法搜索LS-SVM模型的最优参数

QPSO是一种群体智能搜索算法，这里以LS-SVM模型参数γ和σ2为其优化变量，通过迭代获取最优解。该过程用全部玉米样品按LOO-CV规则建立LS-SVM模型进行脂肪含量预测，迭代寻找RMSECV取得最小值所对应的γ和σ2。算法程序的运行参数设置：粒子群规模30，迭代次数100，γ和σ2的搜索区间分别为[0.5,1.0e20]、[2.0,1.0e10]。

运行QPSO算法程序对用样品原光谱数据所建LS-SVM模型进行参数寻优，得到γ=9.77058771060 7214e+15、σ2=1.582942191985999e+08，相应RMSECV值为0.0173；然后对样品光谱进行MSC预处理，以同样方法寻找最优参数，得到γ=5.9929801192 88668e+18、σ2=2.104096717963797e+08，相应RMSECV值为0.0168。

2.3 玉米脂肪测定的近红外光谱LS-SVM定量模型

以玉米样品的全波段原光谱数据建立LS-SVM模型，代入用QPSO算法所得γ、σ2最优值进行训练和脂肪定量，以Rp、RMSEP、MRE（Mean relativeerror，平均相对误差）和RPD为评价指标；为了进一步验证模表3所列数据表明，采用QPSO算法优化参数γ和σ2型的预测精度和稳健性，将样本集划分、建模和预测的整个过程重复10次。再将样品光谱进行MSC预处理后，以相同方法建模测定玉米脂肪含量。结果见表3。

表3 QPSO-LSSVM模型测定玉米脂肪结果Tab.3Results of corn fat by QPSO-LSSVM model

之后，直接用玉米样品的原光谱全波长数据所建LS-SVM模型明显优于表2所列的各种PLS模型，完全可用于脂肪含量的实际测定。10次试验皆得Rp＞0. 98、RPD≥4.3，RMSEP＜0.032、MRE＜0.76%；而将光谱数据进行MSC预处理后，所建QPSO-LSSVM模型的预测精度和稳健性得到了进一步提高。

以第6次试验为例，MSC预处理光谱所建QPSO-LSSVM模型测得玉米样品脂肪含量见图3（a）；相应的参数寻优迭代过程见图3（b）。

图3 用QPSO-LSSVM模型测定玉米脂肪及参数寻优过程（a）Corn fat content by QPSO-LSSVM model（b）Process of QPSO-LSSVM parameter optimizationFig.3Determination of corn fat and parameter optimization by QPSO-LSSVM model

由图3可见，显然，16个样品的预测值和参考值重合性好，并很规则地分布在回归线的两侧；其参数寻优过程迭代到60次时，即收敛于适应度值0.0168处。

3 结论

（1）建立近红外光谱定量分析的常用方法是“光谱预处理+PLS模型”。本文研究玉米脂肪测定的近红外光谱分析模型，通过试验探讨了11种光谱预处理方案对PLS模型的影响，发现样品光谱经MSC预处理后所建的PLS模型效果较好，其Rc和Rp值较高、RMSEC和RMSEP值较低，且这两对数据相差较小，RPD值达到3.95，能够用于实际检测。另外10种“光谱预处理+PLS模型”则均未完全达到应用标准。

（2）本文提出了“全波段原光谱+QPSO-LSSVM模型”的玉米脂肪测定方法。先用QPSO算法结合LOO-CV规则搜索LS-SVM模型的最优参数，然后以样品的全波段原光谱建模。10次验证的结果表明，该模型的预测精度和稳健性明显优于PLS模型，完全能够用于实际检测。以此为基础，继续尝试用MSC预处理光谱建立QPSO-LSSVM模型，发现其性能有了进一步提升。

（3）本文方法采用全波段光谱建模，并引入了智能搜索算法优化模型参数，因此计算量较大，宜于编写计算机程序实现。

［1］国家食品药品监督管理总局.GB5009.6-2016食品安全国家标准食品中脂肪的测定［S］.北京:中国标准出版社,2017:1-5.

［2］肖青青.近红外光谱用于玉米水分和粗脂肪的快速分析［D］.广州:暨南大学,2015.

［3］中华人民共和国国家质量监督检验检疫总局.GB/T 24902-2010粮油检验玉米粗脂肪含量测定近红外法［S］.北京:中国标准出版社,2010:1-3.

［4］谢秀娟,赵龙莲.独立分量分析在近红外光谱定量分析中的应用［J］.江西农业大学学报,2012,34（4）:828-831.

［5］王冬,闵顺耕,朱业伟,等.法布里干涉近红外光谱仪定量测定大豆、玉米主要成分［J］.现代仪器,2011,17（5）:30-33.

［6］李晋华,杨志良,王召巴,等.近红外漫透射技术检测玉米成分

［J］.红外技术,2013,35（11）:732-736.

［7］侯振雨,汤长青,姚树文,等.离散小波变换-支持向量回归方法及其在谷物分析中的应用［J］.河南农业科学,2006,35（8）:40-42.

［8］刘天玲,苏琪雅,孙群,等.基于NIR分析和模式识别技术的玉米种子识别系统［J］.光谱学与光谱分析,2012,32（5）:1209-1212.

［9］包鑫.稳健回归技术及其在光谱分析中的应用［D］.杭州:浙江大学,2010.

［10］王立琦,朱秀超,张礼勇.基于小波分析的近红外光谱数据预处理［J］.哈尔滨商业大学学报（自然科学版）,2009,25（6）:700-702.

［11］曾立波,贺志平.遗传算法在近红外光谱分析波长及预处理方法同步选择中的应用［J］.分析仪器,2006,37（3）:23-26.

［12］褚小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展与应用［J］.化学进展,2004,16（4）:528-542.

［13］胡振,陈素彬.水中溶解氧含量的优化WLS-SVM预测方法［J］.微型电脑应用,2014,30（5）:54-58.

Determination of corn fat based on NIRS and QPSO-LSSVM model

CHEN Su-bin,HU Zhen
（Nanchong Professional Technic College,Nanchong 637131,China）

To establish an accurate and robust quantitative model for near infrared spectroscopy of corn fat,a least squares support vector machine model based on full band spectrum is proposed.A new method to optimize the parameters of the model using the quantum-behaved particle swarm optimization algorithm combined with leaveone-out cross validation and 76 sample data are used to verify.Compared with the commonly used partial least squares correction model,the correlation coefficient increased from 0.9248 to above 0.9801,the ratio of performance to standard deviate increased from 2.43 to above 4.38,the root mean square error of prediction decreases from 0.0624 to below 0.0311.If build models and forecast after doing a multiplicative scatter correction and a preprocessing,the correlation coefficient increased from 0.9618 to above 0.9934,the ratio of performance to standard deviate increased from 3.95 to above 8.11,the root mean square error of prediction decreases from 0.0395 to below 0.0215.The experimental results show that the QPSO-LSSVM calibration model established by the full band nearinfrared spectroscopy can be used for the actual detection of corn fat.

corn;near infrared spectroscopy;fat;LS-SVM;QPSO algorithm

O657.33

10.16247/j.cnki.23-1171/tq.20170830

2017-03-08

陈素彬（1967-），女，汉，本科，讲师，从事分析化学教学与分析检测工作。