遗传算法联合LS-SVM的苹果原醋成分定量分析
2016-09-18李子文熊雅婷李宗朋张海红冯斯雯尹建军中国食品发酵工业研究院北京0005宁夏大学农学院食品科学系宁夏银川7500
李子文,熊雅婷,王 健,李宗朋,张海红,冯斯雯,尹建军(.中国食品发酵工业研究院,北京 0005;.宁夏大学 农学院食品科学系,宁夏 银川 7500)
遗传算法联合LS-SVM的苹果原醋成分定量分析
李子文1,2,熊雅婷1,王健1*,李宗朋1,张海红2,冯斯雯1,尹建军1
(1.中国食品发酵工业研究院,北京 100015;2.宁夏大学 农学院食品科学系,宁夏 银川 750021)
利用近红外光谱技术对苹果原醋中的重要指标进行定量分析,并进行模型优化以提高性能。采用遗传偏最小二乘法(GA-PLS)提取的特征波长作为最小二乘支持向量机(LS-SVM)的输入变量,先后建立苹果原醋中总酸、可溶性固形物的近红外定量模型,并与建立的偏最小二乘(PLS)模型结果进行比较。用决定系数(R2)、预测均方根误差(RMSEP)以及相对分析误差(RPD)对模型进行评价,确定最佳建模方法。结果表明,相比于PLS模型,总酸及可溶性固形物指标的LS-SVM定量模型的R2、RMSEP以及RPD值均有更好的表现,且在进行独立测试集验证时,LS-SVM模型的预测精度也明显优于PLS模型。说明遗传算法联合LS-SVM建立的定量模型有很高的准确度及稳定性,可以应用于苹果原醋总酸和可溶性固形物含量的快速检测。
苹果原醋;近红外光谱技术;最小二乘支持向量机;遗传算法;波段筛选
苹果原醋发酵是苹果醋饮料生产过程的重要环节,以苹果原醋为原料可调配形成苹果原醋饮料,即为日常所讲的“苹果醋”。但由于我国在苹果醋生产方面还远不如生产粮食醋般成熟和完善,加上目前还没有苹果原醋生产的统一标准,致使市场上苹果醋饮料鱼目混杂,有的甚至是用糖精、醋精等调配而成,而苹果原醋发酵直接影响苹果醋的品质生产,因此,对于苹果原醋的质量监控需要引起高度重视[1]。而原醋中的总酸及可溶性固形物等主要成分含量,是衡量苹果原醋品质的重要指标,目前常规的检测过程复杂耗时,无法满足苹果醋饮料生产过程中品质快速检测的需求。
近红外光谱分析技术是一种新兴的绿色检测技术,具有无需样品前处理、分析速度快、分析效率高、操作简单、易于实现生产过程中的在线控制等优点[2],近年来在食醋及果醋安全检测等方面得到了广泛应用:邹小波等[3]的研究表明,近红外光谱与食醋总酸含量呈非线性关系,采用最小二乘支持向量机(leastsquares-supportvectormachine,LS-SVM)建立的模型预测性能良好,有很高的预测精度。LIU F等[4]利用连续投影算法结合最小二乘支持向量机等方法,实现了不同浓度梅子醋中醋酸、酒石酸和乳酸等指标的快速检测。石吉勇等[5]采用模拟退火算法优化,并结合偏最小二乘法(partial leastsquares,PLS)建立的模型能够快速预测食醋中总酸指标含量。但是,目前对于苹果醋中各项指标的近红外研究分析仍较为少见,尤其是针对于苹果原醋的研究更是未见报道。
本研究拟采用遗传偏最小二乘法(genetic algorithmspartial leastsquares,GA-PLS)联合最小二乘支持向量机对苹果原醋中的重要品质指标——总酸及可溶性固形物进行快速无损分析,建立苹果原醋主要成分快速检测模型,并与偏最小二乘法模型进行比较,观察LS-SVM算法对苹果原醋指标近红外检测模型性能的改善情况。提高模型运算速度、准确性及稳定性,提高模型预测能力,为苹果原醋品质的快速检测提供参考依据。
1 材料与方法
1.1料与试剂
本试验所用苹果原醋样品共340个,由某饮料公司提供,采用透反射方式扫描采集苹果原醋的近红外光谱,标准正态变量变换(standard normal variate,SNV)方法对光谱进行预处理。利用WYT-32型手持折光仪测定苹果原醋的可溶性固形物含量,重复测定3次,取平均值。苹果原醋总酸值根据国标GB/T 12456—2008《食品中总酸的测定》,采用NaOH酸碱滴定法测定。
NaOH(分析纯)、酚酞:西陇化工股份有限公司。
1.2器与设备
NIRMasterM 54P傅里叶变换近红外光谱仪:瑞士步琪有限公司;光谱仪光源为卤钨灯,检测器为温控InGaAs,配有固体测量池及透反射盖。光谱范围为10 000~4 000 cm-1,分辨率为8 cm-1,扫描次数为32次;利用配套软件NIR WareOperator采集苹果原醋样品的近红外光谱信息。
1.3验方法
1.3.1正集与验证集的划分
在剔除掉5个个别异常点的基础上,随机保留56个苹果原醋样本作为独立测试集,用于预测检验最终模型性能,以2∶1的比例对剩余279个样本进行样本集和验证集划分。本实验采取Kennard-Stone(K-S)法[6]来进行样本集划分。最终选择校正集样本186个,验证集样本93个。校正集与验证集统计信息如表1所示。
表1 校正集与验证集统计结果Table 1 Statistical results of calibration setand validation set
1.3.2谱变量选择及校正模型建立
最小二乘支持向量机(LS-SVM)是在经典SVM基础上扩展的一种新兴的非线性校正方法,可以进行线性和非线性的多元建模,可以极大改善近红外光谱定性、定量的预测能力[7]。但当变量数过大、数据存在噪声时,其求解过程就会越复杂,计算速度也越慢,同时性能会大大降低[8-9]。因此本实验采用遗传偏最小二乘法(GA-PLS)筛选变量,减少建模变量数的同时剔除光谱无用信息,再结合LS-SVM建立苹果原醋主要成分快速检测模型。
GA-PLS[10]是以生物进化论为基础,模拟生物界物种竞争选择的进化机制而建立的一种优化方法,以适应度函数为依据,通过对群体中个体施加遗传操作来实现群体的迭代优化。但当变量数较多时,运行GA-PLS可能会导致过拟合的风险[11],因此本实验先采用后向间隔偏最小二乘法(backward interval partial least squares,BiPLS)[12]对全光谱1 501个变量进行预选择,再结合GA-PLS优化建模变量。
1.3.3据处理与分析
BiPLS、GA-PLS、LS-SVM等程序均在MATLAB环境下运行,偏最小二乘计算应用UnscramblerX10.3光谱分析软件(挪威CAMO公司)实现,模型的精确度与稳定性通过决定系数R2、预测均方根误差(rootmean square error of prediction,RMSEP)及相对分析误差(relative percentdeviation,RPD)来评价。R2越接近1,RMSEP越接近0,RPD越大,表明模型分辨能力越高、效果越好[13]。
2 结果与分析
2.1谱波段优选
2.1.1向间隔偏最小二乘波段选择法
将预处理后的整条光谱分为15个子区间,运行BiPLS程序采用留一法计算交叉验证均方差RMSECV值进行变量预选。总酸、可溶性固形物两个指标经筛选后所得RMSECV值最小分别为0.045 2和0.027 4。两个指标经BiPLS分别共选择了700、500个波长点,占全谱的46.6%和33.3%。
2.1.2传偏最小二乘波段选择法
本实验采用GA-PLS分别对BiPLS删选出的总酸及可溶性固形物两个指标的波数变量进行进一步筛选。
GA-PLS运行参数设置为:种群大小30,变异概率Pm= 0.01,交叉概率Pc=0.5,最大因子数10,遗传迭代次数100次,计算每个数据点标识为“1”的概率,以RMSECV值确定出最佳的建模变量。GAPLS运算过程中各变量被选用的频次如图1所示。
总酸、可溶性固形物两个指标经GA-PLS进一步筛选后分别得到56、46个波长点,占全谱的3.7%及3.1%,筛选所得特征波长点如表2所示,所选波数与C-H、C=O、O-H、C-O等主要官能团的基频与倍频振动吸收峰位置相对应,如总酸指标筛选出的4 460 cm-1处甲酸O-H伸缩振动和C-H弯曲振动的组合频吸收,可溶性固形物筛选出的4 545 cm-1处碳水化合物C-H伸缩和C=O的组合频吸收,4 760 cm-1处多糖O-H伸缩和C-O伸缩组合频吸收等[14],反映出了苹果原醋总酸和可溶性固形物的特征吸收。说明在经GA-PLS筛选后保留了各指标中最主要的吸收谱带,同时剔除了绝大部分的无用信息。
图1 各变量被选用的频次图Fig.1 Frequency of each variable by chosen
表2 GA-PLS波点筛选结果Table 2 Results of GA-PLS wave point se lection
2.2最小二乘法定标模型建立
在BiPLS及GA-PLS变量筛选结果的基础上,分别对苹果醋总酸及可溶性固形物指标建立全光谱-PLS,BiPLS,GA-PLS定量模型,模型计算结果如表3所示。
表3 苹果原醋两项指标的不同PLS模型及性能评价结果Table 3 Different PLSmodels of two p roperties in apple vinegarand the results of performance evaluation
由表3可知,与全光谱相比,两项指标经光谱波段选择之后,R2、RPD均有提高,RMSEP值明显减小,变量数及主成分数均有不同程度的减小,PLS模型的准确性及稳定性都有显著的改善,说明波段筛选方法能够在减少建模运算变量数、简化模型的同时,有效地优化模型性能。
比较BiPLS及GA-PLS两种方法,GA-PLS是在BiPLS基础上对变量进行进一步筛选,可有效避免BiPLS方法在一个小的区间或是两个相邻波段中存在的共线变量[15]。在保证模型稳定性及准确度的同时,将变量数极大减少,分别从总酸及可溶性固形物两项指标700、500个变量中进一步筛选出了56、46个变量。有效保留了关键特征波长,同时剔除了无用信息,进一步减少了模型的主成分数量,降低了模型复杂程度,同时加快了运算速度。
2.3小二乘支持向量机定标模型建立
根据前文GA-PLS筛选所得的结果,将所筛选出的有效波长分别作为总酸、可溶性固形物LS-SVM模型的输入变量。本实验在LS-SVM建模中,选取比较常用的径向基函数(RBF)作为核函数,以减少在训练过程中计算的复杂性。其两个重要调节参数为回归误差权重γ(gam)和RBF核函数的核参数σ2[3]。其中,γ是RBF核函数的正则化参数,决定结构风险和经验风险最小化之间的平衡,对于提高模型的泛化性起重要作用。而σ2则控制模型函数回归误差,关系模型的灵敏度,过小会导致过拟合,过大则会使模型过于简单,影响预测精度[16]。对这两个参数的选择,本实验采用了耦合模拟退火算法和留一交叉验证的寻优方法以确定优化参数。具体建模结果如表4所示。
表4 苹果原醋两项指标LS-SVM建模结果Table 4 Results of LS-SVM modeling for the two p roperties in app le vinegar
由表4可知,将经过GAPLS方法筛选所得到的有效波长作为LS-SVM模型的输入变量,在保留准确有效信息的基础上,去除了光谱间的噪声及其他无用信息,显著降低了模型复杂度,提高了模型性能及运算速度。苹果原醋总酸及可溶性固形物两项重要指标的LS-SVM模型效果良好,RPD值均>5,说明模型的预测分辨能力较高,同时R2分别达到了0.964与0.979,RMSEP值也具有很好的表现,表明模型的准确性及稳定性均达到了较高水准。
2.4较PLS模型与LS-SVM模型效果
比较PLS模型及LS-SVM模型效果,结果如图2所示。由图2可知,不论是R2、RMSEP还是RPD值之间的比较,对于苹果原醋总酸及可溶性固形物两项重要指标而言,LS-SVM模型均获得了更好的效果,模型的准确度及性能均有较大的改善。可能是由于当苹果原醋光谱信息与两项理化指标总酸及可溶性固形物间的变化关系呈现非线性时,传统的线性建模方法不如LS-SVM方法,凭借其更好的利用光谱数据中非线性信息的能力及广泛的适应能力,能够较好地解决处理苹果原醋数据中的非线性数据集。
图2 PLS模型与LS-SVM模型性能参数对比图Fig.2 Com parison of perform ance parame ters of PLS m odels and LS-SVM models
2.5LS-SVM模型验证
将56个未参与建模的苹果原醋样品光谱分别带入已建立的PLS及LS-SVM模型中进行验证,分别计算预测结果与理化检测值的相对偏差并以此绘制箱线图,结果如图3所示。由图3可知,与PLS模型相比较,LS-SVM模型预测结果与理化检测值相对偏差的上下两端极值线更为接近,差异更小,且平均值及中位数均基本接近0值,相对偏差分布更为集中,表明LS-SVM模型预测结果与理化检测值之间的差异更小,更为接近,说明了LS-SVM模型在实际验证中具有更强的预测能力。
图3 PLS模型与LS-SVM模型预测效果对比图Fig.3 Com parison of predictive effect of PLS m odels and LS-SVM models
3 结论
本研究采用近红外光谱技术对苹果原醋的总酸和可溶性固形物指标进行了定量分析,用向后间隔偏最小二乘法(BiPLS)、遗传偏最小二乘法(GA-PLS)对苹果原醋光谱进行了特征区域和特征波长的选取,并结合偏最小二乘法(PLS)和最小二乘支持向量机法(LS-SVM)建立定标模型,得出以下结论:
两种波段优化方法所建PLS模型均获得了较高的模型精度,充分说明了近红外光谱分析技术可用于苹果原醋成分分析,也证明了波段优化对建模分析的重要性。而GA-PLS模型在保证稳定性及准确性的同时,大大减少了建模变量数,实现了波长选择的目标。
比较在GA-PLS方法波段筛选基础上建立的PLS模型与LS-SVM模型效果,发现不论是建模效果还是独立的验证效果,LS-SVM模型均更为理想,表明了LS-SVM方法在果醋品质分析方面的巨大潜力。遗传算法结合最小二乘支持向量机方法所建立的苹果原醋成分定量分析模型,具有准确、稳定的特点,可实现对苹果原醋成分含量的快速无损检测,为近红外光谱技术在苹果醋生产过程的应用提供了技术借鉴。
[1]宋静,陈平,王玉莹,等.苹果酒、醋中香气物质分析[J].中国酿造,2013,32(6):145-150.
[2]张德涛,邹小波,石吉勇,等.近红外光谱结合不同偏最小二乘法快速检测镇江香醋的浑浊度[J].中国酿造,2012,31(1):169-172.
[3]邹小波,陈正伟,石吉勇,等.基于支持向量机的食醋总酸近红外光谱建模[J].中国酿造,2011,30(3):63-65.
[4]LIU F,HE Y.Application of successive projections algorithm for variable selection to determ ineorganicacidsofp lum vinegar[J].Food Chem,2009,115(4):1430-1436.
[5]石吉勇,邹小波,王开亮,等.模拟退火算法用于食醋总酸含量近红外光谱模型的波数点优选[J].食品科学,2011,32(10):120-123.
[6]陆婉珍.现代近红外光谱分析技术[M].北京:中国石化出版社,2007.
[7]刘飞,张帆,方慧,等.连续投影算法在油菜叶片氨基酸总量无损检测中的应用[J].光谱学与光谱分析,2009,29(11):3079-3083.
[8]马英芝.基于遗传模拟退火算法的LS-SVM参数选取[J].民营科技,2011(11):17-19,109.
[9]章海亮,刘雪梅,何勇.SPA-LS-SVM检测土壤有机质和速效钾研究[J].光谱学与光谱分析,2014,34(5):1348-1351.
[10]屠振华,籍保平,孟超英,等.基于遗传算法和间隔偏最小二乘的苹果硬度特征波长分析研究[J].光谱学与光谱分析,2009,29(10):2760-2764.
[11]NØRGAARD L,SAUDLAND A,WAGNER J,et al.Interval partial leastsquares regression(iPLS):a comparative chemometric study w ith an examp le from near-infrared spectroscopy[J].App l Spectrosco,2000,54(3):413-419.
[12]吴静珠,汪凤珠,王丽丽,等.基于近红外特征光谱的番茄苗氮含量快速测定方法研究[J].光谱学与光谱分析,2015,35(1):99-103.
[13]熊雅婷,李宗朋,王健,等.基于连续投影算法的黄酒成分检测模型[J].食品与发酵工业,2015,41(3):185-190.
[14]WORKMAN J,JrWEYER L.褚小立,许育鹏,田高友,译.近红外光谱解析实用指南[M].北京:化学工业出版社,2009.
[15]彭云发,詹映,彭海根,等.用遗传算法提取南疆红枣总糖的近红外光谱特征波长[J].食品工业科技,2015,36(3):303-307.
[16]SHAHLAEIM,FASSIHIA,SAGHAIEL.Application of PC-ANN and PC-LS-SVM in QSAR of CCR1 antagonist compounds:A comparative study[J].Eur JM ed Chem,2010,45(4):1572-1582.
Quantitativeanalysisofapple vinegar compositionsbased on genetic algorithm combined with LS-SVM
LIZiwen1,2,XIONG Yating1,WANG Jian1*,LIZongpeng1,ZHANGHaihong2,FENG Siwen1,YIN Jianjun1
(1.China NationalResearch Institute of Food&Fermentation Industries,Beijing 100015,China;2.DepartmentofFood Science,College ofAgriculture,NingxiaUniversity,Yinchuan 750021,China)
The compositionsof apple vinegarwere analyzed quantitatively by near infrared spectroscopy technology,and themodelwasoptim ized to improve theperformance.The characteristic wavelengthsextracted bygenetic algorithm partial leastsquares(GA-PLS)as leastsquaressupportvector machines(LS-SVM)of the inputvariables,NIR quantitativemodelsof total acid and soluble solid in apple original vinegarwere established,and the modelswere comparedwith partial leastsquares(PLS)model results.The establishedmodelswere evaluated using R2,RMSEPand RPD to determine the optimum modelingmethod.The results showed that R2,RMSEP,RPD and prediction accuracy in independent test set of LS-SVM quantitative model of total acid and soluble solid had better performance than PLSmodels.The quantitativemodel established by genetic algorithm combined w ith LS-SVM had high accuracy and stability.Itcould beused in the rapid detection of totalacid and solublesolidscontentin the applevinegar.
apple vinegar;near infrared spectroscopy;LS-SVM;genetic algorithm;band selection
TS261.7
0254-5071(2016)01-0120-05
10.11882/j.issn.0254-5071.2016.01.026
2015-10-09
科技部科研院所技术开发研究专项(2013EG111212)
李子文(1992-),男,硕士研究生,研究方向为农产品无损检测。
王健(1973-),男,高级工程师,博士,研究方向为农产品无损检测。