基于SVM的大豆油脂色泽近红外光谱分析
2015-12-20王立琦李贵滨葛慧芳于殿宇
王立琦 崔 月 张 欢 刘 飞 李贵滨 葛慧芳 于殿宇
(哈尔滨商业大学计算机与信息工程学院1,哈尔滨 150028)(东北农业大学食品学院2,哈尔滨 150030)
基于SVM的大豆油脂色泽近红外光谱分析
王立琦1崔 月1张 欢2刘 飞2李贵滨1葛慧芳1于殿宇2
(哈尔滨商业大学计算机与信息工程学院1,哈尔滨 150028)(东北农业大学食品学院2,哈尔滨 150030)
针对罗维朋比色计在油脂色泽测定中存在的问题,提出了一种基于支持向量机(SVM)的大豆油脂色泽近红外光谱分析方法。首先采用C-SVM对3种不同罗维朋黄值的大豆油脂进行模式识别,设计出适合油脂色泽近红外光谱识别的SVM分类器,识别正确率达到100%。然后利用ε-SVR对不同罗维朋黄值的大豆油脂近红外光谱数据与罗维朋红值进行回归,分别建立了不同级别大豆油脂色泽的SVM校正模型,预测误差均在0.2个罗维朋单位以内。研究表明,利用近红外光谱技术实现油脂色泽的定性定量分析是可行的,为进一步实现油脂色泽在线监测和调控提供参考。
近红外光谱 油脂色泽 支持向量机
色泽是植物油脂的重要质量指标之一,油脂色泽的深浅,主要取决于油料所含脂溶性色素的种类及含量、油料籽品质的好坏、加工方法、精炼程度和油脂贮藏过程中的变化等。一般来说,油脂精炼程度越高,颜色越淡,而油料品质劣变和油脂酸败会导致油色变深。所以,测定油脂色泽对改善油脂加工工艺条件和评定油脂品质具有重要意义。
常用的油脂色泽检测方法有目视法、重铬酸钾法和罗维朋比色计法等。我国国家标准规定用罗维朋比色计法测定油脂色泽(GB/T 22460—2008)[1]。用罗维朋标准色片与油样的色泽进行比较,色泽深浅用罗维朋黄值和红值表示,此法也是目前国际上通行的检验方法。但是罗维朋比色计只能在实验室手动操作,不能实现连续化和自动化,难以满足现代社会对食用油质量简便、快速、现场化的测定要求[2]。20世纪90年代,日本、加拿大等国相继开展了油脂色泽自动测定仪的研究工作[3-5],但都因与目视罗维朋比色计之间未能形成良好的相关性而没有在实际中获得应用。Sun等[6]、陈彩虹等[7]采用计算机图像处理方法测定油脂色泽。张敏等[8]设计了基于DSP和数字图像处理技术的油脂质量快速检测仪。采用计算机图像处理技术避免了人为的主观误差,多次测定同一油脂色泽的重复性较好,但RGB颜色空间是设备相关的,且罗维朋标准色片与RGB颜色体系的回归还是一个值得深入探讨的问题。
虽然近年来关于近红外光谱分析在颜色识别中的应用已有少量研究成果[9-12],但到目前为止还鲜有将其应用到油脂色泽检测的研究报道,因此本研究以大豆油为检测对象,对油脂色泽近红外光谱分析的可行性进行深入研究,以期寻找到一种快速简便测定油脂色泽的新方法,进而实现油脂脱色工段的在线监测和调控。
1 材料与方法
1.1 油脂样本采集及色泽测定
表1为从大豆油质量指标(GB 1535—2003)中截取的大豆油脂色泽标准。
表1 大豆油脂色泽标准
研究所用油脂样本均采集自油脂加工企业,按国际通行的罗维朋比色计法测定油脂色泽,筛选出不同级别大豆油脂样本120个,其色泽统计值如表2所示。
表2 大豆油脂色泽样品的罗维朋值
1.2 样本光谱采集及预处理
利用美国Thermo Nicolet公司Antaris傅里叶变换近红外光谱仪对大豆油脂样本进行透射光谱扫描,波长范围4 000~12 000 cm-1,分辨率 4 cm-1,样品池采用直径为8 mm透明玻璃管,以空气作参比,扫描次数64次,为减小光谱数据的测量误差,每个样本测量3次,再以3次的平均值作为最终的光谱值,其谱图如图1所示。
图1 油脂色泽样品的近红外光谱图
根据近红外光谱吸收的原理,被测样品的颜色一定会对光谱产生影响。样品颜色不同时,无论是在含有红外活性分子的波段还是在不包含红外活性分子的波段,光的透过率都会发生变化,这就会导致所测到的光谱整体纵向偏移,颜色不同,偏移量不同。理论上,图1中从4 000~12 000 cm-1中任何一段的吸光度都会随着油脂色泽的变化产生不同偏移,利用任何一段建立色泽近红外光谱判别函数都可行,但在4 000~9 000 cm-1波段分布着油脂其他含氢基团的倍频与合频吸收,难免对色泽分析产生干扰,而9 000~12 000 cm-1是与红色最接近的短波近红外波段,其他基团的吸收非常微弱,几乎只有颜色造成的谱线偏移,因此,从中截取9 000~10 500 cm-1波段进行建模,以达到对不同级别油脂色泽的正确识别。为了避免所做的谱图预处理削弱颜色特征,本研究只采用平滑处理,利用Savitzky-Golay平滑处理后的光谱如图2所示。
1.3 建模方法及软件工具
图2 Savitzky-Golay平滑光谱
依据表1的国标,大豆油共分4个等级,一、二级大豆油为微黄或无色,三、四级大豆油为黄色或棕黄色。一级油固定黄20,红<2.0;二级油固定黄35,红<4.0;三级油固定黄70,红<4.0;四级油固定黄70,红<6.0。只有先识别出到底属于哪一类“黄”,才能定量分析它的罗维朋红值。因此大豆油色泽的近红外光谱分析既涉及定性分析又包括定量分析,定性分析是定量分析的前提,只有先实现油脂色泽的等级分类,定量分析才有意义。
由于支持向量机(Support Vector Machines,SVM)既可用于模式识别又可用于定量校正[13],而且是专门针对小样本建立的统计学习方法,在涉及到小样本数、非线性和高维数据空间的模式识别问题上表现出了许多传统模式识别算法所不具备的优势,非常适合大豆油脂色泽检测问题,因此采用SVM对大豆油脂色泽近红外光谱分析进行深入研究。
这里以罗维朋黄值作为类别,所以是一个三分类问题。但SVM本质上是二值分类器,因此本课题首先把一级油和二级油作为一类,三级油和四级油作为一类进行二值分类;分开以后,三级油和四级油不必再细分,因为它们都是“黄70”,到底属于三级油还是四级油要靠对罗维朋红值的定量回归结果判定。而一级油和二级油必须再进一步细分,因为它们的罗维朋黄值不同,分开以后再分别建立不同的定量校正模型对其罗维朋红值进行测定。
本研究利用在Matlab中调用LIBSVM软件包[14]实现SVM的训练和预测过程,定性分析采用CSVM,定量分析采用ε-SVR。
2 结果与讨论
2.1 基于C-SVM的油脂色泽定性分析
2.1.1 深色油和浅色油分类
首先将32个一级油和32个二级油合成一类称为浅色油,共64个样本,从中抽出20个做验证集,剩下44个作为训练集;将26个三级油和30个四级油合成一类称为深色油,共56个样本,从中抽出16个做验证集,剩下40个作为训练集;两类合在一起共84个训练集样本,36个验证集样本。
对于特定的问题,SVM的预测能力与所采用的核函数有很大关系,不同的核函数形成不同的算法。关于核函数的选择,目前尚无比较成熟的方法,许多文献认为在分类问题中,径向基是首选的核函数。为了判断到底哪种核函数适合油脂色泽分类,固定惩罚因子C为默认值1,调整γ值到最佳,表3列出了不同核函数对分类结果的影响。
表3 深色油和浅色油的分类结果
从表3可以看出,分类效果最差的是线性核函数,识别率为0,说明该问题属于线性不可分;其次是Sigmoid和多项式核函数,虽然训练集识别率都达到90%以上,但验证集识别率相对较低;最适合油脂色泽分类的还是径向基核函数,训练集识别率和验证集识别率都达到100%,因此决定选用径向基核函数对2种浅色油脂进一步分类。
2.1.2 一级油和二级油分类
在32个一级油样品中抽取10个作为验证集,剩下22个作为训练集,同样在32个二级油样品中也抽取10个作为验证集,剩下22个作为训练集,2类合在一起共44个训练集样本,20个验证集样本。采用径向基核函数,固定惩罚因子C为默认值1,调整建立不同的SVM分类器以获得最佳泛化能力,分类结果见表4。
表4 一级油和二级油的分类结果
可以看出,当γ值大于20时,训练集识别率和验证集识别率一直都保持100%,根据在所建模型对外部预测率尽可能高的前提条件,以支持向量数最少为原则,确定γ取25,支持向量数为9时的SVM为最佳模型。
2.2 基于ε-SVR的油脂色泽定量分析
在实现了油脂色泽的定性模式识别,即按罗维朋黄值不同实现了油脂色泽分类后,接下来的问题就是确定罗维朋红值,即对不同黄值的油脂分别建立近红外光谱数据与罗维朋红值回归校正模型。特别是对于深色油脂,黄值都是70,需要根据红值大小确定到底是属于三级油还是四级油,这时定量分析意义更大。
2.2.1 三级油和四级油色泽定量分析
在ε-SVR回归模型中,合理选择设计参数的值,对于保证支持向量机的性能至关重要。参数ε表明了对误差的期望,ε越小,回归函数估计的精度越高,但支持向量数越多;ε越大,支持向量数越少,但回归精度越低。根据油脂色泽实际检测精度要求,ε取默认值为0.1即可;通常认为,惩罚因子C的取值过小,易使训练误差变大,取值过大,又会使系统的泛化能力变差;对于核参数γ,如果取值过小,则训练误差小而测试误差大,为过学习现象;如果取值过大,则训练误差和测试误差都很大,为欠学习现象。目前尚无较好的方法确定C和γ,通常都是采用大范围搜索试验寻找模型最优解。
在56个深色油样品中,选择44个样品做为训练集,12个样品做为验证集。以径向基核函数为例,探讨惩罚参数C和核参数γ选择。根据训练集决定系数R2、校正误差均方根RMSEC,预测集决定系数R2及预测误差均方根RMSEP的数值来确定最佳参数。由于C与γ组合数目众多,无法以表格形式给出,故采用图3~图4的三维立体图来显示变化趋势。
图3 lgC、lgγ和RMSEC关系图
图4 lgC、lgγ和RMSEP关系图
图3显示了训练集的校正误差均方根RMSEC与C和γ之间的关系,可以清晰地看出,随着C的增大RMSEC减小,而γ的变化对RMSEC没有影响,从而可以得出,C变化影响的主要是SVM的自预测能力,在固定γ的情况下,C越大,模型的自预测能力越高,但是它与SVM的实际预测能力之间的关系则不确定。图4显示了预测误差均方根RMSEP与C和γ之间的关系,然而从图4中无法看出三者之间有比较明显的变化规律,但是对每一个不同的C值,都有一个使RMSEP达到最小的γ值。经过筛选最后确定,当C取1 000,γ取0.000 005时,模型的预测能力最好,校正集和预测集决定系数分别为0.992 5和0.990 1,RMSEC和 RMSEP分别为 0.078 5和0.094 3。验证集样本的预测结果见表5,真实值与预测值之间的误差均在0.2个罗维朋单位以内,且根据红值的范围确定了油脂等级。
表5 “黄70”样品的罗维朋红值预测值与真实值
2.2.2 一级油色泽定量分析
在32个一级油样品中,选择25个样品做为训练集,7个样品做为验证集。方法同上,采用径向基核函数,经过筛选最终确定当C取1 000,γ取0.1时,模型的预测能力最佳,校正集和预测集决定系数分别为0.985 2和0.978 9,RMSEC和RMSEP分别为0.061 6和0.065 3。验证集样本的预测结果见表6,真实值与预测值之间的误差均在0.2个罗维朋单位以内。
表6 “黄20”样品的罗维朋红值预测值与真实值
2.2.3 二级油色泽定量分析
在32个二级油样品中,同样选择25个样品做为训练集,7个样品做为验证集。方法同上,采用径向基核函数,经过筛选最终确定当 C取1 000,γ取0.005时,模型的预测能力最佳,校正集和预测集决定系数分别为0.982 5和0.974 7,RMSEC和RMSEP分别为0.058 7和0.076 9。验证集样本的预测结果见表7,真实值与预测值之间的误差均在0.2个罗维朋单位以内。
表7 “黄35”的罗维朋红值预测值与真实值
3 结论
本研究首先采用C-SVM对3种不同罗维朋黄值的油脂进行分类,设计出不同级别油脂的SVM分类器,识别正确率达到100%。在此基础上,对不同黄值的油脂利用ε-SVR对近红外光谱数据与罗维朋红值进行了回归,建立了不同级别油脂的SVM回归校正模型,预测误差均在0.2个罗维朋单位以内。研究表明,利用近红外光谱分析技术实现油脂色泽快速检测是完全可行的,该方法可有效避免人为主观误差,重复性好,精确度高,有利于实现油脂色泽的在线监测和调控。
[1]GB/T 22460—2008,动植物油脂 罗维朋色泽的测定[S]
[2]马利.油脂脱色工程的自动测控技术研究[D].郑州:河南工业大学,2007:1-5
[3]Wan P J,Pakarinen D R.Comparison of visual and automated colorimeter for refined and bleached cottonseed oils[J].Journal of the American Oil Chemists’ Society,1995,75:455
[4]Wan P J,Pakarinen D R,Hron R J.Refining testmethod for the determination of cottonseed oil color[J].Journal of the American Oil Chemists’Society,1996,73:815
[5]Wan P J,Hurley TW,Guy JD,et al.Final report-1996 international collaborative study ofoil color-automatedmethod versus visualmeasurements[R].Champaign:American Oil Chemists’Society Press,1996
[6]Sun Fengxia,Zhou Zhanming.Determination of oil color by image analysis[J].Journal of the American Oil Chemists'Society,2001,78(7):749-752
[7]陈彩虹,唐怀建,罗松明.油脂颜色测定的研究[J].河南工业大学学报,2005,26(5):75-77
[8]张敏,祁金刚,刘保垣,等.基于TMS320VC6412的玉米油脂质量快速检测仪器的设计[J].长春师范学院学报,2006,25(1):37-39
[9]管力明,胡更生,林剑.近红外光谱在印刷品颜色检测中的应用[J].中南大学学报,2009(6):1655-1659
[10]刘勋.NIRS结合计算机图像处理技术分析油菜籽粒色及数学模型的创建[D].西南大学,2010(5):20-21
[11]文建萍,陈兴苗,孙旭东,等.可见近红外漫反射光谱法测定赣南脐橙的表面色泽[J].安徽农业科学,2007,35(36):11805-11806
[12]梁家杰,潘涛,陈星旦,等.白砂糖色值近红外光谱分析的波段选择[J].红外技术,2009,31(2):90-94
[13]Belousov A l,Verzakov S A,Von Frese J.Applicational aspects of support vector machines[J].Journal of Chemometrics,2002,16:482-489
[14]Chih-jen Lin.LIBSVM:A library for support vectormachines[EB/OL].www.csie.ntu.edu.tw/-cjlin/libsv.
Near-Infrared Spectroscopy Analysis of Soybean Oil Color Based on SVM
Wang Liqi1Cui Yue1Zhang Huan2Liu Fei2Li Guibin1Ge Huifang1Yu Dianyu2
(School of Computer and Information Engineering,Harbin University of Commerce1,Haerbin 150028)(School of Food,Northeast Agricultural University2,Haerbin 150030)
The paper has been aimed at the problems of Lovibond tintometer in determination of oil color.The experiment has presented a near-infrared spectrum analysismethod for soybean oil color detection based on SVM.First,three categories of soybean oil with different Lovibond yellow values were recognized by C-SVM.The SVM classifierswhichmight be suitable for near-infrared spectral recognition of soybean oil colorwere designed then.The recognition correct rate had achieved 100%.Second,for the oils with different Lovibond yellow values,the regressions between near-infrared spectral data and Lovibond red valueswere conducted byε-SVR.The SVM correction models for different grade soybean oil color were established respectively.The prediction errors could be controlled within 0.2 Lovibond Unit.The research demonstrated that itwould be feasible to use near-infrared spectrum technology to realize qualitative and quantitative analysis of oil color.Themethod proposed in the paper can be a reference for further implementing on-linemonitoring and control of oil color.
near-infrared spectroscopy,oil color,Support Vector Machines(SVM)
TQ646
A
1003-0174(2015)08-0115-05
国家自然科学基金(31271886),黑龙江省高校科技成果产业化前期研发培育项目(1253CGZH22),哈尔滨商业大学博士科研启动项目(12DL023)
2014-03-24
王立琦,女,1966年出生,教授,测试计量技术及仪器
于殿宇,男,1964年出生,教授,粮食、油脂与植物蛋白工程