APP下载

可见/近红外结合MIA变量优选和支持向量机判别山茶油的制取方式

2014-03-03魏小梅许文丽刘木华

食品工业科技 2014年20期
关键词:山茶油波长边界

孙 通,魏小梅,胡 田,许文丽,刘木华,*

(1.江西农业大学生物光电技术及应用重点实验室,江西南昌 330045;2.南昌市青山湖区食品化妆品监督所,江西南昌 330029)

可见/近红外结合MIA变量优选和支持向量机判别山茶油的制取方式

孙 通1,魏小梅2,胡 田1,许文丽1,刘木华1,*

(1.江西农业大学生物光电技术及应用重点实验室,江西南昌 330045;2.南昌市青山湖区食品化妆品监督所,江西南昌 330029)

山茶油的主要制取方式有压榨法和浸出法,且压榨山茶油的品质优于浸出法。本研究利用可见/近红外光谱技术结合化学计量学对山茶油的制取方式进行判别研究。采集不同制取方式的山茶油样本在350~1800nm波段范围的可见/近红外光谱,利用边界影响分析(margin influence analysis,MIA)新方法进行波长变量优选,并应用支持向量机(support vector machines,SVM)对优选的波长变量建立山茶油制取方式的判别分类模型。结果表明:可见/近红外光谱联合MIA-SVM方法判别山茶油的制取方式是可行的,其校正集和预测集样本的灵敏度、特异性及正确率分别为100%、87.50%、93.75和100%、87.50%、93.75%。说明MIA是一种有效的波长变量选择方法,能简化分类模型,提高分类模型的稳定性和预测精度。

可见/近红外,边界影响分析,支持向量机,制取方式判别,山茶油

山茶油是我国特有的优质食用植物油,享有“油王”、“油中珍品”及“东方橄榄油”的美誉[1]。山茶油的主要制取方式有压榨法和浸出法。压榨法出油率低,但能保持原料的原有风味和营养成分;浸出法则出油率高,但会破坏油脂的部分天然成分且有溶剂残留。目前,大多油脂企业均采用先压榨后浸出的方式制取山茶油,即先对山茶籽进行压榨获得压榨山茶油,再对压榨后的油饼利用浸出法进行充分提取,提高出油率。因此,与浸出山茶油相比,压榨山茶油的品质更优且售价高。为了牟取暴利,一些不法商人将浸出山茶油掺入压榨山茶油或直接作为压榨山茶油出售,严重损害消费者的利益。因此,非常有必要对山茶油的制取方式进行判别研究。

可见/近红外光谱技术是一种快速、无损、绿色的现代分析技术。目前,该技术已用于果蔬[2]、葡萄酒[3]、茶叶[4]、奶粉[5]、蜂蜜[6]、卷烟[7]等品种判别或真伪判别。对于山茶油的掺假检测及真伪判别,国内外仅有少部分学者进行了一些研究[8-10],但尚未有山茶油制取方式的判别研究。本研究利用可见/近红外光谱技术对山茶油的制取方式进行判别研究。采用边界影 响 分 析(margin influence analysis,MIA)变 量 选 择新方法对光谱波长变量进行优选,然后应用支持向量机(support vector machines,SVM)方法建立山茶油制取方式的判别分类模型。最后,利用未参与建模的预测集样本对判别分类模型性能进行评价。

1 材料与方法

1.1 材料与仪器

本研究采用的山茶油样本 共有80个,压榨和浸出方式制取的山茶油样本各有40个;山茶油样本 由江西各地区出入境检验检疫局收集提供,各样本均为独立样本。

QualitySpec型可见/近红外光谱仪 ASD公司,美国,配有低噪声512阵元PDA探测器(350~1000nm)和InGaAs探测器(1000~1800nm),光谱采样间隔为1nm;High Intensity Contact Probe卤钨灯光源 ASD公司,美国,色温为2627.85℃,功率为6.5W。

1.2 实验方法

1.2.1 样本分配及光谱采集 将样本按照3∶2比例随机分配到校正集和预测集。校正集样本为48个,压榨和浸出方式制取的山茶油样本各有24个,用于建立判别分类模型;预测集样本为32个,压榨和浸出方式制取的山茶油样本各有16个,用于评价判别分类模型性能。

将不同制取方式的山茶油样本置于1cm的比色皿中,样本光谱采集参数设置如下:光谱扫描时间为34ms,扫描次数为10次。每个山茶油样本采集3次光谱,取平均光谱用于后续的分析。

1.2.2 光 谱 预 处 理 采 用 多 元 散 射 校 正(multiple scatter correction,MSC)、标准正态变量变换(standard normal variate,SNV)、一阶微分及二阶微分方法对样本光谱进行预处理,分析不同光谱预处理方法对判别分类模型性能的影响,并确定较优的光谱预处理方 法 。 光 谱 预 处 理 分 析 在Unscrambler X 10.1 软 件(CAMO公司,挪威)里运行完成。

1.2.3 MIA变量选择 MIA是一种基于模型集群分析(model population analysis,MPA)思想的新变量选择方法。MIA通过建立一系列的支持向量机(support vector machines,SVM)分类模型,并对SVM分类模型的边界进行统计分析,边界越大则SVM模型性能越好,某变量能使SVM分类模型的边界增大,表明该变量可能包含有用信息。MIA的基本步骤如下:a.通过蒙特卡罗抽样获得N个数据子集;b.对N个数据子集分别建立N个SVM分类模型;c.对N个SVM分类模型的边界进行统计分析,以变量i为例,分别统计包含变量i和不包含变量i的SVM分类模型的边界平均值,分别记为Imeani和Emeani,Imeani<Emeani的变量被认为对模型无贡献被剔除;d.对剩余的变量进行Mann-Whitney U和Holm-Bonferroni检验,将变量的p值与设定的阈值相比较,p值小于设定阈值的变量为有用信息变量。MIA的具体算法原理参见文献[11-12]。本研究中,MIA变量选择的参数设置如下:蒙特卡罗抽样次数为10000,SVM惩罚因子为1,蒙特卡罗抽样变量数为38,显著水平为0.05。MIA变量选择分析在MATLAB 7.6.0(The Math Works,美国)里运行完成。

1.2.4 SVM 经MIA变量优选后,采用SVM方法建立山茶油制取方式的判别分类模型。本研究中,压榨制取方式的类别值为1,浸出制取方式的类别值为-1。SVM方法的参数设置如下:核函数为线性,惩罚因子为1。SVM分析[13]在MATLAB 7.6.0(The Math Works,美国)里运行完成。

山茶油制取方式的判别分类模型性能由灵敏度、特异性及正确率等指标评价。灵敏度为压榨制取方式的山茶油样本中正确判别为压榨制取方式的山茶油样本的比率,特异性为浸出制取方式的山茶油样本中正确判别为浸出制取方式的山茶油样本的比率。

2 结果与讨论

2.1 光谱预处理分析

图1为压榨和浸出制取方式的山茶油样本的可见/近红外光谱。从图1可以看出,所有山茶油样本的光谱均非常接近,肉眼难以区分差别,需要采用化学计量学方法提取有用信号。图1中,光谱在1000~1800nm波段范围内存在明显的波峰和波谷,而在350~1000nm波段范围内较为平坦。光谱在两端存在一些噪声,为了减弱噪声的影响,后续的分析在500~1780nm波段范围内进行,该波段范围内共有1281个波长变量。

图1 压榨和浸出制取方式的山茶油样本的可见/近红外光谱Fig.1 Vis/NIR spectra of pressed and extracted camellia oil samples

为了研究光谱预处理方法对判别分类模型性能的影响,采用不同的光谱预处理方法对校正集样本光谱进行预处理,并应用SVM交叉验证建立判别分类模型。表1为不同光谱预处理的山茶油制取方式的SVM交叉验证判别分类模型结果。从表1可以看出,SVM结合MSC光谱预处理所建立的判别分类模型性能最优,SNV及一阶微分预处理方法次之,而二阶微分和原始光谱最差。最优分类模型的灵敏度、特异性及正确率分别为100%、87.5%和93.75%。因此,后续的数据分析将在MSC预处理后的样本光谱上进行。

表1 不同光谱预处理的山茶油制取方式的SVM交叉验证分类模型结果Table 1 Results of cross validation SVM for produce method of camellia oils at different pretreatment methods

2.2 MIA变量选择

采用MIA变量选择方法对MSC预处理后的校正集样本光谱进行变量选择。对10000个SVM分类模型的边界进行统计分析,分别统计包含变量i和不包含变量i的SVM分类模型的边界平均值,若包含变量i后使得边界平均值下降则认为该变量为无用信息变量。图2为1779nm和593nm波长变量的边界分布。从图2(a)可以看出,对于1779nm波长变量,包含1779nm波长变量的SVM分类模型的边界分布处于右边,而不包含1779nm波长变量的SVM分类模型的边界分布处于左边,即包含1779nm波长变量的SVM分类模型的边界平均值大于不包含1779nm波长变量的SVM分类模型的边界平均值,表明1779nm波长变量可能为有用信息变量。从图2(b)可知,对于593nm波长变量,包含593nm波长变量的SVM分类模型的边界平均值小于不包含593nm波长变量的SVM分类模型的边界平均值,表明593nm波长变量为无用信息变量,需要被剔除。对于500~1780nm波段范围内的1281个波长变量,经统计发现共有1073个波长变量使得SVM分类模型的分界下降,此类波长变量均被作为无用信息变量而剔除,共剩余208个波长变量。

对剩余的208个波长变量进行Mann-Whitney U和Holm-Bonferroni检验,并将每个波长变量计算获得的p值与设定的阈值(p=0.05)进行比较,p值小于设定的阈值的波长变量作为有用信息变量而保留。经计算,共有100个波长变量被保留。图3为被保留的有用信息波长变量的分布。

图2 1779nm和593nm波长变量的边界分布Fig.2 Margin distributions of two wavelength variables of 1779nm and 593nm

图3 MIA方法选择的波长变量的分布Fig.3 Distribution of wavelength variables selected by MIA method

2.3 模型建立及预测

采用SVM方法对优选后的波长变量建立判别分类模型,对校正集和预测集样本进行预测,并与常用的分类方法结果进行比较。从表2可以看出,经MIA变量优选后建立的SVM判别分类模型对校正集和预测集样本的预测结果相近,校正集和预测集样本的灵敏度、特异性及正确率分别为100%、87.5%、93.75和100%、87.5%、93.75,分类模型性能较为稳定。由此表明,可见/近红外光谱结合MIA-SVM方法可以用于山茶油制取方式的判别。

此外,全光谱建立的SVM判别分类模型对校正集和预测集样本的预测结果相差较大,校正集预测结果明显优于预测集,判别分类模型可能由于波长变量过多而存在过拟合。与全光谱的SVM判别分类模型相比,MIA-SVM判别分类模型的稳定性及预测精度均有所提高。与UVE-SVM及PCA-SIMCA判别分类模型相比,MIA-SVM判别分类模型的预测结果略优。由此可见,MIA是一种有效的波长变量选择方法,能简化分类模型,提高分类模型的稳定性和预测精度。图4为MIA-SVM判别分类模型对预测集样本的预测结果。X轴为样本的真实类别值,Y轴为样本的预测类别值。当预测类别值处于0以下时,样本则归类于浸出山茶油(类别值为-1),反之归类于压榨山茶油(类别值为1)。

表2 校正集和预测集样本的SVM判别分类模型的预测结果Table 2 Predicted results of SVM classification models for calibration and prediction sets

图4 MIA-SVM判别分类模型的预测集样本的预测结果Fig.4 Predicted results of samples in prediction set by MIA-SVM

3 结论

本研究利用可见/近红外光谱联合MIA-SVM方法对山茶油的制取方式进行判别研究。研究结果表明,可见/近红外光谱联合MIA-SVM方法判别山茶油的制取方式是可行的,其校正集和预测集样本的灵敏度、特异性及正确率分别为100%、87.50%、93.75和100%、87.50%、93.75%。说明MIA是一种有效的波长变量选择方法,能简化分类模型,提高分类模型的稳定性和预测精度。

[1]梁雨祥. 试谈我国油茶和优质山茶油的产业 化开发[J]. 宏观经济研究,2006(1):25-27.

[2]杨冬风,朱洪德.基于近红外透射光谱分析和BP 神经网络的大豆品种识别[J]. 大豆科学,2013,32(2):249-253.

[3]郭海霞,王涛,刘洋,等.基于可见-近红外光谱技术的葡萄酒真伪鉴别的研究[J].光谱学与光谱分析,2011,31(12):3269-3272.

[4]周健,成浩,叶阳,等.基于近红外的Fisher分类法识别茶叶原料品种的研究[J]. 光学学报,2009,29(4):1117-1120.

[5]Wu D,Feng S,He Y.Short-wave near-infrared spectroscopy of milk powder for brand identification and component analysis [J].Journal of Dairy Science,2008,91(3):939-949.

[6]Chen LZ,Xue XF,Ye ZH,et al.Determination of Chinese honey adulterated with high fructose corn syrup by near infrared spectroscopy[J].Food Chemistry,2011,128(4):1110-1114.

[7]Moreiraa EDT,Pontesa MJC,Galvãob RKH,et al.Near infrared reflectance spectrometry classification of cigarettes using the successive projections algorithm for variable selection[J].Talanta,2009,79(5):1260-1264.

[8]Wang L,Lee FSC,Wang X,et al.Feasibility study of quantifying and discriminating soybean oil adulteration in camellia oils by attenuated total reflectance MIR and fiber optic diffuse reflectance NIR[J].Food Chemistry,2006,95:529-536.

[9]张菊华,朱向荣,尚雪波,等.近红外光谱结合偏最小二乘法用于油茶籽油中掺杂菜籽油和大豆油的定量分析[J]. 食品工业科技,2012,33(3):334-336.

[10]Li S,Zhu X,Zhang J,et al.Authentication of pure camellia oil by using near infrared spectroscopy and pattern recognition techniques[J].Journal of Food Science,2012,77(4):C374-C380.

[11]Li H,Liang Y,Xu Q,et al.Recipe for uncovering predictive genes using support vector machines based on model population analysis[J].Transactions on Computational Biology and Bioinformatics,2011,8(6):1633-1641.

[12]Li H,Liang Y,Xu Q,et al.Model population analysis for variable selection[J].Journal of Chemometrics,2010,24(7-8):418-423.

[13]Chang CC,Lin CJ.LIBSVM:a library for support vector machines[J].Transactions on Intelligent Systems and Technology,2011,2(3):27.

Discrimination of extraction method of camellia oil by Vis/NIR spectra and MIA-SVM

SUN Tong1,WEI Xiao-mei2,HU Tian1,XU Wen-li1,LIU Mu-hua1,*
(1.Optics-Electronics Application of Biomaterials Lab,Jiangxi Agricultural University,Nanchang 330045,China;2.Food Cosmetics Supervision Institute,Nanchang 330029,China)

The main ways of camellia oil production are pressing and extraction,and the quality of pressed camellia oil is superior to extracted camellia oil.The objective of this research was to discriminate extraction method of camellia oil by visible/near infrared ( Vis/NIR ) spectroscopy.Spectra of camellia oil samples extracted by different methods were acquired in the wavelength range of 350~1800nm.Margin influence analysis (MIA) was used to select sensitive wavelength variables , then support vector machines ( SVM ) was used to develop classification model for extraction method of camellia oil using the selected wavelength variables.The results indicate that Vis/NIR spectra combined with MIA-SVM method is feasible for discriminating extraction method of camellia oil,the sensitivity,specificity and accuracy of classification model for samples in calibration and prediction sets are 100%,87.50%,93.75%and 100%,87.50%,93.75%,respectively.This demonstrates that MIA was an effective variable selection method,it could simplify classification model,improved stability and prediction accuracy of classification model.

Visible/near infrared ; margin influence analysis ; support vector machines ; extraction method discrimination;camellia oil

TS227

A

1002-0306(2014)20-0062-04

10.13386/j.issn1002-0306.2014.20.004

2014-01-02

孙通(1983-),男,博士,讲师,研究方向:农产品/食品品质与安全的无损检测。

* 通讯作者:刘木华(1969-),男,博士,教授,主要从事农产品、食品质量光学无损检测方面的研究。

国家自然科学基金(31271612);江西省自然科学基金(20132BAB214010);江西省教育厅科学研究基金(GJJ13254);江西农业大学科学研究基金(QN201105)。

猜你喜欢

山茶油波长边界
江西省新余市推进山茶油专项整治工作
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
广西首次公开发布山茶油团体标准
拓展阅读的边界
山茶油成为现代人的“新食尚”
论中立的帮助行为之可罚边界
双波长激光治疗慢性牙周炎的疗效观察
日本研发出可完全覆盖可见光波长的LED光源
百色市地产山茶油中43种元素含量研究
便携式多用途光波波长测量仪