APP下载

近红外光谱和多分类器融合的葡萄酒品种判别研究

2016-07-12李雪莹栾丽丽胡文雁王宇恒李景明李军会劳彩莲赵龙莲

光谱学与光谱分析 2016年11期
关键词:分类器葡萄酒光谱

李 凯,李雪莹,栾丽丽,胡文雁,王宇恒,李景明,李军会,劳彩莲,赵龙莲*

1. 中国农业大学信息与电气工程学院,北京 100083 2. 中国农业大学食品科学与营养工程学院,北京 100083

近红外光谱和多分类器融合的葡萄酒品种判别研究

李 凯1,李雪莹1,栾丽丽1,胡文雁1,王宇恒1,李景明2*,李军会1,劳彩莲1,赵龙莲1*

1. 中国农业大学信息与电气工程学院,北京 100083 2. 中国农业大学食品科学与营养工程学院,北京 100083

将多种单分类器模型融合,并用融合后的模型对不同品种干红葡萄酒进行判别分析。用BRUKER MPA傅里叶变换型近红外光谱仪采集170个干红葡萄酒样品的近红外透射光谱,选取PLS-DA,SVM,Fisher和AdaBoost作为单分类器建模方法,分别建立葡萄酒品种判别模型,通过差异性度量值对单分类器进行筛选,得到差异性较大的四个单分类器作为基分类器,其中基分类器对测试集葡萄酒品种判别准确率最高为88.24%,最低为81.18%。然后通过加权投票机制对基分类器进行融合,融合后的模型对测试集葡萄酒品种判别准确率提高至92.94%,误判样品个数由单分类器最少的9个降为6个。实验结果表明多分类器融合所建立的模型优于传统近红外光谱定性分析一般采用单分类器模型结果,提高了葡萄酒品种判别的准确性,采用基于近红外光谱的多分类融合方法对葡萄酒种类判定具有可行性。

葡萄酒;多分类器融合;差异性度量;近红外

引 言

干红葡萄酒标签上的品种信息,如赤霞珠、美乐等,指的是用于酿酒的葡萄的品种信息。酿酒葡萄的品种对干红葡萄酒的风格和质量起着非常重要的作用。不同品种的酿酒葡萄其色泽、形态及所含成分不同,而葡萄的颜色、皮的厚度及酸、糖、多酚类等物质的含量直接影响着酒的色、香、味,因此不同品种的葡萄酿制出的葡萄酒品质不同。对不同品种葡萄酒的鉴别主要有感官评价和理化分析的方法。感官评价是鉴别葡萄酒质量的有效方法,一般是通过品酒师的目测、鼻嗅、口尝等对葡萄酒做出评价和检验[1],因此对品酒师的经验有一定的依赖性。理化分析的方法可以反应出葡萄酒中的某些化学成分,但这些成分的有无或含量多少与葡萄酒质量间的对应关系较难确立。感官评价和大部分理化分析的方法都难以实现大批量样品的快速鉴别。因此,实现不同品种葡萄酒的快速鉴别具有一定的理论意义和实用价值。光谱法,特别是近红外光谱法(near infrared spectroscopy,NIR)是一种比较理想的能够快速鉴别不同品种葡萄酒的方法[2]。

在近红外光谱定性分析中,传统的建立判别模型的方法一般采用单一的模型,即首先建立一个最优判别模型(分类器),然后应用该最优模型进行未知样品的判别分析。多分类器融合是相对于传统的单分类模型方法提出的,其基本思路是将从多个单分类器得到的分类信息通过某种方式进行综合,即将多个预测结果通过一定的规则,形成一个共识的最终结果[3]。通过对不同的、具有一定互补性的多种分类器的分类结果进行有效融合,有可能提高目标分类的判别效果。

基于光谱的多分类器融合方法在农业、食品等领域已有应用。杨燕等基于可见-近红外光谱技术结合多分类器融合方法实现了蜂蜜蜜源的快速无损识别[4]。祝志慧等则采用多分类器融合方法对异物蛋和正常蛋透射光谱进行检测判别,结果表明多分类器融合所建立的模型优于单一分类器模型[5]。本文以我国酿酒葡萄的三个主栽品种: 赤霞珠、美乐、蛇龙珠所酿制的干红葡萄酒为研究对象,针对其近红外光谱,尝试利用多种判别分析方法相结合,建立一种多分类器融合判定不同品种葡萄酒的分析方法。

1 实验部分

1.1 材料

三类不同品种干红葡萄酒样品共170个,由中国农业大学葡萄与葡萄酒研究中心提供。其中蛇龙珠(Cabernet Gernischet)葡萄酒样品31个,美乐(Merlot)葡萄酒样品40个,赤霞珠(Cabernet Sauvignon)葡萄酒样品99个。按照蛇龙珠、美乐、赤霞珠顺序进行编号,三类葡萄酒样品的具体信息详见表1。

表1 葡萄酒样品品种、产地及数量

1.2 仪器与光谱采集

葡萄酒样品近红外光谱的采集所用仪器为布鲁克光谱仪器公司的MPA傅里叶变换型近红外光谱仪,采用透射方式,以空气为参比,样品池光程为1 mm,扫描范围为3 900~12 500 cm-1,光谱分辨率为8 cm-1,扫描次数为32次(光谱仪将32次扫描结果的平均值作为一次数据保存下来)。

图1为3 900~12 500 cm-1谱区范围内170个葡萄酒样品的近红外透射光谱图,由图可见,所有光谱接近重合,难以直接从光谱图中区分不同品种的葡萄酒样品,必须借助化学计量学方法。光谱图中除4 000 cm-1处的非吸收峰,其他各峰的来源如下: 因为葡萄酒样品中水分含量最高,所以谱图中水和O-H基团的合频吸收峰5 150 cm-1和二倍频吸收峰6 900 cm-1是最大的两个峰;谱图中其他比较明显的吸收峰分别为4 200~4 500 cm-1处葡萄酒各组分中C—H基团的合频吸收,以及5 600~6 000 cm-1处C—H基团的二倍频吸收。5 150 cm-1处峰的吸光度大于3,因此透过葡萄酒样品的近红外光非常微弱,极易受到噪声的影响[6]。此外,谱区10 000~12 000 cm-1内所含信息量少,信噪比低;因此实际建模时剔掉以上两个波段,选取4 150~4 892 cm-1以及5 365~9 872 cm-1两个波段为分析对象。

图1 葡萄酒样品近红外透射光谱图

2 多分类器融合

2.1 单分类器原理介绍

在近红外光谱定性分析中,偏最小二乘定性判别法(PLS-DA)、支持向量机法(support vector machine, SVM)、费舍尔(Fisher)线性判别法、AdaBoost机器学习算法等都是比较常用的方法。PLS-DA是基于定量偏最小二乘(PLS)基础上的定性判别方法,只是将输出变量改为类别标签;SVM的基本思想是寻找最优分类线性超平面,并把寻找最优线性超平面算法归结为求解一个凸规划问题;Fisher线性判别是一种经典分类算法,遵循类间离散度与类内离散度比值最大的原则来确定原始向量的投影方向,使各类别之间达到最大程度的分离,从而实现正确的分类。AdaBoost算法核心思想是“关注”被错分的样品,“器重”性能好的弱分类器,每次循环,错误分类的样品赋予较大权值,被正确分类的样品权值较小,每次的循环产生一个弱分类器,并调整每个分类器的权值,最后采用加权投票法对分类器集成[7-8]。

上述四种单分类器建模方法在农产品品质检测分类等方面有不同程度的应用[9-10],故选取这四种方法作为单分类器的建模方法,将其用于不同品种葡萄酒的判别,然后根据四种单分类器的判别效果和差异性,进行多分类器的融合。

2.2 多分类器融合原理

多分类器融合是将具有差异性的不同单分类器结合,根据每个单分类器的判定结果,融合形成最终的分类输出结果。根据输出信息的不同,多分类器融合可以分为输出为决策层的多分类器融合、输出为排序层的多分类器融合、输出为度量层的多分类器融合[7]。本工作采用输出为决策层的多分类器融合,而融合的方法则采用加权投票机制。首先对采集的葡萄酒光谱利用多种建模方法建立单分类器模型,因为分类算法、光谱预处理方法、特征提取等的组合有很多种,所以一般根据经验按照建模集和检验集判别正确率、主成分个数等因素选取合适的单分类器,保证每一个入选的单分类器本身具有较好的判别能力;然后计算每两个分类器的差异性度量值,按照差异性度量值选择差异性较大的单分类器作为进行融合的基分类器;最后对选择的基分类器按照加权投票方法进行多分类器融合,利用得到的多分类器对葡萄酒样品进行种类判别。

3 结果与讨论

3.1 单分类器选择原则—差异性度量

一般认为,多分类器融合选择的各个单分类器输出结果如果一致或者相似,则融合之后的多分类器对系统的优化较小,因此选择的单分类器必须存在差异性,即要筛选差异性较大的分类器,这就是单分类器的差异性度量。Kancheva在其所写的论文中总结了10种分类器差异性度量方法[11]。本差异性度量方法选择Q统计法。假设有两个不同算法的分类器Di和Dj,每个分类器对葡萄酒样品的判别结果存在以下关系(见表2)。

表2 2×2的成对分类器关系表

其中,N(总样品数)=N11+N10+N01+N00

Q统计方法对于两个不同分类器Di和Dj之间的差异性定义如下

(1)

式中,Qi, j的数值变化范围在-1~1区间,如果两个分类器都趋于同样的样品判断一致,则Qi, j值则为正值,否则相反,Qi, j为负值,如果Qi, j为1则表明两个分类器对样品做出相同的正确或错误判断[12]。

3.2 不同品种干红葡萄酒单分类器筛选过程分析

170个三类不同品种的干红葡萄酒样品按照1∶1的比例随机分割成建模集与检验集,因此建模集与检验集各有85个样品。选用PLS-DA,SVM,Fisher和AdaBoost四种方法作为干红葡萄酒样品单分类器的建模方法,其中AdaBoost每次迭代分类采用CART算法。还考察了不同谱区范围(建模的谱区分为4 150~4 892和5 365~7 500 cm-1以及4 150~4 892和5 365~9 872 cm-1两种)、不同主成分个数在多分类器融合过程中的影响。根据建模集和检验集判别正确率,筛选出正确率较高且建模集与检验集正确率较为接近的模型作为单分类器模型,得到以下6个单分类器模型,见表3。其中PLS-DA,FISHR_1,AdaBoost建模谱区范围为4 150~4 892和5 365~9 872 cm-1;SVM_1,SVM_2,FISHR_2建模谱曲范围为4 150~4 892和5 365~7 500 cm-1;SVM_1建模选取6个主成分,SVM_2建模选取5个主成分。各单分类器的判别准确率见表3。

表3 单分类器判别准确率

对以上六种分类器,按照Q统计方法,即式(1),计算各分类器之间的差异性度量值,得到Q统计方法下的各个单分类器两两之间的差异性度量值,见表4。

进行多分类融合的单分类器模型不仅仅要有较高的建模集和检验集准确率,还要具有一定的差异性,这样才能充分利用单个分类器的优势。由表4可以看出,PLS-DA与FISHER_2分类器的Qi, j为0.993 2,说明PLS-DA与FISHER_2分类器对葡萄酒品种判定结果基本相同,不具有一定差异性。PLS-DA与其他分类器的Qi, j均小于FISHER_2的Qi, j,说明PLS-DA相对于与其他分类器具有较好的差异性,可以选取PLS-DA作为其中一个单分类器,则舍弃FISHER_2分类器;同理,SVM_1与SVM_2分类器的Qi, j为0.989 8,比较两种分类器与其他分类器的Qi, j可以得出SVM_1具有较好差异性,因此采用SVM_1分类器,舍弃SVM_2分类器;虽然FISHER_1和AdaBoost建模集和检验集判别准确率都一致,但二者误判样品并不相同,所以两个分类器仍有较大差异。经比较分析,最终得到差异性较大的四种单分类器,即PLS-DA,SVM_1,FISHER_1和AdaBoost。这四种单分类器模型有很好的差异性,且有较高的建模集和检验集准确率,可以作为基分类器进行多分类器融合。

表4 各分类器的差异性度量值

3.3 多分类器融合—加权投票机制

目前多分类器常见的融合方法有投票法、证据理论方法、神经网络法、模糊积分方法等[12-13]。其中,投票法是对各个单分类器所支持的检验集样品进行投票,少数服从多数,多半以上通过为原则作为判定结果的分类。投票法又分为两类: 第一类为每个单分类器的权值都相同,即投票过程中,单分类器的投票权重是相同的;第二类则是根据每个单分类器对于建模集样品结果的影响大小的不同,对它们的输出结果按照影响的不同分配相应的权值系数[14]。

采用第二种投票机制,根据每个单分类器本身的识别效果不同,通过建模集的识别准确率来确定四种分类器的权值参数,设PLS-DA,SVM,Fisher,AdaBoost对建模集的判别准确率分别为P1,P2,P3,P4,则权重值的计算公式如下

(2)

其中,αi(i=1, 2, 3, 4)对应PLS-DA,SVM,Fisher,AdaBoost单分类器的权重值,且α1+α2+α3+α4=1。

3.4 不同品种干红葡萄酒多分类器融合结果分析

根据3.2筛选出的单分类器模型对建模集样品的判别结果,利用式(2)计算得到各个单分类器的权重α1,α2,α3,α4分别为0.247 6,0.270 6,0.240 9和0.240 9。根据得到的单分类器权值数据,可以得出最后融合后的分类器模型,其分类判别公式为

Classify=0.247 6classifierPLS-DA+0.270 6classifierSVM_1+

0.240 9classifierFisher_1+0.240 9classifierAdaBoost

(3)

Classify是表示由四个单分类器集成后的分类器,用式(3)对葡萄酒样品检验集进行测试,得到最终融合后结果,如表5所示。

表5 融合前后测试集判别结果

由表5中错判样品编号数据信息得知,四种单分类器对于4, 9, 23, 25四个编号的样品都判别错误,融合后仍然错判,说明这三个样品无法通过融合分类器修正;20和67两个编号样品则是由于判别错误的单分类器权值过高也无法进行修正;其余的单分类器的错误样品则均可以通过融合分类器修正后得到正确的判别结果;最终融合分类器的检验集判别准确率为92.94%。由表5可知,单分类器所建立的模型,检验集判别准确率最高为88.24%,有九个判错样品,最低准确率为81.18%,有16个判错样品。通过建立多分类器融合,对葡萄酒检验集进行判别,将葡萄酒判别准确率由88.24%提高到了92.94%,比最高的单分类器准确率提高了4.7%,检验集错判样品个数则从最少的9个降至6个,说明融合后的分类器提高了原来单分类器的判别准确率。多次测试结果表明融合后得到的分类器能够充分利用原来单分类器信息,显著提高了葡萄酒分类的检测准确率。

4 结 论

PLS-DA,SVM,Fisher,AdaBoost作为分类器有着自身不同的特点,基于四种单独的算法建立单分类器模型,对葡萄酒样品检验集进行检测,得到相应各自的判别准确率,通过差异性度量方法筛选出差异性较大的四种单分类器,其中单分类器模型的检验集最高判别准确率为88.24%,错判样品个数最少为九个。在通过加权投票机制,建立多分类器加权融合模型,再次对测试集样品进行判别,得到检验集的判别准确率为92.94%,错误样品个数降为六个,较单分类器的最高判别准确率提高4.7%,错判样品减少三个,多分类器融合模型的判别准确率有了较大提高。四种单分类器进行有效的融合,使各种单分类器之间性能互补,从而使判别结果有了显著提升。因此,采用基于近红外光谱的多分类器融合方法鉴别葡萄酒种类是可行的,并且相比单分类器有一定优势。

[1] LI Hua(李 华). Wine Testing(葡萄酒品尝学). Beijing: Science Press(北京: 科学出版社), 2006.

[2] PENG De-hua, CAO Jian-hong(彭德华,曹建宏). A Free Discussion about Self-Brewed Wine(葡萄酒自酿漫谈). Beijing: Chemical Industry Press(北京: 化学工业出版社), 2012.

[3] Shipp C A,Kuncheva L I. Information Fusion, 2002, 3(2): 135.

[4] YANG Yan, NIE Peng-cheng, YANG Hai-qing,et al(杨 燕,聂鹏程,杨海清,等). Transactions of the CSAE(农业工程学报), 2010,26(3): 238.

[5] ZHU Zhi-hui, XIE De-jun, LI Wan-qing, et al(祝志慧, 谢德君, 李婉清,等). Transactions of the CSAE(农业工程学报),2015, 31(2): 312.

[6] TAO Si-jia, LI Meng-hua, LI Jing-ming, et al(陶思嘉,李梦华,李景明,等). Chinese Journal of Analytical Chemistry(分析化学), 2014, 42(2): 215.

[7] Altincay H, Demirekler. Pattern Recognition Letters,2003,24(9-10): 1163.

[8] CAO Ying, MIAO Qi-guang, LIU Jia-chen, et al(曹 莹, 苗启广, 刘家辰,等). Acta Automatica Sinica(自动化学报), 2013, 39(6): 745.

[9] Chen Xiaojing, Wu Di, He Yong, et al. Analytica Chimica Acta, 2009, 638(1): 16.

[10] FAN Shu-xiang, HUANG Wen-qian, LI Jiang-bo, et al(樊书详,黄文倩,李江波,等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(10): 2707.

[11] Kuncheva L I, Whitaker C J. Machine Learning, 2003,51(2): 181.

[12] XUE Mei, ZHENG Quan-di(薛 梅,郑全弟). Computer Engineering and Design(计算机工程与设计), 2010, 31(23): 5104.

[13] Kittler J, Hatef M, Duin, R P W, et al. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(3): 226.

[14] Sun S. Pattern Recognition Letters, 2010, 31(2): 119.

(Received Sep. 3, 2015; accepted Jan. 14, 2016)

*Corresponding authors

Determination of Wine Varieties with NIR and Fusion of Multiple Classifiers

LI Kai1, LI Xue-ying1, LUAN Li-li1, HU Wen-yan1, WANG Yu-heng1, LI Jing-ming2*, LI Jun-hui1, LAO Cai-lian1,ZHAO Long-lian1*

1. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China 2. College of Food Science & Nutrition Engineering, China Agricultural University, Beijing 100083, China

The conventional qualitative analysis of near infrared spectroscopy (NIR) commonly uses one single classification model. This paper focused on the fusion of multiple classifiers based on different single classifiers by using the fused classifier to determine different varieties of red-wines. NIR spectra of 170 red-wine samples were collected by using Fourier transform near-infrared spectrometer. Red-wine classification models were established respectively, based on PLS-DA, SVM, Fisher and AdaBoost. Then these models were selected to obtain some different base classifiers according to Diversity Measure Feature Selective (DMFS). The highest accuracy rate of determining different varieties of red-wine test samples of four single base classifiers was up to 88.24%, and at the same time the lowest discriminant accuracy rate was 81.18%. At last, we got the fused classifier, which combined four base classifiers with weighted voting principle, and determined its test set again by using the fused classifier. The final classification accuracy rate for red-wine varieties increased to 92.94%, In contrast with one single classifier, the lowest misjudged number of fused classifiers decreased from 9 to 6.These results suggested that the performance of fused classifier is superior to one single classifier. It is feasible to use fused classifier combined with near infrared spectroscopy to determine different varieties of red-wines.

Red-wines; Fusion of multiple classifier; Diversity measure feature selective (DMFS); Near infrared spectroscopy (NIR)

2015-09-03,

2016-01-14

国家自然科学基金项目(31101289),智慧农业关键技术研究项目(15055340)资助

李 凯,1990年生,中国农业大学信息与电气工程学院硕士研究生 e-mail: mzekai@126.com *通讯联系人 e-mail: zhaolonglian@aliyun.com; lyma@cau.edu.cn

O657.3

A

10.3964/j.issn.1000-0593(2016)11-3547-05

猜你喜欢

分类器葡萄酒光谱
基于三维Saab变换的高光谱图像压缩方法
自制的葡萄酒为啥爱“上头”?
十款葡萄酒与十块石头
BP-GA光照分类器在车道线识别中的应用
法国葡萄酒何以誉满天下
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
星载近红外高光谱CO2遥感进展
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别
苦味酸与牛血清蛋白相互作用的光谱研究