APP下载

基于近红外光谱技术结合随机森林的烟叶成熟度快速判别

2017-10-23王承伟谭观萍周冀衡

西南农业学报 2017年4期
关键词:成熟度正确率烟叶

王承伟,宾 俊,范 伟,谭观萍,周冀衡*

(1.湖南农业大学生物科学技术学院,湖南 长沙 410128; 2.湖南农业大学烟草研究院,湖南 长沙 410128)

基于近红外光谱技术结合随机森林的烟叶成熟度快速判别

王承伟1,2,宾 俊1,2,范 伟1,2,谭观萍1,2,周冀衡1,2*

(1.湖南农业大学生物科学技术学院,湖南 长沙 410128; 2.湖南农业大学烟草研究院,湖南 长沙 410128)

【目的】成熟度是烟叶品质的中心因素,田间成熟是获得优质烟叶的前提和基础,如何准确判断烟叶成熟程度是一个难题。【方法】本文利用近红外光谱技术结合化学计量学方法对不同成熟度的新鲜烟叶进行了探讨。【结果】随机森林(RF)分类模型参数优化简单、泛化能力强、预测结果较好,能有效识别不同成熟程度的烟叶样本,实现烟叶成熟度的快速判别,上、中和下部烟叶不同成熟度模型预测集的分类正确率分别为0.9231、0.90和0.9091,预测正确率优于主成分分析(PCA)、K最近邻(KNN)和支撑向量机(SVM)等方法。【结论】因此,近红外光谱技术结合随机森林方法简单、快速、准确,可为客观辨别烟叶成熟度的等级、优劣等问题提供了一种新的、便捷的辅助手段。

成熟度;近红外光谱技术;随机森林;判别模型

【研究意义】烟叶成熟度影响着烟叶质量,是烟叶质量评价的一个重要品质指标,并列为分级的首要品质因素。【前人研究进展】烟草种植业较为发达的国家,曾对烟叶的采收成熟度进行过系统研究,提出了诸如:采烤前一周采样化验烟叶各项生理指标确定成熟度的方法、制作比色卡在田间比色从而确定烟叶成熟度的方法、通过烤房试验或抽屉试验确定烟叶成熟度的方法等[1-4]。然而对于依据现有的烟叶外观判定标准,运用传统的目测方法过于笼统和抽象,在应用时存在外观描述的含糊性、经验性及主观性问题,在实际操作中也很难掌握。对于化学分析及色差计等方法,检测时会对烟叶造成一定的损伤,且操作复杂、成本高又缺乏实时性。我国也有学者提出通过数字图像处理技术、颜色分析、叶片纹理分析的方法、通过便携式生物学测量仪器(叶绿素仪)测量的方法判定烟叶成熟度[5-7]。但上述的定量化方法有些虽然准确但实施不便,有些实施方便但准确率欠佳。基于目前国内外对于烟叶成熟度检测技术尚无一种田间快速、直观、操作性强的技术方法的研究现状。【本研究切入点】本文提出了一种基于近红外光谱技术结合随机森林(RF)建立成熟度判别模型对鲜烟叶进行成熟度判别的方法,且与主成分分析(PCA)、K最邻近算法(KNN)、支撑向量机(SVM)等方法进行了对比分析,并验证了其具有较高的预测性能。【拟解决的关键问题】旨在更好地将光谱分析技术应用于指导烟叶采收时的质量控制,同时可为开发基于光谱分析的烟叶成熟度检测仪器提供数据和技术支持。

1 材料与方法

1.1 试验与材料

试验于 2015 年进行,地点设在云南省腾冲县界头镇,以烤烟品种K326为试验品种。鲜烟叶成熟度评判标准由烟叶成熟度评判专家结合生产经验与文献给出如表1所示。

1.2 光谱采集

按批次在试验地中挑选烟叶,按照上述成熟度特征,在各部位叶片成熟度为欠熟、适熟、过熟时分别采收12~15片,每片烟叶为1个样本。采下后,为保证测定结果精确可靠,迅速装入塑封袋,在室内密闭环境下的测量[8]。采用B&WTEK i-Spec近红外光谱仪采集样本光谱,仪器配有标准探头和漫反射白板。扫描次数为32次,分辨率为3.5 cm-1,积分时间为400 us,光谱采集范围为11000~5800 cm-1(900~1700 nm),优化光谱仪扫描条件后,立即进行近红外光谱扫描,其中扫描时,每个样本在视线范围内避开主脉在左右两侧各取6个点,每个点测量3次取平均值,所有点的平均值作为该烟叶的代表光谱。

1.3 分类建模方法

1.3.1 主成分分析(PCA) 主成分分析法(Principal Component Analysis,PCA)是以一种最优化方法去浓缩和综合原始数据信息、研究如何将多指标问题转化为较少的综合指标的统计方法,采用舍弃部分线性变换信息,对高维变量空间进行降维处理,达到以少数的综合变量代替原有的多维变量的目的[9]。PCA对样本分类主要是通过投影判别法,先直接对样本测量数据矩阵进行分解,只取其中的主成分来投影,然后进行判别分析。PCA所得的主成分轴是该数据矩阵的最大方差方向,且这些主成分轴相互正交,这样就可保证从高维向低维空间投影时尽量多地保留有效信息。

1.3.2K最邻近算法(KNN)K最近邻算法(K-Nearest Neighbors Algorithm,KNN)是一种简单的机器学习算法,由 Cover 和 Hart 于1968年提出[10],理论比较成熟。该方法的思路是:若一个样本在特征空间中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一类别,则该样本也属于此类别。KNN算法中,基于给定的邻居度量方式以及结合经验选取合适的K值,所选择的邻居都是已经正确分类的对象。该方法在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

1.3.3 支持向量机(SVM) 支持向量机(Support Vector Machine,SVM)由 Vapinik等人[11-12]在20世纪90年代提出。SVM能够结合统计学习优化方法和核函数方法,考虑训练误差(经验风险)和测试错误(期望风险)最小化,在模型的复杂性与学习能力中,根据有限样本信息找到最优的解决办法,并拥有准确的预测和避免过拟合问题等优点。SVM的核函数有线性核函数、多项式核函数、sigmoid 核函数和径向基核函数(RBF核函数)。如何选择出应用SVM的核函数及惩罚参数C和核参数g是关键,不同的参数对SVM的机器学习性能影响较大。

1.3.4 随机森林(RF) 随机森林(Random Forest,RF)是 Leo Breiman(2001)提出的一种根据分类回归树模型的集成学习算法[13],它是采取Bootstrap重复抽取样本的方法,从原始的训练样本集N中有放回地重复随机抽取样本生成k个新的训练集;同时从初始训练样本集中未能抽取出来的样本组成的集合,称为袋外数据集(out of bag,OOB),再构建多个决策树模型,通过对决策树模型进行投票,得票愈多的决策树模型分类性能愈高[14]。

表1 不同处理鲜烟叶的采收成熟度Table 1 Maturity of fresh tobacco leaves treated with different treatments

表2 样本划分统计Table 2 Sample partition statistics

2 结果与分析

2.1 光谱预处理及样本划分

预处理有助于有用信息的提取和分析,不同的预处理方法达到的效果不同,常见的预处理方法包括平滑、多元散射校正(MSC)、微分、标准正交变换(SNV)和小波变换(WT)等[15-16],经过对比分析,本文选择如下的方法对上、中、下3个部位烟叶的标准光谱进行预处理。

采用Savitzky-Golay平滑法对光谱进行平滑处理,平滑窗口为13;应用多元散射校正(MSC)算法消除由于烟叶样品颗粒分布不均匀的影响。预处理前后光谱见图1。

预处理后的光谱数据通过Kennard-Stone样本划分方法[17]划分为训练集和预测及,具体的样本划分数据见表2。

2.2 不同分类模型比较

2.2.1 PCA方法 用主成分分析法对各个部位烟叶的数据进行分类处理,得到图2。上、中、下部烟叶的未熟、成熟和过熟烟叶光谱都不能完全分开,上部叶的成熟烟叶和过熟烟叶混合在一起与未熟烟叶分的比较开,而中下部烟叶的3种不同成熟度都不能分开,导致这种结果的原因可能是:PCA将所有的样本作为一个整体对待,去寻找一个均方误差最小意义下的最优线性映射投影,而忽略了类别属性,而它所忽略的投影方向有可能刚好包含了重要的可分性信息,所以导致PCA对烟叶成熟度的聚类分析不准确,需要借助更加复杂的学习算法来解决此问题。

2.2.2 KNN方法 用邻近算法(KNN)对数据进行运算处理,得到图3和表2。

从表3可以看出,训练集的上部叶的分类正确率为78 %,高于中部叶和下部叶的69 %。预测集的分类正确率也是一样的趋势,但下部叶的要低于训练集的正确率。KNN是一种经典的懒惰分类算法,与常规的分类算法先通过训练建立模型不同,其采用边测试边训练的被动方式建立分类模型,但对测试样本分类时的计算量大,可解释性较差,无法给出决策树那样的规则,可以看出烟叶成熟度分类效果也不佳。

A为上部叶原始谱图,B为上部叶预处理后谱图,C为中部叶原始谱图,D为中部叶预处理后谱图,E为下部叶原始谱图,F为下部叶预处理后谱图图1 近红外光谱图Fig.1 Near-infrared spectroscopy

A表示上部叶,B表示中部叶,C表示下部叶图2 光谱PCA得分Fig.2 Spectral PCA score

图3 KNN分类方法K值的选择Fig.3 Selection of K value of KNN classification method

2.2.3 SVM方法 从表4~5可知,训练集的预测正确率中,上部叶最低,但是在预测集的分类正确率中,上部叶反而最高92.3 %,中部叶最低40 %,下部叶73 %,相对稳定。但是SVM存在不足,它依赖经验选择参数,同时,如果参数选择不准确,很容易导致过拟合的出现,文中的中部叶和下部叶分类模型就有可能是过拟合,训练集分类准确率非常高,接近100 %,但是预测集的分类正确率较低,这也说明SVM不适合烟叶成熟度分类的研究。

表3 KNN预测结果Table 3 KNN prediction results (%)

注:(25/32)表示“正确样本数/总样本数”。
Note:(25/32)means ‘correct sample number / total sample number’.

表4 SVM预测结果Table 4 SVM prediction results (%)

表5 SVM最佳参数(RBF核)Table 5 SVM optimal parameters (RBF kernel)

A表示上部叶(200),B表示中部叶(100),C表示下部叶(60)图4 RF树数目的选择Fig.4 RF tree number selection

A表示上部叶,B表示中部叶,C表示下部叶(图中灰色表示训练样本,黑色表示预测样本)图5 RF分类效果图Fig.5 RF classification effect chart

表6 RF预测结果Table 6 RF prediction results

2.2.4 RF方法 从图4可知,当各部位烟叶随机森林选择树数目,上部叶200、中部叶100和下部叶60时,线条趋于平稳;由图5可看出,各成熟度的预测集和训练集的分布;而由表6可知,上、中和下部叶的预测正确率较高,皆达90 %以上。

通过上述分析可知,近红外光谱技术结合RF方法模型稳健,分类效果较好。该方法不仅确定构建随机森林树数目简单,而且通过子模型循环500次得到稳定的变量重要度,相对于其他方法更加稳定;RF能够很好的解决烟草成熟度近红外光谱分类中算法参照经验值和分类模型过拟合问题,具有推广使用价值。

3 结 论

综上结果表明,RF方法能较有效的有利于地分类近红外光谱信息,预测准确率优于其他方法,实现了上部叶和下部叶较高的预测准确率,训练集预测正确率达87.5 %以上,预测集正确率达90 %以上,且较其他方法相对稳定。此法简单、快速、准确,为烟农客观辨别烟叶成熟度的等级、优劣等问题提供了一种新的、便捷的辅助手段。

选择近红外光谱结合化学计量学算法进行成熟度识别有助于适时采收,提高初烤烟叶的烘烤起点,提高烟叶品质。基于近红外光谱技术的烟叶成熟度判别模型具有较好的稳健性,近红外光谱用于烟叶精细分类是可行的。同时需要结合烟叶的工业可用性提高分类标准的合理性、可靠性,进一步的研究工作将结合实际生产诸如部位、烘后烟叶成熟度、养分、水分、品种、农艺管理、生态条件等要素进行。通过建立成熟度等级赋值和量化体系、成熟度量化模型,并进而与光谱技术耦合建立烟叶的综合评价质量技术体系,可实现烟叶成熟采收的现代化、科学化。

[1]高汉杰,陈汉新,彭世阳,等.烟叶成熟度鉴别方法与实用五段式烘烤新工艺应用研究的回顾[J].中国烟草科学,2002(4):39-41.

[2]Peedin G F.Effects of nitrogen rate and ripeness at harvest on some agronomic and chemical characteristics of flue-cured tobacco[C].Coresta Congress,Agro-Photo Groups,1995.

[3]Hwang K J,Kim C W,Kim C H.Studies on the change of chemical components of flue-cured tobacco with maturity[C].Coresta Congress,Agro-Photo Groups,1981.

[4]Walker E K.Some chemical characteristics of the cured leaves of flue-cured tobacco relative to time of harvest,stalk position and chlorophyll content of the green leaves[J].Tob Sci,1968(12): 58-65.

[5]汪 强,席 磊,任艳娜.基于计算机视觉技术的烟叶成熟度判定方法[J].农业工程学报,2012(4): 175-179.

[6]聂荣邦,李海峰,胡子述.烤烟不同成熟度鲜烟叶组织结构的研究[J].烟草科技,1991(3):37-39.

[7]李佛琳,赵春江,刘良云,等.烤烟鲜烟叶成熟度的量化[J].中国烟草科技,2007(1):54-58.

[8]LI-COR LI-1800-12 Integrating sphere instruction manual[Z].1983.Pub.No.8305-0034.LI-COR,Inc.,Lincoln,NE.

[9]王一丁,赵铭钦,付 博,等.利用可见-近红外光谱鉴定不同香型风格烤烟的方法[J].中国烟草科学,2015,36(6):88-93.

[10]Wu Xindong,Kumar V,Quinlan J R,et al.Top 10 algorithms in data mining[J].Knowl Inf Syst,2008(14): 1-17.

[11]Cortes C,Vapnik V.Support vector networks[J].Mach Learn,1995,20(1): 273-297.

[12]Li Hongdong,Liang Yizeng,Xu Qingsong,et al.Support vector machines and its applications in chemistry[J].Chemometr Intell Lab,2009(95): 188-198.

[13]Breiman L.Random forests[J].Mach Learn,2001,45(1): 5-32.

[14]Liaw A,Wiener M.Classification and regression by random forest[J].R News,2002(2/3): 18-22.

[15]褚小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展与应用[J].化学进展,2004,16(4):528-542.

[16]尼 珍,胡昌勤,冯 芳.近红外光谱分析中光谱预处理方法的作用及其发展[J].药物分析杂志,2008(5):824-829.

[17]Kennard R W,Stone L A.Computer aided design of experiments [J].Technometrics,1969,11(1): 137-148.

RapidDiscriminationofMaturityofTobaccoLeafBasedonNear-infraredSpectroscopyandRandomForest

WANG Cheng-wei1,2,BIN Jun1,2,FAN Wei1,2,TAN Guan-ping1,2,ZHOU Ji-heng1,2*

(1.College of Bioscience and Biotechnology,Hunan Agricultural University,Hunan Changsha 410128,China; 2.Institude of Tobacco,Hunan Agricultural University,Hunan Changsha 410128,China)

【Objective】Maturity is the center of the tobacco leaf quality factors,and the maturity in field is the premise and foundation to obtain high quality tobacco leaf,but how to accurately determine tobacco maturity is a difficult problem.【Method】A new method by using near infrared spectroscopy combined with chemometrics for classifying different maturity of fresh tobacco leaves was proposed in this paper.【Result】Compared with principal component analysis(PCA),K nearest neighbor (KNN) and support vector machine (SVM) qualitative models,the random forest models for maturity had the advantages of automatic parameter optimization,better performance,stronger generalization ability and better accurate prediction results,by which the maturity classification of upper,middle and low leaves achieved the accuracy of 0.9231,0.90 and 0.9091,respectively.【Conclusion】Near infrared technology in combination with random forests could thus accurately identify tobacco maturity level,which would provide the new and convenient means of auxiliary.

Maturity; Tobacco leaf; Near-infrared spectroscopy; Discriminative model

1001-4829(2017)4-0931-06

10.16213/j.cnki.scjas.2017.4.035

2016-09-10

湖南省研究生科研创新项目“烟草烘烤过程近红外光谱在线无损监测及变化规律的研究”(CX2015B237)

王承伟(1991-),男,湖南永州人,硕士在读,烟草化学分析,E-mail:435253080@qq.com,Tel:15387495313;*为通讯作者,E-mail:jhzhou2005@163.com。

S572

A

(责任编辑 陈 虹)

猜你喜欢

成熟度正确率烟叶
个性化护理干预对提高住院患者留取痰标本正确率的影响
产品制造成熟度在型号批生产风险管理中的应用
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
门诊分诊服务态度与正确率对护患关系的影响
整机产品成熟度模型研究与建立
关于新形势下烟叶生产可持续发展的思考
不同成熟度野生水茄果实的种子萌发差异研究
刚好够吃6天的香蕉
烟叶主要真菌病害的发生与防治
生意