APP下载

基于改进RF特征选择策略的烤烟油分高光谱特征分析*

2021-09-13叶磊韦克苏李德仑张富贵吴雪梅

中国农机化学报 2021年8期
关键词:特征选择子集烤烟

叶磊,韦克苏,李德仑,张富贵,吴雪梅

(1.贵州大学机械工程学院,贵阳市,550025;2.贵州省烟草科学研究院,贵阳市,550025)

0 引言

烤烟是贵州省农村地区一项重要的经济作物,烟叶的等级评定是烟草行业的一项基础性生产环节。我国烤烟的分级标准主要是依据烟叶的颜色特征、形状特征、油分特征和成熟度特征等四大特征来判别一张烟叶等级归属。目前,国内外已有研究将高广谱技术应用于烟叶叶片化学成分快速分析,烟叶生长状态检测,烟叶成熟度检测、以及烟叶分级等领域,如杨艳东[1]、刘良云[2]、Sun[3]、Jia[4]、邹勇[5]、李梦竹[6]、黎瑞君[7]等采用高光谱图像技术建立了烤烟叶片化学成分快速预测模型,取得了较好的预测效果;殷全玉等[8]在研究中发现不同品种,不同部位的烟叶叶面对光谱反射率之间的存在差异;刘印峰[9]通过对烤烟植被的波普特性分析,发现利用红波普吸收峰的面积可以较好的区分烟叶与其他植被;郑小雨[10]、余志虹[11]、韩龙洋[12]等通过对不同波段下鲜烟叶光谱反射率的差异建立烟叶成熟度监测模型,对上部烟、中部烟的成熟度具有较好的预测效果;刘艺琳等[13]基于光谱数据建立烤烟部位判别模型,识别率较高;于春霞等[14]对不同部位烟叶的近红外光谱进行了相似性分析,建立了基于SIMCA算法的相似性分析数学模型,结果表明,基于近红外光谱的烟叶部位相似性分析结果与实际烟叶部位之间的相似程度是相符的。周汉平等[15]以NIR的不同波长范围内采用偏最小二乘法建立了烟叶的NIR预测模型,并指出油分预测模型在16阶时,预测模型的准确率最高。

随着对高光谱技术在烟草领域研究的不断深入,利用高光谱技术创建烟叶分级系统的研究成果丰富,其原理是在高光谱图像的基础上通过提取能够表征烟叶属性的特征,利用大量的样本特征结合多种分类器进行学习训练,建立基于高光谱信息的预测模型,对烟叶等级进行评判,以获得较好的预测效果。那么对于烟叶高光谱特征的选择将直接影响预测模型的性能,大量冗余的特征不但会增加分类模型的复杂度,还会降低分级准确率。因此如何选择有效特征,对于预测模型的好坏具有重要意义。

目前对于特征筛选的方法主要分为Filter方法与Wrapper方法[16],其中Filter方法包括卡方检验法[17]、信息增益法[18]、相关系数法[19]等,其原理是赋予每一维特征权重,依据权重大小对特征进行排序,最后选取权重占比较大的特征去训练分类器,而舍弃权重占比小的特征,这种脱离了分类器的学习算法往往会忽略掉一些有用的信息;Wrapper方法包括一些启发式优化算法比如遗传算法[20]、模拟退火算法[21]、蚁群算法[22]以及人工神经网络等,其本质是将特征筛选看作一个寻优问题,直接将分类器的分类效果作为特征筛选评价函数,得到最适合该分类器的最优特征子集。本文针对烤烟油分特征预测模型的特征优选问题,利用烤烟高光谱图像ROI内所有像素点光谱反射率的平均值作为烤烟表征烤烟油分的高光谱特征,提出了一种改进RF(随机森林)算法特征选择策略,对高光谱特征进行筛选,并输入SVM分类器建立高光谱烤烟油分预测模型,旨在保证预测模型性能达到最优的前提下,对特征子集降维,得到最优特征子集。

1 材料与方法

1.1 高光谱烟叶图像采集

本文利用贵州省烟草科学研究院提供的4个不同油分等级的烟叶共160张,样本均由贵州省贵阳市烟草科学研究院专家定级。高光谱图像采集系统由GaiaSky-mini2机载高光谱成像仪(四川双利合谱)、4个40 W白炽灯稳定光源、暗箱、液晶显示器搭建的室内高光谱图像信息采集系统。其中,GaiaSky-mini2机载高光谱成像仪内装置有成像光谱仪、面阵探测器、驱动电源和运动控制模块等;高光谱成像仪规格参数:光谱分辨率3.5 nm±0.5 nm,全幅像素1 392×1 040,像素间距6.45 μm。

1.2 高光谱图像校准

在高光谱图像采集过程中由于光源的不均匀性以及拍摄镜头的暗电流声产生的噪声会对高光谱图像造成影响,因此需要对高光谱图像进行黑白校正,其中Rc为校正后图像;Rw是标准白板(反射率接近100%)得到图像;Rd为扫描盖住镜头(反射率接近0%)后得到的标定图像;Rr是原始的高光谱图像。校正前后对比如图1所示。

(1)

(a)校正前的烤烟高光谱图像

1.3 高光谱特征提取

为了提取烤烟高光谱图像的光谱数据,应用ENVI5.3软件对烤烟高光谱图像进行感兴趣区域选择,选择方式为避开主茎,选择叶面部分作为烤烟样本的感兴趣区域(Region of Interesting,ROI),提取每个样本ROI内所有像素点光谱反射率的平均值作为该样本的高光谱特征。所拍摄的烤烟高光谱图像ROI数据波长范围为371.08~1 037.89 nm,包含176个波段点。

1.4 SVM分类识别

支持向量机算法对于处理高维非线性模式识别问题时,具有一定优势,算法的核心是利用核函数映射的方法将线性不可分样本数据转化到高维空间,并在高维空间建立分类器[23]。定义训练样本集D=(x1,y1),(x2,y2),…,(xm,ym),yi∈{-1,1}。在数学模型上SVM映射后的特征向量,在特征空间中划分超平面的模型

f(x)=ωTx+b

(2)

若f(x)=0,则x是位于超平面f(x)上的数据点,f(x)<0时,数据点类别为-1,f(x)>0时,数据点类别为1。在分隔超平面的两边有两个相互平行的超平面,使两个平行超平面之间的距离最大的为最优超平面。

根据点到平面的距离公式可求的分类间隔

(3)

为了使得距离最优超平面的分类间隔最大,则目标函数

(4)

(5)

其中:i=1,2,…,m,ξi≥0。

为了便于计算,引入拉格朗日乘数将目标函数对偶化,得到最终超平面函数

(6)

式中:κ(xi,xj)——xi、xj在高维空间中的内积,即核函数,αi≥0为拉格朗日乘数。

SVM常用的核函数有线性核函数、Sigmoid核函数、多项式核函数与RBF核函数,因为RBF核函数应用较为广泛,效果好,本文选用RBF核函数。将上述160个样本中100个样本作为训练集,60个样本作为测试集,输入到支持向量机分类器,得到分类正确率为91.67%。

1.5 基于RF算法的特征选择

RF(随机森林)算法是一种以决策树为弱学习器的基础上,进一步在决策树的训练中引入随机属性的集成学习算法,在特征工程中,随机森林能从大量的样本特征中识别出重要的特征,其原理是在原有的特征集中进行随机有放回的取去M个样本,共进行N次采样后,生成N个训练集,对这N个训练集分别训练N个决策数模型,得到随机森林模型,最后根据每个特征在随机森林中对每个决策树贡献度的大小进行特征重要程度划分,通常用基尼指数作为评价指标来衡量[24],记为RF-Score。本文利用RF算法将提取的烤烟高光谱特征按基尼系数降序排列如图2所示。

图2 每个特征的RF-Score值降序排列Fig.2 RF-Score values of each feature are arranged in descending order

将上述按RF-Score值排序的特征结合SVM分类器进行训练,利用分类器的分类准确率来对特征子集的分类性能进行评价。SVM分类准确率变化如图3所示。

由图3可以看出大量的特征并没有提高模型的分类性能,甚至会导致分类器性能下降。当子集数量小于64时,随着特征数量的增加,模型的分类性能整体趋势向上,当子集数量等于64时,达到最高分类准确率93.33%,当子集数量大于64时,随着特征数量的增加,模型的分类准确率保持在93.33%,在特征子集数量达到120~141,172~176时,分类性能降低为91.67%。因此可以认为经RF特征选择算法筛选后,176个高光谱特征中有64个波段的高光谱特征为有效特征。

图3 基于RF特征选择SVM分类准确率Fig.3 SVM classification accuracy was selected based on RF features

1.6 改进RF算法的特征选择

改进RF特征选择流程如图4所示。

图4 改进RF特征选择流程图Fig.4 Flow chart of improved RF feature selection

由上述分析可知,按RF-Score分值大小将特征依次输入分类器时,也可能引入对分类器无用的特征。因此,本文基于RF算法提出了一种改进特征选择策略,首先将特征数据集中RF-Score值最大的特征加入特征子集中,此时特征子集中只包含一个特征,然后对余下的特征数据集经行筛选,选择余下特征数据集中RF-Score值最大的特征加入到特征子集中,并利用当前的特征子集输入到SVM分类器,若分类器的分类性能提高则保留该特征,若分类器的分类性能没有提高或分类性能降低则舍弃该特征,然后继续对特征数据集中余下的特征进行筛选,直到将特征数据集中所有特征筛选完毕,最后使得分类器分类性能最好的特征子集即为最优特征子集。

2 试验分析

采用改进RF特征选择策略时,输入到SVM分类器中得到的分类准确率如表1所示。

表1 基于改进RF特征选择策略的SVM分类准确率Tab.1 SVM classification accuracy based on the improved RF feature selection strategy

由表1可知,加入特征序号为1的特征时,SVM分类器的分类准确率为45%;然后加入特征序号为2的特征,此时特征子集中的特征为(1,2),SVM分类器分类准确率为45%,故该特征对分类器性能并无提高作用,因此应当舍去该特征;加入特征序号为3的特征时,此时特征子集中的特征为(1,3),SVM分类器分类准确率为86.67%,故该特征对分类器性能有提高作用,应当保留该特征。以此类推,当特征1、3、5、66、68、70加入到特征子集中时,支持向量机的分类性能最高,其他特征加入特征子集时,对于分类器的性能并无提高甚至会降低分类性能,因此通过改进RF算法特征选择策略选择(1,3,5,66,68,70)为最优特征子集,准确率为95%。其中特征1、3、5、66、68、70所代表的高光谱波段为371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm。

将本文改进的特征选择策略与全光谱输入、RF算法选择特征的预测结果进行对比,以验证本文改进的特征选择算法有效性,具体分析见表2。

表2 高光谱特征选择前后分类准确率对比Tab.2 Comparison of classification accuracy before and after the selection of hyperspectral features

从表2可以看出,全高光谱波段作为烤烟油分预测模型的输入时,特征数量为176个,分类准确率为91.67%;经RF算法特征选择策略选择后的高光谱特征作为烤烟油分预测模型的输入时,特征数量为64个,分类准确率为93.33%;经改进RF特征选择算法选择后的高光谱特征作为烤烟油分预测模型的输入时,特征数量为6个,分类准确率为95%。本文提出的特征选择算法与全高光谱波段相比,特征数量减少170个,分类准确率提高了3.33%;与RF特征选择算法相比,特征数量减少了58个,分类准确率提高了1.67%。

3 结论

为了对烤烟油分特征等级进行预测,本文利用高光谱相机采集不同油分等级的烤烟高光谱图像,提取烤烟叶面感兴趣区域光谱反射率的平均值作为表征烤烟油分等级的高光谱特征,并引入改进RF特征选择策略对176个高光谱波段特征进行筛选,输入到支持向量机分类器中,对烤烟油分等级进行预测。主要结论如下。

1)利用RF特征选择算法对烤烟高光谱特征进行筛选,将176个高光谱特征中按基尼系数降序排列依次输入SVM分类器中,前64个高光谱波段特征即可使支持向量机分类器性能最佳,特征子集维度为64,其分类准确率为93.33%。

2)利用改进RF算法特征选择策略对176个烤烟高光谱波段特征进行筛选,输入371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm六个波段的高光谱特征即可使支持向量机分类器性能最佳,其分类准确率为95%,特征子集维度为6,说明改进的RF特征选择策略在保证分类器性能的前提下能较好地进行数据降维,减小特征子集的冗余。

3)改进后的RF算法特征选择策略与全高光谱波段相比,特征数量减少170个,分类准确率提高了3.33%;与RF特征选择算法相比,特征数量减少了58个,分类准确率提高了1.67%。

猜你喜欢

特征选择子集烤烟
拓扑空间中紧致子集的性质研究
连通子集性质的推广与等价刻画
烤烟上炕机械研制
关于奇数阶二元子集的分离序列
不同追肥对烤烟品质的影响
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
每一次爱情都只是爱情的子集
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择