高光谱成像技术在烟叶和杂物分类中的应用
2020-08-27马啸宇王锐亮李志刚徐大勇洪伟龄
张 龙,马啸宇,2,王锐亮,李志刚,徐大勇,洪伟龄
1. 中国科学院合肥物质科学研究院应用技术研究所,合肥市长江西路2221 号 230088
2. 中国科学技术大学,合肥市包河区金寨路96 号 230026
3. 中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001
4. 福建中烟工业有限责任公司技术中心,福建省厦门市集美区滨水路298 号 361021
烟叶在采收、运输和加工过程中,不可避免地会混入非烟叶杂物。非烟叶杂物的混入,不仅对烟叶复烤加工中的设备造成影响,其灼烧产生的有害物质更会严重影响人体的健康[1]。非烟叶杂物一般分为三类:一类杂物包括金属、塑料、昆虫等;二类杂物包括纸、石头、麻绳等;三类杂物包括非烟叶杂草等[2]。为了保障卷烟的吸食安全,烟草行业对烟叶中杂物含量提出了严格的管控要求,其标准为:一类杂物含量为0,二、三类杂物含量小于等于0.006 65%[3]。目前卷烟生产加工线上采用的除杂方式主要有风力除杂、光电除杂、磁力除杂和人工挑选除杂,其中风力除杂、光电除杂、磁力除杂均是针对杂物的特定属性差异进行的有针对性识别和剔除,如比重的差异、颜色的差异和磁性的差异等,一种除杂方式只能识别和剔除某一类杂物。高光谱成像技术(Hyperspectral imaging,HSI)是图像与光谱技术相结合的三维信息获取技术,具有图谱合一、检测速度快、对样品无侵入、无污染等特点[4]。相较于近红外光谱仪等传统光谱分析设备,高光谱成像仪可以在提供光谱信息的同时,显示出该光谱所在像元位置,提供物品的空间分布信息,实现不同被测物可视化成像;可以利用空间信息,对每条光谱追根溯源,更加完整地探测不同物质、不同位置光谱的差异[5]。利用高光谱成像仪对烟叶进行检测分析,近年来已在烟草行业中得到了应用。在鲜烟叶光谱特性方面,孙阳等[6]利用可见近红外便携式地物光谱仪分析不同颜色鲜烟叶的光谱特性,同时运用相关分析和逐步回归分析的方法对高光谱特征参数、鲜烟叶颜色参数和烟叶成熟度进行了研究。在烟草病毒检测方面,Zhu 等[7]利用可见波段成像光谱仪采集健康烟叶和感染烟草花叶病毒烟叶信息,运用机器学习的方法对烟叶感染疾病的程度进行评估,并取得了较好的效果。打叶复烤过程中,也可利用高光谱成像仪进行成像,对高光谱图像空间维中的烟叶和杂物的像元进行光谱分析,利用不同物质独特的光谱特征,对烟叶和杂物进行判别,以保证烟叶的纯净度。因此,基于高光谱成像技术提出了一种分类方法,以达到准确识别烟叶、杂物的目的,可以为实现对不特定杂物的剔除提供技术基础。
1 高光谱成像系统组成
高光谱成像系统如图1 所示。系统主要包括Image-λ-N25E-HS 高光谱成像仪(芬兰SPECIM 公司)、卤钨灯光源、暗箱、样品台、电控移动平台、数据采集卡和计算机。其中,高光谱成像仪由准直镜、分光计、聚焦透镜、InGaAs CCD 相机组成,采集波长范围1 000~2 500 nm,共288 个波段,像素数384×288(空间维×光谱维),光谱分辨率12 nm;烟叶和杂物等实验样品由河南中烟工业有限责任公司提供。为保证烟叶和杂物样本成像清晰不失真,设置CCD 相机曝光时间为20 ms,调节物距至47 cm,电控平台移动速率为1.7 cm·s-1。
烟叶高光谱成像效果如图2 所示,系统所成图像为包含图像空间信息与像元光谱信息的三维数据立方体。
图1 高光谱成像系统Fig.1 A hyperspectral imaging system
图2 三维高光谱图像及光谱Fig.2 A 3D hyperspectral image and corresponding spectrum
2 高光谱图像处理方法
2.1 高光谱图像黑白校正
在实验过程中,高光谱成像系统受到光源在不同波段反射强度不同、镜头所含暗电流等因素影响,会在采集图像光谱维中产生较大噪声,影响实验精度。因此,实验前对高光谱图像进行黑白校正来保证实验结果的准确性。校正过程中,首先关闭近红外高光谱相机镜头盖,采集反射率为0的全黑标定图像(B)。然后打开镜头盖,扫描校准白板,采集反射率为99%的全白标定图像(W)[8-9],标定图像如图3 所示。最后通过黑白校正公式处理,获得校正后的高光谱图像信息,其公式如下:
式中:R 为校正后高光谱图像;I 为未校正高光谱图像。
图3 全白标定图像(左)与全黑标定图像(右)Fig.3 All white calibrated image (left) and all black calibrated image (right)
2.2 高光谱图像预处理
成像系统所采集的原始高光谱图像中掺有较多冗杂光谱信息,这给计算效率和计算精度带来很大影响。对高光谱图像进行预处理,可以有效减少甚至消除背景、噪声等对图像带来的干扰,为后续图像分类提供高质量的数据源,为数据分析奠定良好基础[10]。本研究中对经黑白校正后的光谱数据进行Savitzky-Golay 平滑滤波(SG)以去除噪声带来的影响;对平滑滤波后的光谱数据进行多元散射校正(MSC),以消除样品不均匀所产生的散射现象。
2.2.1 Savitzky-Golay 平滑滤波算法
本方法中,为避免光谱波形失真,滤波阶数设置为0;为保证滤波后光谱噪声最小,引入均方误差(MSE)对光谱数据变化程度进行评价,选取合适的窗宽对信号进行拟合。其中MSE 值越小,光谱噪声越小[11-13]。选取滤波核中心点数m=1、2、3、4、5,窗宽n=2m+1=3、5、7、9、11 时,对MSE 值进行计算,结果如表1 所示。
表1 不同窗宽对应的均方误差Tab.1 MSEs corresponding to different window widths
滤波核中心点个数m=5,窗宽n=11 时均方误差值最小,MSE 值等于0.172 357。对各测量点x=(-5,-4,…,0,…,4,5),采用k-1 次多项式对窗口内所包含的数据点进行拟合运算,即满足:
存在11 个上述方程,构成k 元线性方程组。利用最小二乘法对方程组进行求解,并对窗内数据进行最佳拟合。使用SG 平滑滤波算法可以有效消除光谱数据中的噪声,其平滑效果如图4所示。
图4 滤波前后烟叶光谱信息Fig.4 Spectral information of tobacco leaves before and after filtering
2.2.2 多元散射校正(MSC)算法
相同物质光谱波形趋于一致,但是选取同种物质的不同像元,光谱中吸光度却有所差异。这是由于样品外形不固定,卤钨光源漫反射导致的杂散现象引起的。为避免杂散现象对光谱信息造成影响,采用多元散射校正算法对样品近红外光谱进行修正。通过计算ROI 区域中样品光谱的平均光谱和进行一元线性回归,最终完成多元散射校正。将散射信息校正至同一水平,使得光谱向平均光谱靠拢,即可大幅提高光谱信息信噪比。具体处理过程如下:
计算待校正光谱的平均光谱:
一元线性回归:
多元散射校正:
式中:A 为定标光谱数据矩阵;Ai,j表示样品经SG 平滑处理后近红外光谱在各个波长点处求平均值所得到的平均光谱矢量;mi和bi分别表示所测近红外光谱与平均光谱进行一元线性回归后所得到的相对偏移系数与平移量[14]。
烟叶近红外光谱经多元散射校正前后的结果如图5、图6 所示。由图5 可以看出,在对相同物质(烟叶)不同像元处进行光谱信息提取时,其吸光度差异较大,光谱间存在基线漂移、倾斜等现象,这主要是由各光谱中散射信息差异引起的。采用MSC 算法对光谱信息进行处理,如图6 所示,可以看出烟叶散射信息校正至同一水平,烟叶光谱向平均光谱靠拢,光谱信息信噪比大幅提高[15-16]。
图5 多元散射校正前烟叶吸光度Fig.5 Absorption of tobacco leaves before multiplicative scatter correction
图6 多元散射校正后烟叶吸光度Fig.6 Absorption of tobacco leaves after multiplicative scatter correction
2.3 基于支持向量机(SVM)算法的图像分类
SVM 是一种建立在统计学理论基础上的机器学习方法。SVM 可以自主找寻有较大分类能力的支持向量,并由此构造分类器,最大化类与类之间的间隔,因此SVM 具有较高分类准确度[17]。SVM 算法本质是求解目标函数最优化问题,基本思想在于通过核函数的定义,将样本输入空间映射到高维空间中,然后在高维空间中选取新的最优分类面作为决策面,对不同类数据进行分离[18],常见核函数分为4 种[19]:①线性核函数:K(xi,x)=xi·y;②多项式核函数:K(xi,x)=[y(xi,x)+m]d,d=1,2,……;③径向基核函数:K(xi,x)=exp(-‖xix‖2/2δ2);④Sigmoid 核函数:K(xi,x)=tanh[y(xi∙x)+m]。
提取不同物质光谱信息,建立光谱库文件。分别使用以上4 种核函数进行分类实验,并通过高光谱影像分析软件ENVI 5.3 对样品进行分类精度统计。利用混淆矩阵(Confusion matrix),通过总体分类精度值(OA)和卡帕系数(Kappa)对烟叶和杂物分类精度进行表征。将高光谱图像信息与光谱库文件光谱信息进行比对,分类精度结果如表2~表5 所示。
式中:N 为总像元个数26 509;C 为分类数7;xi+、x+i为混淆矩阵中每行、每列之和;xii为混淆矩阵中对角阵元素。
表2 采用线性核函数时烟叶和杂物的混淆矩阵Tab.2 Confusion matrix of tobacco leaves and foreign matters adopting linear kernel function
表3 采用多项式核函数时烟叶和杂物的混淆矩阵Tab.3 Confusion matrix of tobacco leaves and foreign matters adopting polynomial kernel function
表4 采用径向基核函数时烟叶和杂物的混淆矩阵Tab.4 Confusion matrix of tobacco leaves and foreign matters adopting radial basis kernel function
表5 采用Sigmoid 核函数时烟叶和杂物的混淆矩阵Tab.5 Confusion matrix of tobacco leaves and foreign matters adopting Sigmoid kernel function
通过4 种核函数对比实验,分别计算混淆矩阵中总体分类精度和卡帕系数,可以得出结论:采用径向基核函数对烟叶和杂物的分类效果最佳,总体分类精度值为99.92%,卡帕系数为0.998。
2.4 检测结果
依次经过Savitzky-Golay 卷积平滑滤波,多元散射校正算法预处理后,利用支持向量机对烟叶和杂物进行分类。对每种物质的特征吸收光谱进行标记,其中烟叶和杂物的波形有明显的差别,具体如图7 所示。
对图7 进行光谱分析可知,在1 200 nm 处,塑料瓶盖与塑料匝带均出现吸收峰,尤其瓶盖吸收峰最为强烈,故依据此峰,可辨识瓶盖和匝带。1 430 nm、1 870 nm 作为大气水分吸收带,烟叶与蜗牛受影响较为明显,但烟叶吸光度较高,故依据此波段,可分辨烟叶与蜗牛。金属片在近红外波段一直保持较高吸光度,且在1 150 nm、2 050 nm处具有反射峰,区别极为明显。皮筋在1 000~1 250 nm 吸光度保持上升趋势,在2 000 nm 处有小的反射峰存在,该峰可作为皮筋的判别依据。综上,除烟叶和蜗牛外,其余样品均具有较大区分度。
图7 烟叶和杂物吸收峰标记Fig.7 Absorbance peak markers of tobacco leaves and foreign matters
通过总体分类精度值和卡帕系数可知,样本分类结果与光谱区分度具有高度一致性,总体分类精度较高。烟叶在轮廓处存在误区分现象,分类效果图如图8 所示。选取烟叶轮廓处误识别像元,导出光谱信息与蜗牛光谱信息进行比对,如图9 所示。从图9 可以看出,由于烟叶轮廓处受到单位像元内物质混合、光强较弱和吸光度较低等因素影响,烟叶轮廓、蜗牛的光谱曲线发生重合叠加,从而导致误识别现象发生。在后续的工作中,将进一步在烟叶和蜗牛光谱数据处理的过程中加入特征识别算法,以便将烟叶轮廓和蜗牛进行有效的区分。
图8 烟叶和杂物成像效果图Fig.8 Image rendering of tobacco leaves and foreign matters
图9 烟叶误识别像元和蜗牛光谱信息Fig.9 Spectral information of misrecognition pixel of tobacco leaves and snails
3 结论
本研究提出了一种基于高光谱成像技术的烟叶和杂物识别分类方法。采用Savitzky-Golay 平滑算法、多元散射校正算法对提取的感兴趣区域数据进行预处理;通过支持向量机实现烟叶和杂物的识别分类,针对常用的4 种核函数对其进行寻优和分类预测,分析结果显示使用径向基核函数时分类效果最佳,其总体分类精度达99.92%,卡帕系数为0.998。研究结果表明,在高光谱成像技术的基础上使用支持向量机可以对烟叶、塑料橡胶制品和金属制品等进行有效分类,有助于实现烟叶中非特定杂物的剔除。