开放环境下烟叶等级RGB图像智能识别及判别模型的构建
2020-04-22童德文杜超凡林雷通石三三
童德文, 陈 钰, 杜超凡, 雷 佳, 范 辉, 林雷通, 石三三, 沈 平*
(1.龙岩市烟草公司 武平分公司, 福建 武平 364300; 2.福建省烟草公司 龙岩市公司, 福建 龙岩 364000; 3.广东中烟工业有限责任公司, 广东 广州 510310)
烟草(NicotianaTabacumL.)是我国主要经济作物之一,其收购价格主要通过烤烟外观质量等级确定。我国采用的是42级国家烤烟分级标准(GB 2635-1992),共分为8个正组、5个副组,并通过烟叶的成熟度、叶片结构、身份、油分、色度、长度和残伤等7个外观品级因素将其区分为42个等级。目前,我国烤烟分级收购仍以人工为主,依靠分级人员的主观评价及感官经验定级,存在劳动强度大、工作效率低、人工成本高、等级纯度不稳定等问题,而等级纯度不稳定影响了卷烟工业的均质化生产及成品烟的质量控制[1]。随着计算机技术的发展,采用自动智能技术替代人工对烟叶进行外观等级划分已成为烟草工业化发展的趋势[1-4]。关于烤烟不同等级叶色、叶型和多光谱特征方面的研究已提出了系列的自动化分级方案。庄珍珍等[2]提出基于机器视觉及模糊综合评判方法。刘剑君等[3]提出将烟叶的红外光谱作为烟叶的分级特征。宾俊等[4]提出基于NIR 光谱技术及极限学习机(ELM)的初烤烟叶快速分级方案。已有研究所采用的图像采集设备主要为红外扫描仪和工业 CCD相机等,采集环境多为黑箱取样或者纯色流水线,而在开放环境中,这些方案均无法实现自动对叶片的识别,加之设备昂贵、体积大及分析运算所需时长较长,限制了智能化分级方法在烟叶初分及基层烟草站分级定级的推广应用。为此,以龙岩烟区主栽品种云烟87为研究对象,综合颜色阈值切割、边缘识别切割、面积筛选和叶形筛选等算法[5-12],提出开放环境烤烟RGB图像自动切割算法,以此为基础,比对分析B2F、C3F等级叶片在红色(Red)、绿色(Green)、蓝色(Blue)3个色彩通道及灰度图像的色阶均值的分布及叶型特征区间[13-21],采用百分位数法确定其特征参数区间,以此确定云烟87的B2F和C3F等级烟叶的判定区间[21-25],通过贝叶斯分类器构建判别模型,固化形成烤烟等级智能判定系统,并分析其判定准确度,以期为烟叶生产及分级人员提供高效、精确、方便和成本低廉的烤烟等级智能判定方法。
1 材料与方法
1.1 材料
1.1.1 烟叶样品 烤烟品种为云烟87,供试烟叶共计220片,其中,B2F等级烟叶78片,C3F等级烟叶140片,其他等级叶片2片。B2F和C3F各50片作为分析与建模样品,其余叶片作为判别样品。选取同一田块、鲜烟素质一致、成熟度一致的云烟87鲜叶为烘烤对象,烘烤工艺采用《龙岩市三长两短保湿烘烤工艺》烘烤方法执行。烘烤结束后,分级技师对烤后烟叶进行逐片定级,挑选出试验所需的B2F、C3F和其他等级烟叶样品。
1.1.2 仪器 CANON EOS-550D高分辨率数码相机,日本佳能公司。
1.2 方法
1.2.1 开放环境烟叶的图像采集与图像识别切割
1) 图像采集。采集地点位于福建烟草公司龙岩市公司(中国福建龙岩市新罗区),采集平面为烟叶样品室瓷砖地面,其上均匀铺设哑光A3打印纸(晨光,70 g/m2);照明光源为室内20 W白色LED灯组9组,色温为5 000 K;距离采集平面100 cm处用三脚架和云台固定数码相机,采用高分辨率进行垂直拍摄。图像采集时将烟叶保持自然状态(未展叶)水平放在A3纸上,采用M档无闪光拍摄,ISO值为100,光圈f/5,快门1/60 s,焦距41 mm,白平衡设为自动,数字图像为5 184 pixel×3 456 pixel。
2) 图像识别切割。开放环境烤烟图像自动切割算法主要通过MATLAB软件实现。具体步骤:a) 将目标叶片根据研究提供的图像采集方法进行拍摄,得到的原始图像(图1A)。b)通过背景差值法及HSV、RGB颜色混合算法进行背景分离。c) 运用边缘切割、边缘对象识别、填充边缘空隙、菱形边缘平滑、中值滤波和小面积碎片剔除等算法后,采用复原算法得到目标烤烟精确图像处理效果(图1B),该算法可以有效消除拍摄边角阴影、孔洞、小孔隙、图像背景、叶片阴影、碎烟等的干扰。
注:烟叶为烤烟中部叶。
Note: Flue-cured tobacco means middle leaves.
图1开放环境烤烟图像自动切割算法的环境干扰消除示意
Fig.1 Diagram of environmental interference elimination for automatic cutting algorithm of flue-cured tobacco image in an open environment
1.2.2 计算机自动化叶色信息的提取 采用MATLAB对烟叶彩色图像进行数据提取。
1) 不同色彩通道色阶信息矩阵提取。读取切割后的烟叶目标彩色图像,分别提取叶片彩色图像红色(Red)、绿色(Green)、蓝色(Blue)3个颜色通道及灰度图像的像素色阶矩阵,并将其转化为双精度数组。
2) 不同色彩通道色阶均值提取。运用Mean函数分别获取红色(Red)、绿色(Green)、蓝色(Blue)通道及灰度图像的色阶均值。
1.2.3 叶型参数信息的自动化提取与计算 采用MATLAB对烟叶彩色图像进行叶型参数提取,Size函数获取烟叶图像的实际像素点数量(S1),通过Regionprops函数获取其最小外接矩阵的长度(L)和宽度(W),计算最小外接矩阵面积(S2)、叶片长宽比和叶片有效面积占比。
S2=L×W
叶片长宽比=L/W
叶片有效面积占比=S1/S2
1.2.4 叶色参数的百分位数分布 选取B2F和C3F烟叶各50片作为分析样品,运用MATLAB的prctile函数提取这些样品的叶色参数和叶型参数四分位点(25%分位点、75%分位点),在25%分位点至75%分位点的区间即为叶片图像信息的百分位数区间,并采用Boxplot函数构建样品叶色参数的百分位数分布图,根据样品叶色参数的百分位数的分布结果即可得出不同等级烟叶3个色彩通道及灰度图像25%分位点和75%分位点的下限和上限色阶值。同时,采用SPSS对各样品的叶色参数、叶型参数进行独立样本T检验(双尾),明确差异显著性(α<0.05)。
1.2.5 模型的构建与判别精度验证
1) 模型的构建。选取无交集且具有显著性差异的叶色参数及叶型参数百分位数区间作为烟叶等级判别区间。以烟叶等级作为判别结果,以烟叶等级判别区间作为判别因子,采用MATLAB的 NaiveBayes工具箱构建贝叶斯分类器作为判别模型。
2) 选取相同时间采收的B2F烟叶28片、C3F烟叶90片和干扰烟叶2片,对贝叶斯分类器判别模型的判别精度进行验证试验。
2 结果与分析
2.1 烟叶叶色及叶型判别区间的构建
2.1.1 叶色判别区间 B2F和C3F烟叶在叶色上具有较大差异。从图2看出,B2F和C3F烟叶的红色(Red)、绿色(Green)和蓝色(Blue) 3个色彩通道及灰度图像色阶均值的百分位数区间变化。B2F与C3F烟叶在红色通道25%分位点和75%分位点的下限和上限色阶值分别为59.64~69.67和78.03~101.96,绿色通道分别为31.20~37.14和42.38~58.01,蓝色通道分别为13.30~15.34和15.44~20.21,灰度图像分别为37.93~44.45和49.81~67.16,其色阶均值百分位数在25%~75%均无交集,呈分离状态。从表1可知,经对B2F和C3F烟叶色阶均值进行独立样本T检验,双尾Sig值均为0.000,小于显著水平0.05,说明B2F和C3F烟叶3个色彩通道及灰度图像的色阶均值均差异显著。根据判别模型构建对烟叶等级判别区间的定义,将红色(Red)、绿色(Green)、蓝色(Blue)通道及灰度图像的色阶均值25%分位点及75%分位点作为B2F和C3F烟叶叶色判别区间的上限和下限。
Fig.2 Percentile distribution of three color channels and gray-scale image color gradation mean value of flue-cured tobacco with different grade
表1不同等级烟叶3个色彩通道及灰度图像色阶均值的显著性检验
Table 1 Significance test for three color channels and gray-scale image color gradation mean value of flue-cured tobacco with different grade
等级Grade均值Mean value标准差Standard deviationT检验双尾Sig T testing百分位数区间Percentile interval25%75%均值Mean value标准差Standard errorT检验双尾Sig Ttesting百分位数区间 Percentile interval25%75%红色通道绿色通道B2F66.4411.100.00059.6469.6735.026.450.00031.2037.14C3F90.9115.9078.03101.9651.0610.6442.3858.01蓝色通道灰度图像B2F14.541.880.00013.3015.3442.087.230.00037.9344.45C3F17.983.3215.4420.2159.2149.8167.16
注:显著水平α=0.05,下同。
Note: The significance of difference is atα=0.05. The same below.
2.1.2 叶型判别区间 在实际生产过程中,部分烟叶烘烤后会产生皱缩和扭曲现象,从而影响叶型参数,B2F和C3F烟叶在叶型的差异较小。从表2可知, B2F和C3F烟叶的叶片长宽比百分位数25%~75%分别为4.54~5.53和3.88~5.02,其在4.54~5.02存在交集,只有部分分离;从叶片有效面积占比来看,B2F和C3F烟叶叶片有效面积占比百分位数25%~75%分别为0.49~0.57和0.48~0.56,其在0.49~0.56存在交集,百分位数区间基本完全相交(重叠),交集范围更大;经对B2F和C3F烟叶叶型参数独立样本T检验,其长宽比双尾Sig值为0.000,小于显著水平0.05,说明2个等级烟叶叶片长宽比差异显著;其有效面积占比双尾Sig值为0.835,大于显著水平0.05,说明2个等级烟叶有效面积占比差异不显著。根据判别模型构建对烟叶等级判别区间的定义,烟叶叶片长宽比及叶片有效面积占比不满足判别区间的条件,因此,不选择叶型参数作为判别区间。
表2 不同等级烟叶叶型参数的显著性检验
2.2 烟叶等级的判别精度
结合烟叶等级叶色及叶型判别区间的研究结果最终确定B2F和C3F烟叶等级判别区间(表3),并以烟叶等级判别区间作为判别因子,以烟叶等级作为判别结果构建贝叶斯分类器作为判别模型。从表4可知,构建的判别模型对B2F和和C3F烟叶判别的准确率分别为92.86%和95.56%,总体准确率为94.21%。
表3 B2F与C3F烟叶特征的参数区间
表4 B2F与C3F烟叶贝叶斯分类器模型判别的准确率
3 结论与讨论
以散烟收购方式代替把烟收购方式是烤烟分级推广的应用方向[1]。目前烟叶自动分级技术大多停留在论证和试验阶段,实际应用中还没有成熟的高效分级技术,更没有已经成熟稳定可推广的系统。利用计算机视觉技术进行分级,具有简捷、经济、高效和可靠等优点,但该项技术不能对烟叶身份和油份进行判别。如何从图像特征中获取足够多、足够可靠的有效信息是研究中的难点所在。
研究提出一种开放环境下的计算机智能识别烟叶的算法,并通过对叶色和叶型的百分位区间估计,确定B2F和C3F烟叶的特征参数区间,并采用贝叶斯分类模型,构建判别模型,其判别的准确率达92.86%以上,大于人工分级判别的准确率(91.78%)[2-4]。该方法具有不受环境因素影响、设备要求低、分析速度快、可靠性高的优点,适用于烟叶初分级、基层烟草站定级使用。由于烟草工业的不断发展,自动化烟叶图像分级系统替代人工分级是大势所趋,烟叶分级的合理化、高效化、简捷化可以适应烟草工业的需要,对提高广大烟农的积极性和促进烟草种植产业的发展均具有重要意义。由于取样有限,仅研究B2F和C3F烟叶的判别,在以后的研究中,将进一步完善更多烟叶等级的判别参数区间在烟叶初分级中应用。