随机森林在板材表面缺陷分类中的应用1)
2015-03-07胡峻峰曹军赵亚凤
胡峻峰 曹军 赵亚凤
(东北林业大学,哈尔滨,150040)
责任编辑:张 玉。
机器视觉,由于其具有无损、快速、准确等优点,在木材检测领域得到了广泛应用,在原木检尺、木材缺陷分析、锯材外观分等、木材颜色分析及评定、木材特征分析、树种识别、木材纹理特征分析、木材微观特征分析中取得了大量成果[1],为木材加工自动化提供了技术手段。在木材表面缺陷识别方面,近十几年中,国外研究者提出了很多有效的纹理和缺陷特征描述子,并结合非监督的聚类防火或者监督学习的支持向量机、神经网络等,实现了木材表面缺陷识别、木材纹理分类[2-11]。
随机森林(Random Forests,RF)算法,是一种较新的模型预测和分类算法,相对于其他分类算法而言,随机森林有着更快的计算速度、更强的抗噪声能力,并能自然处理多分类问题,能自然避免过拟合。从算法提出至今,在生物学、医学和经济学等多领域,特别是交叉领域得到了广泛的应用。由于随机森林算法有非常快的运算速度,在分类问题上表现优异,为此,本文尝试利用随机森林算法,进行木材表面图像的分类。以实木地板缺陷为研究对象,结合缺陷特征,对分割后的实木地板缺陷图像进行快速分类,旨在保证在线分选的实时性。
1 随机森林的理论概述
与其他学习分类算法一样,随机森林算法有模型建立和预测2 个步骤。模型建立过程即训练过程,利用决策树对模型进行训练。在随机森林中有很多的决策树,并且每一棵决策树之间没有关联;根据输入的特征信息和人工专家分类标签,建立随机森林模型,构建森林的过程为训练过程。在线分等过程中,摄像头采集实木地板表面图像,提取特征,作为随机森林模型的输入,让每一棵决策树并行判断该样本属于哪一类,再根据决策树投票数量预测输入样本最终归为哪一类。
随机森林是基于Bootstrap 方法的重采样,产生多个训练集。设样本的属性个数为M,m 是满足条件0<m<M 的整数,随机森林算法的实现可分为6 步:
(1)选用Bootstrap 方法对样本进行重采样,随机生成T 个训练子集(S1,S2,…,ST),对于给定的1个训练样本,通过n 次随机的可重复的采样,从数据(x1,y1)…(xn,yn)出发,构建一个Bootstrap 样本(x1*,y*1)…(x*n,y*n)。
(2)利用每个训练集进行训练,生成对应的决策树(C1,C2,…,CT);逐个在决策树的中间节点选择属性,从M 个属性中随机选取m 个属性,构成当前选择节点的分裂属性集;并且在这m 个属性中选取最好的分裂方式,对选定节点随机分裂;在整个森林构建过程中,保持m 的值始终不变。
(3)每棵决策树都充分生长,不进行剪枝处理。
(4)利用对应的决策树对输入的测试样本(X)进行分析预测,得到对应的类别C1(X),C2(X),…,CT(X)。
(5)采用投票的方法,计算所有的投票数;在T个决策树中输出最多的类,为测试集样本(X)最终所属类别。
高中阶段是学生最为关键的发展阶段和学习阶段,所以在进行课程教学方法应用的过程中,广大教师更需要根据学生的实际情况,结合其身心特点,制订良好的培养和教育方案。学科培养的本质就是学科素养,这一工作在高中历史课程教学中同样占据着十分重要的位置,能良好地促进学生全面开展历史学科的学习。历史素养的主要组成环节有知识、能力、正确的价值观、历史意识等。课标指出:普通高中在进行历史课程教学中要将历史唯物主义作为指导思想,使学生逐渐掌握人类历史的发展情况,对学生的人文素养进行培养,从而促进学生得到更有效的发展。因此,在当前教育背景下,教师如何对学生进行历史素养培养就是当前最为关键的问题。
(6)与测试集的分类标签比较,计算随机森林正确分类的比例。
2 缺陷图像特征提取
图像的特征可用很多方式描述,其中颜色特征、纹理特征、形状特征、空间关系特征,是常用的4 种[14]。本文对分割后的缺陷图像,提取颜色特征、形状特征、Tamura 纹理特征、灰度共生矩阵4类特征。
2.1 颜色特征
为了避免不同的光照条件、材质颜色不同,对颜色分量产生的影响,将Lab 颜色空间的3 个分量(L、a、b)均匀划分,设Lab 三维颜色空间的L、a、b 分量中都有20 个bin,在颜色空间范围内做平均。将统计的直方图归一化,用L、a、b 各分量中计算子色彩bin 在每个分量上的密度(即不同缺陷特征中,各个bin 的像素占该子区域总像素数的百分比),衡量它在颜色上的分布特征。本文利用平均强度作为特征,用公式(1)计算。
式中:Li、ai、bi为L、a、b 各分量中第i 个bin 的像素点数。对于活节、死节、虫眼,其归一化颜色集分布如图1所示。可见,3 类不同缺陷颜色直方图,在特征分布形状和数值上都有较大差别,可以用来进行缺陷类别的区分。根据缺陷大小不同,其提取时间会有差别。在配置Intel 酷睿处理器、主频2.2 GHz、内存2.0 GB 的PC 机上,基于Matlab2013b 平台(以后的其他操作均基于该配置和平台),提取时间小于0.15 s。
图1 不同缺陷的颜色直方图
2.2 形状特征
实木地板表面缺陷提取周长、面积、外接矩形长宽比、矩形度、致密度、位置、圆形性,共7 个参数描述其形状特征。周长、面积为分割后缺陷的边缘周长和面积;外接矩形长宽比描述缺陷形状特征,长宽比越大,表现为越细长;矩形度指的是目标的面积与其最小外接矩形的面积之比,反映了目标对其外接矩形的填充程度;致密度为周长的平方与面积的比值,致密度大是单位面积的周长大,意味着区域离散,形状相对复杂,反之则为简单形状;位置可以通过目标区域的面积中心表示,目标区域的质心为该区域面积中心;圆形性通过缺陷区域的边界点表示,为目标缺陷所有边界距重心之间距离的平均值与距离均方差的比值,当区域形状趋向于圆形变化时,始终单调递增并趋向于无穷大。
外接矩形用最小外接矩形的做法,在90°范围内将缺陷特征边界以每次3°左右的增量旋转,记录每次旋转所得到的缺陷外接矩形边界点的坐标的最大值和最小值。旋转到某一个角度后,外接矩形的面积达到最小,取面积最小的外接矩形为需要的外接矩形。
根据以上的形状特征,对样本库中每种缺陷取200 幅图像(见表1)。
表1 缺陷形状特征
已经分割出来缺陷的图像,要得到以上特征参数,主要有周长、面积统计;最小外接矩行长宽、圆形性计算。统计以上特征的平均时间,计算周长、面积用时0.161 4 s,最小外接矩阵计算用时0.183 0 s,圆形性计算用时1.229 s。
2.3 Tamura 纹理
Tamura 纹理是基于人类的主观对图形的认知,提出了6 类纹理特征的基本组成元素,包括:粗糙度、对比度、方向度、线性度、规整度、粗略度;在6 种特征中,粗糙度、对比度、方向度能够最直观的体现图像中的纹理特征。这几种纹理特征恰好符合人类视觉对目标的感知,已经被广泛的应用在各种图像信息检索系统中。
在Matlab2013b 环境下,本文提取Tamura 纹理常用的5 个参数,有粗糙度、对比度、方向度、线性度、粗略度。根据Tamura 纹理的参数,对选出的每种缺陷200 幅图像进行计算,得到3 类缺陷的参数和相应的用时(见表2)。
表2 3 种缺陷部分样本Tamura 纹理特征
2.4 灰度共生矩阵
灰度共生矩阵通过计算灰度图像得到它的共生矩阵,然后计算共生矩阵得到矩阵的部分特征值,分别代表图像的某些纹理特征。为了能更直观地用共生矩阵描述纹理状况,从共生矩阵可以导出能量、对比度、逆差距、熵、自相关5 种典型的参数。能量是灰度共生矩阵元素值的平方和,反映了图像灰度分布均匀程度和纹理粗细度;对比度反映了图像的清晰度和纹理沟纹深浅的程度,纹理沟纹越深,其对比度越大,视觉效果越清晰;逆差距反映图像纹理的同质性,度量图像纹理局部变化的多少,其值大则说明图像纹理的不同区域间缺少变化,局部非常均匀;熵是图像所具有的信息量的度量,表示了图像中纹理的非均匀程度或复杂程度;自相关度量空间灰度共生矩阵元素在行或列方向上的相似程度,反映了图像中局部灰度相关性,当矩阵元素值均匀相等时,相关值大,反之则小。根据以上特征参数,对选出的每类200 幅图像进行计算,得到3 类缺陷的参数和相应的用时(见表3)。
表3 缺陷灰度共生矩阵参数
3 随机森林算法在缺陷分类中的应用
3.1 基于随机森林的特征重要性评价
前面对缺陷在颜色、形状和纹理3 类的不同缺陷特征做了计算,但缺陷对最后分类结果的重要性如何尚不清楚。可以肯定的是,不同的缺陷特征对最终的分类结果有不同的贡献;为了选取最合适的缺陷,需要对特征进行筛选。特征重要性检测中,可以选用方差作为依据。不同特征类别的方差是不同的。不同缺陷类别的方差越大,说明其相应特征值的离散程度越大,与其他特征值相比含有更多的信息;而在同种缺陷之间的特征值方差越小,说明其表征归属于同一类的可能越大;一个好的缺陷特征,需要有大的类外方差和小的类间方差。
基于以上思想,笔者利用随机森林对缺陷重要性进行分析。在随机森林中,利用OOB(袋外数据)的值计算特征重要性,步骤如下:
(1)对随机森林中的每一个决策树,根据这棵树的袋外数据计算其相应的OOB 误差,记为EOOB1。
(2)对袋外数据的所有样本特征X 中随机加入噪声干扰,再次计算样本特征的OOB 误差,记为EOOB2。
(3)随机森林中设定决策树数量为N,特征X的重要性VI可由式(2)计算。
该重要性参数可以描述为:若某个特征加入随机噪声后,OOB 的值大幅降低,误差减小明显,说明该特征对样本分类有很大影响;换言之,其重要性很高。
由于颜色特征有60 维,维数较多,在比较重要性时,取平均值作为一个重要度;另外,还有形状特征、Tamura 纹理特征、灰度共生矩阵3 类特征共18维。按照重要性计算公式,对78 维特征计算重要性,并将颜色特征的60 维特征从3 个颜色分量取平均,比较了21 个特征重要性(见表4)。
表4 特征重要性与提取时间
由表4可见:形状特征的重要性较低,纹理特征和颜色特征重要性较高。本文中由于在线分选的需要,特征提取时间是另外一个非常重要的参数,本文的特征分析还要考虑特征提取时间。根据上述的分析过程和平均提取时间,最终获得各类相关特征的重要性及提取时间。颜色直方图在时间性能上最优,重要性居中;形状特征在重要性上表现最差,圆形度的提取也很大;Tamura 纹理在性能上最优,特征提取用时居中;灰度共生矩阵整体性能居中,时间性能上最差。从整体性能上比较,Tamura 纹理和颜色直方图是最优的两组参数。
3.2 基于随机森林的缺陷分类实验结果
实验采用的样本是从现场随机选取的真实测试样例。根据常见的3 类缺陷,每类选取200 个样本,随机选取每类缺陷图像的100 个作为训练样本,100个作为测试样本。利用经典随机森林,决策树规模为500,随机输入个数为特征值个数的开方,对4 种不同的特征单独输入或者组合输入,实验50 次,其分类误差表现见图2。
图2 不同参数对应分类结果
由图2可见:单独利用Tamura 纹理特征和颜色直方图进行分类,结果比较稳定,正确率达到90%左右,利用灰度共生矩阵,Tamura 纹理特征和形状特征共18 维特征作为输入,其分类误差大部分时候大于Tamura 纹理特征对应的分类误差。在多类特征组合分类实验后发现,选择Tamura 纹理特征和颜色直方图组合能取得最高的分类精度。笔者在Tamura 纹理特征或颜色直方图中各取单维特征,设置100 棵树进行分类,实验50 次求平均后取整,其混淆矩阵见表5。
表5 混淆矩阵
由表5可见:C2类、C3类图像混淆的概率远大于C1类图像。是由于死节和虫眼在颜色特征和纹理特征上较活节有较强的相似性,如何提取更加有效的特征区分死节和虫眼,是值得进一步研究的问题。
4 结束语
本文从颜色、形状、纹理3 类特征中提取出缺陷图像特征。颜色特征选用颜色集直方图;形状特征主要基于最小外接矩阵,提取周长、面积、位置、矩阵、圆形相关的形状参数;纹理特征选取灰度共生矩阵、Tamura 纹理参数。对这些特征参数,根据时间和重要度参数,选取Tamura 纹理和形状特征作为随机森林分类器的输入,其分类精度能达到95.67%,时间上也能达到最优,为木材表面缺陷在线分类提供了有益的参考。
[1] 颜志强,曾钦志,张巧玲.机器视觉技术在木材工业中的应用研究概况[J].木材加工机械,2013(4):55-59.
[2] Estévez P A,Perez C A,Goles E.Genetic input selection to a neural classifier for defect classification of radiata pine boards[J].Forest Products Journal,2003,53(7/8):87-94.
[3] Silvén O,Niskanen M,Kauppinen H.Wood inspection with nonsupervised clustering[J].Machine Vision and Applications,2003,13(5/6):275-285.
[4] Silvén O,Kauppinen H.Recent developments in wood inspection[J].International Journal of Pattern Recognition and Artificial Intelligence,1996,10(1):83-95.
[5] Gu Yuhua Irene,Andersson Henrik,Vicen Raul.Wood defect classification based on image analysis and support vector machines[J].Wood Science and Technology,2010,44(4):693-704.
[6] Schubert M,Mourad S,Schwarze F W M R.Automated image processing for quantification of blue-stain discolouration of Norway spruce wood[J].Wood Science and Technology,2011,45(2):331-337.
[7] Mosorov V,Tomczak L.Image texture defect detection method using fuzzy C-Means clustering for visual inspection systems[J].Arabian Journal for Science and Engineering,2014,39(4):3013-3022.
[8] 白雪冰,王林.基于空频变换的木材缺陷图像分割[J].东北林业大学学报,2010,38(8):71-74.
[9] 徐姗姗,刘应安,徐昇.基于卷积神经网络的木材缺陷识别[J].山东大学学报:工学版,2013,43(2):23-28.
[10] 谢永华,赵丽花,王金聪.基于颜色和数学形态学的木材缺陷检测研究[J].现代科学仪器,2013(2):75-77.
[11] 王阿川,曹军,于琳瑛,等.改进C-V 模型的木材缺陷彩色图像分割研究[J].计算机工程与应用,2012,48(5):164-167,206.
[12] 王志瑞,闫彩良.图像特征提取方法的综述[J].吉首大学学报:自然科学版,2011,32(5):43-47.