基于随机森林的大豆外观品质识别的研究
2016-03-23柴玉华曹晓达
柴玉华,丁 然,曹晓达
(东北农业大学 电气与信息学院,哈尔滨 150030)
基于随机森林的大豆外观品质识别的研究
柴玉华,丁然,曹晓达
(东北农业大学 电气与信息学院,哈尔滨150030)
摘要:不同等级的大豆外观质量与其内部营养等级存在一定关系,因此快速、精准地识别大豆病态种类至关重要。模式识别方法众多,本文采用随机森林方法进行研究。选取相应的大豆籽粒图像对其进行处理,从中挑选10幅图像,提取其形态特征,颜色特征,纹理特征,应用随机森林方法建立大豆外观品质识别模型,然后对大量样本进行试验。试验结果表明:不同种类病害大豆要想达到理想结果,训练步数各不同。该方法具有鲁棒性好、准确度高及系统稳定等特点。
关键词:随机森林;形态特征;大豆外观品质
0引言
大豆具有很高的营养价值,被称为“豆中之王”“田中之肉”,对人类有非常重要的作用。随着经济的发展,大豆的生产与加工已经迅速发展成为一个成熟的产业;但农业产出的大豆质量参差不齐,使我国大豆产业在国际市场上缺少竞争力。大豆外观品质与大豆的营养价值有着重要的关系。我国已于2009年9月1日正式实施《大豆》( GB 1352-2009) 国家标准,此标准与国际发达国家处于相同水平[1]。
人类的智慧有一个重要方面体现在对外界事物的分类和识别上。比较常用的模式识别分类有神经网络、决策树及支持向量机等,具有各自的性能特点。本文研究的随机森林(Random Forests,RF)是一种基于多棵决策树的组合分类器,同Bagging方法、ADAboost方法及随机划分选择法相似[2]。它的优越性使其在国内外众多领域应用比较广泛[3]。例如,韩亮采用二次训练法,构造了改进的随机森林分类器对行人检测进行分析[4];赵显通过提取图像灰度空间中的像素点的灰度值对手势进行检测[5]等。
1模式识别方法
1.1概念介绍
模式识别(Pattern Recognition)是在计算机上对信息进行处理、判别的一种分类过程。判别与分类在理论研究和生产实践中的应用是不可或缺的。若需要处理的问题特别繁琐复杂、影响因素过多,就会增加解决问题的困难程度,此时模式识别的优越性就能体现出来。其能解决计算机中较复杂的问题,对实际问题的解决与处理具有指导意义和应用价值,由此在计算机领域获得广泛应用,并获得一定成功[6]。
1.2随机森林
图1 随机森林分类器模型
要想实现随机森林算法,就要利用OpenCV算 法 库 中 的CvRTrees类。OpenCV是开源计算机视觉库,其中包含了一系列C函数和少量C++类。并且它还提供了MATLAB语言的接口,这样就使计算机视觉和图像处理实现了通用算法。因为CvRTrees类对随机森林算法进行了封装,所以对随机森林算法的分类就变得十分简单,只需要调用其接口就可以。
随机森林虽然在某些噪音较大的分类或回归问题上产生过拟,但其鲁棒性优越,对于数据的随机性有很好的处理能力,面对大量的输入数据也拥有较好的处理能力,并可以在决定类别时,评估变量的重要性。由于其具有相似的分类器结构,所以得出的效果比较相似,投票的方法还比较简单。
2分类器设计
设计的总体思想:通过对大豆图像的研究与分析,提取特征向量,设计分类器。分类器的构建大概分为以下3步。
1)建立训练样本集。根据试验需要,选择4种大豆为例进行基于随机森林的大豆外观品质识别分类器的设计,4种试验大豆分别为灰病斑大豆、霉变大豆、虫蚀大豆、破碎大豆。经过处理可以得到去除背景的单颗病害大豆籽粒图像,如图2所示。
图2 各种病害单个豆粒图像
2)采用点对比较特征对样本进行特征描述。即从样本图像中随机选择两个像素点,并比较其的像素值。要选取10×10个像素点均匀分布在样本图像中,如图3所示。
这样就会有4 950个点对比较特征,对于构建一个随机森林分类器4 950个点对比较特征是足够的。然后,从这些像素点中随意抽取2个像素点,比较它们之间差值大小,比较规则为
其中,任意两个像素点用p1、p2表示,τ是设定的一个像素差值的阈值。为了使鲁棒性能更加优越,要求像素点的值是由每个像素点3×3 邻域内的取平均决定的,则有
Float CvRtees::predict(const Mat & sample,const Mat & missing=Mat())const是用于样本识别的分类函数。
图3 单颗豆粒像素点图
3)训练分类器。训练集中所有样本进入一棵树都要通过根节点,然后所有样本按照对应准则进行分裂。样本在分裂后按照如下公式进入左边或者右边的子节点,分别对这两个子节点重复上一步,进行递归分裂[8],则有
当分裂达到某一节点的样本数量少于预设值M(20)时,或者分裂层数达到树的深度D(10)时,分裂就会停止;最后决定叶子节点的标签。预先设定好样本标签b,取值分别为 0、1、2、3,各自对应灰病斑大豆、霉变大豆、虫蚀大豆、破碎大豆4种样本,则
j,s.t.
其中,根节点处总样本的数目为N,表示根节点处j类样本的数目为Nj;某一叶子节点处样本总数目为n,叶子节点中j类样本的数目为nj。
Bool Cvrtrees::train(const Mat & trainData. int tflag. const Mat & responses.const Mat & varldx=Mat().const Mat & sampleldx=Mat().const Mat & varType=Mat().const Mat & missingDataMask=Mat().CvRTParams params=CvRTParams())是用于训练分类器的分类函数
3实验结果
病害大豆具有一定的特征。患有灰病斑大豆的籽粒其病斑呈现圆形或不规则形,中间灰白色,边缘呈暗褐色。大豆霉变后,它的籽粒会变色变味,表面变的褶皱。大豆一旦破损,其外形有明显的变化,形态各异[9]。虫蚀过的大豆会感染细菌,外形也会发生明显变化,但与破损大豆外形有所差异,可以通过对不同种类大豆的形态、颜色、纹理特征提取从而进行识别。本文基于MatLab平台,应用随机森林方法,对大豆的形态特征进行试验研究。
首先,选取10粒大豆试验,标号为1~10,其中2、9、10号为灰病斑豆粒,3、4、7号为霉变豆粒,1、8号为虫蚀豆粒,6号为破碎豆粒,5号为标准豆粒。实验结果如图4所示。
(a) 灰斑病籽粒训练结果 (b) 霉变籽粒训练结果
(c) 虫蚀籽粒训练结果 (d) 破碎籽粒训练结果
通过仿真结果可知:当灰病斑大豆训练步数为660、霉变大豆训练步数为87、虫蚀大豆训练步数为906及破碎大豆训练步数为870时,仿真结果误差小且效果好。10粒大豆分类结果如图5所示。
图5 分类结果
其中,纵坐标1~5分别代表破碎、虫蚀、霉变、灰病斑和标准大豆。实验结果与选取样本一一对应。由结果图可以看出,此分类器可以有效的检测出大豆病害种类。
对于少量的大豆样本进行过实验后,对训练结果进行保存,再重新选取正常大豆100粒,其他病害大豆各100粒,利用随机森林算法进行试验。识别结果如图6所示。
图6 识别率
从图6可以看出:随机森林对于病害大豆籽粒有较高的检验能力,就整体效果看来在一定程度上它具有一定的实际应用能力。
4结论
应用随机森林方法对病害大豆进行检测,根据随机森林方法训练分类器,实现了少量和大量病害大豆识别系统。随机森林方法具有以下优点:面对大量数据,分类较为精准;与其他分类方法比较,噪音影响对其影响较低;利用大数定律可以得到其不容易过拟合;分类器建立时,可以内部估算出泛化误差,这是利用OOB数据得到的;面对分类器数据集不平衡时,它可以平衡误差。随机森林算法已经变为越来越重要的一种数据分析工具,科学研究领域应用广泛,如核磁共振光谱、人脸识别、土地覆盖及3D跟踪等[10]。
参考文献:
[1]中华人民共和国国家技术监督局.GB 1352—2009,中华人民共和国国家标准-大豆[S].北京:中国标准出版社,2009.
[2]Breiman L. Bagging forests[J]. Machine Learning, 1996,26(2):123-140.
[3]方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38.
[4]韩亮.基于随机森林的行人检测算法研究[D].北京:北方工业大学,2014:24-26.
[5]赵显.基于随机森林的手势检测与识别系统的研究[D].湘潭:湘潭大学,2012:7-10.
[6]田赵喜林,赵喜玲,江祥奎.模式识别方法及其比较分析[J].信阳农业高等专科学校学报,2004,14(3):37-40.
[7]张学工.模式识别[M].北京:清华大学出版社,2010:87.
[8]Leo Breiman. Random forests[J]. Machine Learning,2001,45(1):5-32.
[9]赵丹婷.基于图像处理技术的大豆外观品质检测系统的研究[D].哈尔滨:东北农业大学,2012:26.
[10]L Goncalves,E diBernardo,E Ursella, et al.Monocular tracking of the human arm in 3D[J].International Conference on Computer Vision, Cambridge, 1995:764-770.
Abstract ID:1003-188X(2016)01-0238-EA
Soybean Appearance Quality Detection and Identification Based on Random Forests
Chai Yuhua, Ding Ran, Cao Xiaoda
(College of Electrical and Information,Northeast Agricultural University,Harbin 150030,China)
Abstract:There are certain relationship for different levels of soy appearance quality and their internal nutrition level. So it is very important for fast and accurate detection soybean appearance quality. And there are a lot of pattern recognition method, the article adopts random forests to study. It selects corresponding grains of soybean that make image processing, choose the 10 images and extract 8 morphological characteristics variables to establish soybean appearance test model. It showed that if diseased soybean of different species need to achieve ideal result, it must make different training. That is concluded that this method is high accuracy and system stability finally.
Key words:simulation; random forests; morphological characteristics; soybean appearance quality
文章编号:1003-188X(2016)01-0238-04
中图分类号:S126
文献标识码:A
作者简介:柴玉华(1965-),女,哈尔滨人,教授,博士生导师,(E-mail)yhchai@163.com。
基金项目:黑龙江省自然科学基金重点项目(ZD201303)
收稿日期:2015-03-13