基于稀疏表示的小麦品种识别
2015-06-06冯丽娟李秀娟文成林
冯丽娟,李秀娟,文成林
(河南工业大学电气工程学院,河南郑州 450001)
基于稀疏表示的小麦品种识别
冯丽娟,李秀娟*,文成林
(河南工业大学电气工程学院,河南郑州 450001)
利用机器视觉判别农作物品种的应用日趋增多,为了提高粮食品种的识别率,提出利用稀疏表示的方法识别小麦品种。首先选择内乡188、郑麦9023、优展1号、豫麦47这4种不同类型的小麦品种,每种小麦随机选取200粒,选择其中40粒作为训练样本,提取可以区别不同类型小麦的颜色、形态和纹理特征参数作为小麦籽粒的典型特征,用来组建稀疏表示方法的所需字典;然后选择其中一种小麦品种作为测试样本,通过Matlab仿真计算每一个测试样本在字典上的投影,将投影误差最小的类作为测试样本的所属类别;最后对比和分析稀疏表示方法与BP神经网络方法对小麦品种的识别结果。仿真表明,稀疏表示方法对于4种小麦品种识别准确率达到96.7%,获得了很好的分类效果,是一种可以准确识别小麦品种的有效方法。
小麦分类;图像处理;稀疏表示
小麦作为主要粮食作物,在满足人们的膳食要求和保证粮食安全方面具有举足轻重的地位。河南是小麦主产区,小麦的品种识别及分类直接影响加工品质。目前主要采用人的感官从外形、色泽等方面进行综合评价,存在方法繁琐、主观性强、效率低等缺点,增加了小麦品种分类的不确定性。当前,随着计算机技术的迅速发展,机器视觉得以广泛应用于农产品品质检测和分类中,为农业实行高效生产提供保障。陈建等[1]利用近红外光谱技术和人工神经网络对4种玉米品种进行识别。周子立等[2]利用小波变换提取红外光谱特征,输入人工神经网络,对3种大米进行识别。LIU Changchun[3]等提取60种颜色和形态特征识别5种大米,结果表明大米识别率平均在91%以上。王志军[4]等利用分水岭算法和人工神经网络建立小麦粒径外观品质评价模型,识别率达到93%。YUN Hongsun[5]等提出能够准确分级谷粒的算法,对不同种类谷物制粉率检测的准确度在95%左右,2 min就可一次性完成200颗谷粒的分级。何胜美[6]等利用小麦形态和颜色特征对来自4个地区的7种春小麦进行品种和来源地的识别,品种识别率平均95%,来源地识别率87.5%。与人类的视觉相比,机器视觉代替人工进行品种鉴别具有以下优点:(1)多参数测量,综合评判分类;(2)降低人的主观因素影响,实现自动化; (3)降低检验误差,提高准确度和精度。
近年来,稀疏表示[7]是模式识别领域一个非常重要的研究成果,它是一种基于最小化范数的优化方法,成功地应用在机器视觉中并取得了许多研究成果。
文中选取4种小麦籽粒(内乡188、郑麦9023、优展1号、豫麦47号)的图像作为研究对象,提取颜色、形态和纹理特征参数,利用稀疏表示方法进行4类小麦品种的识别,采用Matlab进行仿真并与BP神经网络方法对比,证明了文中结论的有效性。
1 试验材料
试验样本选用内乡188、郑麦9023、优展1号和豫麦47这4种小麦籽粒图像作为研究对象。每种小麦取200粒样本,随机选取其中40粒作为训练样本,剩余160粒作为测试样本。
图1是所选的4类小麦品种籽粒的图像。从图中可以看出,4种小麦品种籽粒分别具有不同的颜色、形态以及纹理特征;而对于同一品种的小麦籽粒,这3种特征也会出现差异。例如,郑麦9023小麦品种籽粒总体呈现细长型,但是也有不少小麦籽粒形态特征会接近于豫麦47或者优展1号,这样就使得人为区分小麦品种的难度进一步增大,导致识别率降低。
图1 4类小麦品种籽粒Fig.1 Four types of wheat grains
2 基于稀疏表示的小麦识别模型
2.1 小麦特征参数提取与计算
2.1.1 小麦籽粒颜色特征计算国内外利用颜色特征在谷物检测和识别方面展开了广泛研究[8-9]。“RGB和HIS颜色模型”是数字图像处理中常用的颜色模型。本试验把RGB模型和HIS模型联合起来共同提取小麦籽粒的颜色特征。用籽粒颜色的红色分量、绿色分量、蓝色分量、色度分量、饱和度分量和亮度分量的平均值来表示其颜色特征,满足了小麦品种识别对籽粒颜色特征的多参数测量要求,公式如下:
小麦籽粒颜色特征在一定程度上可以反映小麦质量的好坏,因此颜色信息可以作为小麦识别的一个重要特征参数。从表1可以看出,内乡188、优展1号和豫麦47的红色分量值明显大于郑麦9023的红色分量值;内乡188和郑麦9023之间的绿色分量差别最大;郑麦9023的色调值最大。综上可知,各小麦品种对应的小麦颜色特征存在差异,所以把小麦的颜色参数用于小麦品种分类是可行的。
表1 4种小麦品种颜色特征参数Tab.1 Color feature parameters of four kinds of wheat
2.1.2 小麦籽粒形态特征计算不同品种的小麦,外形差异是它们之间区别的重要特征之一。形态特征参数的选取没有统一规定,只要能够有效区分物体的形态差异,并且能方便快速获取的参数可作为形态特征参数。参照以往研究,选取周长、面积、矩形度、圆形度、伸长度5个参数。小麦籽粒的形态特征表示如下:
式中:A为小麦籽粒的面积;L为小麦籽粒的周长;a为长轴;b为短轴。
从表2中可以看出,不同品种的小麦籽粒在外形上存在一定的差异性,郑麦9023的周长和面积明显大于其他3种小麦,其他3种小麦的特征值也明显不一样,而且由小麦籽粒提取出来的另外几个特征参数如圆形度、矩形度和伸长度等这些特征值不同,可见形态特征参数大小与小麦品种籽粒间存在明显相关性,所以可以用形态特征参数进行小麦品种分类。
表2 4种小麦品种形态特征参数Tab.2 Shape characteristic parameters of four k inds of w heat
2.1.3 小麦籽粒纹理特征计算纹理广泛存在于自然界中,是物体表面共有的内在特性。纹理特征在人们的感官视觉中占很大比例,是一种视觉现象。Haralick等人提出用于描述纹理的14个特征参数,但通常选取能量、熵、对比度、相关性这些特征作为关键特征。
从表3中可知,不同的小麦品种所提取的纹理特征值明显存在差异。因此,把小麦的纹理特征参数用于小麦品种的分类识别是可行的。表3中,CON代表对比度,COR代表相关性,ASM代表能量,ENT代表熵。
表3 4种小麦品种纹理特征参数Tab.3 Textu re feature parameters of four k inds of w heat
2.2 稀疏表示方法
2.2.1 小麦籽粒训练样本组成设样本有n类,每类有m个训练样本,用
表示所有属于第i类的训练样本数据。它的m个列向量构成一个空间,反应第i类小麦品种,则n类训练样本组成的字典矩阵为
A的行数为训练样本的特征参数个数,列数为训练样本总数。
文中每种小麦选取40粒作为训练样本,将这些小麦籽粒的特征向量排列起来,组成如下训练样本矩阵:
矩阵A表示4类小麦品种特征组成的字典,其大小为15×160,行数代表提取小麦籽粒的特征个数,列数代表训练样本总数。
2.2.2 稀疏表达对于来自第k个测试样本的向量y,可由训练样本矩阵A线性表示y=A x。因为y
来自第k个样本,所以x在其所属类别上的投影系数不为0,即y的解是稀疏的。由稀疏表示和压缩感知的研究理论表明[10-11],在x足够稀疏的条件下,可以通过l1最小化范数来近似求解x:
2.2.3 数据归一化由于小麦的特征参数具有不同的量纲,所以需要将数据进行归一化处理。首先计算出训练样本中每个特征的最大值
式中,A(i,:)表示A的第i行,ri,max表示第i行(即第i个特征)的最大值。用ri,max对A的每一行进行归一化处理:
在A的归一化矩阵A*中,训练样本每一个特征值的取值均在[0,1]之间,从而处于同一个量纲级。
同理,对测试样本Y进行归一化:
式中,y*是y的归一化向量。
式中,di(y)表示用第i类训练样本重建y的残差。
2.3 基于稀疏表示的小麦品种识别
文中提出利用稀疏表示对小麦品种进行识别的方法如下:
1)输入由小麦籽粒构成的规范化训练样本矩阵A和来自某一个品种的测试样本y,误差阈值ε= 0.001,迭代次数为500次。
2)对矩阵A进行归一化处理,得到A*。
3)对样本y进行归一化处理,得到y*。
4)用l1最小化范数求解。
6)将具有最小残差的类作为y的所属类别。
3 试验结果与分析
本试验中,训练样本为内乡188、郑麦9023、优展1号、豫麦47这4类小麦品种,样本编号分别为1~40,41~80,81~120,121~160,测试样本为内乡188,编号1~160。由于测试样本数据较大,所以截取第1~40个测试样本的实验结果如图2所示。从图中可知,残差最小的类是内乡188,根据上述稀疏表示方法识别小麦品种理论,可判定识别类别为内乡188小麦品种,从而验证了稀疏表示方法的有效性。同理,选取另外3种小麦品种各160粒作为测试样本进行品种识别,最终将识别结果进行统计整理,可得到稀疏表示方法对4类小麦识别的结果,如图3所示。该方法对内乡188、郑麦9023、优展1号、豫麦47这4种品种小麦的正确识别数目分别为156,153,153,157粒,正确识别率最高可达98.1%,达到了预期的识别目的。然而,从图2,3中也可以看出,有个别小麦个体被误识别为其他品种(如图2中有1粒小麦被误认为是优展1号),究其原因,是由于该品种小麦某些籽粒与内乡188品种小麦在某些特征上非常类似造成的。
图2 基于稀疏表示方法识别小麦品种举例Fig.2 Exam ple based on the sparse representation approach to identify wheat varieties
图3 稀疏表示方法对4类小麦品种的识别结果Fig.3 Sparse rep resentation m ethod for the iden tification results of four k inds of w heat varieties
人工神经网络被广泛应用于模式识别分类的各个领域,文中选用BP网络作为分类器与稀疏表示分类方法进行对比,在Matlab 2010环境下,编程实现BP神经网络方法和稀疏表示方法。其中BP神经网络方法采用Matlab神经网络工具箱提供的函数进行仿真,l1最小化范数的求解[12]使用开发的Matlab软件包。
如表4所示,4类小麦籽粒的测试样本共640粒,稀疏表示方法可以正确识别619粒,而广泛使用的人工神经网络正确识别606粒,稀疏表示方法的识别效果比BP网路好。
表4 BP网络和稀疏表示方法对4种小麦品种识别结果Tab.4 Identification results of the BP network and the sparse representation method of four kinds of w heat
除此之外,BP网络中的多个参数需要经过多次优化才能提高小麦品种的识别率。而稀疏表示方法在参数选择上比较简单,只用考虑最小误差和迭代次数,较小的误差和较大的迭代次数可获得较高的识别准确率。这就验证了稀疏表示方法在小麦品种识别领域,甚至在整个机器视觉领域中的极大优势。
4 结语
1)对内乡188、郑麦9023、豫麦47和优展1号这4类小麦,通过提取小麦籽粒的颜色、形态和纹理特征,利用稀疏表示方法进行识别,判别测试样本的所属类别。识别结果显示,识别准确率可达96.7%,为机器视觉实现小麦品种分类提供了一种新的有效方法,对其他农作物的品种识别及鉴定也具有一定的参考价值。
2)与人工神经网络方法相比,稀疏表示只需要少量的训练样本,大大简化了BP网络建立训练样本需要大量数据进行训练学习的复杂操作,并获得了比人工神经网络方法更好的分类性能。
[1]陈建,陈晓,李伟,等.基于近红外光谱技术和人工神经网络的玉米品种鉴别方法研究[J].光谱学与光谱分析,2008,28 (8):1806-1809.
CHEN Jian,CHEN Xiao,LIWei,et al.Corn variety discrimination based on near-infrared spectroscopy and artificial neural networks[J].Spectroscopy and Spectral Analysis,2008,28(8):1806-1809.(in Chinese)
[2]周子立,张瑜,何勇,等.基于近红外光谱技术的大米品种快速鉴别方法[J].农业工程学报,2009,25(8):131-135.
ZHOU Zili,ZHANG Yu,HE Yong,et al.Rice varieties based on near-infrared spectroscopy rapid identification methods[J].Agricultural Engineering,2009,25(8):131-135.(in Chinese)
[3]LIU Changchun,Jai-Tsung Shaw,Keen-Yik Poong.Classifying paddy rice by morphological and color features using machine vision[J].Cereal Chemistry,2005,82(6):649-653.
[4]王志军,丛培盛,周佳璐,等.基于图像处理与人工神经网络的小麦颗粒外观品质评价方法[J].农业工程学报,2007,23 (1):158-161.
WANG Zhijun,CONG Peisheng,ZHOU Jialu,et al.Wheat Grain appearance of image processing and artificial neural network based on quality evaluationmethods[J].Agricultural Engineering,2007,23(1):158-161.(in Chinese)
[5]YUN Hongsun,LEEWonok,CHUNG Hoon.A computer vision system for rice kernel quality evaluation[R].No:023130 An ASAEMeeting Presentation.http://www.freepatentsonline.com/article/Annals-DAAAM-Proceedings/176688415.htm l
[6]何胜美,李仲来,何中虎.基于图像识别的小麦品种分类研究[J].中国农业科学,2005,38(9):1869-1875.
HE Shengmei,LI Zhonglai,HE Zhonghu.Classification of wheat cultivar by digital image analysis[J].Scientia Agricultura Sinica,2005,38(9):1869-1875.(in Chinese)
[7]Bruckstein A,Donoho D,Elad M.From sparse solutions of systems of equations to sparsemodeling of signals and images[J].SIAM Review,2009,51(1):34-81.
[8]Majumdar S,Javas D S.Classification of cereal grains usingmachine vision:II.colormodels[J].Transaction of the SALE,2000,43(1):677-680.
[9]Majumdar S,Javas D S.Classification of cereal grains usingmachine vision:IV.combined morphology,color,and texturemodels[J].Transaction of the SALE,2000,43(1)689-694.
[10]Donoho D.Formost large underdetermined systems of linear equations theminimal11-norm solution is also the sparsest solution[J].Communications on Pure and Applied Mathematics,2006,59(6):797-829.
[11]Candes E,Romberg J,Tao T.Stable signal recovery from incomplete and inaccurate measurements[J].Communications on Pure and Applied Mathematics,2006,59(8):1207-1223.
[12]Koh K,Stephen Boyd K S J.Simplematlab solver for l1-regularized least squares problems[EB/OL].(2008-05-15)(2015-03-10).http://www.stanford.edu/~boyd/l1_ls/
(责任编辑:杨勇)
W heat Varieties Identification Research Based on Sparse Representation
FENG Lijuan,LIXiujuan*,WEN Chenglin
(College of Electrical Engineering,Henan University of Technology,Zhengzhou 450001,China)
The applications of using the machine vision to distinguish crop varieties grow increasingly,in order to improve the recognition rate of grain varieties,this paper proposes the method of using the sparse representation to identify the wheat varieties.First,for four different types of wheat varieties:Neixiang 188,Zhengmai9023,Youzhan 1,Yumai47,each of them random ly selected 200 wheat kernels,40 wheat kernels as the training sample,extracting the color,the shape and the texture feature parameters:which can distinguish different types of wheat varieties as the typical characteristics ofwheat kernels,are used to form the dictionary of the sparse representation method.Then take one of the wheat varieties as test samp les,calculate the projection of each test sample in the dictionary through Matlab simulation,and consider theminimum projection error as the class of the test sample.Finally,contrast and analyze the sparse representationmethod and the BP neural network method for the identification results of wheat varieties.The simulation shows that the identification accuracy of the sparse representationmethod for four wheat varieties can reach 96.7%,obtaining a very good classification effect,so the sparse representationmethod is effective which can accurately identify wheat varieties.
classification ofwheat,image processing,sparse representation
S 512.1;TS 211.2
A
1671-7147(2015)06-0730-06
2015-07-02;
2015-09-09。
国家自然科学基金项目(61304258,61273075,61172133);河南省自然科学基金项目(152300410200)。作者简介:冯丽娟(1989—),女,河南郑州人,控制科学与工程专业硕士研究生。
*通信作者:李秀娟(1961—),女,吉林乾安人,教授,硕士生导师。主要从事智能信息处理技术、计算机应用等研究。Email:Lee_xiujuan@163.com