APP下载

基于多角度多区域特征融合的苹果分类方法

2018-07-25刘媛媛郭躬德江楠峰

计算机应用 2018年5期
关键词:多角度直方图分类器

刘媛媛 ,王 晖,郭躬德,江楠峰

(1.福建师范大学数学与信息学院,福州350007; 2.福建省网络安全与密码技术重点实验室(福建师范大学),福州350007;3.数字福建环境监测物联网实验室(福建师范大学),福州350007; 4.阿尔斯特大学数学与计算机学院,英国科尔雷恩BT52 1SA)

(*通信作者电子邮箱973375485@qq.com)

0 引言

苹果是一种常见的水果,在日常生活中市场需求量不断增加,采摘后进行挑选、分类是商品化处理的重要环节。现在苹果分类大都是通过人的感知进行手工分拣,费时费力,所以亟待研发出高效、低成本、适用于市场推广的苹果分类技术。现有的相关文献对物体分类有了一定的研究:Yuan等[1]设计了一个摄像装置,对这些图像进行特征提取,根据不同角度拍摄的葡萄图像中空隙大小判断葡萄的紧密程度,结合葡萄的重量、尺寸,对葡萄品质是否合格进行识别;Schmidt等[2]采用轨道成像技术和概率分布方法对植物种类进行识别;Wu等[3]利用计算机视觉对食品颜色进行测量,对食品进行分类;一些苹果分类的相关文献中,Li等[4]提出了使用近红外光谱仪获取苹果近红外数据,然后采用主成分分析(Principal Component Analysis,PCA)降维、Fisher判别分析 (Fisher Discriminant Analysis,FDA)提取特征、K最近邻算法(K-Nearest Neighbor,KNN)进行分类,得到分类准确度96%;Bhatt等[5]设计了专门的硬件系统并载入了软件系统,结合人工神经网络(Artificial Neural Network,ANN),可以实现苹果自动分类;Chen等[6]提取苹果的颜色特征和苹果的半径,将样本的RGB图像转到HSV空间,得到分类准确度96%;Wu等[7]采用近红外光谱仪收集苹果的近红外(Near Infrared,NIR)光谱反射率,结合模糊判别C均值聚类模型(Fuzzy Discriminant C-Means,FDCM)和主成分分析(PCA)对苹果进行分类,得到分类准确度97%;卜锡滨等[8]提出一种基于非相关判别转换的苹果近红外光谱定性分析方法,实验结果表明,使用非相关判别转换方法建立的模型正确识别率优于使用主成分分析(PCA)和Fisher判别分析建立的模型;Song等[9]提出了一种模式识别管道,首先使用便携式近红外光谱仪采集苹果光谱数据,采用基线校正和归一化预处理,然后用偏最小二乘判别分析(Partial Least Squares Discriminant Analysis,PLS-DA)分类;Kadir[10]使用工业相机采集三类苹果的图片,提取苹果的4个尺寸特征和3个颜色特征,然后采用KNN和多层感知器(Multi-Layer Perceptron,MLP)进行分类;Ronald等[11]采用相机采集苹果图片,并用朴素贝叶斯(Naive Bayes,NB)算法对苹果种类进行分类;Shahin等[12]利用扫描X射线成像技术开发出一个苹果自动分类系统,结合使用ANN分类器对苹果进行分类,它的准确率达到了90%。这些方法或者采用了比较昂贵的仪器,如X射线扫描仪、近红外光谱仪、工业相机,或者操作复杂,需要设计专门的硬件模块,程序繁琐,不适用于市场的推广使用。本文使用手机摄像头对苹果的多个角度拍照,并从每个照片里提取多个较小的区域,用颜色直方图来表示每个区域的图像,把所有的区域直方图组合在一起,形成一个苹果的表示,然后建立机器学习模型来对苹果进行分类,操作简单、成本较低,取得了更好的分类效果,适合推广到日常生活中的手机应用。

1 多角度多区域的图像分类算法

本文提出基于多角度多区域特征融合的图像分类方法。对每一个物体采集多个图像,将每个图像裁剪成若干个区域块,每个区域块用颜色直方图向量来表示,多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示,多个图像的表示首尾相连进行融合,生成一个物体的表示。然后用机器学习方法从众多物体的表示数据中建立分类模型。我们做了大量的实验来验证这个方法,实验流程包括:样本采集、图像采集、图像裁剪、图像预处理、颜色直方图特征提取、傅里叶变换、多角度多区域特征融合得到待分类样本数据、分类环境和分类器选择。实验中使用苹果,并选择5个角度n个裁剪区域,其中5个角度、9个裁剪区域的实验时间复杂度为4n,n为图像裁剪区域块总数。苹果图像分类流程如图1所示。

1.1 样本采集

模仿生活中不同种类植物资源个数的差异性,在超市随机采购一些苹果,其中美国gala果89颗、陕西红富士55颗、美国QUEEN果73颗、美国青蛇果59颗、美国红蛇果53颗。

1.2 图像采集

用手机摄像头对5类苹果,分别从上面、下面和3个侧面共5个角度拍摄,采集苹果图像数据,苹果图像如图2所示。

图1 5个角度、N个区域苹果图像分类流程Fig.1 Apple image classification process of five angles and N regions

图2 美国gala果苹果图像示例Fig.2 Sample of American gala apple image

1.3 图像裁剪

为了获得苹果图像多区域的特征数据,对苹果图像进行裁剪,对5类苹果5个角度的图像分别进行尺寸为50×50像素的裁剪,裁剪位置随机选取,裁剪区域块如图3所示,根据裁剪区域块个数的差异,分别得到7组裁剪区域块数据:1region裁剪、4regions裁剪、5regions裁剪、6regions裁剪、7regions裁剪、8regions裁剪、9regions裁剪。

图3 美国gala果5个角度裁剪区域块图片Fig.3 Five angles cutting regions images of American gala

1.4 图像预处理

图像是一种信息载体,它们包含着物体的大量信息。然而在图像的获取、传输和存储过程中常常会受到各种噪声的干扰和影响而使图像降质,所以为了获取高质量数字图像,很有必要对图像进行降噪处理,尽可能地在保持原始信息完整性(即主要特征)的同时,又能够去除信号中无用的信息。噪声就是像素的强度相对于真值有个突变。从时域上讲,通过高斯滤波能让一个像素的强度与周围的点相关,就减小了突变的影响,因此对裁剪区域图像块进行时域高斯低通滤波去除噪声。

1.5 颜色直方图特征提取

图像颜色直方图图形化显示不同的像素值在不同的强度值上的出现频率,对于RGB的彩色图像可以独立显示3种颜色的图像直方图,分辨率为256。对每一个高斯去噪后裁剪区域图像块按照6∶3∶1的比例获取R、G、B分量,得到图像的一种颜色特征向量数据。

1.6 傅里叶变换

有些信号在时域上是很难看出什么特征的,但是如果变换到频域之后,就很容易看出特征,这就是很多信号分析采用傅里叶变换的原因;另外,傅里叶变换可以将一个信号的频谱提取出来,这在频谱分析方面也是经常用的。

时域分析只能反映信号的幅值随时间的变化情况,除单频率分量的简谐波外,很难明确揭示信号的频率组成和各频率分量大小。信号频率代表了信号在不同频率分量成分的大小,能够提供比时域信号波形更直观、丰富的信息,信号变化的快慢与频率域的频率有关。图像的频率是表征图像中灰度变化剧烈程度的指标,是灰度在平面空间上的梯度,噪声、边缘、跳跃部分代表图像的高频分量,背景区域和慢变部分代表图像的低频分量。傅里叶变换可以将信号分成不同的频率成分,类似光学中的分色棱镜把白光按频率分成不同的颜色,被称为数学棱镜。变换后的图像,大部分能量都分布于低频谱段。因此对图像的颜色特征向量数据进行快速傅里叶变换,得到图像的频率信号,作为该图像的颜色特征数据。

1.7 多角度多区域特征融合得到待分类样本数据

为了用更多角度的更多图像特征融合起来表示苹果特征,本文把上面、下面、侧面1、侧面2和侧面3这5个角度的所有裁剪区域图像块的特征向量数据通过首尾相连进行融合,以此生成一个图像的表示。对5类苹果都作同样的处理,可以得到5类苹果图像表示的特征数据。

实验中会用到不同个数的角度,每个角度数有不同的角度组合方案,为方便标识区分,给每个角度组合附上一个ID编号,如表1所示。

表1 不同角度组合的ID编号Tab.1 ID numbers for different angle compositions

1.8 分类环境和分类器选择

在Weka3.6.11中做分类实验,为了更准确地体现多角度多区域特征融合图像分类的性能以及本文算法的鲁棒性,对5类苹果的特征数据作 Lnorm:2.0,norm:1.0标准化处理后,采用 Weka 中自带的 RandomForest、NaiveBayes、Bagging、DecisionTable、ClassificationViaRegression、RBFNetwork、PART、PLSClassifier、AtrributeSelectedClassifier、BayesNet和 BFTree 共11种分类器进行十折交叉验证,每次实验中每个苹果经过多角度多区域特征融合后可以产生一个样本数据,一共有329个样本数据,取90%用作训练样本,10%用作测试样本,重复10次,结果取平均值;其中偏最小二乘(Partial Least Squares,PLS)分类器设定参数numComponents为8,其他分类器的参数都采用Weka里面的默认值。另外用DeepLearing的DeepID算法作分类器作分类实验,为方便标识区分,将这12种分类器分别附上相应的ID编号,如表2所示。

表2 12种分类器的ID编号Tab.2 ID numbers for twelve classifications

1.9 DeepLearning的DeepID算法分类模型

将苹果图片分为 gala、shanxi、QUEEN、red、green 共 5 类,数据集按照3∶1的比例切分,其中3份使用DeepID算法训练,其余的1份作为训练DeepID的验证集,用来训练分类器,分类器可设置,本文实验分类器设置为联合贝叶斯分类器,分类器的输出表示类型的数目。图4为DeepLearning的DeepID算法流程。

2 5类苹果多角度多区域分类实验

2.1 多个角度相同裁剪区域

为了观察和验证角度个数对分类结果的影响,本文控制裁剪区域个数为一个固定值,尝试不同的角度个数组合,如果角度个数的增多使分类正确率提高,就表明角度个数越多,分类效果越好,反之则不成立。

2.1.1 多个角度单个裁剪区域

取5类苹果每个角度图像的单个裁剪区域块(1region),每个区域块用颜色直方图向量来表示。采用1个角度、2个角度、3个角度和5个角度几种角度的组合,根据角度组合的不同,多个角度的多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示。通过C1~C11共11种分类器进行十折交叉验证。实验结果如表3所示,当裁剪区域数固定为1个裁剪区域(1region):单角度时,分类器C9的角度A13数据获得最佳分类结果66.87%;2个角度时,分类器C5的角度A25数据获得最佳分类结果75.08%;3个角度时,分类器C10的角度A30数据获得最佳分类结果78.42%;5个角度时,分类器 C10的角度 A50获得最佳分类结果85.71%。当采用单个裁剪区域多个角度进行分类时,大多数分类器的分类结果都满足多角度分类效果优于单角度,而且角度越多,分类结果越好;5个角度时,分类器C10的角度A50获得总体最佳分类结果85.71%。

表3 11种分类器单个裁剪区域多个角度分类正确率 %Tab.3 One-region multi-angle classification accuracy results for eleven classifiers %

2.1.2 多个角度4个裁剪区域(4regions)

取五类苹果每个角度图像的4个裁剪区域块(4regions),每个区域块用颜色直方图向量来表示。采用单角度、2个角度、3个角度和5个角度几种角度的组合,根据角度组合的不同,多个角度、多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示。通过C1~C11共11种分类器进行十折交叉验证。实验结果如表4所示。

表4 11种分类器4个裁剪区域多个角度分类正确率 %Tab.4 Four-region multi-angle classification accuracy results for eleven classifiers %

从表4可以看出,当裁剪区域数固定为4个裁剪区域(4regions):单角度时,分类器C9的角度A13数据获得最佳分类结果82.67%;2个角度时,分类器C10的角度A20数据获得最佳分类结果87.23%;3个角度时,分类器C10的角度A30数据获得最佳分类结果 91.49%;5个角度时,分类器C10的角度A50获得最佳分类结果92.71%。当采用4个裁剪区域多个角度进行分类时,大多数分类器的分类结果都满足多角度分类效果优于单角度,而且角度越多,分类结果越好;5个角度时,分类器C10的角度A50获得总体最佳分类结果 92.71%。

2.1.3 多个角度10个裁剪区域

取五类苹果每个角度图像的10个裁剪区域块(10regions),每个区域块用颜色直方图向量来表示。采用单角度、2个角度、3个角度、4个角度和5个角度几种角度的组合,根据角度组合的不同,多个角度的多个区域块的直方图向量通过向量相加的方式进行融合,以此生成一个图像的表示。采用5个角度的特征数据,通过BayesNet分类器C10进行十折交叉验证,创建分类模型,并用该模型分别测试单角度、2个角度、3个角度、4个角度和5个角度的特征数据。实验结果如表5所示,当裁剪区域数固定为10个裁剪区域(10regions):单角度时,角度A11数据获得最佳分类结果60.79%;2个角度时,角度A26数据获得最佳分类结果72.34%;3个角度时,角度A34数据获得最佳分类结果82.67%;4个角度时,角度A42数据获得最佳分类结果88.45%;5个角度时,角度A50获得最佳分类结果93.31%。当采用10个裁剪区域多个角度进行分类时,采用多个角度多个区域块的直方图向量相加的融合方式,通过BayesNet分类器创建的模型满足多角度分类效果优于单角度,而且角度越多,分类结果越好,5个角度时,角度A50获得总体最佳分类结果 93.31%。

2.2 相同角度多个裁剪区域

为了观察和验证裁剪区域个数对分类结果的影响,本文控制角度为固定角度组合,尝试不同的裁剪区域个数,如果裁剪区域个数的增多使分类正确率提高,则表明裁剪区域个数越多,分类结果越好,反之不成立。

取5类苹果每个角度图像的4/5/6/7/8/9个裁剪区域块,每个区域块用颜色直方图向量来表示,取5个角度组合A50的特征数据,5个角度的多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示。通过C1~C11共11种分类器进行十折交叉验证,以及采用C12进行分类。实验结果如表6所示,角度固定为5个角度组合A50,4个裁剪区域(4regions)时,分类器C10获得最佳分类结果92.71%;5个裁剪区域(5regions)时,分类器C10获得最佳分类结果95.14%;6个裁剪区域(6regions)时,分类器C10获得最佳分类结果95.14%;7个裁剪区域(7regions)时,分类器C6获得最佳分类结果95.74%;8个裁剪区域(8regions)时,分类器C6获得最佳分类结果96.66%;9个裁剪区域(9regions)时,分类器C8获得最佳分类结果97.87%。当采用相同角度组合时,大多数分类器的分类结果都满足多个裁剪区域分类效果优于单个裁剪区域,而且裁剪区域块数越多,分类结果越好,9个裁剪区域(9regions)时,分类器C8获得总体最佳分类结果97.87%,算法复杂度为4n,n为图像裁剪区域块总数。

2.3 使用一整张图像不裁剪与裁剪分类比较

为了观察和验证使用裁剪区域块对分类结果的影响,本文尝试不同的裁剪区域个数或一整张图像,如果使用裁剪区域比使用一整张图像分类正确率提高,则表明使用裁剪区域 块分类结果会更好,反之不成立。

表5 BayesNet分类器10个裁剪区域多个角度分类正确率结果Tab.5 Ten-region multi-angle classification accuracy results for BayesNet classifier

取5类苹果侧面2角度图像的1/4/5/6/7/8/9个裁剪区域块以及每个区域块用颜色直方图向量来表示,多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示,同时生成侧面2整张图像的颜色直方图向量数据。通过C1~C11共11种分类器进行十折交叉验证。实验结果如表7所示。

表6 12种分类器五个角度组合1/4/5/6/7/8/9裁剪区域分类正确率 %Tab.6 Classification accuracy of twelve classifiers with five angles and 1/4/5/6/7/8/9 regions %

表7 11种分类器侧面2一整张图像、1/4/5/6/7/8/9裁剪区域分类正确率比较 %Tab.7 Classification accuracy of eleven classifiers for a whole image with 1/4/5/6/7/8/9 regions and angle side2 %

对于5类苹果的侧面2角度图像,当不进行裁剪,采用整个图像的颜色特征数据进行分类时,分类器C8获得最佳分类结果84.50%;当裁剪区域数为1个裁剪区域(1region)时,分类器C9获得最佳分类结果66.87%;当裁剪区域数为4个裁剪区域(4regions)时,分类器 C9获得最佳分类结果82.67%;当裁剪区域数为5个裁剪区域(5regions)时,分类器C10获得最佳分类结果82.07%;当裁剪区域数为6个裁剪区域(6regions)时,分类器C10获得最佳分类结果89.06%;当裁剪区域数为7个裁剪区域(7regions)时,分类器C10获得最佳分类结果90.88%;当裁剪区域数为8个裁剪区域(8regions)时,分类器C10获得最佳分类结果92.71%;当裁剪区域数固定为9个裁剪区域(9regions),分类器C10获得最佳分类结果91.79%;当角度固定为侧面2时,大多数分类器表明当裁剪区域数为6/7/8/9时,分类效果好于使用一整张图像分类,由此可知,当使用一整张图像的多个裁剪区域块并且裁剪区域块的个数足够多时,分类效果好于使用整张图像进行分类。

3 结语

收集5类总共329个苹果,每个苹果采集从上面、下面和3个不同侧面共5个角度拍摄的图像,每个图像裁剪若干个(1~9)区域块。每个区域块用颜色直方图向量来表示,多个区域块的直方图向量通过首尾相连进行融合,以此生成一个图像的表示。最后用Weka中的11种分类器进行十折交叉验证,以及 Deeplearning的DeepID算法进行分类。实验结果表明,当多角度多区域特征融合时,分类效果总是好于单角度单区域,而且越多越好。当采用单个裁剪区域多个角度进行分类时,大多数分类器的分类结果都满足多角度分类效果优于单角度,而且角度越多,分类结果越好,5个角度时,分类器BayesNet的角度A50获得总体最佳分类结果85.71%;当采用4个裁剪区域多个角度进行分类时,大多数分类器的分类结果都满足多角度分类效果优于单角度,而且角度越多,分类结果越好,5个角度时,分类器BayesNet的角度A50获得总体最佳分类结果92.71%;当采用10个裁剪区域多个角度进行分类时,采用多个角度多个区域块的直方图向量相加的融合方式,通过BayesNet分类器创建的模型满足多角度分类效果优于单角度,而且角度越多,分类结果越好,5个角度时,角度A50获得总体最佳分类结果93.31%;当采用相同角度组合时,大多数分类器的分类结果都满足多个裁剪区域分类效果优于单个裁剪区域,而且裁剪区域块数越多,分类结果越好,9个裁剪区域(9regions)时,分类器PLS获得总体最佳分类结果97.87%,算法复杂度为4n,n为图像裁剪区域块总数。

本文的多角度多区域特征融合的图像分类方法,使用手机摄像头采集图片,操作简单,复杂度较低,分类效果远远好于单角度单区域方法,甚至好于深度学习,适用于推广到手机应用中。在今后的工作中,将对更多种类的植物、树木、水果进行分类研究。

猜你喜欢

多角度直方图分类器
符合差分隐私的流数据统计直方图发布
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
基于FPGA的直方图均衡图像增强算法设计及实现
一道数列题的多角度思考
一种自适应子融合集成多分类器方法
用直方图控制画面影调
多角度写好读后感
对一道习题的多角度思考与拓展
中考频数分布直方图题型展示