基于高光谱成像技术和SVM神经网络的马铃薯外部损伤识别
2014-10-28汤哲君汤全武张然史崇升
汤哲君+汤全武+张然+史崇升
摘要:探索利用高光谱成像技术识别马铃薯外部损伤的方法。对外部冻伤、机械损伤、摔伤和正常4类共162个马铃薯样本进行高光谱成像试验,对试验得到的原始数据进行主成分分析以实现数据降维,从降维后的特征图像中提取均值、标准差、平滑度、三阶矩、一致性、熵6个描绘子组成特征向量,把特征向量分别输入贝叶斯分类器、BP神经网络和SVM神经网络3个模型进行识别,结果贝叶斯分类器模型对冻伤和机械损伤两类马铃薯相互误判严重,BP神经网络模型对机械损伤类马铃薯识别率低,而SVM神经网络模型较前两个模型的识别率有明显提高,是最为适合的马铃薯外部损伤识别模型。
关键词:高光谱成像技术;马铃薯外部损伤;主成分分析;贝叶斯分类器;神经网络模型
中图分类号:S532;TN911.73 文献标识码:A 文章编号:0439-8114(2014)15-3634-05
Identifying Potato External Damage Based on Hyperspectral Image System
and SVM Networks
TANG Zhe-jun1,TANG Quan-wu2,ZHANG Ran1,SHI Chong-sheng1
(1.School of Physics & Electrical Information, Ningxia University, Yinchuan 750021, China;
2.China Mobile Group Ningxia Company Limited, Yinchuan 750002, China)
Abstract: Identifying potato external damage using hyperspectral image system was explored. The experiment of hyperspectral image was carried out for external frostbite, mechanical damage, hurt and normal(a total of 162) potato. Principal component analysis was performed to realize data dimensionality reduction based on the original experimental data. The mean, standard deviation, smoothness, third moment, uniformity, entropy of 6 depicts extracted from the dimensionality reduction feature image were used to composite the sub-feature vector. The eigenvector was input separately to bayesian classifier, the BP neural network and SVM neural network model for identification. The results showed that bayesian classifier model seriously misjudged frostbite and mechanical damage potatoes. The recognition rate of BP neural network model was low for mechanical damage type of potato. The SVM neural network model obviously improved recognition rate among the first two models and was the most suitable model for identifying potato external damage.
Key words: hyperspectral image system;potato external damage;principal component analysis; bayesian classifiers;neural network model
收稿日期:2014-05-15
基金项目:国家自然科学基金资助项目(61261044)
作者简介:汤哲君(1990-),女,甘肃民勤人,在读硕士研究生,研究方向为信息处理,(电话)18595110182(电子信箱)362917459@qq.com;通讯
作者,汤全武,副教授,主要从事信息处理和农产品无损检测研究,(电话)13909597790(电子信箱)tangqw@nxu.edu.cn。
无损检测领域的常用技术是近红外光谱技术[1],可以检测农产品的内外部品质,但近红外光谱技术只提供对农产品一个小区域的检测,由于马铃薯等农产品品质在空间上存在差异,所以该方法对马铃薯外部损伤检测还存在一定的局限。高光谱成像技术是把二维成像技术和光谱技术有机结合的先进技术,以空间识别的方法获取目标的光谱信息,包含两维的空间信息和一维的光谱信息,具有连续多波段、光谱分辨率高(通常精度可达2~3 nm)等特点,是多信息融合检测果品综合品质的首选技术[2]。
目前,国内对高光谱成像技术的研究刚起步,在马铃薯品质预测模型建立方面的研究更为稀少,本文要识别的马铃薯外部损伤为冻伤、机械损伤和摔伤,首先对冻伤、机械损伤、摔伤和正常马铃薯进行高光谱成像试验,接着对得到的原始高光谱图像数据立方体进行主成分分析以达到降维的目的,最后分别建立贝叶斯分类器模型、BP神经网络模型和SVM神经网络模型对4种马铃薯进行识别,选出最优识别模型。endprint
1 马铃薯外部损伤的高光谱成像试验与数据处理
1.1 试验材料
试验在宁夏大学农学院食品机械与工程实验室进行。试验样品采自宁夏回族自治区银川市同心路农贸市场。马铃薯品种为棵新10号,其中冻伤马铃薯样本40个,机械损伤马铃薯样本42个,摔伤马铃薯样本40个,正常马铃薯样本40个,共162个马铃薯样本。
1.2 试验设备及其参数设置
采用美国Headwall公司生产的(光谱范围400~1 000 nm)高光谱成像仪进行图像采集。光谱仪光谱范围为400~1 000 nm,光谱分辨率2.8 nm。
根据测量物品性质,确定试验参数为:物距约为270 mm,成像光谱仪的曝光时间为5 ms,扫描线实际长度为140 mm,样本表面平均照度为27 333 lx,扫描时的电机步距为150 μm。数据采集时,线阵探测器在光学焦平面的垂直方向做横向扫面,从而获取所扫描空间中每个像素在整个光谱区域的光谱信息,与此同时样本在输送装置的作用下做垂直于摄像机的纵向移动,最终完成整个马铃薯样本图像的采集。所采集到的图像块既包含有特定像素的光谱信息也具有特定波段下的图像信息。
1.3 图像采集与数据获取
采用美国NI公司生产的CD-1079 LABVIEW型高光谱图像采集软件和Andor Luca相机软件,高光谱图像采集过程为:先把各种外部损伤马铃薯样本做清洁处理。再为每个试验马铃薯贴标签,注明损伤类型与编号,并为每个马铃薯拍照。最后每个马铃薯依次进行高光谱成像试验,得到高光谱图像数据立方体和光谱数据。部分高光谱图片如图1至图8所示。每个马铃薯样本的试验数据为一个文件类型数据文件和一个后缀为.hdr的文件。
1.4 图像预处理
高光谱成像仪采集的马铃薯样品原始图像数据立方体数据量非常庞大,由于在高光谱成像仪全波段范围内每隔2.8 nm取一幅图像,在带来全面精确的图像信息的同时,也使得图像间的信息相关性很高,信息冗余度很大。所以,原始高光谱图像数据不适合直接代入模型进行判别,而要对其进行预处理。此次使用ENVI 4.7软件中的主成分分析法[3,4]对每一个马铃薯样本的高光谱图像数据立方体作全波段(468~1 000 nm)的主成分分析,也即对图像数据立方体降维,选出对感兴趣区域特征明显的主成分图像。具体步骤与分析为:
在ENVI 4.7软件下对每个马铃薯样本的高光谱图像数据立方体做全波段(468~1 000 nm)主成分分析,首先,发现原始高光谱图像数据立方体中的背景占有相当比例的图像面积(如图1至图8),而这些背景对分析处理没有价值,所以在做主成分分析前先尽可能去掉周边背景。
其次,发现所有马铃薯样本原始高光谱图像数据立方体中400~467 nm这段波长范围的图像噪声比较大,这是实验设备的固有品质造成的,所以舍弃这段波长,对所有马铃薯样本原始高光谱图像数据立方体从468~1 000 nm作主成分分析。
最后,经过主成分分析发现冻伤类、机械损伤类马铃薯样本的第2主成分图像在损伤区域特征明显,正常类马铃薯样本的第1主成分图像在损伤区域特征明显,摔伤类马铃薯样本的第4主成分图像在损伤区域特征明显。
所以,最终选定冻伤类(图9)、机械损伤类(图10)马铃薯样本的第2主成分图像为该类的特征图像,正常类马铃薯样本的第1主成分图像(图11)为该类的特征图像,摔伤类马铃薯样本的第4主成分图像(图12)为该类的特征图像。
2 模型建立
使用MATLAB 2011b软件分别编程建立贝叶斯分类器模型、BP神经网络模型和SVM神经网络模型对4种马铃薯进行识别,输入模型的特征图像为8位无符号整形灰度图像。
2.1 采用贝叶斯分类器建立模型
最优统计分类器中的贝叶斯分类器[5,6]有如下形式的决策函数:
dj(X)=P(X/ωj)P(ωj) j=1,2,…,W (1)
式中,p(X/ωj)是类ωj的模式向量的概率密度函数(PDF),P(ωj)是类ωj发生的概率。给定一个未知的模式向量Xi,其过程是计算全部W个决策函数,然后将该模式归到决策函数最大的那一类中去。
此次设定概率密度函数为高斯概率密度函数。将高斯概率密度函数代入公式(1),得到如下形式的决策函数:
dj(X)=lnP(ωj)-lnCj-[(X-mj)TC(X-mj)] (2)
式中,j=1,2,…,W。可以看出,方括号内的项是Mahalanobis距离,此距离越小,dj(X)的值越大,说明模式Xi属于第j类的可能性越大。
模型中用来识别分类马铃薯的模式向量X中的参量(描绘子)[7]分别为:均值、标准差、平滑度、三阶矩、一致性、熵。
在Matlab软件中建立bayesgauss函数,function d=bayesgauss(X, CA, MA, P),输入参量X为k行n列的模式矩阵,k为要识别的样本数,特征矩阵中的每一行为一个样本的模式向量,所以n为模式向量中的描绘子数。CA为n×n×W的协方差矩阵,模式矩阵中的n列向量相互做协方差生成协方差矩阵,所以n为描绘子数,W为要识别的类别数。MA为n行W列的均值矩阵,对模式矩阵中的每一列求均值,生成均值行向量,转置后把W类模式矩阵生成的均值向量按行排列,即为MA。P为每类样本出现的概率,如果省略则默认为每类样本出现的概率相等。输出参量d为k行1列的向量,每行的值表示X中对应行的样本属于哪一类。
基于贝叶斯分类器模型的样本特征图像识别结果如表1所示。
2.2 采用BP神经网络建立模型
BP-ANN是由输入层、隐含层和输出层组成的前馈神经网络,它的特点是信号前向传递,误差反向传播[8,9]。BP-ANN的基本思想是:在信号前向传递中,输入信号从输入层输入BP-ANN,经过隐含层逐层处理后进入输出层;若输出层输出的结果不是期望的输出结果,则由信号前向传递转入误差反向传播,将输出层误差反向传播回去并借以修正网络权值和阈值,使BP-ANN预测输出结果不断逼近期望的输出结果。BP-ANN的拓扑结构如图13所示。endprint
在图13中,X1,X2,…,Xn是BP-ANN输入值;Y1,Y2,…,Ym是BP-ANN预测输出值;和是BP-ANN权值。由图13可看出,BP-ANN可以看成一个非线性函数,网络输入值和预测输出值分别为该非线性函数的自变量和因变量。设BP-ANN的输入层、隐含层和输出层分别有n、k和m个节点,则BP-ANN结构为n-k-m。和上述模型一致,依旧选用均值、标准差、平滑度、三阶矩、一致性、熵6个描绘子组成的向量来作为每个样本的输入数据。在MATLAB分析软件中,实现BP-ANN主要用到newff、train和sim三个神经网络函数,各函数调用格式如下:
1)newff(BP-ANN参数设置函数)功能是构建一个BP-ANN,其调用格式为:
net=newff(P,T,S,TF,BTF,BLF,PF,IPF,OPF,DDF)
式中,P为输入数据,T为输出数据,S为隐含层的节点数,TF为节点传递函数,BTF为训练函数,BLF为网络学习函数。在使用时,一般只设置前面6个参数,后面4个参数均使用系统的默认参数。
2)train(BP-ANN训练函数)功能是用训练数据来训练BP-ANN,其调用格式为:
[net,tr]=train(NET,X,T,Pi,Ai)
式中,NET是待训练的网络,X是输入数据,T是输出数据,net是训练好的BP-ANN,tr是训练过程记录。在使用时,一般只设置前面3个参数,后面两个参数均使用系统的默认参数。
3)sim(BP-ANN预测函数)功能是用已经训练好的BP-ANN预测函数输出,其调用格式为:
y=sim(net,x)
式中,net是已经训练好的网络,x是输入数据,y是BP-ANN预测数据。
基于BP神经网络模型的样本特征图像识别结果如表2所示。
2.3 采用SVM神经网络建立模型
支持向量机[10,11](Support Vector Machine, 简称SVM)理论基础是由Vapnik和Chemielewaski提出的,它可用于模式分类和非线性回归。SVM是一种实现结构风险最小化原则的分类技术,它具有出色的小样本学习性能和良好的泛化性能,与传统人工神经网络法相比,它具有在小样本下高精度地逼近函数的能力,并且可以避免维数灾难,具有一定的工程实用价值。支持向量机实现的是如下思想:它通过某种事先选择非线性映射将输入向量x映射到一个高维特征空间,在这个空间构造最优分类超平面,如图14所示,Q(.)为非线性映射函数。SVM的体系结构如图15所示。
在图15中,K为核函数,其种类主要有:线性核函数、多项式核函数、径向基核函数和两层感知器核函数。和上述两种模型一致,依旧选用均值、标准差、平滑度、三阶矩、一致性、熵6个描绘子组成的向量作为每个样本的属性。
选取libsvm工具箱实现SVM神经网络。libsvm工具箱主要函数是svmtrain和svmpredict,各函数调用格式如下:
1)svmtrain(训练函数)功能是用于训练一个SVM神经网络,其调用格式为:
model=svmtrain(labels_train,input_train,cmd)
式中,labels_train为校正集的标签;input_train为校正集的属性;cmd为一些选项参数;model为训练得到的SVM神经网络(分类模型)。
2)svmpredict(预测函数)功能是用训练好的SVM神经网络预测输出,其调用格式为:
[predict_label,accuracy]=svmpredict(labels_test,inputn_test,model,cmd)
式中,labels_test为预测集的标签;i inputn_test为预测集的属性;model为训练得到的分类模型;cmd为一些选项参数;predict_label为预测得到的输出值;accuracy为分类准确率。
马铃薯SVM外部损伤鉴别模型图如图16所示。
基于BP神经网络模型的样本特征图像识别结果如表3所示。
3 小结
使用全方面、高精度表现被测样本的高光谱成像技术,同时分别建立贝叶斯分类器模型、BP神经网络模型和SVM神经网络模型对马铃薯外部损伤进行识别。首先对每个样本进行高光谱成像,接着对得到的原始高光谱图像数据立方体进行主成分分析,即图像数据降维,得到每个样本的特征图像,最后从每幅特征图像中得到由均值、标准差、平滑度、三阶矩、一致性、熵6个描绘子组成的特征向量, 把特征向量输入模型, 得到相应的识别结果。试验结果表明,贝叶斯分类器模型对冻伤类马铃薯识别率较低,仅为50%,另外50%样本全部误判为机械损伤类,而对机械损伤类识别时出现的3个误判也全部误判为冻伤类,可见本模型对这两类外部损伤相互误判严重。BP神经网络模型较前述贝叶斯分类器模型对正常类马铃薯的识别率提高,但对机械损伤类马铃薯的识别率下降。SVM神经网络模型较前两个模型的识别率有明显提高,表现出出色的小样本学习性能和良好的泛化性能,可见SVM神经网络模型的识别效果最好。
参考文献:
[1] DOU Y, MI H, ZHAO L, et al. Radial basis function neural networks in non-destructive determination of compound aspirin tablets on NIR spectroscopy[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2006,65:79-83.endprint
[2] 洪添胜,李 震,吴春胤,等.高光谱图像技术在水果品质无损检测中的应用[J].农业工程学报,2007,23(11):280-285.
[3] 李江波,饶秀勤,应义斌,等.基于高光谱成像技术检测脐橙溃疡[J].农业工程学报,2010,26(8):222-228.
[4] ARIANA D P,LU R. Evaluation of internal defect and surface color of whole pickles using hyperspectral imaging[J].Journal of Food Engineering, 2010, 96(4):583-590.
[5] 王利民,李雄飞,张海龙.基于广义信息论的贝叶斯分类器动态建模[J].吉林大学学报(工学版),2009,39(3):776-780.
[6] 董立岩,苑森淼,刘光远,等.基于贝叶斯分类器的图像分类[J].吉林大学学报(理学版),2007,45(2):249-253.
[7] 张 然.基于高光谱成像技术的马铃薯外部损伤识别研究[D].银川:宁夏大学,2013.
[8] 王遵义,邵咏妮.基于小波变换和神经网络的可见-近红外光谱对烟草品种的鉴别[J].浙江大学学报(农业与生命科学版),2009,35(6):655-658.
[9] 毛 健,赵红东,姚婧婧.人工神经网络的发展及应用[J].电子设计工程,2011,19(24):62-65.
[10] SUN T, LIN H J, XU H R, et al. Effect of fruit moving speed on predicting soluble solids content of‘Cuiguanpears (Pomaceae pyrifolia nakai cv. cuiguan) using PLS and LS-SVM regression[J].Postharvest Biology and Technology,2009, 51:86-90.
[11] 吴桂芳,何 勇.基于主成分分析和支持向量机的山羊绒原料品种鉴别分析[J].光谱学与光谱分析,2009,29(6):1541-1544.endprint
[2] 洪添胜,李 震,吴春胤,等.高光谱图像技术在水果品质无损检测中的应用[J].农业工程学报,2007,23(11):280-285.
[3] 李江波,饶秀勤,应义斌,等.基于高光谱成像技术检测脐橙溃疡[J].农业工程学报,2010,26(8):222-228.
[4] ARIANA D P,LU R. Evaluation of internal defect and surface color of whole pickles using hyperspectral imaging[J].Journal of Food Engineering, 2010, 96(4):583-590.
[5] 王利民,李雄飞,张海龙.基于广义信息论的贝叶斯分类器动态建模[J].吉林大学学报(工学版),2009,39(3):776-780.
[6] 董立岩,苑森淼,刘光远,等.基于贝叶斯分类器的图像分类[J].吉林大学学报(理学版),2007,45(2):249-253.
[7] 张 然.基于高光谱成像技术的马铃薯外部损伤识别研究[D].银川:宁夏大学,2013.
[8] 王遵义,邵咏妮.基于小波变换和神经网络的可见-近红外光谱对烟草品种的鉴别[J].浙江大学学报(农业与生命科学版),2009,35(6):655-658.
[9] 毛 健,赵红东,姚婧婧.人工神经网络的发展及应用[J].电子设计工程,2011,19(24):62-65.
[10] SUN T, LIN H J, XU H R, et al. Effect of fruit moving speed on predicting soluble solids content of‘Cuiguanpears (Pomaceae pyrifolia nakai cv. cuiguan) using PLS and LS-SVM regression[J].Postharvest Biology and Technology,2009, 51:86-90.
[11] 吴桂芳,何 勇.基于主成分分析和支持向量机的山羊绒原料品种鉴别分析[J].光谱学与光谱分析,2009,29(6):1541-1544.endprint
[2] 洪添胜,李 震,吴春胤,等.高光谱图像技术在水果品质无损检测中的应用[J].农业工程学报,2007,23(11):280-285.
[3] 李江波,饶秀勤,应义斌,等.基于高光谱成像技术检测脐橙溃疡[J].农业工程学报,2010,26(8):222-228.
[4] ARIANA D P,LU R. Evaluation of internal defect and surface color of whole pickles using hyperspectral imaging[J].Journal of Food Engineering, 2010, 96(4):583-590.
[5] 王利民,李雄飞,张海龙.基于广义信息论的贝叶斯分类器动态建模[J].吉林大学学报(工学版),2009,39(3):776-780.
[6] 董立岩,苑森淼,刘光远,等.基于贝叶斯分类器的图像分类[J].吉林大学学报(理学版),2007,45(2):249-253.
[7] 张 然.基于高光谱成像技术的马铃薯外部损伤识别研究[D].银川:宁夏大学,2013.
[8] 王遵义,邵咏妮.基于小波变换和神经网络的可见-近红外光谱对烟草品种的鉴别[J].浙江大学学报(农业与生命科学版),2009,35(6):655-658.
[9] 毛 健,赵红东,姚婧婧.人工神经网络的发展及应用[J].电子设计工程,2011,19(24):62-65.
[10] SUN T, LIN H J, XU H R, et al. Effect of fruit moving speed on predicting soluble solids content of‘Cuiguanpears (Pomaceae pyrifolia nakai cv. cuiguan) using PLS and LS-SVM regression[J].Postharvest Biology and Technology,2009, 51:86-90.
[11] 吴桂芳,何 勇.基于主成分分析和支持向量机的山羊绒原料品种鉴别分析[J].光谱学与光谱分析,2009,29(6):1541-1544.endprint