基于高光谱的马铃薯微型种薯分类检测
2020-11-09李鸿强李民赞
李鸿强,孙 红,李民赞*
(1.河北建筑工程学院 数理系,河北 张家口 075000;2.中国农业大学 现代精细农业系统集成研究教育部重点实验室,北京 100083)
马铃薯是继小麦、稻谷和玉米之后全球第四大重要的粮食作物。目前,利用光谱技术对马铃薯块茎品质检测主要集中于马铃薯的缺陷[1-5]及内部品质[6-7],鲜见应用于马铃薯微型种薯品种检测的报道。马铃薯微型种薯(又称原原种)是用脱毒的试管苗移栽或扦插最初产生的种薯,质量约1~20 g,其经济价值高,经过多年发展已有较多品种,为保证品种的纯度,开展马铃薯微型种薯种类无损鉴别研究,有助于马铃薯生产的良性发展。
模式识别是最常用的一种借助于数学方法进行光谱模式区分和识别的综合方法。光谱定性分析的模式识别方法有判别分析(DA)[8]、BP神经网络[9]、支持向量机(SVM)[10-13]。DA是一种线性分类器,其原理是将带上标签的数据点通过投影方法,投影到维度更低的空间中,使得投影后的点会形成按类别区分为一簇一簇的情况,相同类别的点将会在投影后的空间中更接近。对于K个类别的分类问题,每个类别对应一个分类公式,将待识别对象代入分类公式,得到K个分类值,其最大值决定待识别对象的类别。BP神经网络是一种多层的前向型神经网络,该网络中信号为前向传播,误差的调整过程从最后的输出层依次向之前各层逐渐进行,标准的BP网络采用梯度下降算法,网络权值沿着性能函数的梯度反向调整,该网络模式识别是一种有监督的模式识别方法,通常具有一个或多个Sigmoid隐含层和线性输出层。SVM是Vapnik等[14]于1992年首先提出的机器学习方法,可用作模式识别,其理论基础是结构风险最小化的近似实现,能较好地解决小样本、非线性、高维数和局部极小点等实际问题。基于此,本研究采用高光谱分析技术和模式识别方法,对大西洋等8种马铃薯微型种薯的分类检测方法进行研究。
1 实验部分
1.1 仪器与样品
“盖亚(Gaia Sorter)”高光谱分选仪,配卓立汉光公司Image-λ“谱像”系列高光谱相机[15-16];Gaia Sorter高光谱成像系统由镜头(OL23)、面阵CCD侦测器(LT365)、光谱仪(V17E)、均匀光源(2套溴钨灯)、电控移动平台、计算机及控制软件等部件组成;摄像头分辨率为320×256 pix,光谱范围为860~1 745 nm,光谱分辨率为5 nm,光谱采样点为6.3 nm,光谱通道数为256。
实验所用马铃薯微型种薯为大西洋(24个)、荷兰-14(28个)、荷兰十五041(50个)、荷兰十五Q8(60个)、冀张薯12号(24个)、冀张薯8号(31个)、兴佳2号(24个)和Y2(36个) 8个品种总计276个样本。其中大西洋马铃薯还原糖含量低,主要用作油炸马铃薯片,中熟品种;荷兰-14为红皮黄肉,鲜食中熟品种;荷兰十五041为黄皮黄肉,鲜食早熟品种;荷兰十五Q8为黄皮黄肉,鲜食中熟品种;冀张薯12号为白皮白肉,鲜食高产中熟品种;冀张薯8号为白皮白肉,鲜食晚熟品种;兴佳2号为黄皮黄肉,鲜食中熟品种;Y2为黄皮黄肉,晚熟品种。8种种薯,生长周期和内在品质各有特点。
1.2 光谱采集
高光谱图像数据采集前,先预热系统,以消除基线漂移的影响。对高光谱成像仪进行调焦,设定曝光时间,调整输送装置速度,调整镜头高度,保证得到清晰的图像。供试样品去除表面杂质,常温静置24 h,采集光谱数据,调试后的采集参量为:镜头高度26.5 cm,前进速度0.75 cm/s,回退速度3 cm/s,曝光时间25 ms。利用系统自带Spec View软件进行采集控制,每个样本对应一个包含影像信息和光谱信息的三维数据立方体,由于1 700~1 745 nm波长范围的光谱重叠严重,因此选择860~1 700 nm的数据进行分析,共256个波长。
1.3 数据提取及处理方法
利用光谱采集系统自带的Spec View软件进行黑白校正,使用ENVI 5.1软件从校正后的图像中获取5~6个10像素×10像素的感兴趣区域(Region of interest,ROI),获得原始光谱数据。数据处理均在MATLAB R2013b环境中进行。
1.4 光谱预处理与模型性能评价方法
1.4.1 光谱预处理光谱预处理[17]采用Z-Score标准化、Savitzky-Golay卷积平滑、一阶导数。Z-Score标准化是基于原始数据的均值和标准差进行数据的标准化方法,其计算采用原始数据减去原始数据的均值,得到的差再除以原始数据的标准差。Savitzky-Golay卷积平滑通过移动窗口,利用最小二乘法进行最佳拟合,以最小二乘拟合系数为数字滤波响应函数进行原光谱的卷积平滑处理。本研究采用11点Savitzky-Golay卷积平滑,将Savitzky-Golay系数W=[-36,9,44,69,84,89,84,69,44,9,-36]代入公式(1)求解:
(1)
一阶导数可消除基线漂移或平缓背景干扰的影响,本研究使用4点差分公式计算一阶微分光谱:
(2)
式中,xi表示波长i处的原始光谱反射率数据;f′(xi)表示波长i处的微分光谱反射率;h表示差分时的步长(本研究取h=2)。
1.4.2 分类模型性能评价方法模型鉴定效果的评价指标为正确识别率和错误识别率。
正确识别率=(正确接收的样品个数/测试样品个数)×100%
错误识别率=(错误接收的样品个数/测试样品个数)×100%
图1 8个品种种薯的原始光谱图Fig.1 Raw spectra of eight seed potatos
2 结果与讨论
2.1 原始光谱特点分析
8个品种种薯的平均原始光谱见图1,其光谱反射率总体变化趋势一致,均在960~1 100、1 160~1 200、1 410~1 510 nm之间表现出不同程度的深吸收;在880~920、1 060~1 100、1 260~1 300 nm范围内表现为不同程度的局部强反射,在915 nm处的光谱反射率出现尖峰,在915~956 nm和1 122~1 149 nm范围内的光谱反射率出现急速下降。大西洋品种在885~1 130 nm之间的反射率在8个品种种薯样品中最低,而在1 370~1 660 nm之间的反射率最高。荷兰-14在920~1 400 nm之间的反射率最高。荷兰十五041和荷兰十五Q8在整个波段反射率处于中等水平,荷兰十五Q8在1 100~1 370 nm时的反射率整体高于荷兰十五041,而在1 370~1 635 nm的反射率又整体低于荷兰十五041。冀张薯12号在860~930 nm的反射率在8个品种种薯中最高。冀张薯8号与冀张薯12号的反射率变化规律相似,但在整个波段中的反射率低于冀张薯12号。Y2品种在1 400~1 510 nm的反射率在8个品种种薯中最低,之后反射率平稳上升。兴佳2号与Y2品种的反射率变化规律较相似,但在1 510 nm之前各点反射率比Y2高,而在1 510 nm后反射率回升速度低于Y2。
由此可见,8个品种种薯样本的光谱反射率总体变化趋势一致,但彼此间存在一定差异,为后续依据光谱反射率建立微型种薯分类模型奠定了基础。
2.2 数据处理
对原始光谱进行标准化、Savitzky-Golay平滑和一阶导数光谱预处理,以预处理后的数据所建SVM模型的测试性能作为预处理方法的选择依据,最终确定标准化、11点Savitzky-Golay平滑和步长为2的一阶差分导数的组合光谱预处理为本实验的最佳预处理方法。对处理后的光谱数据进行主成分分析,得前3个主成分的累积贡献率为95.12%,表明前3个主成分基本包含了原始光谱的大部分信息。
2.3 探索分类
以前3个主成分为分类参数,研究8种马铃薯微型种薯的分类方法[18]。考虑到种类较多,首先,选用泛化能力强的支持向量机进行探索分类。所建支持向量机分类模型的测试结果如下:大西洋测试正确率50.00%,荷兰-14测试正确率75.00%,荷兰十五041测试正确率96.67%,荷兰十五Q8测试正确率51.28%,冀张薯8号测试正确率100%,冀张薯12号测试正确率25.00%,兴佳2号测试正确率50.00%,Y2测试正确率为31.25%。总测试正确率为49.14%,测试错误率为50.86%,由此可见,8个品种用一个模型分类判别的效果较差,需分组、分步骤建立检测模型。
图2 样本得分图Fig.2 Sample score chart
图2为样本1,3主成分得分图。由图可见,3类样本类间重叠较少,存在明显的界限,类内又具有聚集性。其它5个品种分布在大西洋、荷兰-14、荷兰十五041之间。因此,首先将大西洋、荷兰-14、荷兰十五041和其它5个品种看成4个类别建立模型。再对其它5个品种分组探索分类模型。以此类推,分组、分步骤建立8个品种的分类检测模型。
2.4 分组、分步骤建模
2.4.1 大西洋、荷兰-14、荷兰十五041和其它品种的线性判别分类模型将大西洋、荷兰-14、荷兰十五041和其它品种分为4组,设置类别标签依次为“1,2,3,4”,以1,3主成分得分作为分类变量,建立以上4个类别种薯的线性判别分类模型。训练集160个样本,测试集116个样本。
测试集测试混淆结果如表1所示。大西洋(4个)测试正确率75.00%,荷兰-14(8个)测试正确率87.50%,荷兰十五041(30个),测试正确率92.86%,其它品种(74个)测试正确率87.84%。大西洋、荷兰-14、荷兰十五041测试错误样本均被测试为其它品种,其它品种样本被错误测试为大西洋和荷兰-14样本有8个,占错误测试样本的87.50%。由此可见,大西洋、荷兰-14、荷兰十五041三者之间线性分类界限分明。线性判别模型的平均正确识别率为88.79%,可作为大西洋、荷兰-14、荷兰十五041和其它品种的分类模型。
表1 大西洋、荷兰-14、荷兰十五041和其它品种的线性分类测试结果Table 1 Classification test results of Daxiyang,Holland-14,Holland fifteen 041 and other
2.4.2 荷兰十五Q8、冀张薯8号、冀张薯12号、兴佳2号与Y2的分类模型对“2.4.1”中其它品种种薯应用BP神经网络分类建模,测试集测试混淆结果见表2。由表2数据计算得:荷兰十五Q8测试正确率41.03%,冀张薯8号测试正确率54.55%,冀张薯12号测试正确率50.00%,兴佳2号测试正确率50.00%,Y2测试正确率93.75%。Y2样本的测试准确率较高,冀张薯8号的测试准确率也高于其它品种,Y2样本被错误识别的1个样本被测试为兴佳2号,冀张薯8号的5个样本被错误识别为Y2。冀张薯8号和Y2对其它品种非线性判别分析界限较明显,但此二者间的分类界限模糊。
表2 荷兰十五Q8、冀张薯8号、冀张薯12号、兴佳2号和Y2的BP网络分类测试结果Table 2 Classification test results of BP neural network for Holland fifteen Q8,Jizhangshu 8,Jizhangshu 12,Xingjia 2 and Y2
2.4.3 荷兰十五Q8、冀张薯12号、兴佳2号与冀张薯8号、Y2分类模型由“2.4.2”分类模型的测试结果可知,冀张薯8号和Y2分类特性较相似,两者不易区分,荷兰十五Q8、冀张薯12号和兴佳2号相互之间均有误判。因此,将冀张薯8号和Y2合并作为一类,荷兰十五Q8、冀张薯12号和兴佳2号合并作为另一类,分别进行2分类建模。
应用BP神经网络分类建模,测试集测试混淆结果显示第一类(荷兰十五Q8、冀张薯12号、兴佳2号)47个测试样本的测试正确率为91.49%,4个测试为第二类(冀张薯8号和Y2),测试错误率8.51%。第二类(冀张薯8号和Y2)27个测试样本的测试正确率为96.30%,测试错误率为3.70%。由此可见,两类分类模型均有很高的分类精度,测试集正确识别率均在90%以上,平均正确识别率为93.24%。
2.4.4 荷兰十五Q8、冀张薯12号、兴佳2号分类模型应用支持向量机对荷兰十五Q8、冀张薯12号、兴佳2号进行分类建模。结果显示:荷兰十五Q8的测试正确率为89.74%,4个错误测试为兴佳2号,测试错误率10.26%。冀张薯12号的测试正确率75.00%,1个错误测试为荷兰十五Q8,测试错误率25.00%。兴佳2号的测试正确率为75.00%,1个错误测试为荷兰十五Q8,测试错误率25.00%。平均正确识别率为87.23%。
2.4.5 冀张薯8号、Y2分类模型应用BP神经网络对冀张薯8号、Y2建立分类模型,结果显示:冀张薯8号的测试正确率为72.73%,3个测试为Y2品种,测试错误率27.27%。Y2的测试正确率为81.25%,3个测试为冀张薯8号,测试错误率18.75%。平均正确识别率为77.78%。
3 结 论
以第1和第3主成分作为分类变量,应用判别分析、BP神经网络、支持向量机对大西洋、荷兰-14、荷兰十五041、荷兰十五Q8、冀张薯12号、冀张薯8号、兴佳2号和Y2高光谱分类检测方法进行了研究。由于类别较多,且类间特征差别较小,难以建立8个马铃薯微型种薯的统一分类模型,即使是泛化能力最好的SVM模型,平均测试正确率也仅49.14%,因此需分步骤、分组建模。最终建立了3层的分组、分层检测策略:第1层采用线性判别分析模型将待测样本判别为大西洋、荷兰-14、荷兰十五041或其它品种,平均正确识别率达88.79%。第2层采用BP神经网络模型将其它品种样本判别为2类,一类冀张薯8号和Y2,另一类为荷兰十五Q8、冀张薯12号和兴佳2号,平均正确识别率达93.24%。第3层利用支持向量机分类模型荷兰十五Q8、冀张薯12号和兴佳2号3个品种,平均正确识别率达87.23%,利用BP神经网络分类模型区分冀张薯8号和Y2品种,平均正确识别率达77.78%。表明高光谱分析技术可用于马铃薯微型种薯的类别检测。