基于高光谱技术的玉米种子可视化鉴别研究
2016-06-15张卫正陆江锋裘正军
吴 翔,张卫正,陆江锋,裘正军,何 勇
浙江大学生物系统工程与食品科学学院,浙江 杭州 310058
基于高光谱技术的玉米种子可视化鉴别研究
吴 翔,张卫正,陆江锋,裘正军*,何 勇
浙江大学生物系统工程与食品科学学院,浙江 杭州 310058
种子纯度是衡量种子品质的重要指标。提出一种基于近红外(874~1 734 nm)高光谱技术实现玉米种子可视化鉴别的方法。采集4个品种共384个玉米种子样本的高光谱图像数据,随机选择288个样本作为建模集,剩余96个样本作为预测集。对玉米种子光谱曲线进行分析后,通过连续投影算法(SPA)选取7个特征波段作为输入,结合偏最小二乘法判别分析(PLS-DA)模型,对预测集进行预测,获得较好的分类效果,其中RC=0.917 7,RMSECV=0.444 2;RCV=0.911 5,RMSECV=0.459 9,建模集和预测集的总体鉴别率分别为78.5%和70.8%。通过图像处理技术提取高光谱图像中每个玉米颗粒的平均光谱数据,输入建立的SPA-PLS-DA模型,在计算生成的鉴别图中以不同颜色标识不同类别,实现了混杂玉米种子样本的可视化鉴别。对3份不同组成的混杂种子样本进行鉴别,达到了较好的可视化效果。结果表明,通过可视化鉴别技术,可以直观方便地观察混杂种子样本中不同品种种子的分布和数量,为农业生产中种子的纯度鉴别和筛选提供了帮助。
高光谱成像; 玉米种子; 连续投影算法; 可视化
引 言
种子纯度是衡量种子品质的重要指标。随着杂交技术的广泛应用,农作物种子的品种日益增多,品种类间相似性逐渐增大,感官鉴定不易区分。市场上掺杂造假,以次充好的事件屡有发生。不法商家将其他品种的种子或本品种不合格的种子混杂在合格种子中,造成农作物的减产,严重损害了种植者的利益。在农作物种子检验中,传统检测方法包括种子鉴定、幼苗鉴别、田间小区种植、蛋白质电泳等。但这些方法存在着鉴定时间长、人员依赖性强、对种子具有破坏性等缺点。因此,需要研究一种快速方便的种子品种鉴别技术。
研究人员利用近红外光谱对作物种子的发芽率[1],脂肪酸含量[2]和淀粉含量[3]等品质进行研究。但是传统的光谱技术无法提供样本图像信息。高光谱图像技术是近年来发展迅速的一种融合了光谱信息和图像信息的无损检测新技术。相比传统化学检测方法,高光谱图像技术具有操作简易、成本低廉、准确度高的优点,因此被广泛应用于农产品的品质检测[4-6],如利用近红外高光谱成像技术获取种子外部形态特征和内部成分信息,对不同品种和品质种子进行分析; Rodriguez等利用近红外高光谱图像技术对4类不同葡萄种子进行区分,并且建立成熟期的预测模型[7]; 张初等利用近红外高光谱图像技术结合极限学习机(ELM)建模方法快速鉴别西瓜种子品种[8]; Kong等利用近红外高光谱技术区分四种杂交水稻品种[9]。但上述研究都未涉及对混杂种子样本中掺杂种子的鉴别。在实际农业生产中,需要检查掺杂种子并予以剔除。因此如何定位发现成堆种子样品中的掺杂种子变得十分重要。
结合近红外高光谱成像技术提供的光谱信息和图像信息,对不同种类玉米种子进行可视化鉴别。通过提取高光谱图像数据建立分类模型,并结合图像处理技术生成伪彩色的鉴别图,直观地显示混杂样本中不同品种种子的位置和数量。研究包括: (1)通过SPA算法提取玉米种子近红外光谱特征波段。(2)利用特征波段建立PLS-DA分类模型。(3)对混杂玉米种子样本进行可视化鉴别。
1 实验部分
1.1 材料
玉米样本购买于寿光大自然种业公司,品种有东方甜1号、绿色超人、郑单958、品糯28共4类,每类各96颗。样品均为正常品质,外观没有明显的瑕疵。将384个实验样本随机分为建模集和预测集,建模集共288个,每类各72个,预测集共96个,每类各24个。
1.2 高光谱图像获取
所采用的高光谱成像系统主要由相机、光谱仪、镜头、卤素灯光源、步进电机控制的传送带、计算机、暗箱等组成。光谱仪的分辨率为5 nm,近红外光谱范围为874~1734 nm,高光谱图像分辨率为320×256 像素。经过反复实验,物镜的高度设置为19 cm,曝光时间为3 ms,平台移动速度为14.5 mm·s-1。为了消除镜头中存在的暗电流以及光源的强度分布不均所产生的噪音[10],对采集到的高光谱图像进行一次黑白校正,公式如下
(1)
其中I0代表原始高光谱图像,W为扫描标准白色校正板(反射率接近99.9%)得到的白色标定图。B为关闭光源(反射率接近0%)得到的黑色标定图像。在ENVI4.6软件中对高光谱图像进行感兴趣区域(ROI)提取,每个种子样本中心提取一个矩形ROI, 求ROI内所有像素点的平均光谱。将提取的光谱数据保存在一个384×256的矩阵中(384为样本数,256为波段数)用于后续计算。
1.3 特征波段提取
全波段光谱数据之间存在大量的冗余和共线性信息特征,数据处理计算量大,不利于建立分类模型。选取特征波段是一种常见的减少高光谱数据冗余的方法。故采用连续投影算法(SPA)对高光谱数据进行特征波长选择。SPA 是一种特征变量前向选择算法,在光谱特征波长选取中有广泛的应用[11]。设置SPA算法选择特征波长数的范围为5~30,提取的特征波段用于建立分类模型。选取的特征波段用于建立偏最小二乘法差别分析(PLA-DA)模型。本研究采用全交叉验证以避免过拟合问题,具体参考文献[13]。
2 结果与讨论
2.1 玉米种子光谱曲线分析
四种样本玉米种子在光谱范围为874~1 734 nm的近红外波段,原始光谱图如图1所示。四种品种的玉米种子具有一致的光谱趋势。在1 300 nm附近,反射率呈现急剧地下降,然后缓慢上升。在原始光谱的前后两端有明显的噪声,因此采用1 000~1 600 nm共179个波段进行后续数据分析。
2.2 主成分分析(PCA)
PCA结果如图2所示。第一主成分PC1的贡献率为87%,第二主成分贡献率为11%,累计贡献率为98%,可以解释大部分变量。图中四种样品分布较密集,不易区分,需要建立数学模型进行分类。
Fig.1 Reflectance spectra of corn seeds(874~1 734 nm)
Fig.2 Scores scatter plot of PC1 and PC2
2.3 SPA-PLS-DA建模
对全波段高光谱数据(1 000~1 600 nm) 利用SPA算法进行特征波长选取,根据RMSE最小原则选取特征波长集合。RMSE结果如图3所示,当波长数量为7时,曲线已经趋于水平,此时RMSE=0.495 24接近最小值。最后选取7个特征波长,按贡献率排序依次为: 1 164,1 237,1 392,1 314,1 213,1 072,1 291 nm。
Fig.3 RMSEV plot of EWs of full spectra data selected by SPA
将建模集的7个特征波长作为X变量,建模集的类别(以1代表东方甜1号,2代表绿色超人,3代表郑单958,4代表品糯28)作为Y变量输入PLS-DA模型。建立的SPA-PLS-DA模型的RC值0.917 7,RMSEC为0.444 2,RCV为0.911 5,RMSECV为0.459 9,输出模型如下
Y=1.443 7-192.650 8×λ1 164+63.452×λ1 237-
15.724 8×λ1 392+301.433 6×λ1 314+
117.088 5×λ1 213+82.707 7×λ1 072-353.469 9×λ1 291
(2)
使用预测集验证建立的SPA-PLA-DA模型,将判断阈值设为0.5,即如果输出结果在(2.5,3.5 ]区间内,则判断为类别3。结果如表1所示,建模集的总体鉴别率为78.5%,预测集为70.8%。预测集中,东方甜1号和郑单958鉴别率较好为75%,品糯28结果较差为62.5%。在图2中,品糯28集合分布也最为分散,与其他集合皆有重叠。表示在近红外波段,品糯28的光谱特性与其他三类玉米种子较相近,不易区分。
Table 1 Discrimination results of SPA-PLS model
2.4 混杂种子样本可视化鉴别
采集混杂玉米种子样本的高光谱图像,通过图像处理技术提取高光谱图像中每个玉米颗粒的平均光谱数据,输入建立的SPA-PLS-DA模型,预测结果以不同颜色标识不同种子类别(以黑色为背景,白色为东方甜1号,红色为绿色超人,绿色为郑单958,黄色为品糯28),生成对应的可视化鉴别图。
对三份混杂种子样本进行可视化鉴别,结果如图4所示。图4中,第一列为组别号,第二列为样本高光谱灰度图像(1 164 nm), 第三列为对应的鉴别图。由于近红外高光谱成像系统图像分辨率较低和图像分割算法效果影响,鉴别图中样本种子存在一定的变形,但大致维持原本的外形特征。(a)组和(b)组分别为东方甜1号-绿色超人和品糯28-郑单958 的两两混合样,用以显示四种样品各自的鉴别率。(a)组前四排为东方甜1号共32颗,后三排为绿色超人共24颗。(b)组前四排为品糯28共28颗,后三排为郑单958共24颗。(a)组和(b)组中、东方甜 1号、绿色超人、郑单958和品糯28的鉴别率依次为81.3%,75%,75%和64.3%. 其中,东方甜1号结果较好,而品糯28的识别率较低,一部分被模型误判为郑单958。(c)组为所有品种的混合样,用以显示综合效果。(c)组从上到下依次为郑单958、品糯28、东方甜1号
和绿色超人,每种各占2排共55颗,整体识别率为72.3%。可视化结果表明,通过鉴别图可以较好地在混杂玉米种子样本中定位识别不同品种种子。另外,图中提供了每个种子样本的外形特征,因此还可以提取同类种子的面积、周长、圆形度等参数,用于种子形态学研究。
Fig.4 Visual identification map of 3 mixture samples of corn seeds
3 结 论
采用近红外高光谱成像技术实现不同种类玉米种子可视化鉴别。以288个种子样本作为建模集,96个样本为预测集,使用SPA算法选取7个特征波段,建立SPA-PLS-DA分类模型,建模集和预测集的总体识别率分别为78.5%和70.8%。通过建立的SPA-PLS-DA模型结合图像处理技术,对3份不同组成的混杂种子样本进行可视化鉴别,获得了较好的效果。结果表明,近红外高光谱技术结合图像处理技术可以实现玉米种子品种可视化鉴别,能为农业生产中种子的纯度鉴别和筛选提供帮助。在后续的研究中,会通过优化建模方法和考虑更多的玉米品种,以获得更稳健的模型,达到更好的鉴别效果。
[1] DAI Zi-yun, LIANG Xiao-hong, ZHANG Li-juan, et al(戴子云, 梁小红, 张利娟, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2013, 33(10): 2642.
[2] Ribeiro L F, Peralta-Zamora P G, Maia B H L N S, et al. Food Research International, 2013, 51(2): 848.
[3] Hacisalihoglu G, Larbi B, Settles A M. Journal of Agricultural and Food Chemistry, 2010, 58(2): 702.
[4] Cozzolino D, Cynkar W, Shah N, et al. Food Analytical Methods, 2012, 5(3): 381.
[5] Suphamitmongkol W, Nie G L, Liu R, et al. Computers and Electronics in Agriculture, 2013, 91: 87.
[6] Rady A M, Guyer D E, Kirk W, et al. Journal of Food Engineering, 2014, 135: 11.
[7] Rodriguez-Pulido F J, Barbin D F, Sun D W, et al. Postharvest Biology and Technology, 2013, 76: 74.
[8] ZHANG Chu, LIU Fei, KONG Wen-wen, et al(张 初, 刘 飞, 孔汶汶, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2013, 29(20): 270.
[9] Kong W W, Zhang C, Liu F, et al. Sensors, 2013, 13(7): 8916.
[10] ElMasry G, Wang N, Vigneault C. Postharvest Biology and Technology, 2009, 52(1): 1.
[11] WU Di, NING Ji-feng, LIU Xu, et al(吴 迪, 宁纪锋, 刘 旭, 等). Food Science(食品科学), 2014, 35(8): 57.
[12] Galvao R K H, Araujo M C U, Fragoso W D, et al. Chemometrics and Intelligent Laboratory Systems, 2008, 92(1): 83.
[13] Gaspardo B, Del Zotto S, Torelli E, et al. Food Chemistry, 2012, 135(3): 1608.
*Corresponding author
Study on Visual Identification of Corn Seeds Based on Hyperspectral Imaging Technology
WU Xiang, ZHANG Wei-zheng, LU Jiang-feng, QIU Zheng-jun*, HE Yong
College of Biosystems Engineering and Food Science,Zhejiang University,Hangzhou 310058, China
The seed purity is an important indicator of seed quality. The paper proposes a visual identification method of corn seed based on the near-infrared (874~1 734 nm) hyperspectral image technology. Hyperspectral image data of 4 cultivars of a total of 384 corn seed samples will be acquired. Then 288 of samples are to be selected randomly as the calibration set, and the remaining 96 samples will be used for the prediction set. After inspection of the near-infrared spectral curves, 7 effective wavelengths (EWs) are to be selected by successive projection algorithm (SPA). And then 7 EWs of the calibration set will be used as input to build a partial least squares (PLS) model. Good results are to be obtained withRC=0.917 7, RMSECV=0.444 2;RCV=0.911 5, RMSECV=0.459 9. And the total identification rate of the developed PLS model will be 78.5% for the calibration set and 70.8% for the prediction set. Finally, average spectral data of each corn seed in a hyperspectral image will be extracted by image process technology, and used as input of the developed SPA-PLS model. In the produced identification map, different colors are to be used to represent different predicted cultivars. 3 mixture samples of corn seeds will be identified, and help to achieve satisfied visual effects. The result indicates that, by means of the visual identification technology we could intuitively observe the distribution of corn seeds of different cultivars in mixture samples. The research provides help for the identification and screening of seeds in agricultural production.
Hyperspectral image; Corn seed; SPA; Visualization
Nov. 27, 2014; accepted Mar. 16, 2015)
2014-11-27,
2015-03-16
国家科技支撑计划项目(2014BAD04B04)和浙江省教育厅科研项目(Y201328805)资助
吴 翔,1990年生,浙江大学生物系统工程与食品科学学院博士研究生 e-mail: wswuxiang@126.com *通讯联系人 e-mail: zjqiu@zju.edu.cn
TP391.4
A
10.3964/j.issn.1000-0593(2016)02-0511-04