基于高光谱图像技术的脱绒棉种活力检测
2018-08-01李景彬黄蒂云彭顺正
尤 佳, 李景彬, 黄 勇, 黄蒂云, 彭顺正
(1.石河子大学机械电气工程学院,新疆石河子 832000; 2.石河子大学信息科学与技术学院,新疆石河子 832000)
棉种是棉花生产的基础[1],棉种质量直接影响棉花的产量和纤维品质。棉种质量是指种子净度、发芽率、活力和品种纯度等指标所表示的综合特性[2]。选用优良的棉种可以显著增产,研究表明,作物增产中优质良种所起的作用约占1/3以上,而棉种活力是保障棉花高产的关键因素[3]。高活力种子具有明显的生长优势,对其活力测定对农业生产具有重要意义,播种前须要对种子活力进行测定,选用高活力种子确保田间苗齐、壮,且活力较高的种子抗逆性强,贮藏价值大[4]。
目前常规测定棉种活力主要方法有发芽试验[3]、高温焖种法[5]、四唑染色法[6]、电导率测定法[7]、介电常数法[8]、机器视觉[9]等。这些方法应用于棉种活力检测,但存在对样品造成损害、耗时、检测结果不准确、速度慢、使用的化学试剂易造成环境污染等缺点。因此研究出一种快速、准确、无损、高效的棉种活力检测方法是目前市场需求。
高光谱图像应用于农产品检测是近些年兴起的一项新技术,它在获取研究对象空间信息和光谱信息时,也可以更大范围获取样本的内外部信息,能够更加全面地对样本进行分析研究。高光谱图像技术已广泛应用于农畜产品检测[10-12]及水果品质检测[13-16],基于高光谱图像技术检测种子品质、产地等近些年也开始新兴于国内外。Cogdill等采用高光谱图像技术对玉米种子的含油率和含水率进行检测,得到了较好的成果[17];Wallays等基于高光谱图像技术建立了小麦、大麦、玉米杂质检测系统[18];Singh等利用近红外高光谱成像系统对小麦进行检测,对正常小麦与受损小麦进行了区分[19];Nansen等利用高光谱图像技术对澳大利亚本地树种萌发进行分类预测,其效果良好[20]。国内也有许多学者进行了相关研究,朱启兵等研究了快速识别种子纯度,把熵信息作为分类特征实现玉米种子的准确识别分类[21];王国庆等提出了用高光谱图像技术对玉米种子年份和产地鉴别,其模型训练集和测试集精度分别为99.11%和98.3%[22];张初等采用高光谱图像技术结合化学计量学方法实现了黑豆品种的鉴别,得出利用小波分析提取光谱特征信息建立的极限学习机模型效果最好[23];李美凌等研究了水稻种子不同活力水平之间的差异,初步说明了利用高光谱图像技术检测种子活力的可行性[24]。
目前利用高光谱图像技术对种子活力检测的研究很少,且针对脱绒棉种活力进行检测未见相关研究。本研究基于高光谱图像技术对脱绒棉种活力进行检测,为脱绒棉种活力测定提供了一种新方法,同时也为其他种子的活力检测奠定了理论基础。
1 试验材料与方法
1.1 试验材料
试验采用由新疆棉种加工厂提供的新陆早50、新陆早57、新陆早62脱绒棉种为研究对象筛选出新陆早50、新陆早57和新陆早62各270粒。
试验前将脱绒棉种按照不同品种依次编号,同时为了避免种子之间的差异性,用于电导率和高光谱成像系统采集的脱绒棉种保持一致。
1.2 老化处理
采用人工老化方法,将脱绒棉种分成不同老化程度。将新陆早50、新陆早57、新陆早62分别各选取180粒,分成2组,每组90粒,并对每组进行编号,编号如表1所示。将6组脱绒棉种放在温度为45 ℃、湿度为100%条件的LH-250S老化箱内,对新陆早50、新陆早57、新陆早62的1组进行 24 h 的老化处理,对新陆早50、新陆早57、新陆早62的2组进行48 h的老化处理,由此得到2种不同老化程度的种子。
表1 脱绒棉种老化数据编号
注:1代表人工老化24 h的脱绒棉种,2代表人工老化48 h的脱绒棉种。
1.3 试验设备
试验采用如图1高光谱成像系统。整个系统由图像采集部分、光源、输送装置3个部分组成。其中,图像采集部分包括光谱仪(ImSpector V10E-QE,Spectral Imaging Ltd,Oulu,Finland)、镜头、CCD相机(C8484-05G,Hamamatsu Photonics,Japan);光源由光源控制器(3900ER,Illumination Technologies,Inc,USA) 和150 W卤素灯组成; 输送装置由电移平台(PSA200-11-X,Zolix)和电移平台控制器(SC300-1A,Zolix)组成。为了减少外界对图像采集影响,采集样本在密封的遮光柜中进行,为了保证图像采集质量,物距、光心距离和光源角度可调节。高光谱测量的光谱分辨率为 2.8 nm,成像光谱校正后范围408~1 013 nm。
1.4 高光谱图像采集
在进行高光谱图像采集前,须要对平台移动速度、平台移动行程、物距、曝光时间进行调整,从而获得图像大小合适、不失真、清晰的图像。经过对此调试及参数优化,确定采集参数:物距高度设置为34 cm,曝光时间15.5 ms,图像采集速度为1.25 mm/s。
在光照度分布弱的波长下获得的图像含有较大噪声,因此在高光谱图像采集前须要对图像进行黑白校正,以消除部分噪声影响。高光谱进行白板校正所得到的图像为W,在关闭摄像头全黑状态下,采集的全黑图像为B,得到校正后的图像为Ic,见式(1)。
(1)
式中:Ic为校正后的图像;Io为高光谱成像系统采集的原始图像。
2 数据分析与处理
2.1 电导率试验
将采集完高光谱图像的脱绒棉种进行电导率试验。从上述3个品种共810粒种子按分组编号单粒放入4 mL的试管中,加入2 mL蒸馏水,在温度为30 ℃的恒温箱中静置12 h。利用电导率仪分别对单粒种子进行测量,并记录数据,得到对应的电导率如图2至图4所示。
2.2 图像特征提取
高光谱仪提取波长范围为408~1 013 nm的脱绒棉种图像。高光谱图像含有数据量大、冗杂,而光谱信息反映样品的化学成分、物理结构,本研究只提取光谱信息作为研究对象,并且选取感兴趣区(RIO)提取样本的光谱数据。
为了消除多余背景对样品影响,把单粒脱绒棉种全区域作为1个感兴趣区域,提取单粒种子的光谱数据。3种脱绒棉种提取810个感兴趣区域,并通过感兴趣区域获得单粒种子的光谱平均反射光强,得到平均反射光强如图5所示。
2.3 光谱预处理
采集的光谱范围为408~1 013 nm,光谱图显示,在408~450、1 000~1 013 nm之间存在明显噪音,因此选取450~1 000 nm 范围的光谱反射率作为研究对象。为了消除仪器自身噪声和随机误差,须要对光谱反射光照度进行滤波处理,本研究采用Savitzky-Golay平滑法。在高光谱图像的获取过程中,光谱信息受到环境因素以及种子颗粒大小不均等因素的影响,须要对光谱进行多元散射校正(MSC),校正种子颗粒因散射引起的光谱差异。
对光谱数据集进行归一化处理。x、y∈Rn,xmin=min(x),xmax=max(x)将原始数据归一到[-1,1]之间,区间为[-1,1]的映射函数为:
(2)
2.4 特征分析
高光谱数据信息冗余多、相关性大,对数据处理、计算及存储都极为不方便,对光谱数据预处理后须要对其进行降维处理,去除冗余信息。本研究采用主成分分析(PCA)处理,生成互不相关的输出波段,用于隔离噪音和减少数据集的维数。高光谱多波段数据是高度相关,主成分变换找到一个原点为数据均值的新坐标,通过旋转坐标轴使数据的方差达到最大,从而生成互不相关的波段。对脱绒棉种高光谱图像进行主成分分析,得出新陆早50、新陆早57、新陆早62的前10个主成分分析及10个主成分(PC)图像。如图6所示,新陆早50的PC1、PC2、PC3图像几乎代表了原始光谱数据的大部分数据,且主成分累积贡献率达到98%以上,PC1图像接近于原始图像包含了脱绒棉种大部分信息,但主要体现脱绒棉种表皮信息;PC2图像中,棉种周围边缘和下端为白色,PC2包含部分棉种内部信息;PC3含有大量的背景信息,棉种中心区域为黑色,边缘部分为白色,黑色部分为反光现象造成。PC4~PC10包含了少量的信息,PC10的累积贡献率达到了99%左右,为了尽可能保证信息的丢失量较少,故选取10个主成分进行分析。
2.5 基于PCA模型建立
判别分析(discriminant analysis,DA)根据测量或观察的变量值判断研究样本如何正确分类[25]。通过已知数量的1个分组变量及其特征变量,确定分组变量和特征变量的数量关系,建立判别函数,利用其数量关系对其未知分组类型的样本进行判别分组。支持向量机(support vector machine,SVM)是一个凸二次规划问题,在模式分类问题上具有很好的范化性。SVM是通过一个非线性映射P,将样本空间映射到一个高位的特征空间中,使样本空间的非线性问题转化为特征空间的线性可分问题,应用核函数的展开定力在某种程度上避免了“维数灾难”。对脱绒棉种的光谱数据进行预处理及主成分分析后,分别对3个品种的脱绒棉种进行判别分析,其判别结果如表2所示。根据主成分图像结合贡献率分别选取前10个主成分对脱绒棉种进行建模分析, 3个品种的脱绒棉种PC10累积贡献率都达到99%以上;采用10个主成分进行判别分析,新陆早50、新陆早57、新陆早62的分类精度达到88.3%以上,分别对应找出每个品种的误判样本,与电导率试验所测数据进行对比,发现部分误判样本划分类别与其实际测量的电导率值相匹配。其中,新陆早50未处理1号、新陆早50人工老化24 h的13号、新陆早50人工老化48 h的11号、新陆早57人工老化48 h的33号、新陆早62人工老化24 h的29号、33号由于种子自身原因或光谱采集问题为异常样本分类错误。
每个样本的光谱信息预处理后,将3个品种各240个样本的75%作为训练集,其余的25%作为测试集,采用支持向量机(SVM)建立分类模型。用10个主成分作为输入变量,选择线性核函数,采用粒子群优化算法对惩罚参数c和核函数参数g寻求最优值。新陆早50、新陆早57、新陆早62的测试集鉴别率达到78%、82%、80%。
表2 脱绒棉种的判别模型分类结果
2.6 特征波长提取
主成分1、主成分2和主成分3包含了大部分信息,其累计贡献率达到了97%以上,大部分脱绒棉种能够在3个主成分下较好地分类,采用各个波长对3个主成分权重值大小的方法寻求特征波长,权重系数绝对值越大,对主成分图像影响越大,包含的信息也就越多;反之,权重系数绝对值越小,对主成分图像影响越小,包含的信息也就相对较少。综合考虑,选取505.22~509.54、677.57~682.64、1 007.81~1 013.13 nm等3个波段为特征波段。从选取特征波长分析,其中2个波段位于可见光范围,而另外1个位于近红外范围。对特征波长建模分析,判别分析中新陆早50、新陆早57、新陆早62测试集判别率为98.3%、98.3%、96.6%;采用SVM对特征波长分析,得出新陆早50、新陆早57、新陆早62的测试集鉴别率为81.67%、85%、85%(图7)。
2.7 模型预测结果与比较
对采集的脱绒棉种光谱图像经过预处理、主成分分析,并且对光谱数据进行预处理、主成分分析、特征波段提取等工作后,分别对处理后的数据进行距离判别和SVM建模分析。以10个主成分为输入量的判别分析模型的鉴别率最高可达到100%,SVM模型的鉴别率最高可达到82%;经过特征波段提取建立的距离判别和SVM模型鉴别最高可达到98.3%和85%。结果表明,采用距离判别模型对脱绒棉种活力检测精度更高,且基于特征波段下对3个品种的脱绒棉种建立的距离判别和SVM模型比基于主成分下建立的更为稳定可靠、鉴别率差异小、鉴别效果良好。
3 结论
本试验采用高光谱图像技术对脱绒棉种的活力检测进行初步研究。采用Savitzky-Golay平滑法,多元散射校正和归一化对数据进行预处理,并利用主成分分析法对采集的光谱图像进行分析,根据贡献率及图像所包含信息量选取10个主成分进行分析,采用10个主成分建立不同老化程度下的判别模型和支持向量模型。结果表明,判别模型分类效果略优于支持向量机模型,其测试集分类精度达到88%以上,说明基于高光谱图像技术检测脱绒棉种活力方法是可行的,为脱绒棉种活力无损快速检测提供了一种新方法。
采用权重法提取3个特征波段,建立判别模型和支持向量机模型,其中判别分析模型测试集分类精度可以达到96%左右。结果表明,采用主成分法建立的判别分析模型鉴别率略高,但利用特征波段建模法较为稳定,更具有可靠性,同时为了适应现实需求,以尽可能少的波段获得最优的品种识别精度,波段选择还须要进一步研究。