APP下载

基于高光谱反透射图像的新疆冰糖心 红富士水心鉴别

2020-04-02郭俊先马永杰田海清

食品科学 2020年6期
关键词:心病模式识别识别率

郭俊先,马永杰,田海清,黄 华,史 勇,周 军

(1.新疆农业大学机电工程学院,新疆 乌鲁木齐 830052;2.内蒙古农业大学机电工程学院,内蒙古 呼和浩特 010018;3.新疆农业大学数理学院,新疆 乌鲁木齐 830052)

苹果水心病,又称为糖化病、蜜果病,是一种常见的果实病害,在大部分苹果产区均有不同程度的发生[1]。其主要产生原因是由于果实含钙量过低从而导致山梨糖醇的累积造成[2]。水心病主要发生在果实上,但是其症状通常不会表现在外表面,初期水心病果与正常果外观无差异,难以辨别,但是感病果内部果肉组织坚硬,呈水透明状,较甜;当水心病发病位置蔓延到苹果表皮时,此时可以发现病果皮呈水渍状,如蜡般透明[3]。水心病果在收获之后不会进一步加重水心,并且水心会随着贮藏时间的推移而减少[4],轻微染病果的水心甚至会消失,但严重染病果会由于时间的变化而产生病组织褐变影响苹果的品质,甚至会造成食品安全隐患。国内的水心病检测主要还是以人工经验外观鉴别为主,识别率不能保证,因此需要一种可靠性高、无损、快捷的方法用来对其检测鉴别,从而使水心病果能发挥其最大的经济价值。

迄今,已经有不少的国内外研究人员对苹果水心病的无损检测进行了各类研究,取得了一定的成果。诸如使用X光线[5]、近红外光谱[6]、核磁共振技术[7]、热成像技术[8]、计算机视觉[9]、电子鼻[10]、色彩像素[11]、密度法[12]、透光强度[13]、人工智能分类器[14]、电学特征法[15]等,但有些方法成本过高,有些耗时较长,有些甚至识别率不可靠,大部分都处在实验室初级阶段,没有广泛应用。

高光谱技术涵盖了样本的图像和光谱信息[16],已经广泛运用在各个领域,如农产品无损检测[17]、土壤成分检测[18]、掺假鉴定[19]、环境监测[20]、产量预测[21]、农作物病害[22]等。在农产品检测领域,通过选择高光谱图像的感兴趣区域从而获得其光谱信息可以对农产品的内部品质进行预测与分析;国内外学者主要利用高光谱技术对苹果的表面损伤[23]、硬度[24]、质量[25]、大小[26]、 糖度[27]、粉质化检测[28]、叶片叶绿素含量[29]、叶片氮素含量[30]、叶片磷素含量[31]等的分析,但利用高光谱技术对苹果水心病鉴别的研究却鲜为人知。

实验以新疆冰糖心红富士苹果为研究对象,采集可见短波近红外高光谱图像,提取感兴趣区域的光谱信息,使用高光谱技术结合化学计量学建模方法,探讨多种光谱预处理方法以及相关系数法、快速独立分量分析(fast independent component analysis,Fast ICA)、主成分分析(principal component analysis,PCA)等多种数据降维方法,对比贝叶斯判别(Bayes discrimination,B D)、马氏距离判别(M a h a l a n o b i s d i s t a n c e discrimination,MD)、二次线性判别分析(quadratic discriminant analysis,QDA)、K最近邻法(K-nearest neighbor,KNN)、最小二乘支持向量机(least squares support vector machine,LSSVM)等多种模式识别的模型性能,从中筛选并建立最优的水心鉴别模型,为水心鉴别提供一种新的方法,从而方便后续苹果水心病鉴别仪器的研究与开发。

1 材料与方法

1.1 材料

新疆冰糖心红富士苹果(235 个)于2016年11月12日采摘自新疆阿克苏地区红坡农场园艺分场的优质“冰糖心红富士”苹果种植基地。由有经验的果农对苹果初步判断,采摘大小尺寸均匀、无明显机械损伤、成熟度一致的疑似水心病果及正常苹果,采收后装箱运回无损检测实验室,在实验室平铺苹果放置在室温20 ℃环境下静置24 h,剔除有轻微损伤的苹果,共228 个苹果用于数据采集,实验苹果常规数据统计见表1。

表 1 实验苹果常规数据统计Table 1 Statistical data of physicochemical properties of apples tested in this study

1.2 仪器与设备

图 1 高光谱图像采集系统Fig. 1 Hyperspectral image acquisition system

如图1所示,采用的高光谱成像系统来自内蒙古农业大学机电工程学院无损检测实验室,由中国台湾五铃光学有限公司生产,该系统包括modelV10E成像光谱仪、OLE23镜头(Specim公司、焦距23 mm);配套I G V-B 1 6 2 0 C C D 相机(I m p e r x,分辨率为1 600×1 200)、卤素灯光源一套、步进电机控制的位移平台、暗箱、光源调节器、计算机等设备。高光谱成像系统的光谱采集范围为380~1 004 nm,入射光狭缝宽度为50 μm。

1.3 方法

1.3.1 可见-短波近红外高光谱图像采集

采集高光谱图像之前,先将苹果从冷藏室取出放置在室温条件下3 h以上。调整高光谱采集系统的参数,首先,静态调整镜头焦距及样本与镜头之间的物距,并随机采集特定图形和苹果的多幅图像,获得被测物图像清晰不模糊时的物距最佳参数值;其次,动态采集多幅图像并保证样本图像不变形、不失真,确定其最佳曝光时间及平台移动速度。经过多次调整及优化,最终确定高光谱成像系统的最终参数如表2所示。

表 2 高光谱成像系统参数设置Table 2 Parameter settings of hyperspectral imaging system

为了消除光谱仪自身干扰,增强光源的稳定性,将光谱仪开机静置30 min后,开始采集高光谱图像,将苹果样本如图1所示放置,苹果赤道面与相机光轴水平,花萼-果梗轴线与样本移动方向垂直,与光谱仪光轴基本保持垂直状态。随着载物台的移动,光谱仪获得苹果光谱图像信息,为了实验数据的可靠性,消除苹果不规则的形状差异对光谱图像采集的影响,将苹果在原始摆放的基础上再沿赤道面顺时针旋转90°采集另外一幅高光谱图像,最终将2 次光谱图像获得的光谱平均值作为该样本的光谱数据。共计采集228 个苹果的可见-短波近红外高光谱图像。

1.3.2 光谱校正处理

在采集高光谱图像的过程中,由于光谱仪含有暗电流噪声,以及果体形状等影响光谱信息,对所获得的高光谱图像用下式的校正方程进行黑白校正[32]:

式中:R为经过黑白校正的图像;I0为原始图像;IDark为全黑标定图像;IWhite为标准聚四氟乙烯白板标定图像。

1.3.3 苹果分类

对每一个高光谱图像采集过后的苹果沿赤道面进行剖切,观察并记录水心状况,统计后有水心病果104 个,正常苹果样本124 个。

1.4 数据处理

1.4.1 软件

高光谱图像采集由配套HSI Analyzer软件(中国台湾五铃光学有限公司)实现,ENVI 5.3软件(美国RS 公司)完成高光谱图像分割及光谱提取,光谱处理及数据分析软件为Matlab 2014b(美国MathWorks公司),绘图使用OriginPro 8软件(美国OriginLab公司)。

1.4.2 光谱信息的获取

ENVI软件作为高光谱影像处理与提取信息的专业软件,其能够快速高效的从高光谱图像中提取重要信息。本实验采用ENVI 5.3软件提取苹果2 个表面的高光谱图像,由于高光谱反透射苹果区域形状不规则,故手动选取感兴趣区,然后求得其平均光谱。将苹果样本两个表面的光谱曲线取平均值作为每个苹果样本的光谱曲线。共得到228 sample×428 wavelength的原始光谱数据集合。

1.4.3 模型建立方法

在高光谱图像采集的过程中,样本获取的信息不仅是待测样本的原始信息,还包含了很多复杂的外在干扰和噪声信息,这些噪声信息都在一定程度上会导致测得数据与真实数据存在偏差。因此需要对获得的光谱进行光谱预处理减弱、消除各种干扰因素对光谱数据的影响。光谱预处理方法主要有标准正态变量变换、多元散射校正、一阶求导、二阶求导、归一化、平滑、数据中心化、移动窗口平滑以及直接差分一阶求导。

尽管光谱信息经过一定的预处理对数据解析有一定的作用,仍然需要解决高光谱数据信息量庞大的问题。PCA是将多个变量通过线性变换都投影到一个新的坐标系上,并且沿着这条坐标系使其方差达到最大,这些主成分作为原来变量的线性组合并且两两正交。其中的载荷可视为变量与主成分的相关性。Fast ICA是盲源信号分离中进行ICA的一种快速算法,Fast ICA基于高斯最大化原理,相比普通ICA算法,其收敛速度更快,不用设置步长参数,更易使用,并且具有大多数神经计算的优点,即并行、分布、简单化[33]。相关系数法被广泛运用在农产品无损检测中,通过计算两种不同波长的多种线性组合从而优选出相关系数最大的波长进而达到数据降维的目的[34]。采用以上3 种方法实现光谱数据降维。

采用传感器所获取的数据进行归纳分类被称为模式识别,模式识别分为线性与非线性两类,线性采用BD、MD、QDA、KNN;非线性采用LSSVM建立样本光谱类型的识别模型。

1.4.4 模型验证

将光谱数据集分为校正集与预测集,校正集依靠上述方法建立各种模式识别模型,预测集将通过BD、MD、QDA、KNN、LSSVM等已建立好的现有模型进行验证,模型验证的结果将用来评判各类方法之间的优异。

2 结果与分析

2.1 光谱数据预处理

在水心病果与正常苹果两类中各随机抽取70 个样本,分别求得70 个样本在380~1 004 nm之间的平均光谱曲线变化趋势如图2所示。2 类苹果在绝大部分选定波长范围下的吸光度强烈吻合,在380~580 nm之间水心病果与正常病果在光谱之间存在明显分离,但在其他波长下又各自有所交叉,映射出正常苹果与水心病果之间存在着极大的相似性,并且,光谱数据在采集时也会受到各种仪器设备及外部因素的影响,所以分别采用直接查分一阶求导在内的9 种预处理方法对原始光谱进行预处理,意在消除各类因素对模型性能的干扰。

图 2 水心病果与正常苹果的近红外光谱Fig. 2 Near infrared spectra of apples with watercore and normal apples

2.2 数据特征提取

采用PCA、Fast ICA、相关系数法3 种数据特征提取方法分别提取原始数据中的重要变量作为建模输入变量。从图3可见,所有预处理方法经过PCA提取得到的前5 个主成分累计贡献率都能达到95%以上,但是从图2可得,正常苹果与水心病果在光谱图上存在肉眼无法分辨的差别,总结前人的研究实验主成分选取个数,为获得更加稳定的模型以及更加可靠的正确判别率,故此选择提取前15 个主成分作为下一步模式识别的自变量。

图 3 不同光谱预处理方法提取的前15 个主成分累计贡献率Fig. 3 Cumulative contribution rates of the first 15 principal components extracted by different spectral pretreatment methods

Fast ICA能快速从信息冗余的光谱数据中提取少量有代表性的独立信号分量建模分析,获得鲁棒性强的模型。PCA与ICA的主要区别在于ICA是一种基于高阶统计特性的分析方法,并且ICA分离出的成分相互独立,而PCA提取的成分相互正交,Fast ICA每次从观测信号中只分离一个独立分量,其不失为一种另类的数据降维方法。图4为经过Fast ICA提取后的独立成分合图(以归一化光谱数据为例),在下一步模式识别研究中,将经过不同预处理方法后Fast ICA获得的独立分量矩阵分别作为自变量用于后续建模。

图 4 归一化处理后光谱经独立分量分析后提取的独立成分Fig. 4 Independent components extracted by independent component analysis after spectral normalization

相关系数法是将光谱数据中每条波长处吸光度与苹果性质之间的关系进行相关性计算,相关系数越大证明相关性越高,本实验通过相关系数法成功筛选出相关系数较大的波长。图5为苹果性质与吸光度之间的相关系数表(以原始光谱为例),从中筛选出相关系数高前14 个波长,达到数据降维的要求。将经过不同预处理方法之后相关系数法筛选获得的特征波长组成新自变量用于后续建模。

图 5 相关系数法筛选波长Fig. 5 Wavelength selected by correlation coefficient method

2.3 建模结果分析

将所有经过特征提取后的高光谱数据分为校正集与预测集,校正集与预测集按照样本间欧氏距离方法划分,样本划分按照3∶1分配,该方法的优点是保证样本在空间距离上均匀分布。将正常苹果样本用1代表,水心病果用0代表,校正集包括正常苹果93 个样本、水心病果78 个样本;预测集包括正常苹果31 个样本、水心病果26 个样本。

2.3.1 基于PCA下的模式识别分类结果

由表3可知,不论是否经过预处理方法,PCALSSVM的校正集识别率达到了100%,PCA-LSSVM预测集识别率都稳定在85%以上,并且在SNV-PCA-LSSVM与MSC-PCA-LSSVM建模方法下预测集的识别率达到91.2%,是最高的模式识别方法。这也说明PCALSSVM模式识别的方法可成功用于新疆冰糖心红富士的水心鉴别。

表 3 PCA方法下多种预处理及多种模式识别下的苹果类型识别率Table 3 Recognition rates of apples with and without watercore using different preprocessing methods and different pattern recognition methods combined with PCA %

2.3.2 基于独立成分分析下的模式识别分类结果

表 4 Fast ICA方法下多种预处理及多种模式识别下的识别率Table 4 Recognition rates of apple with and without watercore using different preprocessing methods and different pattern recognition methods combined with Fast ICA %

由表4可知,在归一化处理下,KNN模型及LSSVM模型建模集都能达到最优识别率87.7%,最低识别率为MWS-MD建模方式,预测集识别率最高的是归一化预处理下的LSSVM模型,识别率为84.2%。综合分析可知,MD并不适合应用于经过Fast ICA特征提取后的建模分析,此特征提取下最优的新疆冰糖心红富士水心鉴别的方法是Fast ICA-归一化-LSSVM建模方法。

2.3.3 基于相关系数分析下的模式识别分类结果

表 5 相关系数方法下多种预处理及多种模式识别下的识别率Table 5 Recognition rates of apple with and without watercore using different preprocessing methods and different pattern recognitions combined with correlation coefficient method %

由表5可知,经过相关系数法波长筛选,归一化预处理,LSSVM的建模集识别率为89.5%,预测集识别率达到82.5%,是基于相关系数分析下的最优模式识别分类结果。

2.4 模型比较

PCA提取前15 个主成分数;相关系数法筛选相关系数最高的前14 个波长;Fast ICA提取前14 个分量数,在这3 种数据降维的情况下产生了相似的结果:LSSVM在苹果的水心鉴别上优于其他几种模式识别方法。主要是因为BD与QDA、MD、KNN均为线性判别;依据判别的标准不同,线性判别可以分为距离判别、Fisher判别、BD等,如KNN是一种距离判别,它计算在最近邻域中 K 个已知样本到未知待判别样本的距离。而苹果内部组织结构复杂,光在苹果组织中的传输特性是一种复杂的非线性结构[35]。拥有突出非线性映射能力的LSSVM能够优于其他线性方法较好的识别苹果水心存在与否。

3 结 论

采用高光谱技术采集正常苹果与水心病果的光谱特征,光谱校正后分别对其进行SNV、DDFD等9 种光谱预处理方法,应用PCA、Fast ICA、相关系数法3 种数据降维方法,使用BD、MD、QDA、KNN、LSSVM在内的5 种模式识别方法建模分析和识别,意在找出最佳快速识别模型。结果显示,当主成分个数为15时,SNV-PCALSSVM和MSC-PCA-LSSVM在所有方法中是最优的,校正集概率和预测集识别率分别为100%和91.2%。并且,其他特征提取方法下的最高校正集概率与预测集概率也都超过了80%,结果表明,高光谱技术可以用于新疆冰糖心红富士的水心鉴别,也为进一步开发相关快速识别设备提供了理论方法与实验依据。

猜你喜欢

心病模式识别识别率
便秘是否也是一种心病?
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
关注孩子的“心病”
古人医心病
提升高速公路MTC二次抓拍车牌识别率方案研究
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
第四届亚洲模式识别会议
高速公路机电日常维护中车牌识别率分析系统的应用
可拓模式识别算法中经典域的确定方法