APP下载

光谱检测哈密瓜品质中异常样本的综合分析

2023-07-23李锋霞

中国瓜菜 2023年7期
关键词:马氏哈密瓜残差

李锋霞,黄 勇,李 强

(新疆工程学院机电工程学院 乌鲁木齐 830023)

新疆是瓜果之乡,哈密瓜因其独特的风味和口感,在市场上备受消费者喜爱,帮助农民实现了增收。但目前市场上对其品质的检测方法多为有损检测,且检测效率低下,造成品质等级良莠不齐。因此,哈密瓜的品质无损检测尤为重要。近年来,随着分子光谱结合化学计量学方法分析技术的飞速发展,光谱技术以非侵入式、无破坏性、速度快、可在线、结果可再现和重复等优点,被研究者用来对水果品质进行无损检测技术研究[1-3]。但是,有的光谱数据在检测过程中存在测量值和真实值差异显著,在整体分布态势中异常突出,严重影响了建模精度[4]。造成光谱数据异常的原因有很多,如在采集的过程中光谱受到环境的干扰,采集到的光谱还包含噪声、样品背景和散光等其他无关的信息[5]。光谱仪本身有误差,还受误操作、仪器异常、样品前处理不当、环境温度和湿度等的影响[6]。因此,有必要在光谱建模过程中剔除上述异常样本。目前,有学者提出了在农产品品质检测中应用光谱数据中异常样本剔除方法[7-12],为建立准确的检测模型提供了切实可行的方法。但是这些方法大多数是基于单一类型指标或者是单个异常样本具有可靠的识别能力,而且受经验阈值或建模偏差的影响,容易在建模前的剔除过程中出现误判,从而影响模型的稳定性和预测能力。这会导致水果部分理化指标无损检测和识别精度不高,严重阻碍了光谱技术在水果快速、无损检测中的应用。

笔者对高光谱检测哈密瓜坚实度品质中异常光谱样本进行综合分析与判别,有效地剔除异常样本,以此建立准确和稳定的哈密瓜坚实度预测模型,提高检测结果精度,为哈密瓜品质快速检测、精准分级提供有效方法,为相关领域研究工作提供科学依据和技术参考。

1 材料与方法

1.1 仪器设备

光谱图像采用北京卓立汉光提供的高光谱成像仪(Inspector V10E-QE,芬兰)采集,通过参数调整优化,最终选择光谱成像仪的波长范围:400~1000 nm,光谱分辨率:2.8 nm,平均光照度:2870 lx,物距:60 cm,曝光时间:28 ms,采集速度:1.27 mm·s-1。

哈密瓜坚实度指标采用杭州托普仪器有限公司生产的GY-4 型手持式硬度计测量,探头直径选取11 mm,插入速度为5 mm·s-1,压头压入深度为10 mm。

1.2 样本准备、光谱采集及坚实度指标测量

2022 年8 月在新疆农八师121 团场采摘哈密瓜。主要选取的品种为金密16 号,属于中早熟杂交品种,果实成熟期在42~45 d。果实长卵形,果皮黄色,果肉浅橘黄色,网纹密。采摘时,选取成熟度一致、瓜形大小均匀的样本,共60 个。采摘后,将样本放置于相同的湿度和温度条件下,24 h 之后进行光谱采集和坚实度测量。

试验时去除机械损伤、病虫害样本,随机选取42 个哈密瓜样本,并对哈密瓜样本的3 个检测部位[赤道(阴、阳)面、果脐(坐果结)]进行标记,具体位置如图1 所示,分别记为编号1-1,1-2,1-3...,样品编号横线前面的数字为样品号,横线后的1、2、3为每个样品对应的检测位置编号。然后,利用高光谱成像仪采集光谱,把哈密瓜放到高光谱实验台上,线阵的探测器在哈密瓜表面的垂直方向作横向扫描,扫出整个平面,获取各个波长处的图像信息,通过Spectral-Cube 软件进行光谱信息采集和保存,共采集126 个样品光谱。光谱采集后,对哈密瓜坚实度进行测量,在赤道(阴、阳)面、果脐3 个光谱采集区域测定其坚实度,每个检测点测量3 次,取平均值作为该样品的坚实度值。表1 是哈密瓜3 个采集部位坚实度统计值。

表1 哈密瓜样本3 个采集部位坚实度统计值

图1 哈密瓜的检测部位示意图

1.3 异常样本点的判别方法

为了建立稳定和准确的哈密瓜坚实度预测模型,提高检测结果精度,对采集的哈密瓜光谱样本采用偏最小二乘法(PLS)建立定量分析模型,对建模过程中造成模型精度降低的异常样本进行研究,结合异常光谱剔除、马氏距离法、学生化残差T 与杠杆值法以及主成分得分法等多种方法进行综合分析和判别[13]。为了防止对异常样本点的误判,需要对疑似异常样品进行逐一回收分析后再鉴定,并根据预测模型性能的变化,最终确定需要剔除的异常样本。

1.4 光谱的处理及模型稳定性的评价指标

采用ENVI 4.7 软件针对采集后的高光谱图像数据进行图像数据降维、预处理。TQ Analyst 6.1 软件对采集的试验数据进行分析与建模定量、定性分析,选用偏最小二乘法(practical least squares,PLS)、主成分回归(principal component regession,PCR)、距离匹配(distance match)、判别分析(discriminant analysis)等方法。在选定算法之后,根据软件窗口显示选择相关的预处理方法进行建模以及诊断。为了评价模型的稳健性和准确性,采用的评价指标有相关系数(R)或决定系数(R2)、预测均方根误差(RMSEP)和校正均方根误差(RMSEC)。通常,在一个模型中R值越大,RMSEC、RMSEP 值越小,模型越稳定,结果越准确[14]。

2 结果与分析

2.1 建立偏最小二乘法(PLS)的哈密瓜坚实度检测模型

偏最小二乘法(PLS)是一种多元线性分析方法,它可以实现数据结构简化、回归建模以及分析多个变量之间的相关性。目前,PLS 在光谱数据建模分析中应用最为广泛[15-16],PLS 的建模步骤:先计算多个自变量光谱数据X及目标分析物性质Y之间的最大方差,在对光谱参数和数据浓度矩阵解析的过程中,剖析光谱数据和目标分析物性质之间的内外部关系。

在本次分析异常样本时,对采集的哈密瓜的126 个光谱样本采用PLS 方法建立与坚实度的相关定量分析模型,126 个样本都用作校正集,用相关系数R和RMSEC 作为模型性能的判别依据。结果如图2 所示,模型相关系数为0.82、RMSEC 为3.14 N。从图中可以看出个别样本明显偏离45°线,导致模型相关系数较低,不能很好地体现实际检测的需求,因此需要对校正集样本中混入的异常样本进行剔除。

图2 哈密瓜样本校正集结果

2.2 异常光谱的剔除

采集的哈密瓜赤道阳面、阴面,果脐的126 个原始光谱样本如图3 所示。从图3 可以看出,采集的光谱样本的大致走向基本一致,仅有33-3 号样本光谱偏离了光谱走向,故将该样本暂定为异常光谱。

图3 哈密瓜光谱图像

2.3 马氏距离法判别异常样本

马氏距离(Mahalanobis distance)是一种有效计算两个未知样本集相似度的方法,通过这种方法可以衡量一个样本对整个校正集的影响。这种方法首先需要计算出所有参与建模的样本平均光谱值,再计算平均光谱与各个样本光谱之间的距离,最后设置阈值,根据阈值来检验异常样本的存在[17]。阈值的选择可根据具体光谱数据来确定,一般情况下,阈值设定为各个样本马氏距离平均值的2 ~3倍,如果参与建模中的某个样本的马氏距离超过设定的阈值,则可判定该样本的光谱属于异常样本,应该将其从中剔除[18-19]。

对所有参与建模样本中的光谱结果进行分析。光谱样本数据导入TQ 软件中,系统自动计算出样本光谱的平均光谱与各个光谱间的马氏距离,并将计算出来的马氏距离值按照从低到高的顺序依次排序,系统会自动显示一条分界线区分正常样本与异常样本。设置平均光谱偏差在95%阈值置信区间,图4 为采用马氏距离法对126 个哈密瓜样本进行检验的结果,依据判别原则可观察出样本19-1 超出了阈值范围,故暂将19-1 号样本定为疑似异常样本。

图4 马氏距离法检验结果

2.4 杠杆值与学生化残差T检验法判别异常样本

杠杆值与学生化残差T检验法是常用判定异常样本的方法之一,杠杆值的大小可以判断样本对模型精度的影响程度,学生化残差可以判定样本杠杆值对应的样本浓度预测能力大小。

对采集的哈密瓜样本采用杠杆值与学生化残差T 检验方法进行检测,如果一个样本只是杠杆值比其他样本高,并不能断定该样本异常,只有杠杆值与学生化残差均比其他样本高时,才可判定该样本的光谱属于异常样本,应予以剔除。通常,依据杠杆值和学生浓度残差分布图进行分析,处于被测组分浓度和性质均值左右的样本应具有较小的杠杆值,处于被测组分浓度和性质均值两端(高低端)的样本应具有较大的杠杆值[20]。图5 是哈密瓜样本杠杆值与学生化残差分布图,根据分布图可以发现,光谱样本中有3 个样本的杠杆值比其他样本的值大,分别是35-2、35-3 和37-3,但是学生浓度残差杠杆值并没有显示明显较大的样本,因此,暂定这3个样本为疑似异常样本。

图5 哈密瓜样本杠杆值与学生化残差结果分布

2.5 主成分得分(principal component)法判别异常样本

主成分得分法是一种用来解释多变量的方差、协方差结构的多元统计分析方法,是通过对原有的多项指标经过线性组合成为少数几项综合指标。这些综合指标即为主成分,通过计算综合主成分函数得分,对检测模型进行科学评价。

主成分得分法直观地反映了各个样本在数学模型空间中的聚集、离散程度。观察样本的分布散点情况,分布点越聚集,则说明这些样本中所含有成分的组成和浓度越接近;反之,样本分布点越离散,说明差异越大[21]。在主成分计算中,会存在多个主成分,通常,第一主成分最为重要,之后随之增加的主成分在样本空间中所占权重依次降低,最后增加的主成分多是反应噪声信息。通常情况下,在建立模型时前面的主成分比后面的主成分更具有样本表明性,同类样本的主成分分布相对集中,远离集中区域的则认为是异常样本。本试验中哈密瓜样本主成分分析中的第一、第二主成分的二维平面分布,如图6 所示,从图中可以看出主成分中的PC-1 的贡献率为86%,PC-2 的贡献率为13%,这两个主成分的累计贡献率高达99%,达到了定性分析的要求。样本中19-1 号远离集中区域,故将该样本暂定为疑似异常样本。

图6 哈密瓜样本主成分分析中第一、第二主成分的分布

2.6 疑似异常样本的再鉴定

从上述4 种方法的判别结果可知,异常光谱判定33-3 号样本异常;马氏距离法判别19-1 号样本异常;杠杆值与学生化残差判别35-2、35-3 和37-3号样本异常;主成分得分法判别19-1 号样本异常,共5 个疑似异常样本。通过分析4 种方法的判别原理和性质会发现,由于各种方法之间还存在相互影响,致使参与建模的样本中某个或某几个样本会被其中一种判别方法判定为异常样本,某些样本会被其中多种判别方法判定为异常样本。因此,要充分考虑到建模样本的数量,保证模型的准确性和稳定性,应该对疑似异常样本进行再鉴定,避免单一方法判别发生误判。故对上述4 种方法判定的疑似异常样本需要进行逐一剔除、回收后再鉴定。

通过上述4 种异常样本判定方法共发现有5 个疑似异常样本,样本编号分别是19-1、33-3、35-2、35-3和37-3。现对这5 个疑似异常样本进行逐一剔除、回收分析再鉴定,结果对比分析如表2 所示。

表2 疑似异常样品的再鉴定

由表2 可以看出,未剔除疑似5 个样本与全部剔除相比,相关系数R由0.824 降低至0.800,模型性能并没有随着全部剔除5 个疑似样本而提高,说明5 个样本中存在误判的可能性,因此,逐个剔除5个异常样本与未剔除进行对比。从结果对比分析可得,5 个疑似异常样本不做处理时原模型的相关系数(R)=0.824,校正均方根误差(RMSEC)=3.14 N,预测均方根误差(RMSEP)=4.15 N,剔除35-2 号样品时模型的R=0.817,RMSEC=3.17 N,RMSEP=4.18 N。两者相比较:R降低了0.007,RMSEC 增加了0.03 N,模型性能下降;再逐个剔除其余4 个异常样本模型相关系数均有稳定提高,故可以初步判定误判的异常样本为35-2 号。随后将其回收,剔除其他4 个疑似异常样本,从结果对比发现模型相关系数R提高至0.850,RMSEC 降低至2.72 N,RMSEP 降低至3.30 N,模型的稳定性提高。综上所述,可以判定5 个疑似异常样本中35-2 号为误判样本,应将其回收,其余19-1 号、33-3 号、35-3 号和37-3号4 个样本作为确定的异常样本剔除。

3 讨论与结论

在高光谱对哈密瓜光谱采集过程中,主观或客观因素导致参与建模样本中可能会出现异常数据,使模型预测结果可靠性降低,因此有必要在高光谱建模过程中剔除异常样本。目前关于异常样本的识别和剔除的相关研究并不多。张灵帅等[6]利用主成分分析-马氏距离聚类判别近红外光谱中卷烟的真伪;林海军等[22]使用马氏距离法识别荒漠树种;吴兆娜等[23]利用马氏距离、杠杆值-光谱残差法与基于强影响度算法分别对烟碱中的异常样本进行剔除;石鲁珍等[24]利用马氏距离与浓度残差剔除近红外检测灰枣中的异常样本。以上几种方法对剔除异常样本都具有一定的作用。但是,马氏距离法对光谱数据进行计算而不需要样本的化学值,剔除的可能是人为误差造成光谱存在异常的样本[25];浓度残差和杠杆值计算单个样本预测不确定性;主成分分析中,判定异常样本的操作往往需借助经验。而且上述方法对复杂样本或是样本集中存在多个异常样本时剔除不够全面,甚至会造成模型的失真,从而降低了模型的泛化能力及准确度。因此,在异常建模样本判别中,应结合光谱数据的规律特点,采用多种方法准确识别和剔除异常样本。

基于此,笔者通过对采集的哈密瓜光谱样本采用偏最小二乘法(PLS)建立模型,结合异常光谱剔除、马氏距离法、杠杆值与学生化残差T 检验法及主成分得分法等多种方法进行综合分析判别,初步判定参与建模的样本中有5 个疑似异常样本,从异常样本判别结果看,各方法对异常建模样品的判别均有效果,单一方法未能可靠判别出全部异常样本。因此需要对这5 个疑似异常样本进行逐一的剔除与回收对比分析,观察模型性能参数的变化,最终确定异常样本并剔除。结果表明,综合分析方法对高光谱PLS 模型中异常样本具有较强的识别能力,提高了哈密瓜坚实度检测模型的稳定性和准确性。该方法不仅有助于哈密瓜的科学管理、精准采收和实现精准快速分级,也可提高哈密瓜的经济效益,为新疆哈密瓜产业发展提供了技术支撑。

猜你喜欢

马氏哈密瓜残差
基于双向GRU与残差拟合的车辆跟驰建模
“甜蜜产业”
一类时间变换的强马氏过程
有环的可逆马氏链的统计确认
基于残差学习的自适应无人机目标跟踪算法
关于树指标非齐次马氏链的广义熵遍历定理
基于递归残差网络的图像超分辨率重建
一致可数可加马氏链不变测度的存在性
我最喜欢吃哈密瓜
我最喜欢吃哈密瓜