APP下载

基于GA-BP神经网络玉露香梨可溶性固形物高光谱技术检测

2021-06-04葛春靖张淑娟孙海霞

现代食品科技 2021年5期
关键词:玉露香梨光谱

葛春靖,张淑娟,孙海霞

(山西农业大学工程学院,山西太谷 030801)

玉露香梨是山西省农科院果树所用库尔勒香梨作母本、雪花梨为父本杂交培育出的优质、耐贮藏梨新品种。2010年山西省政府确定隰县为 “ 一县一业 ” 玉露香梨生产示范基地县,截至2018年底,该县玉露香梨种植面积23万亩,挂果面积达到4.3万亩,产量2.5亿公斤,果品产值9亿元,成为中国最大的玉露香梨生产基地[1]。玉露香梨于每年9月中旬成熟,其肉质鲜嫩、口味香甜、石细胞极少、汁多味甜、营养丰富[2]。玉露香梨因皮薄核小、可食率大、香甜多汁深受消费者的喜爱[3]。

梨果理化指标主要有可溶性固形物、果实硬度、总酸量、固酸比等,可溶性固形物含量(soluble solids content,SSC)是一种综合参数,它影响果实的口感、风味和货架期。其中可溶性糖类是单糖、双糖、多糖等的总称,是衡量玉露香梨口感品质和成熟度的内部品质之一[4]。传统的SSC榨汁后采用折射法测定,这种方法检测过程繁琐,损坏样本,难以满足大宗水果采后分级分选的需求,所以寻找一种快速、准确的检测方法具有十分重要的意义。

高光谱成像技术是近几年出现的一种快速无损检测技术,被广泛用于农产品内部品质的检测。在水果SSC检测方面,国内外已进行了大量的研究,李雄等[5]采用高光谱成像技术对酥梨的货架期进行预测和判别,分别建立偏最小二乘判别和最小二乘支持向量机判别模型。Xiaoli Li等[6]利用高光谱成像技术区分不同成熟度的樱桃,建立了樱桃果实PH值的预测模型。ElMasry等[7]采用高光谱成像技术检测了草莓含水量、酸度,基于全波段建立偏最小二乘回归(PLSR)模型,基于特征波长建立多元线性回归模型(MLR)。李瑞等[8]采用近红外光谱仪(900~1700 nm)检测了蓝莓果实的糖度和酸度,建立糖度和酸度的PLSR预测模型。孙海霞等[9]利用可见/近红外光谱技术研究SSC检测模型在仪器间的传递方法,结果发现基于全波段进行模型传递时,预测结果较差,基于共性变量传递后的结果好于单一变量和融合变量。Baiano等[10]采用高光谱技术测定7个品种鲜食葡萄的内部品质指标,并获得较好的检测效果。然而,上述研究中大部分是利用光谱信息建立PLSR和MLR等线性回归模型,研究发现,高光谱数据与待测品质间存在明显的非线性关系,非线性模型在苹果和梨[11]等水果的内部品质检测中更具有优势。人工神经网络可逼近任意非线性函数,BP神经网络是具有代表性的人工神经网络,但这种网络应用时容易陷入局部极小值和发生过拟合[12]。对于这些缺陷,Mohamad等[13]采用粒子群算法优化BP神经网络,显著提高岩石硬度检测模型的预测精度和泛化能力。秦浩森等[14]采用蚁群算法优化BP神经网络对盆地的基岩、泥质砂、砂质泥三种底质类型进行分类,网络的预测平均误差大大降低。洪亮等[15]基于模拟退火算法优化BP神经网络的权值和阈值进行色差预测,与未优化的BP神经网络模型相比,优化后的网络对喷墨打印机色彩空间转换具有较高的预测准确性。但这些算法存在早熟收敛和全局寻优能力弱等缺陷。遗传算法具有全局寻优能力,对优化问题的数学要求较少,具有极大的灵活性,广泛用于信号处理、机器学习等方面。但是,采用遗传算法优化玉露香梨SSC光谱检测模型的研究少有报道。

为此,本文研究利用遗传算法优化BP神经网络以建立玉露香梨SSC检测模型,并与传统的PLSR以及BP神经网络作对比,然后采用不同数量的样本训练GA-BP网络进而优化SSC预测结果。

1 材料与方法

1.1 样本采集

试验所用的玉露香梨样本采集于山西省农科院果树所,挑选形状规则、大小相近、完好无损的玉露香梨137个。采后当天运达实验室,将玉露香梨表面擦拭干净并逐一编号,将其置于室温保存12 h。

1.2 高光谱数据采集及校正

采用北京卓立汉光仪器有限公司生产的 “ 盖亚 ” 高光谱分选仪采集高光谱信息,仪器主要由Image-λ-N1 0E光谱相机、CCD相机、光源、电控位移平台、暗箱和计算机等组成,整个采集系统置于暗室里。设定曝光时间为20 ms,平台移动速度为1.5 cm/s,样本与镜头距离为22 cm。

由于光强的变化和镜头中的暗电流都会使采集的光谱数据包含一定的噪声,需要对高光谱数据进行黑白校正。通过扫描标准白板和遮盖镜头分别获得全白标定图像Iw和全黑图像Id,采集玉露香梨的原始光谱数据为Ir,通过式(1)获得校正后的光谱数据[16]。

式中:S为校正后的光谱数据。

图1 玉露香梨样本和对应的光谱曲线图Fig.1 “ Yuluxiang ” pear sample and the corresponding spectral curve

采集每个果实果顶、赤道、果底三个部位(见图1a)的光谱曲线,并求得整果的平均光谱曲线,如图1b所示。从图1b中可知,玉露香梨不同部位的光谱曲线变化趋势一致,赤道部位的光谱曲线高于果顶和果底,果顶略高于果底。

1.3 玉露香梨SSC的测量

根据NY/T 2637-2014《水果、蔬菜制品可溶性固形物含量的测定-折射仪法》,采用上海鼎冷实业发展有限公司生产的BK-506型手持折光仪测定样本的SSC。

1.4 建模方法与模型评价

1.4.1 BP神经网络

BP神经网络具有较强的非线性映射能力,能很好的对光谱数据和理化值进行拟合。但是每次训练BP神经网络时,各个神经元的权值和阈值会被随机赋值,这影响神经网络的学习和训练效果[17],使网络输出不稳定。

1.4.2 GA算法

遗传算法(Genetic AlgorithmGA)借鉴了达尔文生物进化论中的 “ 物竞天择、适者生存 ” 演化法则,通过遗传算子模拟生物遗传过程中的选择、交叉和变异等操作,获得最优个体[18]。

1.4.3 GA-BP模型

图2 GA-BP模型流程图Fig.2 Flowchart of GA-BP model

BP神经网络操作简单,但算法的预测能力差。G A算法具有较强的全局搜索能力。在BP神经网络中引入GA算法优化神经元的权值和阈值。在训练BP神经网络时,采用mapminmax函数[19]对输入数据进行归一化处理,可以加速模型的收敛速度。

构建GA-BP网络的主要步骤如下:

(1)确定BP神经网络的基本结构,包括输入变量个数,隐含层结构,输出量个数。

(2)初始化种群。随机生成N个染色体,在这里每个染色体为问题的一个解。

(3)染色体编码。将解空间的初始值通过编码转换为遗传空间的基因型数据,基因数据的不同组合会形成不同的染色体编码。

(4)计算适应度值。GA算法的搜索目标是朝着适应度函数值增大的方向进化,BP神经网络在训练过程中,通过计算网络的预测误差平方和Se来更新神经元的权值和阈值,在这里取误差平方和的倒数作为适应度函数,为了避免除数为零引入一个足够小的正数[20],最终的适应度函数为:

(5)采用遗传算子对种群的个体进行选择、交叉和变异操作。

(6)进行迭代。根据所设定的最大迭代次数,多次循环寻找最佳个体。

(7)判断是否达到最大迭代次数或达到优化目标,若满足结束条件转至步骤8,否则转回步骤4。

(8)输出GA算法搜素到的最优个体,对其解码并代入BP神经网络进行训练。GA-BP建模流程如图2所示。

为对所建模型的性能进行评价,采用建模集决定系数(Rc2)、建模集均方根误差(RMSEC)、预测集决定系数(Rp2)、预测集均方根误差(RMSEP)、剩余预测偏差RPD(residual predictive deviation)[21]进行评价。

1.4.4 数据处理

高光谱图像经黑白校正后,选择图1a所示的果顶、赤道和果底作为感兴趣区域,在ENVI 4.7软件中提取上述区域的高光谱数据,然后在Matlab 2012a软件上编写程序计算感兴趣区域内全部像素点光谱的平均值、剔除异常样本和建立预测模型,通过Unscrambler X 10.1软件对光谱数据预处理,采用OriginPro 8.5软件画出光谱反射曲线。

2 结果与分析

2.1 蒙特卡罗偏最小二乘法剔除异常样本

采用蒙特卡罗偏最小二乘法(monte carlo-partial least squares,MCPLS)筛选异常样本时,设置重复次数为N=5000。计算样本集的预测残差平均值(Me an)和预测残差方差(standard deviation,STD),将Mean作为横坐标,STD为纵坐标画出散点图。如图3所示,以Mean=2,STD=0.44为界限,共剔除37个异常样本,分别为1、2、3、4、7、8、12、15、16、17、20、23、24、26、28、32、33、37、42、43、44、45、48、49、54、57、70、89、93、95、97、101、1 05、113、116、131、133号。用同样的方法剔除果顶、果底各37个异常值,最终果顶、赤道和果底部位各有样本100个。

图3 蒙特卡罗偏最小二乘法剔除异常值Fig.3 Monte Carlo-partial least for removing outliers

2.2 样本划分和SSC分析

表1 样本SSC结果的统计Table 1 Statistics of sample SSC

采用光谱-理化值共生距离(sample set partitio ning based on joint X-Y distance,SPXY)算法[22]按照3:1的比例划分样本,三个部位样本集的划分及SS C统计结果见表1,从表中可知建模集和预测集的平均值和标准差比较接近,且预测集的SSC分布范围处于建模集的范围之中,数据分布一致,说明样本的划分合理[23]。

不同位置玉露香梨的SSC变化趋势如图4所示。从果顶到果底,随着位置的变化SSC值逐渐增加,显然位置会影响玉露香梨SSC的分布。

图4 位置对玉露香梨可溶性固形物含量的影响Fig.4 Effect of position on SSC of “ Yuluxiang ” pear

2.3 光谱数据预处理

表2 不同预处理方法的玉露香梨可溶性固形物PLSR模型Table 2 PLSR models of “ Yuluxiang ” pear SSC based on different pretreatment methods

采用中值滤波(median filter,MF),卷积平滑(Savitzky-Golay),基线校正(baseline correction),标准归一化(standard normal variate,SNV),去趋势法(De-trending),多元散射校正(multiplicative scatter correction,MSC)等方法进行光谱数据预处理。将赤道部位原始光谱数据、不同预处理后的光谱数据与理化值建立PLSR模型,表2中的结果表明,MF预处理后所建PLSR模型的最优预测结果Rp2为0.84。

2.4 玉露香梨SSC检测模型的建立与分析

2.4.1 GA-BP模型的建立

将MF预处理后的光谱信息建立GA-BP模型进行SSC预测,GA-BP模型最优个体适应度值的变化曲线如图5所示。本研究中适应度曲线的变化和模型的误差成反比,图中红色和蓝色两条线分别表示迭代过程中不同的个体沿着不同的路径达到相同的最大适应度值,此时模型的误差最小,性能最优。

图5 模型的适应度曲线Fig.5 Fitness curve of the model

采用GA-BP、BP、PLSR建立的玉露香梨赤道部位的SSC模型的结果如表3所示,所建的GA-BP模型效果最好。GA-BP模型预测集的Rp2为0.86,RMSEP为0.43,RPD为2.45,预测精度最高。PLSR在三个模型中表现中等,BP模型最差。这说明GA算法能增强BP神经网络的寻优能力和预测精度。然而GA-BP神经网络的预测精度虽高但存在过拟合现象,分析样本可知,训练集和测试集分布一致,并经MF预处理后去除了噪声的影响,因此数据量较少是引起过拟合的原因。

表3 不同模型的预测结果Table 3 Prediction results of different models

2.4.2 不同样本量下GA-BP模型的预测结果

为分析样本量对所建GA-BP模型的影响,增加样本果顶、果底的光谱信息和SSC,使得训练样本量扩增至300个,分别取100、200、300个样本,采用SPXY算法划分建模集和测试集,然后建立GA-BP模型,试验结果如表4所示。

由表4可知,随着样本数量的增加,GA-BP模型的建模集决定系数和预测集的决定系数都在增加,并且比值Rp2/Rc2逐渐增大,通过增加样本量可以使模型的过拟合现象得到明显改善,样本量为300所建GA-BP模型的预测结果如图6所示。300个样本所建GA-BP模型的预测集决定系数为0.98,均方根误差为0.20,预测集决定系数和建模集决定系数的比值为0.98。

表4 不同样本数下GA-BP模型的预测结果Table 4 The prediction results of GA-BP model under different numbers of samples

图6 300个样本的GA-BP模型的预测结果Fig.6 The prediction results of the GA-BP model for 300 samples

2.5 对比分析

对水果SSC进行光谱检测时,高光谱技术的应用十分广泛。研究发现采用不同的建模方法其预测精度会有一定的差异,从表4和图6可知,在足量的玉露香梨样本下,基于遗传算法改进的BP神经网络对SSC的预测精度为0.98,而高升等[24]基于高光谱成像技术建立红提糖度的最优PLSR模型,其预测精度为0.94;建立的最优LSSVM模型,其预测精度为0.95,均低于GA-BP神经网络的预测精度。原因是GA-BP模型具有很好的非线性映射能力,经过GA算法的优化可找到最佳的权值和阈值。

3 结论

本研究利用高光谱成像技术采集玉露香梨的光谱信息,建立了玉露香梨SSC的PLSR、BP、GA-BP模型,得到如下结论:

3.1 经MF预处理后的光谱信息建立的玉露香梨SSC的PLSR预测模型性能最好。在相同样本建模时,GA-BP模型预测精度最高,Rp2为0.86,RMSEP为0.43,RPD为2.45,GA算法具有很好的全局寻优功能。

3.2 样本量不足导致GA-BP模型出现过拟合。采用不同的样本量训练GA-BP模型,样本量为300时,GA-BP模型的过拟合现象得到改善同时预测精度得到提升,所建SSC检测模型的Rc2为0.99,RMSEC为0.22,Rp2为0.98,RMSEP为0.20,证明采用GA-BP模型可有效提高玉露香梨SSC的检测精度,为玉露香梨SSC的检测提供了理论基础。

猜你喜欢

玉露香梨光谱
玉露香梨“赛美人”
基于三维Saab变换的高光谱图像压缩方法
寒露感怀
“隰县玉露香梨”品牌建设
冰灯玉露烂根怎么办
转变生产方式,促进库尔勒香梨提质增效
香梨:瀚海的果实
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究
库尔勒香梨冻害与腐烂病的发生与防治