高光谱成像技术结合优化算法窖泥总氮含量的预测
2023-09-28张晓兵田建平胡新军韩李鹏周书宇罗惠波
张晓兵,田建平*,胡新军,王 俊,何 林,韩李鹏,周书宇,黄 丹,罗惠波
(1.四川轻化工大学 机械工程学院,四川 自贡 643000;2.四川轻化工大学 生物工程学院,四川 自贡 643000)
窖泥素有“千年老窖万年糟,酒好须得窖池老”的美誉,作为浓香型白酒酿造的基础,对白酒的品质具有重要意义。窖泥是窖池内壁和底部的特殊发酵粘土,为酿造微生物提供合适的栖息地[1]。窖泥中微生物菌群的生长繁殖不仅影响白酒的品质,而且对白酒的风味物质形成也有一定的影响[2];这说明窖泥质量的优劣与白酒的产香和品质密切相关。总氮含量作为窖泥质量评价指标之一,是构成窖泥微生物细胞的重要元素,对窖泥功能菌的生长繁殖至关重要[3]。目前,检测总氮含量所采用的化学方法耗时耗力、破坏性强,并且检测结果往往滞后于实际生产进程,对生产过程的指导缺乏快速性和实时性。因此,亟需开发一种快速、无损的方法检测窖泥的总氮含量。
近年来,快速检测技术凭借快速、无损等优点已成为一种常用的检测手段。其中光谱技术已经成功运用于快速检测物质的成分,但是该技术只能根据光谱信息预测其内部成分含量,既无法获取物质表面的图像信息,也不能实现成分含量的可视化[4]。图像处理技术依据人的视觉原理,借助计算机图像处理方法提取物质的颜色、纹理等信息特征检测成分含量,但这种方法的稳定性和检测精度不高[5]。然而,高光谱成像技术(hyperspectral imaging,HSI)是图像处理技术与光谱技术有机结合,可以同时获取待测样本的图像信息和光谱信息,能够对待检测物进行快速、无损的定量及定性分析[6]。高光谱成像技术与化学计量学结合的方法,被广泛用于各种物质含量检测及可视化[7],如羊肉中棕榈酸和油酸含量,猪肉中脂肪含量,橡胶叶中氮含量,芹菜贮藏期内不溶性和可溶性膳食纤维含量,牛肉的pH值,桑果果胶含糖量等[8-13]。以上对物质含量检测方面的研究均取得了较好的结果,为使用高光谱成像技术检测窖泥总氮含量提供了可行性。
本实验以各窖池不同层位的窖泥为研究对象,对样本的原始光谱数据进行预处理,采用竞争性自适应重加权(competitive adapative reweighted sampling,CARS)算法,连续投影(successive projections algorithm,SPA)算法和CARS与SPA(CARS-SPA)联用策略方法提取特征波长,基于全波长和特征波长分别建立偏最小二乘回归(partial least squares regression,PLSR)和最小二乘支持向量机(least squares-support vector machine,LS-SVM)模型,并基于最优模型实现可视化。旨在为窖泥中总氮含量的检测提供新方法。
1 材料与方法
1.1 材料与试剂
窖泥(取自窖帽、黄水、窖底不同层位):四川宜宾某酒业有限公司;氢氧化钠、浓盐酸、浓硫酸、硫酸铜、硫酸钾、硼酸、碳酸钠、乙醇(均为分析纯):成都市科龙化工试剂厂;甲基红(分析纯):天津科密欧化学试剂有限公司。
1.2 仪器与设备
CP214电子天平:奥豪斯仪器上海有限公司;78HW-1恒温磁力搅拌器:金坛市医疗仪器厂;Kjeltec 8400全自动凯氏定氮仪:瑞典FOSS公司;ZDJ-5B型自动滴定仪:广州市深华生物技术有限公司。
高光谱成像系统(主要包括:FX10E型高光谱相机(配备精密电控载物台)):芬兰SPECIM公司;装有高光谱采集软件的计算机:美国DELL公司;Y型光纤卤素灯(160 W):美国DolanJenner Industries公司。
1.3 实验方法
1.3.1 高光谱图像采集、校正及光谱提取
本实验使用高光谱成像系统采集可见光和短波近红外区域(400~1 000 nm)内448个波长的窖泥样本的高光谱图像。采集方式为推扫式,分辨率640×180像素,采样曝光时间4.02 ms,扫描速度16.42 mm/s。在完成系统的参数设定后,使用该系统采集120个窖泥样本的高光谱图像。
由于采集时存在环境光及暗电流的影响,窖泥样本的高光谱图像中包含了样本信息、暗电流信息及高频噪声,因此必须对高光谱图像进行黑白校正,以消除相机中暗电流所引起的噪音和光源强度在各波长条件下的分布不均匀性[14]。校正后的样本光谱图像由公式(1)得到:
式中:Ir是校正前的光谱图像;Iw是白板的参考光谱图像;Id是暗电流的光谱图像。
校正后在样本中心手动选取感兴趣区域(region of in terest,ROI)[15],将样本的RGB图像中的ROI区域与背景分离,提取ROI内所有像素点的光谱数据,并在每个波长处取平均值作为每个样本的光谱反射率数据。在光谱区域内,可以得到120个窖泥样本的光谱反射率数据,并用于后续的研究中。窖泥样本的ROI选取及光谱反射率提取如图1所示。
图1 样本ROI的平均光谱反射率图Fig.1 Average spectral reflectance map of sample ROI
1.3.2 窖泥总氮含量测定
窖泥样本的高光谱图像采集完成后,参照GB/T609—2018《化学试剂总氮含量测定通用方法》测定窖泥样本的总氮含量。具体操作步骤为称取0.5 g烘干至质量恒定的窖泥样品于消化管中,再加入硫酸铜与硫酸钾的混合试剂(比例1∶12)4 g于消化管中,最后加入10 mL 浓硫酸(体积分数98%),稍摇匀后,450 ℃消化70 min,放入凯氏定氮仪,由仪器自动加蒸馏水、NaOH溶液和硼酸。反应结束后,向接收瓶中滴加1滴(甲基红乙醇溶液)指示剂。然后用HCl溶液(用碳酸钠标定)滴定接收瓶中的回收溶液,至粉红色时结束滴定,记录HCl用量。再根据所取窖泥量(除去水分含量),计算总氮含量。窖泥样本的总氮含量按式(2)计算:
式中:X为窖泥样本的总氮含量,g/100 g;V1为窖泥样本中消耗酸的标准液的体积,mL;V2为试剂空白消耗酸标准溶液的体积,mL;N为盐酸或硫酸标准溶液的当量浓度,mol/L;0.014为1.0 mL硫酸或盐酸标准滴定溶液消耗氮的当量,g/mol;m为窖泥样本的质量,g。
1.3.3 数据处理
(1)光谱数据预处理
窖泥样本的光谱数据经黑白校正后,依然存在着光谱信息复杂、吸收强度弱和信噪比低等问题,使光谱数据中的有效信息降低[16]。因此,需要采用预处理方法降低光谱噪声,去除或减少无关信息的影响[17]。本研究将采用标准正态变量变换(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)和卷积平滑(savitzky-golay,SG)3种方法对窖泥样本的光谱数据进行预处理。
(2)特征波长提取
在光谱区域内,窖泥样本的高光谱图像包含了大量的波长光谱反射率数据,其存在大量的冗余和共线性信息,使得模型的精度和运算速度降低[18]。为了减少冗余信息,简化模型的复杂度,需要对全波长进行特征波长的筛选,然后提取特征波长对应的光谱反射率数据。采用CARS算法、SPA算法以及CARS-SPA联用策略算法进行特征波长提取。
CARS是一种PLSR模型回归系数的波长选择方法。使用蒙特卡洛采样建立PLSR模型,以获得PLSR模型的回归系数的绝对值。计算每个波长的绝对回归系数的权重,并根据指数递减函数删除权重小的波长,选择与具有最小交叉验证均方差(rootmeansquareerrorofcrossvalidation,RMSECV)的PLSR模型相对应的候选子集[19],即为最优的波长组合。
SPA算法是一种变量的正向选择算法,将候选的特征波长正交投影到已选波长上,利用最大投影值来依次选择候选的特征波长。算法依据该原则对原始波长进行重新组合,通过不断迭代得到一个按投影值最大的顺序排列的特征波长组合的集合。然后对特征波长组合建立多元回归模型,通过均方根误差(RMSE)对特征波长组合进行评估,最佳波长组合由最小的RMSE值确定[20]。
CARS-SPA联用策略算法是使用CARS算法提取光谱区域内数据中具有丰富信息含量的重要波长,在此基础上,再使用SPA算法剔除重要波长中的共线性波长,以简化后续所建模型的复杂度。使用CARS-SPA算法提取特征波长能够减少特征波长的数量,构建更稳定、更简易的总氮含量预测模型。
(3)模型的建立与评估
PLSR作为一种经典的线性算法,广泛应用于构建快速、在线的食品质量安全评价[21]。PLSR算法从自变量集(光谱数据)中提取潜在变量(latent variables,LVs),LVs可以解释光谱数据的方差,降低光谱数据的维数;然后采用均方根误差(RMSE)最小值优化LVs的数量,避免模型欠拟合或过拟合;最后依据最佳潜在变量个数建立光谱数据与总氮含量的回归模型[22]。
LS-SVM是支持向量机的扩展。算法原理是把训练集数据从输入空间非线性地映射到一个多维度的特征空间,然后在多维度的特征空间中通过最小化某种损失函数获得一个线性的拟合空间,寻找新的最优分类面作为决策面,实现不同数据的分离,不同之处在于LS-SVM使用了最小二乘代价函数,得到多个线性方程组,以此代替了二次规划,从而降低了计算复杂度[23-24]。
基于全波长和特征波长的光谱数据分别建立预测总氮含量的PLSR、LS-SVM模型,通过校正集决定系数(determination coefficient of calibration set,Rc2),校正均方根误差(root mean square error of calibration,RMSEC),预测集决定系数(determination coefficient of prediction set,Rp2),预测均方根误差(root mean square error of prediction,RMSEP)进行综合评价模型的性能[25],比较分析后得到最优模型。通常RMSEC、RMSEP值越接近0,Rc2、Rp2值越接近1,模型的预测效果越好[26]。评价参数的计算公式如下:
式中:y^i和yi分别为第i个窖泥样本预测和测定的总氮含量;yc和yp分别为校正集和预测集中窖泥样本的平均含量;nc和np分别为校正集和预测集中窖泥样本的个数。
(4)窖泥总氮含量的可视化
将窖泥样本ROI中的总氮含量可视化,有助于研究人员可以直观地了解不同窖池各层位的窖泥总氮含量分布情况。首先利用图像处理技术中的形态学方法划分ROI区域,并提取样本ROI区域内各像素点的光谱反射率数据;然后把像素点的光谱反射率数据作为最优模型的输入,计算出各像素点的总氮含量值,将值映射到0~255的灰度区间,得到灰度图像;最后,对灰度图像进行伪彩色处理得到窖泥总氮含量的可视化图像。窖泥总氮含量分布的伪彩色图像以线性色阶表示,不同的色阶与不同的窖泥总氮含量相匹配,这种匹配关系可用于分析窖泥总氮含量的变化[27-28]。
2 结果与分析
2.1 窖泥总氮含量的统计结果
窖泥总氮含量统计结果见表1。为了提高模型的预测精度和泛化性能,利用Kennard-Stone(KS)[29]算法将120个窖泥样本按4∶1的比例划分为校正集(总氮含量1.060 9~
表1 窖泥样本中总氮含量测定结果统计Table 1 Statistic of determination results of total nitrogen content in pit mud samples
1.3888g/100 g)和预测集(总氮含量1.0604~1.380 1g/100 g)。校正集用于训练模型,预测集用于测试模型的效果。由表1可知,预测集样本的总氮含量分布几乎都位于校正集样本的总氮含量范围之内,说明用KS算法划分是合理的,有利于后续总氮含量预测模型的建立。
2.2 窖泥的光谱特征分析
120个窖泥样本的平均光谱曲线见图2。由图2可知,光谱区域内窖泥样本的反射率曲线均未出现明显的吸收峰,但不同波段下的反射率值存在略微不同。这是因为可见光区域的光谱主要反映样本的颜色信息,说明120个窖泥样本的颜色特征存在细微的差异。
图2 窖泥平均光谱曲线Fig.2 Average spectral curves of pit mud
2.3 基于全波长建立PLSR模型
在本研究中,使用SNV、SG、MSC对光谱数据进行预处理,利用原始(Raw)和预处理后的光谱数据建立PLSR模型预测窖泥总氮含量。与原始光谱建立的PLSR模型相比,预处理后的光谱数据建立的PLSR模型精度均有所提高,说明预处理方法可以有效地消除或降低光谱数据中的噪声。模型预测总氮含量的性能见表2。
表2 不同预处理方法偏最小二乘回归模型评估结果Table 2 Evaluation results of partial least squares regression model by different preprocessing methods
由表2可以看出,SNV预处理后的光谱数据建立的PLSR模型预测总氮含量的精度最高(校正集决定系数Rc2=0.946 5,RMSEC=0.028 3,预测集决定系数Rp2=0.903 7,RMSEP=0.035 8)。使用SNV方法预处理后的光谱数据建立的模型效果好,这可能是因为窖泥样本的光谱图像在采集过程中,样本表面不平整,光照在各个位置的分布不均匀,导致存在着大量的噪声,而SNV预处理方法有消除样本散射或光程引起的样本光谱误差的作用[30]。根据以上分析结果,故选择SNV方法预处理后的光谱数据进行后续的研究。
2.4 特征波长提取
2.4.1 CARS算法提取特征波长
CARS算法提取特征波长的结果见图3。由图3(a)可知,随着采样次数的不断增加,采样变量逐渐减小,前30次速度减小较快,随后逐渐减缓,说明该算法筛选特征时有粗选和精选过程。由图3(b)可知,随着采样次数的增加,PLSR交叉验证RMSECV值先降低随后又增加,在采样次数达到9次时值最小(RMSECV=0.016 6),表明在采集前9次,光谱中不能预测成分含量的无关信息被剔除,在采集32次以后,RMSECV值呈现阶梯型增加,表明剔除了光谱中能够预测成分含量的信息,导致模型的性能逐渐变差。由图3(c)可知,RMSECV值最小时对应的采样次数为9,其对应包含了106个最优波长。
图3 竞争性自适应重加权采样算法选择特征波长Fig.3 Selection of characteristic wavelength by competitive adapative reweighted sampling algorithm
2.4.2 SPA算法提取特征波长
采用SPA算法提取特征波长的结果见图4。由图4可知,当特征波长数为347个,RMSE值达到最小(RMSE=0.003 3),表明此时模型精度最高;随着特征波长数增加,RMSE值逐渐变大,说明模型效果变差。因此,当波长数为347个,RMSE达到最小值时,所选择的波长组合为特征波长。
图4 连续投影算法选择特征波长Fig.4 Selection of characteristic wavelength by successive projections algorithm
2.4.3 CARS-SPA联用策略算法提取特征波长
在使用CARS算法提取光谱区域中重要波长的基础上,再使用SPA算法剔除重要波长中的共线性波长。采用CARS-SPA联用策略算法提取特征波长的结果见图5。由图5(a)可知,当波长数量为38个,RMSE值达到最小(RMSE=0.045 6),表明此时模型精度最高;随着波长数量增加,RMSE值逐渐变大,说明模型效果变差。因此,当波长数为38个,RMSE达到最小值时,所选择的波长组合为特征波长。为清晰地展示CARS-SPA联用策略算法提取特征波长的结果,绘制特征波长与样本平均光谱反射率曲线的对应关系,如图5(b)所示。由图5(b)可知,提取的特征波长零散分布在400 nm、500 nm、800 nm、900 nm、1 000 nm附近。
图5 竞争性自适应重加权采样-连续投影算法联用策略方法选择特征波长Fig.5 Selection of characteristic wavelength by competitive adapative reweighted sampling-successive projections algorithm combined strategy method
2.5 多元模型分析
2.5.1 PLSR模型
利用全波长和特征波长的光谱数据建立PLSR模型性能如表3所示。由表3可知,使用特征波长建立的PLSR模型效果,不仅提高模型精度,而且降低波长数量。与全波长相比,CARS、SPA、CARS-SPA联合策略方法建立的PLSR模型的预测集决定系数Rp2分别提高0.074 3、0.072 3、0.078 8,RMSEP分别降低0.016 8、0.015 0、0.016 8,波长比数量也分别降低76%、23%、92%。其中使用CARS-SPA联合策略方法提取特征波长建立的PLSR模型性能最好,校正集和预测集决定系数Rc2、Rp2分别为0.996 2和0.982 5,校正集和预测集均方根误差(RMSEP)分别为0.007 0 g/100 g和0.019 0 g/100 g。
表3 利用不同的波长选择方法对偏最小二乘回归模型进行性能分析Table 3 Performance of partial least squares regression model analyzed by different wavelength selection methods
2.5.2 LS-SVM模型
利用全波长和特征波长的光谱数据建立LS-SVM模型性能见表4。由表4可知,与全波长的建模效果相比,特征波长建模略微提升模型预测总氮含量的精度,但波长数量有所减少,降低模型的复杂程度。在特征波长的提取方法中,同样是使用CARS-SPA联合策略方法建立的LS-SVM模型性能最好,校正集和预测集决定系数为Rc2、Rp2分别为0.999 2和0.987 6,校正集和预测集均方根误差(RMSEP)分别为0.003 2 g/100 g和0.013 8 g/100 g;波长数量从448个减少至38个。
表4 利用不同的波长选择方法对最小二乘支持向量机模型进行性能分析Table 4 Performance of least squares support vector machine model analyzed by different wavelength selection methods
2.5.3 对比结果分析
由于全波长的光谱数据存在过多的冗余信息,导致不能准确建立预测窖泥总氮含量的模型;故使用不同方法提取特征波长建立了PLSR和LS-SVM模型,并与全波长的建模效果进行了对比。由表3、表4可知,发现使用特征波长建立的PLSR和LS-SVM模型都能很好的解释光谱信息与总氮含量之间的对应关系。在两种模型中,使用CARS-SPA联合策略方法建立的模型都达到了最好效果。表明CARS-SPA联合策略方法提取特征波长的有效性和鲁棒性。综合对比结果,发现最优模型为使用CARS-SPA联合策略方法提取的特征光谱建立的LS-SVM模型,该模型可以减少波长数量提高模型的检测精度和运算速度,实现对窖泥总氮含量的高精度检测。
2.6 窖泥总氮含量的可视化
通过上述分析确定了最优模型为SNV+CARS-SPA+LS-SVM,选取两个窖池不同层位的窖泥样本作为可视化对象进行比较,结果见图6。由图6可知,同一窖池的窖帽、黄水中、窖底的窖泥总氮含量分布呈逐渐降低的趋势,窖帽和黄水中的窖泥总氮含量无明显差异,窖底的窖泥总氮含量略低于窖帽和黄水中的窖泥总氮含量。
图6 不同层位窖泥总氮含量分布图Fig.6 Distribution map of total nitrogen content in pit mud at different levels
3 结论
本研究探讨了高光谱成像技术在窖泥总氮含量的快速无损检测中的应用,结果表明,高光谱成像技术能够准确地检测窖泥的总氮含量。利用原始和不同预处理方法(SNV、MSC、SG)处理后的光谱数据建立PLSR模型预测窖泥总氮含量,发现SNV方法可以提高模型预测的精度(预测集决定系数Rp2=0.903 7,RMSEP=0.035 8 g/100 g)。基于全波长和不同方法提取的特征波长建立PLSR、LS-SVM模型预测总氮含量,发现用CARS-SPA联合策略方法提取的特征波长建立的LS-SVM模型最优(预测集决定系数Rp2=0.987 6、RMSEP=0.013 8 g/100 g),有效降低了模型的复杂度,提高了窖泥总氮含量的预测精度。最后,利用最优模型(SNV+CARS-SPA+LS-SVM)对窖泥样本的总氮含量进行可视化,直观反映了不同窖池各层位的窖泥总氮含量的变化情况。总体研究结果表明,高光谱技术有潜力为窖泥质量评估快速检测提供一种新的方法,同时也可以为白酒固态发酵过程中的工艺参数调整提供指导。