基于可见-近红外光谱预测灵武长枣脆度及模型优化
2017-04-26王芹志强锋何建国王松磊贺晓光吴龙国
王芹志,强锋,何建国,*,王松磊,,贺晓光,吴龙国
1(宁夏大学 农学院,宁夏 银川,750021) 2(宁夏大学 土木水利工程学院,宁夏 银川,750021)
基于可见-近红外光谱预测灵武长枣脆度及模型优化
王芹志1,强锋1,何建国1,2*,王松磊1,2,贺晓光1,吴龙国2
1(宁夏大学 农学院,宁夏 银川,750021) 2(宁夏大学 土木水利工程学院,宁夏 银川,750021)
利用可见-近红外光谱对在4 ℃下冷藏24 h的灵武长枣脆度进行检测,并建立了最优模型。通过400~1 000 nm高光谱成像系统采集了112个长枣图像,对原始光谱与经SNV,MSC、S-G、1ST、2ND、SNV+1ST、MSC+1ST、SNV+2ND、MSC+2ND、SNV+ S-G、MSC+ S-G预处理后光谱的偏最小二乘回归(PLSR)模型进行了对比分析;采用主成分分析法(PCA)、连续投影算法(SPA)、竞争性自适应重加权法(CARS)提取特征波长,分别建立偏最小二乘回归(PLSR)和主成分回归(PCR)模型;将经预处理后的简化PLSR模型与全波段PLSR模型进行了对比分析。结果表明,采用标准归一化法(SNV)预处理后的PLSR模型优于原光谱及其他预处理方法;提取特征波长后建立的CARS-PLSR模型优于CARS-PCR模型和全波段PLSR模型,其相关系数(RP)和预测均方根误差(RMSEP)分别为0.919、1.121。这表明,基于可见-近红外光谱检测冷藏灵武长枣脆度是可行的,SNV-CARS-PLSR模型最佳。
可见-近红外光谱;灵武长枣;脆度;模型优化
灵武长枣作为宁夏当地特色农产品,已经逐渐成为地方区域经济发展的重要支撑和农民收入的主要经济来源。然而,新鲜的长枣往往由于贮存或者运输而被冷藏保存,冷藏长枣的脆度大小,直接影响农户的经济损失。通常用化学检测方法对长枣进行品质检测,但这种方法对其原有品质会造成一定的破坏,且费时费力,无法满足生产需求[1-6]。
利用光谱技术对果蔬进行无损检测,成为当下最具创新和方便的检测技术。近年来,国内外研究人员和学者广泛利用光谱技术对果蔬理化性质进行了研究,并取得了一定成果[7-14],光谱可分为近红外(900~1 700 nm)和可见-近红外(400~1 000 nm),将可见-近红外高光谱(400~1 000 nm)成像技术结合不同预处理方法,不同特征波长选择方法,建立不同预测模型用于枣类定量分析,进而建立最优的预测模型在国内却鲜有报道。
本文采用400~1 000 nm可见-近红外高光谱成像技术获取冷藏的灵武长枣表面反射信息,运用11种不同的预处理方法,3种不同的特征波长选择方法,建立偏最小二乘回归(partial least squares regression ,PLSR)和主成分回归(principal component regression,PCR)模型,通过比较,最终建立冷藏灵武长枣脆度的最优预测模型,为灵武长枣的无损检测提供了一种新思路。
1 材料与方法
1.1 实验材料
从宁夏灵武长枣园采摘大小均匀,完好无损的长枣112个,装入密封塑料袋中,置于4 ℃冰箱下保存。测试前,将样本清洗。对其进行编号,测其形态尺寸,记录数据。
1.2 实验仪器
Hyperspec VNIR N型高光谱成像系统:美国Headwall Photonicsg公司,由高光谱成像光谱仪(Imspector N系列,Golden Way Scientific Co., Ltd., US)、CCD摄像机(G4-232, Golden Way Scientific CO., Ltd., US)、2个线光源(90-254VAC,47-63Hz,Golden Way Scientific CO.,Lab.,EQUIP),Headwall Photonics Instruments Co., Ltd., Beijing,China)构成的光源系统,电控位移平台(VT-80,Headwall Photonics Instruments Co., Ltd., Beijing,China),计算机(ThinkPadX220 Inter(R) Core i5-2450CPU@2.5GHz,RAM 3.41G)和数据采集软件(Hyperspec-N for AndorLuca Rev A.3.1.4.vi, Headwall Photonics Instruments Co., Ltd., Beijing, China)等部件组成。
质构仪:英国Stable Micro System公司。
1.3 原始样本图像采集
样品图像扫描前,为减弱或消除暗电流照明灯的干扰,需进行黑白校正[15],如公式(1)所示。
(1)
式中:R0是样本原始漫反射高光谱图像;W是白板反射图像;D是全黑图像;R是校正后的漫反射高光谱图像。
试验过程中,每组取5个冷藏长枣样本,标记,并按照一定的顺序摆放在载物台上,如图1所示;获取光谱图像数据之前,将控制电机和位移平台连接起来,然后进行扫描,最后获取图像数据。图像数据处理之前,采用系统自带的ENVI4.6软件分割高光谱图像,得到112个冷藏长枣的单个图像。
1.4 脆度的测定
对采集图像后的冷藏长枣赤道线上标记的部位,用质构仪进行测定,测其3次的脆度,取平均值。
1.5 光谱分析及模型评价
1.5.1 光谱预处理
样本光谱除了包含自身有用信息外,外界不确定因素(如光的散射以及环境噪声等)也会对建模效果产生一定影响[16]。因此,在建模之前需对光谱数据进行预处理[17]。试验采用标准归一化(standard normal variable, SNV)、多元散射校正(multiple scattering correction, MSC)、卷积平滑(savitzky-golay smoothing ,S-G)、一阶导(first derivative, 1sD)、二阶导(second derivative, 2nD)及其组合对光谱数据进行预处理并比较它们对全波段模型性能的影响。高光谱图像数据处理采用ENVI4.6(Research System Inc.,USA)、Unscrambler X 10.2(CAMO Software AS,OSLO, Norway)和Matlab2011a (Mathwork, Matlab9.0, Inc.,USA)软件平台。
图1 原始样本图像采集Fig.1 Original samples collected figure
1.5.2 建模方法及模型评价
对样本光谱进行预处理后,建立全波长及特征波长提取下的冷藏灵武长枣脆度偏最小二乘回归[18](PLSR)定量分析模型和特征波长下的主成分回归[19](PCR)定量分析模型。特征波长提取方法分别采用主成分分析法[20](principal component analysis,PCA)、连续投影算法[21-22](successive projections algorithm ,SPA)、竞争性自适应重加权法[23](competitive adaptive reweighed sampling,CARS)。
本试验采用均方根误差(RMSE)和相关系数(R)对建立的模型进行评价[24]。一个好的模型应该具有高的R值(接近于1)、低的均方根误差(RMSEC/RMSEP/RMSECV) 值,且RMSEC 、RMSEP和RMSECV尽量接近。RMSEC /RMSEP/RMSECV及R的计算方法如公式(2)~公式(4)所示。
(2)
(3)
(4)
R=
(5)
2 结果与分析
2.1 脆度测定
实验测得112个样本脆度有效值,将试验所得样品随机划分为校正集84个样品,预测集28个样品,统计结果见表1。其中,校正集用于建模,预测集用于检验模型性能[25]。
表1 冷藏灵武长枣脆度数据统计
2.2 长枣样本光谱
将获得的112个样本经过反射高光谱成像系统扫描,选择感兴趣区域,其原始光谱图及不同预处理(SNV,MSC、S-G、1ST、2ND、SNV+1ST、MSC+1ST、SNV+2ND、MSC+2ND、SNV+ S-G、MSC+ S-G)后的光谱图见图2。
由图2(A)可知,在原始光谱下的光谱曲线整体较为分散,且在900 nm和960 nm处反射率较为明显,这与胡耀华等[26]利用近红外高光谱研究猪肉系水力所得结果类似,此峰对应O-H基团的二级倍频,可能是长枣水分分布不均,对脆度的影响所致;图2(B)的SNV预处理光谱图与图(C)的MSC预处理光谱图比较相似,这可能是因为2种预处理方法对消除长枣表面粗糙面及不同粗糙面分布不均匀而产生的散射对光谱的影响作用[27],故图(B)和图(C)相对于图(A)而言,光谱曲线更加紧凑,表面更加平滑。
(A)RAW;(B)SNV;(C)MSC;(D)S-G;(E)1ST;(F)2ND;(G)SNV+1ST;(H)SNV+2ND;(I)MSC+1ST;(J)MSC+2ND;(K)SNV+S-G(L)MSC+S-G图2 不同预处理方法下的光谱图Fig.2 The spectrums of different pretreatment methods
图2(D)、(K)、(L)分别为S-G、SNV+S-G、MSC+S-G预处理光谱图,三图均含有S-G预处理方法,比较原始光谱曲线,经SNV+S-G、MSC+S-G组合的处理方法不仅除去了部分噪声,而且整体较只经S-G方法处理更为紧凑,三图光谱的波峰和波谷的位置并没有发生很大偏移。
图2(E)、(G)、(I)分别为1ST、SNV+1ST、MSC+1ST预处理光谱图,三图均含有1ST预处理方法,带有可校正基线,可以看出,经SNV+1ST处理后的反射率更加突出,三图平滑处趋于平直,波峰和波谷较原始光谱曲线和其他预处理曲线显得更加突出。
图2(F)、(H)、(J)分别为2ND、SNV+2ND、MSC+2ND预处理光谱图,三图均含有2ND预处理方法,带有可校正基线,可以看出,经SNV+2ND处理后的反射率更加突出,三图噪声信息较多,虽有突出波峰,但整体波段的波峰和波谷难以辨出。
2.3 光谱预处理方法的选择
采用原光谱和不同预处理方法,建立全波长偏最小二乘回归(PLSR)模型,结果见表2。
表2 不同预处理方法下的冷藏灵武长枣脆度PLSR模型
从表2可以得出,(1)在单一预处理方法下,采用SNV对原始光谱预处理后的模型,其RC、RCV、RP分别为0.877、0.830、0.877,RMSEC、RMSECV、RMSEP分别为1.084、1.490、1.212,各项数据较原光谱和其他单一预处理方法无较大差异,且RP较接近1,其主成分数较少,表明该预处理去除了主要的噪声和背景干扰,模型预测精度和稳定性较好;(2)采用1ST预处理方法,主成分数最少,但其RMSEP较大,预测精度较差;(3)采用2ND预处理方法,RC较原数据和其他单一预处理方法均为最大,但RCV偏小,且RP值为-0.288,出现过拟合现象,主成分数最大,说明噪声信息比较多;(4)MSC和S-G的RP和RMSEP与SNV的没有较大差异,但所用主成分数较大;(5)在组合预处理方法下,采用SNV+1ST、MSC+1ST和SNV+2ND3种方法的RP均为负值,出现过拟合现象;(6)采用MSC+2ND预处理方法的RC、RCV、RP均偏小,RMSEP值较大,可行性较差;(7)采用SNV+S-G和MSC+S-G两种预处理方法的RC、RCV、RP较原光谱均较为理想,但RMSEP较大,且主成分数较大,其稳定性和预测精度都较差。综合考虑,采用SNV预处理方法,建立冷藏灵武长枣全波长偏最小二乘模型(PLSR)的预测精度最佳。
2.4 提取特征波长
由于原光谱包含的信息量较为冗长,导致获取样品信息所需时间较长,一定程度不能满足在线生产的需要。因此,需对全波段下的光谱数据进行降维处理[28],以提高效率和模型精度。通过主成分分析法(PCA)提取了7个特征波长(541、603、675、685、689、728、958),采用连续投影算法(SPA)提取了9个特征波长(401、425、435、469、661、680、901、949、982),采用竞争性自适应重加权法(CARS)提取了8个特征波长(665、680、833、853、862、910、954、973),结果见表3。
表3 特征波长提取
2.5 预测模型的建立
基于灵武长枣脆度的特征波长提取方法,分别建立偏最小二乘回归[29](PLSR)和主成分回归(PCR)定量分析模型,结果见表4。
表4 不同特征波长提取方法的PLSR建模对比分析
通过比较,结合图3和表4可以看出:(1)在经过SNV预处理光谱后,基于PLSR的特征波长选择方法中,CARS-PLSR效果较佳,其RC、RCV、RP分别为0.891、0.865、0.919,均高于其他2种波长选择方法,说明CARS-PLSR的预测及校正性能较PCA-PLS和SPA-PLS更加优越。(2)CARS-PLSR的RMSEC、RMSECV、RMSEP分别为1.202、1.330、1.121,分别较PCA-PLSR和SPA-PLSR小,说明CARS-PLSR的预测精度和稳定性优于PCA-PLSR和SPA-PLSR;(3)采用主成分分析提取特征波长建立的偏最小二乘模型(PCA-PLSR),尽管其主成分数较其他2种特征波长选择方法略小,但RMSEP达到105.093,预测均方根误差极大,故其预测精度和稳定性明显劣于SPA-PLSR和CARS-PLSR;(4)CARS-PCR的RMSEP和主成分数与SPA-PCR相差较小,CARS-PCR的RC、RCV、RP均高于其他2种波长选择方法,其校正及预测性能较好;RMSEC、RMSECV也较其他2种波长选择方法小,预测精度较佳。综合考虑,经SNV 预处理的光谱,采用竞争性自适应重加权(CARS)提取特征波长的方法建模,具有较高的精确性和较好的稳定性。
从表4可以得到,CARS-PLSR模型较CARS-PCR模型具有更高的RP和更小的RMSEP,故两者建立的简化模型相比,CARS-PLSR模型对灵武长枣脆度的预测精度和稳定性较佳,原因可能是PLSR较PCR更适用于复杂分析体系的光谱数据,数据矩阵的分解与回归相互结合,使得模型更为稳健[30]。
2.6 全波段模型和简化模型的比较
采用SNV方法预处理下的全波长偏最小二乘模型(SNV-PLSR)和经CARS法提取特征波长建立的偏最小二乘模型(SNV-CARS-PLSR)效果进行比较,两模型对冷藏灵武长枣脆度预测性能如图3所示。
图3 不同冷藏灵武长枣脆度PLSR预测模型的比较Fig.3 Compared of different PLSR models for brittleness of Lingwu jujube samples
从表3和图3可以看到,利用CARS对长枣校正模型进行光谱特征波长变量选择,从125个波长变量中,优选出665 nm,680 nm,833 nm,853 nm,862 nm,910 nm,954 nm,973 nm共8个特征波长,数量仅占全部光谱变量的6.4%,在一定程度上提高了建模变量的利用率,也节省了无用信息的处理时间。此外,与全波长SNV-PLSR模型相比,SNV-CARS-PLSR模型的RP较大且接近于1,RMSEP较小,主成分数较少。特征波长提取建立的SNV-CARS-PLSR模型对冷藏灵武长枣脆度的预测精度和稳定性较佳。
3 结论
(1)利用可见-近红外高光谱成像技术,建立了4 ℃下24 h冷藏灵武长枣脆度的PLSR模型。选择400~1 000 nm全波段范围,进行原始光谱与经过SNV,MSC、S-G、1ST、2ND、SNV+1ST、MSC+1ST、SNV+2ND、MSC+2ND、SNV+S-G、MSC+S-G预处理光谱的PLSR模型的比较表明,SNV预处理光谱效果较好。
(2)采用PCA、SPA、CARS特征波长选择方法对经SNV预处理后的光谱进行降维,并分别建立PCR和PLSR的预测模型,得到CARS-PLSR模型和CARS-PCA模型的RC、RCV、RP均大于其他特征波长选择方法,CARS-PLSR模型RC、RP分别为0.891、0.919,CARS-PCR模型RC、RP分别为0.890、0.785,CARS-PLSR模型校正及预测性能较好;两者RMSEP与其他特征波长选择方法建模相差不大且偏小,预测精度较好。CARS-PLSR模型预测效果较佳。
(3)对比了SNV-CARS-PLSR模型和全波长SNV-PLSR模型;特征波长提取建立的SNV-CARS-PLSR模型的RP较大且接近1,RMSEP较全波长SNV-PLSR模型小,且主成分数较少,对冷藏灵武长枣脆度的预测精度和稳定性较佳。
综上所述,基于可见-近红外光谱预测冷藏灵武长枣脆度的研究是可行的,最优预测模型是SNV-CARS-PLSR。
[1] 李丹.基于高光谱成像技术的灵武长枣品质无损研究[D].银川:宁夏大学,2015.
[2] 吴龙国.基于高光谱成像技术的灵武长枣常见缺陷无损检测研究[D]. 银川:宁夏大学,2014.
[3] 薛建新,张淑娟,张晶晶.高光谱成像技术对鲜枣内外部品质检测的研究[J].光谱学与光谱分析,2015,35(8):2 297-2 298.
[4] LI Jiangbo, QIAO Xiaojun , HE Ruyan. Use of Near-Infrared hyperspectral images to identify moldy peanuts[J].Journal of Food Engineering,2016,169:284-290.
[5] PU Yuanyuan, SUN Dawen. Vis-NIR hyperspectral imaging in visualizing moisture distribution of mango slices during microwave-vacuum drying[J].Food Chemistry,2015,188:271-278.
[6] 郭志明.基于近红外光谱及成像的苹果品质无损检测方法和装置研究[D].北京:中国农业大学,2015.
[7] 刘德华,张淑娟,王斌,等. 基于高光谱成像技术的山楂损伤和虫害缺陷识别研究[J].光谱学与光谱分析,2015,35(11):3 167-3 169.
[8] 魏新华,吴姝,范晓冬,等.基于高光谱成像分析的冬枣微观损伤识别[J].农业机械学报,2015,46(3):242-245.
[9] 岳学军,全东平,洪添胜,等.柑橘叶片叶绿素含量高光谱无损检测模型[J].农业工程学报,2015,31(1):294-300.
[10] 李勋兰,易时来,何绍兰,等.高光谱成像技术的柚类品种鉴别研究[J].光谱学与光谱分析,2015,35(9):2 639-2 642.
[11] LI Jiangbo, CHEN Liping, HUANG Wenqian ,et al. Multispectral detection of skin defects of bi-colored peaches based on vis-NIR hyperspectral imaging[J].Postharvest Biology and Technology,2016,112:121-133.
[12] FERNANDES A M,FRANCO C, FERREIRA A M,et al. Brix, pH and anthocyanin content determination in whole Port wine grape berries by hyperspectral imaging and neural networks[J].Computers and Electronics in Agriculture,2015,115(2):88-96.
[13] WANG Wei, NI Xinzhi, LAWRENCE K C, et al. Feasibility of detecting Aflatoxin B1 in single maize kernels using hyperspectral imaging[J].Journal of Food Engineering, 2015,166:182-192.
[14] HELGERUD T, WOLD J P, PEDERSEN M B, et al. Towards on-line prediction of dry matter content in whole unpeeled potatoes using near-infrared spectroscopy[J].Talanta, 2015,143:138-144.
[15] 王正伟,王家云,王松磊,等.基于VIS/NIR高光谱成像技术检测鸡肉嫩度[J].食品科技,2015,40(11):270-274.
[16] 吴龙国,何建国,刘贵珊,等.基于近红外高光谱成像技术的长枣含水量无损检测[J].光电子· 激光,2014,25(1):135-140.
[17] 郭彩英.基于高光谱成像技术的冷却羊肉表面微生物活细胞数量无损检测方法研究[D].银川:宁夏大学,2014.
[18] 董金磊,郭文川.采后猕猴桃可溶性固形物含量的高光谱无损检测[J].食品科学,2015,36(16):103-105.
[19] 宋璇. PCR和SMLR建模方法在煤质全硫含量无损检测中的比较研究[J].煤炭技术,2014,33(11):267-269.
[20] 吴龙国,何建国,刘贵珊,等.基于NIR高光谱成像技术的长枣虫眼无损检测[J].发光学报,2013,34(11):1 528-1 529.
[21] 罗霞,洪添胜, 罗阔,等.高光谱技术在无损检测火龙果可溶性固形物中的应用[J].激光与光电子学进展,2015,52(8):309-317.
[22] 熊雅婷,李宗朋,王健,等.基于连续投影算法的黄酒成分检测模型[J].分析与检测,2015,41(3):185-186.
[23] 刘燕德,邓清.基于高光谱成像技术的脐橙叶片的叶绿素含量及其分布测量[J].发光学报,2015,36(8):958-959.
[24] 褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社,2011.
[25] 郭文川,董金磊. 高光谱成像结合人工神经网络无损检测桃的硬度[J].光学精密仪器,2015,23(6):1532.
[26] 胡耀华,郭康权,野口刚,等. 基于近红外光谱检测猪肉系水力的研究[J].光谱学与光谱分析,2009,29(12):3 259-3 262.
[27] 刘友华,白亚斌,邱祝福,等.基于高光谱图像技术和波长选择方法的羊肉掺假检测方法研究[J].海南师范大学学报(自然科学版),2015,28(3):266-268.
[28] PAN Leiqing, ZHANG Qiang, ZHANG Wei, et al. Detection of cold injury in peaches by hyperspectral reflectance imaging and artificial neural network[J].Food Chemistry,2016,192:134-141.
[29] XIE Anguo, SUN Dawen, XU Zhongyue, et al. Rapid detection of frozen pork quality without thawing by Vis-NIR hyperspectral imaging technique.[J].Talanta,2015,139:208-215.
[30] 李丹,何建国,贺晓光,等.基于高光谱技术的灵武长枣糖度预测模型研究[J].河南工业大学学报(自然科学版),2014,35(4):68-72.
The model of predicting of the brittleness of Lingwu jujube by visible-near infrared spectroscopy and its optimization
WANG Qin-zhi1, QIANG Feng1,HE Jian-guo1,2*,WANG Song-lei1,2, HE Xiao-guang1,WU Long-guo2
1(School of Agriculture, Ningxia University, Yinchuan 750021, China) 2(Institute of civil and hydraulic engineering, Ningxia University, Yinchuan 750021, China)
A model of predicting the brittleness of Lingwu jujube stored at 4 ℃ for 24 hours by Visible-near infrared Spectroscopy was established and optimized. Hyperspectral images of 112 jujubes of samples over 400-1000 nm were acquired. PLSR(Partial least squares regression,PLSR)models of raw spectral and spectral processed by SNV, MSC, S-G, 1ST, 2ND, SNV+1ST, MSC+1ST, SNV+2ND, MSC+2ND, SNV+S-G, MSC+S-G for brittleness were compared. Characteristic wavelengths were selected by principal component analysis (PCA), successive projections algorithm (SPA) and competitive adaptive reweighted sampling (CARS); PLSR models and PCR models on characterizing wavelengths were established. The simplified PLSR model after pretreatment and completed full wavelength PLSR model were compared. The results showed that the PLSR model with pretreatment by SNV was superior to CARS-PCR and full spectralspectral pretreatment. The optimal wavelengths by CARS-PLSR model had an excellent ability to predict the brittleness of jujube and was better than CARS-PCR model and PLSR model to predict brittleness composition. The correlation coefficient (RP) and root mean square error of prediction (RMSEP) were 0.786 and 1.224 respectively. Therefore, it’s possible to determine the brittleness of chilled Lingwu jujubes by Visible-near infrared Spectroscopy and the SNV-CARS-PLSR model was the best.
visible-near infrared spectroscopy; Lingwu jujube;brittleness; optimized model
10.13995/j.cnki.11-1802/ts.201703036
硕士研究生(何建国教授为通讯作者,E-mail:hejg@nxu.edu.cn)。
2015年国家自然基金(31560481);农业科技成果转化项目(2014G30000045)
2016-06-30,改回日期:2016-08-16