柑桔叶片可溶性糖近红外检测非线性模型研究
2016-12-19刘燕德肖怀春韩如冰孙旭东朱丹宁曾体伟李泽敏
刘燕德,肖怀春,韩如冰,孙旭东,朱丹宁,曾体伟,李泽敏
(华东交通大学机电工程学院,江西 南昌 330013)
柑桔叶片可溶性糖近红外检测非线性模型研究
刘燕德,肖怀春,韩如冰,孙旭东,朱丹宁,曾体伟,李泽敏
(华东交通大学机电工程学院,江西 南昌 330013)
为了监督柑桔叶片是否缺乏营养元素,对叶片可溶性糖进行分析。采用近红外光谱技术结合误差反馈神经网络(BPNN)和最小二乘支持向量机(LS-SVM)建立定量剖析非线性模型,运用主成分分析(PCA)进行数据压缩、无信息变量消除算法(UVE)和连续投影算法(SPA)进行有效波段筛选的方法来优化模型的输入变量,提高了模型检测精度。同时,利用Savitzke-Golay平滑(S-G)、多元散色校正(MSC)、导数和基线校正(Baseline)等预处理方法进行数据变换,来确定最佳建模方法。结果表明:波长筛选能优化模型,并提高运算速度,其中PCA优化效果最为明显,可溶性糖的相关系数Rp达到最大为0.91,均方根误差RMSEP最小为4.82,显著提高了模型的检测精度和稳健性,经过优化的输入变量所建模型,能够满足定量检测的要求,具有一定的可行性。
可溶性糖;近红外光谱技术;波段筛选;优化;预处理方法
柑桔果树缺素会严重影响柑桔的质量和产量,从而影响柑桔业的生产[1]。柑桔缺素与否可通过叶片中可溶糖的含量来判定,传统检测柑桔缺素的方法大部分是线性的,且模型的复杂程度大[2]。目前柑桔叶片可溶性糖含量近红外无损检测精度不理想,可能是由于光谱数据众多,呈现出过拟合现象,因输入变量中含不相关的、冗余和噪声信息,有效信息可能被隐藏其中,且大数据会导致模型复杂。因此选择适当的输入变量对柑桔叶片可溶性糖预测模型的精度至关重要,也能降低复杂程度[3-8]。
近年来,很多研究人员对输入变量进行优化研究,以期提高模型的预测精度。温珍才等[9]对压榨和浸出山茶油样本采集可见、近红外光谱,用UVE结合偏最小二乘线性判别分析建立模型,对2类山茶油鉴定判别正确率达到100%。Sankaran等[10]对柑桔黄龙病的叶片近红外光谱特征提取,使用选定光谱特征的SIMCA算法得到的柑桔黄龙病分类精度高于83%。可见,选择一种合适输入变量的可溶性糖近红外检测非线性模型具有重要的现实意义,能丰富柑桔果树营养状况,提高柑桔产量,促进柑桔产业发展。
本研究主要探讨在近红外光谱技术的基础上,结合误差反馈神经网络和最小二乘支持向量机的模式识别算法,建立柑桔叶片可溶性糖的非线性定量分析模型,并对输入变量进行优化,选用主成分分析进行数据压缩、连续投影算法(SPA)和无信息变量消除算法(UVE)筛选波长变量,对结果进行对比分析,获得最佳效果模型,以期找到柑桔叶片可溶性糖非线性模型输入变量优化的最佳方法。
1 材料与方法
1.1 试验材料
2015年7月4日在江西省某果园种植基地采集新鲜柑桔叶片作为样品。随机采集树枝的末梢、枝尖的叶片,正常和缺素两类果树由园艺专家根据经验判定。其中正常果树4棵、每棵20片,缺素果树9棵、每棵9片,共161片叶。在光谱采集前进行相应的处理,在整个过程中尽量保持样品新鲜。
柑桔叶片的近红外光谱采集用的设备是布鲁克傅里叶变换的TENSOR37型近红外光谱仪,波数范围在12 000~4 000 cm-1,在样品光谱采集的过程中光谱仪分辨率设置为8 cm-1,配有镀金积分球、标准背景和InGaAs检测器等附件。
1.2 试验方法
1.2.1 近红外光谱采集 实验室环境保持温度16~22℃、空气湿度40%~50%。在光谱采集期间,应让叶片平整置于载物台上,以减少外部对光谱的影响,致使采集到的光谱不稳固。每次采集要避开叶脉位置,每片叶片随机采集4条光谱,取平均吸光度的光谱,作为后续建模的原始光谱进行下一步分析,一段时间后要采集镀金反射镜参比光谱来进行校正。
1.2.2 真值的测量 取0.5~1.0 g新鲜叶片捣碎,与15 mL蒸馏水一同放入试管中,封口置于沸水中20 min,冷却、过滤并定容作为待测液,取待测液1 mL、蒽酮试剂0.5 mL、浓硫酸5 mL混合入试管中一并加热10 min,冷却到室温后,于620 nm波长下测定光吸收值作为可溶性糖的真值。
1.2.3 模型建立方法 采用最小二乘支持向量机(LS-SVM)和误差反馈神经网络[11-12](BPNN)建立柑桔叶片定量分析模型。输入变量数直接影响LS-SVM和BPNN数学模型的性能,输入变量越多,模型越复杂,稳健性越差。由于全谱数据量大,研究中进一步采用数据压缩和特征变量筛选两种不同策略进行输入向量优化,以此作为LS-SVM和BPNN的输入。
2 结果与分析
2.1 正常叶片和缺素叶片近红外光谱特征分析
在12 000~4 000 cm-1范围内采集脐橙叶片的近红外光谱(图1),由图1可知,位于5 150、6 880 cm-1两处光谱有明显的吸收峰[13],前者是由官能团C-H、O-H的伸缩与变形振动组合频产生的,后者是O-H伸缩振动的一级倍频引起的;缺素叶片在5 150 cm-1处的吸收峰偏低可能是由于其营养元素缺失导致[14]。12 000~9 000 cm-1波段范围内光谱接近于直线,是因为该范围内叶片吸光度主要是官能团的3~4级倍频,对光谱影响有限,因此除去该波段范围。
图1 正常叶片和缺素叶片的近红外代表性光谱
2.2 叶片近红外光谱预处理
在采集过程中光谱往往会受到各种外界环境的干扰,影响模型性能,因此在建立模型前对采集到的数据进行预处理,可以降低影响效果、减少各种负面干扰、提高模型的稳定性。本研究对数据采用Savitzke-Golay平滑(S-G)、多元散色校正(MSC)、基线校正(Baseline)、1阶导、2阶导等多种预处理方法,通过对比得出2阶导数+3+平滑+3+MSC组合的预处理方法效果最好。MSC具有消除基线漂移和放大特征信息,但放大特征信息的同时也放大了高频噪音,因此采用2阶导消除高频噪音,平滑能剔除噪声干扰。图2为处理后的正常叶片和缺素叶片的近红外代表性光谱图,可以看出两类叶片在5 273 cm-1处的吸光度明显不同,这可能是由于营养元素缺失导致。
图2 正常叶片和缺素叶片预处理后的近红外代表性光谱
在9 000~4 000 cm-1范围内,采用不同预处理方法及组合后数据分别建立可溶性糖定量分析模型,结果(表1)表明,对可溶性糖指标用不同的预处理方法,2阶+3+平滑+3+MSC组合的定量分析模型结果最好,相关系数RP最高为0.91,且均方根误差RMSEP最低为4.93。
表1 可溶性糖预处理分析结果
2.3 叶片近红外光谱有效波段筛选
2.3.1 连续投影算法(SPA)分析 连续投影算法(SPA)作为一种新式的、应用最广泛的特征波长筛选算法,可用于多种样品波长的选取,能有效降低模型的复杂度[15-16]。连续投影算法在光谱变量中寻求最低维数的向量组,使它们之间的共线性达到最小,从而起到提取特征波长的目的[17]。利用Matlab2010a软件运行SPA算法对柑桔叶片近红外光谱波段进行筛选,得到可溶性糖44个特征波长点为:4011、4027、4061、4100、4328、4343、4366、4389、4412、4443、4459、5138、5172、5195、5226、5265、5280、5303、5323、5342、5863、6954、7093、7105、7236、8208、8420、8536、8574、8624、8651、8663、8698、8721、8736、8782、8794、8833、8844、8883、8898、8917、8971、8987 nm。采用以上波长作为特征变量输入结合对应的真值建立模型进行进一步分析,用SPA筛选的波长点如图3所示。
图3 通过SPA选择可溶糖的特征波长
2.3.2 无信息变量消除算法(UVE) 无信息变量消除算法(UVE)是在偏最小二乘(PLS)回归模型的基础上,用来逐一剔除无光的信息变量,光谱λ与真值Y之间的线性关系为:
式中,βi是系数向量,b是误差向量,即把同维数的随机变量与光谱变量混合,通过交叉验证建立偏最小二乘回归模型,得到对应矩阵,结合系数向量βi进行分析,得到βi的平均值和标准偏差相除的商Ci来评价其稳定性,即:
式中,βi表示系数向量βi的平均值,S(βi)表示对应矩阵的标准偏差,根据Ci确定是否把对应的列向量用于PLS回归模型中[18-19]。
对柑桔叶片的建模集样本近红外特征波段进行UVE变量筛选,结果见图4,图4中以垂直实线为界限,左边为波长变量,右边为噪声变量;两条水平虚线为稳定性的上下阈值,处于两条虚线之间为无关信息变量,要剔除,而位于两虚线外侧的部分为有用信息变量,因此选择此波段,得到可溶性糖指标有效信息的波长点数为392个。
图4 通过UVE选择可溶糖的特征波长
利用SPA与UVE筛选波长点的两种方法中,SPA方法更优于UVE,得到的各个波长对应的吸收峰与官能团C-H、O-H、C=O等的关系以及倍频、合频、伸缩振动的方式,说明经过波长筛选后把无用信息变量都给予剔除,保留了主要或有用的吸收谱,可能是后一种方法中选择的波长点包含的有用信息较小,从而造成数量多。为了进一步验证方法效果,后续建立模型进行分析比较。
2.4 定量模型建立与验证
样品可溶性糖真值采集过程中有6片操作失误,研究中予以剔除,其中包括正常叶片3片、缺素叶片3片。可溶性糖模型将155个样品大概按3∶1的比例随机划分建模集和预测集,其中建模集样品116片、预测集样品39片。
首先在9 000~4 000 cm-1范围内分别结合LS-SVM和BPNN建立全光谱定量模型,从模型的效果上看并不理想,复杂程度较高。为了降低模型的复杂程度,提高精度的同时增强稳健性,在前面预处理的基础上,利用压缩和筛选两种方法选择输入变量,数据压缩选择主成分分析法对全光谱变量压缩为20个主成分,特征变量筛选利用前面提及的两种筛选方法,然后分别建立定量分析模型。
同时输入变量数量变化会对BPNN模型产生影响,为了进行循环考察,按照以下公式对隐含层的节点数进行估算:
式中,I为输入层节点数,从1开始循环;H为隐含层节点数;O为输出层节点数,这里取1。
4种方法中输入数量最小的是PCA,为了使模型更精确,输入取最低值17,从而估计得到的隐含层节点数为7,对样品从1~7进行训练,结果如表2所示。从表2可以得出,采用BPNN建立的定量模型中,其输入变量进行了优化,模型效果最好的是UVE筛选方法。虽然输入数量不是最低的,但相关系数Rp最大为0.88,预测集均方根误差RMSEP最小为6.09,对应的隐含层节点数为7;在选择RBF_kernel作为核函数、σ2和γ为参数的LS-SVM建立定量模型中,输入变量选择与前一种模型相同方法进行优化,模型效果最好的输入变量选择方法是PCA数据降维,虽然参数γ较大(57.88),但是模型运行时间t短仅为1.81 s,另一参数σ2最小为4.64,筛选的输入变量数也达到最小为前17个主成分,且相关系数Rp达到最高为0.91,预测集均方根误差最低为4.82,此时选择的最佳主成分因子数为5。
表2 可溶性糖定量模型验证结果
柑桔叶片可溶性糖指标经PCA压缩获得矩阵作为输入变量建立LS-SVM模型的预测集均方根误差图见图5,可以看出在PC为5时RMSEP达到最小。
柑桔叶片可溶性糖指标利用PCA方法选择输入变量建立的LS-SVM模型预测散点图见图6。从图6可以看出,该指标的实测值与预测值点呈45°分布,且二者之间无较大差异。
图5 经PCA压缩后可溶性糖LS-SVM模型的均方根误差
图6 经PCA压缩后可溶性糖LS-SVM预测模型的散点分布
3 结论与讨论
对上述两种柑桔叶片可溶性糖近红外检测非线性定量模型的输入变量进行优化后,输入变量数有明显的减少趋势。其中,采用主成分分析方法对LS-SVM定量模型的输入变量进行优化后效果更佳,这是因为输入变量数更小,同时有效保留了主要的特征信息,使得模型复杂程度大大降低。
采用近红外光谱技术对柑桔叶片可溶性糖这一理化指标进行定量检测,对柑桔叶片近红外光谱选择不同的预处理方法进行处理,模型的预测精度不一。结果发现模型效果最佳的预处理方法组合是2阶+3+平滑+3+MSC。采用不同输入特征变量筛选方法建立模型,进一步提高了模型的预测精度和稳健性,证实了输入变量优化对模型分析的重要性。本研究优势在于建立了叶片非线性模型对柑桔果树是否缺素进行预测。
本研究结果表明,合适的预处理方法能较好地消除基线漂移和噪音,在此基础上通过UVE、SPA和PCA等3种输入变量选择方法,都能在不同程度上减少建模所用的向量数,有利于模型优化。其中,PCA数据压缩的LS-SVM的模型效果更为理想,输入显著减少,既保留了柑桔叶片可溶性糖指标的有用信息,又有效降低了输入向量的维数,Rp和RMSEP也呈现出较佳的预测精度,实现了输入向量的优化目标,表明该方法可能适合本指标的定量检测,同时为准确、实时监测柑桔叶片可溶性糖指标含量变化以及科学优化近红外检测非线性模型提供了一定的参考依据。
[1]南旭军,赵保卫,马锋锋,等. 施加生物炭对植物营养元素的迁移转化和植物有效性的影响研究[J]. 环境科学与管理,2015,40(11):153-156.
[2]梅慧兰,邓小玲,洪添胜. 柑橘黄龙病高光谱早期鉴别及病情分级[J]. 农业工程学报,2014,30(9):140-148.
[3]Sankaran S,Maja J M,Buchanon S,et al. Huanglongbing(Citrus Greening) detection using Visible,Near Infrared and Thermal Imaging Techniques[J]. Sensors,2013,13:2117-2130.
[4]Pourreza A,Lee W S,Etxeberria E,et al. An evaluation of a vision-based sensor performance in Huanglongbing disease identification[J]. Biosystems Engineering,2015,130:13-22.
[5]Sankaran S,Ehsani R. Comparison of visiblenear infrared and mid-infrared spectroscopy for classification of Huanglongbing and Citrus Canker infected leaves[J]. Agric Eng Int:CIGR Journal,2013,15(3):75-80.
[6]Li X,Lee W S,Li M. Spectral difference analysis and airborne imaging classification for citrus greening infected trees[J]. Computers and Electronics in Agriculture,2012,83:32-46.
[7]马淏,吉海彦,Lee W S. 基于Vis-NIR光谱的柑橘叶片黄龙病检测及其光谱特性研究[J]. 光谱学与光谱分析,2014,34(10):2713-2718.
[8]李修华,李民赞,Lee W S,等. 柑桔黄龙病的可见-近红外光谱特征[J]. 光谱学与光谱分析,2014,34(6):1553-1559.
[9]温珍才,孙通,耿响,等. 可见/近红外联合UVE-PLS-LDA鉴别压榨和浸出山茶油[J].光谱学与光谱分析,2013,33(9):2354-2358.
[10]Sankaran S,Ehsani R. Visible-near infrared spectroscopy based Citrus greening detection:Evaluation of spectral feature extraction techniques[J]. Crop Protection,2011,30(11):1508-1513.
[11]高洪智,卢启鹏,丁海泉,等. 基于连续投影算法的土壤总氮近红外特征波长的选取[J]. 光谱学与光谱分析,2009,29(11):2951-2955.
[12]张利华,马钧钊,勒国庆,等. 基于BP神经网络的仓储烟草霉变预测[J]. 华东交通大学学报,2013,30(6):71-76.
[13]黄亚伟,王加华,李晓云,等. 基于近红外光谱的人参与西洋参的快速鉴别研究[J]. 光谱学与光谱分析,2010,30(11):2954-2957.
[14]Huang G Q,Han L J,Yang Z L,et al. Evaluation of the nutrient metal content in Chinese animal manure compost using Near Infrared Spectroscopy(NIRS)[J]. Bioresource Technology,2008,99(17):8164-8169.
[15]岳学军,全东平,洪添胜,等. 柑橘叶片叶绿素含量高光谱无损检测模[J]. 农业工程学报,2015,31(1):294-303.
[16]邓小玲,郑建宝,梅慧兰,等. 基于高光谱成像技术的柑橘黄龙病病情诊断及分类[J]. 西北农林科技大学学报(自然科学版),2013,7(41):99-106.
[17]张筱蕾,刘飞,聂鹏. 高光谱成像技术的油菜叶片氮含量及分布快速检测[J]. 光谱学与光谱分析,2014,34(9):2513-2518.
[18]吴迪,吴洪喜,蔡景波. 基于无信息变量消除法和连续投影算法的可见-近红外光谱技术白虾种分类方法研究[J]. 红外与毫米波学报,2009,28(6):23-427.
[19]陈斌,陈蛋. 无信息变量消除法在近红外光谱测定的应用[J]. 光谱仪器与分析,2005,24(4):26-30.
(责任编辑 张辉玲)
Study on NIR detection non-linear model of soluble sugar in citrus leaves
LIU Yan-de,XIAO Huai-chun,HAN Ru-bing,SUN Xu-dong,ZHU Dan-ning,ZENG Ti-wei,LI Ze-min
(School of Mechatronics Engineering,Eash China Jiaotong University,Nanchang 330013,China)
In order to supervise the nutrional elements of citrus leaves,the soluble sugars in the leaves of citrus were analyzed. Combined with back propagation neural network (BPNN) and least squares support vector machine(LS-SVM),quantitative analysis of the nonlinear model using near infrared spectroscopy was developed,at the same time,data were compressed using principal component analysis (PCA),the effective wavelength bands were screened by Uninformative variable elimination (UVE) algorithm and Successive projections algorithm (SPA). These methods were adopted to optimize the input variables of the model,which improved the detection accuracy. And spectra processing methods included Savitzke-Golay smoothing (S-G),multiple scatter correction (MSC),derivative and baseline correction (Baseline) and the combinations of these methods for data transformation,the best method for establishing models was determined. The MSC was adopted to eliminate baseline drift and amplify characteristic information,meanwhile amplify high frequency noise,which can be eliminated by 2th derivative. And smoothing was adopted to eliminate the interference noise and to make the spectrum smoother. It was concluded that the processing method was the best. The results showed that wavelength selection played an important role in optimization model,and improved the speed of computation. The effect of model optimization by the model PCAwas most obvious and the maximum of correlation coefficient (Rp) of soluble sugar reached 0.91,the minimum of the root mean square error of prediction (RMSEP) reached 4.82. The results showed that the model accuracy and robustness were significantly improved,the prediction model could meet the requirement of quantitative detection after optimizing the input variables. Therefore,the prediction model has certain feasibility.
soluble sugar;Near Infrared Spectroscopy (NIRS);band selection;optimization;pretreatment method
S682.2+64
A
1004-874X(2016)11-0043-07
2016-08-18
国家“863”计划项目(SS2012AA101306);江西省科技支撑计划项目(20121BBF60054);南方山地果园智能化管理技术与装备2011协同创新中心(赣教高字[2014]60号);江西省优势科技创新团队(20153BCB24002)
刘燕德(1967-),女,博士,教授,E-mail:jxliuyd@163.com
刘燕德,肖怀春,韩如冰,等.柑桔叶片可溶性糖近红外检测非线性模型研究[J].广东农业科学,2016,43(11):43-49.