光谱技术结合BiPLS-GA-SPA和ELM算法的生菜冠层氮素含量检测研究
2016-06-15高洪燕毛罕平张晓东
高洪燕,毛罕平,张晓东
江苏大学现代农业装备与技术教育部重点实验室,江苏 镇江 212013
光谱技术结合BiPLS-GA-SPA和ELM算法的生菜冠层氮素含量检测研究
高洪燕,毛罕平*,张晓东
江苏大学现代农业装备与技术教育部重点实验室,江苏 镇江 212013
氮素是影响生菜产量和品质的重要因素,光谱技术是检测作物氮素含量最有效的手段之一。通过获取不同氮素水平下生菜冠层的反射光谱,对其进行FDSGF(first-order derivative based savitzky-golay filt)滤波后,利用后向区间偏最小二乘算法(BiPLS)、遗传算法(GA)及连续投影算法(SPA)对特征波长进行梯度提取,最终从2 151个波长点中提取了8个与生菜氮素最为相关的特征波长。分别利用多元线性回归(MLR)、径向基函数神经网络(RBFNN)及极限学习机(ELM)三种算法建立了基于特征波段或特征波长的8个生菜冠层氮素含量检测模型。结果表明: BiPLS-GA-SPA-ELM模型(RMSEC=0.241 6%,Rc=0.934 6,RMSEP=0.284 2%,Rp=0.921 8)的预测结果优于其他模型,为指导合理施肥和开发便携式仪器提供了理论基础。
反射光谱; 后向区间偏最小二乘; 遗传算法; 连续投影算法; 径向基函数神经网络; 极限学习机
引 言
生菜是叶菜类蔬菜的典型代表,是无土栽培的主要作物。氮素是维持生菜生长、参与其各项生理活动所需的大量元素之一,是体内核酸、蛋白质、叶绿素等物质的组成部分[1]。Abdel-Rahman等[2]研究表明早期发现作物氮素缺乏并及时补充,可避免对作物生长产生不可逆的影响。光谱技术具有方便快速、环境友好、信息量丰富等优点,已成为检测作物营养最有效的技术之一[3-7]。光谱数据所含信息丰富,如何从众多波长中提取特征波长并建立高精度的检测模型是研究的两个重点方向[8]。
综合利用后向区间偏最小二乘(BiPLS)、遗传算法(GA)和连续投影算法(SPA)三种特征波长提取方法及多元线性回归(MLR)、径向基函数神经网络(RBFNN)和极限学习机(ELM)三种建模方法建立多个生菜冠层氮素含量检测模型。目前利用光谱技术结合以上算法对生菜冠层氮素进行定量检测的研究还未见报道,以期获得更为简单适用的检测模型。
1 实验部分
1.1 样本
供试材料为意大利半结球生菜。在生长到“五叶一心”时,将长势状况相似的穴盘苗定植到盆中。试验中采用营养液加珍珠岩的栽培模式,根据山崎营养液配方,将样本分为5个处理: 第1组在整个生长期按正常配方供应,第2,3,4和5组分别灌溉标准配方含氮量125%,75%,50%和25%的营养液,早晚各供液一次,以保证生菜始终在固定营养环境中生长,每个氮素处理26株,共130个样本。
1.2 光谱数据获取
为消除大气窗口、光强等对光谱的影响,试验在自制光箱中进行[9]。光谱测量设备采用FieldSpec○R3型手持便携式光谱分析仪,该仪器光谱测量范围350~2 500 nm,共采集2 151个波长点。光谱仪的视场角为25°,采集中保证探头垂直向下,确保视场覆盖整个冠层,试验前先进行标准白板标定,以消除环境因素引起的误差,每个样本采集五个光谱,以平均值作为一个采样光谱。
1.3 全氮含量测定
新鲜样本去根后烘干粉碎,利用凯氏定氮法测定全氮含量。测量仪器采用英国SEAL公司生产的Auto Analyzer 3型连续流动分析仪。结果以单位干重的百分比形式表示(%)。
2 结果与讨论
2.1 生菜冠层氮素含量分析
利用SPXY(sample set partitioning based on joint X-Y distances)算法将130个样本分成两组。SPXY算法同时计算了光谱反射率间及化学值间的欧氏距离,能有效覆盖多维向量空间[10]。经过SPXY算法划分出的校正集和预测集统计结果如表1所示。
Table 1 Nitrogen content in calibration set and prediction set
2.2 光谱数据预处理
光谱数据在采集过程中受到环境的影响,光谱曲线存在一定的噪声,采用FDSGF(first-order derivative based Savitzky-Golay filt)法对原始光谱进行滤波处理。经反复试验研究,发现五点两次S-G滤波效果最好,可去除随机噪声并提高信噪比,再结合一阶导数变换,可有效地消除基线漂移,旋转以及背景的干扰,提高了光谱的分辨率和灵敏度。图1为FDSGF处理后生菜冠层的反射光谱。
Fig.1 First-order derivative spectra of lettuce
2.3 特征波长提取
BiPLS是将光谱划分为一定数目的等长子区间,每次剔除一个信息量相对最差的区间,使得剩余区间对应的PLS模型最优,如此循环至剩余1个子区间[11]。在生菜冠层氮素特征子区间宽度不确定的情况下,为了使BiPLS能准确定位包含特征波长的子区间,需要对子区间划分数进行优化。将全光谱波段划分成10~40个子区间,图2为不同区间数下PLS模型所对应的最小交互验证均方根误差(RMSECV)。由图可知,当全光谱波段划分为24个子区间时,RMSECV最小。
Fig.2 Number of intervals optimized for BiPLS model
表2为24个子区间的建模过程,每个子区间包含89~90个变量,其中1~15子区间各包含90个变量,16~24子区间各包含89个变量。第一个被去除的子区间为24,所对应的波长为2 412~2 500 nm,从图1可以看出,虽然已进行平滑处理,但此波段范围所含噪声仍然较大,故第一个被去除。余下的23个子区间继续建模,此次去除的区间为23,以此类推,直至剩下一个子区间为止。由表2可知,开始时RMSECV随子区间数的减少而减少,但后来随子区间数的减少逐渐增加。当RMSECV最小时所建立的PLS模型最佳,此时RMSECV为0.374 4%,校正集相关系数(Rc)为0.834 6,主因子数为11,入选的子区间为2,4,7,3和6,对应的波段为440~529,620~709,890~979,530~619和800~889 nm,共含450个波长点。对预测集样本进行预测,预测均方根误差(RMSEP)为0.616 5%,预测集相关系数为(Rp)为0.781 9。
Table 2 The results of selecting the optimal intervals step by step
BiPLS算法从2151个光谱变量中筛选出450个,大大减少了变量数,但BiPLS算法优选的是五个区间范围,所以仍存在一定的冗余信息且相邻的变量间存在较强的相关性,故利用GA[12]进一步筛选变量。GA的参数设定为: 最大繁殖代数为100,交叉概率为0.5,变异概率为0.01。由于GA算法存在一定的随机性,故重复运算10次,以消除影响。
图3为各变量被选频率图,频数大于黑色实线的变量为入选变量,共筛选出变量50个。但被选变量中仍存在5个连续的变量区(红色标记区域)。由于SPA具有较强消除共线性能力[13],故利用SPA在GA的基础上,进一步提取与生菜冠层氮素最为相关的特征波长,提取结果如图4所示。
Fig.3 Frequency selected of each variable by the GA
Fig.4 Selected wavelengths using SPA
2.4 模型的建立
2.4.1 MLR
八个波长点的一阶导数光谱反射率分别定义为χ482,χ513,χ522等,生菜冠层的实测氮素含量定义为y,得到回归方程如下
y=3.5+2 418.3χ482-3 314.7χ513-
5 291.7χ522-8 556.6χ569+2 167.9χ641+
902.9χ691+247.5χ704-6 024χ821
氮素估计模型的F检验值为12.636 0,显著性水平为0.000 0,表明模型处于极显著水平。计算得到RMSEC为0.348 2%,Rc为0.867 1,RMSEP为0.497 1%,Rp为0.845 0。
2.4.2 RBFNN
RBFNN是用RBF作为“基”构成隐含层空间,隐含层将低维的输入矢量变换到高维空间,使线性不可分问题得到解决。利用Matlab软件中的newrbe()函数创建一个严格的径向基网络,其中径向基函数的扩展速度(spread)是影响RBFNN性能的关键。图5为spread范围在0.1~1时,BiPLS,BiPLS-GA和BiPLS-GA-SPA三种波长提取方法的RMSEC随spread的变化情况,当spread分别为0.4,0.5和0.5时,RMSEC值最小,此时网络性能最好。
Fig.5 Optimal spread selected according to RMSEC
将创建好的RBFNN网络对预测集样本进行测试,得到的结果如表3所示。
Table 3 The results of different RBFNN models
2.4.3 ELM
ELM[14-15]是Huang等由单隐含层前馈神经网络发展来的新算法。利用Matlab软件中的elmtrain()函数创建ELM模型,其中输入层与隐含层间的连接权值,隐含层神经元阈值为随机产生,且在训练过程中无需调整,隐含层神经元激活函数选用“Sigmoidal”。隐含层神经元个数是影响训练性能的关键因素,设置隐含层神经元数目初始化值为5,并以步长为5逐步增加到90(校正集样本数),图6显示了隐含层神经元个数对ELM性能的影响,当BiPLS,BiPLS-GA和BiPLS-GA-SPA三种特征提取方法所对应的隐含层神经元数分别为50,55和70时,RMSEC取得最小。
Fig.6 Number of hidden layer selected according to RMSEC
将创建好的ELM模型对预测集样本进行测试,得到的结果如表4所示。
Table 4 The results of different ELM models
2.5 模型对比分析
对比发现,不同模型预测结果有以下关系: BiPLS-GA-SPA-ELM>BiPLS-GA-SPA-RBFNN>BiPLS-GA-ELM>BiPLS-GA-RBFNN>BiPLS-GA-SPA-MLR>BiPLS-ELM>BiPLS-RBFNN>BiPLS。从以下两个方面解释此原因: 从特征提取角度考虑,由于BiPLS提取的是连续的特征波段,故波段中仍存在一定的冗余信息且相邻波长间存在较强的共线性,在GA运算后,大部分冗余信息已被去除,但仍存在五个连续的变量区且相邻变量间存在一定的共线性,而SPA算法最擅长的是消除变量间共线性,所以三种算法联合运用效果最佳。从建模方法考虑,当施氮量发生变化时,作物内部发生了复杂的化学变化,所以光谱特征与含氮量之间存在着非线性关系。因此研究得到非线性模型(ELM和RBFNN)的预测结果优于线性模型(MLR和PLS)。
3 结 论
采用三种特征提取算法和三种建模方法,共建立了八个生菜冠层氮素含量检测模型,结果表明: BiPLS-GA-SPA将2 151个光谱变量减少到8个,大大简化了模型的复杂程度,再结合ELM算法进一步提高了模型的准确性、稳定性和泛化性。
[1] Andrews M, Raven J A, Lea P J. Annals of Applied Biology, 2013, 163(2): 174.
[2] Abdel-Rahman E M, Ahmed F B, van den Berg M. International Journal of Applied Earth Observation and Geoinformation, 2010, 12: S52.
[3] Bell G E, Howell B M, Johnson G V, et al. HortScience, 2004, 39(5): 1130.
[4] TIAN Yong-chao, ZHU Yan, YAO Xia, et al(田永超, 朱 艳, 姚 霞, 等). Chinese Journal of Ecology(生态学杂志), 2007, 26(9): 1454.
[5] Miphokasap P, Honda K, Vaiphasa C, et al. Remote Sensing, 2012, 4(6): 1651.
[6] Ulissi V, Antonucci F, Benincasa P, et al. Sensors, 2011, 11(6): 6411.
[7] Bajwa S G, Mishra A R, Norman R J. Precision Agriculture, 2010, 11(5): 488.
[8] GUO Zhi-ming, HUANG Wen-qian, PENG Yan-kun, et al(郭志明, 黄文倩, 彭彦昆, 等). Chinese Journal of Analytical Chemistry(分析化学), 2014, 42(4): 513.
[9] ZHANG Xiao-dong, MAO Han-ping, NI Jun, et al(张晓东, 毛罕平, 倪 军, 等). Transactions of the Chinese Society for Agriculture Machinery(农业机械学报), 2009, 40(9): 164.
[10] Galvao R K H, Ara jo M C U, Jose G E, et al. Talanta, 2005, 67: 736.
[11] TAN Chao(谭 超). Transducer and Microsystem Technologes(传感器与微系统),2007, 26(5): 57.
[12] Leardi R, Lupiáez González A. Chemometrics and Intelligent Laboratory Systems, 1998, 41(2): 195.
[13] Araujo M C U, Saldanha T C B, Galvao R K H , et al. Chemometrics and Intelligent Laboratory Systems, 2001, 57: 65.
[14] Huang G B, Zhu Q Y, Siew C K. Neurocomputing, 2006, 70(1): 489.
[15] Huang G B, Wang D H, Lan Y. International Journal of Machine Learning and Cybernetics, 2011, 2(2): 107.
*Corresponding author
Measurement of Nitrogen Content in Lettuce Canopy Using Spectroscopy Combined with BiPLS-GA-SPA and ELM
GAO Hong-yan, MAO Han-ping*, ZHANG Xiao-dong
Key Laboratory of Modern Agricultural Equipment and Technology of Ministry of Education, Jiangsu University, Zhenjiang 212013, China
Nitrogen fertilizer is necessary to improve yield and quality of lettuce. Spectroscopy is one of the most effective techniques used to detect crop nitrogen content. In this study, canopy reflectance spectra were acquired under five levels of nitrogen, and then were Savitzky-Golay smoothed, the first-order derivative spectra were calculated from the smoothed spectra to eliminate noise effects. Backward interval partial least squares (BiPLS), genetic algorithm (GA) and successive projections algorithm (SPA) were combined to select the efficient wavelengths. The number of variables was decreased from 2 151 to 8. The optimal intervals or variables were used to build multivariable linear regression (MLR) model, radial basis function neural network (RBFNN) models and extreme learning machine (ELM) models. This work proved that the results of BiPLS-GA-SPA-ELM model was superior to others with RMSEC was 0.241 6%,Rcwas 0.934 6, RMSEP was 0.284 2% andRpwas 0.921 8. Our research results may provide a foundation for nutrition regulation and developing instrument.
Reflection spectra; Backward interval partial least squares; Genetic algorithm; Successive projections algorithm; Radial basis function neural network; Extreme learning machine
Aug. 31, 2014; accepted Dec. 5, 2014)
2014-08-31,
2014-12-05
国家自然科学基金重点项目(61233006),国家“十二五”科技支撑计划项目(2014BAD08B03),江苏省普通高校研究生科研创新计划项目(CXZZ13_0690),江苏高校优势学科建设工程资助项目(苏政办发[2014]37号)资助
高洪燕,1985年生,江苏大学农业装备工程学院博士研究生 e-mail: ghy06@126.com *通讯联系人 e-mail: maohp@ujs.edu.cn
S123,S127
A
10.3964/j.issn.1000-0593(2016)02-0491-05