APP下载

基于可见-近红外光谱变量选择的荒漠土壤全磷含量估测研究

2016-06-15杨爱霞丁建丽李艳红

光谱学与光谱分析 2016年3期
关键词:波长区间光谱

杨爱霞, 丁建丽*, 李艳红, 邓 凯

1. 新疆大学资源与环境科学学院, 新疆 乌鲁木齐 830046

2. 绿洲生态教育部重点实验室, 新疆 乌鲁木齐 830046

3. 新疆师范大学地理科学与旅游学院, 新疆 乌鲁木齐 830054

4. 自治区重点实验室“新疆干旱区湖泊环境与资源实验室”, 新疆 乌鲁木齐 830054

基于可见-近红外光谱变量选择的荒漠土壤全磷含量估测研究

杨爱霞1,2, 丁建丽1,2*, 李艳红3,4, 邓 凯1,2

1. 新疆大学资源与环境科学学院, 新疆 乌鲁木齐 830046

2. 绿洲生态教育部重点实验室, 新疆 乌鲁木齐 830046

3. 新疆师范大学地理科学与旅游学院, 新疆 乌鲁木齐 830054

4. 自治区重点实验室“新疆干旱区湖泊环境与资源实验室”, 新疆 乌鲁木齐 830054

以新疆艾比湖湿地保护区采集的300个荒漠土壤样品为研究对象, 利用ASD Field Spec○R3 HR光谱仪获取的土壤可见-近红外光谱数据以及化学分析获取的土壤全磷数据为数据源, 将原始光谱数据经过卷积平滑、 标准正态变量变换以及一阶微分预处理后, 采用蚁群-遗传结合区间偏最小二乘法提取荒漠土壤全磷含量特征波长, 构建土壤全磷含量偏最小二乘回归预测模型; 并与全谱偏最小二乘、 蚁群-区间偏最小二乘、 遗传-偏最小二乘模型进行比较。 结果表明: 经蚁群-区间偏最小二乘法筛选后, 荒漠土壤全磷特征波段为500~700, 1 101~1 300, 1 501~1 700, 1 901~2 100 nm; 进一步采用遗传-区间偏最小二乘法进行变量选择, 得到共线性最小的13个有效波长, 分别为: 1 621, 546, 1 259, 573, 1 572, 1 527, 564, 1 186, 1 988, 1 541, 2 024, 1 118和1 191 nm。 建模方法比较显示, 采用蚁群-遗传结合区间偏最小二乘法选择的特征变量, 建立的模型精度最高, 其次是遗传算法、 蚁群算法和全光谱。 蚁群-遗传结合区间偏最小二乘法建立的土壤全磷含量的模型, 效验证均方根误差RMSECV以及预测集均方根误差RMSEP分别为0.122和0.108 mg·g-1, 效验证相关系数Rc以及预测集的相关系数Rp分别为0.535 7, 0.555 9。 因此, 经过卷积平滑、 标准正态变量变换以及一阶微分预处理, 并利用蚁群-遗传结合区间偏最小二乘法建立的模型不仅简单, 而且具有较高的预测精度和较好的稳健性, 可以估算荒漠土壤全磷含量。

光谱学; 近红外光谱; 蚁群-遗传区间偏最小二乘法; 荒漠土壤全磷

引 言

土壤中的磷是植物生长所需和常见的限制性营养元素, 其含量的变化会影响氮、 碳循环在内的其他的营养元素的生物地球化学循环。 近年来, 人类活动的干扰已显著改变了磷元素的循环以及平衡。 因此, 估算土壤磷含量不仅有助于理解磷循环对陆地生态系统的影响, 也有助于评价全球气候变化和土地利用方式的变化对土壤磷元素的影响。

可见/近红外反射光谱分析方法以其快速、 高效和经济的优势, 越来越多的应用于土壤磷含量估测[1]。 但光谱仪测得的数据一般拥有数百乃至上千变量, 其中一部分变量, 包含与观测样品无关信息, 用这些变量建模, 干扰模型建立, 影响模型精度及可靠性[2]。 因此, 建模之前进行有效波长选取是必要的。 国内外学者对近红外光谱波长变量选择方法的研究很多, 如相关分析法[3]、 连续投影算法[4]、 无信息变量消除[5]、 无信息变量消除后结合连续投影[5]等方法。 近年来, 遗传算法(genetic algorithm, GA)结合区间偏最小二乘法(interval partial least squares, iPLS)、 蚁群算法(ant colony optimization, ACO)结合iPLS成为变量选择的研究热点[6], 二者基本原理不同, 但各有各的优点。 前者在解决组合优化问题显示出一定优越性[7], 但求解时间长, 容易出现停滞现象; 后者不易陷入局部最优, 但初始条件对遗传算法影响很大[8]。 所以, 本研究将蚁群-区间偏最小二乘法(ACO-iPLS)和遗传-区间偏最小二乘法(GA-iPLS)两者结合, 对土壤近红外光谱变量(波长)进行选择, 探索它们在寻找土壤全磷光谱相关波段特征信息的性能。

从新疆艾比湖湿地保护区采集300个土壤样本, 获取其室内可见/近红外反射光谱, 利用ACO-iPLS初步筛选一些特征光谱区间, 在此基础上再利用GA-iPLS在该区间里选择特征波长, 进行土壤全磷含量模型预测, 探求可用于预测干旱半干旱区荒漠土壤全磷含量的光谱预测方法。

1 实验部分

1.1 研究区概况

艾比湖湿地国家级自然保护区地处天山北麓, 准噶尔盆地西南部, 其南、 西、 北三面环山, 东部与木特塔尔沙漠相连, 地理坐标为82°36′—83°50′E, 44°30′—45°09′N, 总面积2 670.85 km2。 该区夏季降水稀少, 冬季寒冷, 年均潜在温8.3 ℃, 年均降水量90.9 mm, 年均蒸发量3 400 mm, 为典型的中温带干旱大陆性气候, 独特的自然地理因素决定了其生态环境极其脆弱、 对气候变化和人类活动的响应较为敏感。 由于该研究区位于丝绸之路经济带沿线, 保持其良好的生态环境, 对区域经济的稳定乃至丝绸之路经济带可持续发展, 均有着重要的意义。

1.2 土壤样品采集与处理

2012年5月份在新疆艾比湖湿地保护区鸭子湾、 鸟岛、 博河、 奎屯河附近采集300个土壤样品。 将采好的土样装入塑料袋中编号, 带回实验室内自然风干、 磨碎、 过2 mm筛。 磨碎后的样品分为两份, 一份用作全磷含量测定, 一份用作室内光谱测量。 全磷测定采用NaOH碱熔钼锑抗比色法。

1.3 光谱数据采集与处理

利用ASD FieldSpec○R3 HR光谱仪获取土壤光谱反射率数据, 波段范围为350~2 500 nm, 数据重采样间隔为1 nm, 因此每条光谱曲线包含有2 151个波长变量。 光谱测量在光源为50 W卤化灯, 探头视场角为25°的暗室内进行, 将300个土样装入直径12 cm和深1.8 cm的容器中, 装满后将土样表面刮平。 每个样品重复测10次, 取平均值作为该样品的光谱值。 去除光谱中噪声较大的波段(350~499 nm), 采用Savitzky-Golay平滑法以及SNV标准正态变量变换法然后再一阶微分的方法对样本的原始光谱数据进行预处理, 预处理后的光谱如图1所示。

Fig.1 Preprocessing VNIR spectra by SG+SNV and first-order differential transformation

1.4 校正集和预测集样品的划分

采用Kennard-Stone(K-S)算法划分校正集和预测集, 通过计算各个样品全磷含量值之间的欧氏距离, 选择最集中最具代表性的样品作为校正集。 经K-S划分出的校正集和预测集的全磷统计结果如表1所示。

Table 1 Descriptive statistics of soil total

1.5 光谱变量选择与建模方法

1.5.1 ACO-iPLS法

使用ACO-iPLS进行波长的选择, 把整个光谱划分为m个区间, 使用k只蚂蚁进行搜寻, 其搜索算法如下[9]:

1)参数初始化: 信息素向量τi初始化为1, 即所有变量被选择的概率相同

(1)

2)变量的选择概率: 随机从区间集合中选择一个区间, 对于时刻t, 假设光谱区间i的信息素强度为τi(t), 其轮盘转法的概率函数如下

(2)

3)目标函数选取: 使用PLS模型的预测精度RMSE作为蚁群算法的目标函数F

(3)

4)信息素的更新: 光谱区间i的信息素含量τi(t)更新如下

(4)

其中ρ为信息素衰减率, 为(0, 1)之间的常量。

最终, 迭代执行步骤2)—步骤4)中, 通过一定数量的迭代后, 所有蚂蚁会倾向于收敛到相同的光谱区间上, 从而得到最佳光谱区间。

1.5.2 GA-iPLS法

GA是一种优化算法, 基于达尔文的生物进化论: 适者生存和优胜劣汰, 模拟生物通过遗传来进行进化, 每一次进化都是选择最佳的遗传因子。 遗传算法计算步骤有选择、 交叉和变异三步, 经历这三步操作之后, 最终会收敛到最佳个体, 也就是选择最佳的波长。 类似于前面的ACO, 使用iPLS模型的预测精度作为GA的适应度函数。

1.5.3 蚁群-遗传-区间偏最小二乘(ACO-GA-iPLS)法

使用ACO-GA-iPLS筛选土壤光谱波长区间的具体步骤如图2所示。

Fig.2 Flowchart of feature wavelength selection algorithm

1.6 模型精度检验

采用交叉验证相关系数(Rc)、 交叉验证均方根误差(RMSECV)、 预测集相关系数(Rp)以及预测集均方根误差(RMSEP), 对土壤全磷含量估测模型进行精度评价。 模型Rc和Rp越高, RMSECV和RMSEP越小, 模型的预测性能和稳健性越强[10]。

2 结果与讨论

2.1 ACO-iPLS选择特征光谱区间

以2 001个(500~2 500 nm)变量作为选择对象, 划分为m=10个波长区间, 每连续的200个波长作为一个区间, 波长区间为: 500~700, 701~900, 901~1 100, 1 101~1 300, 1 301~1 500, 1 501~1 700, 1 701~2 000, 2 001~2 300, 2 301~2 500 nm。

ACO-iPLS 通过选择光谱子区间宽度、 蚂蚁数、 迭代次数、 PLS模型变量数来选择最佳光谱区间进行建模。 初始群体大小为50, 最大循环次数20次, 最大迭代次数50次, 变量选择概率阈值0.3, 显著性因子Q为0.01。 信息素衰减系数ρ直接影响蚁群算法收敛速度, 根据经验和文献的描述, 设定为0.53。 关于PLS模型, 最大变量数初始设定为15, 由于模型会自动计算一个最佳的变量数, 所以初始化可以设置较大的值, 最后预测均方根误差(RMSEP)最小对应一个最佳变量数。

如图3所示, ACO-iPLS算法在每个区间的均方根误差有四个局部极小值, 分别是第1子区间(500~700 nm); 第4子区间(1 101~1 300 nm); 第6子区间(1 501~1 700 nm); 第8子区间(1 901~2 100 nm)这4个子区间对应的iPLS的最大变量分别为: 3, 3, 3和4。 因此总的变量就设置为4。

Fig.3 RMSECV values and numbers of components in 10 intervals by ACO-iPLS

2.2 ACO-GA-iPLS选择特征波长

根据ACO-iPLS算法选择出的4个子光谱区间(图4所示)集合可建立土壤全磷预测模型, 但这4个子区间的光谱数量较多, 为了使最终选择的波长更少, 预测模型更为简单。 把ACO-iPLS选出的4个子区间合成一个区间L, 然后采用GA-iPLS算法进一步选择波长。 初始群体大小为30, 交叉概率pc为0.5, 变异概率pm为0.01, 迭代次数为100。 其每个波长的选择频率次数如图5所示, 绿线是波长选择的阈值, 如当前波长信号的频次大于该阈值, 阈值的选择如下: 把所有波长的RMSECV进行排序, 当连续两个波长的RMSECV没有显著的增加的时候, 就以当前的RMSECV对应的波长频次作为阈值, 经过GA-iPLS选择之后, 波长总数降低到13个, 这些特征波长为: 1 621, 546, 1 259, 573, 1 572, 1 527, 564, 1 186, 1 988, 1 541, 2 024, 1 118和1 191 nm。

Fig.4 Selected spectral interval by ACO-iPLS

Fig.5 Selected feature wavelengths by GA-PLS (a) and ACO-GA-iPLS (b)

2.3 四种模型对比

为了比较不同建模效果, 分别对全谱PLS, GA-PLS, ACO-iPLS, ACO-GA-iPLS进行建模, 结果如表2所示。 全谱PLS建模效果最差, 主要原因是波长范围太广, 有噪声波

长的干扰。 ACO-iPLS模型, 其精度比全谱高。 GA-PLS建模的精度最高, 因为GA算法能够求取全局最优解, 因此可以保证选择到最佳的波长, 但是选择的波长仍然上百, 达到160个, 计算时间久, 不便于分析。 相对而言, ACO-GA-iPLS所得到的预测模型最优, 变量数也最少, 只有13个, 主要原因是ACO算法能够同时在多个地方放置一只蚂蚁, 可以同时进行最佳路径的选择, 和iPLS算法结合起来, 划分不同的区间, 并通过多次选择和迭代, 蚂蚁会集中在最佳的光谱区间, 因此可以去掉相关性不高的区间, 然后再发挥遗传算法全局最优的特点, 进一步在ACO选择的区间内进行波长选择, 进一步缩小选择的范围, 因此在保证精度的同时, 减少了波长个数。

Table 2 Comparison of the results obtained

ACO-iPLS模型的预测结果如图6(b)所示, 预测值和实测值之间的相关系数为0.561 1, 其RMSECV为0.107 mg·g-1。 ACO-GA-iPLS最佳模型的预测结果如图6(d)所示, 校正集预测值和实测值之间的相关系数为0.555 9, 其RMSECV为0.108 mg·g-1。 可以发现, 经过GA-iPLS模型之后, ACO-GA-iPLS模型的相关性基本没有降低, 误差也基本没有增高, 但是总的波长数量从800降低到13个, 在保证精度的同时大大降低模型复杂度。

Fig.6 Comparison of the measured content and the values estimated by different models

3 结 论

以艾比湖土壤的全磷含量为研究指标, 在可见-近红外光谱范围内, 采用ACO-GA-iPLS法提取荒漠土壤全磷含量特征波长, 构建了土壤全磷含量区间偏最小二乘回归预测模型, 并与全谱PLS, ACO-iPLS, GA-iPLS进行比较。 主要结论如下:

(1)通过ACO-iPLS, 确定了荒漠土壤全磷的近红外光谱特征区间为500~700, 1 101~1 300, 1 501~1 700和1 901~2 100 nm。

(2)对于ACO-iPLS法确定的特征区间, 利用GA-iPLS法进一步选择特征波长, 最终从800个波长中选择了13个波长作为ACO-GA-iPLS建模变量, 这些波长主要有: 1 621, 546, 1 259, 573, 1 572, 1 527, 564, 1 186, 1 988, 1 541, 2 024, 1 118和1 191 nm。

(3)与全光谱偏PLS, ACO-iPLS模型和GA-PLS模型相比, ACO-GA-iPLS方法选择的波长数目最少, 且模型预测精度也较高, 其效验证相关系数Rc和预测集相关系数Rp分别为0.535 7和0.555 9, 效验证均方根误差RMSEC和预测集均方根误差RMSEP分别为0.122和0.108 mg·g-1。 研究结果表明, ACO-GA-iPLS方法确定的最优特征变量, 建立的土壤全磷区间偏最小二乘回归模型可以较好的估算荒漠土壤全磷含量。

[1] XUE Li-hong, ZHOU Ding-hao, LI Ying, et al(薛利红, 周鼎浩, 李 颖, 等). Acta Pedologica Sinica(土壤学报), 2014, 51(5): 993.

[2] CHEN Xin, LIU Fei(陈 鑫, 刘 飞). Chinese Journal of Analysis Laboratory(分析试验室), 2013, 32(10): 50.

[3] ZHOU Ding-hao, XUE Li-hong, LI Ying, et al(周鼎浩, 薛利红, 李 颖, 等). Soils(土壤), 2014, 46(1): 47.

[4] SHEN Zhang-quan, LU Bi-hui, SHAN Ying-jie, et al(沈掌泉, 卢必慧, 单英杰, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2013, 33(7): 1775.

[5] YANG Mei-hua, ZHAO Xiao-min, FANG Qian(杨梅花, 赵小敏, 方 倩, 等). Agricultural Sciences in China(中国农业科学), 2014, 47(12): 2374.

[6] LI Yan-xiao, HUANG Xiao-wei, ZOU Xiao-bo, et al(李艳肖, 黄晓玮, 邹小波, 等). Journal of Food Safety & Quality(食品安全质量检测学报), 2014, 5(6): 1679.

[7] YANG Meng, SONG Jian-she, CAO Ji-ping, et al(杨 檬, 宋建社, 曹继平, 等). Computer Simulation(计算机仿真), 2009, (6): 200.

[8] Allegrini F, Olivieri A C. Analytica Chimica Acta, 2011, 699(1): 18.

[9] GUO Zhi-ming, HUANG Wen-qian, PENG Yan-kun, et al(郭志明, 黄文倩, 彭彦昆, 等). Chinese Journal of Analytical Chemistry(分析化学), 2014, 42(4): 513.

[10] ZHOU Zhu, LI Xiao-yu, GAO Hai-long(周 竹, 李小昱, 高海龙). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2012, 43(2): 128.

*Corresponding author

Study on Estimation of Deserts Soil Total Phosphorus Content by Vis-NIR Spectra with Variable Selection

YANG Ai-xia1,2, DING Jian-li1,2*, LI Yan-hong3,4, DENG Kai1,2

1. College of Resource and Environment Sciences, Xinjiang University, Urumqi 830046, China

2. Key Laboratory of Oasis Ecology (Xinjiang University) Ministry of Education, Urumqi 830046, China

3. College of Geographical Sciences and Tourism, Xinjiang Normal University, Urumqi 830054, China

4. “Xinjiang Arid Area Lakes Environment and Resources Laboratory” (A Key Laboratory of Xinjiang Uygur Autonomous Region), Xinjiang Normal University, Urumqi 830054, China

In this paper, 300 samples of desert soil collected in the Ebinur Lake Wetland Nature Reserve of Xinjiang were used as the research subject, and the visible/near-infrared spectra data about the soil obtained with the ASD Field Spec○R3 HR spectrometer and the data about total phosphorus in the soil obtained through chemical analysis were used as the data sources; following Savizky-Golay smoothing, standard normal variation transformation and the first-order differential pretreatment, the combination of ant colony optimization interval partial least squares (ACO-iPLS) and genetic algorithm interval partial least squares (GA-iPLS) were employed to extract the characteristic wavelengths of the total phosphorus content in desert soil, before the partial least squares regression model for predicting the total-phosphorus content in soil was constructed; and this model was compared with the full-spectrum partial least squares model, ACO-iPLS and GA-iPLS. According to the results: through filtering with ACO-iPLS, the total-phosphorus characteristic wavebands in the desert soil were 500~700, 1 101~1 300, 1 501~1 700, and 1 901~2 100 nm; through further variable selection with GA-iPLS, 13 effective wavelengths with the minimum colinearity were selected, which were respectively: 1 621, 546, 1 259, 573, 1 572, 1 527, 564, 1 186, 1 988, 1 541, 2 024, 1 118, and 1 191 nm. According to the comparison of modeling methods, the most accurate model was the one based on the characteristic variables selected with the combination of ACO-iPLS and GA-iPLS, followed by the ones with genetic algorithm, ant colony optimization algorithm and the full spectrum method. For the total phosphorus content in soil model established with the combination of ACO-iPLS and GA-iPLS, the root mean square error of cross validation (RMSECV) and the root mean square error of prediction (RMSEP) were respectively 0.122 and 0.108 mg·g-1, and the related coefficient for cross validation (Rc) and the related coefficient for prediction (Rp) were 0.535 7 and 0.555 9, respectively. Therefore, it can be seen that the model constructed through Savizky-Golay smoothing, standard normal variation transformation and the first-order differential pretreatment and by using the combination of ACO-iPLS and GA-iPLS has simple structure, high prediction accuracy and good robustness, and can be used for estimating the total phosphorus content in desert soil.

Spectroscopy; Vis-nir spectra; Aco-ga-ipls; Deserts soil total phosphorus content

Jun. 3, 2015; accepted Oct. 22, 2015)

2015-06-03,

2015-10-22

新疆维吾尔自治区青年科技创新人才培养工程(2013711014), 国家自然科学基金项目(U1303381, 41261090, 41130531, 41161063, 41171036),教育部新世纪优秀人才支持计划项目(NCET 12 1075), 霍英东青年教师基金项目(121018), 教育部长江学者计划创新团队计划项目(IRT1180), 新疆维吾尔自治区科技计划项目(201433115),新疆大学优秀博士研究生创新项目(XJUBSCX 2012026)资助

杨爱霞, 1985年生, 新疆大学资源与环境科学学院博士研究生 e-mail: yangaixia0310@126.com *通讯联系人 e-mail: watarid@xju.edu.cn

S152, S158

A

10.3964/j.issn.1000-0593(2016)03-0691-06

猜你喜欢

波长区间光谱
你学会“区间测速”了吗
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
全球经济将继续处于低速增长区间
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
区间对象族的可镇定性分析
星载近红外高光谱CO2遥感进展
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量
多波长测定法在鳖甲煎丸提取物检测中的应用