基于Encoder-CNN的土壤氮含量光谱预测模型研究

2022-05-05冀荣华赵迎迎李民赞郑立华

光谱学与光谱分析 2022年5期

关键词：编码器波段光谱

冀荣华，赵迎迎，李民赞，郑立华*

1. 中国农业大学烟台研究院，山东烟台 264670

2. 中国农业大学现代精细农业系统集成研究教育部重点实验室，北京 100083

引言

精准获取土壤中的氮含量是实施各类农田水肥管理技术的基础。传统土壤氮含量化学测定方法，很难客观、全面地反映农田土壤养分含量实际分布状况。

利用光谱分析技术能够快速、高效检测土壤氮含量[1]。基于光谱的土壤氮含量预测相关研究主要集中在土壤光谱预处理、特征波长选取和预测模型构建三个方面。研究表明，对光谱数据进行预处理可使模型精度得到显著提高[3]。周鹏等[4]提出利用灰度关联方法进行特征提取，提高土壤氮含量预测精度。 Marcelo de Souza[5]针对多类型土壤构建多元回归模型进行土壤有机碳测定。 Li等[6]发现LS-SVM和PLSR模型具有一定稳定性。 Xu等[7]利用不同数据集建立土壤氮含量光谱预测模型，发现模型泛化能力有待提高。利用传统方法构建的预测模型泛化能力较弱，原因在于数据量有限，且模型非线性表达能力较弱。深度学习在特征自动提取和优秀的非线性表达方面的优势，使研究人员开始探索将深度学习算法应用于土壤养分预测[8]。有研究设计五种深度不同的CNN，发现7个卷积层的CNN网络对土壤有机碳的预测能力最强。 Zhang等[9]利用端到端深度学习方法进行土壤养分含量预测，发现模型可以从原始数据中学习到更为有效的特征。 Ng等[10]讨论训练样本大小对深度学习模型精度影响。 Tsakiridis等[11]建立一维卷积神经网络(CNN)，引入自适应纠错机制改进模型结构，提高模型预测精度。 Wang等[12]利用公共土壤光谱数据集(LUCAS)通过对比分析发现深度学习方法比传统的机器学习方法更有效、实用。

深度学习模型在特征自动提取和非线性表达方面的优势使其在土壤氮含量预测性能方面表现出色。但针对模型泛化能力方面的相关研究还有待加强。本工作通过融合多种深度学习模型，从模型结构设计、参数设置方面开展研究，提高模型泛化能力。

1 实验部分

1.1 数据集

首先利用公开数据集构建土壤氮含量光谱预测模型，再利用自采集数据集对模型迁移修订。其中公开数据集来自欧盟范围内开展的大型土壤数据集采集项目——土地利用及覆盖面积框架调查(land use and cover area frame survey， LUCAS)。 LUCAS在2020年11月公布采自28个欧盟成员国的21 782个表土样本(0～20 cm)的吸光光谱数据。样本采自农田、林地、灌木地、草地和荒地等地，涵盖灰化土、棕壤、荒漠土、草炭土和栗钙土等欧洲主要土壤类型。土壤样品经过40 ℃风干、去除杂质、研磨和过筛(孔径<2 mm)处理后，利用FOSS XDS光谱分析仪对其正反向扫描各一次，取两次扫描结果平均值作为样本的光谱数据。光谱波长范围400～2 500 nm，间隔0.5 nm，共4 200个波长。采用改进的凯氏定氮法测定样品氮含量，测定方法参见国际标准ISO 11261—1995。自采集数据集在中国黑龙江省胜利农场进行土壤样本采集及其吸光光谱和氮含量测定。胜利农场位于东经133°45′，北纬47°24′，占地45万亩，土壤类型为草炭土和黑土。在农场随机选取300个土壤采样点，用方形土壤采样器进行土壤样本采集。在每个土壤采样点垂直剖面深度为5， 10， 15和20 cm的位置处分别取2 cm厚度土壤样品，并混合装入一个取样袋，作为该采样点处的土壤样品。采用密闭避光包装，标记，带回实验室。将土样烘干研磨后进行20目过筛处理，利用自动定氮仪测定含氮量，测定方法参见农业部标准NY/T1121.24—2012。使用傅里叶变换近红外光谱分析仪(FTS， MATRIX_I型，布鲁克公司，德国)测定光谱。光谱测量范围为834～2 503 nm，间隔0.5～4.8 nm，每个样本光谱测量3次，每次扫描30 s，取平均值作为最终结果。每个土壤样本测得1 037个波长吸光度光谱数据。

按3σ原则对数据进行异常值检测与处理。 LUCAS数据集共20 791个数据样本，黑龙江数据集共300个数据样本。 LUCAS数据集中氮含量范围为0～14.10 g·kg-1，平均值2.39 g·kg-1；黑龙江数据集的氮含量范围为1～27.43 g·kg-1，平均值9.52 g·kg-1。

1.2 数据预处理

为消除量纲对模型的影响，对光谱数据和氮含量进行归一化处理，计算公式如式(1)所示

(1)

式(1)中，x和y分别为归一化前、后数据值； min和max分别为样本对同一波长的吸光度的最小(大)值或氮含量的最小(大)值。

以特征波长为模型输入。首先计算土壤样本原始光谱、一阶微分光谱和二阶微分光谱与氮含量的相关系数。图1(a)—(c)分别展示了自采集光谱数据相关分析结果。

图1 自采集光谱及其微分与土壤氮含量的相关性

选取相关系数绝对值大于0.6的波段为强相关波段，按两数据集强相关波段的最大交集选出强相关波段，统计结果如表1所示。

表1 光谱强相关波段

按照式(2)初步筛选出强相关波段作为敏感波段S。

S=(A′∪A″)∩A

(2)

式(2)中，A，A′和A″分别为利用原始光谱、一阶微分光谱和二阶微分光谱筛选出的强相关波段。

按强相关波段和文献中强相关波段[3-4]的最大交集筛选出四个波段作为特征波段，选取180个波长(见表2)作为模型输入。

表2 特征波段及模型输入波长选择

1.3 光谱数据降维处理

在保证模型精度的前提下，降低模型复杂度，利用自动编码器对特征波长进行降维处理。自动编码器由编码和解码两部分组成，结构如图2所示。

Design and Application of Remote Online Monitoring System for Transformer and Circuit Breaker CHEN Wenrui,CHEN Chuang,LIAO Xiaochun(132)

图2 自动编码器的基本结构

其中编码部分用于提取输入数据特征；解码部分用于复现数据。

1.4 基于Encoder-CNN的土壤氮含量光谱预测模型建立

融合自动编码器和卷积神经网络优势，提出基于Encoder-CNN的土壤氮含量光谱预测模型。模型以特征波长为输入，经过自动编码器进行波长降维，将编码输出作为卷积神经网络的输入，利用卷积神经网络进行土壤氮含量预测。卷积神经网络由卷积层、池化层和全连接层组成，网络结构示意如图3所示。

图3 CNN网络结构示意图

网络中加入批量归一化用于约束数据分布， Dropout处理用于防止模型过拟合。

1.5 预测模型训练参数及评价指标

LUCAS数据集中，训练集和测试集分别为18 711和2 080个样本。设置训练批次为256，迭代次数为80，损失函数为均方误差，激活函数为ReLU函数。初始学习率为0.001，每30 epoch(完整训练)下降为原来的1/10。采用均方根误差(RMSE)、决定系数(R2)和相对分析误差(RPD)评价模型性能，计算公式如式(3)—式(5)

(3)

(4)

(5)

2 结果与讨论

2.1 自动编码器结构对光谱降维影响

设计8种不同结构自动编码器用于土壤光谱数据降维。自动编码器复现效果好表明编码输出能够有效表达输入，复现效果如表3所示。

表3 不同自动编码器结构下光谱复现结果

研究中发现，隐含层数越多复现效果越好。选择AutoEnc7编码部分用于光谱数据降维。

2.2 卷积神经网络结构对模型性能的影响

表4 卷积层参数设置

模型利用相同数据集和参数(见1.5节)训练和测试，结果如表5所示。

可以看出，针对网络结构1而言，模型CNN-2预测性能、拟合效果和可靠性均较模型CNN-1有所提升。R2提高0.03， RMSE降低约0.1 g·kg-1， RPD提高约0.4。依据CNN-2设置，增加两个池化层形成网络结构2。结构2模型预测精度均在0.90以上，即增加池化层可高模型性能。对比CNN-3和CNN-4，发现增加全连接层神经元数量可改善模型性能。

2.3 预测模型泛化能力

利用自采集黑龙江黑土光谱数据集验证所建基于Encoder-CNN土壤氮含量光谱预测模型泛化能力，结果如表5所示。发现3个模型预测精度大于0.70，即模型具有一定的泛化能力。利用自采集数据集(270个样本作为训练集， 30个样本作为测试集)对模型CNN-3进行迁移学习。迭代次数从100变化到1 000，步长设为100，结果分别如图4(a)—(c)所示。观察图4(a)可以发现，当模型迭代100次后，预测精度可达到0.90以上。当迭代900次模型的预测精度可以达到0.98，其预测效果如图5所示。