基于热裂解和电子鼻的土壤全氮检测方法及特征优化

2021-03-17李名伟夏晓蒙朱庆辉黄东岩

农业工程学报 2021年24期

李名伟，夏晓蒙，朱庆辉，刘鹤，黄东岩，王刚

李名伟，夏晓蒙，朱庆辉，刘鹤，黄东岩※，王刚

（1. 吉林大学生物与农业工程学院，长春 130022；2. 吉林大学工程仿生教育部重点实验室，长春 130022）

土壤氮是作物生长发育所必需的营养元素，也是衡量土壤肥力特征的重要指标。为快捷准确测定土壤全氮含量，该研究提出了一种基于热裂解和电子鼻的土壤全氮含量检测方法。采用10种不同类型的气体传感器构建传感器阵列，并对其进行了不同浓度甲烷、氯乙烯和氨气等标准气体的响应测试试验。使用马弗炉裂解土壤样本得到裂解气体，采用气体传感器阵列检测裂解气体的响应曲线。提取响应曲线的平均值（mean）、方差值（vav）、最大梯度值（mgv）、最大值（max）、响应面积值（rav）、第8秒的瞬态值（8）和平均微分系数（mdc）7个特征构建121×10×7（121为土壤样本，10为传感器数量，7为特征）的特征空间，采用GA-BP特征优化方法将特征降至33维，形成121×33的特征空间。GA-BP算法优化结果表明，构建的传感器阵列对该文检测方法无冗余影响，其中传感器TGS826、TGS2603、TGS2611和TGS2600对新特征空间的构建贡献最大，特征mean、mgv、rav、8和mdc是反映该文检测方法与土壤全氮含量内在关系的重要特征。采用反向传播神经网络算法（BPNN）、偏最小二乘回归算法（PLSR）和反向传播神经网络与偏最小二乘回归结合算法（PLSR-BPNN）建立特征空间与土壤全氮含量的预测模型，使用决定系数（2）、均方根误差（RMSE）和相对分析误差（RPD）作为模型性能指标。建模结果表明，PLSR、BPNN和PLSR-BPNN模型的2分别为0.91、0.81和0.93，RMSE分别为0.25、0.37和0.22，RPD分别为3.24、2.19和3.79，PLSR-BPNN模型拥有最高的2和RPD，最小的RMSE。结果表明，土壤热解气体与土壤全氮含量之间存在较高的相关性，采用该文检测方法建立的PLSR-BPNN模型可以实现土壤全氮含量的准确预测。

土壤；全氮；传感器；热裂解；电子鼻；特征优化；模式识别

0 引言

土壤是植物养分的主要来源，是作物生长发育的重要影响因素[1]。土壤养分的含量决定了作物的生长状况，而土壤氮元素是土壤养分的重要组成部分，是决定作物营养水平的关键因素，影响着作物的生长情况、作物品质以及产量[2-3]。根据土壤氮的丰缺程度进行科学施肥，是作物优质高产的基础[4]。然而，为了获得高产，盲目高剂量施肥，导致肥料分配不均、利用率低，不仅造成经济损失，还会严重污染环境[5]。因此，准确、快速、低成本地获取土壤氮素含量及其变化，对促进精准农业发展，保护自然生态环境均具有重要意义。

测定土壤全氮含量的化学方法，如凯氏定氮法和杜马斯燃烧定氮法，虽然可以精确测量土壤中的全氮含量，但存在费工费时、所用试剂有腐蚀性等不足[6-7]。近红外光谱技术因为快速、无污染和无损等优势，被广泛应用于土壤全氮含量测定[8-11]。然而，土壤全氮的近红外光谱测定方法受土壤质地、土壤水分和氧化铁等因素的影响[12-13]。热裂解气相色谱质谱联用技术（Pyrolysis gas chromatography-mass spectrometry，Py-GC/MS）具有快速、灵敏、需样量少等优点，被广泛应用于聚合物科学、微生物学、生物工程及地球化学等领域[14-17]。Becker等[18]利用Py-GC/MS技术对乞力马扎罗山沿3 400 m海拔样带的火山土中有机质的构成进行了详细分析。陈秋宇等[19]采用Py-GC/MS研究高寒草原土壤有机质的指纹差异，将热解产物进行定性定量分析，并分为：芳烃、烷基类化合物、含氮化合物等。Py-GC/MS技术可以准确且定性定量的分析出土壤所含的各种养分，但存在设备购置成本高、需要专业人员操作、不能专用于检测土壤全氮和耗时费工等缺点，难以实现大批土壤样本全氮含量的快速测量。

电子鼻是由选择性的气体传感器阵列和适当的模式识别算法组成的电子仪器，可以实现对简单和复杂气味的识别，已被广泛应用于环境质量检测、医疗分析和食品安全检测等领域[20-24]。电子鼻在土壤中的应用主要集中于土壤特性和土壤有机质检测等方面。Lavanya等[25]利用电子鼻对土壤中黄腐酸和腐殖酸的芳香度进行测定，实现了对两种成分的检测。Bieganowski等[26]研究了土壤的含水率对电子鼻信号的影响，利用电子鼻实现了土壤水分的评估。Zhu等[27-28]利用人工嗅觉系统实现了土壤有机质含量检测，构建了偏最小二乘回归算法（Partial Least Squares Regression，PLSR）、反向传播神经网络算法（Back Propagation Neural Network，BPNN）和支持向量回归（Support Vector Regression，SVR）3种模型，预测性能最高的SVR模型2为0.91。

综上所述，该研究提出了一种基于热裂解和电子鼻的土壤全氮含量检测方法。利用热裂解技术实现少量土壤样本的快速裂解，使其产生大量裂解气体，将裂解气体通入气体传感器阵列中得到传感器响应曲线。提取响应曲线的平均值、方差值、最大梯度值、最大值、响应面积值、第8秒的瞬态值和平均微分系数7个特征构建电子鼻特征空间，采用GA-BP神经网络算法（Genetic Algorithm - Back Propagation neural network）将特征空间进行优化降维，得到最优特征组成电子鼻特征空间。最后，采用BPNN、PLSR和PLSR-BPNN算法（Partial Least Squares Regression - Back Propagation Neural Network）建立新特征空间与土壤全氮含量的预测模型，从而利用热裂解和电子鼻技术实现对土壤全氮含量的快捷、准确和低成本检测。

1 材料与方法

1.1 研究区域与土壤取样

研究区域位于吉林省，属于东北地区中部，与俄罗斯、朝鲜接壤，地处东北亚地理中心位置。为使采集的土壤样本尽可能反映出吉林省不同地区土壤全氮的变化，分别在研究区域的121个采样点各采集土壤样本1份，如图1所示。采样点选择耕地、林地等土壤类型特征明显，地形相对平坦、植被覆盖良好的地点，远离坡脚、洼地、田边、城镇和公路等。

由于土壤的不均一性，导致相同地块土壤全氮含量也不尽相同，为尽可能得到土壤样本在原位的实际状态，每个采样点按照S形路线采集16份土壤样本，采集0～20 cm的浅层土壤。将采集的16份土样搅拌混合，除去动植物残体、石块等，每个采样点按照四分法保留1 kg土样。依据试验实际的需要，将土样置于室内通风阴干后，用木棍研细并使之通过1 mm（18目）的筛网。将处理完的土样分为两份，分别用于凯氏定氮法和该文检测法测定土壤样本全氮含量[29-30]。

1.2 电子鼻系统试验方法

该研究所采用装置为基于热裂解和电子鼻的土壤全氮含量检测系统，如图2所示。该系统由热裂解炉、裂解室（由真空法兰和石英管组成）、气体传感器阵列（安装在封闭的反应室）、信号处理电路、NI数据采集卡、笔记本电脑、PWM调速模块和真空泵组成。

热裂解炉采用Thermo Fisher Scientific公司生产的Lindberg/Blue M Mini-Mite管式炉，用于裂解土壤样本。石英舟用于盛放土壤样本被放置在石英管中央，真空法兰和石英管组成裂解室，使土壤样本在密封状态下完成裂解。气体传感器阵列是电子鼻系统的核心组成部分，可以对土壤的裂解气体产生特异性响应。根据土壤裂解后的产物[18-19]，选择了费加罗公司生产的10种氧化物半导体式气体传感器组成传感器阵列，其具体名称和参数如表1所示。信号转换电路可以为气体传感器阵列供电，并将传感器产生的电阻信号转换成电压信号。数据采集卡为国家仪器（National Instruments，NI）公司生产的多功能I/O设备USB-6210，通过杜邦线与信号转换电路连接，实现对传感器数据的采集，并将采集的数据通过USB数据线传输至电脑的LabVIEW检测程序中显示、存储。采用真空泵实现整个系统的气路循环，并通过PWM调速模块调节真空泵的流速。

表1 气体传感器型号及参数

系统工作时，称取2 g土壤样本放入石英舟中，并将其置入裂解室的中央位置，关闭真空法兰，使裂解室处于密封状态，设置裂解温度为400 ℃，裂解时间为3 min，开始土壤样本的裂解。裂解室、反应室和真空泵通过橡胶管连接，形成密闭的气路。裂解完成后，启动LabVIEW检测程序，打开真空法兰，开启并设置真空泵的流量为1 L/min，使裂解室内的裂解气体进入装有传感器阵列的反应室，传感器阵列采集裂解气体的响应数据，时间为60 s，采集频率为10 Hz。数据采集完成后，取下真空法兰两端的橡胶管，打开热裂解炉，取出石英管和石英舟并将其清洗和干燥；开启并设置真空泵的流量为3 L/min，用洁净的空气清洗反应室和联通管道，清洗时间为2 min，完成一次土壤样本数据的采集，其余样本数据的采集重复上述过程。

1.3 气体传感器阵列响应测试

基于热裂解和电子鼻的土壤全氮含量检测系统搭建完成后，为测试气体传感器阵列对不同气体的响应状况，该研究进行了传感器阵列响应测试试验。试验装置由多种标准气体、气体传感器阵列、信号处理电路、NI数据采集卡和笔记本电脑组成，如图3所示，标准气体的类型和参数如表2所示。

表2 标准气体类型及参数

测试时，启动笔记本电脑中编写的LabVIEW程序，通过NI数据采集卡获得气体传感器阵列在洁净空气中的响应曲线，采集时间为10 s；然后，打开标准气体的阀门，使标准气体以1 L/min的流速通入安装传感器阵列的反应室，通气时间为20 s；接着，将反应室用止气夹密封，采集3 min；最后，以2.50 L/min的流速用真空泵抽取干净的空气清洗反应室中标准气体残留，时间为1 min，完成一次气体传感器阵列响应测试，每种标准气体进行3次测试试验，取平均值。

1.4 特征选择

从传感器阵列的响应曲线中提取合适的特征，有利于建立泛化能力强、决定系数高的预测关系模型。该研究提取平均值（Mean value，mean）、方差值（Variance value，vav）、最大梯度值（Maximun gradient value，mgv）、最大值（Maximum value，max）、响应面积值（Response area value，rav）、第8秒的瞬态值（8）和平均微分系数（Mean differential coefficient value，mdc），这7个特征构建特征空间，特征空间包含了传感器阵列响应数据的瞬态值、稳定值、离散度、总体强度和变化速率等信息，能够表征气体传感器的响应曲线。

1）平均值（mean）。平均值是气体传感器所有响应数据的平均，反映了该气体传感器对裂解气体的平均响应特征。

式中X为传感器数据的第个数据，为传感器数据中最大值所对应的时间，为传感器数据的总数量。

2）方差值（vav）。方差用来计算每一个变量与总体均数之间的差异，用方差值来表示不同传感器响应的离散程度。

3）最大梯度值（mgv）。最大梯度值为气体传感器响应的最大值与初始值的斜率，可以表示响应信号变化的快慢。

式中imax为传感器数据中的最大值，0为传感器数据的初始值。

4）最大值（max）。最大值是传感器响应强度大小最直观的体现。

5）响应面积值（rav）。响应面积值是气体传感器响应曲线与采集时间的面积，反映了该气体传感器对裂解气体的总体响应结果。

6）第8秒的瞬态值（8）。瞬态值表达了传感器对不同裂解气体的不同瞬态行为，包含了比稳态更多的可用信息。土壤裂解气体在传感器阵列的响应是先快速上升，然后慢慢趋近于稳定。快速上升时间主要为前15 s，传感器响应强度区别最大的是第8秒的瞬态响应值，所以选择8作为特征。

7）平均微分系数（mdc）。平均微分系数可以全面反映传感器动态响应过程的整体信息，体现了气体传感器对裂解气体响应的重要信息。

式中X1为传感器数据的第1个数据。

该研究共采集了121份土壤样本，传感器阵列由10个气体传感器组成，提取每个传感器响应曲线的7个特征，因此，组合成一个121×10×7的电子鼻特征空间。各特征与特征编号的对应关系如表3所示。

表3 各特征与特征编号的对应关系

由于提取的特征量纲不同，会造成数量级大的特征在建模中所占比重较大，不利于构建精准的预测模型。为消除数量级、量纲对建模的影响，该研究采用-score标准化方法对提取的特征进行归一化处理。

1.5 GA-BP特征优化

遗传算法是模拟达尔文生物进化论中自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。首先，根据实际需求产生初始种群，利用适用度表明个体的优劣性，然后从群体中选择优良个体，通过交叉、突变实现“适者生存”的自然选择，产生比以前更适应环境的新种群，直到满足一定的终止条件，得出最优选择。为了除去冗余信息、分析出各个传感器对电子鼻系统的贡献度，该研究采用GA-BP神经网络算法进行特征优化、降维。具体的过程如图4所示

图4中，灰色矩形框中为神经网络算法部分。首先，创建一个种群大小为50，个体长度为70（传感器提取的特征10×7）的随机种群。然后，对个体的染色体进行二进制编码，使每条染色体上的每个位点基因对应一个特征载体。在每个基因中，“1”表示特征参与BPNN建模，“0”表示不参与建模。

选取遗传个体对应的特征，用于BPNN模型。利用训练集对模型进行训练，以误差平方和的倒数作为适应度函数进行验证。适应度较高的个体遗传到下一代的概率相对较大。适应度函数为

1.6 训练集与测试集划分

为建立一个可以精准预测土壤全氮含量的模型，需要将归一化处理的电子鼻特征空间划分为训练集和测试集两部分，训练集用来拟合数据样本，训练模型的参数，减少模型的泛化误差，使模型能够具有较高的可靠性，进而实现预测未知土壤样本的能力；而测试集用以预测未知土样的全氮含量，并借助不同的评价指标评估模型的预测性能。该研究为划分出合理的训练集和测试集，采用Kennard-Stone方法将训练集和测试集设置为7∶3。

2 模式识别算法

为提高该研究检测方法的检测性能，采用PLSR、BPNN和PLSR-BPNN三种算法建立电子鼻特征空间与土壤全氮含量之间的预测关系模型，以找出最优的土壤全氮含量预测模型。

2.1 PLSR模型

偏最小二乘回归分析方法是一种将主成分分析、多元线性分析和典型相关分析结合在一起的多变量回归分析方法。PLSR与最小二乘法相比，具有可实现数据降维、信息整合和提取对模型有最佳解释信息的主成分等优点，可有效精简裂解气体响应曲线的自变量和去除冗余噪声，筛选出对土壤全氮含量解释性最佳的综合变量；与主成分分析法相比，克服了其对自变量解释较强，因变量解释不足的问题[31-32]。PLSR模型预测精度主要受主成分因子（Principal Component Factor，PCF）数量的影响，合适的PCF数量可有效利用气体传感器阵列的信息和滤除噪声，也可有效提高模型的泛化能力。该研究采用留一交叉验证法确定模型中PCF的数量，并通过交叉验证均方根误差（Root Mean Square Error of Cross-Validation，RMSECV）来评估PCF的数量对PLSR模型预测性能的影响。

2.2 BPNN模型

反向传播神经网络算法是一种典型的多层前向型神经网络，由输入层、隐含层和输出层组成，主要应用于有导师学习的回归预测和分类。输入层由数据中提取的特征组成，隐含层中的神经元多采用S型传递函数，输出层的神经元多采用线性传递函数。BPNN的精髓是将网络输出与期望输出之间的误差归为权值和阈值的“过错”，通过反向传播把误差“分摊”给各个神经元的权值和阈值，其指导思想是权值和阈值的调整要沿着误差函数下降最快的方向（负梯度方向）。隐含层神经元个数对BPNN模型的预测性能影响较大，过少或过多的隐含层神经元个数直接导致BPNN模型出现欠拟合和过拟合现象，因此需要选择合适的隐含层神经元个数。目前没有精确的公式计算隐含层的神经元数目，但可以根据经验公式来确定其范围

2.3 PLSR-BPNN模型

土壤裂解气体与土壤全氮含量的相互关系复杂，电子鼻特征空间与土壤全氮含量之间存在线性和非线性的内在联系。若将PLSR模型的线性回归能力和BPNN模型的非线性映射能力结合起来组成PLSR-BPNN模型，可充分利用2种算法的优点，以提高该研究检测方法的预测性能。该文采用并联方式将PLSR和BPNN模型组合在一起，分别对2种模型进行建模，将得到的预测结果加权组合，并通过模型有效度得到合适的加权系数，最终实现PLSR-BPNN模型的建立和检测数据的输出，如图 5所示。

2.4 模型评价指标

为了评估土壤全氮含量预测模型的性能和可靠性，该研究采用均方根误差（Root Mean Square Error，RMSE）、决定系数（2）和相对分析误差（Residual Prediction Deviation，RPD）作为模型预测性能的评价指标。RMSE是模型预测值和实际值之间误差，RMSE越小，表明模型的预测性能越好。2用以表示模型的预测准确性，其范围为0～1，2越接近1表明模型的准确性和拟合效果越好。RPD是样本标准差与均方根误差的比，用以进一步衡量建立模型的预测性能。当RPD≥2.50时，表明模型具有极好的定量预测能力；当2≤RPD<2.50时，表明模型具有较好的定量预测能力；当1.40≤RPD<2时，表明模型可粗略估算样品含量；当RPD<1.40时，表明模型无法对样品含量进行预测。

3 结果与分析

3.1 凯氏定氮法测量结果

采用凯氏定氮法测量121个土壤样本的全氮含量，结果如表4所示，采用Kennard-Stone方法设置训练集和测试集之比为7∶3，即训练集和测试集各有85和36个样本。在训练集中，土壤全氮含量为0.20～3.95 g/kg，平均值为1.54 g/kg，标准差为0.68 g/kg，变异系数为44.05%，偏度为1.01 g/kg，峰度为2.00 g/kg；而测试集中，土壤全氮含量为0.35～4.10 g/kg，平均值为1.70 g/kg，标准差为0.82 g/kg，变异系数为48.12%，偏度为1.36 g/kg，峰度为2.43 g/kg。研究区域中采集的土壤全氮含量和样本变异系数变化趋势较大，有利于提高模型的预测能力[34]。测试集中土壤全氮含量的范围完全覆盖了训练集中土壤全氮含量的范围，有利于提高模型的泛化能力。

3.2 气体传感器阵列响应测试结果

3.2.1 甲烷响应测试结果

该研究按照1.3节试验方法进行了气体传感器阵列的响应测试试验，得到图6不同浓度甲烷对传感器阵列影响的曲线。图6中，甲烷几乎不能使传感器S1、S2和S5产生任何响应，传感器S6响应曲线呈下降趋势，且不同浓度甲烷对其响应的影响不明显；其余传感器皆对不同浓度的甲烷气体有明显响应，且随着甲烷浓度的增加，传感器的响应曲线呈明显上升趋势。

表4 土壤样本的全氮含量及分析

3.2.2 氯乙烯响应测试结果

不同浓度氯乙烯对传感器阵列影响，如图7所示。图7中，传感器S5对氯乙烯气体没有响应，其余传感器对氯乙烯响应明显，且随着氯乙烯浓度依次增大，传感器相应强度也依次增大，传感器的响应时间明显缩短，可以更快达到稳定状态。

3.2.3 氨气响应测试结果

图8为传感器阵列对两种浓度氨气的响应曲线。从图8中可以看出，传感器S10对氨气几乎没有响应，低浓度氨气几乎不能使传感器S5产生响应，但随着氨气浓度的增加，传感器响产生较明显的响应；其余传感器对氨气均有响应，且随着氨气浓度的增大，传感器的响应强度明显增强。

从气体传感器阵列对不同浓度、种类标准气体的测试试验中可以看出，甲烷不能使传感器TGS826、TGS2602产生响应，传感器TGS821只对高浓度氨气响应，传感器TGS2612对氨气几乎没有响应。其余传感器对不同浓度的氯乙烯、氨气皆有响应且响应结果不同，且随着标准气体浓度的增大传感器阵列的响应强度也随之增大，响应时间缩短，可以更快达到稳定状态；不同浓度的甲烷对传感器阵列的影响不同于上述情况，高浓度甲烷提高了传感器的响应强度，但同时提高了其响应时间，反而低浓度甲烷可以更快达到稳定状态。响应测试试验结果表明气体传感器阵列具有较高的特异性和一定的交叉敏感性，为基于热裂解和电子鼻的土壤全氮含量检测系统的组建奠定了基础。

3.3 GA-BP算法优化结果

采用GA-BP算法对训练集降维优化，设置种群大小为50，个体长度为70，输出条件设为100次迭代。适应度函数演化曲线如图9a所示。从图9a中可以看出，迭代36次后，最佳适应度值保持不变，此时电子鼻特征空间达到了最佳的降维效果。在这种情况下，筛选出的最优特征编号为1、6、7、8、10、14、16、18、25、26、27、29、30、31、33、36、39、41、44、45、47、49、50、51、52、53、54、56、61、66、67、68、69，即特征由70维降到了33维。优化后所形成的电子鼻特征空间为121×33（样本数121×特征数33），因总样本数固定，仅减少了特征，因此划分的训练集和测试集不变。电子鼻特征空间的数据箱型可视化图，如图9b所示。

从图9b中可以看出，7个特征参数对特征空间的贡献依次为：rav>mdc=8=mean=mgv>max>vav，分别提供了6、5、5、5、5、4和3特征，特征max和vav维数贡献相对较小，特征rav、mdc、8、mean和mgv是体现电子鼻系统与土壤全氮含量内在联系的重要特征。

此外，图9b还可以看出，对于电子鼻特征空间的构成，传感器贡献的特征维数也不同。传感器S6提供了6维特征，传感器S1提供了5特征，传感器S7、S9提供了4维特征，其余传感器提供特征相对较少，尤其是传感器S2仅提供了1维特征。该研究所用气体传感器对新特征空间的构成均有贡献，表明组建的传感器阵列对基于热裂解和电子鼻的土壤全氮含量检测方法均有作用，没有冗余，且传感器TGS826、TGS2603、TGS2611和TGS2600对构建电子鼻特征空间的贡献最大。

3.4 土壤全氮含量建模

3.4.1 PLSR模型的建立

PLSR模型的预测性能受主成分因子（Principal component factor，PCF）数目的影响，适合的PCF数目可有效提高模型的预测和泛化能力。该研究采用40个主成分因子和留一交叉验证法寻找合适的PCF数量，通过RMSECV验证模型的可靠性，得到图10所示PCF和RMSECV的关系图。从图10中可以看出，在PCF数量在19～25的时候，均方根误差较小，而较少的PCF数量可以降低模型的复杂性、避免出现过拟合现象，因此该研究采用19个PCF建立了PLSR预测模型。

采用19个PCF和电子鼻特征空间的训练集建立PLSR预测模型，并采用测试集的未知样本对模型的预测性能进行验证，如图11所示。建立PLSR模型训练集的2=0.91，RMSE=0.21，RPD=3.28（图11a），测试集的2=0.91，RMSE=0.25，RPD=3.2（图11b）。模型预测结果表明，采用PLSR算法建立的土壤全氮预测模型，其训练集和测试集的2大于0.91，RMSE小于0.25，RPD大于3.23，模型具有极好的定量预测能力和较好的泛化能力。

3.4.2 BPNN模型的建立

该研究采用MATLAB 9.7.0.1190202（R2019b）软件中的神经网络工具箱建立BPNN预测模型。在BPNN模型的建立中，采用tansig函数作为隐含层的传递函数，采用线性函数purelin作为输出层的传递函数，采用newff函数创建神经网络。设置学习率为0.01，设置目标误差为0.001，将训练迭代次数设置为1 000，将训练集用train函数带入神经网络进行训练，最后利用sim函数将已经训练好的BP神经网络进行仿真预测。

BPNN建模中，隐含层神经元个数直接影响着模型的预测性能。为了选择合适的神经元数量，根据公式（7）将其取值设置为7～16，选取程序运行20次对应训练集和测试集决定系数的最小值、最大值和平均值作为评价指标，得到表5所示结果。从表5中可以看出，神经元数量为14时，BPNN模型训练集2的最小值、最大值和平均值均为最高，但测试集2的3个指标均不如神经元数量为12时建立的BPNN模型，说明神经元数量的增多出现了过拟合现象，影响模型的泛化能力。因此，BPNN模型参数确定为33-12-1（33个输入量，12个隐含层神经元，1个输出量），其训练集和测试集的预测结果如图 12所示。

表5 神经元数量对BPNN模型预测性能影响

模型预测结果表明，建立BPNN模型的训练集2=0.93，RMSE=0.18，RPD=3.69（图12a），测试集的2=0.81，RMSE=0.37，RPD=2.19（图12b），模型在训练集中具有较高的准确性和拟合效果，但在测试集中2和RPD均有大幅下降。表明BPNN算法建立的土壤全氮预测模型出现了过拟合现象，模型在泛化能力上有所不足。

3.4.3 PLSR-BPNN模型的建立

由上文建立的PLSR和BPNN模型预测结果可以看出，PLSR模型具有不错的定量预测和泛化能力，但其预测准确性有待提高。BPNN模型在训练集拥有不错的准确性，但在测试集中预测性能有明显下降，说明模型的泛化能力不足。为提高建立模型的准确性和泛化能力，该研究将PLSR和BPNN模型结合，建立了PLSR-BPNN算法的土壤全氮预测模型，PLSR算法的主成分因子为19，BPNN算法隐含层神经元数目为12，得到如图13所示PLSR-BPNN模型训练集和测试集的预测结果。

从图13看出，PLSR-BPNN算法建立的预测模型，其训练集的2=0.94，RMSE=0.17，RPD=3.90（图13a），测试集的2=0.93，RMSE=0.22，RPD=3.79（图13b）。PLSR-BPNN模型训练集和测试集的2>0.93，RPD>3.79，表明模型具有精确定量分析能力和较强的泛化能力。

3.5 土壤全氮含量模型对比分析

为提高该研究检测方法的检测精度，采用PLSR、BPNN和PLSR-BPNN三种算法分别对电子鼻特征空间的训练集和测试集进行测试，以找出最优的关系模型。从图11a、12a、13a可以看出，在PLSR、BPNN、PLSR-BPNN三个训练集的预测模型中，PLSR-BPNN模型的预测效果最好（2和RPD最大，RMSE最小），BPNN次之，PLSR最差。但3个模型的2均大于0.91，RPD均大于3.28，表明3个模型在训练集中具有极好的定量分析能力。

将测试集分别带入已经训练完成的BPNN、PLSR和PLSR-BPNN模型中，得到图11b、12b、13b中的预测结果。为了进行更直接的比较，在表6中列出了模型测试集的预测性能。从测试集的预测性能对比中可以看出（表 6），3个模型的2均大于0.81，RMSE<0.37，表明所有模型均有较好的土壤全氮含量预测能力。但从RPD的指标来看，BPNN算法建立的预测模型具有较好的定量预测能力，而PLSR和PLSR-BPNN模型均具有极好的定量预测能力，且PLSR-BPNN模型比PLSR模型的2提升2.20%，RPD提升16.98%，RMSE减少12.00%。建模结果表明，PLSR-BPNN算法建立的土壤全氮预测模型，可有效提高PLSR模型的预测准确性，解决BPNN模型泛化能力不足等问题，为土壤全氮的测量提供一种可靠的关系模型。其原因是土壤全氮含量与电子鼻特征空间存在一定程度的线性和非线性关联，PLSR-BPNN模型可以分别弥补PLSR和BPNN模型在非线性和线性关系的不足，从而建立更为准确的土壤全氮预测模型。

表6 模型测试集预测性能对比

3.6 讨论

测定土壤全氮的传统方法存在费工费时、所用试剂有腐蚀性等不足；土壤全氮的近红外光谱测定方法受土壤质地、土壤水分和氧化铁等因素的影响；Py-GC/MS方法存在设备购置成本高、不能专用于测定土壤全氮和耗时费工等缺点，难以实现大批土壤样本全氮含量的快速测量。该研究提出了一种基于热裂解和电子鼻的土壤全氮含量检测方法，该方法具有成本低、方便快捷和准确性高等优势，但土壤裂解、传感器检测和洗气共需要6 min的时间，因此不能实现车载田间土壤全氮含量的实时测量。

该文采用模式识别算法建立裂解气体响应曲线所选取特征与土壤全氮的关系模型，并用2、RMSE和RPD三个指标对模型的准确性进行评估。模式识别的基本原理是用计算统计的方法根据样本的特征将样本划分到一定的类别中。文中采用热裂解和电子鼻技术实现原始数据的获取；提取传感器阵列响应数据的特征组成特征空间，并利用GA-BP算法对其优化降维，完成特征的提取与选择。该文选取的特征与土壤全氮含量存在紧密的联系，目前对相关机理的研究比较初步，土壤裂解气体的成分不能完全确定，且不同样本间存在异质性，因此不能完全揭示特征与土壤全氮含量的内在规律。采用训练集的新特征空间与对应土壤全氮含量对学习机器进行训练，依据统计规律性和模式识别算法建立特征与土壤全氮的数学模型；用建立的模型对测试集的未知样本进行土壤全氮含量预测。结果表明，PLSR、BPNN和PLSR-BPNN三种模式识别算法的预测结果较为准确，说明土壤裂解气体与土壤全氮含量存在内在规律，且该文选取的特征可有效表达两者间的统计规律性。

4 结论

该研究提出了一种基于热裂解和电子鼻的土壤全氮含量检测方法。利用热裂解技术实现土壤样本快速裂解，采用电子鼻完成裂解气体响应数据采集，最后利用模式识别实现土壤全氮含量准确预测。

1）采用GA-BP算法对模式识别中构建的特征空间进行优化，减少了冗余信息。结果表明，构建的传感器阵列对该研究无冗余影响，其中传感器TGS826、TGS2603、TGS2611和TGS2600对特征空间的构建贡献最大，特征响应面积值、平均微分系数、第8秒的瞬态值、平均值和最大梯度值是反映该研究方法与土壤全氮含量内在关系的重要特征。

2）对构建的气体传感器阵列进行了标准气体的响应测试。结果表明，传感器阵列对不同浓度的甲烷、氯乙烯和氨气皆有响应且响应结果不同，且随着标准气体浓度的增大气体传感器阵列的响应强度也随之增强。

3）对比分析了PLSR、BPNN和PLSR-BPNN算法在此研究中的检测性能。结果表明，三种模型均有准确预测土壤全氮含量的能力，PLSR-BPNN模型拥有最高的2和RPD，最小的RMSE。PLSR-BPNN模型在测试集中2=0.93，RMSE=0.22，RPD=3.79。

[1] 郭澎涛，李茂芬，罗微，等. 基于多源环境变量和随机森林的橡胶园土壤全氮含量预测[J]. 农业工程学报，2015，31(5)：194-202.

Guo Pengtao, Li Maofen, Luo Wei, et al. Prediction of soil total nitrogen for rubber plantation at regional scale based on environmental variables and random forest approach[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(5): 194-202. (in Chinese with English abstract)

[2] 周鹏，杨玮，李民赞，等. 基于灰度关联-极限学习机的土壤全氮预测[J]. 农业机械学报，2017，48(S1)：271-276.

Zhou Peng, Yang Wei, Li Minzan, et al. Soil total nitrogen content prediction based on gray correlation-extreme learning machine[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017,48(S1): 271-276. (in Chinese with English abstract)

[3] Chen C, Dong D M, Li Z W, et al. A novel soil nutrient detection method based on combined ATR and DRIFT mid-infrared spectra[J]. Analytical Methods, 2016, 9(3): 528-533.

[4] Ren G X, Wei Z Q, Fan P P, et al. Visible/near infrared spectroscopy method applied research in wetland soil nutrients rapid test[J]. IOP Conference Series Earth and Environmental Science, 2019, 344: 012123.

[5] Li H Y, Jia S Y, Le Z C. Quantitative analysis of soil total nitrogen using hyperspectral imaging technology with extreme learning machine[J]. Sensors, 2019, 19(20): 4355.

[6] 宋琦. 我国几种土壤的有机氮组成和性质的研究[J]. 土壤学报，1988，25(1)：95-100.

Song Qi. Study on composition and property of organic nitrogen in several soils of China[J]. Acta Pedologica Sinica, 1988, 25(1): 95-100. (in Chinese with English abstract)

[7] 秦琳，黄世群，仲伶俐，等. 杜马斯燃烧法和凯氏定氮法在土壤全氮检测中的比较研究[J]. 中国土壤与肥料，2020(4)：258-265.

Qin Lin, Huang Shiqun, Zhong Lingli, et al. Comparison of Dumas combustion and Kjeldahl methods for determining total nitrogen content in soil[J]. Soil and Fertilizer Sciences in China, 2020(4): 258-265. (in Chinese with English abstract)

[8] 侯云鹏，韩立国，孔丽丽，等. 不同施氮水平下水稻的养分吸收，转运及土壤氮素平衡[J]. 植物营养与肥料学报，2015，21(4)：836-845.

Hou Yunpeng, Han Liguo, Kong Lili, et al. Nutrient absorption, translocation in rice and soil nitrogen equilibrium under different nitrogen application doses[J]. Journal of Plant Nutrition and Fertilizer, 2015, 21(4): 836-845. (in Chinese with English abstract)

[9] 张娟娟，田永超，姚霞，等. 基于近红外光谱的土壤全氮含量估算模型[J]. 农业工程学报，2012，28(12)：183-188.

Zhang Juanjuan, Tian Yongchao, Yao Xia, et al. Estimating model of soil total nitrogen content based on near-infrared spectroscopy analysis[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(12): 183-188. (in Chinese with English abstract)

[10] 王海江，刘凡，YUNGER John A，等. 不同粒径处理的土壤全氮含量高光谱特征拟合模型[J]. 农业机械学报，2019，50(2)：195-204.

Wang Haijiang, Liu Fan, YUNGER John A, et al. Fitting model of soil total nitrogen content in different soil particle sizes using hyperspectral analysis[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(2): 195-204. (in Chinese with English abstract)

[11] Nie P C, Dong T, He Y, et al. The effects of drying temperature on nitrogen concentration detection in calcium soil studied by NIR spectroscopy[J]. Applied Sciences-Basel, 2018, 8(2): 269.

[12] He Y, Xiao S P, Nie P C, et al. Research on the Optimum Water Content of Detecting Soil Nitrogen Using Near Infrared Sensor[J]. Sensors, 2017, 17(9): 2045.

[13] Stoner E R, Baumgardner M F. Characteristic variations in reflectance of surface soils[J]. Soil Science Society of America Journal, 1981, 45(6): 1161-1165.

[14] al Sandouk-Lincke N A, Schwarzbauer J, Hartkopf-Froeder C, et al. The effect of different pyrolysis temperatures on organic microfossils, vitrain and amber-A comparative study between laser assisted- and Curie Point-pyrolysis-gas chromatography/mass spectrometry[J]. Journal of Analytical & Applied Pyrolysis, 2014, 107: 211-223.

[15] De La Rosa J M, Faria S R, Varela M E, et al. Characterization of wildfire effects on soil organic matter using analytical pyrolysis[J]. Geoderma, 2012, 191: 24-30.

[16] Kim Y, Oh J I, Lee S S, et al. Decontamination of petroleum-contaminated soil via pyrolysis under carbon dioxide atmosphere[J]. Journal of Cleaner Production, 2019, 236: 117724.

[17] Girona-Garcia A, Badia-Villas D, Jimenez-Morillo N T, et al. Changes in soil organic matter composition after Scots pine afforestation in a native European beech forest revealed by analytical pyrolysis (Py-GC/MS)[J]. Science of the Total Environment, 2019, 691: 1155-1161.

[18] Becker J N, Dippold M A, Hemp A, et al. Ashes to ashes: Characterization of organic matter in Andosols along a 3400 m elevation transect at Mount Kilimanjaro using analytical pyrolysis[J]. Catena, 2019, 180: 271-281.

[19] 陈秋宇，吴应琴，雷天柱，等. 基于Py-GC-MS/MS技术的高寒草原土壤有机质不同组分指纹特征研究[J]. 生态学报，2018，38(8)：2864-2873.

Chen Qiuyu, Wu Yingqin, Lei Tianzhu, et al. Study on the fingerprints of soil organic components in alpine grassland based on Py-GC-MS/MS Technology[J]. Acta Ecologica Sinica, 2018, 38(8): 2864-2873. (in Chinese with English abstract)

[20] 路鹏，吴世新，戴志锋，等. 基于电子鼻和GIS 的大型生活垃圾堆肥厂恶臭污染源测定[J]. 农业工程学报，2014，30(17)：235-242.

Lu Peng, Wu Shixin, Dai Zhifeng, et al. Determination of odour emission at compost plant based on electronic nose and GIS[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(17): 235-242. (in Chinese with English abstract)

[21] Wilson A D. Review of electronic-nose technologies and algorithms to detect hazardous chemicals in the environment[J]. Procedia Technology, 2012(1): 453-463.

[22] Schnabel R M, Bounmans M L L, Smolinska A, et al. Electronic nose analysis of exhaled breath to diagnose ventilator-associated pneumonia[J]. Respiratory Medicine, 2015, 109(11): 1454-1459.

[23] 徐赛，陆华忠，周志艳，等. 基于电子鼻的果园荔枝成熟阶段监测[J]. 农业工程学报，2015，31(18)：240-246.

Xu Sai, Lu Huazhong, Zhou Zhiyan, et al. Electronic nose monitoring mature stage of litchi in orchard[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(18): 240-246. (in Chinese with English abstract)

[24] Tozlu B H, Okumus H I. A new approach to automation of black tea fermentation process with electronic nose[J]. Automatika, 2018, 59(3/4): 373-381.

[25] Lavanya S, Narayanan B D S, Murthy V K, et al. Indicative extent of humic and fulvic acids in soils determined by electronic nose[J]. Computers and Electronics in Agriculture, 2017, 139: 198-203.

[26] Bieganowski A, Jaromin-Glen K, Guz L, et al. Evaluating soil moisture status using an e-nose[J]. Sensors, 2016, 16(6): 886.

[27] Zhu L T, Jia H L, Chen Y B, et al. A novel method for soil organic matter determination by using an artificial olfactory system[J]. Sensors, 2019, 19(15): 3417.

[28] 朱龙图，李名伟，夏晓蒙，等. 基于人工嗅觉系统的土壤有机质检测方法研究[J]. 农业机械学报，2020，51(3)：171-179.

Zhu Longtu, Li Mingwei, Xia Xiaomeng, et al. Soil organic matter detection method based on artificial olfactory system[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(3): 171-179. (in Chinese with English abstract)

[29] Stafilov T, Spiric Z, Glad M, et al. Study of nitrogen pollution in the Republic of North Macedonia by moss biomonitoring and Kjeldahl method[J]. Journal of Environmental Science and Health Part A-Toxic, 2020, 55(6): 759-764.

[30] Silva T E, Detmann E, Franco M O, et al. Evaluation of digestion procedures in Kjeldahl method to quantify total nitrogen in analyses applied to animal nutrition[J]. Acta Scientiarum: Animal Sciences, 2016, 38(1): 45-51.

[31] 杨越超，赵英俊，秦凯，等. 黑土养分含量的航空高光谱遥感预测[J]. 农业工程学报，2019，35(20)：94-101.

Yang Yuechao, Zhao Yingjun, Qin Kai, et al. Prediction of black soil nutrient content based on airborne hyperspectral remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(20): 94-101. (in Chinese with English abstract)

[32] 于雷，洪永胜，周勇，等. 高光谱估算土壤有机质含量的波长变量筛选方法[J]. 农业工程学报，2016，32(13)：95-102.

Yu Lei, Hong Yongsheng, Zhou Yong, et al. Wavelength variable selection methods for estimation of soil organic matter content using hyperspectral technique[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(13): 95-102. (in Chinese with English abstract)

Method for detecting soil total nitrogen content and characteristic optimization based on pyrolysis and electronic nose

Li Mingwei, Xia Xiaomeng, Zhu Qinghui, Liu He, Huang Dongyan※, Wang Gang

(1.,,130022,; 2.,,,130022,)

Soil nitrogen as an essential nutrient element is one of the most important indexes to measure soil fertility for crop growth and development. In this research, a new detection was proposed to quickly accurately determine the soil total nitrogen (STN) content using pyrolysis and electronic nose. Ten types of gas sensors were used to construct the sensor arrays. A response test was carried out under the different concentrations of methane, vinyl chloride, and ammonia standard gas. The test results showed that there were significant differences in responses of the sensor array to the types and the concentration, where the response intensity increased with the increase of the standard gas concentration. The sensor array also presented a high specificity and cross-sensitivity during data detection. Furthermore, the pyrolysis gas was obtained from the soil samples using the muffle furnace, further to detect the response curve using the gas sensor array. After that, a 121×10×7 feature space (121 soil samples, 10 number of sensors, and 7 eigenvalues) was constructed to extract the mean (mean), variance (vav), the maximum gradient (mgv), the maximum (max), response area (rav), the eighth of the second transient (8), and mean differential coefficient (mdc) of the response curve. A genetic algorithm and neural network model (GA-BP) feature optimization was used to reduce the eigenvalue to 33 dimensions, forming a new feature space of 121×33. More importantly, there was no redundant effect of the constructed sensor array on the new detection. Specifically, the sensors of TGS826, TGS2603, TGS2611, and TGS2600 contributed the most to the construction of the new feature space. Themean,mgv,rav,8andmdcwere the important features to represent the internal relationship between the detection and STN content. The prediction model of feature space and STN content was then established using a back propagation neural network (BPNN), partial least squares regression (PLSR), and a combination of a back propagation neural network and partial least squares regression (PLSR-BPNN). The coefficient of determination (2), root mean square error (RMSE), and residual prediction deviation (RPD) were used as the indicators of the model. As such, the2of PLSR, BPNN and PLSR-BPNN models were 0.91, 0.81, and 0.93, respectively, where the RMSE were 0.25, 0.37, and 0.22, while the RPD were 3.24, 2.19, and 3.79, respectively. The predicted performance of the test sets demonstrated that the2values of the three models were all greater than 0.81, and the RMSE<0.37, indicating that all the models presented the better prediction ability of STN content. However, both PLSR and PLSR-BPNN models presented a much better ability of quantitative prediction than that of the BPNN, from the perspective of RPD indicators. The2of the PLSR-BPNN model increased by 2.90%, the RPD increased by 16.94%, and the RMSE was reduced by 14.48%, compared with the PLSR model. Therefore, the PLSR-BPNN prediction model can be expected to effectively improve the prediction accuracy of the PLSR model for the better generalization ability of the BPNN model, indicating a reliable relationship model for the STN measurement. The reason was that there was a certain degree of linear and nonlinear correlation between the STN content and characteristic space of the electronic nose. The PLSR-BPNN model greatly contributed to the strength of the nonlinear and linear relationship between the PLSR and BPNN model. Consequently, a more accurate PLSR-BPNN model was established to accurately predict the STN content. There was also a high correlation between the soil pyrolysis gas and STN content.

soil; total nitrogen; sensor; pyrolysis; electronic nose; feature optimization; pattern recognition

2021-10-29

2021-12-08

吉林省科技发展计划项目（20200502007NC）

李名伟，博士生，研究方向为农业机械自动化。Email：lmw271314@163.com

黄东岩，教授，博士生导师，研究方向为保护性耕作技术及其智能农机装备。Email：cchdy760829@sina.com

10.11975/j.issn.1002-6819.2021.24.009

S158.2；TP212.9

1002-6819(2021)-24-0073-12

李名伟，夏晓蒙，朱庆辉，等. 基于热裂解和电子鼻的土壤全氮检测方法及特征优化[J]. 农业工程学报，2021，37(24)：73-84. doi：10.11975/j.issn.1002-6819.2021.24.009 http://www.tcsae.org

Li Mingwei, Xia Xiaomeng, Zhu Qinghui, et al. Method for detecting soil total nitrogen content and characteristic optimization based on pyrolysis and electronic nose[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 73-84. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.24.009 http://www.tcsae.org