基于不同卷积尺度融合与近红外光谱的土地分类模型研究

2023-02-22魏锦山陈争光

光谱学与光谱分析 2023年2期

魏锦山，陈争光*，焦峰

1. 黑龙江八一农垦大学信息与电气工程学院，黑龙江大庆 163319 2. 黑龙江八一农垦大学农学院，黑龙江大庆 163319

引言

土地覆盖(land cover)指自然区域和人工建筑覆盖的地表诸要素的综合体，是联系并影响人与自然生态的基本变量[1]。准确识别土地覆盖类型，对于土地资源的合理利用和保护、精准农业的发展有着重要意义。过去人们常采用目视解译法[2]、统计分析法[3]、聚类分析法[4]进行土地覆盖分类，该方法费时费力。学者采用机器学习方法进行基于遥感影像的土地分类，取得了一定成果[5-8]。但是由于遥感影像分辨率的不同以及地表覆盖物的变化，导致基于遥感影像的土地覆盖分类结果存在一定的误差[9]。

不同类型土地其地表覆盖物不同，土壤母质也存在差异。土地覆盖类型和母质对土壤有机碳含量等土壤理化值有一定影响[10]。土壤近红外光谱是土壤理化特性和内在结构的综合反映[11]。可以通过土壤的光谱信息快速、简单、无损、低成本地进行土地分类。由于光谱数据的高维特性，基于光谱的分类问题一般是先寻找特征波段或进行降维处理，然后再建模[12]，基于全谱建模的研究相对较少[13]。以特征波段或者数据降维为基础的建模方法虽能提高模型的分类准确率，但模型的优劣在一定程度上依赖所使用的波段选择方法和数据降维方法。另外，基于小区域、小样本数据集所建立的机器学习分类模型对大数据的分析效果较差[14]。由于其数据量过少，模型适用范围受限，会导致模型鲁棒性不强、泛化能力差等问题[15]。随着深层卷积神经网络的发展，基于端到端的无需降维的深度学习模型逐渐得到人们的重视。 Long[16]等通过端到端训练构建了全卷积网络进行土地识别。实验证明全卷积网络提高了平均分类准确率，同时提高了计算效率。 Li[13]等在青岛市土地覆盖分类的研究中，以土壤近红外光谱作为输入，对比卷积神经网络(convolutional neural network， CNN)和SVM网络性能差异，建立了端到端定量分析模型，无需波长选择，简单易用，取得了良好效果。实验证明，数据量大时， CNN模型性能优于SVM模型。 CNN的测试集分类准确率达到了87%。

卷积神经网络作为深度学习典型的代表算法之一[17]，适合处理大范围内采集的庞大数据集，对土壤近红外光谱的内部特征信息进行自动提取，基于大数据能够建立一种普适性高、准确率高的土地覆盖分类模型。因此，探究利用大数据集土壤样本结合深度学习相关算法进行土地覆盖分类模型的建模研究对于推动精准农业、土地覆盖制图、土地利用和调查等具有重要意义。近几年深度学习算法的发展，为土地覆盖分类提供了支持，但多数研究仅是简单建模或进行不同模型对比，而对模型进行改进的研究较少。如何改进深度学习模型，提升分类准确率仍是研究重点和难点。因此，本工作以欧盟统计局调查收集的土壤近红外光谱样本数据集为研究对象，分别采用9种单一卷积核的卷积神经网络、 3种改进的多卷积核融合的Fusion-CNN网络建立土地覆盖近红外光谱分类模型，比较模型分类效果的差异，旨在建立一种高效准确的基于不同卷积尺度融合的土地覆盖近红外光谱分类模型。

1 实验部分

1.1 数据来源

实验采用欧盟统计局开展的土地利用/土地覆盖地区框架调查数据(Land Use/Land Cover Area Frame Survey, LUCAS)，该数据包含覆盖欧盟23国土壤样本的近红外光谱数据及土壤物理化学性质检测结果。 LUCAS调查土地覆盖分类系统包含人工土地、耕地、林地、灌丛、草地、裸地、水体和湿地8个土地覆盖类别。从LUCAS数据集中选取包括耕地、林地、草地在内共计6921个具代表性的土壤样本(含1 496个耕地样本、 2 202个林地样本、 3 223个草地样本)。将土壤样本按照6∶2∶2的比例随机划分为训练集、验证集和测试集，土壤样本的划分详细信息如表1所示。

表1 LUCAS土壤样本集划分Table 1 Division of LUCAS soil sample set

1.2 数据预处理

短时傅里叶变换(short-time Fourier transform, STFT)是一种常用的时频分析方法。 STFT将窗函数和源信号相乘后进行一维傅里叶变换，并通过窗口滑动得到一系列傅里叶变换结果[18]，结果按序排列便得到二维图像。 STFT的窗口长度决定频谱图的时间分辨率和频率分辨率。本实验将土壤近红外光谱数据作为输入源信号，设置窗函数为海宁函数，窗口长度分别设置为64， 100， 128，窗口重叠数分别为32， 50， 64，采样频率为1，对光谱进行STFT。变换结果如图1所示。

图1 (a)近红外光谱曲线； (b)短时傅里叶变换时频图Fig.1 (a) Near infrared spectral curve； (b) Short-time Fourier transformed time-frequency diagram

1.3 卷积神经网络

卷积神经网络(CNN)是一种包含卷积计算且具有一定深度结构的前馈神经网络[19]， CNN模型主要由输入层、卷积层(convolutional layer)、池化层(pooling layers)、全连接层(fully connected layer)以及输出层构成。

(1)

(2)

(3)

全连接层将当前层的每一个神经元与卷积池化后输出的所有神经元相连，产生全局语义信息[17]，并通过Softmax函数进行分类。

1.4 模型的建立

调整卷积核尺寸，感受野大小也会改变，会影响捕获的局部语义信息，进而影响模型分类性能[21]。为了对模型的分类性能进行比较并得到性能更优的模型，分别建立3×3， 5×5和7×7三种卷积核的CNN模型，探究不同卷积核大小对不同土地覆盖类型分类精度的影响。其中CNN_3×3模型结构如图2(a)所示。 CNN模型主要由输入层、 3个卷积层、 3个批标准化(batch normalization， BN)层、 3个池化层、 Flatten层、全连接层、 Dropout层、输出层组成。为防止模型过拟合，采用早停法(early stopping)对模型进行训练。遵循相同的参数设置，只改动卷积尺寸为5×5和7×7，再建立CNN_5×5和CNN_7×7模型。

由于近红外光谱数据特征信息提取的合适尺度是未知的，使用单一的卷积核可能会造成特征信息的提取不完整。因此尝试采用不同尺寸卷积核融合的Fusion-CNN网络进行特征提取，视觉信息在不同尺度上进行处理聚合，下一层卷积可以从不同尺度提取特征，进一步提升分类精度。另外，传统CNN模型为提高分类精度，增加了网络模型的深度(层数)和宽度(每层的卷积核数量)，导致模型参数增多，增加了计算量。应用卷积融合结构，可以做到在拓宽网络宽度的同时减少计算量，提高计算资源的利用率。

本研究采用了不同卷积尺度(7×7， 5×5， 3×3， 1×1)融合的Fusion-CNN模型进行土壤近红外光谱分类。如图2(b)所示，整个网络的搭建主要由输入层、 3层卷积融合模块(Fusion)、 3个池化层、 Flatten层、全连接层、输出层组成。

图2 (a)单一卷积核尺寸CNN模型结构图； (b)Fusion-CNN模型结构图Fig.2 (a) Structure diagram of CNN model with single convolution kernel size； (b) Structure diagram of Fusion-CNN model

光谱数据输入之后，进行7×7， 5×5， 3×3卷积之前，先进行1×1卷积[图2(b)Fusion模块中的1， 2， 3分支]，减少数据量，降低卷积运算的参数量。为增强网络对不同特征尺寸的适应性，提高模型的分类性能，对输入数据进行2×2的最大池化(max pooling)，使输入图像的尺寸变为原来的一半[图2(b)Fusion模块中第4条分支]。随后分别进行7×7， 5×5， 3×3， 1×1的卷积以及单独的1×1卷积[图2(b)Fusion模块分支5]，在卷积层与激活函数之间引入批量归一化(batch normalization， BN)层，规范数据的输入，使下一层输入满足均值为0、方差为1的分布，提高学习效率。为了避免梯度消失和神经元饱和，将所有卷积层的激活函数都设置为非线性激活函数ReLU，最后进行5层卷积输出的通道合并。整个网络的搭建由3层Fusion模块串联组成，用以提取不同层次的抽象特征，每层Fusion模块之后都要进行尺寸为2×2，步长为2的最大池化，降低参数量。全连接层的神经元个数为256个，激活函数采用ReLU。然后通过Dropout层丢弃20%的神经元连接。输出层的激活函数为Softmax，神经元个数为3个，输出3种不同的土地覆盖类型的可能性。

2 结果与讨论

2.1 不同分类模型的分类结果

利用三种尺寸的STFT变换结果训练四种类型的CNN模型(3种单一尺寸的卷积核(3×3， 5×5， 7×7)和1种多卷积核融合的Fusion-CNN)，模型在验证集和测试集上的分类结果如表2所示。其中CNN_3×3_64表示STFT窗口长度为64且卷积尺寸为3×3的CNN模型， Fusion-CNN_64表示STFT窗口长度为64的Fusion-CNN模型。

表2 模型的分类准确率Table 2 The classification accuracy of the model

三种单一尺寸卷积核CNN模型和Fusion-CNN模型的混淆图如图3所示，其中C代表耕地， W代表林地， G代表草地，主对角线的元素代表正确预测的样本数。由图3可知， 3个Fusion-CNN模型对于林地的正确预测样本数均比9个CNN模型高，其对于耕地、草地的预测效果普遍比CNN模型要好；从总样本预测情况来看， Fusion-CNN_100预测正确1168个(主对角线元素之和)，分类准确率最高，分类性能最优。

图3 CNN模型和Fusion-CNN模型分类结果的混淆图Fig.3 Confusion diagrams of classification results of CNN model and Fusion-CNN model(a)： CNN_3×3_64; (b)： CNN_5×5_64; (c)： CNN_7×7_64; (d)： CNN_3×3_100; (e)： CNN_5×5_100; (f)： CNN_7×7_100; (g)： CNN_3×3_128; (h)： CNN_5×5_128; (i)： CNN_7×7_128; (j)： Fusion-CNN_64; (k)： Fusion-CNN_100; (l)： Fusion-CNN_128

2.2 CNN模型卷积尺寸大小对分类准确率的影响

如表2所示，相同STFT窗口长度下，随着卷积核尺寸的增大， CNN模型总体分类准确率降低。当STFT窗口长度为100时， CNN_3×3_100模型的准确率最高，为78.76%。在相同卷积深度情况下，较小的卷积核有利于提高模型的整体性能[22]。相同STFT窗口长度的CNN模型中，对于耕地， 3×3卷积尺寸的CNN模型分类效果最佳；对于林地， 5×5卷积尺寸的CNN模型分类效果最佳；对于草地， 7×7卷积尺寸的CNN模型分类效果最佳。说明不同卷积尺寸的卷积核，对于不同类型的土地的适应性不同。 3个Fusion-CNN模型对于耕地、林地和草地的分类准确率普遍比CNN模型高。 Fusion-CNN模型是CNN_3×3， CNN_5×5， CNN_7×7的集成，因此在三种类型的土地分类效果上集单一卷积网络的优势，对三种土地覆盖类型的分类准确率均有提高。 Wu[23]等在进行手写字符识别的应用研究中，改进CNN模型，根据图像区域的不同信息匹配不同尺寸的卷积核，更好地提取图像特征，实验证明其分类准确率更高，与本文结论一致。

2.3 STFT窗口长度对CNN模型和Fusion-CNN模型分类准确率的影响

STFT窗口长度决定频谱图的时间、频率分辨率。窗口长度越长，截取的信号越多，傅里叶变换后频率分辨率越高，时间分辨率越低。因此， STFT窗口长度的选择会对分类结果有一定的影响。

如表2，无论是单卷积核的CNN模型还是多卷积核的Fusion-CNN模型， STFT窗口长度为100、重叠长度为50的模型总体分类准确率均最高。三种STFT窗口长度的Fusion-CNN模型的总体分类准确率比单一卷积核尺寸的CNN模型的分类准确率均有一定的提升。李庆旭等[24]在研究早期鸭胚雌雄信息检测时，通过一维鸭胚光谱数据矩阵与其转置矩阵相乘，将一维光谱转为二维矩阵，通过二维卷积神经网络实现345个鸭胚的雌雄辨识，取得了良好的分类效果，证实了二维卷积的有效性。 Padarian等[25]在进行土壤相关理化指标的回归预测中，将一维土壤光谱数据通过STFT转换为二维频谱图，模型的均方根误差降低了10%以上。由此可见，将一维的近红外光谱数据向二维空间变换能显著提高模型的性能。

2.4 不同模型训练过程

表2中12个模型验证集分类准确率随迭代次数的变化曲线见图4。其中Epoch为迭代次数， Accuracy为准确率。

图4 验证集数据的分类准确率曲线(a)： CNN_64； (b)： CNN_100； (c)： CNN_128； (d)： Fusion-CNNFig.4 Classification accuracy curves of validation set data(a)： CNN_64； (b)： CNN_100； (c)： CNN_128； (d)： Fusion-CNN

9个CNN分类模型的验证集准确率前期不断提高，但准确率最高点均在78%左右，低于80%[图4(a，b，c)]。早停法检测其准确率不再提升，继续训练将有过拟合风险，于是自动停止训练。相比CNN单一卷积尺寸， 3个Fusion-CNN卷积融合模型验证集分类准确率不断提升，无明显过拟合现象[图4(d)]，且模型的分类准确率最高点均超过80%，高于9种单一卷积核的CNN分类模型，其中最优模型是Fusion-CNN_100，验证集达到了83.96%(表2)。在参数设置相同的情况下，训练过程中单一卷积核CNN模型的分类准确率曲线波动较大，稳定性差。相比之下， Fusion-CNN卷积融合模型的分类准确率曲线波动小，训练过程中，准确率稳定上升，说明多尺寸卷积核融合技术能集成单一卷积核的优势，显著提高模型性能[26]。

2.5 模型的ROC曲线

ROC曲线(Receiver Operating Characteristic curve)常用来评价一个分类模型的性能优劣。 ROC曲线采用不同的判断标准(预测阈值不同)，以假阳性率FPR(False Positive Rate)为横坐标，真阳性率TPR(True Positive Rate)为纵坐标绘图得到。 TPR和FPR的计算公式如式(4)

(4)

式(4)中， TP为将正例预测为正的样本数， FN为将正例预测为负的样本数； FP为将负例预测为正的样本数， TN为将负例预测为负的样本数。

通过ROC曲线和AUC(Area Under Curve)值来评价分类模型的性能优劣，可忽略阈值选择对模型的影响，减少类别不平衡的影响。 ROC曲线越接近图形的左上角，模型的分类性能越好，图形左上角坐标点(0, 1)处代表最佳分类器。 ROC曲线与坐标轴围成的面积AUC是评测分类模型的主要性能指标之一，其面积越大越好，达到1是最佳分类模型。

通过不断调整模型预测的阈值，得到不同的FPR值和TPR值。依次连接这些坐标点即可得到ROC曲线。绘制的CNN模型和Fusion-CNN模型的ROC曲线以及相应的AUC值如图5所示。

图5 CNN模型和Fusion-CNN模型的ROC曲线以及AUC值(a)：耕地； (b)：林地； (c)：草地； (d)：总体Fig.5 ROC curves and AUC values of CNN model and Fusion-CNN model(a)： Cultivated land； (b)： Wood land； (c)： Grass land； (d)： Total

根据图5可知，所有模型的ROC曲线都位于y=x直线的上方，因此，所有模型的分类性能都优于随机猜测策略的分类结果。单卷积核的CNN模型中，小尺寸的卷积核模型CNN_3×3_64的ROC曲线更靠近左上角的(0, 1)坐标点，模型AUC值更高，证明小卷积尺寸的CNN模型分类性能更优。相比CNN，多卷积核融合的Fusion-CNN模型的ROC曲线更接近左上角的(0, 1)坐标点。 Fusion-CNN模型的AUC值均高于CNN模型的AUC值，其中图5(b)林地ROC曲线中的Fusion-CNN_100模型的AUC值达到了0.98，模型对林地的分类效果非常接近最佳分类模型。从图5(d)总体AUC值来看， Fusion-CNN_100模型的AUC值最高，达到了0.96，模型分类性能最优。

3 结论

对土壤近红外光谱做预处理，采用短时傅里叶变换方法，得到不同窗口尺寸的傅里叶变换结果，实现将一维光谱曲线转换为二维图像。每种窗口长度下，均采用三种单一卷积核尺寸(CNN_3×3， CNN_5×5， CNN_7×7)的卷积神经网络以及Fusion-CNN卷积融合网络建模，共建立12种二维卷积分类模型，从多个角度比较了不同模型分类效果的差异。实验证明： (1)单一卷积尺寸的卷积神经网络分类模型的分类准确率随卷积核尺寸的增大而降低。某一个单一尺寸卷积核模型对某一类土地类型的分类效果良好。 (2)基于多卷积尺度融合的Fusion-CNN网络分类模型能有效且稳定地对3种不同类型的土地进行分类，对于各种类型土地的分类准确率均有了不同程度地提高，得到更高的总体分类准确率84.39%。 Fusion-CNN模型克服了传统CNN对于合适的卷积核尺寸选择周期长、调参步骤繁琐的缺点，能简化和加快建模过程，为土地覆盖类型的快速分类问题提供了一种新的参考思路。