基于半监督空间-通道选择性卷积核网络的极化SAR图像地物分类
2021-09-02王睿川王岩飞
王睿川 王岩飞
①(中国科学院空天信息创新研究院 北京 100190)
②(中国科学院大学电子电气与通信工程学院 北京 101408)
1 引言
极化合成孔径雷达 (Polarimetric Synthetic Aperture Radar,极化SAR) 是一种主动微波遥感探测技术,能够获得地球表面的多通道后向散射回波信息,具有全天时全天候对地成像能力[1]。极化SAR图像地物分类是极化SAR图像解译任务的基础,在城市规划,海洋、森林环境调查和灾害评估等[2]很多实际应用中都起到了重要作用。
传统的极化SAR图像地物分类技术主要流程可被归纳为首先进行特征提取,再使用分类算法进行类别预测[3]。极化目标分解是本领域中一种重要的特征提取方式。常见的极化目标分解方法有Pauli分解、Cloude-Pottier分解[4]、Freeman[5]分解等。分类算法主要包含各种机器学习算法,如期望-最大化算法[6]、支持向量机[7]、稀疏表征分类器[8]、谱聚类[9]和随机森林[10]等。期望-最大化算法使用概率分布对极化SAR图像数据进行迭代分类。常用概率分布有Wishart分布[11]、K-Wishart分布[12,13]和U分布[14]等。
近年来,随着深度学习技术的快速发展,很多基于深度学习的极化SAR图像地物分类算法被提出,其中主要包含卷积神经网络 (Convolutional Neural Networks,CNN)[15]和全卷积网络 (Fully Convolutional Network,FCN)[16]。
CNN考虑输入数据的空间信息,自动地提取分层的隐含特征,达到良好的分类性能[15]。Zhou等人[17]首先将CNN引入极化SAR图像地物分类任务中,并通过可视化表明CNN能够提取各个地物类别的空间特征。Chen等人[18]的研究表明通过引入均匀极化矩阵旋转理论[19]等专家知识为CNN提取输入特征,能够有效提升CNN的分类性能。
基于CNN的极化SAR图像地物分类算法采用逐像素分类的运行模式,由于在运算中重复提取了邻域中相同的像素,因此具有大量的冗余运算。而FCN具有端到端 (End-to-end)、逐像素输出 (Pixelto-pixel)特性,能够充分利用空间信息,并同时对整幅输入图像中的每一个像素进行分类[20]。Liu等人[21]提出基于极化散射编码矩阵的极化卷积网络(Polarimetric Convolutional Network,PCN),其分类性能高于CNN模型。在文献[20,21]中,基于FCN的方法采用整幅图像作为输入。当输入图像尺寸较大时,FCN模型在训练和推理过程中需要很大的计算存储,限制了FCN模型的应用。Li等人[22]提出基于滑动窗口的全卷积神经网络,将输入数据切分成较小的区块提升训练速度和内存使用灵活性,但是SFCN在标注数据量较小的情况下性能不佳。Chen等人[23]提出对抗重建-卷积网络 (Adversarial Reconstruction-Convolutional Network,ARCN),使用基于对抗训练的重建正则项,以更长的训练时间为代价,相比SFCN提升了在较小标注样本集规模下的分类性能。
当前基于全监督(Supervised learning)深度学习的极化SAR图像地物分类算法的性能提升瓶颈在于极化SAR图像标注样本数量少。提升全监督学习分类方法的精度主要有两种方法,第1种是增加更多的真实标注样本,第2种是提升分类算法对不同地物类别的辨识能力。由于获取真实标签的成本较高,半监督学习(Semi-supervised learning)方法可以通过利用无标注样本中蕴含的信息提升模型的分类性能,因此受到了广泛关注。Geng等人[24]提出了一种基于多重判决的半监督学习算法,依据空间意义上的局部、非局部判决准则生成伪标签并重新进行训练。Bi等人[25]提出了基于图模型的卷积神经网络,使用CNN和马尔可夫随机场交替进行多次迭代训练,逐步向无标注样本传播标签信息。Xie等人[26]提出了循环复数CNN模型,使用Wishart距离生成无标注样本的伪标签,然后训练模型验证伪标签,再扩充标注样本集。Hua等人[27]提出了一种基于邻域最小生成树的半监督学习方法,通过利用空间信息扩充标注样本集,在极少训练样本条件下达到了良好的分类精度。这些半监督学习能够有效提升分类模型的精度性能,但是都需要两次及以上的重复训练过程。通过将扩充伪标签的过程融入模型的训练过程,半监督学习方法的运行效率能够得到有效提升。
针对极化SAR图像地物分类中标注样本少的问题,本文在提升模型辨识能力与高效半监督学习方法两个方面,提出了一种采用预选-联合优化半监督学习方法的空间-通道选择性卷积核全卷积网络(Spatial-Channel Selective Kernel Fully Convolutional Network with Semi-supervised Preselection and United Optimization,SCSKFCN-SPUO)。
在提升模型辨识能力方面,提取多尺度特征有利于增强模型对极化SAR图像中不同地物的分辨能力。选择性卷积核网络[28](Selective Kernel Network,SKNet)通过使用注意力机制根据输入数据在通道维度上自适应地对多尺度特征进行加权融合,提升了自然图像分类任务中对不同尺寸目标的分类能力。然而极化SAR图像中包含多种不同的地物类型,仅使用通道注意力不足以提取图像中不同地物的差异性。通过使用通道注意力、空间注意力[29,30]计算SKNet不同感受野特征的权值,SCSKFCN使图像中每个像素的预测结果能够自适应地融合多尺度特征,在标注样本数量较少的情况下提升了模型的分类性能。同时,为了充分利用无标注样本中隐含的信息,本文提出了一种预选-联合优化的半监督学习方法对模型进行参数优化。这种方法在模型优化过程前使用K-Wishart距离对无标注样本进行预选,并生成伪标签;在SCSKFCN的优化过程中,采用两步验证过程排除不可靠的伪标注样本,再将验证后的伪标注样本与真实标注样本结合,用于优化模型参数。这种训练方式通过一次训练过程即可有效地提升SCSKFCN模型的分类精度。
本文的结构安排如下所示:第2节介绍空间-通道选择性卷积核单元;第3节详细阐述空间-通道选择性卷积核全卷积网络(SCSKFCN);第4节介绍预选-联合优化半监督学习方法及其运行流程:第5节为实验验证部分,展示SCSKFCN-SPUO方法在标注信息较少条件下的分类性能和时间效率;第6节进行总结归纳。
2 空间-通道选择性卷积核单元
2.1 卷积运算与膨胀卷积
CNN通过采用局部感受野(Local receptive field)、共享权重(Shared weights)和下采样(Downsampling)的思想,达到一定程度的平移、尺度缩放和扭曲不变性[15]。CNN模型主要包含卷积运算、非线性激活函数运算和池化运算。卷积运算和非线性激活函数运算的表达式如式(1)所示
膨胀卷积[33]是卷积运算的一种变体,实现形式为对卷积核空间相邻的参数之间进行空洞填充(Hole padding)。在卷积核的参数量以及卷积核覆盖区域的不变情况下,膨胀卷积能够利用不同的膨胀因子(Dilation factor),灵活地改变感受野的大小。以卷积核大小3×3、膨胀因子为2的膨胀卷积为例,相比相同感受野大小的5×5普通卷积,膨胀卷积具有更少的参数,减少了运算量。
2.2 注意力机制
注意力机制(Attention mechanism)基于不同特征的重要程度不同的假设,自适应地调整模型对不同特征的重视程度。注意力机制中的特征权值的计算通常借助门控函数(Gating function)实现,例如Softmax函数或Sigmoid函数。Hu等人[34]提出了SENet,使用注意力机制自适应地对不同通道的特征进行幅度调制。Li等人[28]提出了SKNet,如图1(a)所示,SKNet对不同感受野特征计算每个感受野特征在通道维度上的融合权重。首先,SKNet对不同感受野的特征进行求和,再对全局平均池化后的求和特征分别计算每个感受野的权重;使用Softmax在通道维度上对感受野的权重进行幅度归一化,分别对每个感受野特征与其对应权值使用逐像素相乘,最后通过逐元素相加得到融合后的特征。由于极化SAR图像地物分类需要对每个像素都进行类别预测,而图像中可能包含多种不同的地物类型,在一个通道中对不同类型的像素使用同一个融合权值不能凸显类型之间的差异性。Woo等人[29]和Park等人[30]提出了空间注意力,对不同像素之间的重要性进行加权,增强了网络提取感兴趣区域中信息的能力。Woo等人[29]提出的空间注意力模块如图1(b)所示,对输入特征分别求解通道维度上的均值与最大值,并使用卷积运算和Sigmoid函数计算空间注意力权值。本文将空间注意力思想[29,30]用于SKNet中特征融合的权值运算过程,提出了空间-通道选择性卷积核单元(Spatial-Channel Selective Kernel Unit,SCSK单元),为每个像素的每个通道计算多尺度特征的融合权值,以适应一幅输入图像中不同类别、不同尺寸的地物特征。
图1 SKNet模块与空间注意力模块Fig.1 SKNet module and spatial attention module
2.3 空间-通道选择性卷积核单元
本节定义SCSK单元输入特征的维度为Fin∈其中第1个维度为特征的通道数,第2和第3个维度分别表示特征的高和宽。SCSK单元的结构如图2所示。
首先,SCSK单元使用两组不同感受野大小的卷积核对输入特征进行特征提取,其中FR3和FR5分别表示感受野为3和5的卷积核提取到的特征。为计算不同像素的各个通道上两种感受野特征融合的权重,SCSK单元对两种特征进行逐元素相加(Elementwise addition)得到特征和(Feature Sum)Fsum,并计算通道注意力(Channel Attention,CA)和空间注意力(Spatial Attention,SA)权重,对两种不同的感受野特征在每个像素的每个通道上进行融合。
如图2(b)所示,在计算CA权值时,对求和后特征Fsum求取其每个通道中所有像素的均值Fgap,即全局平均池化(Global Average Pooling,GAP),再使用全连接层进一步提取特征Femb。Fgap和Femb分别由式(2)和式(3)计算:
其中,⊕为逐元素相加。图2中,感受野为5的卷积核使用膨胀卷积运算实现。在具体实现上,膨胀卷积运算的卷积核大小为3,膨胀因子为2。
3 空间-通道选择性卷积核全卷积网络
本节将对空间-通道选择性全卷积网络(SCSKFCN)的输入特征提取及其结构进行详细讲解。
3.1 输入特征提取
极化SAR图像中的每个像素都能够表示为后向散射矩阵S的形式,其表达形式为
其中,SHH和SVV分别表示水平、垂直极化通道的同极化回波功率,而SHV和SVH则分别表示交叉极化通道的回波功率。考虑单站雷达的情况,根据互换条件(Reciprocity condition),有SHV=SVH。Pauli散射向量k可以表示为
其中,上标 T表示转置运算。因此,极化SAR图像的相关矩阵T可以表示为
其中,上标 H表示埃尔米特转置(Hermitian transpose)。根据特征分解模型[4],相关矩阵可以分解为
其中,[λ1,λ2,λ3]和U3=[e1,e2,e3]分别为相关矩阵的特征值和特征向量。基于特征分解模型,Cloude等人[4]提出了Cloude-Pottier分解模型,包含有熵(Entropy)H、平均alpha角度(Mean alpha angle)和异质度(Anisotropy)A,如式(12)–式(14)所示
其中,e1i为ei向量的第1个元素。SCSKFCN的输入特征为极化相关矩阵的上三角元素(Upper-triangular elements)和Cloude-Pottier分解模型元素的结合,即
其中,ℜ(·)为复数的取实部运算,ℑ(·)为取虚部运算。
3.2 空间-通道选择性卷积核全卷积网络
SCSKFCN采用了空间-通道选择性卷积核单元,通过联合使用空间注意力和通道注意力机制,在为输入图像中每一个像素提取不同尺度特征的同时,也使用计算得到的特征权重进行不同尺度特征的融合,提升了模型提取特征的能力。如图3所示,SCSKFCN的架构中包含了编码器、解码器、跳线连接(Skip connection)和Softmax分类器。图中,SCSKConv表示SCSK单元;Max Pooling表示最大池化下采样运算层;Upsampling表示上采样单元,它由一个卷积核尺寸为3×3的卷积运算层和一个最近邻插值(Nearest neighbor interpolation)上采样运算层构成;Skip Connect表示跳线连接(Skip connection);R3Conv表示卷积核尺寸为3×3的卷积运算层。特征图下方的数字表示该特征图的通道数量,左上方的数字表示该特征图的空间尺寸。编码器包含3个SCSK单元和两个最大池化(Max pooling)下采样运算层,对输入图像自适应地提取多尺度的特征并进行下采样。解码器负责将编码器提取的分层语义特征恢复到与原始图像相同的尺寸,它包含两个上采样单元和一个标准卷积运算层。由于下采样导致图像中细节信息丢失,解码器对编码器浅层特征与上采样的深层特征进行跳线连接,保留空间上的细节信息。本文使用的跳线连接为一个卷积核尺寸为1×1的卷积运算层构成。除Softmax分类器外,SCSKFCN中使用的非线性激活函数均为Leaky ReLU,其公式为
图3 空间-通道选择性卷积核全卷积网络(SCSKFCN)的架构Fig.3 Architecture of Spatial-Channel Selective Kernel Fully Convolutional Network (SCSKFCN)
其中,ε ∈(0,1)表示一个较小的斜率。当输入特征x的取值小于0时,ε不仅起到引入非线性映射的作用,还避免了ReLU激活函数在输入为负数时出现的死区(Dying ReLU)问题[32]。
由于极化SAR图像地物分类的标注像素的分布在空间上较为稀疏,与文献[22,23]类似,SCSKFCN采用大小为128×128的滑动窗口、步长为32对输入图像进行切割。SCSKFCN中的卷积运算层通道维度Dd=32,卷积核参数使用Xavier Uniform初始化,偏置项参数初始化为0。
4 预选-联合优化半监督学习方法
根据文献[24–27],半监督学习算法能够有效地提升极化SAR图像地物分类算法的精度性能。本文提出了预选-联合优化半监督学习(SPUO)方法,通过在训练前对伪标注像素进行预先选择,在训练时使用真实标注像素和经过验证伪标注像素对SCSKFCN进行联合优化。
4.1 无标注像素预选及伪标签生成
SPUO的预选过程在SCSKFCN的训练过程开始前进行,使用K-Wishart距离对无标注样本进行选择,并生成伪标签。选用K-Wishart距离的原因是K-Wishart分布具有非高斯统计特性,通过采用形状参数τ,相比Complex Wishart分布对极化SAR数据中非均质区域具有更好的描述能力。
设极化SAR图像的地物类别总数为C。K-Wishart距离的定义为其中,n为极化SAR图像多视视数,d是向量维度,τ是形状参数(Shape parameter)。Vc表示类别c的平均相关矩阵,c=1,2,···,C。|·|和Tr(·)分别是矩阵的行列式和矩阵的迹。Γ(·)表示标准gamma函数,Bv(·)表示v阶第2类修正贝塞尔函数。基于K-Wishart距离对无标注像素的类别判定过程是利用一个无标注像素的相关矩阵计算与每一个类别平均相关矩阵Vc的K-Wishart距离,将该距离值最小的类别作为该像素的判定结果。本文使用每个类别真实标注像素的相关矩阵平均值分别对每个类别的平均相关矩阵Vc进行初始化。在估计每个像素的形状参数τ时,首先计算每个像素点的3×3邻域内9个像素的相对峰值(Relative kurtosis)XRK,由式(18)所示
其中,|·|表示复数的模长,E(·)表示均值。形状参数τ可由式(19)计算:
对每一个地物类别,SPUO在预选过程中使用K-Wishart距离对距离该类别真实标签像素小于r1=21的无标签像素进行类别判定,并对判定结果与该真实标注类别相同的无标签像素赋予伪标签。r1的定义为两个像素之间横、纵坐标的差值的二范数,单位为像素。考虑到极化SAR图像中不同地物类别的像素数量存在较大的不平衡现象,本文对每个类别的伪标签像素进行随机采样,采样数量为该类别真实标签像素数量乘以采样因子μ=10。采样得到的各个类别的伪标签像素作为预选伪标签样本,参与SCSKFCN的联合优化过程。
4.2 联合优化
在SCSKFCN训练过程中,联合优化基于交叉熵(Cross entropy)损失函数,使用真实标签和经过验证的伪标签对SCSKFCN进行联合优化。
交叉熵源于KL散度(Kullback-Leibler divergence)。KL散度用于衡量两个概率分布之间的差异,可由式(20)表示
其中,x表 示输入数据的分布,y和p分别表示真实标签分布和模型输出的预测概率分布。KL散度为0表示真实标签分布和预测概率分布为同一分布。由于真实标签分布y是确定量,KL散度的第2部分为常数,在模型优化过程中可以省略,故本文使用交叉熵作为联合优化的基础损失函数,通过训练过程减小预测分布与真实分布之间的差异。
半监督学习方法在生成伪标签时,可能会引入与真实地物类别不同的伪标签。针对这个问题,本文提出了针对伪标签像素的两步验证过程(Two-step Verification),分别为预测一致验证(Correctness Verification)和预测概率验证(Probability Verification)。预测一致验证的定义是验证SCSKFCN对伪标签像素的预测结果是否与其伪标签相同,预测概率验证的定义是SCSKFCN对伪标签像素的预测概率是否大于概率阈值超参数δ。联合优化方法针对一个输入滑窗数据条件下的流程框图如图4所示。
本节以极化SAR图像中的一个滑动窗口为例对SCSKFCN的联合优化过程进行介绍。首先,SCSKFCN对滑动窗口内的像素进行类别预测,输出该滑动窗口的类别预测图(Prediction)。其次,依据该滑动窗口内的伪标签像素位置,依次对伪标签像素进行预测类别验证和预测概率验证,得到满足两步验证条件的伪标签像素。然后,联合使用真实标签像素与满足条件的伪标签像素在交叉熵的准则下计算SCSKFCN的损失值,如式(21)所示。
其中,Nla和Npe分别代表当前滑动窗口中真实标签像素数量和通过两步验证的伪标签像素数量;{y}la和{y}pe分别代表当前滑动窗口中真实标签像素与通过两步验证的伪标签像素的索引集合;yi为像素i的标签的独热向量(One-hot vector),pi为该像素的预测概率向量。最后,使用Adam优化器,依据损失值对SCSKFCN中的参数进行更新,再使用下一个滑动窗口重复联合优化过程,直至训练过程终止。
4.3 预选-联合优化半监督学习方法流程
本文提出的预选-联合优化半监督学习方法的流程图如图5所示,具体步骤如下:
图5 预选-联合优化半监督学习方法流程图Fig.5 The framework of semi-supervised preselection and united optimization method
步骤1 通过使用K-Wishart距离对符合条件的无标注样本进行预选,并判定被预选样本的伪标注标签;
步骤2 对极化SAR图像原始输入进行特征提取,并对提取得到的特征及其对应的标签图切分尺寸为128×128的滑动窗口;
步骤3 在每一次模型参数更新中,对伪标注样本进行两步验证,使用真实标注样本和通过验证的伪标注样本,对SCSKFCN的参数进行联合优化;
步骤4 使用优化后的SCSKFCN对极化SAR图像进行类别预测。
5 实验结果和分析
为了验证SCSKFCN-SPUO算法的有效性和鲁棒性,本节将展示SCSKFCN-SPUO算法在两个真实数据集上与CNN,PCN,ARCN等模型的对比实验结果。本文使用的CNN模型的输入尺寸大小为15×15,包含两个卷积核尺寸为3×3、通道数分别为32和64的卷积运算层和一个通道数为128的全连接层,以及一个Softmax分类器。PCN,ARCN的参数设置分别与文献[21–23]中表述一致。为了体现SCSKFCN的有效性,本节还使用R5FCN,SKFCN的实验结果与SCSKFCN进行比较。其中,R5FCN表示使用感受野大小为5的卷积运算层代替SCSK单元,保证了两个模型的最大感受野大小相同;SKFCN表示使用感受野大小分别为3和5的特征的SK单元替代SCSK单元。
本文实验部分采用的评价指标包括各类别准确率、全局分类准确率(Overall accuracy,OA)和一致性指标Kappa系数,在极化SAR图像的验证集上对各方法的性能指标进行评估。本文对所有方法进行了10次重复的实验过程,并使用得到的10次实验结果的平均值作为最终结果。本文实验使用的计算平台为Dell T640服务器,32GB内存和Tesla T4显卡,使用的深度学习框架为Tensorflow 1.8.0。
5.1 Flevoland地区极化SAR图像数据集
本数据集是AIRSAR平台于1989年在Flevoland地区获取得到的,该图像尺寸为1024×750。图6(a)展示了该图像的PauliRGB伪彩色图像,图6(b)和图6(i)分别展示了该图像对应的真实地物类型标签图(Ground truth)和标签图中颜色与类别的对应关系。图6(c)–图6(h)展示了各个分类算法的分类结果。所有用于实验对比的方法均使用1%采样率对标签图中各个类别的地物进行采样,用于模拟人工标注信息。由于各个地物类别之间的标注数量存在较大差异,这对分类算法在不平衡数据集中的鲁棒性要求较高。
图6 Flevoland图像分类结果图Fig.6 Classification results of Flevoland image with different methods
表1展示了各个算法在Flevoland图像上的分类精度以及运行时间效率,在训练时间中括号内的部分为预选过程耗时。可以看出,在仅使用真实标注像素用于模型优化的算法中,SCSKFCN达到了更高的分类精度。由于感受野较小及特征提取能力较弱,CNN的分类性能弱于其他基于FCN的方法。PCN基于FCN架构并使用极化特征编码提取特征,有效提升了模型的分类性能。R5FCN使用滑动窗口作为输入,在参数更新时仅使用窗口中的真实标注样本,其参数更新过程类似于小批量(minibatch)训练[35],相比PCN在分类性能和应用灵活性上得到了提升。SKFCN通过使用通道注意力选择的方式,针对输入特征自适应地融合多尺度卷积核提取到的特征,在多数类别上相比R5FCN有所提升。通过联合使用空间-通道注意力对多尺度卷积核的特征进行加权,SCSKFCN进一步提升了模型的分辨能力,在Potatoes,Grasses,Beet这些小尺寸地物上相比R5FCN和SKFCN能够达到更高的分类正确率,同时能在其他类别上达到同等性能。SPUO算法在训练前预选部分无标签像素,生成了伪标签;在训练过程中,SPUO算法对伪标签像素的可靠性进行判定,并使用可靠的伪标签像素与真实标注像素一起对SCSKFCN进行优化,相比全监督学习方式以额外约30%的训练时间为代价,进一步提升了模型的分类性能。根据结果可以看出,使用SPUO算法对SCSKFCN进行优化,在绝大多数类别上相比仅使用真实标注样本进行全监督学习的情况都有提升,在测试集上的OA指标提升了0.44%。
表1 Flevoland图像分类结果表(%)Tab.1 Classification accuracy comparison on Flevoland image (%)
5.2 Oberpfaffenhofen地区极化SAR图像数据集
第2个数据集是由ESAR平台在德国Oberpfaffenhofen地区获取的。本幅极化SAR图像尺寸为1300×1200。图7(a)中为该图像的PauliRGB伪彩色图像,图7(b)和图7(i)分别为该图像对应的真实地物类型标签图和颜色与类别对应关系图。除CNN方法使用1%的采样率,其他方法均使用0.2%的采样率对标签图中各个类别的地物进行采样,用于构建标注样本集。图7(c)–图7(h)展示了各个分类算法的分类结果,表2展示了各个算法的分类精度,在训练时间中括号内的部分为预选过程耗时。
图7 Oberpfaffenhofen图像分类结果图Fig.7 Classification results of Oberpfaffenhofen image with different methods
表2 Oberpfaffenhofen图像分类结果表(%)Tab.2 Classification accuracy comparison on Oberpfaffenhofen image (%)
由于CNN模型受限于较小的感受野和较浅的网络架构,在使用1%的真实标注像素作为训练集的前提下,其分类精度仍然低于其他基于FCN的方法。ARCN使用基于对抗训练的重建学习,增强了编码器提取特征的能力,其在验证集上的OA指标比R5FCN高约1%。通过使用基于通道注意力对不同感受野的卷积核提取的特征进行通道加权融合,SKFCN在特征提取能力上相比R5FCN得到提高,同时在OA和Kappa指标上也高于R5FCN和ARCN。SCSKFCN通过使用空间-通道注意力对每个像素的多尺度特征进行加权融合,相比仅使用通道注意力的SKFCN在Built-up areas这个地物表征细节较多的类别和其他类别上均有提升。通过在训练过程中使用经过验证的伪标签像素与真实标注像素共同对网络进行优化,SCSKFCN-SPUO相比全监督学习方式以约40%的额外训练过程用时为代价,进一步提升了模型的分类性能。同时在图7(c)–图7(h)中,SCSKFCNSPUO方法在Built-up areas和Wood land两个类别上分类结果一致性在所有方法中是最好的。
5.3 预测概率验证阈值 δ对SCSKFCN-SPUO算法性能的影响
预测概率验证过程中的超参数δ是联合训练过程中直接决定每个伪标签像素是否被引入 SCSKFCN模型的优化过程的关键参数,与本文算法的分类性能直接相关。因此,本小节对参数δ进行进一步探讨,以[0.6,0.9]为搜索范围、0.05为步长,验证该参数的取值对SCSKFCN-SPUO算法的分类性能的影响,由图8所示。可以看出,当δ取值位于[0.65,0.80]范围内时,SCSKFCN-SPUO算法的分类性能较好。因此本文中SCSKFCN-SPUO算法在两幅极化SAR图像上均选用δ=0.70作为预测概率验证的阈值。
图8 预测概率验证阈值δ 对性能的影响Fig.8 Impact of different values ofδ
5.4 不同训练集大小对模型性能影响
本文中实验部分对两个极化SAR数据集构建的训练集分别由每个类别随机采样1.0%与0.2%的样本构成。为进一步验证本文算法的有效性,本小节在两个数据集上分别使用了原始采样百分比的2倍、4倍进行额外的对比实验,其结果如图9所示,蓝色的线条表示采用SPUO方式对SCSKFCN模型进行参数优化的结果。可以看出,SPUO能够在使用较少的训练样本条件下有效提升模型的分类性能,在原始采样百分比条件下,SCSKFCN-SPUO能够近似达到SCSKFCN使用2倍数量的样本作为训练集的分类性能。
图9 不同训练集大小的影响Fig.9 Impact of different sizes of training set
5.5 SCSK单元中卷积核尺寸选择的影响
本文中SCSK单元采用的卷积核尺寸为3和5,其中卷积核尺寸为5的卷积核使用参数大小为3×3,膨胀因子为2的膨胀卷积实现。为进一步验证卷积核尺寸选择的合理性,本小节使用卷积核尺寸1和3,1和5,以及使用普通卷积核尺寸为3和5的卷积核进行对比实验,其结果由图10所示。图10中,“1and3”和“1and5”表示卷积核尺寸为1和3,1和5的组合,“3and5”和“3andD5”分别表示使用普通卷积与膨胀卷积的尺寸为3和5的卷积核。可以看出,两种卷积核尺寸为3和5的SCSK单元构成形式的性能优于包含卷积核尺寸包含1的形式,说明较大的卷积核尺寸能够获取更具有类别辨识力的特征。同时,使用普通卷积的尺寸为5的卷积核与使用膨胀卷积的分类性能差距不明显,而使用膨胀卷积因为具有较小的参数量,其运算量也较小。因此,本文的SCSK单元选择使用的卷积核尺寸为3和5,尺寸为5的卷积核使用膨胀卷积。
图10 SCSK单元中卷积核尺寸组合的影响Fig.10 Impact of different combinations of kernel sizes in SCSK unit
5.6 不同结构的SCSK单元的影响
为了对SCSK单元的不同结构对模型性能的影响进行研究,本小节使用了3种不同于SCSK单元的构造进行对比实验。在SCSK单元中,CA权值与SA权值分别由Softmax形式和Sigmoid形式计算得到,它们的结构图如图2(b)和图2(c)所示。为了验证SCSK单元的有效性,本节对两种不同的权值计算方式进行了实验,分别为SCSKFCN_Var1及SCSKFCN_Var2。其中,SCSKFCN_Var1对CA和SA权值均使用Sigmoid形式计算;SCSKFCN_Var2对CA和SA权值均使用Softmax形式计算。使用Sigmoid形式的CA与使用Softmax形式的SA的计算方式示意图由图11所示,其中图11(b)的Softmax施加在两个权重特征的每一个元素上。另外,本节还包含了两种不同的仅使用CA的权重计算方式的结果,分别是使用Softmax形式的SKFCN和使用Sigmoid形式的SKFCN_2。实验结果由图12所示,SKFCN的性能优于SKFCN_2,说明CA权值以Softmax形式能够获得更好的性能。在Flevoland数据集上,SCSKFCN_Var1的性能略低于SCSKFCN。SCSKFCN和SCSKFCN_Var2的性能差距不大,均高于SKFCN,这表明引入SA权值能够有效提升模型对不同地物的分辨能力。由于使用Sigmoid形式计算SA权值的计算量相比Softmax形式更小,故本文采用Sigmoid形式计算SA权值。
图11 不同结构的SCSK单元的组成部分Fig.11 Building blocks of different architectures of SCSK unit
图12 不同结构的SCSK单元的影响Fig.12 Impact of different architectures of SCSK unit
5.7 SPUO中使用不同距离参数r 的影响
为研究SPUO中距离参数r的影响,本小节对距离参数r进行了对比实验。实验结果如图13所示,距离参数r的取值范围是[9,29],间隔为4。从图13可以看出,在Flevoland图像和Oberpfaffenhofen图像中r参数在大于等于13时对分类性能的影响不明显。这个现象的主要原因是本文在SPUO中对伪标签像素进行了采样因子μ=10的采样过程,使得伪标签样本集的规模在距离参数r增加的情况下没有明显的变化。
图13 SPUO中使用不同距离参数r的影响Fig.13 Impact of different values of r in SPUO
5.8 SPUO中不同判断准则的影响
为研究SPUO中判断准则采用Wishart和K-Wishart的影响,本小节对SPUO分别采用上述两种判断准则进行了对比实验。实验结果如图14所示,可以看出SPUO使用K-Wishart距离的分类性能优于使用Wishart距离的分类性能。这是由于K-Wishart分布具有非高斯统计特性,相比Wishart分布能够更好地描述极化SAR图像数据。
图14 SPUO中判断准则使用Wishart距离和K-Wishart距离的影响Fig.14 Impact of using Wishart distance and K-Wishart distance as criterion in SPUO
6 结论
本文提出了一种基于空间-通道选择性卷积核全卷积网络和预选-联合优化半监督学习的极化SAR图像地物分类方法。该方法能够在人工标注像素数量较少的情形下对极化SAR图像进行准确、高效的地物分类。该方法首先对无标签像素进行预选,并使用K-Wishart分类器对预选的像素进行伪标签生成,然后使用联合优化的方式同时使用真实标注像素和伪标签像素对SCSKFCN进行训练。在训练过程中,只有通过两步验证过程的伪标签像素才会被用于对SCSKFCN进行优化,降低了算法引入噪声标签的可能性。通过这种训练方式,该方法提高了分类模型的性能和训练效率。在Flevoland和Oberpfaffenhofen两个数据集上的实验结果验证了SCSKFCN-SPUO算法能够达到良好的分类性能和运行效率。