SAR图像方向性上下文协方差矩阵构建方法及地物分类应用
2024-04-17符婷陈思伟
符婷,陈思伟
国防科技大学 电子科学学院 电子信息系统复杂电磁环境效应国家重点实验室,长沙 410073
1 引言
合成孔径雷达SAR(Synthetic Aperture Radar )是一种高分辨率二维成像雷达,具有独特的全天时全天候的工作能力,是重要的遥感对地观测手段。随着传感器分辨率逐步提高,SAR 图像能够展现越来越丰富的地物细节,为其判读与解译奠定了基础。地物分类是SAR 应用的重要研究方向,在地图制图、环境监测以及军事侦察等领域有着广阔应用需求。尽管当前许多传感器具备了多极化、多波段的测量模式,但在实际工作中,由于其大幅宽、低成本等优势,单极化、单波段的SAR 图像依然应用广泛,并且有大量过往积累的数据待发掘利用。如何更好地发挥此类单通道SAR数据的应用价值,是值得研究的课题。
地物分类是遥感领域重要的基础性应用。然而,单通道SAR 图像有限的信息量限制了其分类性能。本文将以此为背景,探究单通道SAR 图像的信息维度拓展,以提升其应用潜能。传统的单通道SAR 图像分类大致可分为两种途径:基于像元散射信息及其统计分布的方法和基于图像空间纹理信息的方法(Guan等,2019)。统计建模方法的关键在于找到一种适用于各类SAR 场景的分布模型(Guan等,2019),常用分布模型有多元复高斯分布(Kong等,1988)、复Wishart分布(Lee等,1994a)、Weibull分布(Oliver,1993)、K分布(Lee等,1994b)和G0分布(Freitas等,2005)。此类方法在中低分辨率图像上得到了广泛应用(Gao,2010)。提取纹理信息是改善单通道SAR 图像分类精度的另一种思路,通过挖掘目标像元局部的空间信息来增加信息量,进一步提升可分性。SAR图像处理中常用的纹理特征有灰度共生矩阵GLCM(Gray-Level Co-occurrence Matrix)(Haralick等,1973)、分形模型(Pentland,1984)、马尔可夫随机 场MRF(Markov Random Field)(Chellappa 和Chatterjee,1985)、Gabor滤波器(Jain和Farrokhnia,1991;Lee,1996)等。Ulaby 等(1986)将GLCM的一、二阶统计量用于SAR 强度图像分类,此后基于GLCM 的方法在SAR 图像分析中得到了广泛应用(程雪姣等,2014;Liu等,2015;李强等,2018)。Clausi(2001)对比了GLCM、Gabor 滤波和MRF 这3 种纹理特征用于SAR 图像海冰分类的效果,指出GLCM 结合MRF 能够进一步提高分类精度。Dekker(2003)则分析了直方图测度、小波能量、分形维度、间隙度和半变异函数等纹理特征在城市区域的分类能力。局部二值模式LBP(Local Binary Pattern)(Ojala等,1996,2002)及其改进方法成为了21 世纪初期主要的局部纹理描述子之一(Liu等,2017)。在其基础上针对SAR图像提出的方法有多级局部模式直方图MLPH(Multilevel Local Pattern Histogram)(Dai等,2011)和多尺度局部Fisher 模式MLFP(Multiscale Local Fisher Pattern )(Zhao等,2021)。近年来,基于纹理的SAR图像分类研究多是将上述常用纹理特征进行结合或改进(Dai等,2011;Aytekin等,2013;Cheng等,2015;王璐等,2015;Guan等,2019)。此外,还有一些基于稀疏表征(Bi等,2022)、属性剖面(Attribute Profiles)(He等,2017;Tombak等,2019)等的新方法。
除了传统分类方法,近年来基于深度学习的SAR 图像分类方法不断涌现,并展现出优异的性能。Geng 等(2015)将深度卷积自编码器用于SAR 图像特征提取与分类。Zhao 等(2017)联合集成学习方法与深度置信网络从图像中提取高层次特征并用于地物分类。Zhang 等(2017)针对SAR 图像的复数特性提出了复数卷积神经网络CNN(Convolutional Neural Network),并通过实验证明其相对实数网络性能更好。Wu 等(2021)将注意力机制加入CNN 以获得更加鲁棒的上下文特征。深度学习类方法一般需要大量标记样本用以训练网络,然而SAR 数据的标记样本往往相对有限。对此,一些学者积极探索小样本下的深度学习方法。Qin 等(2017)使用玻尔兹曼机来解决分类中的小样本问题。Wu 等(2018)提出了一种迁移学习框架将预训练模型用于SAR 图像分类。此外,深度学习作为一种端到端的方法,有时缺乏可解释性,为光学图像提出的模型也未必适合SAR 图像。因此,发展结合机理的深度学习方法也是一种改进思路。Jiao 和Liu(2016)根据极化协方差矩阵和相干矩阵的Wishart 分布特性,将Wishart 距离引入深度堆叠网络并取得了较好的分类结果。Geng 等(2017)先提取了GLCM、Gabor和梯度直方图等特征,再输入一个深度收缩神经网络进行学习和分类。Chen和Tao(2018)通过提取极化特征提升了CNN 的分类精度。上述工作说明,结合专家知识或手工提取特征的深度学习方法有助于进一步提升SAR图像分类性能。
单通道SAR 图像每个像元只包含一个复散射值,信息量较为有限,也无法通过通道间运算提取特征。因此,利用邻近地物的空间相关性,从图像上提取纹理信息,是扩充像元信息量、增强地物辨识性能的重要途径。现有的纹理特征已经在SAR 图像分类中取得了广泛应用,但同时也还面临着一些挑战。一方面,SAR 图像的动态范围通常较大,一些提取流程中包含量化操作的特征,如GLCM,可能受到局部强散射点的影响而丢失暗部纹理细节。另一方面,以Gabor滤波器组为代表的一些方法,设置参数较多、特征维度较高。为了寻找最优的参数组合,手工调参的工作量较大。而且高维度的特征容易使分类器陷入“维数灾难”。基于上述背景,寻找一种更适合SAR 图像特性、能够高效提取SAR 图像空间信息的纹理特征,是进一步提升SAR图像解译水平的关键。
近来,Chen(2020)提出了上下文协方差矩阵CCM(Context Covariant Matrix )。CCM 能够较好地提取利用SAR 图像上下文信息。结合矩阵相似性检验,CCM 在SAR 图像相干斑滤波中取得了成功应用。在该工作的启发下,本文提出了一种SAR图像空间纹理表征方法——方向性上下文协方差矩阵DCCM(Directional Context Covariant Matrix),并在此基础上发展出了基于DCCM 纹理特征的SAR 图像分类方法。本文分别结合传统分类器和CNN,在AIRSAR 数据和UAVSAR 数据上开展了地物分类实验,验证了所提方法的有效性。
2 方向性上下文协方差矩阵(DCCM)
对于高分辨率SAR 图像而言,面状地物内部会呈现出更多的异质细节(如农田的田垄、水面的波纹),而不是某种均质特性。这一方面给从统计特性识别地物带来困难,一方面又提供了新的信息——空间纹理。纹理是一种重要的视觉特征,通常指图像中反复出现的局部模式及其排列规则(Tuceryan 和Jain,1993),也可以理解为邻近像元间的空间相关性。基于该思路,DCCM 在原有的散射信息上拓展利用了空间纹理信息,实现了单通道SAR图像像元信息增广。
以目标像元为中心取一个大小为(2n+1) ×(2n+1)的矩形邻域(n=1,2,……),可以将邻域像元按照其相对于目标像元的方向对称地划分为若干个区域。以四方向划分为例,如图1 所示,绿色、蓝色、黄色和橙色方块分别代表4 个方向(0°、45°、90°和135°)的邻域像元。在各区域内计算该方向上的平均纹理特性,将所有方向上的平均纹理特性组合即得到该目标像元的完整纹理特征。这种区域内部平均有利于得到更稳定的特征,然而过度平均将损失细节从而对纹理没有足够的分辨力,因此需要考虑划分方向的数目。兼顾稳定性和鉴别力,通常将方向数目设为4。
图1 四方向DCCM示意图Fig.1 Illustration of four-directional DCCM
构造DCCM 的第一步是提取上下文散射矢量。上下文散射矢量是由目标像元及关于其对称的两个邻域像元组成的向量。以3×3 邻域为例,如图2所示,红色的目标像元及其8个邻域像元一共可以构成如下4个上下文散射矢量。
图2 上下文散射矢量构建示意图Fig.2 Construction of context scattering vectors
式中,sn,m表示位于图像第n行、第m列的像元复散射值,上标“T”表示转置。类似地,对于大小为(2n+1) ×(2n+1) 的邻域,一共可以得到-1个上下文散射矢量。
根据构建上下文散射矢量的邻域像元相对中心像元的方向,可以将其分为不同方向的上下文散射矢量(d=0°,45°,90°,135°)。例如图1中,由绿色邻域像元构成的即为0°方向的上下文散射矢量,它们反映了该方向上的地物后向散射变化。利用d方向的上下文散射矢量,可以得到d方向的DCCM
式中,Nd表示d方向上下文散射矢量的数目,如图1中邻域大小为7×7时,Nd=7。
四方向DCCM 可将目标像元从单个复数值拓展成为了C0°、C45°、C90°和C135°等4个矩阵,每个矩阵包含了该方向上的纹理特性。DCCM 的方向数目可以根据实际需要进行调整。从理论上讲,划分的方向越多,能够捕获的纹理细节就越丰富。不难发现,CCM(Chen,2020)相当于一方向的DCCM,所以它能够表征的上下文信息较为有限。一方面,DCCM 将像元在邻域中所处的位置划分地更为细致,相对于原始CCM 加入了更多的方向信息,有利于表征更复杂的空间纹理;另一方面,这种划分方式只区分邻域像元相对于中心像元的方向,而不区分邻域像元相对中心像元的距离远近,所以具有一定的尺度不变性。
3 基于DCCM 纹理特征的SAR 图像地物分类方法
3.1 DCCM纹理特征提取
在DCCM 表征中,每个协方差矩阵Cd都是Hermite 矩阵,其中元素关于主对角线呈共轭对称关系,所以这里只考虑矩阵上三角的元素。Cd中包含两类值:对应散射强度的主对角线元素以及对应像素间相关的非对角元素。其中,非对角元素的相关值事实上是由邻域内像元的强度值相乘后取平均得到的,受到强度值大小的影响,无法直观反映像素间的相关性。因此,对相关值进行归一化:
对于直接从SAR 数据计算得到的DCCM,存在一些极端值使得整体动态范围较大,而大部分值集中在一个相对较小的区间内,造成长拖尾的分布形态。这种分布下的图像主体部分对比度不足,不利于纹理提取。分析发现,DCCM 中的强度值元素取值集中在0附近,而归一化相关值集中在1附近。为了增大图像主体部分对比度,使得被压缩的纹理细节得以展现,考虑对大部分元素值所在的区间进行展宽。利用对数函数的性质,进行如下变换
式中,cintensity代表强度值元素(c11,c22,c33),代表归一 化相关值元素(,,)。经过对数变换,DCCM 中的极端值将被压缩,图像主体部分对比度得到增强,使原先处于暗处的纹理细节凸显出来。
经过归一化处理和对数变换后,将DCCM 中4 个协方差矩阵的上三角元素取出,构成1 个特征向量。注意到,每个Cd中的c22都是一样的,为中心像元的强度。因此,去除3 个重复的c22后,可以得到21 维的DCCM 纹理特征,特征各维度的含义如表1所示。
表1 DCCM纹理特征元素Table 1 Elements of DCCM texture feature
提取DCCM 纹理特征的总体流程如图3 所示。类似地,采用不同大小的邻域窗口,可以构建各种尺度的DCCM,以适用于不同粗细的空间纹理和不同大小的地物。DCCM 窗口通常应该大于等于5,具体要根据图像分辨率和图上地物的尺度,结合实验选取。与Gabor 滤波、LBP 等需要手动选择多个参数的方法相比,计算DCCM 纹理特征只需事先确定好邻域窗口大小,没有复杂的调参处理,在实际应用中具有一定优势。
图3 DCCM纹理特征提取方法Fig.3 Framework of DCCM texture feature extraction
3.2 SAR图像地物分类方法构建
基于DCCM 纹理特征,本文提出了一种SAR图像地物分类方法。该方法通过结合强度信息和纹理信息,拓展单个像素信息容量,进而提升SAR 图像分类性能。首先,对输入的SAR 图像进行相干斑滤波,以减少相干斑噪声对纹理提取的影响。其次,依据图像分辨率以及地物形态和尺度选择邻域窗口大小,并遍历全图计算DCCM。对于地物内部相对均匀、成片状分布的农作物、水体等场景通常可选择较大的窗口,而包含独立建筑物和道路等细碎或狭长地物的城市场景则需要较小的窗口,以避免窗口内混入过多不同类别像素。然后,对得到的DCCM 进行相关值归一化处理以及对数变换。前者能够减少各维度特征之间的冗余信息,后者能提升图像主体部分的对比度,让纹理细节更好地展现出来。基于变换后的DCCM,提取21维的DCCM纹理特征向量,选取一定比例的标记样本作为训练集,输入分类器中进行训练。最后用训练好的分类器对图像进行分类,得到分类结果。所提方法的总体流程如图4所示。
图4 SAR图像分类流程Fig.4 SAR image classification scheme
4 实验结果与分析
4.1 实验设置
本节选择基于GLCM、Gabor 滤波、MLPH 以及CCM 纹理特征的分类方法(下文分别简称GLCM 方法、Gabor方法、MLPH 方法和CCM 方法)作为对比方法开展地物分类实验。其中,GLCM 和Gabor 滤波是常用的纹理特征,在光学和SAR 图像处理领域都取得了广泛的应用。而MLPH是近年来基于LBP 方法针对高分辨率SAR 图像提出的纹理特征,并且在文献(Dai等,2011)中表现出优于前面二者的性能。GLCM 采用量化为32 个灰度级的SAR 幅度图像计算,设置4 个方向、两种步长。从GLCM 中提取对比度、相关、能量和同质性这4种不相关的统计量(Ulaby等,1986),构成32维的特征向量。Gabor 滤波器采用了5 种尺度、8 个方向,得到40 维的特征向量,其参数设置和实现参考李建萍等(2010)和Haghighat 等(2013)所著的文献。MLPH 参照原始文献(Dai等,2011)提供的方法及参数实现,其特征向量为75 维。另外,CCM 方法也在实验中作为对比方法,以验证加入方位信息是对像元信息容量的进一步增广,能够改善SAR图像分类性能。
在分类器选择方面,本节采用两种经典的机器学习分类器:决策树DT(Decision Tree)和支持向量机SVM(Support Vector Machine)。其中,SVM 采用径向基核函数,其超参数采用网格寻优方法确定。在预处理阶段采用SimiTest滤波(Chen等,2012)对SAR 图像进行相干斑抑制。实验中,取已知样本的10%作为训练集,其余样本作为测试集,用总体精度OA(Overall Accuracy)和Kappa系数来定量评估实验结果。为了排除不同训练样本的干扰,每组实验随机选取训练集,重复五次,取五次实验的平均分类精度和Kappa 系数。此外,邻域窗口大小均设置为25×25。
4.2 AIRSAR数据集地物分类实验
实验数据一是来自NASA/JPL AIRSAR于1989年获得的荷兰Flevoland 地区L 波段数据,大小为750×1024。该区域的主要地物为农作物,共分为15类,包括茎豆、豌豆、森林、苜蓿、小麦1、甜菜、土豆、裸地、草地、油菜籽、大麦、小麦2、小麦3、水域和建筑物。利用数据的HH极化和VV极化分别开展对比实验。AIRSAR 数据如图5 所示,其真值如图6所示。
图5 AIRSAR数据图像Fig.5 SAR images of AIRSAR dataset
图6 AIRSAR数据真值Fig.6 Ground truth of AIRSAR dataset
在10%的训练率下,对HH极化数据的地物分类精度和Kappa 系数如表2 所示,分类结果如图7所示。从总体分类精度上看,基于DCCM 纹理特征的分类方法(下文简称DCCM 方法)取得了最高的总体分类精度和Kappa系数,并显著高于其他方法。对DT 分类器,DCCM 方法取得了77.69%的总体精度。基于CCM 纹理特征的分类方法和基于Gabor 滤波特征的分类方法(下文分别简称为CCM方法和Gabor 方法)总体精度分别为69.45%和65.13%。而基于GLCM 纹理特征的分类方法和基于MLPH 纹理特征的分类方法(下文分别简称为GLCM 方法和MLPH 方法)分类精度均不足60%。对SVM 分类器,5 种方法的分类精度都有所提升。其中,DCCM 方法的总体分类精度达到了96.51%,而其他方法的总体精度都不到85%。可以看出,相比其他方法,DCCM 方法显著提升了该数据的分类性能。这反映出DCCM 纹理特征能够有效结合SAR 图像的强度和纹理信息,进而增强了地物的可分性。相比于CCM 方法,DCCM 方法的分类精度有明显提高,证实了加入方向性能够更精细地提取SAR 图像纹理,有利于地物的辨识。此外,在DT 分类器上,Gabor 方法对建筑物的分类精度(98.29%)略高于DCCM 方法(97.71%)。结合分类结果图分析,该差异主要来源于夹在大麦和小麦3之间的一小块建筑物,可能是由于窗口相对较大使DCCM方法受到了邻近地物的干扰。
表2 AIRSAR数据HH极化地物分类精度和Kappa系数Table 2 Classification accuracy and Kappa coefficient of HH polarization in AIRSAR dataset/%
图7 AIRSAR数据HH极化分类结果图Fig.7 Classification results of HH polarization in AIRSAR dataset
从分类结果图上看,DT 分类器的分类结果普遍不太理想。MLPH 方法和GLCM 方法的结果图上遍布着细碎的误分像素点,整体正确率较低。Gabor 方法、CCM 方法和DCCM 方法的结果稍好一些。SVM 分类器的分类结果整体有所改善。其中,DCCM 方法的对大部分地物的分类效果都很好,只对油菜籽、草地和水域等地物出现了零星的错误。值得注意的是,GLCM 方法虽然总体精度还不错,但其错误分类的像素散布在各个地物块中,从视觉上看并不太理想。这可能表明GLCM方法对图像的空间信息利用不足。相比之下,Gabor 方法和DCCM 方法更倾向于在地物交界处出现错误,而地物块内部相对完整。可以发现,CCM 方法在油菜籽等地物中出现了大面积的误分,而这一情况在DCCM 方法中得到了明显改善,说明加入方向性信息能够提升地物辨识能力。总的来说,DCCM 方法正确率更高,并且得到了更加平滑完整的结果图,证实了DCCM 纹理特征能够有效结合像素强度和空间纹理信息,实现地物分类性能的提升。
对VV 极化数据的地物分类精度和Kappa 系数如表3 所示,对应的分类结果如图8 所示。VV 极化数据的总体分类精度普遍低于HH 极化。DCCM方法依然取得了最高的总体精度和Kappa系数,在DT和SVM 分类器上的分类精度分别达到了73.97%和95.22%,超出其他4 种方法10%以上。在DT 分类器上,MLPH 方法和GLCM 方法的总体精度均不足50%,而Gabor方法和CCM方法的精度分别达到61.33%和63.48%。在SVM 分类器上,GLCM 方法的分类精度有大幅提升,达到了82.65%。Gabor方法的总体精度也达到了81.65%,而另外两种方法精度均不足80%。值得注意的是,CCM 方法在VV极化上的分类精度相比HH 极化大幅降低,而DCCM 方法依旧保持了较好的性能。可见方向性信息的加入提升了DCCM 纹理特征的鉴别力,增强了特征的鲁棒性,从而在不同极化的数据上能取得相对稳定的分类性能。
表3 AIRSAR数据VV极化地物分类精度和Kappa系数Table 3 Classification accuracy and Kappa coefficient of VV polarization in AIRSAR dataset/%
图8 AIRSAR数据VV极化分类结果图Fig.8 Classification results of VV polarization in AIRSAR dataset
从VV 极化数据的分类结果图上看,可以得到与HH 极化类似的结论。可以看到,GLCM 方法的分类结果图容易存在噪声的现象在此处更加显著。在SVM 分类器上,GLCM 方法没有出现大面积错误,但几乎每块地物上都散布着零星的误分像素,该现象在小麦3上尤为明显。相比之下,总体精度更低的Gabor 方法和MLPH 方法则更多是在地物边缘出现错误,分类结果的完整性更好。这可能反映了GLCM 纹理特征有时并不适应SAR 图像特性,因此没能很好地提取图上空间信息。对比其他方法,DCCM 方法取得了很好的分类结果,分类错误较少,并且地物完整性得到了较大提升。
4.3 UAVSAR数据集地物分类实验
实验数据二是机载L 波段雷达UAVSAR 于2012年获取的加拿大Manitoba 地区数据,大小为1011×1325。该区域有7 类农作物,包括燕麦、油菜籽、小麦、玉米、大豆、草料作物和阔叶林。该数据的HH 和VV 极化图像分别如图9(a)(b)所示,真值如图10所示。
图9 UAVSAR数据图像Fig.9 SAR images of UARSAR dataset
图10 UAVSAR数据真值Fig.10 Ground truth of UAVSAR dataset
对HH 极化数据的地物分类精度和Kappa 系数如表4 所示,对应的分类结果如图11 所示。在DT分类器上,DCCM 方法的总体分类精度达到了84.92%,CCM 方法达到了77.66%,而其他方法均不到70%。在SVM 分类器上,DCCM 方法的总体分类精度(96.95%),高出其他方法7%以上。GLCM 方法(89.56%)和CCM 方法(85.23%)也取得了不错的分类精度。而在AIRSAR 数据上表现较好的Gabor 方法在此表现不佳,总体精度仅为79.96%。此外,MLPH方法在两个分类器上分类效果都比较差,总体精度均不到60%。几种方法的Kappa 系数高低与总体分类精度呈现出对应的关系。不难看出,在对比方法性能出现波动的情况下,DCCM 方法依旧获得了较好的分类结果,反映了DCCM 纹理特征在这两景数据上均能有效挖掘图像上下文信息,具有更好的稳健性。
表4 UAVSAR数据HH极化地物分类精度和Kappa系数Table 4 Classification accuracy and Kappa coefficient of HH polarization in UAVSAR dataset/%
图11 UAVSAR数据HH极化分类结果图Fig.11 Classification results of HH polarization in UAVSAR dataset
结合分类结果图进行分析,首先注意到MLPH方法大面积混淆了小麦、大豆和燕麦等地物,因此其总体分类精度较低。与AIRSAR 数据类似,GLCM 方法在SVM 分类器上取得了较高的分类精度,其分类结果图上没有大面积的误分类,但存在明显的、无关地物类别的噪声,地物完整性较差。这对于基于图像分类的后续应用,如地图制图、变化分析等都是不利的。在SVM 分类器上,Gabor 方法对玉米和油菜籽、小麦和燕麦等地物存在较多混淆,可能是由于这几种农作物的纹理和散射强度都比较相似。然而可以发现,DCCM 方法虽然也对这几类地物出现了错误分类,但相比Gabor 方法有了明显改善,反映了DCCM 在提取SAR 图像上的细微纹理差异时更具优势。总的来说,DCCM 方法取得了最佳的分类结果,其分类正确率更高,得到的地物完整性更好。
对VV 极化数据的地物分类精度和Kappa 系数如表5 所示,分类结果如图12 所示,从中可以得到的结论与HH 极化基本一致。DCCM 方法在DT和SVM 分类器上的总体分类精度分别达到了87.33%和97.40%,展现出优异的性能。相比其他方法,DCCM 方法对总体精度提升达到7%以上。注意到,GLCM 方法在SVM 分类器上的总体精度已经达到了90%以上,但是其结果图上的噪声依旧显著(图12(h))。推测是GLCM 纹理特征没能很好地利用SAR 图像上像素之间的空间相关性,从而导致了较多噪声的出现。另外,相比CCM 方法,DCCM 方法对燕麦、小麦和油菜籽等地物的分类效果明显改善,再次证明了方向性信息对于更精细地刻画纹理、提升地物可分性的必要性。
表5 UAVSAR数据VV极化地物分类精度Table 5 Classification accuracy and Kappa coefficient of VV polarization in UAVSAR dataset/%
图12 UAVSAR 数据VV极化分类结果图Fig.12 Classification results of VV polarization in UAVSAR dataset
结合AIRSAR 数据和UAVSAR 数据的实验结果,可以认为DCCM 纹理特征能够较好地提取SAR 图像上下文信息,提升地物的可辨识性。基于DCCM 纹理特征的分类方法在两景数据上均取得了最好的分类结果。该方法能够更好地适应SAR 图像特性,显著减少了地物之间的混淆,提升了SAR 图像地物分类性能。此外,相比其他方法,DCCM 方法得到的分类结果图更加完整、平滑,对于后续应用更加有利。
4.4 基于卷积神经网络的地物分类实验
近年来,越来越多的深度学习方法被引入SAR 图像处理并得到成功应用。由于端到端的深度学习方法缺乏可解释性和可控性,有时未必能适应SAR 图像特性,因此发展结合专家知识和机理的深度学习方法是提升其应用性能的一个重要途径。本节将所提方法结合CNN 开展实验,以验证DCCM纹理特征与深度学习方法结合的可行性。
本节采用了1个基本的3层CNN(Chen和Tao,2018)进行地物分类实验,网络结构如图13所示。该网络包含3 个卷积层、两个最大池化层和1 个全连接层。网络输入为15×15×m的特征图像,其中m是特征维度。对于DCCM 纹理特征而言,m=21。3 个卷积层中,分别采用了30、60、120 个大小为2×2 的卷积核,卷积步长为1。每两个卷积层之间设置了一个2×2 的最大池化层,其步长为2。最后,对全连接层应用了Dropout 正则化方法,然后通过Softmax函数输出网络预测的类别标签。
图13 CNN网络结构图Fig.13 CNN architecture
实验对比了基于原始数据的CNN 以及基于纹理特征的CNN,前者属于端到端的深度学习方法,而后者是结合手工提取特征的深度学习方法。在基于纹理特征的CNN中,采用了5 种纹理特征分别与CNN 结合以对比不同纹理特征的性能,包括GLCM、Gabor 滤波、CCM 和DCCM 纹理特征。为了与上一节实验中25×25的邻域窗口保持一致,这里先从纹理特征图上取出25×25×m的图像块,然后缩放成15×15×m作为网络输入。由于结合纹理特征的CNN 在10%训练率下分类精度均可达到99%,性能差距不明显,所以本节将训练率设置为5%,以便对比不同特征的分类性能。此外,这里将结合SVM 分类器的DCCM 分类方法也加入对比,以比较传统方法和深度学习方法的性能差异。实验中采用全图分类精度和Kappa系数作为评价指标。
AIRSAR 数据的分类精度和Kappa 系数如表6所示。相比基于原始数据的CNN(以下简称原始CNN),基于纹理特征的CNN 在分类精度和Kappa系数上均有显著提升。其中,MLPH-CNN 取得了最佳的分类精度(98.92%和98.78%),略高于DCCM-CNN(98.91%和98.62%)。这可能是由于MLPH 是一种多尺度的特征,对于不同尺度的地物或地物边缘能够更好地贴合。但这也导致了MLPH特征维度较高(75维),需要更强大的分类器才能拟合,因而没能在4.2 节的传统分类器实验中取得很好的结果。相比之下,DCCM 特征维度(21 维)不及MLPH特征的三分之一,但取得了与之相近的精度,说明DCCM 特征是简洁而高效的。GLCMCNN和CCM-CNN 的分类精度比上述两种特征低了1%左右。而在传统分类器上表现较好的Gabor 滤波纹理特征结合CNN 后则表现没那么好,在基于纹理的CNN 中精度最低。此外注意到,传统方法DCCM-SVM 的分类精度(92.78%和90.78%)高于原始CNN(89.96%和87.26%),说明SAR 数据直接结合CNN 未必能取得超越传统方法的效果。因此,结合手工提取特征是提升深度学习方法分类性能的有效途径。
表6 AIRSAR数据分类精度和Kappa系数Table 6 Classification accuracy and Kappa coefficient in AIRSAR dataset/%
UAVSAR 数据的分类精度和Kappa 系数如表7所示。由于MLPH-CNN 在网络训练中无法收敛,因此没有展示在表格中。结合4.3 节中基于MLPH特征方法混淆了多类地物的情况,可以推测是MLPH 特征在该数据上无法提取出具有区分度的纹理信息。该数据上,DCCM-CNN 取得了最佳的分类精度(99.43%和99.57%)和Kappa系数,相比原始CNN 提升了10%以上。GLCM-CNN 也取得了较好的精度(99%和98.83%),略高于CCM-CNN(98.03%和98.30%)。与AIRSAR数据类似,DCCMSVM也取得了比原始CNN 更好的分类效果,再次验证了结合知识和机理的重要性。
表7 UAVSAR数据分类精度和Kappa系数Table 7 Classification accuracy and Kappa coefficient in UAVSAR dataset/%
综上所述,结合DCCM 纹理特征的CNN 能够有效提升SAR 图像地物分类性能,取得优异的分类结果。相比于传统分类器,CNN 固然性能更加强大,但直接将原始数据输入CNN 却未必是最好的选择。本节实验验证了结合手工提取的纹理特征可以进一步提升CNN 的分类性能。在结合纹理特征的方法中,虽然MLPH-CNN 在AIRSAR 数据上分类精度略高于DCCM-CNN,但DCCM 方法整体表现更加稳健,能在两景数据、3 种分类器上均取得较好的结果。MLPH 特征虽然能够提取多尺度纹理,但由于特征维度过高等原因,需要更强大的分类器才能发挥作用。并且MLPH 方法在UAVSAR 数据上表现不够稳健。而结合其他纹理特征的方法在分类精度和Kappa系数上都没能超越DCCM 方法。尤其是在性能相对较弱的传统分类器上,DCCM 方法的优势更加显著,说明DCCM 特征是一种高效、稳健的SAR图像纹理特征。
5 分析与讨论
5.1 算法耗时分析
本文传统分类器实验在MATLAB R2018b 上运行,平台配置为Intel Core i7-10750H CPU@2.60 GHz,内存16.0 GB。CNN实验在python3.6+Tensorflow1.13上运行,CPU 配置为Intel Xeon CPU E5-2699 v4@2.2 GHz,GPU 配置为NVIDIA Quadro RTX5000。上文所用几种方法在特征提取和分类阶段的运算时间如表8、表9所示。由于几种方法的DT分类时间都很短(1 s以内),所以此处不作详细讨论。
表8 AIRSAR数据上的运算时间Table 8 Computing time on AIRSAR dataset/s
表9 UAVSAR数据上的运算时间Table 9 Computing time on UAVSAR dataset/s
结合两表分析可以发现,在特征提取阶段,Gabor 方法用时最短(小于5 s)。其次,速度较快的是CCM 方法(177 s 和312 s)。由于加入了方向信息,DCCM 方法的运算耗时(250 s 和460 s)相对CCM有所增加。MLPH方法和GLCM方法耗时最长,MLPH 方法耗时约为DCCM 方法的1.5 到2倍,而GLCM 方法耗时达到了将近3 倍。分类阶段的运算时间主要与特征向量维度和分类器有关,表中给出的分类时间为分类器训练与分类的时间总和。在SVM 分类器上,CCM 方法和DCCM 方法是耗时最短的。GLCM 方法和Gabor 方法分类耗时约为DCCM 方法的1.5倍,而MLPH 方法由于特征维度最高而耗时最长。CNN 上的运算时间由于受服务器状态影响较大,没有呈现出特别明确的规律。但仍然可以发现,MLPH 方法由于特征维度显著高于其他方法,所需的训练和分类时间更长。
结合前面的分类结果,可以看出Gabor 方法特征提取速度很快,但得到的纹理特征有时候缺乏足够的鉴别力,分类性能一般。GLCM 方法在UAVSAR 数据上分类精度较高,但特征提取和分类都较为耗时。DCCM 方法在运算耗时上相比MLPH 方法和GLCM 方法有一定的优势,并且在两景数据上均取得了较好的分类精度。由此可见,DCCM方法较好地平衡了运算效率和分类性能。
5.2 SAR图像量化对纹理提取的影响
相比普通光学图像,SAR 图像通常呈现出更大的动态范围。有时候这种动态范围主要来源于二面角等结构或金属材质的物体,它们在成像场景中占比很小却强度很大,造成图像上大部分区域都显得很暗且对比度不足。这对于面状地物的纹理提取不利,特别是以GLCM为代表的一部分纹理特征,它们的运算过程包含量化操作,即需要将输入图像的像素值划分为一定的灰度级数。强散射点的存在可能会使本就对比度不足的暗区域被划入很少的灰度级中,从而丢失了其中的纹理信息。相比之下,DCCM 可以直接针对浮点型数据进行计算,在动态范围较大的场景不容易丢失信息,在SAR图像上下文信息提取中更有优势。
图14(a)展示了一个存在强散射点的森林区域SAR 图像切片,从图中可以观察到暗部包含许多树冠的纹理细节。图14(b)则是将其量化为16个灰度级(GLCM 计算中的典型取值)后的图像,对比发现大部分的树冠纹理都丢失了,只剩下强散射点本身。
图14 SAR图像切片量化前后对比Fig.14 A slice of SAR image before and after quantization
为了定量分析几种纹理特征在大动态范围场景下的性能,选取了两个包含强散射点的SAR 图像切片进行分析。所选切片如图15 所示,两个切片对应的地物分别为油菜籽和豌豆。这里通过两种地物在不同特征空间中的类间距离与类内距离之比来反映特征对地物的区分度,该比值越大,说明地物可分性越好。其中,为了消除特征各维度的尺度和分布不一致的问题,用马氏距离来衡量特征空间中样本之间的距离。此外,为了避免强散射点本身对距离计算的影响,对整个切片提取特征后,切除包含强散射点的部分再计算距离,得到的结果如表10所示。从表中可以看到,DCCM和Gabor滤波这两种提取过程不需要量化的纹理特征取得了较高的类间—类内距离比。其中,DCCM特征呈现出最优的地物区分性能。而GLCM特征和MLPH 特征的类间—类内距离比则相对较低,验证了量化操作对大动态范围下的纹理提取有着一定影响。
表10 含强散射点切片的类间—类内距离比Table 10 The ratio of inter-class distance to inner-class distance of slices with strong scattering points
图15 包含强散射点的SAR图像切片Fig.15 Slices of SAR images with strong scattering points
5.3 DCCM的高维拓展
上述的DCCM 构造方式是针对单通道SAR 图像提出的,但同样可以推广到多通道SAR 情形。以全极化SAR 图像为例,将各极化通道上构造的上下文散射矢量进行拼接
全极化DCCM 不仅包含了空间维度的上下文信息,也包含了不同极化通道之间的相关信息。因此,全极化DCCM 进一步拓展了信息容量。不难发现,DCCM 中协方差矩阵的维度仅与原图像的通道数有关。比如单极化SAR 图像中,DCCM 为一组3×3的协方差矩阵。而对于双极化和全极化图像,DCCM 则分别对应6×6 和9×9 的协方差矩阵。矩阵的主对角元素含义仍然是对应区域像素的平均强度,而非对角元素表示不同空间位置、不同极化的像素之间的相关。
6 结论
单通道SAR 图像蕴含着巨大的应用潜力,但像元中有限的信息量却限制了其应用性能。对此,本文结合空间纹理信息对单通道SAR 图像进行信息维度拓展,提出了方向性上下文协方差矩阵。本文主要创新点包括:(1)提出了DCCM,将单个像元拓展为一组矩阵,增加了像元信息量,拓宽了信息维度。通过提取邻域中不同方向上的散射强度变化,DCCM 能够精细地表征图像局部上下文信息。此外,DCCM 可以兼容复数浮点型数据而无需量化操作,对于动态范围较大的SAR 图像具有更好的适应性。(2)提取了DCCM 纹理特征。该特征通过对数变换改善了由于SAR 数据分布不均衡导致的纹理对比度不足的问题。并且DCCM 特征维度较低,无需复杂的调参处理。在此基础上,构建了一种SAR 图像分类方法。该方法既可结合传统分类器,又可结合深度学习方法,具有较好的实用性。
分别结合传统分类器和CNN,本文在AIRSAR和UAVSAR 数据上开展了对比实验。结果表明,在传统分类器上,所提方法的分类性能显著优于基于GLCM、Gabor 滤波和MLPH 的分类方法,总体精度提升达到7%以上。结合CNN 的实验中,DCCM 方法也展现出了优异的分类性能和较好的稳健性。未来的工作中,我们将考虑结合多极化、多时相的SAR 数据,探究DCCM 在多通道SAR 图像上的特性,进一步挖掘其应用潜能。