APP下载

联合对称不确定性ReliefF算法的PolSAR影像分类

2021-10-12张继超邹勇宋伟东张永红李建飞

遥感信息 2021年4期
关键词:特征选择极化阈值

张继超,邹勇,宋伟东,张永红,李建飞

(1.辽宁工程技术大学 测绘与地理科学学院,辽宁 阜新 123000;2.辽宁工程技术大学 地理空间信息服务协同创新研究院,辽宁 阜新 123000;3.中国测绘科学研究院,北京 100036;4.辽宁省自然资源事务服务中心 辽宁省基础测绘院,辽宁 锦州 121000)

0 引言

随着极化合成孔径雷达(polarimetric synthetic aperture radar,PolSAR)和数字影像处理技术的不断发展,基于PolSAR影像的分类方法已成为学者们的研究热点[1],并且在土地利用/覆盖[2]、目标识别[3]、目标提取[4]等领域得到广泛应用。传统分类方法都是利用一种或多种极化分解特征进行分类[5-7],这些方法都不同程度地提高了分类精度,但在特征数据冗余方面考虑欠佳,并且多特征同时使用会大幅增加时间成本。对此,文献[8-10]采用不同的特征选择算法对上述问题进行了改善,然而这些方法仅用单一的过滤式或封装式特征选择算法,稳定性较差,且易产生过拟合等问题。而文献[11-13]虽采用过滤式和封装式联合的方式改进了特征选择算法,增强分类效果,但都不同程度地存在算法参数设置复杂、样本依赖性高、局限性大等问题。

针对上述问题,为实现利用较少的极化特征得到更高精度的分类结果,本文提出一种基于对称不确定性评估函数ReliefF算法的分类方法,充分利用过滤式和封装式特征选择方法特点,并且对数据要求低,计算效率高,阈值设定简单,稳定性更优。

1 特征选择算法

本文技术路线如图1所示,详细步骤如下。

图1 技术路线

1)对影像进行预处理,包括裁剪和滤波。滤波方法为Lee滤波,窗口设置为5,减少噪声对实验的影响。

2)采用多种极化分解方法,获得目标极化特征。

3)对影像进行多尺度分割,并给第2)步获得的特征添加属性特征,包括灰度属性(均值和标准差)和纹理属性(对比度、熵、二阶矩、均值、标准差和相关性)。

4)利用基于对称不确定性ReliefF算法提取极化分解特征及其属性,得到最优特征子集。

5)根据第4)步的结果进行CART算法分类并与Wishart监督分类、不进行特征选择的CART分类和仅利用ReliefF算法筛选特征属性的分类方法进行结果比较及分析。

1.1 联合对称不确定性的ReliefF算法

合理选择特征参数是提高分类精度的重要环节之一[14]。常见的特征选择方法有过滤式和封装式两大类。过滤式方法独立于分类方法,计算效率高,适用于在大量数据中迅速地剔除相关性小的特征,但其缺点是无法保证得到一个最优特征子集,并且有一些噪声仍会存在。封装式方法是将其嵌套在分类方法中,具有预测精度高的特点,但时间成本高[15]。本文方法结合以上两类特征选择方法的特点,利用对称不确定性评估函数和ReliefF算法对极化分解特征及其属性进行计算,并通过设定阈值的方式提取满足条件的参数,再采用封装式的CART分类方法完成分类,以下是算法原理的详细介绍。

通常不确定性可利用信息熵进行度量,特征参数X的信息熵H(X)如式(1)所示。

(1)

式中:p(x)是X的概率质量函数。

特征参数X和类标Y的联合熵H(X,Y)如式(2)所示。

(2)

式中:p(x,y)是X和Y的联合概率。

给定类标Y,则特征参数X的条件熵H(X|Y)如式(3)所示。

H(X|Y)=H(X,Y)-H(Y)

(3)

进而可以得到特征参数X与类标Y的互信息I(X;Y),如式(4)所示。

I(X;Y)=H(X)-H(X|Y)=
H(Y)-H(Y|X)=H(X)+H(Y)-H(X,Y)=
H(X,Y)-H(X|Y)-H(Y|X)

(4)

由式(4)可以发现I(X;Y)与I(Y;X)对称,将其进行标准化即可得到对称不确定性评估函数SU(X,Y),如式(5)所示。

(5)

式中:SU(X,Y)取值范围在0~1之间,越接近1表示特征X与类别Y的相关性越大。之后,通过设定阈值的方式提取极化特征,并将其作为ReliefF算法提取特征属性的初始数据。

ReliefF算法是Relief算法[16]的改进,表达特征与类别间的权重值,可由设置阈值的方式剔除权重小的特征。该算法稳定性好,计算效率高且不限制数据类型[17]。假设给定训练样本D,在D中随机取出一个样本S,然后从D中选出与S同类的k个最近邻样本P,接着再从D中选出与S不同类的k个最近邻样本Q,若样本P与样本S在随机选取的某个特征上距离大于样本Q与样本S,则该特征的权重减少,反之则增加。上述过程重复m次并将结果取平均值,得到各个特征参数权重值,计算方法如式(6)所示。

(6)

式中:W(B)表示特征B的权重;m为重复次数;k为最近邻样本个数;diff(B,S1,S2)为样本S1和S2在特征B上的差;Mj(C)为类别C中第j个最近邻样本。diff(B,S1,S2)的计算如式(7)所示。

(7)

1.2 阈值设定

对1.1节的算法采用统计学中四分位数方法[18]设定阈值选取特征参数。其原理如图2所示。先计算四分位数相应位置,再分别计算第一四分位数、第二四分位数、第三四分位数的值,假设有n个数值从小到大排列,计算各个四分位数的位置L1、L2、L3,如式(8)所示。

L1=(n+1)×0.25
L2=(n+1)×0.5
L3=(n+1)×0.75

(8)

若n为奇数且L为整数,则每个L对应的数值即为各个四分位数,反之则需取各个L前后两个数的平均值作为四分位数。

图2 四分位数计算流程

2 实验方法

2.1 研究区概况

为测试方法的实用性,数据采用如图3(a)和图3(c)所示的GF-3和Radarsat-2两种卫星的全极化SLC数据进行实验,研究区大小分别为1 200像素×1 000像素和1 500像素×1 000像素。GF-3的研究区内居民区分散,道路错综复杂,水体面积大,同时植被占比高,类别多样,易产生混淆;Radarsat-2的研究区内居民区密集,道路交错纵横,水体占比小,植被分布范围广。为了能够更好地解译SAR影像,利用相近时间的天地图光学影像进行辅助,如图3(b)和图3(d)所示。

图3 PauliRGB影像和光学影像

2.2 目标极化分解

本文采用Barnes1[19]、Cloude[20]、H-A-Alpha[21]、Holm1、Krogager、Yamaguchi3极化分解方法,并将获得的极化分解特征作为特征选择的基础数据,各分解方法获得的RGB合成影像如图4所示。

图4 极化分解特征RGB合成影像

2.3 多尺度分割

在获得基础数据后对影像进行多尺度分割,使其成为基于分割对象的影像,减少分类结果中的碎小图斑,提高分类精度,通过多次实验得出,适合本文影像的分割阈值为40,形状因子和紧致度因子都为0.5。分割前后影像如图5所示。

图5 分割前后影像

2.4 特征参数优化选择

在影像分割后,赋予各个分割对象属性特征,包括灰度特征(mean、standard deviation)和纹理特征(GLCM角二阶矩、GLCM mean、GLCM contrast、GLCM StdDev、GLCM correlation、GLCM entropy)。最终特征选择的初始数据集由18种极化分解特征以及8种特征属性结合而得,如表1所示。

表1 初始数据集

首先,对初始数据集进行归一化处理;然后,采用对称不确定性评估函数对其进行计算;再次,将计算结果从小到大排列。如表2所示,在结果中计算第三四分位数值为0.806 5,以此作为阈值保留大于该值的极化特征。如图6所示,最终保留的极化特征为Holm1_T22、Cloude_T22、Barnes1_T11和Krogager_Kh。

图6 对称不确定性评估函数结果及阈值

表2 对称不确定性评估函数计算结果

利用ReliefF算法对上一步结果的属性进行权重计算。首先,将特征属性数据集打乱,确保数据在随机情况下进行抽样;然后,再通过50次的算法运行,得到各属性最终权重值,并从小到大排列。如表3所示,将第三四分位数值作为阈值,保留大于该值的特征属性。如图7所示,第三四分位数值为0.029 08,最终保留的特征属性为GLCM contrast和mean。

表3 ReliefF算法计算结果

图7 ReliefF计算结果及阈值

通过基于对称不确定性评估函数的ReliefF算法进行特征选择,最终特征子集包括极化分解特征:Holm1_T22、Cloude_T22、Barnes1_T11和Krogager_Kh,特征属性为GLCM contrast和mean。

2.5 CART决策树分类

利用目前比较流行的封装式CART决策树分类方法进行分类[22]。首先,将上述得到的特征子集赋予到各样本中;然后,对样本进行训练,生成训练规则;最后,构造CART决策树分类模型,如图8所示。

图8 决策树分类模型

3 实验结果对比分析

为测试基于对称不确定性评估函数的ReliefF算法用于PolSAR影像分类的性能(后续简称SU-ReliefF-CART),将其和Wishart监督分类、不进行特征选择的CART分类方法(后续简称CART)和仅利用ReliefF算法进行特征属性选择的CART分类方法(后续简称ReliefF-CART)进行比较。各方法分类结果如图9所示。

图9 两个研究区的分类结果对比

分析图9(a1)和图9(a2)可以发现,各类别区分模糊,类间边缘粗糙,植被、道路与建筑类别的错分严重,大量细小斑点已形成“椒盐现象”,这是由于使用的影像信息较少,无法更准确地识别地物类别,同时该分类方法是基于像素进行分类,极易在结果中产生碎斑。分析图9(b1)和图9(b2)可知,结果整体性较好,小碎斑减少,然而部分道路存在断连情况,各类别间混淆现象较多。出现这种情况是由于该方法使用了全部的特征参数,出现了分类效果随着特征数增加不会持续增加,而是降低的现象。分析图9(c1)和图9(c2)可知,该分类方法在两个研究区中整体类别划分较好,但部分道路出现断连(尤其是图9(c2)),错分现象有所改善,错分的“碎斑”减少,这是由于该方法对极化分解特征的属性进行筛选,降低了数据的冗余,提高了整体分类效果。分析图9(d1)和图9(d2)可明显看出,本文方法各类别轮廓清晰,类间平滑度高,水体和道路等细长类别表现连续,错分现象显著减少,细小斑点被抑制,得到此分类结果主要是因为本文提出了基于对称不确定性评估函数的ReliefF算法进行分类的方法,结合过滤式和封装式特征选择方法的特点,有效地降低了特征维数,提高分类精度。

为客观准确地分析实验结果,采用准确率(precision)[23]、交并比(intersection over union,IoU)、总体精度(overall accuracy)和Kappa系数四个常用的精度评价指标对结果进行定量描述。

表4和表5分别为GF-3和Radarsat-2研究区的定量分类精度评价。由其可知,相较于其他三种方法,Wishart监督分类的方法各项指标最差。对体现综合性的总体精度和Kappa系数两个指标进行分析发现,在GF-3数据中,CART方法比ReliefF-CART方法分别减低了2.5%和3.0%,SU-ReliefF-CART方法相较于ReliefF-CART方法分别提高了4.3%和5.7%;在Radarsat-2数据中,CART方法比ReliefF-CART方法的总体精度和Kappa系数分别减低了3.9%和4.8%,SU-ReliefF-CART方法相较于ReliefF-CART方法分别提高了4.2%和5.5%。在效率方面,在GF-3研究区中,SU-ReliefF-CART方法用时24.4 s,ReliefF-CART用时41.0 s,时间效率提高40.0%;在Radarsat-2研究区中,SU-ReliefF-CART方法用时39.9 s,ReliefF-CART用时65.8 s,时间成本节约39.3%;两个研究区的CART方法用时最长,分别为72.4 s和86.4 s。结合以上分析以及图10可以明显发现,在四种分类方法结果中,Wishart监督分类方法精度最低,本文提出的方法在相对较少的时间内得到了最高的分类精度,并具有一定普适性。

表4 GF-3研究区分类精度评价

表5 Radarsat-2研究区分类精度评价

图10 分类结果精度对比图

4 结束语

本文采用对称不确定性评估函数与ReliefF算法联合的方式进行特征选择,再利用选取结果完成基于分割对象的封装式CART决策树分类。以GF-3和Radarsat-2影像数据为例,将本文方法与Wishart监督分类、不进行特征选择的CART决策树分类方法和利用ReliefF算法对极化分解特征的属性进行筛选的分类方法作比较,有以下结论。

1)利用基于对称不确定性评估函数的ReliefF算法进行特征选择,可有效地改善PolSAR影像分类中分类精度随着特征数增加不会持续增加,甚至还会降低的现象,提高分类精度和效率。

2)采用基于分割对象的分类方法可明显抑制分类结果中“碎斑”的生成,本文采用基于分割对象的三种分类方法,各项指标明显高于基于像素的Wishart监督分类方法。

相比于其他三种分类方法,本文提出的分类方法在分类精度和时间效率等各项指标上都具有优势。通过对GF-3和Radarsat-2不同卫星不同场景的数据进行实验,多角度阐明本文提出的分类方法具有一定可行性。

猜你喜欢

特征选择极化阈值
认知能力、技术进步与就业极化
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
双频带隔板极化器
比值遥感蚀变信息提取及阈值确定(插图)
Kmeans 应用与特征选择
室内表面平均氡析出率阈值探讨
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
基于PWM控制的新型极化电源设计与实现