基于Pinball损失函数支持向量机的极化SAR图像鲁棒分类
2019-08-07张腊梅张思雨董洪伟
张腊梅 张思雨 董洪伟 朱 厦
①(哈尔滨工业大学电子与信息工程学院 哈尔滨 150001)
②(北京市遥感信息研究所 北京 100192)
1 引言
合成孔径雷达是非常成熟的一种主动模式微波遥感技术,不依赖于太阳光源,不受云、雾、雨、雪等自然气候影响,具备全天候、全天时的对地观测能力。极化SAR通过发射两个相互正交的电磁波,结合电磁波的极化信息以及合成孔径雷达(Synthetic Aperture Radar, SAR)的优良特性从而更加有效地对地面进行观测,在地物与土地利用[1]、海洋表面遥感、绿色植物覆盖[2]等方面发挥了重要作用。图像分类一直是极化SAR图像解译中的重要部分。对于极化SAR图像而言,限制分类精度的主要因素在于噪声。尽管对极化SAR图像的滤波方法有很多[3,4],但都无法完全去除噪声的影响,并且在进行极化SAR图像监督分类时,训练样本的标定范围随机性很强,存在重采样问题。
随着机器学习的发展,大量半监督[5]、无监督[6-8]和全监督[9-11]的分类方法被应用于极化SAR图像分类。相比全监督的方法,无监督的图像分类方法省略了人为标注的过程,但由于其分类精度无法令人满意,因此应用水平较低。目前基于深度表示学习的方法展现了更好的数据拟合能力[12],但训练神经网络所需的海量监督信息是极化SAR图像分类任务中所不具备的。在大量机器学习经典算法中,支持向量机[13]方法因其在小样本情况下表现出很好的学习能力和泛化能力,在极化SAR图像分类中的应用最为广泛[14,15]。但是,原始的C-SVM(Support Vector Machine)通过求解两类之间的最大间隔来确定分类超平面,其分类效果很容易受到噪声和样本采样区域的影响[16],因此鲁棒SVM一直以来被广泛的研究[17,18],但多数研究是以大幅提高算法复杂度为代价得到的鲁棒算法[19,20]。Huang等人[21]提出的基于Pinball损失函数支持向量机Pinball loss Support Vector Machine (Pin-SVM),通过求解最大分位数距离,在较小的复杂度下提高分类器的稳定性和鲁棒性。
本文从契合实际应用环境的角度,提出一种基于Pin-SVM的极化SAR图像分类方法。算法利用融合后的极化SAR图像的散射和纹理特征,使用网格搜索与交叉验证结合的方式[22]寻找最优超参数组合,求解最大分位数距离以确定SVM的分类超平面,以较低的算法复杂度实现对特征噪声和重采样具有较好鲁棒性的极化SAR图像分类。
2 基于Pinball损失函数的支持向量机
2.1 Pin-SVM的基本原理
Huang等人[21]根据分位数距离求解分类间隔,基于Pinball损失函数使分位数距离最大化。Pinball损失函数通过对正确分类的样本附加一定的惩罚以提高对特征噪声及重采样的不敏感性,Pinball损失函数的表达式为
将式(2)带入到式(1)中可得Pin-SVM的基本形式
2.2 Pin-SVM鲁棒性分析
从而可以得到Pin-SVM的另一种表达形式
根据这3个被标记的集合,可以将式(7)转化为
图1 0-1损失、Hinge损失与Pinball损失的对比Fig. 1 The form of 0-1 loss, Hinge loss and Pinball loss
图2 不同超参数取值下Pin-SVM分类示意图Fig. 2 Schematic diagram of Pin-SVM classification with different hyperparameter
3 基于Pin-SVM的极化SAR图像分类
3.1 PolSAR图像特征提取
通过对极化SAR图像的极化特性与纹理特性进行分析,本文利用极化协方差矩阵多成分目标分解[24],H-A-分解[25]以及灰度共生矩阵[26]方法分别提取常用的12种极化特征和纹理特征,并构成极化SAR图像分类的原始特征集
3.2 特征融合
在对特征向量进行训练之前,首先需要对特征向量中的每一种特征进行加权优化处理,以提高多种特征融合表达的效果。然而,如果采用人工分配的方法进行加权,工作量很大,而且很难保证分类结果的可信度,因此,本文采用归一化巴氏距离对特征向量进行加权处理。巴氏距离[27]描述的是某一特征对两类地物的可区分度,如果巴氏距离较大,则该特征可以很好的区分这两类地物,如果巴氏距离较小,则这两类地物在该特征中很难区分。巴氏距离的表达式为
3.3 Pin-SVM超参数选择
非参数模型的建模机理导致了超参数对支持向量机的泛化能力有很大影响。本文采用的核函数方法为高斯核函数,主要考虑对线性不可分的样本集合引入的误差惩罚参数、高斯核参数和影响分位数距离的变量对分类器的影响。
使用网格搜索法与交叉验证法结合的方式进行超参数选择。首先利用网格搜索法确定各参数的选择范围:误差惩罚参数有种选择,高斯核参数有种选择,参数有种选择,将3种参数交叉组合可以得到种组合方式。然后利用交叉验证法将全部训练样本分成10份,每次将训练样本集合中的1份样本作为训练集,其余9份样本作为测试集,重复10次上述过程,并根据平均分类精度的大小来选择最优的超参数组合。
3.4 基于Pin-SVM的极化SAR图像分类流程
本文提出的分类算法的流程图如图3所示,算法具体的操作步骤如下:
步骤1 使用精致LEE滤波[28]对原始极化SAR数据进行相干斑过滤;
步骤2 将极化SAR图像的典型地物进行人工标注,并在每一类地物中随机抽取一部分样本构成训练集和测试集;
步骤3 通过极化目标分解和灰度共生矩阵提取极化SAR图像的极化特征和纹理特征,构成目标的原始特征向量;
步骤4 根据每一种特征的归一化巴氏距离,对原始特征向量进行加权处理得到融合后的特征向量;
图3 基于Pin-SVM的极化SAR图像分类流程Fig. 3 Flowchart of PolSAR classification based on Pin-SVM
步骤5 在训练集上采用网格搜索与十折交叉验证结合的方法,在指定的参数范围内搜索Pin-SVM的最优超参数组合,训练得到Pin-SVM;
步骤6 利用最终得到的Pin-SVM,在测试集上得到算法的分类精度,并对极化SAR图像进行全图分类。
4 实验结果及分析
4.1 实验数据介绍
实验采用的数据是EMISAR在Foulum地区获取的L波段全极化协方差矩阵数据,该图像的大小为1100×750,空间分辨率为2 m×2 m,其光学图与Pauli分解的伪彩色RGB合成图分别如图4(a)和图4(b)所示,该地区主要包括建筑物、森林、裸地以及豌豆、马铃薯、油菜、小麦等很多不同种类的农作物。通过大致比对光学图,把整幅图像划分为5类:建筑物、森林、裸地、细径作物和阔叶作物,选取的地物类别分布如图4(c)所示。
4.2 Pin-SVM与传统分类器分类结果对比与分析
实验中从每类地物选取1200个像素进行人工标注,并从中随机取出100个样本作为训练集,其余样本作为测试集。本文选取高斯核函数,采用网格搜索与十折交叉验证法选择最优的参数组合C,和,最后根据“一对一”多分类策略对EMISAR数据进行全图分类,Pin-SVM分类结果如图5(a)所示。可以看出,Pin-SVM对EMISAR图像的分类效果较好,左侧和右上角的森林区域用黄色很好地标注出来,右上角和右下角的“枫叶形”和“马蹄形”建筑区域的轮廓较为清晰,裸地也表现出清晰的纹理。两种农作物之间有少数像素误分,但整体上能够与森林和建筑物清晰划分。可以从两个角度分析,从极化特征的角度,因为森林和建筑物区域散射随机性较强,散射机理较为复杂,极化散射熵值较高,各向异性度值较小,而两种农作物散射机理较为单一,极化散射熵值较小,各向异性度值较高;从纹理特征的角度,农作物区域地形较为均匀,表现为粗纹理,而森林和建筑物区域地形复杂,表现为细纹理,因此两种作物区域的能量ENY和反差距IDM更大,熵ENT、对比度CON、和平均SAV更小。
为了验证本文方法的有效性,采用C-SVM分类器、监督Wishart分类器、最小二乘支持向量机(Least Square SVM, LSSVM)以及基于Hinge损失的极限学习机(OPTimization based Extreme Learning Machine, OPTELM)实验作为对比模型,对实验数据进行了分类实验,分类结果分别如图5(b)-图5(e)所示。通过图5(a)-图5(e)对比,可以看出基于Pin-SVM和C-SVM分类器的分类结果图中各地物的纹理比较清晰,但是C-SVM分类结果中包含较多杂点,Pin-SVM的分类结果中杂点较少,特别是在森林区域,C-SVM会将很多森林区域的样本判定为建筑物,而Pin-SVM对建筑物与森林的分类结果更好。监督Wishart分类器仅仅采用极化相干矩阵进行分类,没有结合纹理特征和H,A,因此出现将不同地物之间的边界以及森林区域有很多误分为建筑物的现象。LSSVM分类器也同样出现杂点较多的问题,OPTELM分类器对各地物的划分效果都不太理想,尤其是建筑物与森林、细径作物与阔叶作物出现误分现象较为明显。
图4 Foulum地区EMISAR实验数据Fig. 4 EMISAR experimental datas of Foulum test site
表1为不同分类器对各地物测试样本的分类精度对比,分类精度=(分类算法正确分类的样本点个数)/(测试样本像素点个数),其中Pin-SVM,C-SVM,监督Wishart, LSSVM和OPTELM的整体分类精度分别为91.3%, 86.7%, 84.0%, 84.5%和84.0%。
图5 EMISAR图像分类结果对比Fig. 5 Classification results comparison of EMISAR image
表1 不同分类器对测试样本的分类精度(%)Tab. 1 Classification accuracy comparison of different classifiers
图6展示了各地物分类精度的对比图,从图中可以看出Pin-SVM对各种类型地物的分类精度均高于C-SVM。综合全图分类实验的结果可知:相比于传统的C-SVM分类方法,基于Pin-SVM的分类算法对极化SAR图像中各类地物均具有更好的性能,整体分类精度也更高。由于二者使用完全一致的特征输入,而此特征数据中必然存在一定程度的噪声,较高的分类精度也能够侧面印证提出的算法具有一定的噪声鲁棒性。
4.3 重采样的鲁棒性分析
图6 不同分类器对各地物分类精度的对比图Fig. 6 The comparison of the classification accuracy of different terrains
图7 分类器预测的概率密度函数对比Fig. 7 Comparison of probability density functions for the prediction of classifiers
表2 重采样实验结果Tab. 2 Experimental results of the resampling
图8给出了法向量w和偏置b稳定性的对比,从中可以看出,重采样后C-SVM的法向量w和偏置b的标准差都大于Pin-SVM,相比C-SVM, Pin-SVM对于重采样具有更好的鲁棒性。
4.4 超参数对算法性能影响的分析
图8 重采样的鲁棒性评估Fig. 8 Robustness evaluation of resampling
图9 Pin-SVM的参数对分类精度的影响Fig. 9 The effect hyperparameters of Pin-SVM on classification accuracy
5 结论
支持向量机在小样本情况下表现出了良好的学习能力和泛化能力,在极化SAR图像分类中应用广泛。但是极化SAR图像中的噪声会传递至图像特征以影响C-SVM的分类精度,同时标定样本的随机性会影响C-SVM的分类决策面的稳定性,这两点均不利于实际应用。本文基于Pin-SVM提出一种极化SAR图像地物分类的新方法,以提高对特征噪声和重采样的鲁棒性。通过Foulum地区EMISAR数据对提出算法的分类精度、重采样稳定性、噪声不敏感性和类内离散程度等方面进行实验分析,结果表明本文算法相对于传统方法具有更好的地物分类效果,对噪声和重采样有更强的鲁棒性。