基于样本选择策略的SAR 图像半监督分类算法
2020-07-18王晓昆温显斌
王晓昆,温显斌
(天津理工大学计算机科学与工程学院,天津300384)
合成孔径雷达(synthetic aperture radar,SAR)系统具有一定地表穿透力和全天时全天候工作等优点,被广泛用于军事和民用领域.SAR 图像具有光学图像中不存在的相干斑噪声,这一特性为SAR 图像的后续处理带来诸多不便.此外,SAR 图像样本的匮乏使得很多方法不能发挥它们在其他领域所达到的效能.半监督学习作为一种能充分利用有标记和无标记样本的机器学习方法,能有效降低学习训练过程中的标记样本数量,在很多仅有少量有标记样本的应用场景中得到广泛使用.需要强调的是,当用在SAR 图像上时,由于受到斑点噪声的影响,已有的半监督学习方法取得的分类效果往往不尽人意.本文通过对半监督学习中的协同训练方法进行改进,在有效利用半监督学习优势的同时,尽量规避由于SAR 图像斑点噪声带来的影响,从而达到较好的分类结果.
1 相关工作
半监督学习(Semi-supervised learning,SSL)[1]在分类问题中被看作是监督学习的扩展,自提出以来.被广泛应用于未标记的数据多于有标记数据的问题.其目标是同时使用有标记数据和无标记数据对分类器进行训练[2]. 可用于处理SAR 图像分类的半监督学习方法主要分为以下四种类型.
1)生成式方法的前提是假定样本满足一定的数据分布律,根据样本学到该分布律的参数,然后对无标记样本标签加以预测,Ye Y 等人[3]将生成式模型用于SAR 图像特征提取过程,刻画SAR 图像的语义特征.生成式方法的缺陷在于,数据的分布律需事先假设,不同数据的分布律往往不同.另外,求得的分布律参数容易陷入局部最优.
2)基于图的方法是通过构造样本间的几何结构来形成图结构.其缺陷是,时间复杂度是O(n2).近年来,在SAR 图像分类场景下,不少学者在图方法与深度学习相结合的方向有所研究,Cao Y 等人[4]在极化SAR 图像上将二者结合,在精度上取得了很好的效果,但本身图方法的时间复杂度就高,引入深度学习又加剧了时间的消耗.
3)低密度分割法期望得到穿过输入空间的低密度区域的分类边界.目标都是将有标记样本能够正确划分,且穿过特征空间中密度最低的区域,其普遍存在的问题是,求解分类边界是一个复杂的优化问题.
4)基于分歧的方法利用多个学习器间的“分歧”来发挥未标记样本的作用. 协同训练算法(cotraining)[5]是基于分歧的方法的代表方法. 该方法通过不同视图学习到的两个分类器之间的互相学习来提高模型的效能. 2012 年,Wang L 等人[6]提出结合co-training 和co-testing 的 方 法(PCTACT),2014年,Xie H 等人[7]提出结合基于像素的多特征方法与集成学习相结合的SAR 图像分类的方法(MLRF),2018 年,Wang Y[8]将SVM 作为协同训练的分类器(PCTSVM),应用在SAR 地物二分类中.它们的问题是都以像素为基本分类单元,分类结果区域仍受到噪声干扰,
综合以上分析,半监督方法本身就适用于样本较少的场景.由于其中的协同训练方法的假设不像其他3 种方法约束性强,且复杂度在可接受范围,所以,本文在基于分歧的方法里的协同训练框架上,试图解决在SAR 图像分类中仍然存在较多噪声导致分类效果不佳的问题,从而提高分类精度.
2 本文方法
相干斑噪声在图像上的呈现方式是像素级别.而超像素是具有相似性质的像素点的集合[9],且具有良好的物体边缘贴合特性,故本文采用超像素作为整个方法的基本处理单元.在半监督协同训练伪样本的选取过程中,采用两种策略分别处理高置信度样本和低置信度样本,做到样本选取的精准性.在较少训练样本个数的同时,降低斑点噪声的影响.
2.1 基于典型相关性分析的SAR 图像高置信度样本判别器
协同训练算法对视图的要求之一是充分性,故两个视图中部分样本的投影应与真值样本有强相关性.因此,若能够得到两个视图的相关投影,就可以用它们对未标记样本进行预测.本节结合协同训练和典型相关性分析,在伪样本选取过程中筛选高置信度样本,加速模型训练和标记过程.
典型相关性分析(canonical correlation analysis,CCA)[10]是常用的发掘数据之间关联关系的算法,用于寻找两组特征向量集的投影向量,使这些特征集的投影最大相关.形式化描述为,CCA 尝试为特征矩阵X1=(x11,x12,…,x1l+u),X2=(x21,x22,…,x2l+u)找到两个投影向量wX1和wX2.从而使得它们的投影和的线性相关性最大.用CX1X2表示X1和X2的组间协方差矩阵,CX1X1和CX2X2分别表示X1和X2的组内协方差矩阵.则目标函数是
将式(1)用拉格朗日乘数法表示为
令式(2)等于0,分别求L(wX1,wX2,λX1,λX2)对wX1,wX2,λX1,λX2的偏导数,算得两个投影向量wX1和wX2,以及对应的系数λX1,λX2.根据多元函数的极值计算规则,将结果代入式(1),只有一组满足条件的wX1,wX2,λX1,λX2.但现实中,特征间的条件独立性难以满足,故那些并非最强相关的投影向量和系数也不能忽略.所以得到的满足条件的投影向量及其系数可能不止一组.
样本X=(X1,X2).在上文求得的投影向量上的投影表示为
计算有标记样本和无标记样本之间的相似度:
其中,x10和x20分别为某有标记样本x0的两个视图特征,x1i和x2i是第i个待测未标记样本xi在两个视图下的特征.Pk(x10是在第k组wX1,wX2值下,样本x0的投影,simi,k,0是未标记样本xi与已标记样本x0在第k组投影下,得到的相似性度量值.
计算在所有的k组投影向量下,同一未标记样本在某个已标记样本x0下相似度的累加和,作为该未标记样本在x0下的置信度,如式(6)所示.
其中,ρi为待测样本xi的置信度.则xi的伪标签就是该样本在所有标记样本下取最大置信度时,有标记样本所对应的标签形式化表述为
现将以典型相关分析为基础的判别器与协同训练相结合,对高置信度SAR 图像样本进行筛选,从而提高模型的健壮性.降低相干斑噪声影响,算法的具体步骤见表1.
表1 SAR 图像高置信度样本选取算法表Tab.1 SAR image high confidence sample selection algorithm table
2.2 基于主动学习和超像素的SAR 图像低置信度样本扩充方法
模型的性能并不是随着标注数据量的增多而无限上升,而是有相应的瓶颈,关注的正是如何使用尽可能少的标注数据去达到这个瓶颈.协同训练通过伪样本的选择能够有效地扩充样本,主动学习使得样本的选择更加精准.近年来,协同训练法和主动学习法相结合,更好地发挥了各自的优势.
2017 年,Zhou ZW 等人[11]结合卷积神经网络与主动学习,用于结肠镜框架分类,息肉检测等样本稀少的医学图像领域,作为增加样本的一种手段.整个过程基于这样一个事实,每个候选图片样本中有若干个块,这些块与候选样本的标签相同.而后通过交叉熵和相对熵来衡量每个块对分类器提升的效能,从而确定最终的候选扩充样本.
超像素由若干性质相似的像素构成,这些像素与它们所在的超像素拥有同一个标签.因而超像素本身具有多实例[12]的特点,即定义包为多个示例的集合.每个实例都有一个隐藏的类标签.把超像素作为候选扩充的基本单元,根据以上分析,鉴于SAR 图像样本稀少的问题,提出将主动学习和超像素相结合的SAR 图像低置信度样本扩充方法,分为两个步骤:
1)将权重最大的样本作为主动学习样本. 样本权重由熵得到,即式(8).其中是样本x属于标签y的概率.
2)对权重最高的超像素样本进行块扩充.
用图1 和表2 对过程更直观地描述,算法描述如下.
图1 基于主动学习和超像素的SAR 图像样本扩充示意图Fig.1 SAR image sample expansion based on active learning and super-pixels
表2 基于主动学习和超像素的SAR 图像低置信度样本扩充算法表Tab.2 Low-confidence sample augmentation algorithm table for SAR images based on active learning andsuper-pixels
将SP_CT-SS_H 算法和SP-CT-SS-L 算法统一于伪样本选取过程之中,整个算法的框架图如图2所示.
3 实验验证与分析
在仿真图像和真实SAR 图像上,对本文提出的方法和前人方法进行比较.本文中所有的实验均在Intel(R)Core(TM)i3-3240 CPU,3.40GHz,4GB RAM的台式机上运行,操作系统为Windows 10(64bit),开发环境为MATLAB 2016(b).
比较的方法[6-8],根据其文中含义,分别命名为PCTSVM,MLRF,PCTACT,本文提出的方法命名为SPCS-SVM.接下来以这些缩写指代这些方法.
图2 本文提出方法的总流程图Fig.2 The flow chart of the method presented in this paper
为定量比较各方法的效果,采用多个数据指标进行比对.包括图像的总召回率,各区域分类的平均召回率,以及整体图像的平均分类时间.图像的混淆矩阵,Kappa 系数等.初始样本在0 至60 区间内,按照5 为递增步长进行分类.需指出的是,因初始采用随机采样,所以在计算精度及其相关指标时,去除了初始标记样本,且在计算总体和区域召回率和时间时都是5 次取样得到的平均值,避免结果的偶然性.
首先是在仿真图像上的分类实验. 图像syn_1为仿真图像,包含4 个区域.图像原始大小为442×442像素,超像素分割个数取2 575,紧凑度为135.统一在初始样本个数m 为30 下运行5 次,取5 次中的最好结果.之所以取m 为30,在于包含本文提出方法在内的所有方法在m=30 时效果最好.其他参量保持原始设置.可视化分类结果如图3 所示.
通过可视化分类结果,发现在每个区域内,的分类结果最好,几乎没有杂质. 而在其他对比方法之中,各区域内都存在大大小小的误分类点.这些误分类点产生的原因,是因为SAR 图像本身的斑点噪声产生的,而的方法在区域内几乎没有杂点,是因为将样本基本单元选取为超像素以在此之上的样本选择策略而产生的.
图3 syn_1 上的分类结果图Fig.3 Classification results on syn_1
通过可视化混淆矩阵来进一步分析各区域的分类效果.如图4 所示.
图4 各方法在syn_1 图下的混淆矩阵图Fig.4 Confusion matrix graphs of methods under syn_1 graph
观测混淆矩阵图,发现本文的方法得到的结果,在对角线上呈现的效果最好,且除对角线之外的区域几乎没有误分色块.区域编号按照图4(a)的左侧为区域1,而后顺时针依次编号.方法PCTSVM 在第二类区域上有误分为第三类的情况;方法MLRF 在在第一,第二,第三,第四类区域上各有误分;方法PCTACT 在第二,第三类区域上各有误分.
接下来,继续采用数据指标进行定量分析.结果汇总在表3 中.通过进一步比对表格数据,发现在其他条件相同的情况下,的方法SP-CS-SVM 总体召回率和Kappa 系数在4 种方法中最高. 而且,SP-CSSVM 在4 个区域中有3 个区域的召回率等指标上取得最高值,虽然方法MLRF 的时间是4 种方法中最快的,但SP-CS-SVM 方法,除了区域2 的召回率和Kappa 系数都超过了方法MLRF . 而在区域2 中的方法不及其他方法的原因,是因为区域2 的平均灰度近似于区域3 造成的.
表3 图syn_1 下的数据比较表Tab.3 Data comparison table under syn 1 graph
而后是在真实图像上的实验及其分析. 图像real_1 为真实图像,包含3 个区域. 分别是道路,陆地和城市. 图像原始大小为256*256 像素,超像素分割个数1 265 ,紧凑度105 . 统一运行5 次,SAR图像real_1 的可视化分类结果取5 次中的最好结果.本文提出的方法SP-CS-SVM 的初始样本m=10,方法PCTSVM 的m=25,方法MLRF 的m=30. 方法PCTACT 的m=15.其他参量保持原始设置不变.
可视化分类结果如图5 所示.
直观地发现在陆地和道路上,的分类结果杂质极少,且有杂质的区域相对集中;而在其他对比方法之中,各区域内都存在大大小小的误分类点.尤其是方法P-CT-SVM.这些误分类点产生的原因,根源是SAR 图像本身的斑点噪声,而对比方法虽然采用协同训练或者集成方法增加了分类器的冗余,但对斑点噪声的鲁棒性仍然效果不佳.而的方法直观上效果较好的原因,根源上因为提出方法的基本分类单元是超像素,且其SAR 图像处理半监督方法在迭代过程中更有针对性地选择样本,从而得到了相对于对比方法更好的分类效果.
图5 real_1 上的分类结果图Fig.5 Classification results on real_1
通过可视化混淆矩阵进一步分析各区域的分类效果,如图6 所示.
通过混淆矩阵图,可以发现本文的方法在除对角线之外的区域几乎没有误分色块. 对比方法PCTSVM 在第一类区域上有误分为第二类的情况;第三类有误分为第一类和第二类的情况;对比方法MLRF 在第一,第三类区域上有明显误分;对比方法PCTACT 在第二,第三类区域上有明显误分.另外还需指出的是的方法仅用到了初始样本个数m=10,就在总召回率上达到甚至超越了其他方法.
图6 各方法在real_1 图下的混淆矩阵图Fig.6 Confusion matrix graphs of methods under the real_1 graph
采用数据指标进行定量分析. 结果汇总在表4中.需要再次声明的是,在real_1 上,本文提出的方法仅在初始样本个数为10 的情况下分类.通过表格数据的进一步比对发现,在其他条件相同的情况下,方法SP-CS-SVM 总体召回率在所有方法中最高,虽然方法MLRF 的时间上在4 种方法上是最快的,Kappa 系数也是最高的,但的方法,在所需的初始样本个数上比方法MLRF 少三分之二的情况下仍然十分接近它,且总召回超过该方法.
表4 real_1 下的数据比较表Tab.4 Data comparison table under real_1 graph
提出的方法SP-CS-SVM 在SAR 图像分类中取得效果较好原因,首先是采用超像素为基本单元,这样就有效抑制了斑点噪声对分类结果的影响,这是精度提高的原因,此外,由于引入了典型相关性分析作为额外的分类器,以及使用基于主动学习思想来有重点地扩充不确定性样本,使得在初始训练样本个数相同的情况下,本方法的分类效果更好.
4 结 论
本文采用超像素作为整个方法的基本处理单元.在半监督协同训练伪样本的选取过程中,采用两种策略分别处理高置信度样本和低置信度样本,从而精准地选取训练样本.通过理论分析和实验验证,该方法在标注样本较少的情况下,与其它半监督协同训练相关方法相比,取得了较好的效果和精度,有效降低了相干斑噪声对分类效果的影响.