协同主动学习和半监督方法的海冰图像分类
2020-01-18韩彦岭赵耀周汝雁张云王静杨树瑚洪中华
韩彦岭,赵耀,周汝雁*,张云,王静,杨树瑚,洪中华
( 1. 上海海洋大学 信息学院,上海 201306)
1 引言
海冰灾害对极地和高纬度地区的人类海上运输、海洋渔业和海洋油气资源开发等社会实践活动造成巨大的损失,因此对海冰的防灾检测及分类识别的研究日益受到重视[1]。
相比传统的海冰检测方式,遥感技术能够提供全天候、大面积、实时准确的海冰遥感图像信息,现已被广泛应用于海冰检测中,成为一种高效的检测海冰的方法。在图像分类中,监督分类方法虽然可以利用标签样本信息获得较高的分类精度,但是分类精度受标签样本的数量和质量的影响较大。由于海冰检测受环境条件的限制,实测资料稀少,而专家对遥感图像的标注十分耗时费力,导致标签样本难以获取;同时,遥感图像中存在大量的无标签样本,这些样本中包含了丰富的信息,却没有得到充分地利用。针对这个问题,主动学习和半监督学习技术逐渐被应用到遥感图像分类中来。
主动学习(Active Learning, AL)类似一种人机交互的过程,它能查询富含信息量的未标签样本,并通过人工标注加入标签样本集中,而那些对分类器的分类性能没有明显影响的样本可以避免被选择,从而大大降低标注成本并提高标签样本集的质量。主动学习的性能取决于查询算法,即采样策略,不同的采样策略对于提升当前分类器的性能有着不同的效果。目前已经有许多主动学习方法应用在遥感图像分类中并取得较好的分类结果,如边缘采样(Margin Sampling, MS)[2]、最优标号和次优标号(Best Versus Second-Best, BVSB)[3]、多类不确定性采样(Multiclass-Level Uncertainty, MCLU)[4]、基于熵的不确定性采样(Entropy)[5]等,这些方法都是通过各自的采样策略查询具有最大不确定性的样本并通过专家标注添加到标签样本集中。近年来,研究者们通过聚类假设[6]开发出更为有效的主动学习采样策略,这种加入聚类猜想的主动学习方法分为不确定性采样和差异性选择两个部分。在不确性采样部分使用不确定性准则选取m(m>2)个样本,然后在差异性选择部分使用差异性准则从m个样本中选择h(1<h<m)个样本,所选的样本兼具信息量和差异性,将这些样本通过专家标注加入到标签样本集中能够训练出效果更好的分类器。Demir 等[4]研究出几种不同差异性准则和不确定性准则相结合的主动学习方法来对遥感图像进行分类。Patra 和Bruzzone[7]提出利用自组织映射(Self-Organizing Map, SOM)神经网络查询具有差异性的样本并结合不确定性准则形成一种新的主动学习算法。
半监督学习(Semi-Supervised Learning, SSL)利用少量的标签样本,在不需要额外人工标注的情况下,利用大量的未标签样本来更新训练分类器,相比主动学习方法,半监督学习进一步减少了人工标注的成本,更加省时省力。但是,半监督分类模型受初始标签样本的影响较大,初始分类模型对未标签样本的错误预测会导致误差传递,影响最终的分类精度。在半监督学习技术领域中,Vapnik 和Sterin[8]提出了直推式支持向量机(Transductive Support Vector Machine,TSVM),该方法是使用最广泛的SSL 技术之一。它使用估计标签的线性预测函数,在训练分类器的过程中直接利用未标签样本,逐步搜索最佳的分类超平面,得到了效果显著的分类器模型。Zhou 和Li[9]提出了基于差异的SSL 方法,利用多个学习机之间的差异性来改进SSL 性能,有效地降低了时间的损耗,并且提高了学习机的泛化能力。Bruzzone 等[10]提出了渐进式的半监督支持向量机(Progressive Semi-supervised Support Vector Machine,利用通常在主动学习中考虑的采样方法寻找最靠近当前分类器分类面的未标签样本,选取的样本包含了一定的信息量和可信度。
主动学习和半监督学习都是从少量的标签样本出发,不断利用未标签样本提升分类模型性能的技术,具有内在相似性且具有良好的互补性。如果能将它们有效地集成,不但可以提高分类模型的性能,而且能够减少人工标记的工作量。目前已经有一些主动学习结合半监督学习的方法被相关研究者提出来[5]。2013 年,Leng 等[11]提出结合标签变化率(Label Changing Rate, LCR)和类中心样本(Median Distant, MD)的AL+LCR_MD SSL 方法,该方法使用标签变化率来保证预测标签的可靠性,并查询类中心样本作为具有信息量的样本,一定程度上提升了分类性能。2015 年,Wan 等[12]提出Collaborative Active And Semisupervised Learning(CASSL)方法,该方法迭代地训练两个分类器并对未标签样本进行预测,通过分类器之间的相互验证机制,保证对未标签样本预测准确率的不断提高,最终获得较好的分类模型。但是,由于该方法将所有通过验证的未标签样本都加入到训练集中,会导致训练集中存在大量的冗余样本,降低模型的计算效率和分类精度。
为了进一步提高分类器的性能,减少人工标注工作量,本文提出一种协同主动学习和直推式支持向量机(Cooperative Active Learning and Transductive SVM,CATSVM)的分类方法。该方法在主动学习部分提出结合BVSB 不确定性准则、SOM 神经网络和改进的聚类差异性准则(Enhanced Clustering-based Diversity,ECBD) 差异性准则的方法,从样本低密度区域查询信息量丰富并且具有显著差异性的样本进行标注,来提升监督分类器的性能;在半监督学习部分,利用主动学习思想从未标签样本中查询处于当前分类器分类面之间,并且包含一定信息量和差异性的样本,并利用TSVM 训练半监督分类器,实现半监督分类学习过程;同时,我们将基于主动学习的监督分类器和基于TSVM 的半监督分类器的分类结果相比较,通过协同验证机制来保证所加入伪标签样本(半监督分类器预测得到的标签)的正确性,从而进一步提高分类性能。在高光谱遥感数据上的实验结果表明,相比于经典的主动学习方法,以及其他主动学习和半监督学习相结合的方法,CATSVM 方法具有更好的分类性能。
2 主动学习和半监督学习采样策略
在介绍CATSVM 方法之前,首先介绍一下在CATSVM中用到的主动学习采样策略和半监督学习采样策略。
2.1 主动学习采样策略
采样策略是主动学习的核心部分,分类器根据采样策略选择信息量最大的样本,通过人工标注加入到标签样本集中,并利用更新的标签样本集训练新的分类模型。
BVSB[3]是一种不确定性采样方法,该方法根据未标签样本属于各个类别的概率,计算最大概率和次大概率的差值,然后选择差值较小的一批样本作为主动学习的样本,选出来的样本具有丰富的信息量。
SOM 神经网路可以以非监督的方式进行训练来识别属于特征空间低密度区域的样本,该方法可以在欧式空间中有效的对未标签样本进行差异性选取。在网络训练阶段的收敛处,我们通过使用它们相应的权重向量来计算输出层中每个神经元到其相邻神经元的平均近邻距离。神经元的平均近邻距离用来表示,计算过程如下[7]:
ECBD 是一种基于核空间的聚类算法,利用径向基核函数(Radial Basis Function, RBF)将样本映射到高维的特征空间中,并将样本划分成h个聚类,选择每个聚类中心的样本作为最具差异性和代表性的样本[4, 13]。
CATSVM 方法的主动学习部分融合BVSB、SOM和ECBD 方法形成了一种新的主动学习采样策略该策略能够通过BVSB 方法查询具有丰富信息量的样本,然后利用SOM 和ECBD 方法从样本低密度区域筛选出处于核特征空间中差异性较大的代表性样本。主动学习采样策略的具体描述如算法1 所示。
输入:SVM 分类器F;
未标签样本集U。
步骤1:利用已有的标签样本和未标签样本共同训练SOM 神经网络。
步骤2:根据式(1)计算每一个神经元的平均近邻距离。
2.2 半监督学习采样策略
半监督学习是一种利用大量未标签样本来提升分类器性能的方法,TSVM 是一种有效的半监督分类技术。TSVM 这一概念是由Vapnik 和Sterin[8]首先提出,其主要思想是利用较少的标签样本和大量易获取的未标签样本共同建立分类模型,提高分类器的泛化能力。下面将对TSVM 的原理进行简单介绍。
由于未标签样本数量庞大,我们借鉴主动学习的思想,选择信息含量较大的样本,来改进TSVM 未标签训练样本的选择过程。利用未标签样本采样策略(具体采样过程如算法2),在保证未标签样本具有较大信息量的同时,避免大量冗余样本的加入。
对于TSVM 训练部分,我们将标签样本集和通过半监督学习查询的伪标签样本集结合作为TSVM 的训练样本集其中N为独立样本的个数,则表示训练样本表示样本对应的标签。基于Kuhn-Tucker 定理求解对偶规划问题,最终二类分类问题转化为求解以下问题,
式中,SV是支持向量集;和是用来确定最优分类超平面的参数是核函数。对于海冰分类的问题,我们利用RBF 核函数作为分类器的核函数。通过融入主动学习的思想从半标签样本集中选择具有信息量的样本添加到训练集中,其数学模型可表示为
式中,x代表未标签样本和是根据公式(3)得到的样本x的最大和次大决策函数值。通过给定的范围确立信息含量更高的半标签样本集,其中C(x)的值越接近于2 越有利于优化分类超平面(即分布在分类超平面附近的样本)[15]。
通过公式(4)从H中选择t个样本。对于选中的这部分半标签样本,同样存在一些具有冗余信息的样本。因此需要对t个样本进一步筛选,我们用RBF 核函数将选出的这部分样本映射到高维特征空间中,并在高维特征空间中用核余弦相似性准则从已选择的t个样本选择个半标签样本。核余弦角相似性准则公式表示为
输入:TSVM 分类器F;
未标签样本集U;
步骤1:根据分类器F和公式(4)和公式(5)从U中选出前t(t>q2)个C(x)的值最大并且在分类器的分类面之间的样本组成集合J;
步骤2:根据公式(4)从J中选出对应的C(x)的值最大的样本
步骤4:对于集合J中的每个样本x,根据公式(6)计算样本x和Uq2中 样本xi最 大的核余弦角值选择所有最大核余弦角值中的最小值所对应的样本x作为
步骤6:若Uq2中样本数量小于或等于q2时算法停止,否则回到步骤4。
3 协同主动学习和半监督学习算法
遥感海冰检测中人工标注费时费力,成本很高,而大量存在的未标签样本却没有得到充分利用。鉴于主动学习和半监督学习在减少人工标注代价和提高分类精度方面的内在一致性,本文提出协同主动学习和TSVM 半监督学习的CATSVM 分类框架,并将其应用到海冰图像分类中。该方法的技术优势在于:一方面利用主动学习算法主动选择最有价值的样本加入到标签样本集;另一方面可以有效地利用大量未标签样本中包含的信息,并通过主动学习和半监督学习的协同机制对加入分类模型的伪标签进行验证,进一步提高伪标签样本的准确率,实现在较小标注成本的基础上获得较好的分类性能。下面描述CATSVM 的算法框架和实现。
3.1 协同算法框架
CATSVM 分类算法实现框架如图1 所示。实验开始先设置初始标签训练样本集L,未标签样本集U,空的伪标签样本集P和空的TSVM 未标签训练样本集S。图1 为算法框架描述。
首先,用标签训练样本集L、伪标签样本集P与未标签训练样本集S共同训练TSVM 分类器;然后,把S中的样本加入未标签样本侯选集CP中,并清空S,接着用TSVM 分类器对CP中的样本进行预测,得到相应的预测结果
接下来,通过TSVM 分类器和主动学习采样策略Q1,从U中选取q1个样本通过人工标注加入L中,利用更新后的L训练SVM 分类器,并对CP中的样本进行分类得到相应的预测结果接着通过和对CP中的样本实施验证过程:把分类结果相同的样本筛选出来赋予相应的伪标签加入到伪标签样本集P中;然后,通过TSVM 分类器和半监督学习采样策略 Q2从U中选择q2个样本加入S中,为下一次迭代训练TSVM 分类器做准备,并从U中剔除被选择的样本。整个迭代过程在U为空时停止。
最后,值得注意的是,在算法第一次训练TSVM 分类器的时候,TSVM 未标签训练样本集S为空,因此,所得的分类器并没有经过TSVM 训练过程,而是用初始标签样本集L训练的普通SVM 分类器,但是从第二次迭代开始,S不为空,所得的分类器便是经过TSVM 训练过程得到的分类器,为了统一起见,我们便在第一次迭代中也称它为TSVM 分类器。
3.2 协同算法实现
具体的CATSVM 方法描述如算法3。
算法3:CATSVM 算法。
输入:初始标签训练样本集L;
未标签样本集U;
伪标签样本集P=Ø;
主动学习查询样本数量;
TSVM 未标签训练样本查询数量;
TSVM 未标签训练样本集S=Ø。开始
步骤1:更新LP=L∪P,用LP和S训练TSVM 分类器;
步骤2:判断S是否为空,如果为空则执行步骤7,否则执行步骤3;
图 1 CATSVM 方法的流程图Fig. 1 Flowchart of CATSVM method
步骤3:更新未标签样本候选集CP=CP∪S,再更新S=Ø,然后用TSVM 分类器对CP中的样本预测得到对应的结果
步骤4:用步骤1 得到的TSVM 分类器通过主动学习采样策略 Q1从U中查找q1个样本Uq1进行人工标注,更新L和
步骤5:用L训练SVM 分类器,并用该分类器对CP中的样本预测得到对应的结果
步骤6:经一致性验证得到伪标签样本集P,
步骤7:用步骤1 得到的TSVM 分类器通过半监督学习采样策略 Q2从U中查找q2个 样本Uq2,更新S和
步骤8:若U为Ø停止,否则回到步骤1。
结束。
4 实验和分析
4.1 数据描述
4.1.1 巴芬湾数据
第一个实验数据为2014 年4 月12 日格陵兰岛附近巴芬湾海域的Hyperion EO-1 高光谱影像,坐标范围为73°57′5″~74°16′16″N,79°29′20″~79°51′27″W。实验数据经过系统几何校正、投影配准以及地形校正,图像级别为L1Gst 级,波段光谱范围为356~2 578 nm,总共包含242 个波段,空间分辨率是30 m,光谱分辨率达到纳米级[16]。在242 波段的图像数据中,有一部分波段受到了噪声和水汽的干扰,实验中把这些波段提前去除,去除的波段和波长范围见表1。去除后,本实验采用自适应波段选择方法[17]对剩下的176 个波段进行降维处理,最终选择了6 个波段进行分类实验,采用的波段为13、18、24、35、49、84。
表 1 去除的Hyperion 波段Table 1 The Hyperion bands that been removed
由于海冰环境特殊,实测数据难以获取,可以把同时间同场景具有更高空间分辨率的遥感图像作为基准图像,将它的分类结果作为地表真实分布[18]。因此实验中我们将同时间同场景的Landsat-8 数据(空间分辨率为15 m)作为验证数据。
根据光谱特征,海冰数据被划分为厚冰、薄冰、海水3 个类别,见图2。通过人工选取一定数量的标签样本,共计1 678 个标签样本。从所有标签数据中选出9 个作为初始训练样本集L,剩下的作为未标签样本集U进行模型训练,最后用训练好的模型对整幅图像进行分类,通过混淆矩阵计算总体分类精度和Kappa 系数。用于实验的海冰类型和相关的样本数量见表2。
图 2 带有标签样本的高光谱图像(a),a 中部分区域的放大图(b)Fig. 2 Hyperspectral image marked with labeled samples(a), b is partial hyperspectral image taken from a
表 2 巴芬湾数据中每个类别的初始训练样本集L 和未标签样本集U 中的样本数量Table 2 Number of samples for each class in the initial training set (L), and in the unlabeled pool (U) for the Baffin Bay data set
4.1.2 辽东湾数据
第二个实验数据为2016 年1 月27 日渤海鲅鱼圈区附近海域Landsat-8 图像。因为海冰实测数据难以获取,我们用相同场景4.77 m 分辨率的Google Earth遥感图像作为基准数据,然而实验数据与基准数据有3 d 的时间差,但对于沿岸海域,海冰的分布基本一致,海冰受潮汐、洋流等外界影响因素可降低至最低。因此,我们选择两幅图像中沿岸重叠的区域进行海冰图像分类实验。图3a 是选取的实验区域图像,图3b 是从图像中选取的训练数据区域分布。实验中的海冰类型和相关样本数量如表3 所示。
4.2 实验设置
图 3 Landsat-8 实验数据图像(a),实验中标记样本分布(b)Fig. 3 Landsat-8 image(a), and distribution of labeled samples (b)
实验过程中,每个波段的像素值被归一化到[0,1]之间,在算法运行开始前,将随机地从活动池里每个类别的样中选择3 个样本人工加以标注,构成初始标签训练样本集L。通过查询函数 Q1查询的样本数量设 为12,h1设 为6,q1设 为3。通过查询函数 Q2查询加入到TSVM 未标签训练样本集S中的样本数量h设为12,q2设为6,并根据分类器对S中样本的预测标签结果,设置TSVM 训练过程中需要的正类样本的数量N+。
在CATSVM 方法中,SVM 分类器和TSVM 分类器使用RBF 核函数,其中通过网格参数寻优的方法在范 围内确定高斯核参数γ,在的范围内确定惩罚参数C,并利用五折交叉验证选取性能较好的参数组合γ和C。实验中,SOM 神经网络输出层的神经元数量设置为25×25(所设置的神经元的数量足够多于可获得的标签样本的类别),拓扑结构为六角形栅格,网络迭代学习4 000 次,神经元距离函数设置为“linkdist”。网络的初始邻域值设为20,并且随着网络迭代学习到第4 000 次的时候逐渐减少到1。实验中SVM 分类使用LibSVM 工具箱[19]实现,TSVM 分类使用SVMlight[14]工具箱实现,实验中的所有过程都是在Matlab R2013b 中实现。
为了表现所提方法的有效性,我们将建议的方法分别与几个经典的主动学习方法和半监督学习方法进行比较。用于比较的主动学习方法有:MCLUECBD[4],BVSB-ECBD[13],BVSB,ENTROPY。在主动学习的不确定性采样策略中,选择m个样本;在差异性采样策略中从m个样本中选择h(1<h<m)个样本,不同主动学习方法的采样数量见表4。
用于比较的AL 和SSL 相结合的方法有CASSL、AL+LCR_MD SSL,还有主动学习和TSVM 顺序结合的方法BVSB-ECBD-TSVM。其中CASSL 方法中的主动学习采样数量q设置为3;AL+LCR_MD SSL 方法中,主动学习采样数量设置为1,主动学习迭代次数M设为3,半监督学习迭代次数K在巴芬湾数据实验中为30,在辽东湾数据实验中为20。
表 3 辽东湾数据中每个类别的初始训练样本集L 和未标签样本集U 中的样本数量Table 3 Number of samples for each class in the initial training set (L), and in the unlabeled pool (U) for the Liaodong Bay data set
表 4 不同主动学习方法采样数量Table 4 Number of samples chosen by the different active learning methods
BVSB-ECBD-TSVM 方法分为两个阶段[20],第一阶段使用基于BVSB-ECBD 主动学习采样策略,其中m设为12,h设为3。主动学习部分结束后,进行TSVM 半监督学习阶段,半监督学习采样数量t设为12,q2设为6。主动学习迭代次数NUMAL设为8,半监督学习迭代次数在巴芬湾数据实验中为22,在辽东湾数据实验中为12。
为了排除初始训练样本的随机性对实验结果造成的影响,对于每种方法我们都重复进行10 次实验,取10 次实验的平均值作为最终分类精度进行对比。
4.3 巴芬湾数据实验分析
4.3.1 CATSVM 与AL 方法的分类精度对比
图4 是在相同数量的标签训练样本条件下,CATSVM 方法和经典的主动学习方法进行10 次实验的平均分类精度结果对比。从图中可以看出,4 种主动学习方法都可以从少量标签样本中,查询有代表性的样本通过人工标注加入训练集从而提高分类精度。但是由于不同主动学习方法的采样策略不同,选取出的样本信息量和代表性不同,因此它们的分类性能也存在差异。BVSB 和ENTROPY 算法都是经典的主动学习算法,但是其分类效果并不理想,最终的分类精度分别是73.38% 和76.17%;BVSB-ECBD 和MCLU-ECBD 算法收敛速度较慢,可以达到87.14%和89.73%的分类精度。
从图4 中,对比其他主动学习方法,CATSVM 方法可以达到更高的分类精度和更快的收敛速度。例如,CATSVM 方法在迭代到第5 次时分类精度达到90.00%,基本达到收敛;MCLU-ECBD 算法需要迭代28 次才能达到相应的精度结果;BVSB-ECBD 算法收敛速度慢而且最终迭代30 次的分类结果要比CATSVM 方法低2.41%;而BVSB 和ENTROPY 算法的最终分类精度比CATSVM 方法的最终精度低了16.44%和13.65%。这一方面是由于CATSVM 采用了BVSB不确定性采样策略和SOM 与ECBD 的差异性采样策略,不但选择了最有信息量的一批样本,而且将这批样本映射到SOM 网络输出层的神经元后,从不同神经元选择了处于样本低密度区域不同的样本,再经过核空间的多样性聚类分析,筛选最具代表性的样本,从而样本之间的冗余性较小,更加有利于提高海冰分类的精度;另一方面,由于CATSVM 结合了半监督学习算法的思想,充分利用了大量的未标签样本所包含的信息,可以更好地刻画不同类别海冰的分布特性,进一步提高海冰分类精度。
该实验结果表明,利用较少的未标签训练样本,本文提出的CATSVM 方法可以自动地选择包含一定信息量的有价值的未标签样本参与训练,相比单独的主动学习方法,可以获得更好的分类性能,暗示了未标签样本中包含大量有价值的信息,可以从整体上更好地刻画海冰类别分布特性,用于提高海冰分类性能。
图 4 巴芬湾数据CATSVM 与AL 方法总体分类精度对比Fig. 4 Average classification accuracy for CATSVM and AL methods of the Baffin Bay data
图 5 巴芬湾数据CATSVM 方法和其他AL+SSL 方法的总体分类精度对比Fig. 5 Average classification accuracy between CATSVM and other AL+SSL methods of the Baffin Bay data
4.3.2 CATSVM 与AL+SSL 方法的分类精度对比
图5 是在相同数量的标签训练样本条件下CATSVM方法和其他主动学习与半监督学习相结合方法的分类精度结果对比。从图中可以看出,CATSVM 方法相对于其他结合方法具有明显的优势,该方法所得精度结果迭代到第5 次就基本收敛,并且随着迭代次数的增加,精度十分稳定。CASSL 方法收敛速度相对较慢,在迭代到第10 次时才达到收敛,并且在之后的迭代过程中,精度也会略有波动;BVSB-ECBD-TSVM 因为缺乏验证机制导致加入一些错误的伪标签样本,从而导致最终的分类精度偏低,从图中我们也可以看出BVSB-ECBD-TSVM 方法得到的精度结果在迭代到12 次时才达到收敛,并且最终的精度结果比CATSVM 的方法低了1% 左右;AL+LCR_MD SSL 方法利用标签变化率选择相对确定的样本进行标注,但是从这些相对确定的样本中选择出来的类中心样本并不一定能影响当前分类器的分类面,并且有可能添加标签错误的样本影响分类器的性能,因此该方法收敛相对较慢,精度结果相对较差,最终的精度只有87.45%。
从图5 的实验结果可以看出,本文提出的方法从总体上获得了较好的性能,要达到相同的精度,CATSVM方法只需要较少的迭代次数,如当精度达到87%,CATSVM 需要迭代3 次,CASSL 需要迭代7 次,BVSBECBD-TSVM 需要迭代11 次,AL+LCR_MD SSL 需要迭代21 次;经过相同的迭代次数,CATSVM 方法可以达到更好的精度,如经过5 次迭代时,几种方法的分类精度分别为:CATSVM 为90.00%;CASSL 为80.54%;BVSB-ECBD-TSVM 为78.29%;AL+LCR_MD SSL 为86.20%,这在一定程度上降低了人工标注成本。
本文建议的主动学习和半监督学习协同方法,在主动学习过程中采用了基于不确定性和差异性的采样策略,确保选择既有信息量又有代表性的有价值样本;在半监督学习选择伪标签样本时,通过半监督学习采样策略,选择了对当前SVM 分类器的分类面产生重要影响的未标签样本,既具有一定的信息量,又去掉了大量冗余样本;在两者协同中,通过主动学习分类结果和半监督分类结果的一致性验证过程保证了所加入伪标签样本的正确性,所以相对其他的结合方法该协同方法可以完成更快地收敛,并获得更高的分类精度,适用于海冰遥感图像分类。图5 的实验结果验证了该方法的优势。
4.3.3 基于CATSVM 算法的海冰分类结果
为了更清晰地展示CATSVM 方法对海冰分类的效果,本文对格陵兰岛巴芬湾海域进行海冰分类实验,分类结果如图6 所示。表5 是CATSVM 方法与4 种主动学习方法和其他AL+SSL 方法的Kappa 系数对比。从表5 可以看出,AL+SSL 方法的的Kappa 系数整体上高于单独采用AL 方法,而本文所提CATSVM 方法的Kappa 系数高于其他所有方法,也就是说CATSVM 方法得到的分类结果与基准图像具有更高的一致性,进一步验证了该方法的有效性。
本实验中海冰分类的总体分类精度可达90.003%,最终的Kappa 系数为0.697。该结果表明本文建议的方法通过协同主动学习和半监督学习方法,充分利用了两者的优势,可以获得较好的分类效果,有效用于遥感海冰图像分类。
图 6 原始高光谱图像(a),Landsat-8 验证数据类别图(b),CATSVM 算法的分类结果图(c)Fig. 6 Hyperspectral image (a), result of the classification of the Landsat-8 data (b), result of the classification of CATSVM algorithm (c)
表 5 CATSVM 方法和其他方法的最终Kappa 系数结果Table 5 The final Kappa coefficient result of the CATSVM method and other methods
4.4 辽东湾数据实验分析
4.4.1 CATSVM 与AL 方法的分类精度对比
图7 是在相同数量的标签训练样本条件下,CATSVM 方法和其他4 种主动学习方法进行10 次实验的平均分类精度结果对比。从该图中可以看出,4 种主动学习方法都可以利用少量标签样本,通过查询函数获得代表性样本进行人工标注,从而提高分类精度。虽然4 种主动学习方法最终精度结果几乎相同,但是不同主动学习方法的采样策略不同,选取出的样本信息量和代表性也有所不同,因此在前面10 次迭代过程中它们的分类性能存在的差异明显。
由图7 可见,对比其他主动学习方法,CATSVM 方法可以达到更高的分类精度和更快的收敛速度。例如,CATSVM 方法在迭代到第6 次时分类精度达到93.22%,基本达到收敛;而在第6 次迭代时,其他4 种方法的分类精度分别为:MCLU-ECBD 方法为90.67%,BVSB-ECBD 方法为90.30%,BVSB 方法为89.79%,ENTROPY 方法为89.17%。从最终的分类结果来看,CATSVM 方法比其他主动学习方法要高出2%。
该实验结果再次验证了本文所提CATSVM 方法的主动学习策略可以选择更加有代表性的样本参与训练,同时可以充分利用大量未标签样本所包含的丰富信息,相比单独采用主动学习方法,可以获得更好的分类性能。
图 7 辽东湾数据CATSVM 与AL 方法总体分类精度对比Fig. 7 Average classification accuracy for CATSVM and AL methods of the Liaodong Bay data
图 8 辽东湾数据CATSVM 方法和其他AL+SSL 方法的总体分类精度对比Fig. 8 Average classification accuracy between CATSVM and other AL+SSL methods of the Liaodong Bay data
4.4.2 CATSVM 与AL+SSL 方法的分类精度对比
图8 是在相同数量的标签训练样本条件下CATSVM方法和其他主动学习与半监督学习相结合方法的分类精度结果对比。从图中我们可以看出,CATSVM 方法相对于其他结合方法具有较明显的优势,该方法所得精度结果迭代到第6 次就基本收敛,并且随着迭代次数的增加,精度十分稳定。CASSL 方法虽然收敛速度和CATSVM 方法相近,但是在迭代到第5 次后,精度有所下降并趋于稳定,这是由于CASSL方法在利用大量未标签样本时没有去冗余的过程,导致最终的精度结果会低于CATSVM 方法;BVSBECBD-TSVM 方法随着迭代次数的增加,精度逐步提升,但是因为缺乏验证机制导致可能加入一些错误的伪标签样本,从而导致该方法的收敛速度较慢,并且最终的分类精度偏低;AL+LCR_MD SSL 方法虽然比其他3 种AL+SSL 方法的初始分类精度高,但是该方法利用标签变化率从相对确定的样本中选择出来的类中心样本并不一定能影响当前分类器的分类面,并且有可能添加标签错误的样本影响分类器的性能,精度结果相对较差,最终的精度只有91.47%。
从图8 的实验结果可以看出,本文提出的方法从总体上获得了较好的性能,CATSVM 方法不但收敛速度较快,并且可以获得更高的分类精度。CATSVM 在迭代到第6 次时,精度基本达到收敛,随着迭代次数的增加精度十分稳定,最终分类精度为93.29%,而迭代6 次时,CASSL 的精度为92.72%,BVSBECBD-TSVM 的精度为91.09%,AL+LCR_MD SSL 的精度为91.45%。
图8 的实验结果再次验证了CATSVM 方法的优势。相对其他的结合方法该协同方法可以实现较快地收敛,并获得更高的分类精度,适用于海冰遥感图像分类。
4.4.3 辽东湾数据海冰分类结果
为了进一步展示CATSVM 方法对海冰分类的效果,本文对辽东湾部分海域进行海冰分类实验,分类结果如图9 所示。表6 是CATSVM 方法与4 种主动学习方法和其他AL+SSL 方法的Kappa 系数对比。从表中可以看出,CATSVM 的Kappa 系数高于其他方法,该方法得到的分类结果与基准图像具有更高的一致性,进一步验证了该方法的有效性。
辽东湾数据中海冰分类的总体分类精度可达93.29%,最终的Kappa 系数为0.907。该结果再次表明本文建议的方法通过协同主动学习和半监督学习方法,获得较好的分类效果,可以有效用于遥感海冰图像分类。
图 9 原始Landsat-8 海冰图像(a),Google Earth 验证数据类别(b),CATSVM 方法的分类结果(c)Fig. 9 Landsat-8 image(a), result of the classification of the Google Earth data (b), result of the classification of CATSVM algorithm (c)
表 6 CATSVM 方法和其他方法的最终Kappa 系数结果Table 6 The final Kappa coefficient result of the CATSVM method and other methods
5 结论
针对海冰遥感图像分类中标注成本较高、标签样本难以获取及海冰分类精度较低等问题,本文提出了一种新的协同主动学习和半监督学习的分类算法方法用于海冰遥感图像分类,并将本文提出的方法与其他主动学习方法、主动学习与半监督学习相结合方法进行了比较。实验结果表明,相比其他方法,本文建议的CATSVM 方法可以通过少量的标签样本,有效利用大量包含丰富信息的未标签样本,总体上获得较优的分类性能,具体总结如下:
(1)主动学习可以利用较少的未标签训练样本,自动选择一批信息含量丰富且有代表性的样本进行标注,提高了分类器精度。但是不同的主动学习方法因采样策略不同,导致最终的分类精度表现出一定的差异性,本文建议的方法在主动学习部分采用BVSB 不确定采样策略、SOM 神经网络和ECBD 差异性采样策略,能够查询处于样本低密度区域具有丰富信息且在核空间中差异性较大的代表性样本,并通过人工标注加入标签样本集中,是一种有效的主动学习采样策略。
(2)半监督学习可以充分利用未标签样本的分布信息进一步提高分类精度。本文建议的方法在半监督学习部分融合主动学习采样策略,并且利用TSVM从大量未标签样本中选取相对可靠且包含一定信息量的样本进行迭代训练,可以进一步减少标注成本并提高分类精度。
(3)主动学习和半监督学习在减少人工标注代价和提高分类精度方面具有内在一致性,本文提出协同主动学习和半监督学习的CATSVM 分类框架,一方面利用主动学习选择最有价值的样本加入到标签样本集参与训练;另一方面可以有效的利用大量未标签样本中包含的信息,并通过主动学习和半监督学习的协同机制对加入分类模型的伪标签进行验证,进一步提高伪标签样本的准确率,实现在较小标注成本的基础上获得较好的分类性能,达到较好的海冰分类效果,为海冰图像分类提供了一种新的方法。