基于未标签信息主动学习算法的高光谱影像分类

2017-09-03罗祎敏马洪超

计算机应用 2017年6期

关键词：信息量训练样本分类器

张良，罗祎敏，马洪超，张帆，胡川

(1.湖北大学资源环境学院，武汉 430062； 2.武汉大学遥感信息工程学院，武汉 430079； 3.国网湖北省电力公司检修公司，武汉 430077)

基于未标签信息主动学习算法的高光谱影像分类

张良1*，罗祎敏2，马洪超2，张帆1，胡川3

(1.湖北大学资源环境学院，武汉 430062； 2.武汉大学遥感信息工程学院，武汉 430079； 3.国网湖北省电力公司检修公司，武汉 430077)

(*通信作者电子邮箱zhangliang_hubeiU@hotmail.com)

针对高光谱遥感影像分类中，传统的主动学习算法仅利用已标签数据训练样本，大量未标签数据被忽视的问题,提出一种结合未标签信息的主动学习算法。首先，通过K近邻一致性原则、前后预测一致性原则和主动学习算法信息量评估3重筛选得到预测标签可信度高并具备一定信息量的未标签样本；然后，将其预测标签当作真实标签加入到标签样本集中; 最后，训练得到更优质的分类模型。实验结果表明，与被动学习算法和传统的主动学习算法相比，所提算法能够在同等标记的代价下获得更高的分类精度，同时具有更好的参数敏感性。

高光谱遥感；主动学习；图像分类；未标签信息。

0 引言

高光谱遥感图像分类是图像处理技术中重要的一类技术，其标签样本的获取十分困难，所以如何利用有限的训练样本获得更优的分类模型是一个备受关注的问题[1]。近几年，随着机器学习的不断发展，越来越多的机器学习算法，如深度学习[2]、迁移学习[3]、流行学习[4]和主动学习已经被应用于高光谱遥感图像分类问题中[5]。其中主动学习算法通过筛选高质量的训练样本，从而在有限数量的训练样本帮助下获得更优的分类模型[6]，相比于被动学习的随机选择样本进行标注，主动学习算法能通过优化选择训练样本，使得训练集合的构成更有目的性，避免了盲目标注的弊病，提高了分类精度，受到了学界的广泛关注。然而，能够成为训练样本的标签数据毕竟是少数，在高光谱图像数据中还有大量未标记信息没有被利用。因此，如何利用未标记的数据来辅助标签数据，并设计出高效的半监督的主动学习算法是一个重要方向[7]。实际上，部分未标注数据中可以被分类器预测正确，对于这种未标签信息如果加入训练样本集，将其预测标签当作真实标签赋给它们，可能大大降低人工标记的成本[8]。

基于上述考虑，本文提出了一种结合未标签信息的主动学习算法，通过可信度和信息量的双重筛选，从未标签数据中选出信息量大且预测标签可信度高的未标签数据，将其预测标签当作真实标签使用，并组建新的训练样本集，从而训练得到更优质的分类模型。

1 主动学习算法

主动学习的目的就在于选择出最具标注价值的样本，获得最优的训练样本集，从而达到优化分类模型的效果。这个概念最早由Angluin[9]在1988年提出，随着对其研究的不断深入，主动学习技术已被广泛应用于各个领域。Tuia等[10-11]对多种经典的主动学习算法在高光谱遥感影像分类上的应用作了归纳，其中包括边缘取样主动学习算法、基于支持向量的边缘取样算法、熵值装袋查询算法和基于后验概率取样算法BT(Breaking Ties)。另外，Di 等[12-13]在2012年提出多视图的主动学习算法，通过不同的波段子集组合投票表示样本点的分歧度从而得到其标注价值。Crawford 等[14]对以上文献中经典的多种主动学习算法进行了总结论述，并将它们作用于高光谱遥感影像数据进行实验分析。实验证明，主动学习算法的应用可以显著地降低样本标注成本。

就高光谱遥感图像的分类问题而言，主动学习算法应用的基本流程如图1所示，其中：C为一个或多个分类器；L为有标签的训练样本集；Q为待标记样本选择策略，用于查找未标签样本中信息量大的能帮助提高分类精度的样本；U为整个未标签样本集；S为标注专家，负责对Q中筛选出的候选样本进行人工标记。由图1可知，主动学习算法的核心是待标记样本点的选择策略。选择策略的目的就是选出对分类器性能和分类效果提高有贡献的信息量大的待标记样本点。

图1 主动学习流程

主动学习算法中，BT算法是建立后验概率之上的算法，所以，所属每类概率的获得是算法实现的基础。就每个样本点xi属于w类的概率p而言，对于支持向量机(Support Vector Machine, SVM)的决策函数输出，可以使用sigmoid函数估计所得，如式(1)所示。

(1)

其中A和B都是估计值[14]。得到每个样本点所属每类的概率之后，根据BT算法的思想，首先通过训练集构造SVM分类器，再按照式(1)得到将候选集C中每个样本点属于各个类别(分类器中N个分类类别)的概率，然后对样本点最大概率和次大概率差值排序，最后根据式(2)选取部分差值最小的点作为待标记样本点，标记后加入到训练样本集L中。

(2)

2 结合未标签信息的主动学习算法

传统的主动学习算法的每次迭代过程，都有大量不满足选择策略Q的未标签样本被重新放回至未标签集U，并在下一次迭代中又重新参与计算，这样大大增加了算法的时间复杂度和计算复杂度。另一方面，部分未标签样本同样可以提供有效的信息，却未能被有效利用。因此，本文提出结合未标签信息的主动学习算法。在原主动学习算法流程之上，针对不满足条件的未标签样本R，采用未标签样本选择策略Q′进行未标签样本的筛选，将满足条件的预测标签作为真实标签，使这些未标签样本成为标签样本，与人工标签样本一同加入训练集L训练，更新分类模型，算法流程如图2所示。

由图2可得，结合未标签信息的主动学习算法的核心在于未标签样本选择策略Q′。选出的未标签样本的预测标签的可靠性会极大影响训练样本集的整体质量。另外，如果筛选出信息量小的未标签样本太多，也会削弱大信息量样本的作用。更糟糕的是，那些信息量小的未标签样本一旦被预测错误，给分类器带来严重错误的训练信息。所以，为了优化分类器，被选出的未标签样本及赋予它的预测标签必须同时具有可靠性和较高的信息量。而其中信息量由不确定度来判断，不确定度越高的像素点被错分的概率就越大，就代表其越难被判断为具体哪一类别，其信息量也就越大。

图2 结合未标签信息的主动学习算法流程

针对上述问题，为了筛选出高质量的未标签样本，本文设计了如下未标签信息的选择策略Q′，这个策略包括三个重要的过程：K近邻一致性判断，前后预测一致性判断和信息量判断。具体流程如图3所示，前两个筛选步骤保证了所选样本预测标签的可靠性，最后一个筛选步骤保证了所选样本的具备较高的信息量，优化分类模型。

图3 未标签样本选择流程

1)K近邻一致性判断策略：由K近邻分类算法思想衍生而来[15]，K近邻分类算法是一种非常经典的分类算法，该算法认为，两个光谱角距离较小的像素相似度较高，被归于同一类别的可能性也较高。故在这里K近邻的思想可以被用于保证未标签样本预测标签的可靠性。其方法是将待标记样本的预测标签和其相似度最高的K个近邻的预测或者真实标签进行比对，如果全部一致，就说明该未标记样本的预测标签可信度高，其运算式可表示为式(3)。这里相似度的度量也是采取光谱角距离。对未标签样本u来说，不一致系数的计算如式(1)，其中k为所选近邻个数，fl(u)和fl(xi)为u和xi的预测或真实标签。

(3)

2)前后预测一致性判断策略：K近邻一致性判断是横向比较，该一致性判断是纵向比较，进一步确保未标签样本预测标签的可靠性，通过比较未标签样本当前和上一次迭代过程中分类器对其标签预测的结果进行判断[8]。如果近邻标签和该未标签样本预测标签全部表现一致，就说明这个未标签样本的预测标签可靠。因为前后两次所训练出的分类器，对该点的类别判定一致，那么该点预测标签的可靠性便可进一步得到保证。

3)信息量估计策略：虽然前两步筛选所得的未标签样本的预测标签正确性可以保证，但是这些点的信息量没有被评估，如果其中信息量小的未标签样本太多，会削弱少数的信息量大的样本的作用，而真正能为分类器的优化和分类精度的提高做贡献的是那些信息量大的样本。所以，需要利用主动学习算法的思想对那些预测标签正确性有保障的未标签样本进行信息量的筛选。利用式(1)和(2)对第1)、2)步已经筛选出来未标签样本点进行信息量的评估和排序，取信息量较高的未标签信息加入到训练样本集中。

3 实验与结果分析

3.1 数据介绍

本文选用博茨瓦纳数据(BOTswana,BOT)和美国波士顿数据(简称KSC)为实验数据。BOT于2001年5月在OkavangoDelta、Botswana地区采集，该地区包括湿地和高地两个生态系统，光谱范围是 357～2 576nm，光谱分辨率为10nm，空间分辨率为 30m×30m，共 145 个波段。KSC于1996年3月美国肯尼迪航天中心由可见光红外成像光谱仪拍摄，该地区同样包括湿地和高地两个生态系统，光谱范围为400～2 500nm，光谱分辨率为10nm，空间分辨率为 18m×18m，共 176个波段。

两组实验研究区域高光谱影像的假彩色影像以及地面真实标记数据如图4～5所示。

图4 BOT数据

图5 KSC数据

3.2 算法有效性分析

为了评价本文算法效果，分别对被动学习算法、主动学习算法和结合未标签信息的主动学习算法对两组高光谱影像数据的分类结果进行对比。每组实验数据中的标签数据依旧被分为三份：标签样本集、未标签样本集和测试样本集。BOT、KSC实验样本数据分配如表1所示。

表1 实验样本数据分配

为验证算法的有效性这里的总体分类精度为20次实验结果的平均值，近邻数K设置为7，取信息量较高的前50%，分类器选择为支持向量机lib-SVM。对比结果如图6所示。

图6 不同数据分类精度实验结果

从图6中可以得到，结合未标签信息的主动学习算法优于主动学习算法和被动学习算法。其中BOT数据在同样达到效果最为明显，仅迭代两次就达到了饱和，分类精度最高高出主动学习算法5.146 4%。对于KSC数据效果在前5次迭代时非常明显，分类精度最高可高出主动学习算法2.796 3%。由此可见，在同等迭代次数(标记样本数)下，结合未标签信息的主动学习算法能够获得更高的分类精度。

3.3 参数敏感性分析

结合未标签信息的主动学习算法中有一个重要的参数K，K代表未标签样本选择过程中近邻一致性判断的近邻数。在不同K值下的对比结果如图7所示。

图7 不同数据参数敏感性分析结果

由图7可知，不同K值下的分类精度曲线差异较小，几条线基本可以重叠。说明本文算法稳定性较好，对参数K取值敏感性较小。

4 结语

本文提出的结合未标签信息的主动学习算法，通过可信度和信息量的双重筛选，从未标签数据中选出信息量大且预测标签可信度高的未标签数据，将其预测标签当作真实标签使用，并组建新的训练样本集，从而训练得到更优质的分类模型。实验证明，与被动学习算法和传统的主动学习算法相比，在同等标记代价下，结合未标签信息的主动学习算法能够获得更高的分类精度。另一方面，未标签样本的选择过程过于繁琐，计算量过于庞大，有待继续探索更高效的解决方案。

)

[1] 郝泽东,余淞淞,关佶红.基于主动学习的高光谱图像分类方法[J].计算机应用,2013,33(12):3441-3443,3448.(HAOZD,YUSS,GUANJH.Hyperspectralimageclassificationbasedonactivelearning[J].JournalofComputerApplications, 2013, 33(12): 3441-3443, 3448.)

[2]CHENYC,LINZH,ZHAOX,etal.Deeplearning-basedclassificationofhyperspectraldata[J].IEEEJournalofSelectedTopicsinAppliedEarthObservationsandRemoteSensing, 2014, 7(6): 2094-2107.

[3]RAJANS,GHOSHJ.Exploitingclasshierarchiesforknowledgetransferinhyperspectraldata[J].IEEETransactionsonGeoscienceandRemoteSensing, 2006, 44(11): 3408-3417.

[4]KIMW,CRAWFORDMM.Adaptiveclassificationforhyperspectralimagedatausingmanifoldregularizationkernelmachines[J].IEEETransactiononGeoscienceandRemoteSensing, 2012, 48(11): 4110-4121.

[5] 陈进.高光谱图像分类方法研究[D].长沙:国防科学技术大学,2010:11-12.(CHENJ.Onclassificationmethodofhyperspectralimages[D].Changsha:NationalUniversityofDefenseTechnology, 2010: 11-12.)

[6]TUIAD,RATLEF,PACIFICIF,etal.Activelearningmethodsforremotesensingimageclassification[J].IEEETransactionsonGeoscienceandRemoteSensing, 2009, 47(7): 2218-2232.

[7] 刘康.基于主动学习的高光谱图像分类技术研究[D].北京:中国矿业大学(北京),2014:12-13.(LIUK.Hyperspectralsensingimageclassificationtechnologybasedonactivelearning[D].Beijing:ChinaUniversityofMiningandTechnology(Beijing), 2014: 12-13.)

[8]WANLJ,TANGK,LIMZ,etal.Collaborativeactiveandsemisupervisedlearningforhyperspectralremotesensingimageclassification[J].IEEETransactionsonGeoscienceandRemoteSensing, 2015. 53(5): 2384-2396.

[9]ANGLUIND.Queriesandconceptlearning[J].MachineLearning, 1988, 2(4): 319-342.

[10]TUIAD,RATLEF,PACIFICIF,etal.Activelearningmethodsforremotesensingimageclassification[J].IEEETransactionsonGeoscienceandRemoteSensing, 2009, 47(7): 2218-2232.

[11]TUIAD,PASOLLIE,EMERYWJ.Usingactivelearningtoadaptremotesensingimageclassifiers[J].RemoteSensingofEnvironment, 2011, 115(9): 2232-2242.

[12]DIW,CRAWFORDMM.Viewgenerationformultiviewmaximumdisagreementbasedactivelearningforhyperspectralimageclassification[J].IEEETransactionsonGeoscienceandRemoteSensing, 2012, 50(5): 1942-1954.

[13]DIW,CRAWFORDMM.Multi-viewadaptivedisagreementbasedactivelearningforhyperspectralimageclassification[C]//Proceedingsofthe2010IEEEInternationalGeoscienceandRemoteSensingSymposium.Piscataway,NJ:IEEE, 2010: 1374-1377.

[14]CRAWFORDMM,TUIAD,YANGHL.Activelearning:anyvalueforclassificationofremotelysenseddata[J].ProceedingsoftheIEEE, 2013, 101(3): 593-608.

[15]LIJ,BIOUCAS-DIASJM,PLAZAA.Semi-supervisedhyperspectralimagesegmentationusingmultinomiallogisticregressionwithactivelearning[J].IEEETransactionsonGeoscienceandRemoteSensing, 2010, 48(11): 4085-4098

ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(41601504).

ZHANG Liang, born in 1986, Ph. D., lecturer. His research interests include machine learning, intelligent classification of remote sensing image, three-dimensional point cloud data processing.

LUO Yimin, born in 1993, M. S. candidate. Her research interests include intelligent classification of remote sensing image.

MA Hongchao, born in 1968, Ph. D., professor. His research interests include machine learning, intelligent classification of remote sensing image, three-dimensional point cloud data processing.

ZHANG Fan, born in 1981, Ph. D., lecturer. His research interests include machine learning, signal processing.

HU Chuan, born in 1985, M. S. candidate. His research interests include machine learning, smart grid.

Hyperspectral remote sensing image classification based on active learning algorithm with unlabeled information

ZHANG Liang1*, LUO Yimin2, MA Hongchao2, ZHANG Fan1, HU Chuan3

(1.FacultyofResourcesandEnvironmentalScience,HubeiUniversity,WuhanHubei430062,China; 2.SchoolofRemoteSensingandInformationEngineering，WuhanUniversity,WuhanHubei430079,China; 3.MaintenanceCompany,StateGridHubeiElectricPowerCompany,WuhanHubei430077,China)

In hyperspectral remote sensing image classification, the traditional active learning algorithms only use labeled data for training sample, massive unlabeled data is ignored. In order to solve the problem, a new active learning algorithm combined with unlabeled information was proposed. Firstly, by realizing triple screening ofKneighbor consistency principle,predict consistency principle, and information evaluation of active learning, the unlabeled sample with a certain amount of information and highly reliable prediction label was obtained. Then, the prediction label was added to the label sample set as real label. Finally, an optimized classification model was produced by training the sample. The experimental results show that, compared with the passive learning algorithms and the traditional active learning algorithms, the proposed algorithm can obtain higher classification accuracy under the precondition of the same manual labeling cost and get better parameter sensitivity.

hyperspectral remote sensing; active learning; image classification; unlabeled information

2016- 10- 31;

2017- 01- 12。基金项目:国家自然科学基金资助项目(41601504)。

张良(1986—)，男，浙江绍兴人，讲师，博士，主要研究方向：机器学习、遥感影像智能分类、三维点云数据处理;罗祎敏(1993—)，女，湖北武汉人，硕士研究生，主要研究方向：遥感影像智能分类; 马洪超(1968—)，男，浙江绍兴人，教授，博士，主要研究方向：机器学习、遥感影像智能分类、三维点云数据处理; 张帆(1981—)，男，湖北武汉人，讲师，博士，主要研究方向：机器学习、信号处理;胡川(1985—)，男，湖北黄石人，硕士研究生，主要研究方向：机器学习、智能电网。

1001- 9081(2017)06- 1768- 04

10.11772/j.issn.1001- 9081.2017.06.1768

P407.8