基于Block-Gibbs抽样的无限潜Dirichlet分配模型的高分辨率全色遥感影像非监督分类

2016-01-11齐银凤,舒阳,唐宏

遥感信息 2015年1期

齐银凤1，舒阳1，2，唐宏1，2

(1.北京师范大学地表过程与资源生态国家重点实验室，北京 100875；2.北京师范大学环境演变与自然灾害教育部重点实验室，北京 100875)

摘要：通过引入文本检索算法中的无限潜Dirichlet分配(infinite Latent Dirichlet Allocation，即iLDA)模型，对遥感影像进行建模以获取地物的统计分布及其共生关系，从而实现遥感影像非监督分类。首先，将遥感影像有重叠地划分成一组大小相等的影像块(文集)。其次，以iLDA为基础，构建“像元”(视觉词)、“影像块”(文档)和“地物类”(主题)之间的条件概率关系，并采用Block-Gibbs抽样的方法来估计模型参数，从而构建基于Block-Gibbs抽样的iLDA遥感影像非监督分类模型(Block-Gibbs based iLDA，即BG-iLDA)。最后，通过对BG-iLDA模型的逼近求解实现高分辨率遥感影像的非监督分类。实验结果表明，本文提出的基于BG-iLDA的面向对象非监督分类方法相对传统的K-means等算法精度更高，更能有效区分“同谱异物”的地物。

关键词：无限潜Dirichlet分配；非监督分类；Block-Gibbs；Dirichlet过程

doi:10.3969/j.issn.1000-3177.2015.01.005

中图分类号：TP751文献标识码：A

收稿日期：2013-11-05修订日期：2014-04-22

基金项目：南方电网公司重点科技项目(K-GD2013-030)；国家自然科学基金(41371406)。

作者简介：彭向阳(1971～)，男，教授级高工，硕士，长期从事输电线路及高电压技术工作。

收稿日期：2014-04-28

基金项目：国家科技支撑计划课题(2011BAB01B05)；国家自然科学

作者简介：岳贵杰(1984～)，男，博士生，主要从事遥感影像地理要素提取及全数字摄影测量相关方向研究。

Unsupervised Classification of High-resolution Panchromatic Remote

Sensing Image Based on Infinite Latent Dirichelt Allocation Using

Block-Gibbs Sampling

QI Yin-feng1，SHU Yang1，2，TANG Hong1，2

(1.StateKeyLaboratoryofEarthSurfaceProcessesandResourceEcology，BeijingNormalUniversity，Beijing100875；

2.KeyLaboratoryofEnvironmentalChangeandNaturalDisaster，MinistryofEducation，

BeijingNormalUniversity，Beijing100875)

Abstract：In this paper，the infinite Latent Dirichlet Allocation (iLDA) model for unsupervised classification of images is introduced.An effective unsupervised classification method using the semantic information and the symbiotic relationship from iLDA is proposed，which is used for high-resolution panchromatic images.Firstly，the image corpus is structured by overlapped segmentation of the image into sub-images.Secondly，the relationship of conditional probability among pixels (visual-words)，sub-images (documents) and land objects (topics) is built.By which，the proposed method using Block-Gibbs based iLDA (BG-iLDA) is modeled.And the model parameters are estimated using the Block-Gibbs sampling.Finally，the unsupervised classification of high-resolution panchromatic images is realized by approximate solution of the BG-iLDA.Experimental results show the classification precision of the proposed method is better than the K-means method，and the effect of the different object with the same spectral characteristics is appropriately displayed by the classification result.

Key words：infinite Latent Dirichlet Allocation；unsupervised classification；Block-Gibbs；Dirichlet process

1引言

由于高分辨率遥感影像中包含了丰富的地表细节，因此地物的尺寸、形状以及邻近地物空间关系的等特征在高分影像信息提取中发挥着重要的作用[1-2]。面向对象的影像分析技术能够弥补传统基于像元分类方法导致的地物细分、斑点效应等问题，并且能够充分利用高分辨率遥感影像的空间信息提高分类精度[3-4]。因此，该技术在遥感应用中信息提取方面发挥着越来越重要的作用。但是目前常用的面向对象分析方法是基于多尺度分割的，分割尺度难以把握，并且语义分析不够明确。

潜Dirichlet分配(Latent Dirichlet Allocation，LDA)模型的引入为解决上述问题提供了一个新的途径[5]。LDA模型可以用于分析大规模文档集或提取语料库中潜藏的主题信息[6]。它采用了概率潜语义解释的思想，对“词”、“文档”和“主题”之间的条件概率关系进行建模，确定各个文档中每个视觉词隶属于不同主题的概率，从而同时获得文档和词两个层面的概率语义描述。因此，可以通过引入概率主题模型的概率潜语义分析方法，将其用于遥感影像的特征信息的分析解读中，通过分析待分类的影像、地物类别和像元三者之间的条件概率关系，可以确定影像中每个像元的最可能的主题类别。该方法省去了传统面向对象分析时的“图像分割”这一步骤，直接利用文本检索的思想来构建影像象元主题类别的概率模型，确定其所属的主题，实现对遥感影像的非监督分类。无限潜Dirichlet分配模型(infinite Latent Dirichlet Allocation，iLDA)是LDA模型的衍伸，它将LDA模型的主题个数从有限扩展到了无限，因此具有LDA模型的全部特征，同时又具备Dirichlet过程的特性[7]。引入iLDA模型的分类算法，能够避免传统面向对象分类技术所面临的问题和弊端，在高分辨率遥感影像处理技术中有一定优势，具有很大的发展潜力和应用价值。

2iLDA模型基本原理

作为一种概率主题模型，LDA模型由Blei[8]在2003年提出。LDA模型能够有效识别大规模文档集或语料库中潜藏的主题信息，因此在文本检索领域得到了广泛的应用。之后，Blei等人将图片类比成文档，首先将LDA应用于图像标注[9]。随后，LDA模型被广泛地应用于计算视觉领域的图像分割[10]、目标检测[11]、视频处理和场景分类[12]等。

图1　概率图模型

一般情况下，本文假设在LDA模型中文档集的主题个数是预先给定的一个有限常量，即K是已知常量[13]。iLDA模型的提出对这一假设进行了扩展，即将LDA模型扩展成一个有无限混合组件(即主题个数是无限的)作为候选的主题，通过学习数据集来估计最终的主题个数的模型。该原理仿照了层次狄利克雷分配过程(Hierarchical Dirichlet Process，HDP)的方法[7，14]。从另一个角度来讲，HDP方法可以看作是一个无限的LDA模型的扩展(候选的主题的个数是无限的)，它为主题个数添加了一个估计器，从而省略了给定主题个数K的步骤，形成了iLDA模型。LDA和iLDA模型对应的概率图模型分别如图1(a)和图1(b)所示。从图中可以看出，iLDA模型在LDA模型的基础上做了简单的扩展。

(4)对于第m个文档{wm1,…,wmN}中的第n个词

表1　iLDA模型相关变量及描述

3基于iLDA的遥感影像非监督分类

结合上述方法构建的iLDA用于遥感影像非监督分类方法，本文首先提出了一种虚拟文档设计方法来构建文档集；进而构建了基于Block-Gibbs抽样的iLDA分类模型(简称为BG-iLDA模型)并求解了模型；最终设计了详细的算法流程从而实现了BG-iLDA分类算法。

图2　BG-iLDA的概率图模型示意图

3.1文档的设计

一般情况下，影像文档的生成采用显式的生成规则，即按照固定的文档大小和重叠度来分割生成一个个影像块，组成文集。显式的文集中各个文档是相互独立的。因此在对每个文档进行采样并确定该文档中各个像元所分配的主题标签后，仍要进一步处理才能消除同一像元在不同文档中可能被分配不同主题标签的歧义问题。本文提出的虚拟文档的设计方法可以有效避免这个问题。

所谓虚拟文档的设计方法，是指在影像文档生成过程中，在对一幅影像中的每个像元进行采样时，不再固定地对覆盖该像元的各个分割生成的文档进行采样，而是直接以该像元为中心向四周扩展出一个大小为H×H的文档。这些文档只在对它的中心像元所在的采样内框中的像元进行采样时才生成，不是固定存在的，因此称之为虚拟文档。同时基于Block-Gibbs抽样方法，在虚拟文档设计过程中引入了内框Block的概念，即对一个文档进行采样时，只对该文档的内框中的像元进行采样。

图3　显式与虚拟文档设计规则示意图

3.2BG-iLDA模型

结合影像文档的虚拟生成方法和内框Block的引入，基于Block-Gibbs抽样的iLDA高分辨率遥感影像非监督分类的概率图模型可由图2来表示。从图中可以看出，BG-iLDA模型与iLDA模型主要区别如图2中主框体的内框中所示。此处，BG-iLDA算法引入了内框Block，把词和主题的生成过程分成了两部分：内框中像元和除内框以外的文档中像元。对应的，第m个文档中的第n个词的生成过程的也拆分为两个并列的部分：

(1)对于第m个文档{wm1,…,wmN}中的内框Block中的第nb个词

(2)对于第m个文档{wm1,…,wmN}中的内框Block外的第nb 个词

其中，文档中词wm,n分为内框中的词wm,nb和除内框以外的词wm,nb 两部分，相应的文档中词对应的主题zm,n也分为了zm,nb和zm,nb 两部分。wm,nb和zm,nb分别表示第m个文档内框中的第nb个词和其对应的主题，wm,nb 和zm,nb 分别表示内框外的第nb 个词和其对应的主题，Nb,m和Nb,m 分别表示内框中的像元总个数和文档中内框外的像元总数。

图4　BG-iLDA算法流程图

3.3模型算法

与LDA模型的推导类似，BG-iLDA模型用到了Block-Gibbs抽样方法来估计模型参数和逼近求解模型中潜变量的最大后验分布[18]。不同之处在于，本文将iLDA模型视为一种HDP模型来进行推导。作为一个DP(Dirichlet Process)方法，“Chinese restaurant process”(CRP)的隐喻被用来表征整个抽样过程[19]。算法包含4个步骤：

①初始化模型参数

如图2所示，iLDA模型共有4种初始化参数：标量精度参数α，主题分布的控制参数β，未知的主题分布的集合γ和初始的主题个数K0。其中，α、β和γ分别相应的初始化为1、0.1和1，K0则通过实验测试得到。

②统计矩阵变量Φ和Θ

③利用Block-Gibbs抽样方法估计求解

作为LDA模型的一种无限形式的扩展，iLDA模型沿用了主题有限情况下的Block-Gibbs抽样得到主题z的结构：

(1)

∀r∈[1,nm,k],m∈[1,M],k∈[1,K]

(2)

(3)

γ～Gam(aγ+K-1+u,bγ-logv)

(4)

(5)

α～Gam(aa+T-∑mum,ba-∑mlogvm)

(6)

④检查结果是否收敛

由于使用Block-Gibbs抽样方法有一定的随机性，结果中总会存在一些几乎没有类别特征又分布很少的主题，因此本文通过设定一个阈值来过滤掉随机的主题，进而达到平滑分类结果、使主题的估计收敛的目的。

4实验与结果分析

4.1实验数据

如图5(a)所示，本节的实验数据是拍摄于2006年4月26日的北京市通州区的QuickBird全色影像。影像大小为900×900个像元，影像的分辨率为0.6m。该影像中包含的主要地物类型包括房屋、道路、水体、阴影、农田和树木这6类。由于房屋和树木等这类具有一定高度的地物因光照角度的原因会产生阴影，因此在遥感影像中阴影常常伴随着房屋、树木等出现。这里将阴影作为一个单独的类别，以与色调较暗的水体相区别。图5(b)为该原始影像的真实地表分布，其中大片出现的浅黄色区域代表了除去上述6种地物类型外的其他无法通过视觉从影像中明确判读的地物类型。

图5　实验数据示意图

4.2评价方法

本文分别采用了熵值[11]和卡帕系数[20]两种评价方法来对实验数据的非监督分类结果进行分析。其中熵值评价方法是信息论中对不确定性进行度量的一种方法。在非监督分类评价中，它可以度量给定一个真实地物类别其属于各个非监督类别的可能性，以及给定一个非监督类别其属于各个真实地物类别的可能性。但是熵值评价方法无法对一个非监督类别中心是否与一个真实地物类别正确匹配做出评价，因此本文进一步利用卡帕系数的评价方法来衡量非监督类别与地物真实类别的一致性。

4.2.1熵值评价方法

本文采用的熵值评价方法是由Akcay针对遥感影像非监督分类算法而改进的[11]。该方法利用地表真实的地理对象(Ground-truth)和非监督分类结果影像进行分析，通过计算整体类别熵(Overall class entropy)与整体聚类熵(Overall cluster entropy)进而组合来求得非监督分类结果影像的整体熵值(Overall entropy)。该评价方法的具体实施过程如下：

(7)

因此整体聚类熵Ecluster可以通过计算聚类熵Ek的加权平均和来表示：

(8)

聚类熵反映的是属于同一主题的像元之间的同质性，归属于同一主题的像元之间相似性越大则聚类熵值越小。但是这就造成了一个问题，聚类熵的值会伴随着主题个数的增加而降低。为了避免这个问题，引入类别熵来计算归属于同一地物类别的不同主题之间的差异性。对于地表真实类别Ground-truth而言，第c类的真实地物分布于非监督分类结果的对应关系利用类别熵(Class entropy)Ec来表示为：

(9)

因此整体类别熵Eclass可以通过计算类别熵Ec的加权平均和来表示：

(10)

整体熵可以定义为整体聚类熵Ecluster和整体类别熵Eclass的一个线性组合：

E=βEclass+(1-β)Ecluster

(11)

其中，β∈[0,1]是用于平衡整体聚类熵Ecluster和整体类别熵Eclass两个算子权重。正常情况下，这两个算子在精度评价中所占的分量是相同的，因此在本实验中权重β取0.5。一般而言，整体熵值越小，对应的非监督分类结果精度越高。

4.2.2卡帕系数评价方法

卡帕系数评价方法是评价图像分类精度最常用的统计方法，用于衡量分类结果与真实地物分布之间的一致性。卡帕系数为1代表分类结果与真实地表分布完全一致，而卡帕系数为0则表示分类结果几乎等于随机。也就是说卡帕系数越高，分类精度越高。本实验用误分类数量总和的评价标准来评价非监督分类结果与地表真实分布[20]，详细的方法实施过程在此不做累述。

4.3结果分析

在本实验中，BG-iLDA算法的分类结果是通过初始化文档大小为41×41、采样内框为11×11、初始K0为2得到的。算法在求解的过程中估计得到的最佳主题个数为7，但是其中有一个主题是随机存在的，即没有明显的类别特征且所属象元的个数很少。为了更好地分析BG-iLDA算法用于影像非监督分类的有效性，本文利用了K-means和LDA这两种遥感影像非监督分类算法跟BG-iLDA算法的结果进行对比分析。3种算法的结果如图6(a)、图6(b)和图6(c)所示。从图中可以看出BG-iLDA算法可以轻松地区分水体与阴影、房屋与道路这两组因光谱特征相似而容易混淆的地物类型。简单的从视觉角度来看，BG-iLDA算法的结果与原始影像的真实地表分布更加接近。而K-means和LDA的结果图中水体与阴影、房屋与道路这两组地物类型则严重地混在一起难以区分。因此，从视觉效果来看BG-iLDA算法的分类效果优于两类经典的算法。

图6　3种非监督分类方法结果对比

下面利用定量评价方法对实验结果进一步进行分析。3种算法分类结果的熵值与卡帕系数评价结果如表2所示。从表2中可以看出，基于BG-iLDA算法的整体熵值明显低于其他2种算法，而卡帕系数则明显大于其他2种算法。这说明基于BG-iLDA算法得到的分类结果的精度比其他2种算法高，且与真实地表分布的一致性也高。本文利用归一化整体熵(Generalized overall entropy)来评价真实地表各地物类型与3种算法分类结果中各类别中心的对应关系。

表2　3种方法影像分类结果的熵值与卡帕系数评价

归一化整体熵是将传统的熵值计算方法对应到不同的地物类别，即具体到每个地物类别所对应的该类别的整体熵。通常来讲，归一化整体熵值越小，说明对应的真实地物类别的影像聚集程度越高。3种算法对应的各个地表真实地物类别的归一化整体熵的对比分析如图7所示。从图中可以看出，BG-iLDA算法分类结果影像中阴影、树木和农田这3种地物类别对应的归一化整体熵值均小于K-means、LDA算法。这说明BG-iLDA算法较其他2种算法可以更精确地识别出这3种地物类型。与此同时，BG-iLDA算法中水体类型的归一化整体熵值也逼近了其他2种算法中水体对应的归一化熵值。结合图6中水体与阴影的区分情况可知，BG-iLDA算法中水体类型的归一化整体熵值略高于其他2种算法的原因是当阴影成功地从水体类别中分离出去之后，水体类型所包含的像元的同质性比阴影被误分为水体时的像元间的同质性要差，也就是说像元间的聚集效果从某种程度上受到了影响。同理，在将屋顶与道路区分开来的同时，屋顶与道路这2种地物类型的归一化整体熵值较之屋顶与道路混淆在一起时的归一化整体熵值也会有所升高。总的来说，BG-iLDA算法对混淆严重的屋顶与道路、水体与阴影这2组地物类型有较好的区分效果，其归一化整体熵值与分类结果的整体熵值都相对较低，其对于各个地物类别的识别精度比K-means、LDA 2种算法要高。综上所述可知，对比2种主题算法各个地物分类结果整体熵时，BG-iLDA算法比LDA算法更有优势，屋顶、树木、道路和农田4种地物类型的分类精度都明显高于LDA算法。

图7　不同算法的分类结果熵值对比图

上述实验结果和分析表明，给模型添加一个自动估计影像最佳主题个数的估计器，不仅能够提高模型的灵活性、减少实现对影像进行主题个数估计的步骤，还能够使模型提高对影像数据的自适应性、有效地提高模型的精度。但是，尽管在模型学习的过程应该具有较好的自适应性、模型能够自动地估计出主题的个数，但是在本文中该模型的执行效果不是很稳定，有一定的敏感性和随机性。因此，在本文研究的基础之上，还需要进一步分析模型的实用性和有效性，完善模型的理论基础、提高模型的可靠性和鲁棒性。

5结束语

本文以基于Block-Gibbs采样的iLDA模型为基础，通过建立虚拟文档构建遥感影像非监督分类模型，较好地引入了像元之间的语义信息与文档之间的空间关系信息，形成了BG-iLDA模型遥感影像非监督分类算法。通过实验表明，BG-iLDA算法的分类结果具有较好的面向对象特性，对应的类别较好地反映了地物的真实空间分布情况。与此同时，BG-iLDA算法通过引入像元的语义信息与邻域空间关系信息，较好地实现了灰度信息十分相似的水体与阴影这2种地物类型的区分，取得了较好的分类效果，与传统的K-means和LDA算法相比优势明显。同时BG-iLDA模型能够有效地估计出影像数据的最佳主题个数，省去了建模前预设主题个数的步骤，实现了模型的去参数化。

参考文献：

[1]GUI S，CHU H，HONG S.A rapid and automatic MRF-Based clustering methods for SAR images[J].IEEE Geoscience And Remote Sensing Letters，2007，(4)：596-600.

[2]易文斌，慎利，齐银凤，等.基于概率潜语义分析模型的高光谱影像层次聚类分析[J].光谱学与光谱分析，2011，31(9)：2471-2475.

[3]MAURO C，EUFERNIA T.Accuracy assessment of per-field classification integrating very fine spatial resolution satellite imagery with topographic data[J].Journal of Geospatial Engineering，2001，2(3)：127-134.

[4]苏伟，李京，陈云浩，等.基于多尺度影像分割的面向对象城市土地覆被分类研究——以马来西亚吉隆坡市城市中心区为例[J].遥感学报，2007，11(4)：521-529.

[5]TANG H，SHEN L，QI Y，et al.A multi-scale latent dirichlet allocation model for object-oriented clustering of VHR panchromatic images[J].IEEE Transaction on Geoscience and Remote Sensing，2013，51(3)：1680-1692.

[6]HOFMANN T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning，2001，42(1)：177-185.

[7]HEINRICH G.Infinite LDA-implementing the HDP with minimum code complexity[S].Technical note，2011.

[8]BLEI D M，NG A Y，JORDAN M I.Latent dirichlet allocation[M].Machine Learning，2003，(3)：993-1022.

[9]BLEI D M，JORDAN M I.Modeling annotated data[C].In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval，ACM：Toronto，Canada.2003.

[10]WANG X，Ma X，GRIMSON W E L X.Unsupervised activity perception in crowded and complicated scenes using hierarchical bayesian models[J].Pattern Analysis and Machine Intelligence，IEEE Transactions，2008，31(3)：539-555.

[11]AKCAY H G，AKSOY S.Automatic Detection of geospatial objects using multiple hierarchical segmentations[J].IEEE Transactions on Geoscience and Remote Sensing，2008，46(7)：2097-2111.

[12]LI F，PERONA P.A bayesian hierarchical model for learning natural scene categories[J].Computer Vision and Pattern Recognition，2005，(2)：524-531.

[13]BLEI M D.Probabilistic topic models[J].Communications of the ACM，2012，55(4)：77-84.

[14]XING E，JORDAN M，SHARAN R.Bayesian haplotype inference via dirichlet process[J].Journal of Computational Biology，2007，14(3)：267-284.

[15]WANG Y，TANG H，CHEN Y.An object-oriented semantic clustering algorithm for high resolution remote sensing images using the aspect model[J].IEEE Geoscience and Remote Sensing Letter，2011，26(5)：40-44.

[16]QI Y，TANG H，SHU Y，et al.An object-oriented clustering algorithm for VHR panchromatic images using nonparametric latent dirichlet allocation[C].IGARSS，2012：2328-2331.

[17]TANG H，SHEN L.A MRF-based clustering algorithm for remote sensing images by using the latent dirichlet allocation model[J].Procedia Earth and Planetary Science，2011，(2)：358-363.

[18]JENSEN C S.Blocking gibbs sampling for inference in large and complex bayesian networks with applications in genetics[D].PhD thesis，Aalborg University，Denmark，1997.

[19]TEH Y W，JORDAN M I，BEAL M J，et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association，2006，101(476)：1566-1581.

[20]HALKIDI M，BATISTAKIS Y，VAZIRGIANNIS M.On clustering validation techniques[J].Journal of Intelligent Information Systems，2001，(17)：107-145.