基于主题模型的高分影像人工地物在线检索
2015-02-07杨志刚沈盛彧张平仓吴华意
杨志刚,沈盛彧,张平仓,张 彤,吴华意
(1.广东省国土资源测绘院,广东 广州 515000;2.长江科学院 水土保持研究所,湖北 武汉 430010;3.武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉 430079)
基于主题模型的高分影像人工地物在线检索
杨志刚1,沈盛彧2,张平仓2,张 彤3,吴华意3
(1.广东省国土资源测绘院,广东 广州 515000;2.长江科学院 水土保持研究所,湖北 武汉 430010;3.武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉 430079)
传统遥感影像检索系统主要是基于遥感影像的元数据、底层视觉特征或语义标注来实现检索功能,面对海量的高分辨率遥感影像时,会因为计算量大或人力标注工作量大而无法兼顾时效性和准确性。提出了基于高性能云计算的海量高分辨率遥感影像的存储组织、底层视觉特征提取和基于主题模型的遥感影像及人工地物检索总体框架,并进一步实现了原型系统,为高分辨率遥感影像中人工地物在线检索研究进行了有益尝试。
高分辨率遥感影像;高性能云计算;主题模型;滑动窗口
分析遥感数据的特点和遥感数据的应用现状,可以总结出遥感数据利用率低下的2个重要原因:①对海量遥感数据的信息提取不足;②对海量遥感数据的检索能力不足。虽然研究者们也一直尝试从各种角度为海量遥感影像的处理、管理与检索提出独到的解决方案[1-7],但这些传统遥感影像检索系统[8,9]主要是基于遥感影像的元数据、底层视觉特征或语义标注来实现检索功能,面对海量的高分辨率遥感影像时,会因为计算量大或人力标注工作量大而影响结果。
本文借鉴信息检索和计算机视觉理论与技术,提出了基于高性能云计算的海量高分辨率遥感影像的存储组织、底层视觉特征提取和基于主题模型的遥感影像及人工地物检索总体框架,进一步实现了原型系统,为高分辨率遥感影像库中人工地物在线检索研究进行了有益尝试。
1 高分辨率遥感影像库中人工地物在线检索框架
为了实现高分辨率遥感影像库中人工地物在线检索,本文设计了一种高分辨率遥感影像人工地物检索框架。本框架主要由高性能云计算平台和B/S客户端2个部分组成,如图1所示。高性能计算平台主要负责海量高分辨率遥感影像的存储、底层视觉特征的提取及基于主题模型检索库的组织与存储。B/S客户端负责提供友好的用户交互界面,方便用户进行高分辨率遥感影像中人工地物的检索操作。其中基于高性能云计算的海量遥感影像处理与主题模型应用是重点。
图1 高分辨率遥感影像库中人工地物在线检索框架
图2 海量遥感影像处理流程
2 基于高性能云计算的海量遥感影像处理
高性能云计算平台中的海量遥感影像处理流程如图2所示。通过使用文献[10]提出的基于MapReduce框架的预处理方法,海量高分辨率遥感影像集合以规则网格方式切分后被高效并行地合并成小影像集大文件,再保存在分布式文件数据库中。本平台以此小影像集大文件为原始数据,采用文献[11]所提出的高效并行的高分辨率遥感影像底层视觉特征提取方法对所有小影像进行底层视觉特征提取,生成海量底层视觉特征库。再通过对海量底层视觉特征进行聚类分析,生成有限数量的可描述海量小影像的视觉词项,然后采用Bag of Visual Words模型将所有小影像分别表示为视觉词项的序列,由此得到海量高分辨率遥感影像集合的视觉词项——小影像共现矩阵,作为高分辨率遥感影像中人工地物的检索基础[10,11]。
3 基于主题模型和滑动窗口的人工地物检索
本检索采用的是先粗略后具体的方式。检索中,先通过建立的主题模型检索出包含指定人工地物的遥感影像候选集,再通过滑动窗口识别出目标人工地物,获得检索最终结果。
3.1 基于主题模型的遥感影像检索
遥感影像检索的数据基础是检索模型,或称检索库。基于主题模型的高分辨率遥感影像检索模型是根据海量高分辨率遥感影像集合的视觉词项——小影像共现矩阵进行主题模型训练生成,检索流程如图3所示。其中预处理部分已在前一节基于高性能云计算完成;主题分析则采用主题模型对预处理后的遥感影像集进行潜在语义分析,建立概率检索模型;最后,根据视觉词—遥感影像之间的潜在语义联系,对用户需要检索的图像进行相似性计算,实现高分辨率遥感影像检索结果排序与显示。详细内容请参见文献[12]。
图3 基于主题模型的高分辨率遥感影像检索流程
3.2 基于滑动窗口的人工地物识别
前一节的高分辨率遥感影像检索已经获得了与查询遥感影像具有相似主题的遥感影像集。由于相似性,这些遥感影像中也包括了与查询遥感影像相似的人工地物。直接基于原始像素进行滑动窗口的人工地物识别,其计算成本很高,可能导致无识别结果。为了解决模糊性识别,同时还要适当降低计算量以提高在线处理效率,采用降采样的遥感影像和梯度约束来进行人工地物识别,基本处理流程如图4所示。
图4 基于滑动窗口的人工地物识别基本流程
1)降采样:通过设定尺度系数,对人工地物影像和目标遥感影像同时进行降采样。
2)差异指数计算:从降采样的目标遥感影像的左上角开始,将人工地物样本降采样窗口进行“Z”字型滑动,每次移动一个超像素来遍历全图。同时,计算每次移动时窗口与目标遥感影像局部的像素灰度差值,并求和平均到每个像素就得到该区域的差异指数,最终可以获得整幅图的差异指数矩阵。
3)梯度约束选取:对获得的差异指数矩阵进行极小值计算,并将此极小值一定二维邻域内的其他差异指数排除极小值候选区。根据差异指数阈值和差异指数比例系数,循环此过程,即可得出相似人工地物的候选区。因为仅用极小值来选择准确性较低,所以本文还采用了梯度统计的方法进行约束。通过将候选区在X、Y 两个方向上梯度数量的比值与人工地物样本进行比较,对不符合要求的候选区进行排除。
4)人工地物标识:根据最终各个候选区域的坐标范围,将识别出的人工地物以矩形框的形式在原始遥感影像上标识出来。
4 原型系统实现
4.1 平台环境
虚拟集群:在4台物理机器上每台虚拟出4台机器,组成共16个节点的Hadoop集群。其中包括1台Master和15台Slave,HDFS系统数据备份设置为3,MapReduce内存设置为2 046 MB,每台虚拟机可支持2个Map操作。
本原型系统中提取的海量高分辨率遥感影像底层视觉特征为MSER和Harris-Affine特征区域,使用SIFT128维特征向量描述。
4.2 系统功能
本原型系统的B/S客户端由Web服务器发布,后台数据来自于高性能云计算提供的基于Latent Dirichlet Allocation(LDA)的检索模型和海量高分辨率遥感影像库,前台通过Internet为用户提供高分辨率遥感影像的主题浏览、影像检索、地物检索和详细定位等操作,如图5所示。
本客户端首先将基于LDA的检索模型中代表训练出的各主题的典型小影像展现在用户面前,然后由用户根据自己的兴趣任意点击选择小影像,进行基于概率主题模型的遥感影像检索,获得与小影像相似的检索排序结果。因为小影像中包含有主题特征的人工地物对象,所以用户可以根据已检索的结果,拉框选择自己感兴趣的人工地物,本系统会进一步将已查询出的遥感影像中的人工地物检索并标识出来。
根据遥感影像或人工地物所在的遥感影像检索结果的元数据(如文件名、经度和纬度等),本系统还可以提供展示其原始大幅面高分辨率遥感影像和其元信息的功能和根据经纬度在网络地图控件中进行地理标识的功能。
图5 B/S客户端功能结构图
4.3 原型系统界面
对应于本原型系统的4项功能,B/S客户端的主要功能界面如图6~9所示。
图6 客户端的检索初始界面
图7 遥感影像检索效果
图8 人工地物检索效果
图9 遥感影像定位查看效果
5 结 语
本文总结了遥感数据利用率低下的主要原因,通过借鉴信息检索和计算机视觉理论与技术,提出了利用高性能云计算对海量高分辨率遥感影像进行存储组织和底层视觉特征提取,再运用主题模型分析遥感影像建立检索模型,基于滑动窗口实现人工地物的检索。相对传统方法,本方法应对高分辨率遥感影像海量性的能力有所提高,并能在一定程度上兼顾遥感影像处理和检索的时效性、准确性,探索了一条高分辨率遥感影像库中人工地物在线检索研究的新思路。但本原型系统所处理的数据量不到100 G,图幅数量也未超过100万幅,还未能充分实现海量数据量级,下一步研究将结合更多信息处理、数据挖掘等技术和更大数据量级展开。
[1] 朱先强. 融合视觉显著特征的遥感图像检索研究[D]. 武汉:武汉大学, 2011
[2] 李小文. 定量遥感的发展与创新[J]. 河南大学学报:自然科学版, 2005, 35(4): 49-56
[3] Datcu M, Seidel K, Walessa M. Spatial Information Retrieval from Remote Sensing Images Part I: Information Theoretical Perspective [J]. IEEE Transactions on Geoscience and Remote Sensing, 1998, 36(5):1 431-1 445
[4] Sheikholeslami G, Zhang A D, Bian L. A Multi-resolution Content-based Retrieval Approach for Geographic Images [J].Geoinformatica, 1999, 3(2):109-139
[5] 程起敏. 基于内容的遥感影像库检索关键技术研究[D]. 北京:中国科学院遥感应用研究所, 2004
[6] 宁晓刚. 基于内容遥感图像检索的数据组织、特征提取和索引机制[D]. 武汉: 武汉大学, 2006
[7] 张男. 基于内容的光学遥感图像检索关键技术研究[D]. 长沙:国防科学技术大学, 2008
[8] Shyu C R, Klaric M, Scott G J, et al. GeoIRIS: GeospatialInformation Retrieval and Indexing System-Content Mining, Semantics Modeling, and Complex Queries [J]. IEEE Transactions on Geoscience and Remote Sensing, 2007, 45(4):839-852
[9] Molinier M, Laaksonen J, Hame T. Detecting Man-made Structures and Changes in Satellite Imagery With a Contentbased Information Retrieval System Built on Self-organizing Maps [J]. IEEE Transactions on Geoscience and Remote Sensing, 2007,45(4):861-874
[10] 沈盛彧, 刘哲, 张平仓, 等. 一种适用于云计算可扩展高分辨率遥感影像存储组织结构[J].长江科学院院报,2014, 31(12):107-112
[11] 沈盛彧, 刘哲, 张平仓, 等. 基于MapReduce的高分辨率遥感影像特征提取方法[J]. 长江科学院院报,2014,31(2) :91-96
[12] 沈盛彧, 刘哲, 张平仓, 等. 一种基于LDA的高分辨率遥感影像检索方法[J].长江科学院院报,2014,31(8) :98-102
P237.3
B
1672-4623(2015)04-0052-03
10.3969/j.issn.1672-4623.2015.04.019
杨志刚,工程师,主要从事遥感影像处理及应用工作。
2015-03-03。
项目来源:国家自然科学基金资助项目(41271400);国家重点基础研究发展计划资助项目(2012CB719906);中央级公益性科研院所基本科研业务费资助项目(CKSF2014024/TB)。