APP下载

Hadoop云计算环境下海量图像检索研究

2016-01-02肖万武

无线互联科技 2016年12期
关键词:计算环境海量直方图

肖万武,向 宁

(1.四川民族学院,四川 康定 626001;2.乐山职业技术学院,四川 乐山 614000)

Hadoop云计算环境下海量图像检索研究

肖万武1,向 宁2

(1.四川民族学院,四川 康定 626001;2.乐山职业技术学院,四川 乐山 614000)

Hadoop实现了云计算模型的一个开源,也就是用Java语言实现的软件框架,能够支持MapReduce分布式调度模型的运作,以实现虚拟管理、调度并共享资源。文章将用Hadoop云计算平台实现对海量图像检索研究。

Hadoop;云计算;海量图像检索

近年来,数字化影像技术的高速发展以及互联网在我国的深入普及,数据逐渐走向海量化、多媒体化方向,大量的行业数据被存储在网上,据统计,全球每年的总数据量达到10亿TB,相当于纽约证券交易所每日交易数据的10亿倍。如何对海量多媒体信息采取快速的检索,是研究领域和数字媒体领域里急需解决的重要问题。本文将用Hadoop云计算平台,实现对海量图像检索研究,及时高效地从浩若烟海计算机互联网多媒体资源库中检索自己所需的图像数据。

1 Hadoop云计算概述

Hadoop实现了云计算模型的一个开源,也就是用JAVA语言实现的软件框架,利用分布式处理技术充分利用空闲的计算机资源构成Hadoop集群,在由计算机资源构成Hadoop集群里运行海量数据信息的分布式计算,由Pig,MAPreduce,HIVE,Chukwa,HBASE,ZooKeeper和HDFS等组成。它的处理能力非常强,可以由一台计算机机器扩充到成千上,甚至上亿万台机器的集群,集群中的每台机器都有参与存储和计算的能力,Hadoop还能够支持MapReduce分布式调度模型的运作,以实现虚拟管理、调度并共享资源。具体方法是运用特定算法提取示例图像特征,将其存储在Hadoop分布式文件系统中,然后利用MapReduce并行计算框架,把用户的多媒体检索请求分配给Hadoop集群中“空闲”节点加以处理,再通过Reduce接收计算的结果,最后依照相似度大小予以顺序排列,这样就可以有效解决多用户并发访问和从海量数据库中检索目标资源带来的实时性问题。

2 Hadoop云计算环境下海量图像检索

图像检索通常是根据最开始查询图像的视觉特点,在图像库里面查寻出和这个图像相似的。然后通过图像自身去检索图像,这样可以非常快地提高图像检索的性能,但是在图像检索环节下对CPU的资源消耗也非常大量。尤其是近年来,在计算机科学技术与数字图像采集技术的迅速发展下,还有互联网的深入普及,图片和视频等从各行各业不断大量产生出来,以往的基于单节点架构的图像检索系统已经无法满足当前的要求了,所以基于Hadoop云计算环境下海量图像检索突破以往在检索速度慢、并发性差,实时性与稳定性无法保障等方面的问题,可以很好地满足当前用户对海量图片检索的要求。基于Hadoop MapReduce的大量图像检索首先是将一定数量的小图像存储到一个较大的图像库文件当中,而这一系列过程需要改变原始图片信息的存储方式,以减小其内存需求,提升处理效率,降低存储管理投入。而该检索模式在收集图片时,需要提取其Brushlet域特征和局部二值模式特征,并将提取到的特征数据存储在Hadoop分布式文件系统中。

2.1 Brushlet域复特征提取

要分析这一步骤,需要理解所谓的Brushlets及其特性,Brushlets亦可称为楔波,是一种多尺度的几何分析工具,其重要特征是拥有比较多的可选方向,能处理角分辨问题,也可以说是一种新的图像方向信息分析工具。Brushlet通过变换,形成特有的几何分析工具,以处理正交及非过完备的图像的尺度分辨。研究人员Meyer等人在充分光滑局部周期化技术的基础上,构建了正半部分局部化基函数,该函数隶属于Fourier频域。然而Brushlet函数属于复值函数,而且有独立的相角,在Fourier平面上,以局部化的形式存在于峰值附近,并将所处平面拓展成为加窗Fourier 基。二维Brushlets能够借由其特有的方向结构及震荡频度实现重构,其基函数的结构越大,分析窗口则越小,反之亦然。由于二维Brushlets所特有的独立相角能帮助其明示方向,因而图像的方位信息被准确反映出来,也正是基于此能对Fourier域进行有效的分解。二维Brushlets对Fourier域的分解是逐层进行的,一层分解对应的方向是π/4+kπ/2(k=0,1,2,3)。在此Fourier平面被分为4个象限,相应的系数则分成4个子带;而二层分解则基于一层分解,将一层中的每个象限再分解成为4个部分,这样就有16个子带,其中有4个子带围绕中心,其分量是低频的,而其余没有环绕中心的子带则是高频分量;接下来的层次分解同样以此类推。

2.2 局部二值模式特征提取

局部二值模式,简称LBP,是一种具有灰度不变性、旋转不变性优点的算子,在计算机视觉等领域表现出杰出的优良机能,通过勾勒邻域范围像素点的灰度对中心点的变化状况,以提取并描述图像的局部纹理特征。由于具有简单、高效的效果,在目标检测、目标识别、图像检索等不同方面均发挥了巨大的作用。该模式在对图像提取过程中,需要将一幅图像分解成为很多个子区域,分布提取这些子区域中每个像素点的LBP特征,在此基础上建立这些LBP特征的统计直方图,如此一来,由每个子区域各自的统计直方图描述这些子区域,这些统计直方图全部组合起来就能描述整幅图片,直方图成了图像的空域特征。

2.3 Hadoop云计算环境下海量图像检索流程

在以往,由于技术上的局限,只能运用传统的办法将图像放置到Hadoop分布式文件系统中,不但费事且不易检索。如今,可采用Hadoop MapReduce分布式处理方法,将图像上传至Hadoop分布式文件系统,并在不同的段中展开不同的步骤。例如Map段时,运用Map函数读取图像,提取图像的纹理特征及颜色,而在educe段时,将之前提取到的数据存储进Hadoop分布式文件系统。而存储在该系统中的图像是以HBase表形式存在的,目的是便于图像数据的分布和存储,而当数据聚集到较大数量时,需要耗费较久的时间进行扫描搜索,运用Hadoop MapReduce计算模型进行检索、计算,能有效缩短检索图像的时间,提升检索的效率,具体操作可以分为4个步骤。步骤一是收集图像并提取其相应的特征,将提取到的图像特征存储到Hadoop分布式文件系统中。步骤二是提取图像的LBP特征及Brushlet域特征,向系统提交检索请求。步骤三是分阶段进行操作,在Map段进行图像匹配比对,将待检索的图像特征比对HBase里的图像特征,根据其相似度情况进行排序并重新划分,再输入到Reducer。到了Reduce段时,需收集Map段中的所有〈相似度,图像ID〉键值对,并对收集到的这些键值对进行相似度排序,然后将前N个键值对写入到Hadoop分布式文件系统中。步骤四是输出与待检索图像最相似的那些图像的ID,用户得到最终的检索图片结果。

[1]张莉艳.基于云计算的铁路信息共享平台及关键技术研究[D].北京:中国铁道科学研究院,2013.

[2]ALMEER M H.Cloud Hadoop map reduce for remote sensing image analysis[J].Emerging Trends in Computing and Information Sciences,2012(4):637-644.

[3]张兴.基于Hadoop的云存储平台的研究与实现[D].成都:电子科技大学,2013.

[4]张功荣.基于云计算的海量图像处理研究[D].杭州:浙江大学,2015.

Research on Mass Image Retrieval in Hadoop Cloud Computing Environment

Xiao Wanwu1, Xiang Ning2
(1.Sichuan Minzu College,Kangding 626001, China;2.Leshan Vocational and Technical College, Leshan 614000, China)

Hadoop implements an open source of cloud computing model, which is the software framework achieved by JAVA language, it can support the workings of MapReduce distributed scheduling model, in order to realize the virtual management, scheduling and sharing of resources. In this paper, we study the mass image retrieval in Hadoop cloud computing environment.

Hadoop; cloud computing; massive image retrieval

肖万武(1981— ),男,四川康定,助理研究员;研究方向:计算机应用。

猜你喜欢

计算环境海量直方图
一种傅里叶域海量数据高速谱聚类方法
符合差分隐私的流数据统计直方图发布
海量快递垃圾正在“围城”——“绿色快递”势在必行
用直方图控制画面影调
大数据云计算环境下的数据安全
基于空间变换和直方图均衡的彩色图像增强方法
云计算环境中任务调度策略
基于直方图平移和互补嵌入的可逆水印方案
基于云计算环境下的分布存储关键技术探讨
基于文件系统的分布式海量空间数据高效存储与组织研究