基于自定义的LIRe和HBase的海量医学图像检索
2016-06-20吕晓琪任国印
郝 娟,吕晓琪,赵 瑛,任国印,张 明
(内蒙古科技大学 信息工程学院,内蒙古 包头 014010)
基于自定义的LIRe和HBase的海量医学图像检索
郝娟,吕晓琪,赵瑛,任国印,张明
(内蒙古科技大学 信息工程学院,内蒙古 包头014010)
摘要:为了解决海量医学图像检索效率低的问题,提出一种自定义的LIRe和HBase相结合的方案。首先,将医学图像上传到HDFS;然后,通过自定义LIRe框架分别提取海量医学图像的形状以及纹理特征并将特征向量及图像的绝对路径存储到HBase中。最后,利用MapReduce模型以及图像特征索引工具LIRe方便地对医学图像特征建立索引进行特征匹配实现检索。实验结果证明,自定义的LIRe提高了检索准确性,相比将医学图像以及特征向量均存储在HDFS中,也提高了检索效率。
关键词:LIRe;HDFS;MapReduce;HBase;医学图像检索
近年来,医学影像技术迅速发展,大量医学影像数据随之产生,这些数据为医生临床诊断以及治疗方案的制定提供了客观依据,在科研活动中也有十分重要的地位。然而,如何在与日俱增的医学图像数据中进行快速且准确的检索,是医学工作者们必须面临和解决的一个重要问题。目前国内外关于基于内容的医学图像检索技术(Content-based Medical Image Retrieval,CBMIR)[1]的研究基本都是在单机环境下进行,当今大规模医学影像数据使得该串行模式的医学图像检索技术已出现进程瓶颈,不能满足客观需求。
Hadoop[2]平台的出现为解决这一问题提供了全新思路,随后学者们也开始在Hadoop平台下进行了医学图像检索技术的相关研究。其中有基于Hadoop的海量医学图像检索系统[3],将医学图像以及图像特征均存储于分布式文件系统HDFS (Hadoop Distributed File System)[4],然后采用MapReduce[5]模型进行匹配,缩短了检索时间,提高图像检索速度。随后,也有学者提出基于海量医学影像数据处理过程中的优化方法[6],文中分析了Hadoop处理海量小文件的不足,研究了医学图像DICOM文件格式。提出了对DICOM小文件合并方案,设计形成了一种SF-DICOM新文件格式,实验验证了该方法的有效性。然而,HDFS只能提供一种快速访问特定数据条目的机制,不能随着数量集的增长有很好的扩展,而HBase[7]的主要优势就是快速随机访问。
为提高检索效率,本文结合HDFS和HBase的最优功能,提出将DICOM图像上传到HDFS后,利用HBase存储其特征向量以及图像在HDFS中的存储路径从而保证快速检索;另外,在特征提取以及建立索引实现检索的过程中运用基于Lucene[8]的图像特征索引工具LIRe(Lucene Image Retrieval)[9]并结合MaReduce并行模型,设计实现了结合自定义的LIRe和Hadoop的基于内容的海量医学图像检索。实验结果证明,有效提高了海量医学图像检索的准确性与时效性。
1背景知识
1.1Hadoop技术
Hadoop是Apache软件基金会下的一个用Java语言实现的开源软件框架,并且作为一个能够开发和运行处理大规模数据的软件平台,为大数据集处理的应用开发提供便捷。Hadoop开源框架中最核心的设计是分布式文件系统HDFS和并行式编程模型MapReduce。
1.1.1HDFS分布式文件系统
HDFS分布式文件系统具有高容错性[10],其体系结构由一个NameNode主节点和若干个DataNode子节点组成。其中NameNode主节点的主要作用有: 1)管理文件系统的命名空间(NameSpace),维护整个文件系统的目录树及文件的索引目录;2)记录文件中各个块的DataNode信息,记录在每次系统重启通过NameNode主节点获取元数据信息,并通过与DataNode的交互实现访问整个文件系统。DataNode子节点的作用有: 1)存储并检索数据块,受客户端或NameNode调度;2)定期向NameNode发送所存储的文件块(Block)信息。
1.1.2MapReduce并行编程模型
MapReduce[11]是Google公司于2004年提出的一种用于大规模数据处理的并行编程模型。它提供了一个简单且具有强大功能的接口,通过这个接口,大量数据的计算任务可以自动地进行并发和分布执行。编写MapReduce程序,其编写过程要实现两个函数:Map函数和Reduce函数。其中Map函数中面对的是互不相关的数据并且要对每个数据进行分析,从中提取出key和value的值,然后分配给各个节点,实现并行模式的处理,Map经过Shuffle阶段之后,在Reduce阶段得出归纳好的数据。最后,通过Reduce程序汇总处理后的结果。在此基础上可以做进一步的数据处理以得到理想结果。HDFS的体系结构如图1所示。
图1 HDFS体系结构
1.2HBase分布式数据库
HBase是一个分布式的、面向列的开源数据库,HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益[12],能融合key/value存储模式所具有的实时查询能力,以及通过MapReduce进行批处理的能力。Hbase在海量数据查询中表现出强大优势,且HBase更适合存储非结构化数据。
1.3LIRe
Lucene平台是一个全文检索的开源的Java库,LIRe (Lucene Image Retrieval)是在Lucene基础上开发的。提供了用于基于内容的图像检索的API,可以实现对图像的特征提取和建立索引[13]。LIRe一方面实现了对图像的特征提取,另一方面克服了传统基于数据库线性查找不方便的问题。LIRe中封装实现的图像特征有:1)RGB和HSV空间的颜色直方图;2)MPEG-7的颜色特征;3)Tamura纹理特征;4)颜色和边缘的方向性描述符;5)模糊颜色和纹理直方图;6)颜色关联图;7)尺度不变特征变换。LIRe在实现特征提取和建立索引的同时还具有高度的扩展性,用户可以根据图像类型自定义特征提取方法。
2结合LIRe和Hadoop实现医学图像检索
Lucene封装了索引和查询的底层细节,用户只需使用Lucene提供的API方便灵活地构建检索系统。Hadoop平台下的医学图像检索技术打破了图像数据存储空间受单一服务器容量限制的瓶颈,医生可以在具有更大存储能力的Hadoop平台下检索所需要的影像数据。所以本文通过LIRe提取特征建立索引并利用HBase存储医学图像特征向量,运用MapReduce快速完成检索任务。
本文结合LIRe和Hadoop实现的医学图像检索系统框架如图2所示。
图2 系统框架图
2.1医学图像特征提取及存储
本课题根据医学图像特征对LIRe进行了自定义封装,选择了基于区域的形状特征——Hu不变矩[14]进行医学图像特征的提取,因为用不变矩表达图像的形状特征可以不受图像的缩放、平移和旋转的影响,对噪声也不敏感。在纹理特征提取过程中采用灰度共生矩和tamura纹理特征融合的方法[15],提取了灰度共生矩阵的5个特征向量(能量、墒、相关、惯性矩、局部平稳)以及tamura的两个特征向量 (粗糙度、对比度)共同构成拥有7个特征向量以增强区分度。
Hadoop中HDFS默认处理的数据块大小为64 Mbyte,而常见的DICOM医学影像大小约为512 kbyte左右,为了处理海量图像数据,每次都要合并成一个序列化文件,这样会影响系统的性能。因此,本文利用分布式数据库(HBase)对超大规模数据集进行随机读写操作,将提取的医学图像的形状和纹理特征向量以及图像在HDFS的存储路径ID存储在HBase中。
由于图像数量较多时,图像特征的提取时间会比较长,本文需要调用一个MapReduceJob来实现,其特征提取以及存储过程如下:
1) 将医学图像上传到分布式文件系统HDFS中;
2) 读取HDFS中的1幅图像作为Map函数的输入;
3) 用自定义的LIRe框架,提取图像的形状特征以及纹理特征并建立索引;
4) 将图像在HDFS中的存储路径ID以及特征向量存储到分布式数据库HBase中;
5) 将不符合检索要求的医学图像作为Reduce函数的输入,收集其ID后输出到分布式文件系统HDFS中。
2.2医学图像检索
由于数据量比较大,为了减少检索图像的时间并提高检索效率,本文采用MapReduce模型来对图像的检索进行并行计算。在MapReduce的整个过程当中,其基本流程如下:
1) 用户提交医学图像检索请求,并提取待检索图像的纹理特征以及形状特征将其存储到分布式数据库HBase中;
2) 系统响应检索请求上传至Hadoop平台为Map分配任务,发送至各个节点并行工作;
3) 采用加权欧氏距离的方法对图像特征进行相似度测量,为Map函数中的key/value键值对赋值为<相似度,图像ID>,并输出键值对;
4) 根据相似度的大小进行排序,按照键值对的形式输入给Reduce;
5) Reduce函数收集所有键值对,进行排序,并把前12个键值对存储到HBase中;
6) 最后将结果进行归纳将检索到的相似图像按照相似度大小反馈给用户,得到最终结果。
其中Map函数以及Reduce函数的定义如图3所示。
图3 Map函数及Reduce函数设计
3实验结果及分析
3.1实验环境
本实验操作系统为ubuntu 14.04 64 bit操作系统下,配置了Hadoop-0.20.0平台,开发环境为eclipse,搭建了有5个节点组成的伪分布式系统。计算机处理器为Inter(R) Core(TM) i7-3770 CPU @ 3.40 GHz,内存为8 Gbyte,硬盘为1 Tbyte。
3.2实验分析
本文实验数据均来自内蒙古包头市第一附属医院,通过自定义LIRe框架实现提取医学图像特征以及建立索引,设计HBase数据库并实现图像特征向量以及图像ID的存储,用MapReduce实现医学图像检索。通过与未自定义LIRe与单机以及存储HDFS进行对比,部分实验运行结果如图4~图7所示。
图4 未自定义LIRe的单机环境下的医学图像检索结果(截图)
图5 自定义LIRe的单机环境下的医学图像检索结果(截图)
图6 基于HDFS存储与LIRe结合的医学图像检索结果(截图)
图7 基于HBase存储与LIRe结合的医学图像检索结果(截图)
经过多次检索实验,选取最能代表平均检索时间的4次检索结果进行显示与讨论,本组实验选取的图像集大小是1 Tbyte,由以上4幅图可以看出以下几点:1)由图4与图5、图6、图7相比,检索结果不同,未自定义LIRe中在纹理特征中只选择了Tamura纹理特征,包括粗糙度(Coarseness),对比度(Contrast)和方向度(Directionality)3个向量。形状特征选取了尺度不变特征变换(Scale-invariant feature transform , SIFT)。显然本文自定义LIRe后的检索结果更符合客观需求。 2)图4与图5均是在单机环境下进行,检索时间基本相同。3)图5、图6、图7因为选用了自定义的LIRe,其检索结果相同且符合客观需求,但是很明显检索时间从21.849 s到10.363 s再到本文4.867 s,提高了检索效率。
另外,本文还做了不同数量级的医学图像检索实验,主要分析对比了基于自定义的LIRe,在单机环境以及医学图像特征和图像ID存储位置不同的检索效率对比如图8所示,检测结果与待检测图像之间的距离如表1所示。
图8 检索效率对比
图像名称NO7541NO3518NO2146NO1457距离00.2330.3280.388图像名称NO354NO11NO5428NO2145距离0.4050.4820.5440.563图像名称NO256NO8463NO5NO75距离0.5890.6900.7050.721
表1中,图像库中图像与待检测图像之间的距离由小到大排列,距离越小表示相似度越高。从检索结果可以看出,本试验系统检索准确性较高、实效性较强,能够满足临床诊断的客观需求。
4结束语
本文结合自定义的LIRe以及Hadoop平台实现了海量医学图像检索,利用Hadoop的核心框架分布式文件系统HDFS先将图像上传,并将图像在HDFS中的路径以及图像特征向量存储到HBase中,运用MapReduce编程模式进行并行式检索,各个节点之间相互配合。设计实现了Hadoop平台下更高效的基于内容的医学图像检索系统。最终实验结果证明,本系统均有效提高了海量医学图像检索的准确性以及检索效率,能满足临床需求。
参考文献:
[1]MÜLLER H, MICHOUX N, BANDON D, et al. A review of content-based image retrieval systems in medical applications—clinical benefits and future directions[J]. International journal of medical informatics, 2004, 73(1): 1-23.
[2]怀特. Hadoop权威指南[M]. 北京: 清华大学出版社, 2015.
[3]范敏,徐胜才.基Hadoop的海量医学图像检索系统[J].计算机应用,2013,33(12):3345-3349.
[4]BORTHAKUR D. The hadoop distributed file system: Architecture and design[J]. Hadoop project website, 2007, (11):1 - 10.
[5]刘刚. Hadoop应用开发技术详解[M].北京: 机械工业出版社, 2014.
[6]王燕楠. 基于Hadoop的海量医学影像数据处理过程中的优化方法研究 [D].北京:首都师范大学.2014.
[7]CARSTOIU D, CERNIAN A, OLTEANU A. Hadoop Hbase-0.20.2 performance evaluation[C]// Proc. 2010 4th International Conference on New Trends in Information Science and Service Science (NISS).[S.l.]:IEEE, 2010:84-87.
[8]PEIN R P, LU J, WOLFGANG R. An extensible query language for content based image retrieval based on Lucene[C]// Proc. the 8th IEEE International Conference on Computer and Information Technology. [S.l.]:IEEE, 2008: 179-184.
[9]LUX M, CHATZICHRISTOFIS S A. Lire: lucene image retrieval: an extensible java CBIR library[C]// Proc. the 16th ACM international conference on Multimedia. [S.l.]:ACM, 2008:1085-1088.
[10]LI P J, CHEN G J, GUO W M. A distributed storage architecture for regional medical image sharing and cooperation based on HDFS [J].Journal of southern medical university, 2011, 31(3): 495-498.
[11]LEE H, KIM M, HER J, et al. Implementation of MapReduce-based image conversion module in cloud computing environment[C]//2012 International Conference on Information Networking (ICOIN) . [S.l.]:IEEE, 2012: 234-238.
[12]杨曼, 何鹏, 齐怀琴,等. 基于Map/Reduce的海量视频图像检索系统设计[J]. 电视技术, 2015, 39(4):33-36.
[13]DONG F L, WEI C, GEN P C. Research and application of the image search algorithm based on LIRE[C]// 2012 2nd International Conference on Computer Science and Network Technology (ICCSNT).[S.l.]:IEEE,2012: 811-815.
[14]吕晓琪, 王新刚, 贾东征. 基于医学图像多特征的蚁群聚类检索技术研究[J]. 计算机工程与设计, 2014, 35(6): 2078-2083.
[15]WANG Z Z, YONG J. Texture analysis and classification with linear regression model based on wavelet transform.[J]. IEEE transactions on image processing, 2008, 17(8):1421-1430.
郝娟(1989— ),女,硕士,主要研究方向为医学图像处理和云计算;
吕晓琪(1963— ),教授,博导,本文通信作者,主要研究方向为医学图像处理和云计算;
赵瑛,女,博士后,讲师,硕士生导师,主要研究方向视觉功能修复、智能信息处理、图像处理与应用;
任国印(1985— ),硕士,讲师,主要研究方向为医学图像处理;
张明(1985— ),硕士,讲师,主要研究方向为医学图像处理。
责任编辑:闫雯雯
Massive medical image retrieval based on customized LIRe and HBase
HAO Juan,LÜ Xiaoqi,ZHAO Ying,REN Guoyin,ZHANG Ming
(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,InnerMongoliaBaotou014010,China)
Abstract:In order to solve the problem of the low retrieval efficiency of massive medical images, a method combining customized LIRe and HBase is proposed. Firstly, upload the medical images to the Hadoop distributed file system. Afterwards, extract images' shape and texture features by customized LIRe framework then store the feature vectors and the absolute path of image in HBase. Finally, use MapReduce parallel programming model and image feature index tools LIRe to bulid index and implement retrieval. The experimental results show that customized LIRe improve the retrieval accuracy and the massive medical image retrieval efficiency is higher than that medical images and feature vectors stored in HDFS.
Key words:LIRe; HDFS; MapReduce; HBase; medical image retrieval
中图分类号:TP391
文献标志码:A
DOI:10.16280/j.videoe.2016.05.025
基金项目:国家自然科学基金项目(61179019;61261028);内蒙古自治区自然基金项目(2014MS0828);内蒙古科技大学创新基金项目(2014QDL045)
作者简介:
收稿日期:2015-07-28
文献引用格式:郝娟,吕晓琪,赵瑛,等. 基于自定义的LIRe和HBase的海量医学图像检索[J].电视技术,2016,40(5):116-120.
HAO J,LÜ X Q,ZHAO Y,et al. Massive medical image retrieval based on customized LIRe and HBase [J].Video engineering,2016,40(5):116-120.