基于Hadoop的高校美术绘画资源存储与检索平台设计
2018-08-21李朝霞
李朝霞
(西安工程大学,西安 710048)
0 引言
近年来,随着我国市场经济高速发展,人们对艺术的需求也日渐提高。在此背景下,作为艺术人才培养基地的美术学院开始致力于美术绘画资源数据库的建设工作。美术学院绘画资源数据库是满足高校美术专业对艺术资源需求的一个重要平台,高校可以借助该平台,发挥艺术资源共享的作用,并集合美术绘画的各项资源。但就目前情况来看,高校在进行美术绘画资源存储与检索平台研究方面仍存在许多问题,难以在传统模式的影响下发挥出自身独特优势。对此,本文对基于Hadoop的高校美术绘画资源存储与检索平台进行研究设计,以期为高校艺术专业起到参考作用。
1 Hadoop简述
Hadoop是一种由美国非盈利性组织Apache软件基金会设计开发的开放式源代码框架,能够在分布式底层细节不够清晰的情况下,帮助用户进行分布式程序开发工作,从而被广泛应用于开源云计算编程平台方面。在Hadoop框架的整体设计中,HDFS与Map Reduce扮演着极其重要的角色。其中,HDFS是Hadoop架构实现分布式计算以及海量数据储存的关键;Map Reduce主要借助Map函数以及Reduce函数达到对工作的分解及分解结果汇总的目的。
1.1 HDFS基本原理
HDFS在运行过程中以主/副关系作为其整体架构,具有一个主节点及多个从而点。在HDFS分布式的集群中,通常是由一个Name Node,以及多个Data Node共同构成。其中Name Node表示名称节点,主要在HDFS主节点上运转。该节点在整个架构中,通常被看成是一个中心协调器,担负着客户端对文件访问的监管以及资源文件系统命名空间的管理职责。在HDFS集群中,通常情况下仅在一个节点中安装一个数据节点,具体HDFS 架构体系,如图1所示。
图1中,HDFS主要从资源文件写入、资源文件获取、数据块备份三方面对数据进行管理。其中,资源文件写入实则就是将数据块按照数据文件事先排列好的顺序,依次写入至HDFS中相应的数据节点中;资源文件获取主要通过客户端对数据节点上的信息进行获取;数据块备份主要作用于在数据节点出现故障的情况下,进行数据块备份工作。
图1 HDFS架构体系
1.2 Map Reduce基本原理
Map Reduce在计算过程中主要由Map 阶段以及Reduce 阶段组成。其中Map阶段主要采用将运算任务细分为众多小运算任务,并将众多小任务派送至各数据节点的方式进行计算工作;Reduce阶段主要担负着将众多Map运算任务进行及输出至HDFS中的责任。具体Map Reduce 的计算流程,如图2所示。
图2中,通常情况下,用户在规定的Map Reduce中,其中的任意Map 函数所负责
图2 Map Reduce执行流程
2 基于Hadoop的高校美术绘画资源存储与检索平台设计
2.1 设计思路
由于本次设计所面向的对象主要为高校美术绘画专业,因此在对基于Hadoop 的高校美术绘画资源存储与检索平台进行设计时,本文将以美术绘画自身的特点作为设计基础,结合美术绘画资料实现对绘画资源的数字化管理。在此基础上,利用元数据进行绘画数据资料录入,然后对绘画资料实行文本化及校验,从而实现对海量美术绘画数字化图片的存储及检索。
2.2 整体架构设计
结合以上对高校美术绘画资源存储与检索平台设计思路的分析,本系统首先从美术绘画管理入手,以设计资料管理系统的方式建立起绘画资料元数据及数字化文档的电子档案,以此便于对数字化绘画资料的入库及管理。同时,出于对高校美术绘画资料数量巨大的考虑,本系统将采用全文本的图片检索方式,对高校美术绘画数字化图片进行存储及检索。具体基于Hadoop 的高校美术绘画资源存储与检索系统整体架构如图3所示。
2.3 功能模块设计
通过以上对系统设计思路及整体架构设计的分析,本文将该系统设计为以上功能。具体系统功能如下:
图3 系统整体架构搭建
(1) 数字化:针对不同类型的美术绘画资源,如纸质文档、音频资料、视频资料等,采用相应的数字化方法。
(2) 描述元数据功能:通过对绘画资源信息的分析获取到相应的元数据,再利用元数据对不同类型的绘画资料信息进行描述。
(3) 管理元数据功能:系统不仅能够对元数据进行增加、删除、修改等一系列管理操作,还能根据用户不同需求,对元数据进行重新定义,以此更为全面的对绘画资料进行描述。
(4) 数据资料录入功能:以元数据为基础开始绘画数据资料的录入工作,以此增强绘画资料与元数据之间的关联性。
(5) 海量图片存储功能:通过Hadoop 平台实现对海量图片资料进行存储的目的。
(6) 海量图片检索功能:采用全文本图片检索方式实现对高校美术绘画资源海量图片的检索,以此提高系统在检索图片方面的效率。
3 系统实现
3.1 登录界面实现
登录模块是高校美术绘画资源存储与检索系统的入口,相当于系统与用户之间通行的桥梁。在系统登录界面中,用户不同权限的用户所进入到的管理模块接口也不同。用户在系统登录界面输入用户名及密码之后,系统后台将会对该用户所属权限进行判断及处理。具体系统登录流程,如图4所示。
系统实现的登录界面,如图5所示。
3.2 并行检索模块实现
该系统中设计Map Reduce模块的主要目的在于能够实现用户输入的关键字与HDFS中文本内容的匹配,并将匹配成功后的文本图片ID发送给美术绘画资源存储与检索系统,再由系统将匹配到的文本信息及图片位置信息传达给用户。具体高校绘画图片检索流程,如图6所示。
图4 系统登录流程
图5 系统登录显示界面
图6 高校绘画图片检索流程
图6中,Map Reduce 作业过程包括多个作业阶段,其中最具代表性的有任务初始化、任务分配、任务执行等。其中,在任务初始化工作开展之前,用户需向客户端提交检索资料的关键字,再由客户端向系统提交作业,以此开展任务初始化工作。而其中的Job Client 则对文本库中的文本进行分类,从而是一个文本对应一个作业分片。而一个作业分片则直接对应一个Map任务,最后通过心跳机制将任务分配给不同的Task Tracker。
当分布式集群中的任务节点在接到任务分配以后,通过Whole File Record Reader()函数将分配的任务分年转化为键值对,同时Map 则通过键值对进行运算操作;最后,待完成执行任务后,Reduce开始搜集产生的结果,并输出结果。
4 系统测试
4.1 实验的软件及硬件配置
由于本文所设计的高校美术绘画资源存储与检索系统主要是在Hadoop平台之上运行,因此,本次实验基础在于对搭建Hadoop 集群。本文选取3台计算机进行Hadoop分布式系统的搭建工作。采用3台计算机中1台为 Master节点中运行的Name Node以及Job Tracker;剩下的两台计算机作为在Slave 节点上运行的 Data Node以及 Task Tracker。具体集群服务器设计,如图7所示。
图7 集群服务器设计
4.2 具体试验结果
本次实验将分别对不同数目情况下图片的检索以及不同节点数下图片检索所花费的时间进行测试。在图片数目方面主要选取5~30幅不等的美术绘画图片;节点数将采用1个节点、2个节点、3个节点情况下进行测试。通过以上搭建,得到具体实验测试结果,如图8所示。
图8 实验测试结果
根据实验测试结果显示可以看出,当检索图片数量较少且节点越多时,在图片检索方面所花费的时间越多。反而在图片数量较大的情况下,多节点优势才能得以发挥。因此,本次实验看出,分布式检索方法在处理大规模绘画图像上具有很强的优势。
4.3 图片检索结果
在输入关键词“蒙娜丽莎”之后,可以得到不同作者上传的美术作品,如图9所示。
图9 美术作品检索图
通过上述的检索可以看出,在图片的文件中凡是带有“蒙娜丽莎”关键词的作者图片都全部显示出来,点击其中的任何一张,都可以查看不同的作者所作的图片,进而大大提升了美术图片共享的效率。
5 总结
通过上述的分析,本文构建了一个基于大数据的美术绘画资源数据库。在实现该数据库的过程中,本文应用Hadoop对数据进行存储,运用Map Reduce并行处理方式对图像检索进行运算,由此通过上述设计,实现了可用于高校的美术绘画图像存储与检索平台,并可实现不同高校之间绘画资源的共享,也为当前高校美术绘画的发展提供了借鉴。但是由于受篇幅的限制,在对图片的检索中,还需要就图片检索的准确率等进行进一步的研究和试验,这样才能更好的为美术学者提供图片检索服务。