基于Hadoop云平台下档案共享体系的构建
2018-11-22云雅
云雅
【摘要】Hadoop系统在我国当前数字化档案共享平台体系构建中发挥着重要作用。本文结合Hadoop系统在云平台共享体系中的主要功能,开展了体系构建中的功能设置研究。这一研究的开展对于提高我国档案云平台共享体系,以及Hadoop云平台技术发展都起到了不可忽视的作用。
【关键词】Hadoop云平台;档案共享体系;构建
随着数字化档案建设的不断推进,大数据与云平台技术在数字档案体系建设中得到广泛应用。其中Hadoop系统是当前数字化档案建设中较为常用的一种数据存储与处理技术。特别是这一系统技术中的云平台技术特征,对于数字化档案管理与应用起到了不可忽视的作用。因此研究者在2016年海南省哲学社会科学规划课题“基于分布式系统的档案资源集成平台模式研究”中,开展了Hadoop云平台支持下的档案共享体系构建研究,并将其作为其中研究成果之一,为Hadoop数字化档案系统建设提供理论支持。
一、档案云平台共享遇到的问题与Hadoop应用
在当前的数字化档案管理中,云平台共享是其主要的共享模式。但是在实际的云平台共享过程中,管理者也遇到了部分问题。为了解决这些问题,管理与技术人员采用了Hadoop技术进行了应对处理。
(一)档案数量与类型庞大复杂。数字化档案管理与共享是建立在大数据模式下的一种新型档案管理模式。而大数据技术应用的特点就是数据信息的复杂与庞大。单就数字化档案管理而言,大数据支持下的档案无论是数量还是种类都超过了传统档案。就数量而言,大数据档案已经达到了PB级别;就种类而言,数字化档案内部包括了文字、视频、图片、音频等各种类型。因此更好地处理这些体积庞大、种类复杂的档案文件,最终实现云平台共享,就成为了档案技术研究的重要内容。而在这一过程中,Hadoop系统技术的应用很好地解决了这一问题。主要是因为这一技术具有以下两个优势:1.庞大的数据储存能力。Hadoop系统采用了HDFS存储系统,可以实现海量的数据信息存储;而其数据处理系统也是PB级别的处理模式,进而解决了档案数据庞大的问题。2.集成化数据库系统的应用。由于Hadoop系统采用的是集成化数据库系统,因此其数据存储采用了内部共享模式,可以实现档案存储中不同数据库内容的有效共享,避免出现文件格式间检索困难的问题。
(二)需求针对性服务共享困难。针对性服务是当前数字档案服务的主要发展方向,也是技术支持的主要对象。但是在数字化档案云平台共享中,如何针对客户需求开展针对性共享服务一直是技术发展的难题。为了解决这一问题,技术人员结合云平台共享特征,利用Hadoop系统技术开展了技术应对研究。
(三)数据资源共享问题。随着大数据时代的来临,档案信息资源共享已经不再集中于单一的档案数据系统,而是建立在云平台整体环境中。在这一过程中,如何实现不同档案数据系统资源共享,形成云平台下的资源共享模式,就成为了档案共享研究的重要内容。Hadoop系统正是在这一技术要求下,由谷歌开发研制的一个具有较强伸缩性,同时运行稳定的数据系统。因此在这一系统运行中,既可以通过云平台与其他档案系统形成大数据交换,同时完成高效的数据处理过程,形成稳定的档案资源共享。
二、Hadoop系统支持下的档案云平台共享设计
Hadoop系统技术的应用对于档案资源的云共享平台建设起到了重要的技术支持作用。为此技术人员以Hadoop系统为基础,开展了共享平台设计。
(一)系统功能框架设置。在共享系统设计开始前,设计者首先需要根据共享要求设置其基本功能子系统,形成Hadoop平台的云服务的整体框架。在实际的档案共享系统中,其基本功能系统包括了以下几个组成部分:一是系统控制功能。二是档案信息存储系统。三是档案文件资源共享系统。四是档案查找与使用权限管理系统。五是安全以及档案资源备份与恢复系统等功能系统。在这些功能系统的设置中,技术人员的主要工作包括了以下几个内容:1.系统设置中首先需要通过Hadoop系统对已有各数据库内的数字档案信息进行整合。2.通过MapReduce处理技术将已有的资源集中到云平台服务架构中进行管理,实现云平台下的档案资源的储存与分析处理。3.建立网络与单机并存的控制系统,进而在网络平台与控制主机都可以实现全部档案资源的读写、查询、备份恢复等功能。4.对于具有保密性质或涉及个人因素的档案内容,系统需要利用秘钥與口令设置管理权限,避免档案泄密问题的出现。5.根据系统保密等级,为网络云平台系统设置相对应的安全管理权限,确保云平台中档案安全性。
(二)设计主要流程。档案共享平台设计中,技术人员需要根据Hadoop系统中的数据与文件处理方式合理设置设计流程,进而确保共享平台使用的合理性。在系统设计中其主要的流程包括了以下几点:1.存储功能设置。在云平台共享系统中,Hadoop采用的是自身携带的HDFS系统。在实际应用中这一系统使用的是抽象化的块存储结构。这种结构使得系统存储不会受到云平台中任何节点磁盘大小的限制,极大地提高了档案数据信息储存数量。在实际的存储设置中,为了提高档案数据管理的有序性与安全性,实现Hadoop高效的错容功能,其元数据信息与文件块应采用分开存储模式。同时在HDFS数据储存中,设置者应建立默认文件复制状态,并将复制文件储存在储存集群不同节点上。这种复制文件储存模式可以在云平台某个节点故障文件遗失的情况下,利用NameNode获取元数据信息,进而确保档案元数据安全。2.档案读取功能设置。在档案云平台读取中,Hadoop主要是通过读取NameNode中存储的编辑日志与镜像空间内容,获得档案内容。因此在功能设置中,技术人员人员应确保系统启动过程中,NameNode可以在动态状态下重建以上信息,进而确保档案读取者可以可以通过NameNode得到所需的元数据信息,进而通过节点获取到档案文件。同时在云平台档案数据读取中,一般都是采用JavaApi接口,利用Java.net.URL打开所需数据流,最终通过Filesystem指定路径对象,完成档案的读取与重载控制。3.文件查询功能设置。Hadoop支持下的档案云平台是通过HIVE数据仓库中的JavaApi接口完成所需的查询工作。这一查询功能主要包括了原属信息、文件目录结构以及档案目录匹配等各种查询功能。其主要的查询方法设置包括了以下几类:一是档案元数据查询,主要是利用Filestatus进行操作。二是列出目录文件信息查询,主要是利用liststatus方法进行操作。三是通过日志文件,利用大数据挖掘模式对云平台海量数据进行目录筛选查询。4.访问权限功能设置。从Hadoop2.0系统开始,系统中增加了全新的安全与授权机制(Simple和Kerberos)。因此管理者可以根据档案的安全级别,建立起相应的安全访问授权功能。如金融档案等具有较高隐私性、保密性的档案管理中,系统超级管理员都应具有设置访问权限的权利与职责。一般访问者档案使用权限包括了查阅、拷贝、修改等不同内容。同时对于访问安全要求较高的档案内容应设置访问者的专用秘钥或授权令牌,确保云平台下档案的安全性能。
三、结束语
随着Hadoop系统在档案云平台管理中的不断应用,其在档案共享中的技术支持作用越来越明显。因此系统设置研究者,结合档案云共享平台中的储存、读取、查询以及安全授权四个主要功能,开展了Hadoop支持下的系统体系构建研究。
【本文为2016年海南省哲学社会科学规划课题“基于分布式系统的档案资源集成平台模式研究”(项目编号:HNSK(ZC)16-47)的成果之一】
【参考文献】
[1]陶水龙.档案数字资源云备份策略的分析与研究[J].档案学通讯,2012(04).
[2]陈晨.基于云计算的图书馆信息资源共享系统研究[J].现代情报,2011(10).
[3]赵保,任慧朋.Hadoop云平台下医疗档案共享体系的构建[J].中国病案,2016(11).