APP下载

基于ATMOS的校园云存储平台的构建与应用

2015-03-15蒲芳盛荣春沈煜

微型电脑应用 2015年12期
关键词:云存储

蒲芳,盛荣春,沈煜



基于ATMOS的校园云存储平台的构建与应用

蒲芳,盛荣春,沈煜

摘要:为了解决在高校中跨校区使用海量非结构数据的应用中所面临的数据安全性、移动性的问题。介绍了传统存储方式与面向对象存储方式的特点及典型应用;从校园信息化建设中的实际应用和需求出发,提出了校园网中基于面向对象存储方式的ATMOS云存储平台的系统结构,详细分析了云存储平台的数据读写流程。实践表明:基于ATMOS云存储平台有效地保障非结构数据的异地灾备和实时高效的存取,提高了数据安全性;保障了移动办公的可靠性。

关键词:非结构数据;面向对象存储;云存储

盛荣春(1989-),男,东华大学,硕士研究生,研究方向:数据分析,数据加密,上海,201620

沈煜(1980-),东华大学,助理研究员,硕士,研究方向:数据分析,信息系统,上海,201620

0 引言

随着网络和计算机技术的迅速发展,信息爆炸性的增长,而且形式与内容也呈现出越来越广泛的多样性,互联网已成为一个巨大的海量信息空间。人们创建、使用和存储信息的方式也继续以空前的速度和规模发展,规模已达ZB级的数字世界,预计每年都会翻倍,预计到2020年将达到35.2 ZettaBytes。IT部门正在管理比以往更多的数据,这些数据具有越来越高的业务价值,必须进行长期保存和保护。而其中80%的数据是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,是存储在文件系统的信息,而不是数据库。如何应对海量非结构化数据的增长,寻找更高效的方式,在更长的时间跨度内,管理非结构化数据(例如图像、电子邮件、视频和文本),成为存储发展的方向。

云存储由多个分布式资源组成,但作为一个整体提供服务,也称为联邦存储云[1]。它是一个以数据存储和管理为核心的云计算系统,将储存资源放到云上供人存取,使用者可以在任何时间、任何地方,通过任何可连网的装置连接到云

上方便地存取数据。云存储平台能够面对以下3方面的挑战:(1)海量非结构化数据的增长及管理;(2)分布式数据中心,通过多站点服务对地域分散的数据进行统一管理:通过数据的冗余及分布式,具有高的容错性;通过不同版本的副本的创建,具有高的耐用性;(3)为消费者提供灵活的访问方式,消费者随时随地,从任何设备访问存储。

1 存储的进化论

目前存储技术的发展非常迅速,所涉及的范围也十分的广泛,从存储的发展历程来看,可以归纳为四种类型:传统的直接连接存储(Direct Access Storage,简称DAS),基于传统文件的存储(Network Attached Storage,简称NAS),基于传统数据块的存储(Storage Area Network,简称SAN)、以及基于对象存储(Object-based Storage)。

1.1传统存储及典型应用

(1)直接连接存储 DAS

DAS是一种传统的存储方式,DAS通过标准的接口(像IDE、SCSI等)然后,直接挂载在各种服务器或者是客户端的扩展接口下,服务器通过I/O通道直接访问DAS中的数据。

(2)网络连接存储 NAS

NAS是直接连接到网络的一种存储器。NAS容许用户在网络上存取数据,NAS集中管理和处理网络上的所有数据,将负载从应用或企业服务器上卸载下来,主要是文件应用。

(3)存储局域网SAN

SAN是一个集中式管理的高速存储网络,存储区域网是独立于服务器网络系统之外的高速光纤存储网络。这种网络采用高速光纤通道作为传输体,以SCSI-3协议作为存储访问协议,将存储系统网络化,实现真正的高速共享存储。SAN的一项典型应用是需要高速块级别访问的数据操作服务器,比如电子邮件服务器、数据库和高利用率的文件服务器等。1.2 对象存储及典型应用

在信息系统中,结构化数据通常就是指能在关系数据库系统中存储的数据,即可以用二维表的结构来逻辑表达的数据。反之,非结构化数据是指那些没有特定的数据结构和模式来决定它如何存储的数据,这些数据并不适合直接用关系数据库系统来存储。例如文本文档、图片、音乐、视频文件、博客文档等。对象存储技术出现的主要目的就是用来优化非结构化数据的存储。对象存储的概念是由SNIA在1999年提出的,然后再2002年左右出现一些商用产品,Centera是EMC的一个对象存储产品作为一个内容寻址存储(Content Addressed Storage,简称CAS)归档系统也是其中之一。

基于对象和基于传统文件的存储方式的最大的区别是,在对象中,可以存储更多的元数据,虽然有些文件系统也支持扩展元数据,但是这些数据通常很少会被应用程序用到[2]。而作为对象存储系统,这种元数据的存储会被放置在一个特定的区域,而不是文件中,从而可以被更好访问和搜索。对象存储已经走到每个人的身边,当你打开淘宝网上一个店铺的商品页面时就使用了淘宝对象存储(TFS),查看Facebook上的一张照片就用到了Facebook Haystack对象存储等。

1.3EMC ATMOS云存储

2009年EMC公司发布了基于云存储的平台ATMOS,ATMOS提供针对非结构化数据进行存储、归档服务、数据采用跨地区和对象存储的方式。EMC ATMOS结合CAS和NAS的特点,添加更加丰富的基于云端优化的对象分类支持以及分布式的内容寻址,ATMOS也可以说是基于云端优化的对象存储系统。

2 基于ATMOS校园云存储平台的构建

校园云存储建设在教育信息化建设中已逐渐显示出它的重要性和必要性[3]。校园中很多应用诸如:新闻系统、数字图书馆系统、资源库系统、电子档案系统[4]等多个系统涉及文本、图像、视频、音频等非结构化的数据存储。这些数据的存储面临着存储资源利用率低、管理复杂、安全与可靠性低等问题。为了解决此类问题,我们采用了基于ATMOS的面向对象的云存储方法来满足数据存储的容灾、异地备份、非结构化存储、移动办公等要求。

2.1系统架构与实现

ATMOS的部署方式分为硬件部署和软件部署。硬件集成的部署方式:ATMOS系统中包含运算节点,连接网络的交换机和存储数据的磁盘柜。软件的方式部署:ATMOS软件安装在运行vSphere的VMware的ESX服务器上,后端连接传统的存储系统。这种部署的好处可以利用现有的硬件实现。此次基于ATMOS的校园云存储平台采用的是基于软件部署的方式。ATMOS软件安装在运行vSphere的VMware的ESXi服务器上,通过虚拟器虚拟出了交换器、存储网络和路由器等设备实现了ATMOS所需要的应用环境。整体的校园系统架构如图1所示:

图1 基于ATMOS的校园系统架构图

学校可能会有若干个校区,每个校区会有若干个装有ATMOS前端计算节点和磁盘存储设备的服务器。数据可以存储在一个校区内的若干个服务器的磁盘存储设备上,通过ATMOS节点中的元数据对数据进行存储访问与管理。校区与校园之间以TCP/IP协议连接,通过副本机制进行异步备份。多数据中心双活,通过统一目录空间,使用对象ID访问跨站点数据。元数据驱动的策略,根据数据的特性可以决定:存多少份,存在哪里,存多久。多个部门的不同应用可以分别作为不同的租户使用同一个存储,租户之间安全隔离数据互不可见,多租户安全共享。每个租户可以施加独立的策略,所以,对每个应用或组分别采用最优的策略,来提升存储利用率。

校园的终端用户通过不同的访问方式以不同的访问接口方式,通过ATMOS本地客户端访问应用程序接口(ATMOS Native Client Access API)访问最近校区内服务器的数据。如web访问可通过REST或SOAP接口访问API,文件系统可以通过IFS、NFS/CIFS的方式以及针对内容寻址CAS的API方式访问。现有系统集成了数字档案系统和个人空间应用。

2.2存储访问过程分析

(1)ATMOS本地客户端访问API存在于ATMOS前端节点中,通过此接口可以对数据进行创建和访问,主要组件如下所示:

MDS(MetaData Service):元数据服务器,记录存储用户、系统和布局的相关信息。

MDLS(MetaData Location Service):元数据所在位置服务器,主要记录对象元数据所在的MDS,并且只能配置在每个资源管理组前两个节点中。

RM(Resource Management):管理本地存储资源,包括监视数据服务状态,MDLS信息和分配文件所在的MDS等。

PM(Policy Management):策略管理器,提供策略管理、查询、决定对象写服务的处理策略。

JS(Job Service):提供执行副本的任务。策略用来对数据分类,在数据变化或被访问时,不同类型的数据触发不同的动作。

(2)文件存储到ATMOS云存储平台过程分析(FS客户端),如图2所示:

图2 文件在ATMOS的存储过程分析图

①校园用户在linux操作系统上把文件传递到maui挂载点。

②客户端通过RM来查询相应的MDLS。

③通过MDLS的查询找到拥有父目录的MDS。

④创建请求发送给MDS。

⑤此时MDS询问PM获取文件的布局方式,PM返回XML形式的策略包含位置、副本数、副本方式 和触发条件。MDS会填写用户信息和文件属性并查询RM决定在本地资源的存储方式。

⑥同时把相关布局(LSO)和对象ID(OID)返回给客户端。

⑦客户端根据相关协议将数据写入到选定的资源存储服务器。

(3)Web服务对象的创建过程分析,如图3所示:

图3 web服务对象的创建过程分析图

(4)Web服务对象的读取过程分析,如图4所示:

图4 web服务对象的读取过程分析图

①客户端发出请求到应用程序。

②应用程序通过REST请求传递。

③ATMOS的WS客户端查询RM获得相应MDLS。

④WS客户端查询MDLS得到读取对象的MDS。

⑤ MDS把对象的布局(LSO)等信息返回给WS客户端。

⑥ WS客户端找到最佳副本并读取数据。

⑦并把数据和元数据返回给应用程序。

⑧数据传输到客户端。

2.3集成应用分析

(1)档案系统

校园的档案系统是管理学校档案的部门,采用了电子归档,存储数据的属性大多像pdf、图片等非结构化数据。由于对数据的安全性要求比较高,存储的方式应该具有容灾和异地备份等特点。基于ATMOS平台的云存储方式很好的满足了档案系统数据的存储与管理的需求,基于ATMOS,设置一个逻辑磁盘驱动器GeoDrive,数字档案系统通过GeoDrive的虚拟盘符在访问ATMOS的存储空间,从一个校区的节点上传,会自动同步到别的校区的存储。

(2)个人工作空间

个人工作空间,主要是针对移动办公,用户可以在任何地点、任何时间通过移动终端基于云存储平台来对存储的文档、文件等非结构化数据进行浏览、编辑、下载、上传等处理。在校园网中采用VMware Horizon Workspace以NFS方式挂接ATMOS云存储平台的盘符。同一账号使用多个终端智能设备随时随地访问云存储,内容实时同步更新,安全性高,满足随时随地移动办公需求。

3 总结

云存储将大量不同类型的存储设备通过软件集合起来协同工作,共同对外提供数据存储服务。云存储服务相对于传统存储技术在数据安全性、可靠性、易管理性等方面有了很大的进步。本研究提出了基于EMC ATMOS的校园云存储平台,有效的存储了校园信息系统中的非结构化数据,集成了数字档案系统和个人工作空间的应用,提高了校园办公效率。同时,如何有效地将ATMOS云存储平台应用在校园信息化建设中还有很多值得深入探索的工作,例如云存储平台安全性的深入研究与应用[5],与现有的统一用户身份认证平台的集成工作、在云存储平台与其他接口应用的集成工作等。只有把这些工作扎实的做好,才能使云存储在校园信息化建设中发挥越来越重要的作用。

参考文献

[1] Gil Vernik, Alexandra Shulman-Peleg, Sebastian Dippl, et al. Data On-boarding in Federated Storage Clouds: proceedings of the 2013 IEEE Sixth International Conference on Cloud Computing. Santa Clara, CA, USA, June 28 - July 3, 2013[C]. IEEE 2013.

[2] 王永魁,朱兰娟.对象存储系统的研究[J].计算机工程, 2007(12):266-267,270.

[3] 吴明珠,陈瑛.基于云存储技术的教育资源构建与共享[J].计算机教育, 2014(7): 40-44.

[4] 孙凌燕,潘世敏.档案信息资源存储的发展方向-对象存储[J].档案学研究,2011(1):71-74.

[5] 傅颖勋,罗圣美,舒继武.安全云存储系统与关键技术综述[J].计算机研究与发展.2013,50(1):136-145.

收稿日期:(2015.04.13)

作者简介:蒲芳(1978-),女,东华大学,副研究员,博士,研究方向:数据分析、应用集成、云计算,上海,201620

基金项目:中央高校基本科研业务费专项资金资助(2232013D3-38;2232013E3-14)

文章编号:1007-757X(2015)12-0003-02

中图分类号:TP393

文献标志码:A

猜你喜欢

云存储
天地一体化网络环境下的云存储技术探讨
基于椭圆曲线的云存储数据完整性的验证研究
高校档案云存储模式探究
地铁高清视频存储技术的应用分析
云数据存储安全关键技术研究
基于云存储的气象数字化图像档案存储研究
试论云存储与数字版权的冲突、法制与协同
云存储出版服务的版权侵权责任风险分析
云存储技术的起源与发展
基于云存储的数据库密文检索研究