大数据存储技术及其标准化分析探讨
2014-08-30朱寅
朱寅
摘 要:随着现代化技术的不断发展,在数据存储上也发生了极大变化,各行各业均开始运用大数据存储来保障系统运行有效性。本文基于这一背景,简单阐述了大数据以及存储技术的概念,分析了大数据存储的几项技术,并在此基础上针对其标准化展开研究,旨在优化大数据存储方式,提升数据使用有效性。
关键词:大数据;存储技术;标准化
大数据指的是一种存储、积累以及挖掘的大文件达到400GB甚至TB存储程度的现象,在现如今信息化、网络化发展时代下,大数据已经并不罕见,且广泛应用于各行各业。传统数据存储及管理中,面对海量的数据存储,其无论是存储能力还是存储效率,甚至是存储安全性方面,均呈现出滞后状态。目前在存储技术上通常分为网络存储以及直接附加存储两种,其中网络存储又分为存储域网络以及网络附属存储两种。不同存储技术适用范围不同,本文针对其存储方式以及标准化展开分析,现报告如下:
1 大数据存储技术研究
1.1 非结构化数据的处理
在这一方面,要数HDFS最具代表性。HDFS主要服务于系统中的各项应用程序,其将一些POSIX接口开放,通过主/从结构让流式访问文件的数据被允许操作。它是由不同的数据节点以及一个名字节点所组成,能够让数据按照一定模式分割为不同的64位数模块,并将其安排到不同分布式集群(由不同数据节点组成)中进行存储。当然,若在使用过程中大数据存储量不断增多,只需要增加数据节点即可轻松实现存储功能,扩展性能较强。另外,非结构化数据处理在数据吞吐量方面性能较好,海量的数据处理不会明显影响到用户体验。
1.2 分布式并行数据库
分布式并行数据库主要用于处理海量的、结构化的数据,是一种无共享、并行处理架构的数据管理系统。这类型系统主要采用Slave或是Master架构。Slave在运用上较多,例如用户数据的存储方面,多是被通过散列方式存储在不同的Slave服务器之中,且数据在Slave的不同节点上也具有副本,在系统适用性上较高。Master架构则只用于对元数据的存储。
1.3 半结构化数据的处理
传统数据处理由于没有使用NoSQL数据库,当遇到大数据存储时往往表现出低性能、低扩展性以及低灵活性缺陷。使用了NoSQL数据库之后,云计算得以适应,目前其数据库类型主要有以下几种:列存储数据库、键值存储数据库、图形数据库以及文档型数据库。
2 大数据存数的标准化分析
2.1 云存储服务
目前在大数据存储上,普通用户使用的云存储服务大多为基于对象类型,表现为以下几种模式:⑴绑定。绑定对象为特定的编程语言,表现为API开发包,这类型的绑定处理利用了在REST接口上的一层封装,让编程语言在运行效率上能够大大提升。⑵接口设置。接口设置方面,主要采用HTTP接口或是REST接口两种,要想实现云存储服务,就必须通过编程实现其交互功能,达到数据存储的有效性。⑶非编程状态下的存储。这一种形式是由第三方软件或是云存储本身所在的运营商通过其门户管理来完成的。对于使用者而言,它不需要再次编程,直接利用管理软件调用REST接口或是图形界面即可使用数据存储功能。在这一形式中,使用者在后台控制上会受到第三方软件或者Portal的限制。
2.2 数据模型的设定及应用接口研究
在数据存储管理方面,应注意对队列对象、能力对象、域对象、数据对象以及容器对象这5个对象的管理,并实现对存储数据的访问功能。在这5个对象中,前三个属于特殊容器对象的一种。在Key-Valuc帮助下,每个对象均能够实现元数据描述功能。这里的元数据指的是使用者自定义数据、存储管理数据以及安全元数据等。
应用接口方面,大数据存储技术的应用系统可分为4种,即对象存储系统、分布式文件系统、分布式关系型数据库系统以及NoSQL数据库系统,不同系统在应用接口类型、应用环境以及特性方面对比如下:⑴对象存储系统。可适用REST或是HTTP接口,用于处理基于对象的设备操作以及数据存储,可有效定义对象的属性,为用户提供基于数据对象的功能操作。⑵分布式文件系统。其应用接口可使用HTTP、CIFS或是NFS,主要应用于非结构化数据的管理以及存储,能够将元数据有效定义,同时为用户提供应用及功能并管理相关数据。⑶分布式关系型数据库系统。可适用SQL、JDBC、ODBC应用接口,应用于结构化数据的管理与存储,能够对关系型数据模型有效定义,访问时基于数据组织结构状态。⑷NoSQL数据库系统。适用于API、REST或是HTTP接口,用于对半结构化数据进行管理与存储,其不支持SQL,数据模型处理原则采用schema-free原则。
3 结束语
大数据存储并非一项单纯技术,而是多种不同存储技术的综合。在具体操作方面,其应用接口类型多样化,目前应用最为成熟的算是分布式文件系统。NoSQL数据库系统以及对象存储系统在应用上尚未达到成熟阶段,相信在今后的研究中会不断完善,让大数据存储不断趋近标准化,提升其使用可行性。
[参考文献]
[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学,2013.
[2]夏军宝.空间科学大数据存储模型SP-HDF及应用研究[D].中国地质大学(北京),2013.
[3]李海波,程耀东.大数据存储技术和标准化[J].信息技术与标准化,2013,05:23-26.
[4]蒋海波.海量数据存储系统的高可靠性关键技术研究与应用[D].电子科技大学,2013.