大数据的存储管理技术
2018-01-18欧艳鹏
欧艳鹏
摘 要云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,如图片、音频、视频信息等。为充分发挥信息应用价值,有效存储已经成为人们关注的热点。为了有效应对现实世界中复杂多样性的大数据处理需求,需要针对不同的大数据应用特征,从多个角度、多个层次对大数据进行存储和管理。本文主要分析了大数据面临的存储管理问题以及简述了存储管理关键技术。
【关键词】大数据 分布式文件系统 分布式数据库 NoSQL数据库 云数据库
1 大数据面临的存储管理问题
1.1 存储规模大
大数据的一个显著特征就是数据量大,起始计算量单位至少是PB,甚至会采用更大的单位EB或ZB,导致存储规模相当大。
1.2 种类和来源多样化,存储管理复杂
随着互联网、物联网、移动互联技术的发展,以电子商务(如京东、天猫、阿里巴巴等)、社交网络(微信、微博等)为代表的新型web2.0 应用迅速普及,大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域,因此数据呈现方法众多,可以是结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满足数据时代的需求,还导致存储管理更加复杂。
1.3 对数据服务的种类和水平要求高
大数据的价值密度相对较低,以及数据增长速度快、处理速度快、时效性要求也高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚的数据中,挖掘其更深层次的数据价值呢,需要亟待解决。
大规模的数据资源蕴含着巨大的社会价值,有效管理数据,对国家治理、社会管理、企业决策和个人生活、学习将带来巨大的作用和影响,因此在大数据时代,必须解决海量数据的高效存储问题。
2 大数据存储管理的关键技术分析
2.1 分布式文件系统
分布式文件系统是一种通过计算机网络实现在多台机器上进行分布式存储的文件系统,它把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群,设计一般所采用的是“客户机/服务器”模式。分布式文件系统的设计需要重点考虑可扩展性、可靠性、性能优化、易用性及高效元数据管理等关键技术。
当前大数据领域中,分布式文件系统的使用主要以Hadoop HDFS为主。HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度,除此之外,HDFS还具有兼容的廉价设备、流数据读写、大数据集、简单的数据模型、强大的跨平台兼容性等特点。但HDFS也存在着自身的不足,比如不适合低延迟数据访问、无法高效存储大量小文件和不支持多用户写入及任意修改文件等。
2.2 分布式数据库
分布式数据库HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储半结构化和非结构化数据。HBase可以支持Native Java API、HBase Shell等多种访问接口,可以根据具体应用场合选择相应的访问方式,而且相对于传统的关系数据库来说,HBase采用了更加简单的数据模型,把數据存储为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中,除此之外在数据操作、存储模式、数据索引、数据维护和可伸缩性等方面都有了更易于实现的方式。但HBase也存在着不支持事务等限制。
2.3 NoSQL数据库
对于NoSQL,当前比较流行的解释是“Not Only SQL”,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,一般也不会存在连接操作,也没有严格遵守事务的原子性、一致性、隔离性和持久性。因此与传统关系数据库相比,NoSQL具有灵活的可扩展性、灵活的数据模型、与云计算紧密融合和支持海量数据存储等特点。但NoSQL数据库也存在很难实现数据的完整性、NoSQL的应用还不是很广泛、成熟度不高、风险较大、缺乏难以体现业务的实际情况、增加了对于数据库设计与维护的难度等问题。
目前NoSQL数据库数量很多,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图数据库。键值数据库系统的典型代表包括BigTable、 Dynamo、Redis、Cassandra等。列族数据库系统的典型代表包括HadoopDB、GreenPlum等。文档数据库系统的代表包括MongoDB、Coudibase等。图数据数据库系统的代表是Neo4J、GraphDB等。
2.4 云数据库
云数据库技术是云计算的一项重要分支,是对云计算的具体运用。云数据库是部署和虚拟化在云计算环境中的数据库。它极大地增强了数据库的存储能力,消除了人员、硬件和软件的重复配置,让软硬件升级变得更加容易,同时也虚拟化了许多后端的功能。而且在云数据库中,所有数据库功能都是在云端提供的,客户端可以通过网络远程使用云数据库提供的服务,在使用中不需要了解云数据库的具体的物理细节,使用非常方便容易。可按照用户个人的需求进行数据和信息的存储,例如通过使用百度云、360云盘等众多互联网公司所开发的网络储存平台,可实现较大的储存容量,并且能够借助搜索功能快速获取目标数据文件。因此云数据库具有高可扩展性、高可用性、较低的使用代价、易用性、高性能、免维护等特点。
3 结论
在大数据时代的背景下,海量的数据整理成为了各个企业急需解决的问题。而原有的存储模式以及跟不上时代的步伐,无法满足数据时代的需求,导致信息处理技术无法承载信息的负荷量,这就需要对数据的存储技术和存储模式进行创新与研究,跟上数字化存储的技术的发展步伐,给用户提供一个具有高质量的数据存储体验。根据大数据的特点的每一种技术都各有所长,彼此都有各自的市场空间,在很长的一段时间内,满足不同应用的差异化需求。但为了更好的满足大数据时代的各种非结构化数据的存储需求,数据管理和存储技术仍需进一步改进和发展。
参考文献
[1]谢光.数据库大数据量存储结构的探索[J].通信设计与应用,2017(06).
[2]梁凤兰大数据时代数据管理方式的研究[J].电脑开发与应用,2013(26).
[3]刘若冰.面向大数据云存储系统的关键技术研究[J].现代电子技术,2016(06).
[4]王兵,崇阳,杨彬.大数据时代的大数据管理研究[J].无线互联科技,2016,4(08).
作者单位
呼和浩特民族学院 内蒙古自治区呼和浩特市 010051endprint