APP下载

分布式存储

2017-07-27王晶晶

电脑知识与技术 2017年11期
关键词:大数据

王晶晶

摘要:随着大数据技术的发展,新型数据中心的建设面临着投资规模、数据来源、信息安全等方面的挑战,该文提出了分布式存储建设方案,为基于大数据和云计算的新型数据中心建设提供新的模型。

关键词:大数据;数据中心建设;分布式存储

随着计算机技术和信息技术的飞速发展,人类已经进入大数据时代。什么是大数据?大数据指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。某种程度说,大数据是数据分析的前沿技术,其最核心的价值是在于对海量数据进行存储和分析。业界将其归纳为4个V——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。随着信息爆炸的到来,大数据时代引发了重大的社会变革。传统的数据中心已经无法适应大数据时代的要求,新型数据中心的建设面临更大挑战。如何适应新技术的发展、尽快实现数据中心建设对大数据应用的环境支撑,是当前亟待解决的问题。

新型数据中心主要实现对大数据产品的支撑,包括基础数据汇总、数据计算、数据产品发布。其中,数据汇总是基础,数据计算是核心,数据产品发布是实现大数据成果的转化。为实现大数据的高效利用,数据中心应该将投入重点放在数据计算上,但基础数据的存储环境建设在传统数据中心建设中往往需要很高投人。如何解决这方面的矛盾,是新型大数据中心建设的研究主要方面。

1数据中心建设面临的难点

传统的数据中心主要以服务器为主,集中存储设备主要用于容灾备份,随着互联网技术的发展,网络产品深度开发,对数据分析的需求不断提高。作为数据分析的基础,数据存储量不断提高,需要大量的数据存储设备,传统的数据中心环境配置方案已经不能支撑当前飞速发展的大数据技术应用。由于本地存储能力不能适应不断增长的数据量,导致大数据计算能力无法体现,大数据的应用无法规模化。

作为大数据建设的基础,新型大数据中心建设面临新的挑战。数据中心的建设存在以下几个难点:

1.1数据中心的规模设计

一个要承载政府级数据汇总和数据产品提供功能的数据中心,要将所需数据都存储在本地,规模要保证在大型数据中心的标准以上。而且,当今社会随着物联网、云计算技术的发展,数据量以前所未有的速度发展,数据中心的规模冗余计算是更大的挑战。如此大规模的数据中心建设面临着诸多困难。首先由于占地规模大,选址方案需要得到政府支持。制冷方案也需要探索,集装箱式制冷不适合,空气制冷成本太高,循环水制冷对于建筑群的统一制冷还没有标准。大型数据中心的运维监控系统建设和维护成本都很高。为适应大数据应用,新型数据中心需要研究新的设备配比方案,数据存储设备的比例需要大幅提高。另外,数据中心网络出口的带宽要求很高,提高了运维成本。

1.2数据中心的数据来源

更多的基础数据意味着更精确更高效的数据产品。数据来源多种多样,除了已有的传统数据,还有不到增加的物联网数据。数据格式也多种多样,文本、音频、视频数据等,尤其是视频数据在当今社会生活中使用越来越广泛。这些就对数据的存储需求提出了更高要求。传统的数据中心将各种数据存储在本地,数据的存储设备数量和冗余量都是巨大的,数据转移的时间和更新的速度也是影响数据质量的关键因素。

1.3数据信息的安全

环境破坏,将数据存储在本地,地震、火灾等物理破坏会造成无法恢复的数据丢失。信息破解,一旦本地数据管理员的信息被获取,所有的数据都将面临泄露的危险。网络破坏,对集中存储的数据网络出口进行攻击也将造成数据信息的整体破坏。

2分布式存储

根据以上关键问题和目前数据中心建设的技术现状,本文提出大数据建设的新的解决方案——分布式存储。

分布式存储简单地说就是将数据分成若干部分,存储在不同的位置。分布式存储分为两种方式。举例说明,下面的表格数据按照分布式存储方式存储。

如表1所示,同一行的每个特征数据是直接相关联的,而同一列的数据是没有直接关联性的。

存储方式一,将具有直接关联性的信息存在相同位置,例如将辽河流域的水质信息存储在位置甲,形成数据表“辽河流域2016年第44周水质状况表”,如表2所示。

而将海河流域水质信息存储在位置乙,形成数据表“海河流域2016年第44周水质状况表”,如表3所示。

存储方式二,将具有直接关联性的信息分别存储。例如:将水系、点位名称、NH3-N(mg/1)、本周水质、上周水质、主要污染指标数据存储在甲处,将河流名称、断面状况、pH*、D0、c0DMn(mg/1)数据存储在乙处。分别以表4、表5的形式存储。

3分布式存储的关键技术

第一,异地数据传输。由于数据存储的位置分散,进行数据分析时要调取异地数据信息,因此对网络传输速率和可靠性要求较高。可以通过租用专线,并设计冗余路径实现。

第二,数据编码。由于数据是分布存储的,并存储在多个位置,在异地调取数据时,为实现数据快速、准确的定位数据,需要对数据进行编码。数据编码需要进行统一规范。编码规则需要用尽可能少的字符实现唯一性和可扩展性。

第三,数据安全。数据中心的安全措施需要合理部署。主要从以下几方面把握:异地数据传输通道部署编解码器等信息加密设备;区别本地数据管理和异地数据调用,设置不同级别的管理员权限;数据应用配置安全认证系统;数据中心的对外出口配置安全策略;编码信息和数据发布方案严格保密。

3.1分布式存储在大数据建设方面的优点

第一,分布式存储能有效降低硬件环境建设成本。目前,大数据中心多由政府投资,其中重要原因之一就是投资巨大。大数据建设需要大量的存储设备、高速运算计算机,这些设备的集中放置导致需要投入更多的环境建设成本,包括制冷系统、供电系统、显控系统等。分布式存储可以在已有的传统大、中型数据中心的基础上进行扩展。根据数据中心存储容量合理分配数据存储量。数据中心的核心区建设规模可以控制在中小型,大大减少了前期硬件建设投入。

第二,分布式存储有利于数据的引接与更新。数据中心的数据维护主要包括新类型数据引接和已有数据更新两方面难点。集中式存储在新类型数据引接时需要增加存储设备、数据导人等工作;分布式存储引接新类型数据时在硬件方面只需要增加數据存储地与数据中心核心区之间的信道,数据不需要导入,只有完成数据编码就能实现数据利用。分布式数据存储数据有本地维护人员随时更新,而集中式存储的数据要及时更新需要投入更多的人力成本。

第三,分布式存储的数据安全性更高。将数据存储在不同的位置,不同位置数据分别部署安全策略,同时设置多级管理权限,这种存储方式比将数据存储在同一位置更安全。而分布式存储的第二种方式比第一种方式更安全。第二种存储方式中,要想得到一条完整数据需要从所有数据的位置获取信息,还要取得数据编码信息,这就使人为窃取数据的难度非常高。

4结束语

大数据时代已经到来,新的机遇伴随新的挑战,提高数据使用效能,,实现数据产品的市场化,必须以数据中心建设为基础。新型分布式存储数据中心将投入集中在数据计算方面,在降低成本、提高数据使用率和数据安全方面具有突出优点。数据中心的建设还需要在实践中不断探索,在实际数据基础上形成新的数据中心建设标准。

猜你喜欢

大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路