APP下载

刍议面向大数据分析的分布式文件系统关键技术

2016-10-24贵州省信息中心袁继会

电子世界 2016年18期
关键词:热备海量关键技术

贵州省信息中心 袁继会

刍议面向大数据分析的分布式文件系统关键技术

贵州省信息中心袁继会

随着我国互联网应用技术水平的提高,互联网企业正在加强对数据处理能力的研究与提高,以便于能够很好地应对多样化和大规模信息数据的处理需求。基于当前的发展新形势,数据储存量大是典型特征,现阶段分布式文件系统的传统性能已经不能满足当前的发展需求,为此,需要注重数据的扩展以及操作的一致性。本文就面向大数据分析的分布式文件系统关键技术进行分析。

大数据;分布式;关键技术

1 引言

当前,我国互联网发展正是迎来大数据时代,数据信息的处理以及分析技术成为了相关人士关注的重点。数据量的不断增加使得文件数量也在不断增加,这是当前存储数据的典型特征,其对延迟的文件访问和元数据的性能也提出了更为严格的要求。就当前的问题,相关学者应该依据互联网数据和分布式文件的特点,优化技术手段,以减少数据迁移产生的成本,实现系统空间的扩大和优化,提高数据的处理效率和质量。

2 大数据的特点及存储要求分析

海量非确定性异构数据产生的原因比较复杂,其应用也和以往有所不同,主要表现在:随着数据应用规模的扩大以及应用领域的扩张,数据量会不断增加,数据存数量也会有很大涨幅。在非确定数据的一般应用中,其数据来源较多,数据类型多元化,数据访问形式也各有差异。元计算、物联网应用日益普及,数据的产生量和访问方式都是发生较大改变,此时的数据具有时效性和空间性特征,且访问量较大。非确定数据应用中需要海量数据的支撑,这就要求对数据的存储体系结构进行调整和优化。第一,海量数据的组织结构可以采用分布式数据管理模式,其更加适用于非确定数据应用以及数据组织方式;第二,因为海量数据不断积累的,在积累的过程中,需要较大的存储空间,其性能也需要扩张,这就需要建立与之匹配的存储组织模式和索引机制。

对于海量不确定性数据的处理,采用传统的信息存储结构以及对象查询方法,运行效率低下,所以需要采用新型的元数据组织结构以及查询方法,这样可为用户提供更加高效的服务,也可提高数据查询的准确率。因为在分布式环境中,数据源分布的网络结点有所不同,这就会使得网络传输的性能较为弱化。同时,因为各个数据源自治性较强,其需要通过改变自身的结构实现数据的高效更新,提高数据的实时性,这就会给数据集成系统的一致性造成阻碍。因为数据的非确定性,对于大量的非确定性异构数据来说,其集成难度就会提高,因此可以采用分布式处理技术实现计算资源以及存储资源的统一管理。

数据的海量性、非确定性、异构性是数据挖掘算法需要改进的重点,因为数据的异构、海量、分布性以及决策控制的实时性,需要对数据挖掘引擎的布局和多引擎进行调整。结构化和非结构化数据都和数据的存储以及管理息息相关,这是因为当前用户对于大数据的应用需求所造成的,使得数据逻辑结构和物理存储方式都需要做出相应的改变和调整。

3 面向大数据分析的分布式文件系统关键技术

3.1元数据的高可扩展服务

第一,全域名空间,即每个文件都有其自己的名称,用户可以直接搜索名字查询并阅览文件,且无需知道文件的具体存储位置。StorageTank就技术层面来说其已经可以起到协调复数服务器的作用,并对系统进行分化,实现各个分布的独立,但相互依存,每个部分都有单独的服务器,但是多个部分共同作用,以快速解决过载问题,也提升了系统的可靠性。第二,缓存,分布式系统的录入通常分为两种形式,即write-back、write-through。第三,可用性,分布式系统一般由多个节点共同构成,其需要相互协作才能实现服务功能。一般情况下,可以通过RAID技术保证磁盘的实用性和可靠性,并且保障数据源的稳定性。第四,扩展性,分布式系统可以通过扩展规模的途径以获取大存储空间和较高的性能,其中比较核心的技术类型为虚拟化存储,Virtualization,该技术的应用可基本满足分布式系统的扩展性要求。

3.2高可用的元数据机制

3.2.1恢复元数据服务器状态机制

很多的元数据服务器都有特定的状态,就目录中文件数据信息的存储来说,其需要各个服务器之前的连接与协调,从而保证通信的顺畅,若在重启过程中出现故障,则需要在短时间内回复元数据,在此过程中Hadoop分布式文件系统可以依据文件的不同,共享存储池中可以良好保存数据信息,也可以将其转化为镜像文件形式,在数据恢复之后,以保证运行状态正常。可以将虚拟存储池当做共享存储池使用,存储以及加载元数据文件,可以在重启发生故障的服务器之后通过一定的逻辑卷试图形式实现对文件信息的构件以及深度分析,并且通过统一的手段实现对数据的校正,避免访问失败等问题的发生。

3.2.2基于共享的存储池节点热备

对于共享的存储池节点热备来说(如图1所示),若元数据服务器群体中某个元数据服务器发生故障,则不能提供空间名字状态的维护和提供服务,这就会对上层文件系统的出入造成影响。基于此,若需要恢复数据的相关状态信息,则需要重启等待,但是此操作耗费的时间较长。同时,也可以通过备份实现元数据信息的重新加载,保证元数据的完整性,在共享的存储池节点热备基础上可以采用影子节点的方法,对不同的元数据服务器进行热备,采用专业的机械设备快速排除故障。

图1 基于共享存储池的节点热备

4 结束语

综上所述,大数据是我国当前的互联网发展形势,需要对以往的分布式文件系统进行优化,从而实现对数据文件信息的深化分析,也可以采用相关的技术手段避免操作故障,提升操作系统的稳定性和可靠性,扩展存储空间。

[1]姜博.大数据分析的分布式MOLAP技术[J].通讯世界,2015(24):331-332.

[2]董守斌,赵铁柱.面向搜索引擎的分布式文件系统性能分析[J].华南理工大学学报:自然科学版,2011,39(4):7-14.

[3]宋杰,郭朝鹏,王智,等.大数据分析的分布式MOLAP技术[J].软件学报,2014,25(4):731-752.

[4]王鹏,黄焱,刘峰,等.大数据技术中计算与数据的协作机制[J].成都信息工程学院学报,2014,29(1):1-12.

猜你喜欢

热备海量关键技术
牛繁育与健康养殖关键技术
一种傅里叶域海量数据高速谱聚类方法
小麦春季化控要掌握关键技术
棉花追肥关键技术
老苹果园更新改造的关键技术
热备动车组配置方案优化模型
东海区实时海洋观测数据库双机热备系统解决方案
海量快递垃圾正在“围城”——“绿色快递”势在必行
一种应用于分布式网络的地址分配及热备技术
PostgreSQL热备原理研究及流复制运用