APP下载

海量非结构化数据存储问题分析

2016-04-11周雨浓

电脑知识与技术 2016年4期
关键词:特点现状

周雨浓

摘要:该文以数字档案馆为例,主要研究非结构化数据存储,从其主要特点出发,介绍了非结构化数据存储的现状,进而分析了海量非结构化数据的存储与整合过程中的影响因素以及怎样实现不同方式的整合,最后讨论了如何对海量非结构化数据存储进行有效管理,期望本文的研究能够帮助人们进一步深入地了解海量非结构化数据存储中的相关问题。

关键词:非结构化数据;存储问题;结构化数据;特点;现状

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)04-0034-03

1 非结构化数据存储以及管理的现状

1.1非结构化数据存储的特点

从存储的角度出发进行相关的研究,其主要具有以下几个特点:

第一,具有较大的存储容量。在数字档案馆中,绝大多数的数字化媒体将会随着存储的不断增多而随之成长,在度量单位方面,存储的信息也从以往的KB,MB,GB朝着TB,PB发展着,从数量的角度来说,存储的规模正在空前发展着,这虽然标志着数据存储领域发展的进一步加深,但也导致了诸多问题的出现。

第二,媒体具有较多的形式。在数字档案馆的馆藏之中,主要包含着数字化的电子出版物、图书、照片、互联网的内容、图纸以及科学与人文的相关资源数据,在存储的媒介方面,也不仅仅限制以往的印刷体的范畴之内,其包含着诸多种类并不相同的媒体形式,例如声音、影视等等,具有十分明显的复杂性。

第三,增长速度较快。近些年来,档案馆的数字资源增长十分迅速,可以说是十分惊人的,在当前的数字档案馆之中,两个具有较为明显的重要性的增长方向与增长点便是数字档案与全文数据库,距离来说,当前在我国,绝大多数的企业便正在从以上两方面展开相关的研究工作,这也将会使得数字馆藏的增长变得十分迅猛。

1.2非结构化数据存储的现状

在当前市场企业的实际应用中对非结构化数据的存储主要有以下的几种方式:

第一种:在结构化数据库的BLOB字段之中对数据进行直接存储。

目前,对于绝大多数的企业之中,其在对非结构化数据进行保存时都是通过结构化数据库之中的BLOB字段来进行的,例如报表与图片等等,在该字段之中进行保存具有较为理想的应用效果,在进行管理与维护时较为简单,且在对文件进行调用时能够保证足够的速度,其同其他的应用系统之间不存在着关联性;但是,在不断的应用中也已发现,该方法也存在着一定的缺点。其一,对于非结构化数据来说,其文件的数据相对较大,并且,随着运行时间的不断增多,数据量必然也会不断的呈现出增加的趋势,这必然会在较短的时间内使得结构化数据库出现极速的膨胀,随着时间的增加,在运行的过程之中,数据库的性能很难保证同最初时相同,下降是必然的,甚至可以说,整个应用系统都将会随着时间的推移,数据量的增大而出现一定的下降,甚至会对整个应用系统的性能造成不良的影响;第二,在数据库之中,系统与系统之间时相对于独立与封闭的,相关的文档资料无法同其他的应用之间共享。

第二种:通过FTP的方式在文件的服务器之中进行保存。

在实际中,以这一方式对非结构化数据应用进行保存的用户相对较少,其中,网站以及数字档案馆较为典型。这种方式通过将文件上传到远程计算机上,然后其他用户可以在其他主机上下载和查阅文件,从而实现文件或数据的共享。

第三种:在文件服务器之中以文件系统的方式直接进行存储。

对于非结构化数据之中没有应用系统的,例如开发的应用系统软件、在信息管理部门之中经常应用的软件与工具以及技术研究的资料等,通常情况下都会在文件服务器之中将文件直接存储。

2 海量非结构化数据的存储与整合

在对数字档案馆进行建设的过程之中可以发现,在企业之中,每一个类别的业务系统都存在着一定的数字资源需要归档,然而当前的存储系统中,各个业务系统之间并不存在关联性,这就造成了存储的困难,当前许多的企业都认识到了这一问题并积极地研究最佳的信息资源整合的途径,并且,其中大多数的企业都选择研究基于文件结构应用NAS或者SAN进行整合的方法。

2.1 数据整合的驱动因素

选择对存储系统进行整合,主要是为了对需要进行存储的资源的数量进行减少,随着企业应用的不断部署与新型扩展需求的增加,文件服务系统的规模也不断地增长,这也就会导致文件服务器的数量不断增多,文件服务的环境更加庞大,然而对于系统数字资源的归档与管理,文件服务环境的复杂性是十分不利的,笔者在下文中将会对数据整合的驱动因素进行分析与论述。

1)降低了管理的成本

在企业管理中,完成对系统的整合这一操作,能够使得这一企业之中IT管理工作人员的工作量得到明显地减少,这主要是得益于存储设备的减少从而减少了管理的工作量,然而,若是不对其进行有效的管理与整合,必然会导致系统随着运行的增多与时间的推移而不断地增长,系统则会随着时间的不断流逝累积起来十分巨量的文件服务器资源,而对于IT工作人员来说,对于这些资源的维护将会成为十分巨大的负担。

2)经济利益

对于企业本身来说,实现了存储系统的整合将会十分明显地提高企业的经济利益,将许多的系统整合成为一个系统时,从而企业便能够节省下十分客观的磁盘空间与资金经费,也就是节省十分客观的IT成本,这样,企业就能够有效地降低自身的运行成本,从而不断地提高自身竞争力。并且,对于IT的管理人员来说,在相关数据管理问题的解决方面以及软硬件更新上所耗费的时间方面也能够得到节约和控制,进而提高了人力资源的利用率,提高了单位时间内的工作效率,进而能够创造出更大的经济效益。。

3)资产保护

对存储系统的整合进行实现,另外一个基本性的驱动因素便是需要更好地对企业的资产进行保护。对于数据来说,仅仅应用备份机制是否能够获得足够的保护,是否拥有者合适的安全控制,若是对于以下的这些过程都能够通过一个统一的系统进行控制与管理,便能够极大地减少对系统的安全控制点以及需要进行备份的次数,这样,企业也能够确认资产都得到十分完善的保护。

2.2 实现不同方式的整合

当前,能够选择许多的方式来对多个存储系统进行整合。其一:企业将以往所应用的型号较小的存储设备进行舍弃与淘汰,而后更换一个新型的,具有较大功率与先进技术的NAS设备,仅仅应用这一个存储来负责整个企业的相关运行工作;其二:对虚拟数据中心这一技术进行应用,该技术的核心理念是将企业之中型号相对较小的存储设备全部在中央存储系统之中隐藏,或者,将其分布在各不相同的物理地点之中,这一方式将会使得所有的资源与设备都不会被舍弃而是被隐藏在不同的角落,然而,在进行管理时,却可以仅仅针对一个数据界面,使得工作人员可以更加集中精力,大大地减少了工作量。

1)文件服务器的整合

对存储系统进行整合的第一种类型主要是针对一些应用与对某一个特定的应用需求进行解决的单独的文件服务器,在以往的基础架构之上,随着企业应用的不断增加,将会有偶读文件服务器在企业IT的环境之中独立地进行部署,这也必然会导致企业的存储系统出现十分明显的膨胀,对于文件服务器来说,其主要的目的便是对相关的应用设施进行整合,使得能够应用更小的机构来对系统进行控制,举例来说,在企业之中,对一个小组或者说一个部分可以统一地集中起来,最为常见的处理方式是部署并安装一个全功能的盒子或者与其相类似的设备,将许多文件的服务器进行结合并将其放置到一个统一的平台之上。

2)非结构化数据的整合

随着企业的不断发展,其对于各方面的认识也将会不断的加深,虽然企业有能力保证对当前的NAS系统进行更新,使其更加大型,在对系统的扩容性进行增强方面,能够获得十分理想的应用效果,并且,对于小型的、具有独立性质的、在各处进行分布的存储设备也能够进行消除,然而,在实际的整合过程之中,仍然存在着成本过高以及整合的过程较为复杂这一问题,而这种通过虚拟数据中心管理的软件也就是中央化整合默契能够将分散着的文件服务器以及数据中心的存数设备进行整合,想要对分布在诸多地点的存储设备进行统一的有效的管理,加拟一个非结构化的虚拟数据中心必然将会获得十分理想的应用效果,并且,对于管理工作人员与客户来说,还能够提供出一个唯一的访问路径,随着企业发展的不断深入,很容易出现多个物理中心并存的情况,而在这一实际背景之下,该方案也会有更高的符合性。

2.3 其他的需要进行考虑的因素

完成对存储系统的整合仅仅是最为关键的一个环节,对此,企业不应放松,而是应对其他的一些因素进行考虑,这里的其他因素主要包括在管理过程之中可能出现的变化、对系统的安全控制以及数据的迁移等。

一般来说,实现了整合仅仅代表着安全有了保障,然而,这并不代表在以往发展与运行过程之中已经存在了的问题被解决,整合的实现与完成后,仍然需要设置相应的访问的权限,对于一些较为复杂的安全过程的设置而言,在完成系统整合后,将会体现出较为明显的优势,然而,不管怎样,都必须要保证安全控制的存在。

将数据从文件服务器或者其他的NAS设备上迁移至中央平台之后,较为理想的一种情况则是控制列表以及访问权限的设置等一系列以往设置过的内容也能够跟随数据一同迁移到中央平台之上,避免再次对相关的内容进行设计,既节省了时间,也节省了人力物力,具有十分重要的意义。因此,在实际的整合之中,其中十分需要考虑且具有着重要地位的一点便是如何在对数据进行迁移的同时对访问控制以及安全控制等类型的信息进行一同迁移,减少工作量,提高迁移的效率。

数据操作流程会存在着一定的变化。在对计划实现进行整合的过程之中,若是可能,可以对企业当前的管理模式与数据操作进行改变,在不断地探索之中对当前整合系统之中所存在着的优点进行发掘,最终获得一个相对较为理想的操作流程,提高数据的实际可用性与数据按操作的流程。

在对整合计划进行制定时,最为关键的一点便是一定要立足于未来,需要耗费大量的时间来对存储系统的承载力进行评估,评估其实际的应用能力与发展的能力,想要保证整合计划能够如期理想地进行,一个十分重要的因素则是企业是否在计划开战前进行过较为细致的计算,包括是否应该整合到一个设备之上,其是否具有必要的扩展能力等等。

3 海量非结构化数据存储的管理

可以说,虽然在当前应用非结构化数据的存储这一技术能够满足存留与归档的要求,然而,其却很难满足电子发现所提出的相关需求,随着搜索技术的不断深入发展,其在文件搜索方面的功能也变得十分完善,能够很好地对电子发现所提出的相关需求进行满足,然而,其并不能够对数据组织以及管理的功能进行提供,对于长期留存需求这一功能也无法进行满足,这一问题主要是由数据存储技术以及数据管理技术这两方面在进行研究与设计的过程之中是分别进行的,具有十分明显的隔离性,因此,导致了这一情况的出现,从实际的角度来说,这一问题同用户的需求是相违背的。

并且,在档案系统之中的非结构化数据本身属于企业的数字资产,也是企业的凭证库与知识库,然而,想要对以上的作用进行较好的发挥,不仅应对以上的问题进行解决,还需要对非结构化数据真实保证以及知识发现等问题进行解决。

对网络存储架构的研究:由于文件与网络层从无法同时对数据共享以及高性能两个需求进行同时满足,因此,对象存储的概念也因此而出现,对象存储能够有效地对文件系统与块的优点进行结合,并通过元数据一数据进行简化与分离的管理,对磁盘进行直接访问,从而对性能进行提高,以此来同时满足数据共享与高性能两种要求,在开发与研究的过程中,有两个分支引起了企业界与学术界的重点关注,其中一个是智能存储,另一个分支则是基于内容的存储,例如内容寻址存储(Content Addressab1e Storage, CAS)。

在传统的文件系统与网络存储系统之中,主要是对二进制流文件进行存储,对于非结构化数据所建立的更加丰富的数据模型则予以禁止,因此,在传统的文件系统之中,想要对自身所需要的内容进行寻找是十分困难的,用户所面临的困难也从以往的数据存储转变为当前的数据管理。对于存储系统来说,一个亟需解决的问题便是有效地帮助用户找到其所需要的信息。

非结构化数据的数量十分庞大,想要保证对用户存储的目标进行搜索时能够具有理想的高效性,当前企业与学术领域主要通过文件搜索技术以及网络存储架构这两个角度进行分析与探索,并展开相应的研究。

4 发展与展望

综上所述,想要对数字档案馆进行建设,首先需要通过各个渠道对数字资源进行收集,这也就是当前所研究的非结构化数据的留存与归档的问题,然而在实际之中,需要解决的并不仅仅是以上两个问题,更需要对真实保证以及只是发现等诸多的问题进行解决。

对于以上的两个问题,在当前的产业界与学术界之中均有着一定的研究,作为当前存储行业之中主要的发展趋势,笔者在内容存储的相关内容进行介绍时,应用了更多的笔墨,主要包括对于对象的存储以及内容的管理等等,例如对内容进行检索、对数据进行分类、对信息进行发表等等,可以说,在内容存储之中应用文件搜索技术以及语义文件系统技术,特别是对信息存储之中的核心技术同语义文件系统进行融合,必然能够获得十分理想的效果,得到更加理想的应用,笔者认为,在日后的研究中,也必然会以这一问题作为研究的主方向,提高研究的质量。

参考文献:

[1] 黄恒君,漆威.海量半结构化数据采集、存储及分析——基于实时空气质量数据处理的实践[J].统计研究,2014(5):10-16.

[2] 景民,胡晓峰,吴琳,等. 面向态势回放的两种海量数据采集存储结构分析[J].系统仿真学报,2012(5):989-993.

[3] 李国杰,程学旗.人数据研究:未来科技及经济社会发展的重人战略领域—人数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.

[4] 葛文斌,王军鹏,贾乐鹏,等.联合作战模拟系统中事后分析系统军事需求分析[J].装备指挥技术学院学报,2009,20(5):1673-0127.

[5] 张志伟,刘登第,蔡建宇,等.基于HLA 的数据采集与重放模型[J].计算机工程,2010,36(5):255-256,259.

猜你喜欢

特点现状
高中生道德价值观的特点及原因分析
从语用学角度看英语口语交际活动的特点