基于非关系数据库的文件型大数据存储技术研究
2019-11-03黄培
黄培
摘要:在云计算技术的发展过程中,文件存储需求也在不断地增长,在此基础上提出了非关系数据库的文件型的大数据存储技术,通过与传统的文件系统以及信息系统进行脱离,最终将文件数据进行混合存储的方式,在各个MongoDB的节点当中存储数据,并且数据的存储空间能够进行自有扩展。该文将非关系数据库作为主要的研究对象,并针对在此基础上形成的文件型大数据存储技术展开了研究。
关键词:非关系数据库;文件型;大数据存储技术
中图分类号:TP311 文獻标识码:A
文章编号:1009-3044(2019)23-0003-02
开放科学(资源服务)标识码(OSID):
直到现在,对于云计算、大数据以及云存储这些专业术语,对于专业的信息技术人员以及普通信息技术工作人员来说,在实际的工作过程中,接触到的频率都是很高的。在企业战略集团中,通常认为大数据主要就是指在一定程度上对传统信息的处理能力极限有所突破的一种数据集合。对于传统的数据处理能力极限的突破主要体现在三个方面,首先,在系统的应用过程中出现突发事件的数据请求;其次,单个数据尺寸过大,传统服务器无法对此进行良好的储存;最后,数据集容量相较于当前的存储系统的容量阈值更大。
1 文件型数据存储技术的概述
文件数据存储的最终要点还是对数据进行储存,但是已经不再将关注的重点放在以二维表为主的机构化数据中,而是转向对以二进制文件为主的文件数据存储问题进行关注研究。
1.1 传统存储技术以及其系统结构
在对文件数据的存储进行研究之前,还需要对传统的存储技术进行简单的了解,而这样做的主要目的就是为了能够使传统存储技术与基于非关系数据库的文件型大数据存储技术两者之间形成鲜明的对比,从而将基于非关系数据库的文件型大数据存储技术所具有的优越性进行突出展现。
传统的主流网络存储技术在对机构化数据提供相应的服务的过程中,大部分采取的存储方式都是利用大中型数据库来实现记录级的数据存储目的,例如:ORACLE数据库、SQL Server系列。通过对非结构化的数据存储进行转变改进,最终形成了受到广泛关注的网络存储技术。在网络存储技术当中,主要包括的就是:直接附加存储、附网存储以及存储区域网技术。
在整个网络存储技术当中,对于一些数据存储规模并不大,并且对于存储需求相对较为简单的场合中,会选择应用直接附加存储;与直接附加存储相比较而言,附网存储是一种在直接附加存储的基础上做出了一定的改进,附网存储这种网络文件存储方式,该设备具有一定的自身管理系统以及相应的数据操作,能够对外提供IP地址。在本地局域网当中的客户机以及服务器,由于得到了附网存储的嵌入式存储系统的支持,能够直接对附网存储的服务器进行访问,从而使数据文件的存储工作具有更简易的安装、性价比更高并且可用度更高的特点。存储区域网与附网存储之间存在着一定的差异性,存储区域网在连接存储设备时,主要还是利用的光纤交换机,最终形成存储网络。在存储区域网中,将存储功能进行了剥离,主要的存储方式就是集中方式,使存储设备与主机之间能够分离,更便于开展数据管理工作。
1.2 面向文件存储的非关系数据库云存储系统
在现有的存储系统当中,主要有两种典型的存储文件方式,一种方式就是以ⅡS为主,在该存储方式当中,主要就是在同一台服务器当中,将WEB服务数据与文件数据进行共同存储,使服务不仅能够提供WEB服务,同时还能够对数据进行存取,但是这种模式在实际的应用过程中,不仅有着较高的处理器需求,同时宽带需求也很高。另一种文件存储的方式主要就是指将文件数据存储在关系型数据库当中,但是由于在实际的扩展过程中,文件数据库的扩展相对较为困难,并且,服务企业无法对此提供更高性能的服务。在近几年的发展过程中,云存储系统也得到了一定的发展。在云存储系统当中,其底层存储就是非关系型数据库,同时在该存储系统当中,将集群技术、网络存储技术、分布式计算技术以及虚拟化技术都进行了有效的结合,为计算机协同存储工作提供了一定的保障,并通过利用多台计算机为外界提供更全面的数据存储服务。关系型数据库中具有一定的提升数据交换性能,但是在非关系型数据库当中则放弃了这一功能,但是又为受众提供了将文档存储作为核心的数据存储方式,这种存储方式中以数据格式为主,对于读写性能高并发的性能需求能够更好地满足,同时,还能够满足服务器的弹性扩展需求[1]。
2 Mongo数据库以及存储结构
2.1 Mongo数据库以及特性
Mongo数据库中具有开放源码,属于一个文件型非关系数据库,Mongo数据库与传统的数据库之间相比较而言,Mongo数据库乜有模式,并且在实际的运行过程中,由于脱离了模式事务的一致性规则,从而提升了实际的运行效率。在对高并发进行访问时,以及有高网络吞吐的计算当中,可以应用Mongo数据库,而对于传统数据库而言,这些都是传统数据库无法办到的。在Mongo数据库当中,采用的存储方式为键/值,该存储方式不仅能够面向集合,同时还能够进行动态查询,除此之外,还有一定的索引支持,在该数据库当中最具特色的就是能够对二进制数据进行存储,不论是哪一种文件,都能够在Mongo数据库中被当作二进制文件进行存储。并且,通过利用Mongo数据库的自动分片技术,使服务器能够得到水平扩展,最终达到扩大服务器存储能力的目的。
2.2 基于MongoDB的文件型数据云存储结构
MongoDB数据库主要的目的就是为了存储二进制文件,并且在实际的存储过程中,主要的存储方式有两种,一种是系统主动分片存储,另一种就是用户自定义的分片存储[2]。在存储方式当中,分片存储方式主要就是指通过合理的对二进制文件进行划分,使其成为多个不同的数据段,在每一个数据段当中,在MongoDB数据库中通过记录的方式将文件进行记录,同时想要确保能够实现负载均衡,MongoDB提供了一种机制,从而确保相同文件当中的不同分块能够在分片服务器中分布存储,并且每一个分片服务对所有数据产生的自己子集进行管理,对于这些数据所存储的位置不需要用户操心,基本都是通过利用mongos路由进程来实现数据管理的,并且通过对mongos的利用,能够实现应用程序与各个分块服务器之间的通信目的。