APP下载

大数据环境下的分布式数据流处理关键技术

2019-12-02朱蕾蕾

电子技术与软件工程 2019年6期
关键词:存储技术存储系统数据量

文/朱蕾蕾

在三年前我国就对一段时间以来的网络使用和开发现状进行了统计,统计数据主要是针对大环境下我国的网络技术研究和使用进行了分析。从这次统计中,不难看出来我国的互联网行业发展相当迅速,从上世纪九十年代时期的刚刚引进,到现在的过半网络使用率。平均每两个人中,就有一个使用互联网的,这样的使用率配合上中国庞大的人口基数,可以毫不夸张的说,中国的网民数量可以得到全球总人口的十分之一。如此多的使用人数,产生的数据量也是相当大的,在现代生活中,人们经常会通过互联网查阅资料,这个过程中会产生很多浏览记录,而人们进行网购等活动也会留下很多浏览记录,这些记录在互联网上都是以数据的形式保存的,因此有理由相信,当前的时代是大数据时代。大数据时代中数据量过于庞大,导致人们寻找有用消息变得更加艰难,因此需要对这些数据进行适当的处理,分布式数据流处理就可以解决搜寻中的很多问题,接下来要对该处理方式应用到的技术进行分类研究。

1 数据搜集技术

大数据意味着数据量庞大,因此要想针对这样的环境进行处理,首先要保证数据量足够的大,否则会形成无米可炊的局面。搜集工作可以从设计一个搜集系统入手,对于设计者来说,可以将总服务器的基址地址传达到各分服务器上,分服务器上产生的各种数据可以通过一个特定的搜集系统,经由这个链接传递到总服务器上。实现了这种操作的是国外很流行的一个社交软件脸书,这是一个成功的代表。拿一些搜索引擎举例,出来为用户提供搜索平台以及数据外,还可以将用户所上传的信息进行保存,在进行一定的验证工作之后,作为新的数据填充到整个系统中。在这些多种多样的搜集系统中,应用比较多的一种就是日志收集。目前该类方法实现对数据的搜集主要分为几个步骤,首先是对数据进行分析检验并将其交由中间处理器,然后中间处理器对数据进行整合之后将其发送到中央处理器,最后中央处理器将这些数据保存到大数据资源库中,成为大数据的一份子。尽管很多搜集系统的原理相同,但是其侧重点不一样,因此在设计搜集系统的时候可以根据侧重点的不同进行区别设计。

2 数据管理技术

搜集工作到位了,就需要考虑管理工作。在分布式数据流处理中,对数据的管理工作做的不到位,很有可能会导致整个系统的崩溃。本身上数据库中的数据量就是很大的,而且用户在使用到该系统的时候也会产生数据。在数据管理中不仅要对原有的数据进行管理,还要对新近产生的数据进行管理。能够将这两者区分开来是系统需要具备的能力,这个时候可以采取添设消息阵列系统的方法。该子系统的主要功能在于,数据的出入都要经过这样一个环节,这样的系统能够降低外界数据和数据库中数据的相互冲突的概率。尽管通过这样一个中转站会使数据的整理和处理响应速度减慢,但是却能最大程度的保护系统数据库,而且在一定层面上来说还能改善用户的使用体验。在数据处理方面效果颇佳的有一类系统,是对该方法的延伸。该系统并不是设立于一个简单的中间站,因为中间站对数据传递的延迟性影响太大,因此该系统舍弃了这样的做法,而是将来往的数据以不同的形式进行传递。信息在数据库中是以数据的形式存在的,用户在搜索之后直接观察到的也是数据的形式,但是在上传和下载的过程中,会将数据转换成缓存资源与未涉及到的数据进行区分,这样也能够实现和传统的消息阵列系统一样的功能,而且与之相比也更快捷。

3 数据存储技术

在数据搜集和管理中虽然涉及到了数据的存储,但是那些都是简单的概括,在实际的系统架构中,该项技术的实现需要被单独罗列出来进行研究。首先从实用性的角度分析,数据库中的数据有很大一部分都是长期数据而不是临时数据。同样的数据,可能有不同的用户在不同的时间进行检索。因此,系统的设计者需要保障数据库中的相关数据能够被有效的保存下来,这个时候就需要应用到数据存储技术。很多优秀的搜索引擎的数据存储技术都处在行业前端,拿国外应用程度较广泛的谷歌为例,其应用到的是分布式的系统,因此其存储系统也是同类型的。谷歌的存储系统的空间容量极大,因此能够存储更多的数据,而且根据该系统的特点,单位时间内数据允许上传下载量也很大,这样能够满足更多的人在线使用该系统,这对于搜索引擎来说是相当重要的。另外还有一类存储系统与之类似,但是在这些关键性性能上比不上谷歌的存储系统,但是该系统能够实现谷歌存储系统不能做到的方面,可以对巨量的微数据进行长时间的存储。系统的存储能力决定的数据库能够存放多少数据,如果一个系统不到几天内存就满了,需要对之前存储的内容进行删减才能正常的运行下去,就会给用户带来不好的使用体验。连最近发生的事情相关数据都没有,如何能让用户满意,所以,存储技术也是系统必须加强的问题。

4 结束语

大数据环境下相关技术的革新是一定要进行的,本文中虽然只针对三个方面提出了对系统的技术要求,但是在实际的系统构建中还需要考虑到更多的问题,用户的使用体验在很大程度上是由系统的短板决定的,因此要注意全面改进技术。

猜你喜欢

存储技术存储系统数据量
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
分布式存储系统在企业档案管理中的应用
宽带信号采集与大数据量传输系统设计与研究
天河超算存储系统在美创佳绩
关于计算机网络存储技术分析
基于FAT文件系统的数据存储技术的研究
数据存储技术的应用
基于FPGA的并行测试高速存储技术
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统