APP下载

基于云计算的流数据集成与服务分析

2021-01-13张建远

黑龙江科学 2021年14期
关键词:利用服务

张建远

(黑龙江省双鸭山市宝清县机构编制数据中心,黑龙江 双鸭山 155600)

流数据是一个随着时间推移无限增长的动态数据集合。信息时代,利用大数据、云计算等技术可以实现对流数据的集成、开发和利用,为网络监管、风险识别等各个领域提供技术服务。流数据运用中,保证数据的完整性、安全性和时效性是发挥其利用价值的关键。流数据应用范围不断扩大,探究流数据集成与服务优化策略是现阶段的重要研究方向。

1 流数据集成与服务内容

1.1 流数据集成

大数据时代产生了海量化数据,将某些具有关联性的数据整合起来形成数据集合,即为流数据。流数据集成是指新的数据源源不断加入到这个集合的动态过程,主要分为两种形式:一是多个流数据源的集成,指不同来源、格式、特点性质的流数据在逻辑上或物理上有机地集中。二是流处理引擎间的集成,指流处理引擎实例之间的集成,以便综合利用多个流处理引擎的能力。

1.2 基于云计算的流数据查询操作

根据流数据集成特点可知,每时每刻都会有海量数据加入到这个集合中,因此流数据本身体量十分庞大。流数据利用与服务中,必须要整合数据信息,挑选有价值的数据资源。在这一操作中,基于计算机的流数据查询,检索效率不高,不利于数据资源的整合利用。这种情况下就需要发挥云计算技术优势,目前云计算速度可达到109次/s,可以在短时间内实现对流数据内目标数据的精准查询。根据查询方式的不同,可分为两种:一是单个查询操作的实现及优化,如连接查询、聚集查询。二是互相连接的多个流数据操作算子的执行及优化。

1.3 流数据定制化服务

流数据定制化服务目标是面向不同类型应用需求,以服务方式提供对流数据连续查询、事件检测功能,支持用户对大规模流数据集的共享与定制。根据用户需求的差异性,可以将流数据按照一定标准进行分类,在原有数据集合中划分成若干个带有独立标签的子集合,将一些无用的数据筛选出去,进一步提升数据检索效率。

2 基于云计算的流数据集成与服务存在的问题

时效性差。即时性是影响流数据服务的关键因素之一。由于海量数据的持续流入,随着时间的延长,流数据中包含的数据种类、总体数量都呈现爆发式增长。系统需要处理的数据增加,但是自身的处理效率并没有同步提升,这就导致系统响应延迟,大量数据无法得到有效处理而造成数据的堆积和浪费。由于时效性差,导致流数据的集成速度和服务功能都受到不同程度的限制。

更新延迟。流数据作为动态数据集合,在接收数据之后,要根据数据接收顺序、数据传输来源、数据存储格式等不同分类标准,对数据进行排列和归类。从数据流接收数据开始,到数据按照特定的标准被划分到各个最小集合为止,中间需要一定的时间。该时间差是导致更新延迟的主要原因,如果时间差过大,更新延迟明显,也会影响数据的利用价值。

动态适应性差。流数据上的各类应用和服务,可以根据实际需求进行自由扩展,在一定程度上提高了流数据的适用范围。但是由于数据本身的动态变化,会导致系统负载出现较为明显波动。如果某个时间段内有大量数据突然涌入,除了会明显增加负载外,还有可能导致网络拥堵甚至是系统崩溃。尤其是在大数据时代,数据波动带来的冲击更加频繁也更加严重,流数据的负载上限较低,动态适应性差,成为制约其服务功能发挥的重要因素。

云计算容错力差。容错能力是指在系统发生轻微故障的情况下,仍然保持系统主体功能稳定发挥的能力。例如,流数据集成与服务中,因为瞬时数据流量过大而导致响应延时,具备较强容错力的系统会通过调节系统运算速度,逐渐消除因响应延时导致的时间差,从而保证数据流整体运行稳定。但是目前支持流数据集成与服务的物理服务器,受到硬件设备的限制,运算速度较低,稳定性不高,容错率差,不能满足大数据背景下流数据集成与服务的要求。

3 基于云计算的流数据集成与服务实施对策

3.1 提高实时数据的吞吐量

瞬时超大流量数据的冲击,是导致流数据响应延迟的主要因素。为提高流数据集成与服务的时效性,需要通过提高实时数据吞吐量的方式,应对大规模数据瞬时涌入带来的冲击影响。正常情况下,流数据可以平稳完成数据的动态接收。如果遇到大规模数据流入,则系统暂时提升吸纳能力,在尽量降低响应延迟的情况下,将所有数据吸收,之后再利用云计算的高速处理能力,实现对大规模数据的分类、处理。

3.2 改善编程方法,进行服务优化

随着流数据应用范围的扩展,要提升其服务价值,必须重点发展定制服务。要实现定制服务,除了需要提高流数据处理效率外,还要基于服务需求,制定服务模型。流数据服务模型的种类比较丰富,基本上可以涵盖不同的服务领域,但定制服务的灵活度不够,数据的利用价值没有得到充分体现。未来需要重点从服务运营和操作优化等角度入手,改进模型运行的编程方法,利用流数据为用户提供更加优质的服务。

3.3 合理配置流数据负载,增强动态适应性

理想状态下,在云计算环境下提高流数据的负载能力,能够保证流数据各项应用的稳定运行和各项服务的稳定发挥。但在现有的技术条件下,要想实现这一目标需要较高的成本。目前一种可行的办法是基于用户需求,合理配置流数据负载,既满足用户需要,又能以较低成本提升系统的动态适应能力,实现了两者的统筹兼顾。

3.4 运用云计算进行处理

利用云计算进行数据压缩和备份,一方面可以削弱大规模数据涌入对系统产生的冲击影响,另一方面,根据使用需求对目标数据进行解压,也不会影响数据本身的利用价值。根据备份形式的不同,可以分为主动备份和被动备份。这一技术增强了数据完整性、可靠性,增强了容错能力,避免因数据丢失而影响流数据服务功能的发挥。

4 结论

随着感知设备的普及,数据多元异构复杂性提升,流数据并发数量及速度剧增,传统的流数据系统在处理能力、可扩展性、容错性等方面面临发展瓶颈问题。通过提高实时数据的吞吐量、合理配置流数据负载等方法,可进一步提升流数据集成效率与服务能力,从而在大数据时代发挥应有的价值。

猜你喜欢

利用服务
利用min{a,b}的积分表示解决一类绝对值不等式
利用倒推破难点
利用一半进行移多补少
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
服务在身边 健康每一天
利用数的分解来思考
Roommate is necessary when far away from home