流式大数据实时处理技术、平台及应用研究
2019-09-10余谦
余谦
摘 要:流式大数据实时处理技术的应用能够实现对客户的实时反馈,所以相比于批量大数据受到了更多的关注与研究。基于此,本文设计了一种基于流式大数据实时处理技术的平台系统,对流式大数据实时处理技术进行了解析,对该平台系统的设计、优势以及性能测试进行了说明,分析了基于流式大数据实时处理技术平台系统的应用。
关键词:流式大数据;实时处理;平台设计
中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2019)01-0086-03
Streaming Big Data Real-time Processing Technology,Platform and
Application Research
YU Qian
(Wuhan Polytechnic University,School of Mathematics and Computer Science,Wuhan 430023,China)
Abstract:The application of streaming big data real-time processing technology can realize real-time feedback to customers,so it has received more attention and research compared with large batch data. Based on this,this paper designs a platform system based on streaming big data real-time processing technology,analyzes the real-time processing technology of streaming big data,explains the design,advantages and performance testing of the platform system,the application of real-time processing technology platform system based on streaming large data is analyzed.
Keywords:streaming big data;real-time processing;platform design
0 引 言
现阶段,随着互联网技术的发展和普及性使用,社会产生的数据量显著提升,这使得人们对于大数据技术的关注与引入程度显著提升。对于大数据技术来说,通过引入大数据技术,就能够实现多个行业的技术进步、促进经济效益的显著增长。依照数据处理的时效性,能够将基于大数据技术的数据处理系统分成流式大数据(实时大数据)处理以及批量大数据(历史大数据)处理两种。其中,流式大数据实时处理技术的应用能够实现对客户的实时反馈,所以受到了更多的关注与研究。本文对流式大数实时处理技术及其平台进行分析,对该平台的应用进行研究,为相关工作人员提供参考。
1 流式大数据实时处理技术的解析
1.1 流式大数据实时处理技术的分析
结合现阶段大数据技术的发展以及使用情况来看,能够依据数据处理的时效性,将基于大数据技术的处理系统分为两种:批量大数据处理系统以及流式大数据处理系统。其中,在批量大数据处理系统中,主要以Hadoop为代表。该系统在对批量大数据进行处理时,会首先将相应的数据信息汇总成批,接着会对这些汇总后的数据信息展开批量的预处理,最终会将处理后的数据传输并保存至分析数据仓库之中,完成高性能的实时查询服务提供。可以说,批量大数据处理系统能够实现对完整大数据的快速查询,但是其并不能实现对于最新数据信息的查询,也存在着数据迟滞相对较高的问题。
对于流式大数据处理系统来说,在批量大数据处理系统中无法解决的问题在流式大数据中能够得到有效的处理。相比于批量大数据处理系统来说,流式大数据处理系统能够有效的实现对即时性数据的处理与反馈。现阶段,基于流式大数据实时处理技术的系统主要有Flink、Storm、Spark Streaming等,这些数据处理系统都能够实现对于实施数据的有效处理以及第一时间的反馈[1]。
1.2 建立基于流式大數据实时处理技术系统的技术难点分析
对于基于流式大数据实时处理技术的系统来说,由于已经在系统中设置了针对最新实时数据信息的高效预处理模型,所以其数据迟滞相对较低。但是,由于受到内存容量的限制,基于流式大数据实时处理技术的系统在实际的运行中,会对部分历史数据信息进行舍弃。在这样的情况下,基于流式大数据实时处理技术的系统就无法实现对完整大数据集的分析与查询。所以,必须要开发出自主可控、高效、迅速的流失大数据实时处理技术及相关平台。在进行这一平台的开发时,要对以下几项技术难点进行重点的解决:
(1)对于相对复杂的指标展开增量计算。对于计数、平均、求和等指标来说,通过查询结果的合并就能够提供。但是,对于一些相对复杂的指标来说,通过查询结果的合并并不能完成计算,例如标准差、方差、熵等复杂指标。同时,若是在实际的查询中,涉及到了长周期时间窗口或是热点数据维度这些复杂指标时,就会进行多次的计算,这显著增加了计算的开销;
(2)分布式内存的并行计算。若是在实际的计算中,使用粗放的调度策略,会导致系统内存的大量浪费。基于这样的情况,必须要开发出能够对进度进行实时感知的融合存储策略,优化基于流式大数据实时处理技术系统平台的内存使用效率;
(3)高扩展性的内存计算。虽然内存机制能够提升系统平台对于数据分析以及数据处理的能力,但是由于其十分容易挥发,所以必须要使用多副本的方式,提升内存可靠程度。在这样的情况下,确保不同副本的一致性成为了重点的问题。同时,在确保集群服务不间断的情况下,实现重新平衡也是一项需要解决的重要问题。
针对上述的应用要求以及技术难点,笔者开发出了一种基于流式大数据实时处理技术的平台系统,攻破了上述的技术难点。在该平台中,实现了动态数据的快速处理,并能够支持基数、平均、求和、标准差、方差、最大值、最小值、(连续)递增与递减、采集、过滤等的基于分布式统计的统计计算模型,能够完成对于上下文、复杂时间等实时处理模型的高效管理。
2 基于流式大数据实时处理技术的平台设计分析
2.1 基于流式大数据实时处理技术的平台系统设计
在筆者设计的基于流式大数据实时处理技术的平台系统中,其主要的系统框架结构中包括:实时数据消息队列、分析处理模型集、数据装载、模型装载、流式计算引擎、引擎监控管理、结果储存层、数据抽取模块、分布式存储、外部应用系统、历史数据等。其中,数据装载、模型装载、流式计算引擎、引擎监控管理、结果储存层、数据抽取模块构成了流式大数据实时处理平台,主要承担着对流式大数据的实时处理与保存。对于该基于流式大数据实时处理技术的平台系统来说,有着较好的适应性以及灵活性。
在该基于流式大数据实时处理技术的平台系统中,数据抽取模块主要承担着对历史数据进行批量抽取的任务;对模型装载模块来说,主要承担着将存在于分析处理模型集中的脚本以及计算模型传输到平台中的任务[2]。一旦基于流式大数据实时处理技术的平台系统接收到来自业务系统发出的实时数据查询请求时,该平台系统能够依照完整大数据集中分析处理模型的计算指标,对其进行判断,并将最终的判断结果第一时间反馈至业务系统。
2.2 基于流式大数据实时处理技术的平台系统的性能测试
在完成该基于流式大数据实时处理技术平台系统的设计后,笔者对其进行了性能的测试。将该平台系统放置在8台服务器的环境中,让其同时对16个数据指标展开计算。其中,服务器的配置为256GB内存以及24核的CPU;计算的16个统计指标跨越四个维度,分别为计数、平衡、求和、最大值、最小值、标准差、去重、过滤、排序以及复杂事件处理等。性能测试的结果显示,该基于流式大数据实时处理技术的平台系统单节点的写入在43000TPS以上,而对八节点的读取在100万TPS以上,平均的时延在1-2秒之内,可以说,该基于流式大数据实时处理技术的平台系统有着较为良好的性能。
2.3 基于流式大数据实时处理技术的平台系统的优势分析
对于该基于流式大数据实时处理技术的平台系统来说,其有效的融合了批量大数据处理以及流式大数据处理,解决了两种大数据融合时的技术难题。同时,还完成对于流式大数据处理系统平台构建中面对的作业编排效率问题以及流处理作业的灵活变更问题的突破。
在该基于流式大数据实时处理技术的平台系统中,引入了多种创新技术,提升了流处理平台数据处理能力的可用性、可靠性以及可扩展性,更好的满足了实际的业务需要。同时,在该基于流式大数据实时处理技术的平台系统中,引入了Paxos一致性协议,对内存存储计算中的多副本一致性进行了控制与实现,提供了一致的、透明的解决方案。通过引入智能分区技术、一致性散列技术,实现了将散列值转化为散列块。另外,通过计算作业动态运行加载技术的使用,有效避免了计算作业手工功能部署打包问题的产生。
3 基于流式大数据实时处理技术平台系统应用的探究
该基于流式大数据实时处理技术的平台系统在交通、金融、电信、公安等行业都有着广泛的应用前景[3]。笔者在实际的应用实践中发现,在展开某业务的数据统计中,需要对过去三个月的数据信息进行统计,使用传统的数据处理平台展开处理,则需要在该业务上线三个月后才能完成。在这样的数据处理方式下,业务的展开以及相应数据处理平台的使用都受到了限制。但是,由于该基于流式大数据实时处理技术的平台系统结合了流媒体播放器的录制与重放功能的实现过程,当原始的数据信息进入该平台后,会依照顺序写的方式对原始数据进行持久化处理,当需要进行上线的新作业时,就可以第一时间的进行原始数据信息的重发,能够实现快速的计算作业。这种计算作业的速度在分钟级,甚至能够达到秒级。
该基于流式大数据实时处理技术的平台系统在实际的运行中,有着数据处理时间快、准确率高的效果。笔者在对其进行性能测试中发现,相比于其他的大数据处理平台系统,这种基于流式大数据实时处理技术的平台系统有着更加优质的性能。该基于流式大数据实时处理技术的平台系统的平均响应时间小于6ms,并发数大于5000笔/s,而这些性能的实现仅仅需要四台服务器就能够完成。在实际的性能测试中,笔者设定了计算逻辑大于50条、涉及统计指标超过30个的测试情境。在这一测试情境下,普通的大数据处理平台的计算时间普遍在24小时及以上,而该基于流式大数据实时处理技术的平台系统则在三个小时内就完成了全部的计算,且计算的正确率达到100%。通过该性能测试能够看出,基于流式大数据实时处理技术的平台系统有着较好的可靠性以及数据分析能力,有着较高的实用价值。
4 结 论
随着实时数据量的不断增加,对其进行多维度的、快速的、可靠的处理分析更加重要,难度也更大。通过应用智能分区技术、一致性散列技术、Paxos一致性协议、计算作业动态运行加载技术等技术,完成批量大数据处理以及流式大数据处理的技术融合,构建起了基于流式大数据实时处理技术的平台系统。利用这种基于流式大数据实时处理技术的平台系统,实现了大量实时数据的快速、准确分析,提升了流处理平台数据处理能力的可用性、可靠性以及可扩展性,更好的满足了实际的业务需要。
参考文献:
[1] 陈纯.流式大数据实时处理技术、平台及应用 [J].大数据,2017,3(4):1-8.
[2] 樊明璐.流式大数据处理平台中资源动态调度技术研究 [D].北京:北京工业大学,2016.
[3] 朱奕健,张正卿.基于通信运营商数据的大数据实时流处理系统 [J].中国新通信,2016,18(3):100-103.
[4] 刘凯,于龙.云计算环境下关联性大数据实时流式可控聚类算法的优势分析 [J].通讯世界,2018(7):21-22.
[5] 曹旭峰.流式大数据仿真生成及系统性能测试方法的研究 [D].南京:南京航空航天大学,2017.