APP下载

计算机应用大数据调度系统的探索与实现

2022-07-17黄国芳刘喜苹

江苏广播电视报·新教育 2022年16期
关键词:分布式大数据

黄国芳 刘喜苹

摘要:计算机应用大数据调度就是如何高效处理有用数据的使用,在任务之间调度数据处理的效率对系统的性能和资源的利用非常重要。本文介绍了计算机应用大数据调度系统的结构、系统选型、设计原则与系统的部分功能,该系统能够为企业平台的分布式数据库进行自动管理,提升分布式数据库使用效率,降低人力成本,同时又保障了企业分布式数据库的安全、稳定、高效的运行。

关键词:大数据;分布式;调度系统

1.综述

广泛应用的移动互联网,使数据源呈现多样化,数据量井喷式的爆炸增长,数据收集技术不断得到完善,各行各业越来越重视从海量数据提取有价值的数据,使得数据的收集已转向数据的处理,要充分挖掘数据的价值[1]。

搭建数据平台(BP)的过程中,涉及海量的数据采集、处理、调度、计算等方面的工作,非常需要一款简单易用、支持可视化管理的调度系统解决越来越多的任务处理问题。

2计算机应用大数据调度系统

调度系统管理复杂的任务正常运行,按照调度配置发出调度请求,负责从数据仓库调取数据,同时记录执行的日志文件与可能要调取的日志,通过MySql的处理,导出数据到报表,或导出到主站供用户使用,其调度系统功能结构如图1所示[2]。

一个分布式任务调度系统有web模块、server模块、Scheduler模块、worker模块、注册中心。Web模块,任务管理、信息展示、控制任务的状态等。Server模块,负责接收web端传来的任务执行的信息,下发任务调度请求给Scheduler,去注册中心进行注册。Scheduler模块,接收server端传来的调度请求,将任务进行更加细化的拆分然后下发,到注册中心进行注册,获取到可以干活的worker。Worker模块实现具体的任务运行,注册中心完成任务信息的注冊等等。

2.1分布式任务调度系统结构

一个分布式任务调度系统由调度与执行两大模块构成[3]。调度模块(简称调度中心)负责调度信息,根据调度配置发出调度请求,与任务解耦,本身不负担业务代码,其性能不受限于任务模块,支持可视化、简单且动态的管理调度信息、监控调度结果及日志执行等[4]。执行模块(简称执行器)负责接收调度请求并执行对应的任务JobHandler(将任务抽象成JobHandler),接收调度模块的执行请求、终止请求、日志请求等,按照调度中心的配置地址,在调度中心主动注册,满足任务触发前提,调度中心下发任务,基于线程池执行任务的执行器把执行结果写入内存队列、执行日志写入日志文件,返回线程自动上报到调度中心,用户在调度中心察看任务日志,调度中心请求任务执行器,任务执行器读取任务日志并返回日志详情。其系统开发和维护更简单高效,其结构如图2所示[5]。

2.2系统选型

当前市场上的作业调度系统按功能主要划分为定时分片与DAG工作流作业调度系统。根据用户需求、分析调研,计算机应用大数据调度系统选择能正确处理复杂任务调度的DAG工作流调度。在DAG工作流调度中,存在机灵的任务触发机制和繁琐的作业依赖,通过优先级任务管理、服务隔离和权限管理解决较复杂的调度任务。同时,对实时性要求强、服务链路较短、优先级要求不高、很难出现竞争资源等任务,经过资源隔离实现资源的可用性,权限管理也是用资源隔离来实现资源的可用性。

还有运行大量作业时,使用优先级、负载隔离和权限管理的方法来实现共享系统资源。由业务流程的复杂性引发的像暂停任务、刷新历史数据、手动标志失败或成功等处置,有任务故障报警、超时报警、流量负载监控、任务进度监控预测等完备的监控和报警通知机制,使得调度系统具有强大的性能[1]。

Azkaban比Oozie更方便学习上手,其配置也比Oozie较简单,使用Web用户界面对工作流程进行保护和追踪,因此采用Azkaban框架完成计算机应用大数据调度系统的开发。

2.3设计原则

通过用户调研和业务需求分析,主要考虑系统的可靠性、实用性、安全性、兼容性及扩展性,同时也要重点考虑简易性、成本及时效。

2.3.1可靠性原则

计算机应用大数据调度系统在使用时,系统的可靠性是保证任务正常执行的关键。一般环境下不同类型的工作流被同时调度,这些工作流存在复杂的依赖,任何一类工作流出现异常不能影响其他工作流的正常运行,这就要求大数据调度系统的可能性非常高。

根据软件开发协议条款,逐一对本系统结构、文档管理和测试等工作严格要求规划,是确保本系统可靠性的重要环节。

2.3.2实用性原则

系统功能展示采用简洁流畅的图形化、模块化,让用户的精力集中在系统应用上,方便快捷的操作,提高了系统运行维护管理的效率和减少人力成本。软件模块化设计,使得用户只需要根据自己的需求选择有用的功能和模块,提高利用率。

2.3.3安全性原则

应用系统的安全性是要考虑的重点,同样调度系统的安全性是重中之重。调度系统的安全性包括系统管理权限的验证与数据安全,应用系统开发时,对系统管理权限进行控制,不同权限的开发人员只能在规定的权限内完成任务;数据库采取安全机制是保证数据安全的前提,避免数据库故障发生数据丢失,备份重要数据、保护核心代码等措施。

2.3.4兼容性及扩展性原则

系统通过协议与接口,在上下实现了兼容不同新旧技术和设备,很容易实现与外部系统的连接与通讯,同时方便产品更新和技术服务的选择。计算机应用大数据调度系统的任务逻辑非常复杂,一次开发很难全面周到地考虑业务需要,在系统设计时提供二次开发接口及编程环境,延长使用周期。

2.4系统部分功能介绍

开发的计算机应用大数据调度系统,是一款大数据的运维可视化分布式调度系统[6]。能够为企业平台的分布式数据库进行自动管理,提升分布式数据库效率,降低人力成本,同时又保障了企业分布式数据库的安全、稳定、高效的运行。

2.4.1数据处理控制管理

由集群部署完成数据处理与控制管理。集群可以及时根据业务和应用的需求,对集群中的节点和存储空间进行增加或删除,节省成本。数据处理集群布置帮助用户把必要处置的大量数据分散到集群中、交给系统内的计算机组同时计算,将合并计算结果获得最终处理的数据,由主机确认处理的结果。进行数据处理集群部署的管理[7]与维护中有可能出现各种问题,管理员需要分析LOG和不时查看监控,善于发现问题,及时分析和解决Cluster(Cluster的基本监控指标如CUP、内存、存储资源、网络等)中的报警。监控主要是用ELK的日志监控分析系统,通过Beats收集日志和数据,再分发给Logstash来分析和处理日志,然后由Elasticsearch存储和检索,最后由Kibana在Web GUI页面上展示出来。服务选择帮助用户对数据处理分布式调度进行数据处理服务选择的管理,并进行数据处理分布式调度操作[8]。运行系统的部分效果如图3是集群部署操作界面、图4是数据监控效果界面。

2.4.2数据分布式调度管理

数据分布式调度管理作为大数据调度系统的重要组成部分,由服务器池、分发器、工作站、互联网、用户终端组成的分布式调度集群,其中用戶终端发送连接请求报文,最终从服务器池中获取相应的报文;用户终端发出连接请求报文给分发器,并将连接请求转发到服务器池(即执行服务器)集群中;分发器转发连接请求给服务器池,并向用户终端返回请求结果;工作站用于对分发器和服务器池进行配置和管理,确保分发器和服务器池中的执行服务器能正常工作。

同时工作站由监控、管理节点构成,是对分发器和执行服务器监控和管理。监控每台服务器的运行状况,只要其中某一台服务器呈现故障,系统将服务调度到能正常工作的服务器上运行;通过对各种参数的配置管理,如配置执行服务器向分发器索取任务的频率等,工作站通过网卡之间的数据传输分别完成与分发器、执行服务器之间的通讯。

当有新的执行服务器(节点)加入到集群时,通常在工作站中输入该节点的ip地址并应用生效;同样需要从集群中退出某台执行服务器,也只要在工作站中删除或者暂停该节点的ip地址并应用生效。此方法一样应用于分发器的动态加入与退出,来实现服务器节点的动态加入与退出。系统运行的部分数据分布式调度管理的效果如图5是分配Master组件给相应的主机示意图、图6是分布式调度集群在最近半小时的健康度。

总之,移动互联网环境下,需要分析处理海量复杂的数据,随着分布式计算框架不断增多,需要一个良好的调度系统支撑平台。经过本系统证实:实现的计算机应用大数据调度系统能够满足一般企业的要求,为企业平台的分布式数据库进行自动管理,提升分布式数据库效率,降低人力成本,同时保障了企业分布式数据库的安全、稳定、高效的运行。

参考文献:

[1]何明光.大数据应用调度系统的设计与实现[D].北京交通大学,2019-01-01.

[2]大数据应用篇之调度系统[OL].https://zhuanlan.zhihu.com/p/125718254,2020-04-05.

[3]王昆.高可用分布式任务调度与执行系统设计与实现[D].西安电子科技大学,2019-01-01.

[4]凌波.分布式任务调度在集中MSS系统中的实践应用[J].江苏通信,2021-03-01.

[5]一文读懂分布式任务调度平台XXL-JOB[OL].https://www.cnblogs.com/caison/p/11641161.html,2019-10-09.

[6]齐海洋.大数据分析系统逻辑数据块亲和性调度算法的研究与实现[D].西安电子科技大学,2019-01-01.

[7]龙毅.公安大数据平台建设策略探究[J].消费导刊,2018-11-01.

[8]周全海.大数据环境下的计算机信息处理技术分析[J].信息技术与信息化,2020(5):243-245.

猜你喜欢

分布式大数据
居民分布式储能系统对电网削峰填谷效果分析
基于Paxos的分布式一致性算法的实现与优化
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索