APP下载

跨集群与全景监控:简化而行

2019-04-25张贝贝

软件和集成电路 2019年3期
关键词:全景集群调度

张贝贝

结合大数据产业的发展趋势以及企业诉求,思特奇自主研发了跨集群统一调度与全景监控技术,并对思特奇大数据集成平台进行升级改造,有力应对和解决客户痛点。

你是否正陷于多个集群作业调度的困境之中?你是否正苦苦寻找,百思不得其解故障发生的原因?

你的企业是否也遇到了类似的痛点?场景需求越来越复杂、越多样化,集群数量越来越多,集群规模越来越大。对此,如何开展跨集群作业调度,如何进行全方位的作业监控以及迅速进行故障定位,成为企业发展大数据必须解决的课题。

随着越来越多的企业开始提出这样的诉求,北京思特奇信息技术股份有限公司(以下简称思特奇)结合大数据产业的发展趋势以及企业诉求,自主研发了跨集群统一调度与全景监控技术,并对思特奇大数据集成平台进行升级改造,有力应对和解决客户痛点。

厚积薄发 精益求精

谈到跨集群统一调度和全景监控技术的研发,北京思特奇信息技术股份有限公司大数据事业部总经理王成刚谈道:“思特奇已经积累了七八年大数据平台方面的相关技术,在这个坚实的基础之上,针对客户的需求和痛点,2017年初我们重新整合再出发,研发了跨集群统一调度和全景监控这两项核心的技术。”

对此,北京思特奇信息技术股份有限公司大数据事业部CTO程艳伟强调:“这两项技术的研发与出现主要是由场景应用驱动的。

随着大数据应用场景不断丰富发展,特别是端到端一体化应用,这些场景应用由不同的任务构成,而每种任务又区分为不同类型,不同类型的任务所需要的运行环境不尽相同,每种不同的物理集群核心能力不同,不可能一个物理集群适用所有场景任务,因此将一个场景应用中不同的任务分配到不同集群运行,是集群资源利用最大化、效率最高的一种形式,在这种情况下,就需要跨集群统一调度。解决完统一调度后,还必须确保在各集群上运行的任务顺利成功完成以及跨集群依赖关系能够有效执行,需要全景监控技术提供保障,做到对整个调度运行的可视、可管、可控。”

据了解,思特奇从2017年初重点研发这两项技术到现在,已经经历了一年多的时间,在技术演进过程中又有哪些难点呢?对此,程艳伟介绍。

第一个步骤是要解决跨集群的问题,如何实现跨集群的协调。

第二个步骤是对故障进行定位,这一部分用传统的做法需要投入很多的精力,但是效率却不高。“而难点是我们要把上下层打通,实现从应用层到下面资源层面的一个关联,实现了这个关联之后,我们又做了可视化的工作,精准定位到问题出在哪个地方。”

目前,虽然这两项技术已经相对比较成熟,但思特奇精益求精,还在不断打磨,以求在实际应用中能够发挥更好的作用。

总体来看,大数据跨集群统一调度与全景监控技术,横向可以跨集群协同管控,纵向可以从业务应用穿透到CPU、内存等资源使用情况。主要技术特点如下:

1.支持同构运行环境集群。

2.支持異构运行环境集群,包括关系型数据库,支持:Hbase集群、Hadoop集群、Spark集群、MPP集群(如Gbase集群、GreenPlum集群、Vertica集群、分布式MySQL集群)、传统关系型数据库(如Oracle、Db2、TD、MySQL)。

3.支持多个集群数据处理任务在一个界面统一调度编排。

4.支持跨集群任务依赖。

5.支持从应用、任务到平台、设备垂直贯穿、端到端的一体化运行监控,即从应用角度看一个应用被划分成多少任务,这些任务在哪些平台运行,在哪些节点上运行,CPU、内存等资源使用情况,便于及时发现有问题的任务、平台、节点设备、资源等,进行及时管控干预,如Hive脚本,其他节点都已完成、个别节点运行时间过长等问题。

6.支持从平台设备资源层面往上看其所承载的应用运行情况。

全景监控通过可视化及日志归集分析技术实现端到端分析及故障定位,实现任务运行全生命周期管控,可以从应用到资源的运行网络拓扑中任何一个点进入,进行360度洞察、遍历,可以及时、准确发现影响任务运行时长、运行结果的原因。

从实践中来 回到实践中服务

文学作品的创作讲究的是源于生活、高于生活,而程艳伟更愿意这样形容思特奇研发的技术:“从实践中来,回到实践中服务。”该如何理解这句话呢?

“跨集群统一调度与全景监控技术的需求来自于实践,核心就是解决实践中遇到的多集群作业协同以及故障迅速定位问题,而最终的目的是服务于实践,也就是说这一技术很好的解决了实践应用中的问题。”程艳伟如是说。

对此,他还举了一个具体的实例。在营销推荐方面,客户信息、接触信息等在Hadoop集群处理,矩阵分解以及关联规则等在Spark集群处理,营销信息匹配结果同步到HBase集群,进行被动接触营销,同时同步一份到短信网关,进行主动推送。

此外,集群作业运行中,由于有大量不同作业在运行,以及资源、数据等方面的问题,作业异常情况经常出现,需要快速定位,解决问题。

过去,应用调度部分发现作业宕掉或空跑,但是无法确定是哪个节点出了问题。在资源监控层面,某节点运行有问题,但是不知道是哪个应用引起的,又会影响哪些。

基于这些真实的业务场景,通过思特奇大数据集成平台,现在这些问题都可以解决,从应用层面能够一眼看到设备资源,从设备资源上能够看到应用作业情况,从而能够快速进行故障定位。

据了解,该技术目前已经在山西移动大数据运营管控中心项目中落地。通过该技术,山西移动大数据运营管控中心实现了跨集群运行任务的编排、审核、发布和指令调度,以及设备、平台和应用的全景运维监控视图构建,对大数据中心各系统日志进行收集和监控。

“我们最大的优势是我们通过这些实际的场景,把这些技术点打通,串联在一起形成一种全局的、全景化的调度体系和监控体系,我觉得这是我们的优势。”王成刚谈道。其实对于用户来讲,他们的诉求很清晰,一是运维人员对技术不太精通,不会太关注底层庞大的、技术性架构的东西。二是用户更希望专注于业务的开发,实现业务的创新和价值。所以思特奇的平台落地之后,只需要应用人员接受简单的业务培训,就可以很好地驾驭。

内外兼修 共赢产业生态

大数据发展到今天,早已脱离了概念认知的阶段,越来越多的实践应用越来越成熟,可以说,大数据正在进一步拓展,并向更多的细分领域延伸。

王成刚认为,不同的公司所切分的领域有所异同,对于思特奇来说,将会结合人工智能这个点进行发力。在此背景下,大数据可能会发展到数据的链接、数据的采集以及边缘计算的应用。未来还会结合人工智能的发展进入更多的业务领域,并创新商业模式,比如神经网络、类人脑的机器学习等。

然而,无论哪个时代,对于企业来说,把握时代发展趋势,打造核心竞争力,驭世而行才更重要。

对思特奇来说,该如何在如此激烈的市场中找到自己的位置,脱颖而出呢?

王成刚认为,从自身来看,肯定还是要修炼企业的技术内功,特别是对于思特奇这样一个立足于技术的企业。而技术本身涉及两个层面,第一点是集成能力,在坚实的积累之上把各种技术结合起来,为应用提供服务;第二点是夯实技术底层的基础技术,包括一些算法的优化、技术原理的研究。

与此同时,要在一些深入的垂直领域做探索性研究,力求通过建立技术门槛打造核心竞争力。

最后一点是与产业同仁共筑开放共赢的生态建设,就当前看,一个企业想要取得成功离不开整个生态的发展。特别是健康的大数据产业生态建立起来之后,思特奇会借助自身的优势,为整个生态贡献价值,与产业链各方共筑共赢的环境。

一个产业能够健康可持续的发展要靠产业生态的建设,产业生态的建设要靠各方企业的努力。做一个有追求、有社会责任感的企业,思特奇时刻准备着并不断践行,通过持续打磨技术、创新商业模式,不断为大数据产业生态贡献力量。

访谈实录

Q: 中国大数据产业生态联盟、《软件和集成电路》杂志

A: 北京思特奇信息技术股份有限公司大数据事业部总经理王成刚

北京思特奇信息技术股份有限公司大数据事业部CTO程艳伟

Q:如何看待当前国内的大数据产业发展?

王成刚:其实从大数据技术本身的发展来看,大数据的发展从底层基础的技术到平台建设再到数据的应用,每个环节在国内的发展都表现的不太相同。我们在底层基础软件方面的研究还是比较弱的,起码实力不强,包括我们用的Hadoop或者之前的关系数据库等,原创不是在国内,这算是一个短板。

然而,我们在整个应用过程中又有非常广阔的市场,所以我们在应用层方面的贡献还是比较大的。可以说,我们是站在巨人的肩膀上来做应用这件事,然后不断对产品进行优化,逐渐地形成了我们自主研发的在特定领域的一些支撑技术和软件。也就是说,我们的长处是在实践过程中进行优化、提升,来提高平台的健壮性和稳定性。

Q:跨集群统一调度与全景监控技术前景发展如何?

程艳伟:大数据未来发展必然是消除数据孤岛,实现数据互联与融合。而数据孤岛的消除并不是構建一套物理集群,而是根据不同的业务类型以及集群不同的技术特点,构建业务与技术相匹配的多个集群,充分发挥各自优势。

因此跨集群统一调度是必然趋势,同时具备应用作业的全景监控能力,提升跨集群作业效率。

随着大数据产业发展,无论是垂直行业、还是智慧城市,无论是构建企业级数据中心,还是构建专业中心,多集群协同工作是刚性需求,因此跨集群统一调度与全景监控技术无论是现在,还是将来,必然市场广阔,需要不断发展、完善,做更多前瞻性设计,引领大数据跨集群统一调度与全景监控技术发展。

Q:在推广上,思特奇的跨集群统一调度与全景监控技术未来如何推广应用?

程艳伟:跨集群统一调度与全景监控技术是思特奇大数据集成平台的核心技术,按产品化部署模式或合作运营的方式推广。

跨集群统一调度与全景监控技术可以对一个或多个集群作业进行协同调度与监控,契合大数据发展需求,能够解决现在以及将来大数据应用发展场景中跨集群作业调度及监控的难题,极具推广价值。可以按套售卖,每套产品按照支撑的集群类型(每种类型分别标价)、代理节点数,以及作业规模等进行定价,一次性售卖,含部署安装和售后服务;另一种模式是合作运营模式,这种模式适用于大数据生态中,为不同的租户提供跨集群调度与监控服务,按作业类型、作业规模以及全景监控使用量计费。

行业应用案例

案例名称:大数据跨集群统一调度与全景监控技术在数据工坊产品中的应用实践

核心特点:数据工坊利用跨集群统一调度与全景监控技术为平台体系设计提供支持:实现面向不同受众横向设计三大门户体系,提高大数据平台能力开放驾驭能力;大数据平台服务管控PaaS化,提供按需、受控的开发、运维环境;数据服务能力创新:建立基于大数据平台的流式数据服务能力和海量数据低延迟查询服务能力;全景监控体系建设:从工作流、任务全景图、平台全景图、数据全景图、设备全景图等5个方面构建监控管理体系。

应用解读:思特奇数据工坊产品顺应时代要求正式开启了利用大数据重构支撑能力体系的序幕,帮助企业构建大数据开发、管控能力中心,通过计算和数据的分离实现技术和业务解耦,助力企业实现大数据应用开发的简单化,可快速部署大量大数据分析应用、营销创新应用等,产生良好的经济效益。

应用价值:思特奇数据工坊基于大数据平台,为各行业客户及各大运营商提供大数据系统整合、数据资产融合,数据和应用的深度解耦的开发体系,完成数据的统一建模和管理,成为平台再造的目标,实现内部跨条线和外部跨行业的数据整合,对内支撑市场经营、网络优化、战略决策,对外提供数据分析产品和服务,实现数据可管理、可共享、可增值;对外探索新的商业模式,实现数据资产的直接价值体现,成为各合作伙伴结合自身实际,依托大数据解决当前实际问题的重要平台。

同时,产品为大数据应用提供基础开发、监控平台,使整个大数据平台价值显性化体现。在跨行业合作、数据变现方面获得了相关行业的认可和肯定。

目前正在沟通交流的包括公安局、银行、旅游管理部门、旅游景区等,在合作交流过程中,相关单位对于数据工坊的大数据运营管理、开发水平、大数据产品的数据质量表示了肯定,对于提高品牌形象、提供全民大数据认知起到了推动作用。

猜你喜欢

全景集群调度
水资源平衡调度在农田水利工程中的应用
智能四向穿梭车系统的应用与调度对策研究
全景摄像机
10kV配网调度运行故障及控制对策
Excerpt from Three Days to See
全景视频的拍摄硬件
勤快又呆萌的集群机器人
集群品牌是集群整体的品牌还是集群产品的品牌?
全景搜索