APP下载

现代数据中心运维管理的研究与实践

2017-05-30康贤军

新金融世界 2017年6期
关键词:数据中心运维管理系统

康贤军

2010~2012年,《商业银行数据中心监管指引》、《商业银行业务连续性监管指引》和《关于银行业金融机构灾备中心规划布局的指导意见》(征求意见稿)相继发布和组织讨论。保障数据中心安全、可靠、稳定,建立业务连续性运行管理体系及全面风险管理体系的战略,实施“两地三中心”科学部署,成为金融机构持续稳定运行、持续发展的必然选择。以此背景下,掀起了各家银行数据中心建设浪潮,经过近些年的建设与发展,基本上形成了以“两地三中心”为主体,涵盖专业支持中心及分行多中心接入的IT运营格局。在数据中心建设过程中,虚拟化、移动互联网、大数据等新技术逐步广泛融入其中,实现了传统数据中心向现代数据中心的转变。数据中心规模化、集中化、新技术的应用、多个数据中心联动运行等新情况,给数据中心运维管理带来了机遇与挑战。

运维管理现状

数据中心运维经历了手工运维、自动化运维在到如今的云数据中心三个阶段,现阶段的本质是全面实现数据中心极致自动化。数据中心 “运营专业化”的特征,它具有一定规模的数据中心、专业化分工以及独立的管理目标、组织与相应制度等,同时引入了一些体系化的管理框架与标准。数据中心的运维管理,通常按系统、应用、网络、供配电等不同技术专业进行组织架构的设计及岗位职责设定。这样的管理模式,基于数据中心各专业、数据中心之间较为明确的物理界限,各司其职,能够发挥各自专业的特长。然而这种模式,面向专业技术,以“高可用性”为目标,使得运维人员疲于运行监控、故障处理等工作,难以满足云数据中心资源化、面向业务服务的要求。

面对这一情况,某银行以“新一代核心系统”为建设契机,通过云管理平台的建设,构建了支撑“两地三中心”云数据中心体系。数据中心的管理更多成为一种服务模式,并提出了基于ITIL的运维管理方案。云平台运维管理系统相关产品主要有:游龙、优利普华、广通、摩卡以及北塔,国外典型案例主要有IBMTivoli、HPOpenView和BMCRemedy。ITIL运维管理平台、统一门户系统、统一监控平台、集中监控平台,各种运维管理系统层出不穷,引入ITIL管理框架,基于云平台的标准化、流程化、自动化、集中化是当前运维的必然趋势。

虽然针对现代数据中心运维管理已有了大量的探索与实践,仍然存在着以下问题:一方面数据中心监控系统众多,动环监控系统、网络监控系统、应用监控系统、存储监控等各个系统各自为政,涉及众多厂家、众多专业工程师,运行信息彼此割裂,缺少信息共享与交互,即便有些数据中心已经采用了统一监控系统或统一门户,仅实现了信息的集中监控与展示,并不能根本上建立信息与信息之间的关系,从而挖掘出数据所具有的价值意义;二是数据中心规模的扩大以及多个数据中心的存在,运行数据存在于从基础设施、IT设备、应用、业务等各个环节,面临着数据采集广泛、采集频率、传输质量等标准统一的问题;三是数据中心资源调度问题以及多个数据中心的协作问题,如何实现数据中心运行的资源最有效配置,以及跨数据中心的资源调度与分配;四是现有ITIL运维管理平台、开发平台、OA系统、统一门户甚至人力资源系统、会计财务系统等各种管理平台,或限于解决部门内部的协同工作或侧重于某一方面的职能,缺乏顶层的设计,管理流程交叉复杂、管理效能较低。

针对上述问题,笔者以开放、共享、主动、智能、自动为理念,基于多个现代数据中心,依靠自动化、智能化等计算机技术手段,依靠运维管理模式的转变,对运维管理进行了研究,提出了运维管理的思路。

运维管理系统建设思路

现代数据中心运维离不开信息系统的支撑,建立一套高效的、智能化高信息系统,是提高运维效率、实现运维自动化的关键。

一体化运维管理系统是支撑数据中心运行有效手段和工具,它提供数据中心运行策划、监视、分析、决策、指挥、操作、控制和管理等功能,纵向上整合所有监控系统,横向上实现与其他系统的连接和信息交互,发挥综合效益,实现运行管理的智能化、自动化。一体化运维管理系统应能实现接入了多个数据中心、各分中心机房。

它包括运行监控平台、智能管理平台和决策平台等三个平台。运行监控系统具备数据采集与交互、全景建模和数据集成与服务等功能,实现数据中心所有设备运行状态监视、网络监视、系统监视、环境监视、在线计算、事件记录、分析预警、自动控制和手动操作。智能管理平台实现运维场景管理、各类资源管理、自动化管理、多数据中心系统管理等多种管理功能。决策平台构建于前两个系统之上,面向管理决策人员,以大数据分析为基础,以服务用户为目标,提供“一站式”运行展示和决策支持。

(一)运行监控平台

运行监控平台是实现运维管理系统的基础和前提。监控的对象和范围是各个数据中心所有资源以及其他外部关联的信息,包括动力、场地环境、IT设备、系统、网络等。这些资源基本上都有针对的独立监控产品及技术,如动力环境监控系统实现了电力、制冷、环境等资源的监控。因此,运行监控平台是对各监控系统数据的二次集中采集。而这不仅仅是简单的集中和搬运,必须有统一的数据源标准,包括统一规范编码、名称、数据类型、单位精度、更新频率、储存要求,举例如表1所示,从而保证数据源的统一、标准、准确性。

而采集之后的数据处理,包括预处理、结构化、储存和建模等,关键在于建立全景信息模型,即建立数据与数据之间的关联关系,并进行全景、直观地展示。它包括以资源為对象的全景信息建模、以应用为对象的全景信息建模以及以业务为对象的全景信息建模三个层次,可方便地追踪到某个数据或某个业务或某个设备所有相关信息,例如针对完成一笔业务交易,可以调出所有以此相关的资源信息,包括所属的应用、占用的CPU和内存、所消耗的电能和制冷等信息。如此一来,为故障处理、资源利用率评估、能效评估以及其他分析和应用提供数据支撑。

(二)智能管理平台

智能管理平台在运行监控平台的基础上,通过构建资源、业务、应用等多种场景化专题视图,依靠大数据分析的手段,融合多种管理职能,实现所有数据中心主动管理、精细化管理和智能管理。实现智能化、自动化管理在于根据不同的运维场景,关联涉及的业务、应用、各类资源以及ITIL、开发等其他系统,设置告警、事件等触发条件,定义自动处置的程序,以实现特定的运维目标,如图1所示。

现代数据中心特征,使得各类资源没有明显的物理界限,运维管理另一重要方面就是各类资源管理,实现业务与网络、存储、内存、电力等资源的最优配置,建立基于多数据中心的资源灵活调度、快速切换机制,从而提升数据中心的安全性,提升整体的运行效能。

运维管理体现开放、共享原则,它不是固化的,是可自定义的,是智能化与自动化的,既体现在运维各专业之间、各技术人员之间内部的共享与互动,又体现在与客户、适用对象等其他相关人员的信息共享与交互,还体现在设备与设备之前、系统与系统之间的自动交互。

(三)决策平台

决策平台位于运行监控平台和智能管理平台之上,它采用态势感知和决策支持技术体系、运维KPI体系,采用模型驱动的显示技术,兼顾传统的数据驱动的用户界面,为数据中运行和控制提供快捷的、智能的和自动化的任务导向的界面,提高用户对数据中心真实运行状态的掌握以及对运维决策的支持。决策平台框如图2所示。

智能信息引擎,通过大数据分析技术,对各种智能应用数据进行处理,为运行全局和重点的态势感知提供有效的信息。智能任务引擎起到承上启下的作用,它按照数据中心运行状态的认知规律, 针对运行特定需求,确定需要执行的流程,实现任务导向功能。态势感知必须是关键任务驱动的,保证了用户根据数据中心运行状态、环境状态和设备运行状态特征,快速进行决策行为的选择。任务根据设定的条件进行自动触发;一系列顺序触发的任务形成了流程,引导用户逐步实现任务,保证数据中心安全、优质、经济地运行。综合展示界面以全景图为基础画面,展示数据中心运行的态势感知信息。运行操作界面以任务导向方式辅助进行运行控制和异常处理。应用界面定制根据运行、管理和决策的任务需求,定制各种专项任务界面供运行、管理和决策人员按照任务需求单独或组合调用。

运维管理模式

运维管理系统是结合运维组织管理模式,依靠计算机技术,体现运维管理思想、方法与经验,实现运维自动化和智能化的手段和工具,从而有效地解放繁复的日常运维工作,有效提高运维效率。同时,运维管理系统促进了运维管理模式的转型和发展,这样的转型和发展也是现代数据中心管理的需要。

运维管理模式经历了分散模式、集中模式、平台模式以及自主模式,这是运维管理不同发展的四个阶段,最终的目标是实现运维的自主模式。前三种方式正是目前大多数数据中心已经经历或正在经历的阶段,前文从提及的以专业划分运维团队,并依靠各运维团队开发建设的系统或平台,也是基本上融合了前三种运维方式的特征。而自主运维模式是正在探索与研究的方向,是真正实现主动运维的有效途径。它打通了用户、开发、运维之间繁琐的流程与界限,提供了针对不同专业、不同群体的接口,能够覆盖用户、开发、运维等所有相关人员的广泛参与度。

自主运维模式对管理系统要求较高,它要求有开放、统一、标准的平台和接口,融入了统一和标准的规范体系,具有强大的信息引擎、任务引擎等智能引擎,不需要人為集中推动,各相关人员都能够自主实现运维,比如当用户发现某一业务出现异常,即可在相关联的界面触发任务,此时系统能够自动分析,或通过系统自动解决问题,或要求开发人员接入,或要求运维人员更换某一硬件。

现代数据中心的运维将越来越凸显技术和管理的重要性,无论是运维管理系统的建设还是运维管理模式探索,都需要加大运维研发资源的投入,依靠技术手段、依靠运维队伍转型,持续改进、不断总结提升。

猜你喜欢

数据中心运维管理系统
酒泉云计算大数据中心
基于James的院内邮件管理系统的实现
运维技术研发决策中ITSS运维成熟度模型应用初探
基于LED联动显示的违停管理系统
风电运维困局
民航绿色云数据中心PUE控制
杂乱无章的光伏运维 百亿市场如何成长
海盾压载水管理系统
基于ITIL的运维管理创新实践浅析
基于云计算的交通运输数据中心实现与应用