APP下载

浅谈数据中心的运维管理

2017-12-29戚海生

移动信息 2017年1期
关键词:机房运维数据中心

戚海生



浅谈数据中心的运维管理

戚海生

中国金融电子化公司,北京 100054

随着信息技术(IT)及其应用的不断发展,数据中心成为了信息化社会的IT基础设施。作为信息系统的通信中心、运营中心、测试中心和灾备中心,承担着核心业务运营、信息资源服务、关键业务计算、数据存储和备份,确保业务连续性等重要任务。近年来,无论是芯片、架构、系统还是软件都取得了很大进步,刀片系统、多核技术、虚拟化应用、冷却技术、智能管理软件等新技术层出不穷,业务集中、数据集中化已经成为信息化建设的主流趋势,也是管理集约化的必然要求,是优化业务流程的必要手段。数据中心是整个信息化的核心。因此,数据中心运维管理问题越来越得到业内的广泛重视。

数据中心;运维;管理

1 数据中心的基本组成

数据中心一般由主机房、辅助区、支持区、管理区等功能区组成。数据中心是一套复杂的设施,它不仅包括计算机系统和与之配套的设备,例如通信和存储系统,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全设施。总体来说,数据中心的组成主要包括机房基础设施和信息化基础设施。机房基础设施又主要包括机房、弱电系统、安防系统、电气系统和空调系统等。

2 数据中心的运维管理

2.1 运维对象

2.1.1 机房基础设施

机房基础设施主要指为保障数据中心所管理的IT设备正常运行所必需的布线系统、供配电系统、安防系统、空调系统等。这部分设备对于业务用户来说几乎是透明的,因为用户一般只会关注业务是否正常,并不会关注到基础设施部分。但是,这类设备对数据中心的重要性是毋庸置疑的。如果发生意外,对依托在其上的IT应用来说,产生问题的后果将是致命的,而且对数据中心而言就是灾难。所以,在机房建设时应该考虑供电的冗余和备用供电方式[1]。

2.1.2 信息化基础设施

信息化基础设施主要指提供业务运营服务所需要的各种IT设备,包括网络、服务器、存储、安全等硬件资源。这类设备在向用户提供IT服务过程中提供了通信、计算、存储及安全等功能,是IT服务最直接的物理载体。随着虚拟化、云技术的应用,对于数据中心而言,信息化基础设施会越来越集中化、简约化。也就是说,我们的业务系统会由以前各自部署在独立的服务器上,逐步转变为集中部署和运行在少量的高性能的物理设备上,特别是网络、主机和存储设备。而随着业务应用越多,连续性要求越高,信息化基础设施的重要性就不言而喻了。

2.1.3 应用系统

应用系统包括操作系统、数据库、中间件、应用软件及业务数据、配置文件、日志等。这类对象是IT服务的逻辑载体,也是业务服务的最终表现,是业务系统运行和使用的直接表现。业务系统之间通常会有信息传递和数据交互,业务系统的正常运行是运维管理的最终目标。

2.2 运维管理

2.2.1 制度管理

数据中心的设施、设备较多,线缆复杂,参与数据中心的运维人员也较多,如IT运维人员、各系统管理员、数据中心管理人员及各服务商等。而正因为数据中心这种人员多和设备较多以及其线缆复杂性,使得数据中心危机四伏,任何一个没有注意到的隐患都可能引发故障[2]。如设施、设备和线缆故障,运维人员维护操作中无意识的触碰,对设备参数的调整等,都存在产生故障和影响数据中心业务正常运行的风险。因此,应建立切实可行的数据中心管理制度、规范和流程,规范数据中心机房、设备及应用系统的管理,严格控制人员对环境和设备的影响,避免控制人员在管理和操作上的随意性,规避误操作,有效应对和处置核心设备、网络和应用系统故障等。

2.2.2信息管理

数据中心的运维工作是对数据中心机房基础设施、信息化基础设施和应用系统的运维,最终体现在业务应用和服务上。机房基础信息是指描述机房布线系统、供配电系统、安防系统、精密空调系统等方面的信息,主要包括机房位置、功能分区、设备及布局、供配电设施及图纸、综合布线、管道敷设等资料;信息化基础信息主要包括通信资源(通信线缆类别、带宽、线路编号、端接设备、安装位置、用途等)、设备(设备名称、品牌型号、配置、用途等)、网络(网络结构、区域划分、IP规划、路由策略、访问策略、物理连接情况等)、网络安全(安全设备部署结构、安全区域划分、详细安全策略等)、虚拟化平台(虚拟化平台结构、物理连接情况、存储分配信息、虚拟机部署和应用信息)等资料;应用系统信息包括系统部署的服务器(性能参数、网络配置、用户和密码等)、应用系统(部署位置、支撑软件、数据存储位置、使用或访问方式)、关联信息(与其他系统之间的关联情况)等。运维工作信息是指运维管理过程中的各种工作记录。(1)日志记录:机房人员出入记录,设备、网络和应用系统维护日志等;(2)故障处理:各种故障情况描述、处理过程记录、处理结果;(3)设备变化:设备新增、调整、更换记录等;(4)配置调整:网络配置、安全配置、服务器及应用系统调整等;(5)监控数据:主要设备运行监控数据、网络安全监控数据等。特别是当数据中心的管理人员和运维人员发生变动时,能够提供丰富、全面的信息,有利于对数据中心情况的全面熟悉和掌握。

2.2.3 运维保障工作

运维保障工作,其最终目标就是保障业务和服务的正常开展,而业务和服务的正常开展依赖于数据中心的各种设施、设备、网络和应用系统的正常运行等,因此各方面的运维保障能力尤为重要。运维保障能力体现在长期有效保障业务系统的连续、正常运行,在系统中断时能够及时进行恢复。而促进运维保障能力提升的关键因素是运维技术能力的高超,这种技术能力体现在运维人员技术水平和得力的运维管理工具。运维管理工具包括安防监控、环境监控、IT监控、告警平台等,是帮助管理者更高效地管理数据中心的各种对象或工具。通过这些工具,管理者可以直观感受和分析数据中心IT相关资源的状况,对异常进行及时告警,从而间接地提升IT的可用性与可靠性。就目前地震行业而言,普遍存在的问题是运维保障人员少,而且几乎全是业务系统管理员,重点关注于业务系统的运行管理和建设,对于数据中心基础设施、设备、网络及安全等的运维技术能力相对较低,同时缺乏有力的运维管理工具,对数据中心IT资源监控力度小,对监控数据的统计分析能力较差,对异常或故障的发现不够及时。因此,一旦发生一些比较棘手的故障时,必须依靠专业的服务商,而现实存在的情况往往是与服务商缺乏长期的合作机制,导致服务的不及时,因而影响系统的正常连续运行。

3 结束语

运行维护管理体系的建立是一个不断完善的过程,我们要对数据中心IT资源现状及未来发展的目标有一个准确的认识,从而制定IT管理的整体规划架构,建立起与信息业务系统紧密结合的IT运维管理体系。

[1]杨庆明.关于数据中心运维服务管理与呼叫中心整合的技术研究[J].信息系统工程,2016(4):63.

[2]杨辉.关于加强数据分析在质量管理中应用的思考[J].饲料广角,2015(15):204.

Introduction to data center operations management

Qi Haisheng

China’s Financial Electronic Company,Beijing 100054

Along with the continuous development of information technology(IT)and its application,data center became the IT infrastructure of information society,as the communication center of information systems,operations center, testing center and disaster preparedness, bear the core business operations, information resource service, key business computing,data storage and backup,to ensure business continuity,and other important tasks. In recent years,both in chip, architecture,system and software have made great progress,the blade system,application of nuclear technology, virtualization,cooling technology,new technology emerge in endlessly,such as intelligent management software business concentration,data centralization has become a mainstream trend of informatization construction,and is the inevitable requirement of intensive management,is the essential means to optimize the business processes. Data center is the core of the information,therefore,data center operations management problems become more and more widely appreciated by the industry.

data center;operations;management

P315

A

1009-6434(2017)01-0090-02

猜你喜欢

机房运维数据中心
平疫结合的CT机房建设实践
高速公路智能运维平台
浅析数据中心空调节能发展趋势
浅谈广播电视播出机房技术操作与维护
智能+时代的新运维
——2019(第十届)IT 运维大会特别报道
基于VPN的机房局域网远程控制系统
关于建立“格萨尔文献数据中心”的初步构想
传输机房安全操作和日常维护要点
2017第十届中国数据中心大会榜单
配电线路的运维管理探讨