IT设备带外管理研究与实践
2011-03-11金鑫
金 鑫
(中国移动通信集团广西有限公司 南宁 530022)
IT设备带外管理研究与实践
金 鑫
(中国移动通信集团广西有限公司 南宁 530022)
IT硬件设备以往主要依赖“带内管理+现场管理”的维护模式,在维护人员数量有限的情况下,难以应对不断增长的设备数量,也无法满足日益提高的维护要求。为解决IT设备管理和维护中遇到的难题,迫切需要寻找有效的技术手段,以提升维护质量、管理效率并减少人力消耗。本文重点就IT设备引入带外管理的思路进行阐述,并对带外管理的实施经验进行总结,以供后续IT设备的管理工作参考借鉴。
IT设备;带外管理;控制器;巡检
1 管理现状
随着广西移动网络规模的不断扩大,数据业务和网管应用的不断推广,相应的IT硬件设备数量越来越多,设备机房分布也相对零散,给硬件设备的管理和维护工作带来一定的困难。
1.1 设备类型繁杂,数量众多
目前网络运营中心管理的IT设备逾千台,主要由主机、磁盘阵列和网络设备3类构成,其中,主机包括Unix小型机和 PC服务器,涉及 Sun、IBM、Fujitsu、HP等厂商硬件;磁盘阵列涉及Sun、IBM、EMC、华为等厂商硬件;网络设备包括交换机、路由器和防火墙,涉及Cisco、华为、烽火、Juniper等厂商硬件。
同一厂商的某类设备,还可细分为多种具体型号。以Sun的Unix小型机为例,从低端到高端包括V240、V440、V880、V890、E4800、E4900、E6900、M5000、M8000等机型。
可见,IT设备具备类型多、厂商杂、型号密、数量大的特点,其管理与维护工作的难度也与语音网设备不同。
1.2 设备分布零散,维护不便
目前网络运营中心管理的IT设备,主要分布在二枢纽机房、白沙机房和608机房。出于安全管理的需要,机房进出需要办理相关通行手续,并登记出入情况,不便于硬件故障的抢修;各机房的地理位置相对较远,无论是例行巡检还是故障抢修,都要耗费一定的路途成本;一般机房内部不设置桌椅,机柜附近也很难给笔记本电脑取电,而且机房内外温差较大,不利于人工长期作业。
因此,面对海量的IT设备,以人力奔走于机房之间的维护方式不但效率低下,而且耗时耗力。
1.3 维护手段单一,效率低下
目前IT设备的管理和维护手段主要是“带内管理+现场管理”的方式,即在设备运行正常的情况下通过业务通道对设备进行带内管理,在设备无法远程访问的情况下到机房现场对设备进行console管理,同时将机房巡检的方式作为硬件保障的基本手段。在实际运维工作中,仍然存在下述难题。
·机房巡检是硬件维护最基础的工作,面对大量的IT设备,以人力到机房现场进行巡检的方式效率非常低下,既无法保证巡检的及时性,也无法验证巡检的有效性。
·当突发紧急硬件故障时,只能依赖维护人员赶到机房现场进行排障工作,对于位置较偏远的机房,在路途上的时间消耗比较大,而且整个故障处理的流程显得过于被动。同时,现场console连接需要使用多种接口的线缆串接,并在终端上配置特定的连接参数才能实现console登录,略显繁琐。
·由于机房环境的制约,现场操作往往不便于与支持人员进行有效沟通。因为缺乏网络支持,WWW、邮件和IM工具等高效的沟通途径无法实现,通常只能依赖电话支持的方式,将现场情况通过语言描述给支持人员,由于语言表达的沟通效率和准确性相对较低,往往会影响事件处理的效率。
1.4 存在的问题
毫无疑问,随着广西移动网络规模的不断扩大,相应的IT设备越来越多,而且机房管理有既定的规范和要求,不可能为了维护的便利性而牺牲管理的安全性。因此,在IT设备越来越多而维护人员数量有限的情况下,迫切需要改变现有的管理和维护手段,通过技术手段提升维护质量、管理效率并减少人力消耗。
2 解决方案
面对上述问题,要想达到“提升维护质量、管理效率并减少人力消耗”的目标,就必须通过技术手段实现“四化”,介绍如下。
(1)管理远程化
将管理界面尽量拉到机房之外,从区公司网络运营中心办公区即可实现远程管理,除硬件更换之类必须现场操作外,大部分管理和维护工作均可远程实现,不再需要在机房间奔走。
(2)维护智能化
通过编写脚本程序,对IT设备进行CLI(命令行接口)方式巡检,并对指令执行结果进行自动化分析,从而得出设备运行概况,并最终以友好的界面呈现,供维护人员监控。
(3)巡检自动化
通过脚本程序的定时执行,维护人员可以准实时地对IT设备进行硬件级别的监控,相当于人工到机房进行现场巡检,但巡检频次得以大幅提高,巡检效果得到有效保证。
(4)接口简易化
为IT设备的管理网口规划IP地址,从而通过Telnet、SSH、HTTP等更友好的方式实现设备的console访问,不再需要现场复杂的线缆连接和参数配置。
2.1 设备管理模式
根据控制信息与承载信息在物理通道上的关联性以及控制终端与设备实体在通信距离上的远近性,IT设备的管理模式可以分为3种层次。
(1)带内管理
控制与承载共用同一物理链路或同一操作界面。带内管理是目前最常用的管理手段,其最大的缺陷在于当设备出现故障无法远程访问时,管理行为将无法实施,如日常维护中对主机A进行重启操作,但主机在重启过程中吊死,导致无法正常启动,从维护终端侧将无法远程访问主机A,此时维护人员在远端束手无策,只能赶到机房现场实施近端带外管理。带内管理模式如图1所示。
(2)近端带外管理
控制与承载相分离,通过数据线进行近端控制。近端带外管理是现场处理故障最主要的手段,通常以专用数据线缆将设备console口与笔记本电脑对接,通过笔记本电脑对设备控制器进行访问,从而实施管理行为。近端带外管理模式如图2所示。
(3)带外管理网络
控制与承载相分离,通过IP网络实现远程控制。带外管理网络是近端带外管理的IP化延伸,通过对设备的管理网口配置静态IP地址,并接入专门规划的IP网络,就能实现硬件设备的远程管理。带外管理网络模式如图3所示。
要实现“管理远程化”与“接口简易化”的目标,首先必须构建带外管理网络,而构建带外管理网络就必须对IT设备的管理网口配置IP地址。
2.2 设备管理网口
无论是Unix小型机还是PC服务器,无论是交换机还是路由器乃至磁盘阵列,所有中高端IT设备均提供控制器的管理功能。console口是IT设备最基础的管理端口,在设备未部署任何配置的情况下,只能通过console口对控制器进行访问。通常console口的物理形式是串口或RJ45口,并以串口线与计算机相连,从而进行设备的初始化配置。
除了console口外,IT设备还有一个二级管理端口——管理网口,该端口必须经由console口进行简单的IP配置后才能访问。配置IP地址后,维护人员就可以通过网线连接管理网口,并获得与console口同样的管理权限。因此不管是console口还是管理网口,都是访问IT设备控制器的管理端口,只不过连接的形式不同。
针对不同的设备类型,控制器的硬件形式也有所不同。
·对于Unix小型机而言,控制器也称SC(system controller),相当于硬件设备最底层的操作系统,其运行独立于设备本身,即使小型机宕机,只要控制器工作正常,仍然可以通过控制器对设备进行管理和维护。通常低端小型机只有一个控制器,而中高端小型机往往具备两个控制器,可以提供更高级别的设备保障。
·对于PC服务器而言,控制器独立于设备本身,是硬件设备最底层的操作系统,这与Unix小型机类似。考虑到PC应用的保障要求较低,通常PC服务器只提供一个控制器。
·对于磁盘阵列而言,不存在上层操作系统的概念,控制器就是设备的核心处理器,一旦控制器发生故障,主机将无法正常访问磁盘阵列上的数据。当然,通过访问控制器,可以对磁盘阵列进行管理和维护。通常低端磁盘阵列只有一个控制器,而中高端磁盘阵列则具备两个控制器。
·对于网络设备而言,控制器就是设备的操作系统,由于管理网口的配置数据是网络设备配置数据的一部分,一旦网络设备发生严重故障,管理网口可能无能为力,还得依赖console口的管理功能。
可见,构建带外管理网络实际上就是把IT设备的控制器当作IP设备接入IP网络。作为IP设备,控制器的管理网口需要配置IP地址、掩码和网关,才能在IP网络中正常通信。因此,将控制器接入IP网络,离不开网络规划和IP分配工作。
2.3 管理网络规划
目前网络运营中心管理的IT设备基本承载于MDCN之上,因此IT设备的控制器也尽量就近接入MDCN,从而在区公司网络运营中心办公区实现IT设备的远程管理。
在控制器的管理网口IP(简称管理IP,以区别于设备的业务IP)地址分配方面,综合考虑MDCN地址(后简称公网)资源的有限性和远程连接的便利性,拟定规划原则如下。
·对于公网IP资源富裕的网段,给控制器分配公网IP(如10.184.0.0段),以获取远程直接访问的便利性,如图4所示。有两台华为的M2000网管服务器,其业务IP分别为10.184.28.90和10.184.28.88,管理IP分别为10.184.28.91和10.184.28.89,从区公司办公大楼5楼的维护终端可以很方便地直接访问两台网管主机的控制器(即SC)。
·对于公网IP资源紧张的网段,给控制器分配私网IP(如192.168.1.0段),然后通过一台双网口主机作为跳板,实现远程间接访问,如图5所示。广西EOMS(电子运维系统)服务器的业务IP是10.184.13.165,由于10.184.13.0段的IP资源有限,只能给该主机分配私网地址作为管理IP,如192.168.1.75。同时,以设备所在机房(二枢纽机房)的一台主机作为跳板机,实现从维护终端到设备控制器的间接访问,即维护人员先远程访问(Telnet或图形界面)跳板机,再从跳板机访问目的设备的控制器。
在管理IP配置方面,除IP地址外,还涉及子网掩码和默认网关。对于采用公网IP的情况,建议掩码和网关参考业务IP配置;对于采用私网IP的情况,建议掩码设为255.255.255.0,网关设为跳板机的私网IP(如图 5中跳板机第 2 个 IP:192.168.1.201)。
2.4 跳板环境部署
根据IT设备所在机房和控制器访问方式的不同,其使用的跳板主机也不尽相同,每个机房最起码应设置一台Unix主机作为跳板机,必要时还需设置一台Windows跳板机。考虑到某些控制器(常见于磁盘阵列)需要在跳板机上安装相应的管理软件才能实现管理功能,而且管理软件需要占用一定的磁盘空间和主机负荷,因此建议跳板机采用配置较高的闲置工作站。
为满足多台IT设备的带外管理需求,在跳板机私网侧还需要部署至少一台交换机,作为私网IP控制器的接入。考虑到私网的网络结构相对简单,一般按照整个C类地址进行分配,不存在多逻辑子网并存的情况,因此跳板交换机只需要使用低端交换设备即可,如Hub或二层交换机。
3 应用模式
搭建完善的带外管理网络,仅仅为维护人员与IT设备之间铺设了独立控制通道,利用该控制通道可以方便、快捷地对IT设备进行远程管理和维护。但更重要的是,如何将带外管理网络应用到实际的运维生产中,如何通过控制器对硬件设备进行远程巡检,是接下来需要进一步探讨的话题。
3.1 远程访问方式
首先从控制器的访问方式看,各类IT设备所提供的管理界面不尽相同,目前最主流的3种带外管理UI分别是:CLI方式,即命令行方式,维护人员通过输入专有指令对设备进行管理;B/S方式,维护人员通过Web浏览器打开管理页面对设备进行管理;C/S方式,维护人员通过专用管理软件对设备进行管理。另外,还有少数控制器采用“菜单交互方式”,如Sun的3000系列磁盘阵列。
早期的IT设备通常只提供一种管理UI(CLI或B/S方式),随着硬件产品的日新月异,提供两种管理UI渐渐成为IT业界的趋势。多种管理UI并存缘于IT设备在管理和维护需求上的千差万别,每种管理UI都有其优劣所在,见表1。
尽管B/S与C/S方式具备管理UI界面友好的优势,但是并没有真正解决设备数量众多带来的巡检人力消耗的难题。因为远程访问逐台设备进行图形化操作的巡检方式,与在机房现场查看设备状态灯的巡检方式相比,本质上并没有解放巡检劳动力。因此这两种管理UI更适用于设备发生故障时的远程处理以及预处理,其意义在于提高故障处理效率、减少设备退服时长。
表1 带外管理UI对比
显而易见,最理想的巡检方式就是利用CLI接口的开放性,通过二次开发编写巡检程序,让程序代替维护人员对海量IT设备进行巡检,即自动巡检。常见的支持CLI管理 UI的 IT设备包括 Sun的 Unix小型机、Fujitsu的 Unix小型机、Sun的磁盘阵列、IBM的磁盘阵列等,这些设备都可以利用自动化巡检减轻巡检人力消耗。
3.2 远程巡检规范
实现自动巡检,必须针对各类CLI管理UI的IT设备制定指令级的巡检规范,即通过什么CLI指令查看设备运行状况,对指令的输出报文如何进行分析和判断。下面以几种常见的主机和磁盘阵列为例,整理归纳单条指令巡检的分析规范。
(1)Sun Fire V880/V890
Sun中低端Unix小型机,通过Telnet<管理IP>方式访问控制器CLI。
巡检指令:showenvironment。
分析规范:指令输出报文中,GEN FAULT(设备故障灯状态)为OFF时,表示设备运行正常,否则设备运行异常,需要进一步诊断,报文范例如图6所示(粗体标识部分)。
(2)Sun Fire E4800/E4900/E6900
图6 Sun Fire V880/V890报文范例
Sun中的高端Unix小型机,通过Telnet<管理IP>方式访问控制器CLI。
巡检指令:showcomponent。
分析规范:指令输出报文中,所有组件的Status列(设备状态)为enabled时,表示组件状态正常,否则该组件状态异常,需要进一步诊断,报文范例如图7所示(粗体标识部分)。
(3)Fujitsu Enterprise M4000/M5000/M8000/M9000
富士通主流Unix小型机,通过Telnet<管理IP>方式访问控制器CLI。
巡检指令:showstatus。
分析规范:指令输出报文中,存在“No failures found in System Initialization.”字符串时,表示设备运行正常,否则设备运行异常,需要进一步诊断,报文范例如图8所示(粗体标识部分)。
(4)Sun StorageTek 6130/6140/2540
Sun主流磁盘阵列,需要在Unix跳板机上安装Sun Storage Common Array Manager管理软件,以便在跳板机上直接运行CLI指令。
巡检指令:sscs list alarm。
分析规范:指令输出报文中,无任何告警信息时,表示设备运行正常,否则Device所标识的设备运行异常,需要进一步诊断,特别要注意Date所显示的告警时间,通常只关注最近的告警即可,报文范例如图9所示(粗体标识部分)。
(5)IBM System Storage DS3000/DS4000/DS5000
IBM主流磁盘阵列,需要在Unix跳板机上安装IBM DS Storage Manager管理软件,以便在跳板机上直接运行CLI指令。
巡检指令:SMcli<管理IP>-c"show storagesubsystem healthstatus;"。
分析规范:指令输出报文中,Storage Subsystem health status(存储子系统健康状态)为optimal时,表示设备运行正常,否则设备运行异常,需要进一步诊断,报文范例如图10所示(粗体标识部分)。
3.3 设备自动巡检
通过对巡检规范的梳理,不难看出CLI管理UI是纯文本的接口方式,即输入的指令和指令输出的报文都是纯文本。考虑到Unix平台天生具备功能强大的shell脚本编程环境,而且shell脚本对文本的支持友好灵活,因此可以在Unix跳板机上以shell脚本编写巡检程序,实现CLI管理UI设备的自动化巡检。自动化巡检相关流程如图11所示。
图7 Sun Fire E4800/E4900/E6900报文范例
图8 Fujitsu Enterprise M4000/M5000/M8000/M9000报文范例
图9 Sun Storage Tek 6130/6140/2540报文范例
图10 IBM System Storage DS3000/DS4000/DS5000报文范例
步骤1:巡检程序部署在Unix跳板机上,以crontab的形式周期性运行;程序以CLI方式访问设备A的管理UI,并执行相关巡检指令。
步骤2:设备A接收巡检指令后,将指令执行结果以文本报文的方式返回给Unix跳板机;巡检程序根据既定的巡检规范对报文进行分析,通过字符串匹配的方式判断设备的运行状况。
步骤3:程序汇总同类型多台设备的巡检结果,生成HTML文件,并通过FTP上传到Web服务器相关Web目录下;Web服务器是Windows平台,利用自带的IIS服务发布简单的HTTP和FTP站点。
步骤4:最终维护人员可以在终端上以HTTP页面浏览的方式,便捷直观地查看多台IT设备最近的巡检情况。
毫无疑问,利用程序对IT设备进行周期巡检的方式,从根本上将维护人员从繁琐机械的现场巡检工作中解放出来。维护人员只需要在终端上浏览Web页面,就能掌握设备(仅限于CLI管理UI的IT设备)的运行状况,而且巡检的频次和效果均明显优于现场巡检。
3.4 多维管理模式
依据上述带外管理相关技术背景,可以建立更强有力的IT设备多维管理模式,即“以远程带外管理为主,以现场维护为辅”的立体维护模式。无论是设备的例行巡检,还是设备的故障处理,都不再局限于现场维护的单一手段,依托带外管理的灵活性和扩展性,在减少人力消耗的前提下,仍然有效地提升维护质量和管理效率。
(1)例行巡检
鉴于大多数IT设备都支持CLI管理UI,那么通过程序实现的自动化巡检可以覆盖大部分设备;而少数不支持CLI管理UI的设备,也可以通过远程图形化操作的方式进行巡检,从而节省机房奔走的路途人力消耗。同时,机房现场巡检作为辅助手段,以弥补远程带外巡检的盲点与不足(如不支持控制器的低端IT设备)。
(2)故障处理
通常设备故障主要缘于软错误(即不是硬件损坏),使用远程带外维护的方式,可以及时对故障设备进行诊断和修复,大大缩短故障历时,有效保障业务质量;对于较复杂的设备故障,维护人员也可以利用远程带外维护的方式提取设备信息、日志,并通过互联网方式申请技术支持。若经过远程诊断,确认为硬件损坏,那么硬件抢修人员在赶到机房现场之前,也可以有针对性地申请备件。
4 结束语
在运维工作中,不可避免地面临网络规模不断扩大、维护要求不断提高的现状,带外管理是有效提升IT设备维护质量的可靠手段和必然要求。尽管在搭建带外管理网络和部署程序自动巡检方面,本文进行了一定程度的探索和实践,但距离开篇提出“管理远程化、维护智能化、巡检自动化、接口简易化”的理想尚有一定的差距,毕竟有些设备不支持控制器,而且有些设备不支持CLI管理UI。总之,本文提出的IT设备带外管理思路是值得借鉴的,同时IT设备管理模式的研究,也是需要持续探索和不断深入的。
Research and Practice on Put-of-Band Management for IT Equipment
Jin Xin
(China Mobile Group Guangxi Co.,Ltd.,Nanning 530022,China)
To address management and maintenance problems encountered,the urgent need to find effective techniques to improve maintenance quality,improve management efficiency and reduce human consumption.This article focuses on the introduction of out-of-band management for IT equipment to elaborate the idea,and sums up the experience in the implementation of out-of-band management.It is a reference to the management of IT equipment.
IT equipment,out-of-band management,controller,patrol
2011-09-02)