已用尽洪荒之力,“主动运维”真的没有更好的选择了吗?
2016-11-26
在IT运维领域,有两个被无数次提起的词,一个是“救火队员”,一个是与之对应的“主动运维”。两个词汇前后呼应,旨在说明IT部门为了摆脱前者匆忙、低效的形象,用尽洪荒之力,以求避免IT系统故障。但是,作为国内领先的IT运维管理解决方案提供商,北塔软件在为很多客户提供运维服务时却发现,“主动运维”真正实现起来困难重重。这是因为,在主动运维落地时存在的两大难题:经验、能力。
误把“阈yù”当“阀fá”,棘手问题紧跟其后
在IT管理中,有两个词经常被混淆在一起用,这就是阈值和阀值。其实,“阀值”这个词最早是没有的,后来咬文嚼字工作组通过统计全国人民使用词语的习惯,发现了阀值这个词。但规范来讲,“阈值”才是主动运维中的正宗血脉。那么,我们为何要紧紧抓住它呢?
在被动运维中,业务部门一般最先发现故障现象,而主动式IT运维服务则可以很好地采取预防手段进行监控管理。为此,IT部门需要针对每个系统建立阈值报警体系,通过“基准线”观察每个系统可用性、流畅度、安全性的指标,低于或超过阈值,说明系统无法达到最低要求,则对该系统进行报警提示。
阈值的定义很容易理解,但在运维工具中如何设定就是一道难题了,这需要“经验”。北塔软件表示:阈值的设定要依据历史数据,但一些维护人员往往是依靠运维经验和行业惯例来设定,无法按照系统的运行变化特性及时地进行智能调整,也没有持续改进和优化的有效方法来改变现状。鉴于以上难题,北塔BTSO2.5在保留实时阈值告警的基础上,更着重于对历史数据进行深入挖掘,系统从用户业务环境中自主学习和生成风险阈值,这项特性可以帮助管理员解决阈值固化的问题,进而实现自动化的主动运维方式。
没有“技术大咖”就无法实现主动运维吗?
建立和实施信息系统的主动式运维管理平台,需要对运维规则进行反复的调整。因此,如果说“自主学习”是主动运维的第一步,接下来就需要实现“智能运维”,这也是从“人治”到“法治”的门槛。
传统的主动运维思路以事件为核心,侧重对故障的定位,但不负责解决,这就无法摆脱“人治”的束缚。而BTSO提出的主动运维不仅以数据为核心,根据用户所属行业自动定义正常阈值,还能将运维规则自动导入,指引用户按照规则处理IT预警信息,直接让用户步入中等运维水平。
以高负载主机为例,当管理对象加入系统后,BTSO自动启动各类主机性能监控,当个别主机出现高负载的表象后,系统不仅可以过滤偶发的CPU冲高现象,还能横向扩展分析,结合历史数据自动判断,告之用户这个偶发现象是否有关联、是否影响了业务系统的整体健康。如果被确定为长期高负载主机,系统将提出优化处理步骤。
不仅是CPU,管理员最担心的内存泄露,BTSO也能从增长趋势的角度,智能分析出这些表像背后的根源,利用72小时或更长时期的分析报告,或是系统将根据用户需求自动做出24小时的“进程级”内存泄露定位,展现有可能溢出的进程名称和消耗,更主动地消除故障隐患。另外,网络拥堵、数据库指标异常波动等,这些很难在短时间处理、必须依靠技术高手处理的问题,BTSO都提供了智能处理的内置规则,在用户无需掌握深奥理论的情况下,首先解决实际问题。并且,这些正确处理的步骤会被一一记录,在企业内部形成运维知识体系的传承。
“开刀治病”不如“强身健体”
在IT运维领域中,“主动运维”刻不容缓。这就如人生病一样,很多疾病都会造成身体上多处特征的不良反应,但生活中多数人都不在意身体不适症状,因此导致很多疾病错过了最佳的治疗时机。当然,主动运维理念的发展方向也将迎来改变,智慧运维不仅需要“开刀治病”,更应解决运维经验、个人能力等问题,指引业务系统“强身健体”。
上海北塔软件股份有限公司
地址:上海市宜山路700号科创动力3号楼3层
技术支持热线:400-820-7719
传真:021-60740399
网址:www.betasoft.com.cn