智慧运维为传统工业注入生机活力
2019-03-23北塔软件
一、项目背景
包头钢铁(集团)有限责任公司(下简称:包钢)是我国最早建设的钢铁工业基地之一,拥有“包钢股份”和“包钢稀土”两个上市公司,是中国主要的钢轨及无缝钢管生产基地之一,也是华北地区最大的板材生产基地和世界稀土工业的发端和最大的稀土科研、生产基地。
包钢始终致力于多元发展,并致力于建设“大包钢”,如今已成为世界最大的稀土钢生产基地和最具竞争力的稀土生产、科研基地,年销售收入1000亿元以上。随着包钢信息化建设的深入,信息化运维监控管理在企业发展过程中担负起越来越重要的角色,企业利润来源也越来越依赖于信息化的建设。企业信息化的建设水平取决于两个方面:
基础设施的搭建,这是硬件基础。
在管理层面,如何将已有硬件基础设施的效能更好的发挥出来,这和运维管理水平的高低息息相关。
如何及时了解系统的运行状況,有效地降低系统运行的风险,主动的发现并及时解决系统运行故障,让业务系统保持7x24小时健康、持续、稳定且高效地运行,这些都给包钢的信息化运维管理水平提出了更高的要求,也是当前传统工业企业运维管理普遍面临的巨大挑战。
二、运维挑战
包钢集团目前拥有网络设备、服务器、存储以及其他IT资源,在整个IT资源管理方面仍处于人工管理阶段,管理运维属于被动管理。
1、管理设备类型和数量
交换机主要为Cisco和H3C交换机,共计需要管理80台。
操作系统主要有IBM AIX、CentOS和Windows等,共计需要管理35台。
数据库主要为IBM DB2、Oracle等,共计需要管理25套。
中间件主要为Websphere,需要管理10套。
应用主要为HTTP,需要管理10套。
存储设备主要为IBM、EMC,需要管理5台。
2、运维管理需求
(1)网络管理
支持Cisco、H3C等厂商的各型号设备,支持多厂商设备组成的混合网络自动识别,并且提供设备的控制面板,支持端口关闭与启用操作,可以更改VLAN ID。
拓扑图的生成支持网络设备的SNMPV1、V2和V3三个版本的混和生成,并能对SNMP V3设备进行管理。
支持对全网的网络设备线路按照流量、带宽占用比、丢包率、错包率和广播包等指标的实时负载进行排名。
持网络设备的ARP表、MAC表和路由表等表格数据定期存储、差异自动比对,提供路由表历史快照对比。
支持任意IP类型对象的监控,支持ping状态、TCP端口状态和URL跳转方式,实现该对象的基础管理。
拓扑图上的设备和线路按照性能参数的不同区间以红、黄和绿颜色进行显示,性能负载可自定义。
在拓扑图上可显示线路峰值流量、广播流量和组播流量信息。
提供网络设备可用率、线路连通率、网络设备负载分析报表、线路负载分析报表和网络告警统计报表等多套基于采集和管理数据生成的客观统计报表。
(2)操作系统管理
支持Windows、IBMAix和CentOS等类型操作系统的管理,支持对于CPU、内存、进程、日志、网络流量和磁盘性能的监控。
支持对主机进程列表的监控,支持定期备份进程表、进程表比对和进程状态告警。
支持主机趋势管理视图,包括CPU、内存和文件系统;支持流量指标对比和磁盘容量可用时间预測。
支持用波浪图方式显示所有主机的全局信息,以图形化方式显示主机的常用管理参数。
支持系统拓扑图,一张图可以展现所有主机承载的数据库、中间件和标准应用之间的实时状态监控,为主机监控提供全景视图。
提供主机可用率、主机性能报表和系统告警统计报表等多套基于采集和管理数据生成的客观统计报表。
(3)数据库管理
支持对Oracle、DB2等数据库的各项运行参数进行监控;支持对于各个数据库实时运行状态的实时统计,包含数据库会话数、死锁数实时排行,支持对表空间大小和会话数、缓存信息和锁信息进行重点监管。
支持在数据库发生异常时,进行所在主机、数据库关键指标的数据快照,便于事后便捷分析。
(4)中间件管理
中间件管理支持对WebSphere等中间件实时监控;支持图形化方式显示应用的承载主机状态和应用的基本性能信息,同时展示相关的运维负责人和联系方式。
(5)标准应用管理
支持HTTP、HTTPS等应用的監控;支持图形化方式显示应用的承载主机状态和应用的基本性能信息,展示相关的运维负责人和联系方式。
6)存储管理
持存储设备硬件管理,以统一的视图展现各个硬件子项的运行详情,清晰展现各个管理设备的各类型管理状态,并以颜色显著标示出现问题的硬件类型,可显示磁盘阵列的电源、电池、风扇、温度、磁盘和控制器等各个关键硬件信息。
支持存储空间使用全局视角,当前所有磁盘阵列设备使用空间的统计;当前设备配置数据池情况,列出Pool已使用排行;提供各个业务主机磁盘使用的增长规律和使用预測,便于事前做好扩容规划。
三、解决方案
1、基于自动化理念打造核心平台
BTSO北塔智慧运维平台作为北塔软件最新一代的运维管理软件,秉承北塔多年管理经验结合平台化开发方式,在满足用户对于基本状态和性能无人值守及实时展示的基本运维需求的同时,智能抓取关键性能数据,根据预置策略进行数据分析和联动处置;同时提供强大的平台能力和后台开发能力,能将用户个性化的分析方式和处置方式快速实现策略化,以期实现用户管理效率的最大化提升。该平台以自动学习、自动分析和自动运维诠释智能运维的运维方法。
自动学习:实现用户环境数据的学习,结合内置检測指标体系,建立具有用户特征的常态健康标准。
自动分析:实时监控用户各项运维指标,结合指标变化特征,通过诸如单指标越界比例、多指标组合判断和历史趋势变化等方法自动判断数据异常情况并主动提醒。
自动运维:提供处置方案的提醒,用户处置程序的调用等多种方案,实现异常问题的及时处理和运维。
2、系统智能化管理
传统系统监控的访问方式为告警,但是随着信息化管理系统和设备的日趋完善,管理对象超过阈值的告警越来越少,如何实现信息化管理价值的最大化是摆在信息化管理管理主管面前的最大课题。北塔公司结合用户信息化管理实际情况,发现信息化管理价值最大化的方式有如下方面:
通过事前隐患智能分析,主动排除、即时通知,将故障发生概率降到最低。
对于部分故障实现自动化分析和处置,缩短故障处置周期,避免损失扩大化。
为落实每个信息化管理主管的对于自身企业的个性化管理要求,BTSO平台适时推出了智能信息化管理,为用户落实如上诉求,提供针对性的管理功能。
3、智能运维管理
BTSO核心管理方式就是智能化管理,智能化的理论基础是北塔十几年的信息化管理经验和几千家用户的管理实践,为把这些管理方案推送到用户现场,BTSO提供了智能信息化管理模板。
智维模板按照管理等级,预置了不同管理对象的管理方案,方案包含如下技术点:
内置监測方案,包含采集指标的多寡、具体指标的采集周期和监測阈值,便于对系统相关数据进行自行巡检。
提供预置告警规则供用户进行选择,用户可以根据业务管理实践启用相应的告警管理规则。
提供常见管理报表,并生成高级别对象的管理报表。
通过上述智维模板,软件无需复杂配置,安装完成后就能对资源进行基础信息化管理。
四、实施效果
1、运维智能分析
BTSO自动对管理对象进行数据收集,用户进行数据对比分析,系统也提供智维分析的周统计,智能的挖掘系统的问题隐患。
提供本周系统运行概要信息:
目前管理的总数量。
本周运维巡检次数。
本周执行智能诊断次数。
本周生成的报表数量。
提供各个管理类型的运维巡检情況:
本周运行健康趋势,如果问题增多则需要关注。
提供为什么问题增多的具体表现。
包含本周巡检问题最多的指标,以及问题最多的设备。
包含本周巡检问题最多的设备,以及这个设备的问题指标。
提供各类重要类型的上周高低负载的数量,以便客户了解整体性能概况。
提供在告警处置上的效能评估,告警数量的变化以及平均解决时长的增长。
提供对于本周运行数据的分析判断,便于用户定位问题:
提供线路吞吐量的环比变化,帮助用户定位业务环比最大的线路。
提供Windows主机吞吐量的变化,帮助用户定位业务环比最大的主机。
提供主机磁盘增长Top,列出各个分区的增长情况,并预期可用时长,帮助用户进行定位需要调整控件的具体设备。
2、智能管理
对于工程师日常监控工作,故障管理是突发情况,而关键业务、指标的监控是常态管理要求,为了满足工程师对于重点应用质保的监控要求,系统提供了自定义首页功能,该功能提供基于角色的个性展示功能,用户可以自行选择不同管理重点指标以及展现方式,以便完成一图完成所有重点监控。软件界面如图1所示。
系统至少提供TOP表格、TOP柱状图、性能曲线图和单值图等多种展示方式,支持对于所有数值型数据的统一排序、历史记录展示,系统界面如图2所示。
结合日常管理需求。可以生成骨千线路监控总图、关键应用监控视图等。系统为展示要求提供数据支撑,能为自定义布局提供技术支撑,管理展现提供数据支撑。除了所以采集范围内的指标外,也应该支持通过Sql、Ssh或Snmp等方式扩展业务指标的显示。
系统应该提供基于一个角色同时查看和配置多张视图的能力,每张视图可以新窗口打开,为用户日常监控展示提供便利性。
3、直观明了的网络管理
BTSO自动根据北塔特有的拓扑生成算法,快速搜索整个网络内的网络设备,智能分析网络拓扑结构,自动勾画出整个网络的真实物理拓扑图,真实反映整个网络的构成状况。除拓扑生成之外,BTSO还支持拓扑添加功能,在保留原有拓扑图的基础上,搜索新的网络设备,并自动添加到网络拓扑图上。
网络拓扑图可从全局的角度出发,帮助信息化管理管理人员实时了解整个网络当前的运行状況,网络架构是否合理、有无网络瓶颈和设备和流量有无异常等,动态可能的故障隐患,达到透明化、事前管理目的。
为了同时满足不同用户间的个性化需求,BTS0提供了灵活的拓扑图复制功能,可为不同用户提供单独的展现页面。用户可以根据自己的偏好设置自己的个性化拓扑图,且不同的用户之间没有任何影响,拓扑图如图3所示。
可以通过红、黄或绿等不同颜色表示网络设备和线路负载压力的评估状況,并可以调整设备和线路的变色阈值。
可以通过不同颜色的告警图标,显示各个网络设备的告警触发情況。
可以为拓扑图上的每台设备、每条线路设置中文名称,添加注释,方便进行管理。
提供背景图的更换设置功能,可自由选择精美的图片作为拓扑图的背景。
4、直观展示主机系统关联关系的系统拓扑
系统拓扑以主机为核心,展现了所有承载的数据库和中间件、标准应用之间的实时状态监控,为主机监控提供全景视图,且系统自动生成并智能布局,无需人工调整。
为使系统拓扑清晰的展现,BTSO提供了不同颜色的网段显示方式,不同主机按照其操作类型图标,显示从主机出发关联数据库与主机的关系。
如图4所示,系统通过不同的颜色区分管理对象的实时性能层级,BTSO提供了主机经典性能指标,并以红、黄和蓝代表其主机实时性能,提供根据业务需要性能负载调整设置功能,提供主机关鐘性能指标的实时显示。
系统以闪烁的图标重点提醒用户该资源发生了告警;同时以弹出框显示告警的具体对象信息。
系统提供自定义拓扑方式,可通过对不同业务拓扑主机的自定义归类,实现单独业务的聚焦关注。
拓扑图不仅反映单个设备的状态,同时提供关联数据排行,为问题定位增加信息参考:
提供以故障作为评价方式的综合评分,方便用户整体了解系统的整体运行健康情况。
提供主机CPU实时TOPN排行,分析主机性能最高的设备,便于用户重点监控。
提供主机连续运行时间TOPN,分析主机异常开关系统的变化。
提供数据库会话数TOPN,分析数据库实时运行状态。
系统提供主机一体化显示,按照不同的操作系统进行数据分类,系统提供基础信息、运行信息、进程管理、事件与告警和硬件信息等各类管理信息。
以关联方式显示主机上的承载数据库、中间件和标准应用的实时状态。
图形化列出重点监控的硬件、日志、CPU性能和磁盘信息的实时信息。
对于CPU性能、网卡等重要参数的最近3天数据分析。
支持主机进程的实时展示分析。
5、透明化、智能化和统一化的存储管理
基于北塔的管理平台,以空间、硬件和性能三个方面为管理指标,为用户提供透明化、智能化和统一化管理,提高存储运维管理效率;系统支持磁盘阵列、光纤交換機的管理,支持SAN/NAS等各种部署方式。
硬件状态管理作为基础管理部分,以统一的视图展现被管的各个硬件子项的运行详情,视窗界面如图5所示,清晰展现各个管理设备的各类型管理状态,并以颜色显著标示出现问题的硬件类型;涉及到磁盘阵列的电源、电池、风扇、温度、磁盘和控制器等各个关键硬件信息。