APP下载

浅谈可视化大数据运维平台在企业中的应用

2020-10-09董继宏仲兆桉

科学与信息化 2020年27期
关键词:通信运维可视化

董继宏 仲兆桉

摘 要 随着企业IT架构的不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂,特别是分支机构众多的大型企业,这种情况更加突出明显。为了保障良好的用户体验和数据时效性,运维工作变得越来越艰巨。虽然运维工作已经借助相应的自动化监控工具,但IT监控系统每分钟要进行上万个数据采集,对采集的海量数据进行处理和分析才是对IT运维工作最大的挑战。

关键词 运维;通信;大数据;可视化

引言

随着通信业务的发展,信息支撑工作对IT运维提出了更高的要求,传统的管理方法和手段中,管理系统是滞后的分立式管理系统,不同管理产品(系统)管理不同IT设施,传统上有管网络设备的,有管机房环境的,有管IP地址的,有管主机服务器的,有管数据库、中间件的等。各管一摊、各自为政,随着系统的复杂化,各自独立的“分立”系统必然导致“推卸责任式”的管理,原因是多个孤立的系统所造成的信息“孤岛”和信息“烟囱”,已经无法满足复杂IT系统的管理要求。

1可视化大数据运维平台的基本概念

大数据可视化运维是创新的IT管理手段,主要指在借助于图形化手段,清晰有效地传达与沟通信息,提供直观、实时、高效和友好的可视化监控系统界面,将各设备的现状清晰展现,并形成一个有机的整体,高效应对突发事件,智慧制定网络布局决策[1]。

2可视化运维大数据平台的结构

運维大数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化仍是一个极为活跃而又关键的方面。“运维大数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。

运维大数据可视化平台主要有三个层面组成:分别是数据采集层、信息数据处理层、业务展示层。如图1所示。

(1)数据采集层。完成信息源设备的数据采集工作,把各个类型的设备被管对象都进行业务建模。

(2)信息数据处理层。是整个系统的数据中心,完成了被管对象的集中存储、查询。网管的一些通用功能也在数据处理层完成,比如告警、智能运维、历史记录基础数字技术。

(3)业务展示层。完成数据的整合展现,被管对象的录入功能。根据业务会被划分成各个APP,各个APP 之间相对独立便于维护和扩展[2]。

3可视化大数据运维平台的优势

(1)平台能够实现目前企业对网络系统、应用系统的属地化管理原则,实现信息网络综合监测管理模式。对重要的应用系统和网络核心环节能够实现全面的检测和状态管理。

(2)对包括网络环境、主机系统在内的各种设备和应用进行跨厂家、跨平台的统一管理;提供快速的故障告警信息。

(3)从安全方面分析,全部数据都是通过加密方式上传到总部统一查看,如果网络传输使用的是互联网线路也不会出现信息被窃取的情况。

(4)从管理方面分析,所有数据汇总后可以集中发送告警、集中设置设备的阀值和参数、集中生成报表,报表中可以看到全网设备总体的使用情况,不需要手工汇总。

(5)从使用方面分析,相关运维人员可以直观地从管理平台监控部分看到所负责IT基础资源的当前运行状态和服务状态,通过监控运维系统量化工作,使运维工作高效、快捷。

4在煤炭行业中的应用

以上所说的是广义概念上的“可视化大数据运维平台”,那么“可视化大数据运维平台”在企业中具体是如何应用的?能给企业带来什么?下面以北塔软件公司的“可视化大数据运维平台”为例具体说明。

在企业中,通信系统由多种设备构成,包括:传输、网络、存储、交换、视频会议和监控等设备,设备管理系统各自独立,各自独立的系统必然导致“推卸责任式”的管理,原因是多个孤立的系统所造成的信息“孤岛”和信息“烟囱”,已经无法满足复杂IT系统的管理要求。

4.1 技术概念

(1)BTSO2.5.5sp1采用平台化设计,以DGO(Data Gather Ocean)为基础,和告警、报表、智能运维、license共同构成强大的功能平台;具体资源的管理作为基于平台的管理功能,具备以接口为中心的设计模式。如图2所示。

(2)系统提供强大的扩展能力,支持管理能力的自由扩展:

1)采集平台支持用户个性化采集程序的快速兼容,实现管理指标的快速扩展;

2)采集服务器支持无缝扩展,支持多个采集器同时部署;

3)支持管理策略的快速扩展,实现用户管理方式落地;

4)支持用户个性化报表的快速扩展,实现各种具备企业特征的报表数据和展现方式[3]。

4.2 管理范围

4.3 系统特点

北塔软件的BTSO系统以自动学习、自动分析、自动运维诠释智能运维的运维方法。

(1)自动学习:实现用户环境数据的学习,结合内置检测指标体系,建立具有用户特征的常态健康标准。

(2)自动分析:实时监控用户各项运维指标,结合指标变化特征,通过诸如单指标越界比例、多指标组合判断、历史趋势变化等方法自动判断数据异常情况,主动提醒。

(3)自动运维:提供处置方案的提醒,用户处置程序的调用等多种方案,实现异常问题的及时处理和运维。

4.4 日常管理

运维软件7*24小时在后台运行,运维人员无须长期打开软件前台。

(1)常用应用状态监控

提供业务应用系统监控和集成跳转功能,为用户提供全局业务监控视图,支持以不同颜色代表系统的实时状态,同时可以点击打开该应用的界面。如图3所示。

(2)故障管理

BTSO提供智能管理对越界异常进行检测,以越界频率为判断方式,通过智能分析、判断,辅助异常处理,而告警触发,需要人工介入流程处理,尽快“扑灭”现场故障是首要的,分析原因是其次的。

系统提供了灵活的告警设置、精确的告警检测、多样告警推送方式、简单的告警经验积累方式,实现用户有效及时得到故障信息。

1)系统告警规则实现快速设置,支持用户实现快速规模化设置告警规则:

①提供按照指标进行告警资源的批量设置。

②提供以IP段方式预先设置告警规则,只要新对象符合IP范围,自动启动告警规则。

③提供不同监控时段的设置,提供工作时间和非工作时间的不同监控周期设置。

④支持多种告警通知方式,包括短信、邮件等内置通知方式。

2)系统提供灵活的告警查询方式:

①可通过告警检测指标进行统一查询,实现指标统一分析。

②可通过IP地址查询IP上的所有告警规则。

3)系统即时发送告警信息:

①系统以5个等级区别不同的告警重要度。

②支持最短60秒响应周期,可根据不同业务要求进行调整告警响应周期。

③支持短信、邮件、数据库、syslog等多种标准方式输出。

(3)分析故障历史提高运维成效

对于故障的处理需要即时、快速;但当故障处理完成后,更需要对以往发生的故障进行回顾分析,找出故障规律,并采取进一步优化方案,避免下一次故障的产生。如图4所示。

同时告警的处理一定程度上也是IT运维成效的体现,管理上可以通过对告警解决时间和告警时长的角度,作为运维工作的一个考核项目;系统需要提供及时的故障分析报表。如图5所示。

(4)报表与分析

BTSO提供无压缩的数据存储机制,支持长达1年以上无压缩数据存储。提供详尽的历史趋势分析功能,支持1年期数据的智能展现。如图6所示。

1)支持最大5个不同类型指标,进行同步分析;

2)支持不同指标单位数据的增长趋势分析,可手工调准显示比例;

3)支持1天、3天、1周、1月、3月数据的快速切换;

(5)智能拓扑

系统采用北塔先进的且得到近5000个现场验证的发现算法,智能发现网络设备和设备间的真实线路,准确而快速地完成拓扑的构建。

网络拓扑能清晰展现网络的关系,自动布局;并能提供“圆形”“树形”多种拓扑展现方式,便于用户根据业务关系快速调整到用户需要的展现方式,同时将管理对象的实时性能和告警信息通过图标的不同状态展现给用户。如图7所示。

针对业务承载的主机,系统同样提供了系统拓扑,不仅提供全局状态监控界面,同时也讲拓扑图作为全局分析工具,实现对于管理对象增长趋势的全域分析,包含对全域设备的CPU业务应用情况的分析,整体智能分析业务上一段时间内使用的整体趋势变化,以红、黄、绿作为不同区段的显示,使用户能清晰辨识历史增长异常。

(6)智能基线

智慧运维平台能根据历史记录自动生成基线,并可按照业务变化规律,形成以日基线、周基线的数据对比,一旦实时数据大于基线比对点一定范围,即生成智维事件,便于分析;当出现多次越界后,系统主动通知用户,提示运维风险。如图8所示。

(7)智能策略

智慧运维平台引入策略管理概念,架构上为策略提供各个功能的调用接口,方便地实现软件各种处理逻辑的协同处置;方便实现用户对于管理方法的落地。

策略分为触发、分析、处置三个部分,通过全面的智能运维监控,实现对于各项关键节点的智维,包含单点、多点触发;多单指标历史记录分析、多指标对比分析等方式,实现合理结论的分析,以提示、告警通知、自動报表的各项输出方式给出用户最终处置建议。

系统预置多款智能策略,实现全面检测、智能判断、全面分析;包含对所有智维规则的普世策略,越界次数警示;包含对CPU负载过高的深入分析策略,可实现一站式,异常进程的分析识别[4]。

5智慧运维给用户的价值

5.1 落实等级化管理

管理上划分优先级是被普遍认可的方式,优先级划分能实现管理投入的合理分配,对于运维管理同样适用,通过对资源按照所在业务重要度区分其对应的管理等级,比如关乎生产系统的资源划分成一级,内部办公系统相关资源划分成二级设备;对于一级设备意味着更为密集的数据采集和更低的阈值,对于异常更为敏感,故障处理上要求更为严格,后期的管理数据统计需要单独列项统计。

5.2 落实管理经验积累

智慧运维平台提供处置知识管理,通过对用户日常故障处置方法的收集,经验积累,自动反馈到相同故障的处置过程中;通过系统提供的智能策略机制,将用户对于某些异常分析的人工方式自动化,通过人工智能找到具体的异常进程,关闭该进程或者卸载相关软件,同时对于该进程的设定预警,达到事前预警;通过策略体制调用系统的各项零散功能,将用户问题分析方式,快速自动化。

5.3 从数据挖掘实现隐患分析

智慧运维平台提供了强大的历史记录能力,可以实现45万KPI的指标数据不压缩存储1年;同时提供详尽灵活的数据分析工具,可以实现单设备1年、1季度、1月、1周整体趋势分析,从历史层面分析出业务运行规律,方便发现业务运行异常;使用历史记录作为检测阈值,实现更为合理的业务使用情况监控;提供整体高低负载分析,实现整体回顾,合理评价。

6引入可视化大数据运维平台的意义

可视化大数据运维平台系统能够很好地满足企业信息网络系统管理的实际需求,具备良好的实用性,能够提供强大的故障监测和故障信息处理平台;平台可实现目前企业对网络系统、应用系统的属地化管理原则,实现信息网络综合监测管理模式;根据各级管理运行管理范围和责任划分实际情况,灵活定义和界定检测管理的边界,根据实际需求选择和定义对相关检测信息的显示形式和统计方法;对重要的应用系统和网络核心环节能够实现全面的检测和状态管理,可以从安全方面、管理方面和使用方面做到对企业IT基础资源的统一监控展现,具体如下。

从安全方面分析,全部数据都是通过加密方式上传到总部统一查看,如果网络传输使用的是互联网线路也不会出现信息被窃取的情况。

从管理方面分析,所有数据汇总后可以集中发送告警、集中设置设备的阀值和参数、集中生成报表,报表中可以看到全网设备总体的使用情况,不需要手工汇总。

从使用方面分析,相关运维人员可以直观地从管理平台监控部分看到所负责IT基础资源的当前运行状态和服务状态,通过监控运维系统量化工作,使运维工作高效、快捷。

7可视化大数据运维平台的发展前景

在目前这个 IT 技术大发展的时代,各行业越来倚重 IT 作为生产平台,各种新技术运用使业务运行更便捷的同时,也给业务 IT系统的运维部门带来巨大挑战。

可视化大数据运维平台根据 IT 运维部门的运维情况,不断摸索最佳方式,形成了一些具有企业特色运维方式,逐渐形成了一些具有企业特色运维经验和问题分析方式,提高效率,降低运维成本,解决了运维部门无法将管理论转化成最佳生产力的问题,实现用户管理效率的最大化提升。

8结束语

可视化大数据运维平台的最终目的是,消除数据孤岛,快速接入各种企业数据源,提供数据存储、处理及分析预测服务,在同一个平台界面中整合分析业务健康及IT性能问题。通过标准化组件及可扩展框架随心定制监控大屏,进行数据的多维度实时展现,迅速实现业务分析、趋势判断与决策响应。无须技术背景即可快速实现“自助式”数据分析,分析结果生成只需1小时,满足用户对大数据分析的多样化需求。

參考文献

[1] 李寒箬,夏荣. 浅谈大数据分析在网络运维中的应用[J]. 经营管理者,2016(36):338.

[2] 严彬元,王皓然,周琳妍.浅谈大数据分析在电网运维日志采集分析中的应用[J].信息周刊,2018(27):493.

[3] 单康康,王佶,常晓洁,等. 基于大数据的校园网海量日志分析平台研究[J]. 信息通信,2017(3):154-155.

[4] 周平,马斌,韩冰,等. 基于大数据平台的日志分析预警技术研究[J]. 电脑知识与技术,2016,12(32):266-268.

作者简介

董继宏,男,陕西省神木县人;毕业院校:西安电子科技大学,专业:电子技术与微机应用,学历:大专,现就职单位:神东煤炭集团公司信息管理中心,研究方向:通信。

仲兆桉,男,内蒙古呼和浩特市人;毕业院校:内蒙古大学,专业:电子技术,学历:大专,现就职单位:内蒙古华强通讯科技有限公司,研究方向:通信。

猜你喜欢

通信运维可视化
数据可视化设计在美妆类APP中的应用
思维可视化
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
简述计算机通信网络安全与防护策略
Android环境下主UI线程与子线程通信机制研究