基于最终用户体验的网络及应用性能可视化实践研究
2014-10-17刘伯宇
王 宁 刘伯宇
(国网河南省电力公司信息通讯公司 河南 450000)
0 引言
“关键复杂应用不具备高性能和高可用性将直接给业务生产力,业务收入和IT效率造成负面影响。”—Forrester 咨询机构时至今日,各个企业 IT建设的规模与复杂度与日俱增,IT应用模式日新月异,基础架构及应用模式的革命性变化给IT管理带来了巨大的挑战,IT运维管理不仅要对传统基础资源的运行状况负责,更要对承载于其上的应用、业务运行的性能与质量负责。应用性能管理(APM),已经逐渐成为各个企业 IT运维管理的重要研究课题。
1 河南电力现状
随着信息化程度的不断深化,河南省电力公司的网络设备、服务器、软件应用系统越来越多。而且由于信息系统越来越复杂,软件、硬件、网络彼此之间的关联关系日益变得错综复杂,这让运维管理面临前所未有的挑战。而在现有的技术条件下,针对终端用户反映的网络中断、系统响应缓慢、系统宕机等问题很多时候无从定位问题根源。出现这类现象的原因很多:
(1)应用系统变得越来越复杂。往往一个应用系统会涉及网络设备、安全设备、负载均衡、WEB中间件、应用中间件、数据库等许多设备,任何一点出现异常均会影响到应用服务。
(2)性能问题往往不会产生应用和系统报错,使得运维人员无从查起;
(3)性能问题发生具有不规律性,可能问题出现一段时间后自动消失,当管理员开始问题分析时,故障现象已不存在,这样就提高了问题分析难度。
针对这些情况,传统的网元分析技术只针对某单一网络元素进行分析,已经无法处理这类具有复杂关联性的问题,因为整套系统或整个系统群的性能问题和故障不是某单一网元造成的。为了解决这类问题,只有通过关联分析,将影响用户访问体验的各个元素的当前状态告知运维管理人员,才能直接定位应用访问性能低下的问题根源,实现复杂问题分简单化。
2 应用性能管理的实践
2.1 实施方法论
本课题的研究实践过程采用了需求调研、专家访谈、理论分析和测试验证、归纳总结等研究方法。
(1)需求调研:结合现有网络运维和变更经验,制定相应的业务系统需求调研模板,与应用部门进行沟通,形成需求调研报告,并整理出业务系统资源,编制业务流手册;
(2)专家访谈:对于业务性能告警与新网管平台的整合与集成,需要同网管平台专家进行充分沟通,并讨论行之有效的规则文件和告警映射关系;
(3)理论分析:对现有TCP/IP协议、HTTP协议原理和机制进行研究,对流量监控工具统计的各项性能指标进行研究与分析,综合相关研究结果明确监控指标和接口消息;
(4)测试验证:根据需求、访谈结果、理论分析结果,在监控平台上进行相应的业务监控定义和业务视图的定制,对于实际监控结果,通过抓包分析验证需求和理论的准确性和全面性。
(5)归纳总结:对全行业务系统进行分析,采用归纳总结的方法,对业务和业务系统按照其访问特性进行分类,定制相应的监控模型。
2.2 系统实现
2.2.1 系统设计原则
应用性能管理系统总体设计原则需要满足未来的发展需要,既要安全可靠,不影响现有的网络和业务,又要具有一定的先进性---选取在设计理念和技术实现上具有长期延续性,代表行业趋势的产品,在技术上既能覆盖面向应用的网络运维需求,又能在运维流程中各个层面提供有效支持和呈现,并且随着网络运维管理水平的提升和深入,具备一定的模块扩展能力,满足未来网络运维发展需要。
2.2.2 功能结构设计
根据河南电力网络及应用性能可视化的需求,结合河南电力现有网管系统,以网络和应用性能监控分析平台为核心,利用网络镜像数据包对网络和关键业务的性能进行实时监控与分析。通过先进的智能告警技术,将告警信息发送给网管平台进行统一的管理和展现。网络运维人员,利用监控与分析平台对出现的故障进行快速的分析和定位。
图1 功能结构图
3 系统实施效果
3.1 实施环境
本次网络及应用性能系统主要部署系统响应分析组件、事务分析组件、应用拓扑自动分析组件以及系统展示平台,实施环境如表1所示:
表1 APM系统环境
3.2 应用效果
经过7个多月的实践研究、反复摸索、不断分析验证,在河南省电力公司初步搭建了一个完整的、统一的、系统的、灵活的网络及应用性能可视化监控平台,建立了一套完整、便捷的业务可视化监控流程和规范,并建立了快速故障处理流程,提高了业务故障处理速度,减少了故障影响的时间和范围。
(1)搭建了统一的可视化监控平台
通过在基础网络环境中进行流量镜像设备和网络流量监控探针的全面部署、关键业务系统的准确定义、可视化视图的精细化定制以及告警的定制与集成,在河南全省范围内搭建了一套全面、统一、灵活、可扩展的网络及应用性能可视化监控平台。
图2 可视化流量平台
(2)实现了对全行网络流量的全面精细化监控
网络及应用性能可视化平台从4个层面(业务组、应用、IP地址、Netflow接口)对网络流量进行监控,使得河南电力对网络流量的监控与统计更加全面、精细和清晰,为未来的容量规划、带宽扩容提供了真实、可靠的统计数据。
(3)实现了基于业务性能的多维度可视化监控
通过在监控分析平台上,对关键业务、主要的业务组(IP地址集合,可以将某个区域、某个分行、某个部门或者某些应用服务器APP组的IP地址段定义为一个业务组,用来综合考察业务组间的业务访问关系)进行定义以及关键业务监控视图的定制,实现了基于业务系统的多维度(网络流量、网络性能、应用性能)可视化实时监控。
图3 多维度性能可视化监控
(4)实现了基于最终用户体验的服务水平监控
网络及应用性能可视化监控平台,从最终用户体验出发,建立了基于区域、分支机构等访问行内关键业务的服务等级水平SLA监控。实时查看关键业务在一天、一周内服务水平满足情况。当业务的服务水平违规(服务质量下降到95%)时,还可以进行深入的问题根源分析。
图4 SLA视图监控
(5)实现了关键业务系统的实时预警与告警
系统提供7x24小时不间断性能检测,应用响应阀值等实现邮件和短信自动告警,能够协助故障定位,减少故障恢复时间。
4 结束语
在实施过程中,我们深刻认识到目前河南电力的网络和应用性能监控管理可视化水平仍处于初步阶段,距离成熟的网络及应用性管理体系还尚有相当大的差距,优化现有流程,引进先进行自动化工具,加强人员的培养,提升运维能力和自动化水平,充分利用现有流量分析平台和数据,有效整合现有可视化分析平台与其它监控平台,深入挖掘平台功能将是河南电力提升运维能力的下一步重点目标。
[1]《TCP/IP Illustarated Volume1:The Protocols》.(美)W.Richard Stevens.机械工业出版社.
[2]《HTTP:The Definitive Guard》.(美)David Gourley,Brian Totty.人民邮电出版社.
[3]A.Das,D.Nguyen,J.Zambreno An FPGA-Based Network Intrusion Detection Architecture,Information Forensics and Security,IEEE Transactions on,vol.3,pp.118-132,2008.