六维超算运维管理保障方案
2019-10-21李宗涛石峰满来
李宗涛 石峰 满来
【摘 要】随着业务规模的扩大、开放程度的提高、应用系统各种功能的增加,对应用系统提出的要求越来越多,为了满足这些要求,越来越多的各类应用接口被接入到应用系统中,各种新技术被引入到应用系统内,结果应用系统变的越来越复杂。如何运用信息化技术辅助运维,提高运维质量,快速定位分析故障原因,并解决应用故障,是目前运维工作首要重点。本文介结合实际运维工作情况分析运维管理信息化发展的现状,介绍如何通过六维超算项目保证运维工作正常有效运行,提高运维工作效率,同时介绍六维超算应用性能管理项目的设计方案和建设情况,以及企业高效运维管理的发展前景。
【关键词】运维管理;信息化;应用监控;网络监控;六维超算
当前在“互联网+”的大背景下,企业面临着数字化转型,信息技术已经深入地改变了政府、企业等各类组织的业务运营,信息技术已经从对业务的支持、支撑,逐渐地演变融合到业务本身之中。在这一融合过程中,信息技术的角色发生了变化,信息技术的管理重点也由对基础架构、应用系统的建设运维,逐步向业务靠拢。虚拟化和云计算的发展,使信息技术基础架构越来越透明化,信息技术管理的重点是将信息化的业务流程与使用者之间进行平滑无缝对接,加速业务流程运转,提高营业收入或者办公效率,使用户体验得到质的提升。这是巨大的业务贡献,或者说是信息技术融入业务的直观表现。然而随着用户数量的增长、需求的增加,业务规模的扩大、开放程度的提高,应用系统的架构越来越复杂,应用交付链中的性能影响点也变得繁杂起来,应用性能的管理面临着严峻的挑战。
因此,信息技术管理者迫切需要一种能够应对复杂基础架构和应用架构,实时了解用户体验,并且将用户体验与业务关联起来的解决方案,来重塑信息技术管理运维。同时又能够贯穿应用系统的开发、测试、运维等各生命周期,使各环节紧密相连。
一、现状及存在问题
随着业务规模的扩大、开放程度的提高、应用系统各种功能的增加,对应用系统提出的要求越来越多。为了满足这些要求,越来越多的各类应用接口被接入到应用系统中,各种新技术被引入到应用系统内,结果是应用系统变的越来越复杂。我们总结运维管理工作的难点主要体现在以下几个方面:
1.当系统故障发生时,无法第一时间监控系统可用性和应用性能的表现,并且在整个应用平台不能快速定位哪个环节出现故障。由于没有点对点的监控,一旦出现问题只能重启整个系统。处理方式的单一对业务造成巨大的压力。
2.运维服务要求在发生故障时对客户做出快速响应,其后台则需横跨近多个交互系统。不知道系统具体慢在哪里,就不能从根源上解决问题,更无法保障服务的时间要求,这将会严重影响到用户体验。
3.随着业务的快速发展,客户数量显增加,业务应用系统的复杂性也呈几何性地增长,这些都对IT部门提出了新的挑战。由于应用所涉及的后台变得十分庞大和复杂,我们迫切地需要点对点地监控系统的每一个节点,确保系统的安全性、可靠性与高性能,保障优质的用户体验。
4.信息化快速发展,网络、主机、存储、数据库、中间件等硬件和软件拓扑结构和关系越来越复杂,急需能够统一监控和管理,并且能够清晰展现软硬件资源关联关系,为日常运维和后期业务变更提供参考依据。
5.企业应用业务系统越来越多,由于业务的重要程度不同会有不同的SLA(服务等级协议)指标来考核,如何满足业务高可用性和良好用户体验需求,就需要一套系统工具提前预防问题的发生,这样可以来保障业务系统的持续性和降低业务系统事故带来的影响。
通过建设六维超算应用性能管理平台,将营销管控、营销计费、95598等系统接入监管范围。运维人员借助六维超算应用性能管理平台中的应用性能管理系统和网络性能管理系统,可实时发现被监控系统的运行状况,在系统运维出现问题时,可及时确定故障时,应用故障或是网络故障,并快速定位故障点,排查故障。
二、六維超算应用性能管理平台运维管理机制
2.1拓扑可视化管理
平台可对应用逻辑拓扑的自动发现和可视化展示,展示在拓扑图中的信息包括但不限于应用名称、吞吐率、Apdex、错误率、调用服务器数量、服务应用数量信息。并显示所有被监控应用的运行状态,包括应用名称、吞吐率、Apdex、错误率、调用关系、调用服务器数量、服务应用数量信息,并可进行大屏展示。
2.2 Web应用过程(事务)监控
可监控应用系统中单个Web应用过程(事务)的耗时百分比、吞吐率、平均响应时间、Adpex;可对每个Web应用过程自定义名称;可将Web应用过程分解为每个工作单元,包括SQL语句、外部服务接口或代码类、方法等,并可提供调用次数、平均响应时间等指标。
2.3 代码级问题定位
统计后端应用代码在整个业务流转过程中的执行时间消耗占比,自动找出耗时最长和调用频繁的类、方法、SQL语句、外部服务接口等;能够提供基于名称或参数的异常性能记录检索。
2.4 事务追踪
对单次慢Web应用过程(事务)进行完整的端到端性能剖析,跟踪完整的方法调用信息,自动绘制调用拓扑,支持进行代码级别的应用故障诊断和问题定位,可定位到具体的类、方法、SQL语句、代码行。同时平台可贯穿多个应用,从请求入口追踪整个调用链,即使调用的其它应用和本应用语言不同时,仍可看到调用逻辑关系,直接关联到被调用的应用。
三、六维超算应用性能管理平台
3.1技术路线
六维超算应用性能管理平台是一种全方位智能监控的应用平台。面对信息行业中各种复杂的架构,该平台能够进行智能分析、学习、应用、拓展。对于复杂的逻辑架构,平台将复杂数据进行简单的图形化处理,把繁琐的技术信息进行自我消化,一针见血提出被监控系统所存在的问题。
六维超算应用性能管理平台通过智能分析技术实现对进入应用的所有业务进行监控和分析,从单个用户点击浏览器开始,一直可以追踪此用户点击动作在后台的代码执行流,贯穿整个应用,最终可以跟踪到此用户点击导致的访问数据库动作,反之亦然。这种记录和追踪用户业务跨越整个应用的细粒度代码级数据信息的能力,使得该方案能够实现主动式性能管理。
六维超算应用性能管理平台主要技术架构使用系统架构分析模块、业务行为分析模块、业务代码分析模块、系统生命周期分析、网络分析模块等智能模块构成。
1.外部数据信息:外部数据信息是通过平台对应的agent探针对被监控对象进行信息收集,并进行传输,原则上要求agent对被监控对象不造成业务影响、不占据过大的业务系统存储空间、不对业务系统硬件性能造成过度占用。
2.信息收集模块:信息收集模块作为外部数据接口,主要对被监控对象进行数据的接收,并传递到对应的智能应用分析模块中。
3.系统架构分析模块:系统架构分析模块是通过对外部数据进行智能分析,在平台处理中心中形成一个完整的被监控对象的系统架构数据模型,平台通过该业务系统架构数据模型实现从顶端到尾端的全结构监控。
4.业务行为分析模块:业务行为分析模块通过信息收集模块接收外部数据中的业务行为数据,通过架构数据模型,对行为数据进行跟踪分析,最终得到该业务数据在架构中各模块中的性能影响程度。
5.业务代码分析模块:业务代码分析模块通过信息收集模块接收外部数据中的业务数据,通过被监控业务系统对业务数据的处理程度,来判断该业务数据存在的过程中上下级模块代码的关联程度及代码的资源消耗程度。
6.系统生命周期分析模块:系统生命周期分析模块在业务系统整个生存周期中进行监控,针对于系统每个阶段给出系统的性能信息,从而彻底的到达系统整体性能优化及监控作用。
7.网络行为分析模块:该模块实现对监控网络中所有业务行为进行数据监控,包括业务流量触发到业务流量反馈整个过程的网络数据流监控分析,将单纯的网络性能分析转变为以业务为基准的智能网络分析。
3.2架构设计
3.2.1物理架构
六维超算应用性能管理平台利用智能分析技术实现端到端的监控和诊断,其完全覆盖浏览器到后端的每一个应用交付链环节。该产品透明的监视和诊断客户端,Web服务器,应用服务器,中间件服务层,数据库访问,服务与网关,从而实现全部真实用户,全部业务,7*24的全面监控,即使是在生产环境下。同时能追踪和捕获所有业务系统内部端到端代码执行路径、执行上下文和执行时间信息,从用户点击,横跨所有不同JVM/.NET实体,最后查询数据库的整个后台执行过程。拥有这些精确深入的原子级别细节信息,以更准确、更快的定位故障问题的根本原因。
3.2.2系统架构
六维超算应用性能管理平台agent透明的监视和诊断Web浏览器、胖客户端、Web服务器、Java/.NET应用服务器、企业服务总线系统、消息系统、数据库访问、网络设备、服务与交易网关,从而实现全部真实用户,全部业务交易与网络流量情况,7*24的全面監控,同时平台能追踪和捕获所有业务系统内部交易的端到端代码执行路径、执行上下文和执行时间信息,从用户点击,横跨所有不同 JVM/.NET 实体,最后查询数据库的整个后台执行过程。拥有这些精确深入的原子级别细节信息,平台可以更准确、更快的定位故障问题的根本原因。
3.2.3功能架构
六维超算应用性能管理平台从以下主要功能来实现,包括:全方位业务分析、自动关联性业务映射、可视化实时业务流、业务流到网络流的追踪、网络数据包的深入分析、各关键节点(防火墙、负载均衡等)的流量可视化、可视化实时业务流、钻入分析到代码级、WEB请求性能分析、数据库使用分析、分析业务热点、分析应用在浏览端的性能、分析应用CPU使用、仪表板管理、系统设置等。
3.2.4安全架构
网络安全方面:六维超算应用性能管理平台网络环境使用内网网络,被监测业务系统也全部在内网网络环境中,本系统依托建设单位原有的内网安全体系,与外网网络完全隔离。外网用户无法直接登陆六维超算应用性能管理平台,保证建设单位与六维超算应用性能管理平台有数据接口的系统不会被暴露于外网环境。同时内网用户设置严格的权限管理,设置加密的口令,分别赋予不同的网络资源、网络使用权限和不同安全等级。
数据安全方面:建设单位的被监测的业务系统中,需要安装与六维超算应用性能管理平台配套的agent探针,探针监测搜集被监测系统的信息数据,并传送到相应的系统服务层中。该探针是单独针对六维超算应用性能管理平台研发的一个库文件(.so或.dll),它只对会Collector接收层进行数据传输,所以不存在被监测设备的数据丢失或泄露。系统中的用户密码及服务器登陆密码采取MD5不可逆的计算方式进行加密,并以非明文的方式存储在数据库中,保证重要用户及服务器密码不可破解。
数据备份:数据库使用LINUIX系统,在该环境中使用Crontab命令实现对数据定时备份。数据备份可具体到以天为单位。
数据恢复:当系统数据出现故障时,运维人员可根据备份情况,选择最近的数据备份文件,进行数据恢复操作。
四、结语
随着大数据时代的来临,面对数据数量、数据种类、数据速率以及数据复杂性的不断增加,企业需要一种全新的数据分析方法。通过将应用性能管理软件和大数据环境集成,企业能够有效消除性能低下、可用性不足及可扩展性不佳所带来的风险和成本,未来应用性能管理将成为大数据解决方案的不可或缺的要素。
为顺应大数据时代的潮流,必须进行数据中心运维管理的深度优化,为数据中心的整体发展提供新鲜的科技动力。通过提升运维管理人员各方面的能力还有利用先进的动力环境监控系统技术,为数据中心的运维管理提供强大的人力支持和技术支持,助力大数据时代背景下,数据中心运维管理的长足发展。
参考文献:
[1] 陈金窗 沈灿 刘政委.Ansible自动化运维:技术与最佳实践 机械工业出版社【M】;2016
[2] 肖力,汪爱伟,杨俊俊,赵德禄.深度实践KVM:核心技术、管理运维、性能优化与项目实施 机械工业出版社【M】2015
(作者单位:内蒙古电力信息通信中心)