计算机终端及网络故障定位分析工具的研制
2017-04-15侯婧媖
侯婧媖
摘要:通过对公司计算机终端运维监控的需求分析,自行研究开发设计制作了计算机终端及网络故障定位分析工具,实现了低成本、高效率的运维方式,降低了运维人员日常工作量,提高了运维工作效率,为运维人员提供了一个实用的计算机终端和网络故障定位、分析的工具,能够及时发现、分析和远程判断各种终端异常,试运行情况达到了预期的效果,有效地提升了公司对终端监控、运维预警等的管理水平,为电力系统的规划设计、基建、发电、输电、供电和经营等各环节提供强有力的支撑。
关键词:计算机终端 故障 定位分析
中图分类号:TP309.1 文献标识码:A 文章编号:1007-9416(2016)12-0126-01
随着“三集五大”体系的全面建成,业务应用系统在国网公司和省公司逐步集中部署,终端用户面临的业务系统应用异常或故障所涉及的技术环节越来越多,包括计算机终端运行、业务系统客户端、网络、服务器等因素,一些短时间内突发和间歇性的异常或故障,特别像配网抢修值班、95598等24小时开展的业务应用终端,由于没有技术手段进行故障现场多环节数据的记录,信息运维人员无法知晓故障发生时的各项运行数据,难以在事后开展有效的故障分析和准确定位故障原因,造成了同一故障频发的现象,妨碍了信息技术服务质量的提升。
为了提升公司整体运维水平,提高运维效率,公司通过创新项目立项,成立技术开发团队设计制作一套覆盖计算机终端运行全环节的计算机终端及网络故障定位分析工具,通过在目标机终端安装系统客户端工具,实时监控终端的运行情况,当终端出现故障时能第一时间记录当时终端、网络的运行情况,为技术人员处理问题时提供判断依据;同时能将各终端的运行信息进行收集整理,并进行科学的统计分析,达到对终端设备运行情况进行有效预警,降低终端出现故障的频率,提升信息技术服务质量,提升信息化管理水平。
1 工具设计及研制
1.1 工具分析
根据工具架构模型,系统分为终端监控工具和故障定位分析工具,终端监控工具部署在终端一侧以windows服务形式存在客户终端中,负责信息采集、信息结构化、信息传输、信息暂存、故障处理等环节;故障定位分析工具分析工具部署在服务端,主要有CPU、内存、网络参数分析、进程分析、操作系统日志、客户端日志分析等功能。两个工具之间通过网络通讯进行数据交换。数据采用XML封装,HTTP协议接口标准。
1.2 关键技术实现过程
1.2.1 Windows日志读取及分析
Windows日志从Windows2000版本后共包括9种审计策略。共分为:帐户登录、登录、对象访问、目录服务访问、进程追踪、特权使用、帐户管理、策略变更、系统事件9大类。本项目主要是对进程追踪和系统事件进行关注。
每个windows日志都由两部分组成:头字段和描述字段。头字段是相对内容和格式都固定的部分,包括的信息有:事件的id、日期和时间、事件的结果(成功还是失败)、事件的来源和类別。通过对日志头部字段的过滤能获取到本项目相关的系统日志。
同时通过专业的分析,对某些特定事件的进行特殊识别,比如开关机事件(6006和6005),6006表示事件日志服务已停止,如果没有在事件查看器中发现某日的事件ID号为6006的事件,就表示计算机在这天没有正常关机。将这类事件放到事件库中,工具能自动获取一个时间段的这些事件日志,并将这些情况上传到分析工具端。
1.2.2 网络故障探测及识别
在现实的计算机终端运维中,用户不能上网占有很大的工作量,用户缺少专业的故障分析能力,经常需要运维人员到现场解决,但是经常出现运维人员到现场后故障就恢复了,根本无法找到发生故障的节点和原因,为了彻底解决这一状况,本次项目通过使用Tracert(跟踪路由)程序来解决。
Tracert(跟踪路由)是路由跟踪实用程序,用于确定IP数据包访问目标所采取的路径。Tracert命令使用用IP生存时间(TTL)字段和ICMP错误消息来确定从一个主机到网络上其他主机的路由。
网络故障定位分析主要是终端出现网络故障时,终端工具根据Tracert指定出口路由器,并在网络恢复后将Tracert结果上传至后台进行分析。
1.3 工具功能模块
终端监控工具在用户终端设定为开机启动,并始终以 windows 服务的模式进驻终端,负责终端信息的采集工作。在终端计算机运行使用过程中,终端监控工具将实时采集终端计算机中的进程信息,并即时上传至服务端工具中以便分析统计。在终端计算机运行使用过程中,终端监控工具将实时采集终端计算机中的CPU运行信息,并即时上传至服务端工具中以便分析统计。在终端计算机运行使用过程中,终端监控工具将实时采集终端计算机中各应用的内存占用数量等信息,并即时上传至服务端工具中以便分析统计。在终端计算机运行使用过程中,终端监控工具将实时采集终端计算机的网络信息(包括各个应用的占用流量等)进行采集,并即时上传至服务端工具中以便分析统计。
分析工具分普通人员与管理员两种角色,工具对每一台终端进行管理与预警配置,包括CPU、内存、网络使用情况的预警配置上限都可根据分析工具自定义。对终端上传的数据进行分析(包括CPU、内存、网络、进程);根据多方面的数据,及时告警;并对分析后的数据进行清晰的展示。
2 应用效果
本工具通过分析计算机终端机的故障表现、成因,并对windows程序、进程、硬件等核心技术进行了深入研究,结合网络技术、数据库技术、缓存技术,将计算机终端的各类运行数据、故障数据传到服务端进行分析处理。实现了终端运行的实时监控。
本工具通过系统监控的形式、将CPU、网络、内存、进程、操作系统日志等从上之下的数据,传送到服务端,实现全面的、全覆盖的记录系统信息,实现运维能够全面分析问题所在,能彻底定位出故障的原因。
参考文献
[1]丁成章.利用传输网管对数据业务的故障定位与测试[J].光纤与电缆及其应用技术,2015(02).
[2]庄小艇.基于无线传感器网络的配电线路故障定位研究[J].中国新技术新产品,2013(24).