APP下载

探讨维护应用系统的解决方案

2019-04-22周宇

科技视界 2019年5期
关键词:解决方案

周宇

【摘 要】文章从维护部门的角度,主要讨论应用系统维护所遇到的问题,分析问题的一些管理解决方案、制度。并探讨发展科学系统的应用系统维护解决方法。

【关键词】应用系统维护;解决方案;操作规则

中图分类号: TP311.52 文献标识码: A文章编号: 2095-2457(2019)05-0160-004

1 应用系统维护的问题

随着当今社会技术的迭代更新,数据机房IDC化、数据应用云网化,网络条件的大幅度提升,应用系统维护员不再是仅仅面对一两台设备的管理,而是要面对的许多不同类型、不同型号的设备,甚至是云化的设备集群。此时,一个高技术应用系统维护人员不可能把精力平等的分给所有的设备,有时候甚至是不夠时间来照看所有的设备。

而与此同时,高技术的应用系统维护人员需要全面的技术培训以及长时间的经验积累。特别是高级别的技术专家、熟练的维护人员,一旦发生人员变更,对整个应用系统的稳定性和持久性,都将会有巨大的挑战。

2 应用系统维护的问题分析

现有应用系统地维护,已经不是仅仅依靠个人或一个团队的技术就能长期地防控风险地发生,只能暂时性地维护并保持一个应用系统的正常运行。文章认为造成这个问题地根本原因,是维护部门和团队,一直以来只是从技术的角度来看待对于应用系统地维护,只是针对一个个孤立的故障案例来进行技术分析处理,缺少一个整体性的解决发难。

应用系统维护应该是一整套的体系、制度来对应用系统维护进行控制,这也是文章所探讨的主题。

3 应用系统维护的解决方案

如上所说,现在技术更新迭代的速度越来越快,软件及硬件更新也越来越快,往往老的技术还没有全部掌握,新的技术就已经出现了;另外,设备、软件功能类型日益分工专业化,仅应用系统所承载的服务器分类就有许多种,例如:IBM公司的aix,HP公司的hp-ux,SUN公司的Solaris,Linux不同的变种,windows系列等等。同一种系统在不同的阶段还有不同的版本。技术的更新,类型的多样,还有版本问题,这些都是应用系统维护人员的噩梦。虽然私有云、公有云等云化的架构,可以使得应用管理人员对硬件设备透明,但对于云系统的提供商来说,这些问题依旧存在。而且针对各类中间件、开发平台、系统接口,同样的问题依旧存在。同时每个人的精力都是有限的,如果需要应用系统维护人员对上面所说的每种设备都能轻松应对,那几乎是不可能的,即使有,也只是极少数。同时,现在许多应用系统维护的软件,也只是提供了一种可视化的、集成的、图形管理的工具,只能相应减少应用系统维护的工作,并不能真正的解决现阶段的问题。

所以,现在的应用系统维护已经不仅仅是技术领域的范畴,而是应该从一个更高更大的层次上来提供解决方案。即建立一整套应用系统维护的体系,真正的从管理的角度来管理系统,而不是从技术上来管理系统。在此称之为应用系统维护的解决方案。

3.1 解决方案的核心

解决方案的核心:使系统在可控制的情况下,平稳运行尽可能长的时间。

这个也就是应用系统维护的根本目的。可以分为两个部分来看

3.1.1 使系统在可控制的情况中

首先,系统需要处于可控制的情况中,这个是指应用系统维护人员应处于能对设备进行操作、管理的情况中;因为现在由于网络十分发达,机房往往位于不同的地方,应用系统维护员也可能只在远程操控;而一旦设备当机,无法启动,或者由于网络问题管理员无法连接到设备,那么技术再高的人也没有办法了。所以,必须确保管理人员能连接上设备,或者通过虚拟设备漂移等技术手段,实现设备容灾冗余。

3.1.2 平稳运行尽可能长的时间

对于系统来说,经常有升级补丁等需要,那么作为应用系统维护员是否需要经常安装这些呢?为了确保系统能正常安全,首先考虑的应该是系统稳定。因为安装补丁程序,本身就是一项增加风险的操作。所以,平稳是先决条件,新形成的系统都是不平稳的,只有经过时间考验的,才能认为是平稳的。因此对于核心部分的设备,补丁升级一定需要兼顾系统稳定性及系统安全性。

3.2 解决方案的规则

有了核心之后,需要制定一个整体的规则,以可以称之为步骤,来确保核心的实现,这里称之为解决方案的规则。主要有三个:

3.2.1 用数据找出缺陷

首先,需要先确定一个概念:缺陷是指存在于系统中,未被发现的,可能造成故障或灾难的地方。好的应用系统维护员可以依靠自己的经验,找出系统中存在的缺陷,但是,正如前面所说的,如果是对于不同的系统,那么技术再高的应用系统维护员也往往束手无策。

所以,应该通过数据积累,从数据上的增长趋势和不正常的变化,来找出潜在的缺陷。首先,对需要监控的系统,实行定点定时的数据采集、性能采集,然后根据得到的数据,建立系统的基准线;然后根据基准线的趋势,预测今后可能发生的上限、下限和峰值。当某时刻的数据发生了突变,就预示着缺陷的存在和发生。如下图所示:

12日的CPU使用率接近峰值,有可能造成系统崩溃。这样,管理员就需要察看当日的系统上运行了什么软件或应用,有什么人员登陆,然后分析得出造成该现象的具体原因;那在以后进行同样操作的时候,就可以事先预知系统的承载能力,而将其它的事务(如ORACLE数据库的导出备份等)分派到其他的时段,以避免CPU的超负载。

当数据积累到了一定的程度,基准线和上、下限也得到了比较正确的数值的时候,应用系统维护员就能将各阶段、各日期、格时段的风险值以散列图的方式展现出来,这样就能在高风险的时候更多的注意需要照顾的系统。

比如在月初或月末,由于系统需要出帐,系统的风险值就会明显上升,在这段时间内,管理员对系统需要进行全面的监控。也许这不是一个最好的办法,随着时间的积累,数据的精确性会不断的上升,而应用系统维护所需的稳定性也会随之上升。

另一个优势在于,一个新上任的应用系统维护员可以在很短的时间内,了解一个新系统的基本运行情况、需要关注的时间段以及需要特别注意的某个操作。

3.2.2 用制度防范风险

作为规则的第一步,通过数据的收集、分类、整理,应用系统维护就面临着如何运用这些数据,如何通过建立完善的制度来将存在的风险转移出去。

正如前面所说的,应用系统维护是一项需要时间培养的工作,但是通过制度的制定,可以让应用系统维护人员的培养变得有章可循,也可以让应用系统维护工作真正做到具体化、细致化。

如上图显示:

原应用系统维护,主要取决于个人的技术和操作,这样就会导致每个应用系统维护员都有自己的一套应用系统维护方法,当发生人员、技术甚至系统发生变化的时候,就可能导致在管理工作的延续上发生断层,与此同时的系统的平稳性也受到威胁。

而解决方案,则是采用通过数据—〉制度—〉系统,不同的应用系统维护人员可以通过不同的方法、经验采集数据,但必须通过建立制度来对系统进行管理,这样就可以避免人员的变动造成管理的混乱,因为新任的管理人员可以按部就班的根据以往的制度来继续原先的管理步骤;然后根据自己的经验,对数据的收集方式、收集量进行调整,然后优化制度;最后通过优化后的制度来管理系统,以便提供更全面的数据。

这样就形成了一个封闭的循环,可以不断的改善应用系统维护的方式方法和制度,并令系统的平稳状况得到更好的保证。

3.2.3 用技术解决故障

根据前两步的操作,应用系统维护人员已经建立了可以不断完善的体制来预防、分解存在的缺陷风险;但是,对于突发故障(比如,掉电造成的系统当机、文件系统的负载过高、人为操作的失误等)的发生,应用系统维护面对的就不仅仅是靠制度能解决的问题了,这是就需要依赖技术层面来解决问题;当遇到无法解决的问题时,可以提供进一步的咨询方案,并实施保护数据的措施,将损失、停机时间控制在最小的范围之内。

综上所述,经过三个步骤:用数据找出缺陷、用制度防范风险、用技术解决故障;这样就能形成一个应用系统维护步骤的封闭环。

3.3 解决方案的具体操作建议

经过上面两部分关于解决方案的核心和规则的讨论,已经有了一个相对较为清晰的管理模式,或者称为解决方案,就如一栋大厦的主体结构,已经初步呈现。下面讨论得如何运用这核心、规则,建立起一套真正的制度,对应用系统维护进行可操作的应用。也就是从细微处着手,给大厦进行装修,使之成为可以生活、生产的地方。

3.3.1 用数据找出缺陷

缺陷采集主要通过三个方面来实现,即性能收集、故障收集和数据收集;

性能收集方面,首先,在各类应用上,各个应用时间点和各类硬件设备上,对cpu、memory、文件系统、输入输出和进程等性能方面的数据进行收集。

其次,当发生故障的时候同样收集各类数据形成故障报表;

最后,通过性能报表、故障报表生成相应的数据库,形成图形的数据报表;

3.3.2 用制度防范风险

(1)必须给所有的系统划分等级,有限的精力不可能平均的分配到所有的设备上,所以只有给系统划分等级之后,合理分配应用系统维护人员的时间和精力;

(2)根据分级定期收集察看系统日志;系统日志的重要性是不可忽视的;一般的系统告警,都会在系统日志重有所表现;对于日志的收集也能为系统以后的诊断提供帮助;

(3)根据分级定期备份系统级重要文件;当系统发生不可预见的问题之后,这些重要文件的存档,可以帮助应用系统维护缩短系统故障的时间;

(4)登陆用户分级并各自进行记录;

(5)日常操作必须规范,管理员的每个操作都应该进行日志记录;

(6)风险管理;进行对系统可能产生重大影响的操作之前,可以通过系统全镜像并单独隔离的方法来实现对现有系统的存档;当操作的结果稳定之后,再回复同步镜像;对于长期的风险,可以通过风险累计的方式,令各系统的风险值根据不同的应用、运行时间而不断变化,然后按风险值进行从高到低的排序,排列出风险值最高的一个或几个系统,对风险清单设备加强监控;通过故障表的统计,得出何钟应用的系統在风险值为多大的时候可能引发缺陷,从而得出具体峰下那阀值,便于监控那些风险值高于阀值的那些系统;

3.3.3 用技术解决故障

(1)应用系统维护人员对于不同的故障应采取不同的措施;对于那些小故障,应用系统维护员应该有能力去解决,对于诸如硬件等重大故障,应用系统维护员应该快速定位故障信息,并实施保护数据等措施;

(2)知识库、经验库、技术文档、技术论坛共享,电话支持

(3)实验环境的组建

(4)人员培训

4 应用系统维护解决方案图示

5 结论部分

对于大量的系统需要管理时,就应该通过建立科学的体制来进行管理,通过对于数据的采集来进行优化已有的制度,运用技术来解决已发生的故障;通过类似方法论的方式,从理论的角度令管理人员理解如何解决问题,而不是单从技术角度进行维护管理。

【参考文献】

[1]张巨俭,甘仞初.管理信息系统的发展方向及实现技术[J].计算机应用研究,2003,1.

[2]穆绪涛,穆建华,邹微,孙志红.管理信息系统的作用及应用[J].现代情报,2005,10.

猜你喜欢

解决方案
艾默生自动化解决方案
解决方案和折中方案
简洁又轻松的Soundbar环绕声解决方案
ABS塑件的常见缺陷及解决方案
通信用UPS电源常见问题及解决方案
5G高频室内覆盖解决方案研究
您的理念 我们的解决方案
您的理念 我们的解决方案
4G LTE室内覆盖解决方案探讨
电脱插应用中的问题及解决方案