复杂信息系统运维人为差错的分析及对策
2021-01-28
96882 部队
随着科技的进步,信息系统在各个领域的运用更加广泛,信息处理 能力更强,结构也更加复杂,运维工作地位随之更加凸显。如何减少复杂信息系统运维人为差错,提升运维工作效益,对确保系统稳定运行,充分发挥信息系统效能具有重要意义。
一、人为差错的特点
人为差错是指人未能实现预先规定的任务,而可能导致中断计划进行或引起意外损失的行为。复杂信息系统运维过程中时常发生人为差错,且具有隐蔽性、必然性、关联性、随机性等特点。
(一)隐蔽性。运维人为差错发生后,有的会立刻通过故障现象反映出来,例如网络中断、设备损坏、软件无法运行等,但有的可能长期潜藏在系统内部,直到达到触发条件才暴露出来,或者必须通过针对性的检测才能被发现。
(二)必然性。墨菲定律指出,某项工作如果在众多做法中存在一种错误的做法,则一定有人会按这种方法去做。复杂信息系统运维过程中存在诸多人为差错的可能,虽然能够采取措施减小发生概率,延迟发生时间,但从客观规律的角度看,无法绝对杜绝。
(三)关联性。信息系统是由计算机硬件、软件、网络和通信设备、信息资源等组成的一体化系统,运维人员在工作中做出的某个错误操作可能会间接引发另一个差错,或是在某个设备的错误操作最终会造成其它设备无法正常工作,就像交换设备设置错误会导致电脑终端无法正常通信。
(四)随机性。在长期的运维工作中,运维人员要进行大量而繁琐的操作,并随时会受到外部和自身多种不确定因素的影响,使得人为差错发生的时间、环节、部位等难以提前做出准确预判,给防范带来了较大难度。
二、人为差错的原因
运维工作贯穿复杂信息系统使用全过程,具有持续时间长、专业要求高、作业对象广、操作环节多等特点,从而诱发人为差错的因素多种多样。
(一)制度机制。复杂信息系统运行过程中没有建立完善的运维管理制度体系,工作缺乏筹划和指导;信息系统进行设备更新、数据升级、功能变更时,未及时对运维制度进行调整;运维制度执行缺乏现代管理的方法和监督手段,执行过程中随意性大;等等。运维管理存在漏洞是发生人为差错的主要外部因素。
(二)技能水平。运维人员缺乏必要的资质认证和上岗培训,能力与岗位需求不符;对系统的主要结构和工作原理不清楚,运维基本方法不熟悉;对技术指标理解有偏差,不能及时发现系统中潜在的故障和缺陷,无法正确判断和迅速处理复杂故障;等等。运维人员能力不足是发生人为差错的主要内在因素。
(三)分工协作。复杂信息系统运维团队缺乏有效的组织,团队内部没有明确的责任分工,工作标准要求不能做到统一规范,运维成员间沟通交流不通畅,在日常系统维护或突发情况处置时,所有人都按自己的工作方式和行为习惯自行其是。
(四)违规行为。运维人员规则意识淡薄,不执行任务分工,根据主观意愿执行运维要求以外的操作;运维过程中违反规章制度,按照错误的程序,在错误的时间执行错误的操作;工作作风漂浮,在进行操作时出现缺项漏项;对新的运维标准学习研究不够,遵循传统惯例,盲目蛮干;等等。
(五)判断决策。运维人员对复杂信息系统的状况掌握不够详实,对系统现状、工作重点、故障处置方法等方面判断时出现差错,在阶段性甚至全局性的运维方案选择上出现失误,运维工作成效不理想,造成系统故障多发频发。
(六)生理状态。运维工作地位重要,实施起来又非常繁琐,运维人员必须在较大的压力下保持高度专注,长时间工作后,注意力和判断力都将明显下降,对外界干扰的抵抗能力降低。另外,运维人员受家庭、单位、社会等外部环境影响,在身体、心理、精神等方面出现波动,与人为差错的发生也有一定联系。
三、减少人为差错的方法
运维过程中的人为差错严重影响了信息系统效能的发挥,在工作中,必须采取多种手段,消除诱发人为差错的条件,减少人为差错。
(一)完善制度规定。运用科学合理的运维制度机制,防止工作中的随意性。一是建立规章制度体系。克服传统以经验为主的运维方式,以法规的形式对运维的时间、内容、标准、要求等进行明确,确保运维工作的规范性、系统性。二是及时修订完善规章制度。在系统进行设备换新、升级改造和功能调整后,同步修订完善相应的运维制度,确保运维管理的依据与实际相符。三是抓好规章制度督促落实。对执行情况进行登记,加强监督和检查,随时纠正违规行为。
(二)提升综合素质。对运维人员进行全面的培养,是减少复杂信息系统运维人为差错最根本、最有效的方法。一是开展专业技能培训。紧密结合复杂信息系统的实际,组织理论学习与实操训练,增强工作人员对运维流程和方法的熟练程度,补齐能力短板。二是提升学习能力。现代信息技术更新快,系统变化频繁,帮助运维人员及时了解本领域发展趋势,不断学习新的知识和技术,使运维人员始终能够游刃有余地完成担负的工作。三是塑造良好作风。加强运维人员责任心和敬业精神,强化职业道德观念,牢固树立面向客户的服务意识,依靠严谨扎实的工作作风减少人为差错。
(三)规范操作流程。建立标准化的运维流程,固化操作方法步骤。一是明确任务分工,将复杂的运维工作按照功能、时间、元件等原则进行分解,再分配到具体的人,避免因责任不清出现人为差错。二是制定操作说明,全面详细地介绍运维工作各个环节操作方法,并在各环节间建立合理的衔接关系,使得运维人员的每一个操作步骤都能够有参照的依据。三是拟制应急方案,对复杂信息系统运行中可能出现的各类问题进行预测,拟制处置措施,确保出现特情,能够依照预案、各司其职,避免因忙乱出现人为差错。
(四)改进运维手段。使用先进的运维技术和工具,提高运维自动化水平。一是运用先进技术。例如将Python技术应用于复杂信息系统运维,工作人员可以用标准、简洁的编程语言代替传统人工操作。通过Python将交换机和路由器日常运维命令脚本化,建立自动任务计划,每天定时执行Python代码和脚本轮询所有网络设备的内存、CPU使用情况,及时发现超负荷运行设备,自动备份网络设备配置文件防止数据丢失。二是引入先进平台,例如:以Zabbix平台为依托,读取实时有效的运维基础信息来提供高级运维支撑,实现基础资源管理、信息指标管理、事件管理,进行常规巡检、问题报警处理。再以Saltstack平台为依托,通过编辑命令脚本参数,实现脚本程序的智能化远程调度运行,对运维工作进行自动化管理。
(五)加强人文关怀。正确处理运维人员与工作任务的关系,提高人的可靠性。一是关注运维人员的身心健康,随时了解其工作和生活方面的困难问题,发现存在的不稳定因素,进行必要的干预。二是创造良好的外部环境,把温度、噪音、光线等因素的不良影响降到最低,使运维人员能够心情舒畅、精力集中地投入工作。三是合理安排工作时间和负荷,避免因疲劳、患病、药物等引发人为差错。
四、总结
复杂信息系统运维的人为差错虽然无法完全避免,但是通过建立完善的防范机制,规范标准的作业流程,不断提升工作人员的整体素质,并大胆运用现代化的运维方法,就能够有效的减少人为差错的发生。