APP下载

“全险式”主机安全保障体系的建立和实施

2015-03-26国网保定供电公司孙莲英

电子世界 2015年18期
关键词:备份信息系统故障

国网保定供电公司 孙莲英

主机作为信息系统的核心设备,是信息系统安全、稳定运行的保障重点和根本核心。正是基于信息系统安全的考虑,随着国网公司SG186工程的规划、设计、建设、投运,许多重要信息系统由地市级公司部署逐步向省级和国网统一部署联网发展。在全部统一业务管理之前,仍有部分业务应用系统、基础管理系统由地市信息部门管理,这些系统的安全稳定运行对地市公司来讲仍然具有十分重要的意义。

2011年,公司“三集五大”机构调整后,信通公司成立。在资金、人力、物力投入逐步收缩的情况下,建立适合目前地市公司现状的主机安全保障体系,是保定供电公司(简称保供)信通部门所面临的主要问题。为了适应新的管理模式,全面提升主机管理工作水平,保供借鉴了原主机管理经验,并查找原管理工作中存在的不足和问题,探讨建立适于地市公司的主机安全防护保障体系,旨在全面提高主机管理工作水平,为提高公司经济效益和服务水平,提升企业社会形象打下基础。

1 原保供主机管理存在的问题

保供通过对近几年主机运维管理、故障检修工作的统计分析,总结出主机管理主要存在以下几方面问题:

一是设备老化严重,设备故障率逐年提高。目前保供主机服役年限大多在8年以上,少数甚至超过10年。由于超期服役,部件老化严重,故障频发,威胁主机安全。

二是资金投入严重不足,造成主机设备超期服役、带病运行。由于缺少备品备件,故障部件不能及时更换,甚至造成设备瘫痪,不能修复。鉴于同一服务器硬盘大多为同一批次产品,寿命周期接近,此类问题并非偶然,其他服务器同样面临这样的安全威胁。

三是管理有弱化倾向。由于营销、生产等重要信息系统已上收,有些管理人员放松了思想上的警惕性,认为地市信息专业管理重点已经转移,甚至认为地市公司主机管理是可有可无的,即使个别主机故障了也不会给企业造成重大负面影响。

鉴于此种情况,保供信通部门利用安全日活动,以安全隐患分析为契机,查找信息系统存在的隐患,认真分析主机故障后给公司各部门工作带来的不便和数据丢失造成的损害。经过统一思想,保供信通部门各级人员达成共识:地市公司主机管理应在现有条件下,通过建立全方位的主机安全保障措施,建立适于地市级公司的主机安全管理模式,达到保障现有系统安全可靠运行的目标。

2 构建“全险式”主机安全保障体系全面防范主机安全风险

“全险式”主机安全防护保障体系,就是全面分析主机安全“风险源”,建立从主机系统硬件、软件、数据、运检、制度体系建设等多层面、多维度、全方位的主机安全防护体系,最大限度防止主机安全事件的发生,降低主机安全风险,提高主机安全、可靠运行水平。

2.1 主机系统硬件安全保障

主机硬件安全保障,就是根据系统重要等级的不同,分别采取:系统热备、系统冷备、主机硬件冗余、备品备件等方式,防止因硬件故障造成的系统瘫痪等灾难性事件的发生。

保供在主机资金投入有限的情况下,根据现有系统重要等级的不同,采取了以下几种方案防范主机硬件安全风险:

一是采用系统硬件冷备。系统硬件冷备指由于主机硬件故障造成系统停运或崩溃情况下通过备机完成系统恢复的方式。一旦运行主机发生故障,立即启用冷备主机接管。采用系统冷备方式的优点是投资小,操作简便,相对较安全、可靠;缺点是因数据不是实时备份,如果在运主机故障瘫痪,会丢失前一天备份点到故障点数据。

二是采用主机硬件冗余。对硬盘、内存、电源、风扇等易损部件采用热冗余方式。比如对硬盘采用RAID设置,主要是根据系统的重要等级,一般采用RAID1,RAID5,RAID5+1或RAID51,当硬盘1块甚至2块故障情况下,仍能保障系统正常运行。

三是通过硬件检测工具软件及时发现主机设备硬件故障。为了在主机发生故障的第一时间内发现故障,可以在主机上安装原厂商开发的专业检测软件,定时对主机硬件进行检测,一旦发现有硬件缺陷,及时修复或更换故障部件。

四是合理储备购置备品备件。一旦发生设备硬件故障立即用备品备件检修更换。

通过对主机运检工作的总结,为提高运检工作质量和效率,购置主机应遵循以下几项原则:

1)购置前一定要调研,对主机的产品质量、运行性能、整体结构设计、性价比认真考证。产品质量是主机安全可靠运行的基础,运行性能要与具体系统相匹配,好的整体结构设计使运维工作更简单、快捷。经过对各类因素综合考虑确定性价比高的主机品牌和型号。

2)在条件允许的条件下,最好始终采购同一业界口碑好的知名品牌主机,最好不要超过两个品牌,用了都说好就是真的好。同一批次主机采购要选用同一种品牌型号,不同批次的采购也应尽量采购同一品牌产品。这样做的主要原因是由于同一品牌产品操作相同或相似,使运检工作更加方便、快捷,备品备件可以通用,后期维护工作也将变的简便、易行。

3)采购时同一品牌型号主机零部件也选用同一型号、容量,特别是硬盘,这样做的主要原因是在硬盘故障紧急情况下可以临时互换。

2.2 主机系统软件安全保障

主机系统软件安全是指信息系统的安全可靠运行必须以主机操作系统、应用系统服务端软件、数据库管理系统等软件为基础,保证这些软件系统的安全是信息系统安全可靠运行的必备条件。

保供采取了以下措施保证系统软件的安全:

一是采用系统软件冷备方式。就是在其它主机上部署和主运服务器相同软件系统环境,主要和系统硬件冷备结合使用,区别是:系统硬件崩溃一定会造成系统软件瘫痪,但系统软件故障不一定由硬件故障引起。为了方便对主机系统软件进行冷备用,保供大部分主机尽可能安装同一版本的操作系统,比如老版本的Wi ndows Ser ver 2003,新版本统一安装Windows Ser ver 2008,然后在冷备主机上和主运服务器部署相同的应用系统环境,数据库管理系统环境,并在该主机上存放最新运行备份数据。一旦主运设备由于软件系统故障造成系统停运,可在较短时间恢复数据,保证系统稳定运行。此类系统恢复操作简单,所需时间短,一般适用于较重要等级信息系统恢复。

由于营销、生产等一级重要信息系统已上收至省公司和国网部署,目前地市公司部署的县公司门户、基础应用系统等一般采用冷备方式即可满足基本要求。缺点和硬件冷备相同,就是一旦发生在运主机系统软件故障造成系统瘫痪,会丢失前一天备份点到故障点数据。

二是使用专业的服务器系统备份和恢复软件。这些专业软件可从本地或远程进行备份,并将数据备份至指定的存储介质上,在运行主机故障、系统瘫痪时,恢复至原始位置或不同的主机硬件上,这种方式可全面保护虚拟和物理环境。

此类备份主要考虑地市公司主机数量有限,没有足够数量主机进行系统软件冷备的情况下采用。特点是恢复时间比采用系统软件冷备时间长,比重新部署系统软件时间短,但不需要配备冷备主机。

三是重新部署系统软件。工作人员在首次系统安装后,对主机引导安装盘、操作系统盘、应用系统部署安装盘、数据库安装盘分门别类按标准化要求,规范妥善保管。并对在运主机运行环境重要参数设置进行备份,一旦有在运主机故障、瘫痪事件发生,可以通过重新部署系统软件的方式恢复系统环境,最后通过恢复数据库数据,恢复系统运行。由于部署系统软件需要时间较长,此类方式一般只适用于对时限要求不高的非重要等级信息系统的恢复。

2.3 主机数据安全保障

主机数据安全是建立在主机系统硬件和软件基础上的,主机系统硬件、软件安全是为数据安全服务的。

保供主要采取以下方式保障信息系统数据安全:

一是本机备份。首先根据系统重要等级设置备份策略,然后编写系统自动备份脚本,并在计划任务中定制“定时任务”,执行备份脚本。备份策略包括:日备份、周备份、月备份,根据实际业务要求、数据量大小、备份服务器磁盘容量等情况综合规划每份备份数据的保存时间。

二是利用专用备份主机进行数据备份。就是在与主数据库所在生产机相分离的备份机上建立主数据库或重要数据的一个拷贝。保供将一旧备份主机修旧利新作为备份服务器,安装专业备份软件,在需要备份的其它主机上安装客户端。在对系统进行充分调研的基础上制定各系统的备份策略,按照备份策略在备份服务器上生成“定制计划”进行数据备份。一旦发生系统故障,可以通过备份服务器将数据恢复到系统主机。

三是移动硬盘、光盘备份异地存放。就是使用移动硬盘和光盘按周期对最新重要数据进行备份,异地存放,避免不可预测灾害发生等特殊情况下造成数据丢失。

2.4 主机运检安全保障

为了在现有条件下,最大限度保障公司主机运行安全,提高主机运行率,保供运维人员通过对多年主机运检管理经验的总结,探索建立了以主动预防为主的“保健式”主机运检管理模式,极大提高了主机安全运行指标。

基于“保健式”主动检修的主机设备管理的核心思路是:只有防患于未然,才能将事故损失降低到最小。安全生产“安全第一,预防为主” 的思想,同样适于主机运检管理工作,基于“保健式”的主动检修管理模式对于防止主机故障发生,延长设备使用寿命,提高公司信息安全水平起到了重要的作用。

“量体裁衣”,提高设备运营效益是主机设备“保健式”主动检修管理的工作宗旨。

保供汇集多年主机设备运检经验,在完善主机设备基础数据的基础上,根据主机运行系统的重要等级、不同特点,建立《主机设备健康档案》,制定科学合理的“保健式”预防性检修策略,运检工作按照策略制定的周期,对设备进行不同项目的预防性巡检、消缺、检修。比如年度预试、月度巡检、周巡检、日巡视等,并用检查结果指导设备下一年度的巡检(主要指设备清扫,系统优化升级,文件、数据、磁盘清理,软件更新,病毒查杀,各种软件包升级等)、消缺( 主要指设备部件消缺)和检修( 主要指设备故障处理),确保设备最大限度的健康、稳定、可靠运行,并延长设备使用寿命和生命质量。

2.5 主机制度安全保障

任何一种工作模式的推广,只靠经验推动工作开展是不够的。保供将“全险式”主机安全管理模式和标准化工作相结合,编制修订了相关管理标准,修改、完善了主机运检、管理工作流程,使主机管理规范化、标准化。制定了设备等级划分标准,依据设备的重要程度将设备划分为不同安全等级。不断完善“全险式”主机安全防护体系建设,为开展主机安全管理工作奠定了坚实的基础。

保供将“全险式”主机安全防护策略形成一整套完善的主机安全保障支撑体系,包括《信息服务器管理》《班组专业管理》等车间级管理制度,以及实施“全险式”主机安全防护的作业指导书,涵盖主机从购置、上线、运行、退役的各个阶段。在这些制度、技术规范中明确了从设备新购验收,到设备使用过程中的“周期巡检”、“消缺”、“故障检修”直至“报废”整个生命周期的管理,工作流程明确,作业指导详尽,为实施“全险式”主机安全防护的全过程管理提供了可靠的理论依据。

通过实施“全险式”主机安全防护支撑体系的建设,降低了保供主机设备故障次数,提高了主机设备的可用率、运行率,确保了公司主机安全管理工作的高效、有序开展,提高了主机安全管理工作水平。

3 结语

通过“全险式”管理,保供主机安全运行指标表现突出。2014年未发生因主机故障造成的信息系统停运事件,主机运行率>99.5%,缺陷及时处理率100%,各项指标均达到或超过预期目标。

随着时间的推移,主机硬件设备和软件技术在不断升级、更新,产品质量和性能逐年提高;秉承与时俱进的理念,“全险式”主机安全保障体系也根据实际情况在不断改进和完善。

主机安全管理是一个逐步完善的动态管理过程。“全险式”主机安全保障体系的建立和实施,使保供主机安全管理由原来“相对独立”的单一措施向“综合治理”迈出了重要一步,为提升保供主机安全管理水平,保障信息系统安全稳定运行,提高企业经济效益、社会服务水平做出了贡献。

猜你喜欢

备份信息系统故障
“备份”25年:邓清明圆梦
VSAT卫星通信备份技术研究
企业信息系统安全防护
创建vSphere 备份任务
故障一点通
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
旧瓶装新酒天宫二号从备份变实验室
奔驰R320车ABS、ESP故障灯异常点亮
基于SG-I6000的信息系统运检自动化诊断实践