APP下载

“大数据运维”信息系统运行维护探讨

2017-08-23孙永梅王红民

科技创新导报 2017年16期
关键词:系统维护信息

孙永梅 王红民

摘 要:信息系统是信息化的基础和重要内容,在信息化快速发展的今天,各类信息系统(本文重点描述非涉密信息系统)应运而生。为了使系统处于良好运行状态,充分发挥其工作效能,就必须要加强系统的运行维护管理(以下简称运维),在实际运维过程中要借助大数据的工具和思路,制定科学合理的运维计划和应急预案,提高信息系统的运维效率和质量。

关键词:信息 系统大数据 系统维护

中图分类号:TN913 文献标识码:A 文章编号:1674-098X(2017)06(a)-0164-02

1 运维对象

提到运维,必须首先明确运维对象,一是基础设施,包括机房(含有配电、UPS、温湿度控制、门禁等);二是服务器、小型机、磁盘阵列等承载信息系统运行的硬件设备;三是防火墙、防毒墙、WAF(应用防火墙)、网闸、负载均衡、IPS、抗DDOS攻击、APM(应用性能管理系统)、日志服务器、网管软件、备份系统等安全设备;四是操作系统、虚拟化软件、数据库软件、网络版防病毒软件等基础环境软件;五是互联网或与互联网逻辑隔离的专线网络(如国家电子政务外网或行业转线网);六是信息系统软件及软件在运行中产生的数据;七是信息系统的主管者、系统管理员、系统维护人员及系统用户,及其终端设备;八是系统的应急预案、巡检及故障处理优化记录等知识库资料文档。

2 运维数据

根据运维对象的分类归纳,运维数据包括七大类。

2.1 基础设施数据

机房的承重参数、环境温湿度、机房空调和UPS的功率及UPS延时时间和断电后温度上升速度和上限、进出机房的门禁记录和摄像记录等。

2.2 硬件设备数据

设备的配置参数(含CPU、内存、硬盘、电源及功率等)、设备上线日期、资产记录、保修期和维修记录、位于机柜内的具体位置、承载的实际系统清单以及设备巡检记录及外观报警记录等。

2.3 安全设备数据

安全设备的部署方式、启用功能、安全策略、安全设备的各项日志、数据流量、黑白名单等。

2.4 基础软件数据

各类基础软件的版本、补丁及升级记录、虚拟化软件和防病毒软件有效期限、系统的登陆日志、安全事件日志等。

2.5 网络数据

互联网或专线网络专线号、域名解析、系统备案信息、带宽、上联下联设备、系统整体网络拓扑结构图等。

2.6 信息系统软件及数据

信息系统的软件版本、历史版本和升级记录、系统数据及各个时点的系统备份数据。系统设计的用户数、在线规模人数、并发访问量以及系统数据的日均增量等。

2.7 信息系统的主管者、系统管理员、系统维护人员及系统用户等数据

信息系统的主管者、系统管理员、系统维护人员及用户清单(含姓名职务联系方式等),系统上线时间和升级记录、系统各相关干系人调阅数据、维护系统的申请和审批处理记录等。系统性能的峰值指标、峰值时段、闲值指标、闲值时段等。

2.8 系统知识库数据

各项运维管理制度、系统的应急预案和应急演练记录、巡检及故障处理优化记录等知识库资料文档数据。

综上所述,运维数据包罗万象,既有关系型的数据库数据,又有非关系型的文件、图片、影像等数据。运维数据量可谓海量。另外,各类运维数据之间又相互关联、相互影响、相互制约,摸清各类运维数据之间的关系对于提高运维效率和质量至关重要。比如:硬件设备的配置参数(如服务器的CPU、内存)、基础软件(如数据库的索引建立和优化)的优化参数、网络的带宽及网管软件的带宽分配和安全设备的安全策略以及信息系统软件自身效率处理等4大因素决定了信息系统的性能指标(系统设计的用户数、在线规模人数、并发访问量)。再比如:服务器硬盘故障灯告警,做了raid5的磁盘仍然可以保持正常运维,软件方面不会有任何故障提示,但是如果不及时更换故障硬盘,将为系统数据丢失埋下巨大的安全隐患。

3 大数据运维

3.1 统一安全管控平台

从客户实际环境出发,对全网的安全设备、网络设备、主机设备、数据库及应用系统的日志、事件信息進行集中收集和管理,结合客户最关注的信息安全痛点问题,通过强大的关联分析引擎制定关联规则,实时对客户现网环境进行监控和分析,对网络异常情况、系统脆弱性、黑客入侵、违规操作等安全事件实时报警,并通过友好的展示界面进行展示,使得不同层次的管理人员都能从平台中查看到自己最关注的安全信息。平台由据采集层、分析处理层、安全展现层及及其对外接口组成。

数据采集层:主要对各类安全资源、对象的安全事件、安全配置、安全漏洞、资产信息等数据进行采集,此类信息一般通过Syslog、SNMP Trap、File(FTP或SFTP)、ODBC、XML等标准协议。

分析处理层:主要是对系统采集到的各种设备的信息进行存储和分析处理。包括信息的过滤、归并、关联分析,从海量日志中分析潜在的安全问题,产生安全告警,结合资产价值和脆弱性进行综合风险分析。

安全呈现层:对采集分析数据进行统一呈现,提供相应的Portal登陆查看、操作界面,实现资产管理、报表管理、系统管理、安全告警管理、脆弱性管理、风险管理、知识库管理、运维管理等。并对不同的管理人员提供不同的展示界面,系统管理人员最多点击三次操作就可以定位到安全事件的根源。

外部接口层:提供与支撑系统、专业安全系统的外部接口。

3.2 综合网管软件

网管软件不能仅停留在设备管理层面,它应该能进一步深入的对服务器和应用系统进行监测和管理。采用友好的使用界面,这样就可以远程协同维护和管理,实现分布式大规模网络的集中层级管理。现在流行的一类网管软件,采用非代理模式,这样就避免了传统的“Agent”模式的繁琐和重复性劳动,而且便于实施和后期维护,极大地节省了工作时间和工作繁杂度。网管软件必须做到对网络中每个关键应用的监测和管理。这样,管理人员可以迅速对其应用系统、服务器或设备进行定位,检测各关键应用信息系统运行是否正常。

先进的网管软件还能提供美观的网络应用拓扑图,对应用系统的流程进行逐步监测,当系统异常时,通过颜色变化及时定位和提示应用系统故障。另外,主动式的网管系统是发展方向。网管系统本身具有强大的预故障处理功能,并且能够自动进行故障恢复,尽一切的可能把故障发生的可能性降至了最低。好的网管系统应该让网管员忘记了这套系统在网络中的管理。

针对海量的运维数据,既要利用现代化、可视化的大数据工具,又要充分发挥系统开发者、维护者的经验智慧,从海量、繁杂的数据中挖掘出相互关联的规律和影响制约关系。对于制定科学的运维计划、设备及软件更新计划、应急预案等极有针对性和科学性,是缩短系统故障时间、提高运维效率和质量的必要保证。

参考文献

[1] 李大伟,刘飞飞,李薇薇.信息系统运行维护的八大意识[J].中国信息界,2011(3):51-52.

[2] 李培林.对信息系统运行维护管理的探讨[J].机械工业信息与网络,2013(10):54.

[3] 田雨.信息系统运行维护管理模式探讨[J].中小企业管理与科技旬刊,2015(9):227.

猜你喜欢

系统维护信息
SCHMID语音交换系统维护与维修案例浅析
中间站调车监控系统维护台的设计与实现
短波发射天线系统维护方法探讨
降低高速公路机电系统维护维修成本探索
智能PDA在集抄系统维护中的应用
光纤通信传输系统维护中的几项测试
信息