基于大数据技术的智能安全运维管理平台建设
2022-07-05孟巍
摘要:交银租赁信息系统拥有多个不同版本和类型的组件。运行维护人员和管理人员在运行事件发生后往往忙于系统抢险和应急处理,难以对每一项资产进行高频率的人工检查。究其原因,主要是这些资源的软硬件结构复杂,维护过程烦琐。目前,故障处理主要依靠人工排除故障。基于此,文章介绍了基于大数据技术的智能安全运维管理平台,旨在实现对企业IT资产的快速有效管理。
关键词:资产监控;智能运维;日志采集;实时告警;大数据分析中图法分类号:TP311
文献标识码:A
Construction of intelligent security operation and maintenance managementplatform based on big data technology
MENG Wei
(Bocom Financial Leasing Co.,Ltd.,Shanghai 200000,China)
Abstract:At present, the bocomleasing IT system includes many components of different versions and types. Operation and maintenance personnel and management personnel are often busy with system rescue and emergency treatment after operation events, so it is difficult to conduct high- frequency manual inspection on each asset. The main reason is that the software and hardware structure of these resources is complex and the maintenance method is cumbersome.Troubleshooting mainly depends on manual troubleshooting. To sum up, this paper proposes and implements an intelligent security operation and maintenance management platform based on big data technology. The platform can realize the rapid and effective management of enterprise IT assets.
Key words: asset monitoring, intelligent operation and maintenance, log collection, real time alarm, big data analysis
1 引言
依靠傳统人工检查的工作方式,工作被动且效率低下,故障检测效率低,容易遗漏,不能快速有效地进行检测。为了解决上述问题,本文提出了基于大数据技术的智能安全运维监控管理,其能够将监控和运维过程中产生的数据进行整合、收敛、规则处理、自动化分析,并利用大数据等新技术更快、更全面、更准确地对系统数据进行分析和挖掘,以生成知识库,这不仅可以对处理问题的过程进行指导,还可以逐步对故障进行预判,从而“变救火为防火”。
2 交银租赁安全运维监控现状分析
近年来,交银租赁旗下的业务场景逐步变多,与之对应的机房内的网络环境也变得越来越复杂。如何高效、可靠、稳定地维护机房内的设备,成为越来越迫切的任务。目前,大部分监控运维系统都停留在“发现问题”上,但是如何解决或者如何能够更好地预防故障还都需要技术人员凭借自己积累的经验来解决。该方式费时费力,而且容易出错。交银租赁信息系统主要存在的问题包括网络环境越来越复杂、故障排除需人工参与、各个维度数据不能有效整合。
3 交银租赁大数据技术应用
3.1 面临的挑战
在大数据技术集中化趋势日益明显的背景下,大数据在企业运维管理中的新探索和实践方向是构建具有实时采集和海量分析能力的智能大数据运维系统。借助大数据技术,可以提升运维能力,实现事前及时预警、事后快速追溯等。
结合交银租赁生产运维的实际情况,交银租赁发起智能运维大数据平台项目,针对设备监控,实施日志智能检索分析、异常检测和辅助预警等功能的建模与开发。开发完成后,将交银租赁的所有运维数据完成数据集中(包括数据治理)处理,并且完成基于大数据技术的分析模型,帮助相关人员提高运维效率,并有效降低故障发生率。
3.2 交银租赁大数据运维体系
与传统信息系统相比,大数据智能运维管理平台的工作重点有较大的区别。通过运用多样化的方法和手段、技术和系统、流程和文档,对系统、人员、软件运行环境等多种资源进行管理,确保大数据信息系统高效稳定运行。因此,大数据智能运维管理平台的运维体系建设主要包含以下几个方面。
(1)平台架构
大数据智能运维管理平台的构建主要包括设备层、采集协议、消息管道、数据处理、模型建立、业务展现等模块(图 1)。其中,设备层是所有数据的源头;采集协议将采集到的数据传给数据处理层,最后将用户想要的数据展示给用户。
(2)平台运维任务
传统信息平台的运维任务完成效率与大数据智能运维管理平台的运维任务完成效率存在较大差距。传统信息平台由一台或多台服务器组成,而大数据智能运维管理平台由多台服务器集群组成。如果硬件设备出现故障,将对传统信息平台产生很大影响,如影响其正常运行。对大数据智能运维管理平台而言,如果由于底层故障导致数据备份不足,其服务会自动复制,进一步提升信息的使用价值[1]。66DBC426-1084-4E1A-B9AE-31DE04CCCD64
(3)平台搭建
由于交银租赁网络环境的特殊性,生产环境中各个网段之间通过防火墙等网络安全设备进行了逻辑隔离,因此大数据智能运维管理平台采用双机分布式的方式来部署服务器。该方式首先会部署两台服务器作为双机热备,以提供页面访问功能,然后会在各个网段部署相应的监控及运维节点,这些节点可对各自网段的所有设备进行数据采集及故障解决,并将最后的数据反馈给主服务器,由主服务器进行数据处理,以供用户访问。
通过大数据智能运维管理平台的实时监控预警联动,有助于提高企业的运营安全和效率,为企业的日常发展和业务运营提供保障,并提供安全可靠的基础设施监控。
4 交银租赁智能安全运维管理平台
交银租赁基于大数据技术安装智能安全运维管理系统。该系统拥有数据采集层、大数据处理层以及 Web 应用层。其中,数据采集层拥有用于采集主机、存储器、网络资源的采集工具以及用于采集 Web 应用层数据的专项采集程序;大数据处理层用于对采集层采集的各项数据进行分析,以生成运维指标,智能分析运维指标后,将有效的运维指标写入数据库中;Web应用层从数据库中读取数据,并在前端进行展示或者管理。
4.1 平台架构
智能安全运维管理平台由身份认证管理、资产管理、资产监控和日志数据采集、合规安全处理、大数据分析、实时监控告警、智能运维策略推荐、统计分析报表等模块组成(图 2)。该平台将设备监控和采集获取的数据进行合规处理并存入数据库中,方便采用大数据方法进行离线分析,对分析所得的异常数据进行告警及调用自动化脚本处理故障。最终将该故障现象及处理过程存入知识库中。
4.2 平台的关键功能
(1)身份认证及访问管理
智能安全运维管理平台为客户构建统一身份认证管理系统,其中包括构建统一的组织账户信息系统,支持多级、区域等多样用户组织管理以及用户身份全生命周期管理,采用灵活的账户安全配置策略,从而达到账号集中管理、角色有效划分、资源权限细分的目的,并细粒度授权、认证方式灵活[2]。
(2)资产配置管理
智能安全运维管理平台可提供自动发现 IT、配置核查、基线管理等功能,实现对企业整个 IT 资产的主动管理,包括服务器、路由交换机、防火墙、应用、虚拟化等设备库;实现资产全生命周期的全流程管理。帮助企业全面掌握信息资产的分布,从而降低运营成本、提高运营效率。
(3)资产监控及日志收集
该部分包括资产的定时主动监控、设备故障日志收集、日志收集、中间件等应用软件日志搜集。该平台使用高性能采集器,分布式地收集不同采集对象的数据。对支持snmp协议的操作系统、网络设备等,采集频率可达60次/分钟;单采集器的日志处理能力可达 5000EPS ,且可以集群的方式横向扩展。
智能安全运维管理平台能够对传统 IT、私有云、公有云、混合云等基础设施进行全方位、多维度、可视化的统一管理,结合实时性能监控、高性能事件处理以及多方式故障预警,帮助用户全面掌控网络状态和异常情况,深入检查性能瓶颈和风险,快速定位技术故障及可能影响范围。
(4)网络拓扑实时监控告警
智能安全运维管理平台可将资产自动生成网络拓扑,并且通过设置的规则,能够将实时监控与阈值告警的结果在网络拓扑上进行展示,使核心资源及核心业务服务运行状况一目了然。
(5)数据合规及安全处理
该部分主要是对上一部分采集到的数据进行自定义规则过滤。
(6)实时告警
该部分主要是对采集到的数据按照预先设置的阈值规则进行匹配,如果匹配成功就产生事件,并发送对应的告警给管理员;反之,如果设备恢复正常则要产生恢复事件给管理员。
针对异常告警是本平台最重要的工作之一,其提供了邮件、短信等多种告警方式,并且可以分别采取不同的告警策略。
(7)安全运维及综合审计
根据知识库中构建的策略选择系统内置的自动化运维脚本进行故障修复,并记录运维日志,以完善知识库。
智能安全运维管理平台在简化科技人员日常运维的同时,全面解决各种复杂环境下的运维安全问题,提升企业整体 IT 运维管理水平。可实现对运维人员的访问过程进行授权和记录,对日常操作的全过程进行管控,运行审计和过程回放,实现运维过程“事前预防、事中控制、事后审计”,筑牢信息运维的安全防线。
(8)自动化运维
智能安全运维管理平台系统自动化运维主要是针对 Windows ,Linux ,AIX 等系统的自动化安全检查及修复建议,以及 CMDB 配置项的发现和属性采集,由六大部分组成。
5 效果评估
通过部署双机分布式安全运维管理平台,服务器资源得到了有效利用,并节省了服务器的计算资源,而且单台服务器的存储资源也节省了15%。此前,单核处理器每秒能够传输3000条数据。部署安全运维管理平台后,每秒能够传输6000~ 8000条数据。而且,在服务器单独空跑,即不加任何計算时,单核处理器每秒能传输近1 万条数据。同时,很少触发 ES 保护机制,原因在于数据进行了分流。
6 结论
本文提出了一种基于大数据技术的智能安全运维管理解决方案。该方案在实际运行中着重解决了以下三个问题:(1)“实时告警+故障处理”,可以快速高效地解决设备运行时产生的问题;(2)将日志收集、资产监控、运维三大板块有效结合,实现设备故障的闭环处理;(3)基于大数据技术构建知识库,有助于提前预防故障,杜绝安全隐患。不过,目前该方案只支持对部分常见设备进行有效运维管理。后续随着算法的优化及设备相关信息的全方位分析,会逐步实现全网设备的智能安全运维管理。
参考文献:
[1] 刘志勇,何忠江,阮宜龙,等.大数据安全特征与运营实践[J].电信科学,2021,37(5):160?169.
[2] 王俊,李咸宁.基于人工智能的计算机大数据安全技术平台构建[J].科学技术创新,2020(34):73?74.
作者简介:
孟巍(1984—) ,硕士,工程师,研究方向:信息安全。66DBC426-1084-4E1A-B9AE-31DE04CCCD64