APP下载

沧州银行智能运维监控安全体系研究

2024-01-26惠云龙

中国集体经济 2024年4期
关键词:运维监控智能

惠云龙

摘要:文章从理论和技术的角度,探讨了金融行业“智能运维+安全监控”的建设。通过分析大数据、云计算等关键技术在金融行业中的应用,阐述了智慧运维安全体系对于提升效率、提前预知及实现运维工作自动化、数字化、智能化的重要性。同时,强调了智能安全监测监管的必要性,以确保多种安全运维场景的切实应用。文章展望了智慧运维安全体系在金融行业的发展前景。

关键词:智能运维监控;数据类;安全体系;3D视角

一、项目背景

在金融科技迭代的推动下,科技赋能服务正在带动金融机构数字化转型,助力数字经济高质量发展。党的二十大擘画了全面建成社会主义现代化强国、以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图,互联网在便利群众生活、孕育创新创造、推动产业升级和促进高质量发展的同时,也带来新的挑战。新时代新征程要深入学习贯彻习近平总书记关于网络强国的重要思想,高度重视信息化、数字化发展,树立系统观念,做好管网治网的重要部署,不断完善网络综合治理体系,推动网络综合治理效能持续提升。

对于城市商业银行来说,早年间,高度集中式的应用运行在纵向扩展能力很强、稳定性非常高的IT基础架构上,近年来,随着新技术的不断迭代,大数据、区块链、云计算、人工智能等数字科技带来的科技创新,发现发展数字金融有助于推动金融服务重塑升级和企业转型发展,也能进一步赋能实体经济高质量发展,但伴随的是需要在保证现有底层具备更强的横向扩展能力和动态伸缩能力的同时,还需要寻求更高级别的系统安全性和可靠性。综合近年情况,城市商业银行科技发展在信息安全运维面临挑战。

(一)运维难度增加

IT环境异构,业务系统繁多,无法快速适应复杂环境下业务系统的监控,同时由于IT资产规模大且分散,管理困难,缺少可视化管理产品与可靠的技术手段,导致故障定位效率不高,系统出现波动时,根因排查难度增大。

(二)跨部门协作困难

因新业务形态的产生和岗位职责的变动,在实际工作开展中,各部门职能难以清晰界定,部门间协作存在客观难度。如何要求业务部门配合安全监管、如何提高工作效率及服务质量、如何确保事件处置及故障定位、明确每一件事情由谁负责及事件处置等难题需要根据行业先进经验进行系统性规划。

(三)自动化程度不高

运维工作缺乏系统化、规范化、自动化,线下运维工作如何切换线上,如何合理释放人员内驱力公平公正绩效考核,降本增效的同时又如何保障服务质量与满意度,成为运维工作的难题。

(四)业务的复杂诉求与组织转型困境

随着业务系统的敏捷转型,行业内正构建科技与业务融合的架构体系,技术团队如何从烦琐耗时的监控工作中剥离,扩展团队技术域,以适应业务转型需求,体现信息科技价值是工作的重点内容。

(五)安全管理需求

隨着信息安全需求的不断增长,行业内IT系统的管理人员逐渐发现他们迫切需要掌握多种安全知识和技能,需要更广的知识面和更深的安全技能,从而做到对全网安全形势的有效把控才能应对未来的数字发展。城市商业银行IT人员不足已是常态,安全技术对专业技能苛刻的要求,导致真正懂安全的人才更是少之又少;现今市场上的专业化安全产品名目繁多,不同产品在日常使用、配置维护、管理分析及防护方向上都有很大的差异,管理起来相当困难。于是依托于各类基础安全措施,建设上层的安全管理的专题平台需求愈发强烈。

综合以上挑战,本文作者经多轮研讨,探索建立融入安全内容的智能运维监控系统,辅以专业化值守团队是一条成熟捷径,可在最小成本内提高自身IT整合实力,可持续提升金融服务水平,为银行数字化转型和高质量发展注入强劲的科技动能。

二、智能监控系统建设

随着IT运维管理目标、管理范围、管理对象、管理深度的转变,IT运维安全平台的建设呈现管理一体化、运维自动化、安全智能化、业务可视化及端到端敏捷化的关键趋势转变。沧州银行拥抱新技术,结合开放的生态体系,建设面向业务服务和安全运营的智能运维监控系统,融合基础架构资源的全面管理,以业务场景为导向提供灵活的自动化编排,实现灵活的IT服务管理及资源管理。

(一)融合基础架构运行监控管理(IOM)

智能运维监控系统最底层是IT基础设施层,即平台的被管对象。它包含银行运行管理的所有管理对象,包括网络设备、服务器、计算存储资源、系统应用软件、中间件、虚拟化资源、访问行为、安全日志等,能够对网络、系统、主机、存储、应用、虚拟化等IT基础设施资源进行统一监控管理(包括监控配置与定制化展示)、统一告警管理、统一报表管理。对于成千上万条重要指标该系统通过自学习的方式生成动态基线阈值,允许手工指定某些时间段的基线值,以符合系统实际的运行情况,同时要针对警报事件进行智能过滤、压缩、合并、去重,最终聚合成一种高级事件即故障通知银行管理人员去处理,实现精准报警,减少警报噪声,降低信息干扰。

1.运行监控管理模块

运行监控模块是智能运维监控系统的重要数据来源,实现对IT基础架构统一监控,通过代理或免代理的方式实现数据采集和数据处理,实现对被管理运行对象的实时监控,掌握运行资源的配置状况、监控对象的运行状态和性能数据,同时支持自动发现网络中的所有网络设备与网络拓扑的自动生成,针对不同的拓扑展示需求,支持拓扑图自定义修改,包括设备的增删、链路的修改等。

智能运维监控系统总体监控实现数据中心所有IT资源的全覆盖,完成设备实时运行状态、性能数据、主备线路流量的全部监控,可以实现设备问题的第一时间感知,为业务故障恢复争取黄金时间,降低业务中断时间,提升用户满意度。

2.日志分析系统模块

日志收集与分析系统是对网络流量、设备日志、审计日志等多种数据源进行高性能、多场景采集分析并生成告警事件,以主动监测、智能分析、集中管控、协同联动、统一管理为表征,专注于对日志分析、异常行为、攻击、违规的管理和风险的感知,实现信息安全环境的一体化分析与管理。

3.流量分析模块

流量分析对于银行业运维工作十分重要,可以提供网络流量的实时监测和分析,帮助快速识别和解决故障,实现安全监测和威胁防御、优化容量和性能,并提供高质量的服务体验,为业务发展创新提供数据支持。智能运维监控系统的流量分析模块可方便、快捷地实现链路、主机、应用等多种类型流量的可视化与成分分析,可以查看流量组成及使用占比,便于快速发现流量突发主机、链路及查询检索特定的流量构成,实现行内基于流量的数据分析与风险管理,确保系统运行的高效性和稳定性,保障银行系统和客户资金的安全。

4.3D机房模块

银行的机房安全是至关重要的,3D机房管理系统可以通过实时监控和分析,帮助运维人员对机房的安全管理和风险评估,提高机房的安全性和防护能力。3D机房可以实时监控银行的IT设备、机房容量、机柜环境、综合布线、配电功耗等关键设施,实现各地市分行机房的统一,集中展示机房情况,运维人员可以直观地了解整个机房的运行状态。通过集成动环系统,实现对包括温度、湿度、电力消耗等设备的连通性与性能数据采集,这样可以及时发现故障和异常情况,提高运维团队对机房的监控和管理能力。最后,3D机房管理是一个完整的、网络化、可视化的三维虚拟环境设计及展示平台,通过整合机房实时信息及资产信息,真正使IT管理者的管理步入虚拟现实领域,是提供给IT管理者最为直观的一种网络可视化管理工具。

(二)配置管理数据库(CMDB)

CMDB模块是智能运维监控系统的数据基础,实现对IT资产的全生命周期管理与配置,既能从监控纳管中实现设备信息的自动发现及同步,又能进行配置类资产信息的录入与管理,同时,CMDB 可以识别和管理配置项之间的关联关系,如层级关系、依赖关系、部署关系等,通过配置项之间的关联性,可以更好地理解整个IT系统的结构和相互作用,从而更好地管理和调整配置。CMDB又能与监控模块、ITSM(IT运维流程管理)、3D机房模块集成,为上层应用不同的数据消费场景进行数据供给。

(三)自动化运维管理(AOM)

自动化运维模块是智能运维监控系统的主要功能之一,实现了IT设施任务处理的自动化,提高效率和降低风险,促进行内运维组织的成熟和各种能力的升级。智能运维监控系统自动化模块实现网络资源管理平台中所有IT设施的运维自动化,包括网络配置、设备准入控制、自动化配置备份等功能,同时还提供自动巡检、应用部署、补丁升级、合规检查等多种自动化场景的识别与落地,可支持网络资源管理平台未来的功能拓展需求与把握发展方向。

(四)业务服务管理(BSM)

业务管理模塊是智能运维监控系统的重要组成部分,是IT基础设施管理的完善和深入,能促进IT与业务的加速融合,使行内的运维部门、业务部门与资源之间很好地形成一种架构,以业务为中心,以部门为导向的方法,来处理业务对IT的需求。智能运维监控系统将所有IT资源整合到一个综合平台,进行管理,获取监控管理模块的数据采集及数据处理信息,在此基础上搭建业务模型,展现业务的整体运行情况,拉通基础设施、业务应用、最终用户三个层次数据的能力和推手,通过业务可视化视窗(BVD)全面掌握业务系统整体,进行业务预警和快速发现IT系统的根源故障。同时还提供了容量管理分析与预测功能,进行容量的统计分析,支持运营支撑报表在线查询、导出等功能,为业务系统的规划和优化提供可视化的数据支持,以确保系统长久运行的高效性和稳定性。

(五)IT服务管理模块(ITSM)

ITSM系统是智能运维监控系统的管理核心。作为IT管理咨询落地的重要工具,能实现以沧州银行重点运维业务为中心,以流程为导向的理念和目标,实现业务闭环。通过标准化、自动化和集成不同的IT服务管理流程,提供高效、可靠和稳定的IT服务能力,实现提升运营效率、降低风险,并提供更好的用户体验和满意度。同时ITSM实现了行内运维知识的管理与存储功能。确保行内技术人员能不断跟进技术更新和趋势,以确保人员技术的持续稳定性和可用性,用以快速响应业务变化,尽快实现业务上线和迭代。

(六)网络安全管理模块TOB

网络安全管理模块是通过丰富的事件分析策略对全网的安全事件进行全方位、多视角、大跨度、细粒度的实时监测、统计分析、查询、调查、追溯、地图定位、可视化分析展示等。每条事件分析策略就像是地图的图层,或者是Photoshop的滤镜,只展现出用户关心的信息,帮助用户快速从海量事件中筛选出重要的事件。借助这种分析过程,用户从传统的“条件编辑”式的分析体验转变为“策略选取” 式的分析体验,大幅提升分析效率。

网络安全管理模块可以是整体体系的一部分,也可以从智能运维安全体系中独立出来自成一套体系,与运维监控相辅相成,从保密、完整、可用性的安全视角来审视和保障银行内业务及数据运行的稳定性。

网络安全管理模块以业务信息系统安全为保障目标,加强各个方向的摸排梳理,统筹分析,从监控、审计、风险、运维四个维度对全网的整体安全进行集中化管理,建立一个可视、可查、可度量与可持续的安全管理新平台,以应对不断变化的安全威胁和风险。一是通过实时监控系统来获取业务信息系统的运行状态、网络流量和用户行为等信息,检测和识别恶意攻击和异常行为,以及及时采取必要的措施;二是对系统和网络的日志进行分析和审计,可以追踪用户的操作行为和系统的运行情况,以发现和防止潜在的安全漏洞和风险。三是对业务信息系统的风险进行评估和分析,以识别出潜在的安全风险,并制定相应的应对策略。同时对已经发生的安全事件进行溯源和分析,以防止再次发生类似的事件。四是对业务信息系统的运维进行规范和管理,以确保系统的稳定性和安全性。

对于日常安全运维而言,核心的工作就是对IT设施、网络及银行业务系统进行持续监测,并识别针对网络、主机、应用、业务、重要信息和人员资产性能故障、非法访问控制、非法或不当操作、恶意代码、攻击入侵、违规与信息泄露行为,确保网络、主机、应用、业务、重要信息和人员资产的安全。借助网络安全管理模块平台可以获得对全网安全的可视化,洞悉业务信息系统的运行状况与安全状况;可以对全网的安全事件进行综合分析与审计,识别和定位外部攻击、内部违规;可以进行业务系统的运行风险、访问权限、安全态势和日常管理建设水平度量;可以进行持续的安全巡检、应急响应与知识积累,协助行内安全运维人员进行安全监视、审计追踪、调查取证、应急处置、生成各类报表报告,成为客户日常安全运维的有力工具。

(七)事件辅助定位

随着应用服务粒度越来越小,各类服务数量越来越多,要了解这些应用之间的相互依赖关系以便能够定位到出现故障的服务,并最终找出根本原因。这就要求每一项服务、每一个指标都具备上下文语义信息,该平台应理解每一个数据所代表的意义及与其他指标之间的逻辑关系,通过对系统运行行为的分析,建立分析模型,对不同指标的历史数据进行挖掘分析,自动学习单个指标正常的行为模式,自动识别和学习各个指标之间的关联关系,持续跟踪发现异常并及时预警,实现监控辅助定位故障定位能力;还要借助成熟的算法技术,构建事件因果关系图模型和运行行为分析预测模型,通过不同维度历史事件数据、领域知识和相关信息对模型进行训练和学习,根据事件因果关系进行根因分析、故障定位和事件预测等。

(八)大屏管理

大屏展示系统从业务系统性能监控、系统监控告警信息、动环数据系统、流量分析系统及相关集成系统采集需要展示的数据。用于监控人员全面、实时掌握IT资源的运行状态,包括关键业务的健康度与告警信息、资产管理信息、容量分析信息、关键链路的流量信息及动环系统的主要信息等,涵盖了整个沧州银行体系内总、分、支行的设备运行维护情况,正所谓窥一屏而知全身。

三、监控值守团队

(一)监控平台运维服务

与第三方合作组建24小时专职监控制度,利用智能运维监控系统实现7*24小时平台设备监控;涉及网络、应用、系统、IT基础设施、动环监控等多个环节和内容,保障平台稳定运行,保障行内问题第一时间发现,风险第一时间处理。

(二)多技术域监控专属团队

从0~1迅速组建银行数据中心值守团队,优化组织架构与职能。现有值守人员实现7*24小时的值守监控覆盖,实现了专人专岗,释放银行人员的时间精力,有助于银行科技人员把更多精力用于关键信息科技工作的处理和自身技术提升上。

(三)运维流程与制度建立

结合沧州银行实际及ISO20000技术服务管理体系、定制化的运维流程,实现全流程跟踪的闭环;完善事件、问题的处理流程及安全运维制度,并建立值班内容要求;发挥服务台及时发现和快速响应作用,引入知识库,建立技术文档、手册、应急方案等内容,共享知识,提升团队整体水平,并将知识内容关联实际事件故障,发现故障根因,切实缩短处置时间,提升故障解决效率。通过专业值守团队的加入,完善了运维队伍,严格执行责任到人和重要工作的双人复刻制,有效避免了人为失误。

四、结束语

智能运维监控安全体系基于工具平台与专业值守团队配合,在实现运维的“监-管-控”一体化的目标上不断创新,实现组织、流程、自动化工具的有机融合,初步建设了以数据为基础、以技术为驱动、以组织为核心、以安全为目标的管理体系。

未来,沧州银行以自动化、数字化、智能化提升为目标,加强数字化基础设施建设,深化数字化智能运维监控安全体系建设,加速构建运维中枢平台,同步建设指标异常检测和容量预测等多种智能化场景,打造“智能监控+安全运营”团队,实现运維工作的组织效能与价值,以更好地服务业务创新发展,高质量助力数字化转型。

参考文献:

[1]施蓉化学分析实验室标准物质的使用和管理 [J].化工设计通讯,2021,47(03):118-119.

[2] 张珊珊,隋童飞.化学分析实验室标准物质的使用和管理[J].石化技术,2020,27(06):282-283.

[3] 杜洋化学分析实验室标准物质的使用中应注意的几个问题[J].江西化工,2020(03):267-268.

(作者单位:沧州银行股份有限公司)

猜你喜欢

运维监控智能
The Great Barrier Reef shows coral comeback
运维技术研发决策中ITSS运维成熟度模型应用初探
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
智能前沿
智能前沿
智能前沿
智能前沿
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长