基于大数据和机器学习的数据中心运维内控管理研究与实践

2022-05-30王慧

计算机应用文摘·触控 2022年12期

王慧

关键词机器学习大数据内控管理

结合长时间积累的运维内控管理经验，本文创新提出了“ 4P ” 运维内控管理理念，从人员画像（ Persona ）、规范分析（ Prescriptive ）、风险防范（Prevent）、行为预测（Predictive）四个维度，将之融入大数据运维内控管理平台设计和应用中，于全方位拓展运维内控管理的工作理念和管理思路，促使运维内控管理工作更具全面性、系统性和前瞻性[1] 。

1系统主体设计理念和实现功能

人员画像（Persona）：综合展示每个运维人员的工作现状、操作习惯、行为特征、合规情况等信息全貌，可视化展现运维人员360°立体式画像。

规范分析（Prescriptive）：全过程跟踪运维人员进出ECC 的行为交互路径，实现命令、操作和行为的过程回放和模拟复盘，精准定位不合规操作异动，提升运维内控的事后管理效率。

风险防范（Prevent）：对生产操作中的高危命令、违规行为、系统访问轨迹等进行实时监控和自动隔离，通过规则匹配方式强化运维操作风险防范，加固运维内控的事中监督机制。

行为预测（Predictive）：基于大数据存储和分布式计算环境，引入机器学习算法，挖掘海量运维数据中的潜在规律，提前预判变更行为和实施风险，强化运维内控的事前管理能力。

2基于大数据和机器学习的“4P” 运维内控管理平台设计

大数据运维内控管理平台将各运维监控平台、ECC 管理系统、ISO20000 流程系统的海量多结构化数据集中长久存储、分布式计算分析。总体系统架构由运维监控层、数据采集层、数据分析层、数据应用层和数据展现层构成，基于大数据架构，“4P”运维内控管理功能实现技术设计如下。

2.1面向运维内控管理的人员画像模型

人员画像作为一种能将定性与定量方法很好结合在一起的载体，通过定量化的数据分析获得对运维人员较为精准的认识，从而从庞大的运维群体将特征相似的群体凸显出来。进行归纳、分类、比较，进而对某个或某类现象的性质和特征做出概括，对人员行为进行规范性分析和预测。对可能出现的违规行为进行预先干预，从而消除由人为引发的风险。其具体实现可归纳为四个步骤。

第一步，设置用户标签。标签通常是人为规定的高度精练的特征标识，结合运维内控的实际特点，我们将人员画像的用户标签分为四类，分别是操作量、合规性、安全意识、关键程度。

第二步，数据集成。运维内控相关数据主要分为两类，即静态类数据和动态类数据。静态类数据即相对稳定的用户属性信息，可直接使用并转化为用户数据;动态类数据即不断变化的行为用户信息，可通过对接流程平台或运维数据仓库并加以甄别、过滤、清洗来获得。

第三步，数据建模。通过建立标准规则库，构建用户画像的数据模型，该模型公式可以简要概括为“人员基本属性+触发时间+行为类型+具体用户数据=用户标签评价”。

第四步，关联评价。为更为直观地描述用户画像特征，可以通过五星评级方式，展示用户标签的程度性，使得人员画像模型适用于横向比较。

2.2端到端的人员操作行为规范分析

规范分析是对已有的事物现象、事物运行状态做出是非曲直的价值判断，对应该具有的规范性和结果进行阐述和说明。在实际的运维内控实际操作过程中，对人员进入ECC 到离开的全过程进行记录。从登记进入ECC 到操作完成登记离开ECC 的全过程进行记录，对其操作内容能够全部记录并实时分析，一旦发现异动操作行为即终止操作。另外，能够对其在执行过程中的命令、操作和行为进行回放，规范分析其每一项操作的合规性。

2.3基于规则匹配的人员操作风险防范

人员操作风险防范是指风险管理者采取各种预防性措施和方法，消灭或减少风险事件发生的概率或者减少风险事件发生时造成的损失。大数据运维内控管理平台中，实时获取对数据库执行的每一条SQL语句、用户登录和退出信息、系统访问以及系统日志数据，基于预定义的规则库实时比对后，将结果输送给监控告警和报表展示，实现对高危操作实时监控、违规行为统计报告以及系统访问轨迹自动识别[2] 。

2.3.1高危操作实时监控

记录每一次对数据库直接访问和前台应用程序对数据库间接访问，每一条记录实时比对自定义数据库高危操作命令规则库，自定义策略的条件组合包括：访问数据库的库名、用户名、应用软件名称，访问端的IP 地址、操作系统主机名、操作系统用户名，访问操作时间、原始操作指令、操作回应内容、操作返回的代码，访问数据库的对象名等。

2.3.2违规行为统计报告

系统自动将标准化的系统日志转化为标准的可读事件，包含常见的系统安全相关的预定义规则，并支持自定义规则扩充，当系统日志中的相关记录匹配了安全事件规则后触发告警。

2.3.3系统访问轨迹自动识别

根据系统登录类型日志中的源地址、源用户名、目标地址、登录成功日志等信息，自动生成访问轨迹图，通过系统访问轨迹，发现非受控终端违规登录、跳板机、频繁登录行为等内控管理关注点。

2.4基于关联分析和分类算法的行为预测研究

在人类漫长的发展历史中，人类的行为并不是随机的，并不是泊松分布的，而是存在一定的规则。通过对大数据的分析可以看到人类的行为规则是基于优先级排布的问题。每个人都有自己的任务列表，而如何按照优先级排列顺序则产生了不同的影响。换言之，在大量的历史数据之上，人类的行为是可以被预测的。在這样一个理论前提下，数据中心基于大数据平台结合机器学习算法，对如下两个场景进行了尝试。

2.4.1监控报警导致的变更行为预测研究

监控报警与变更行为之间有某种必然关系，通常我们能够通过人为经验建立其一小部分关系。随着大数据技术的发展，使用关联分析算法在海量数据中进行挖掘成为可能，为我们带来更为全面乃至意想不到的结果。

关联分析是一种非监督式的机器学习算法，“啤酒与尿布”的数据挖掘经典案例要说明的即是这种算法。关联分析主要有两个关键概念，即频繁项集和关联规则。频繁项集（frequent item sets）是从所有对象组成的候选项集（items sets）中发现的经常一起出现的对象集合。其中，频繁的概念可以用支持度来定义。支持度（support）被定义为数据集中包含该项集的记录所占的比例，保留满足最小支持度的项集;关联规则（association rules）暗示两种事物之间可能存在很强的关系。关联的概念可用置信度或可信度来定义[3] 。

结合数据中心具体场景，即通过日常积累的大量系统历史告警信息及运维方案知识库，分析系统告警信息与变更处理方案间的关联关系，从而依据告警信息预测出未来可能发生的变更维护。我们将告警信息与变更都看作候选项集（Items sets，I），通过变更维护平台及工单系统得到监控告警与变更间的关联信息数据库（Database，D），库中每一项为一次事件（Transaction，T），如某次变更内容为文件系统扩容，通过变更管理平台上的信息得知此项变更是由于文件系统使用率超过90% 告警而引发。采用经典的Apriori 算法，从历史大规模监控告警以及变更信息中寻找两者之间的隐含关系。设最小支持度为20%，算法过程如下。

第一步，经过算法的第一次迭代，对事务数据库进行一次扫描，计算出D 中所包含的每个項目出现的次数，生成候选1?项集的集合C1。

第二步，根据设定的最小支持度，从C1 中确定频繁1?项集L1。

第三步，由L1 产生候选2?项集C2，然后扫描事务数据库对C2 中的项集进行计数。

第四步，根据最小支持度，从候选集C2 中确定频繁集L2。

第五步，由频繁2?项集L2 生成候选3?项集C3。

循环上述过程，直到Ck 为空，没有符合最小支持度的候选集合为止。

由此找到了频繁项集（frequent item sets），可以得出集合中系统告警信息与变更之间的支持度（support）与置信度（confidence），来描述告警信息A 与变更B 间的并集在所有事务集合中出现的概率support（A B）= P（A U B），以及所有事务中出现告警A 之后，出现变更B 的置信度P（B|A），即confidence （A B）。

通过上述方法，基于大量历史告警信息与变更行为之间的关联分析，得到告警信息与变更间的关联关系，当后续产生新的告警信息时，通过比对关联关系预测出近期可能出现的变更行为。比对预测结果与变更管理平台变更信息，为违规变更操作内控检查提供依据。

2.4.2 变更实施方案风险预测研究变更是影响系统稳定运行的重要因素之一[4] ，因此科学、全面评估变更可能对生产运行造成影响的实施风险程度具有重要意义，分类算法较适用此场景。

我们采用基于朴素贝叶斯的文本分类算法，将变更实施风险程度划分为高、中、低三类，通过历史变更信息以及对应实施风险高、中、低评判数据的训练学习以建立分类器，后续新变更产生时通过分类器预测其分别属于高、中、低实施风险的概率。

第一步是准备工作阶段。将变更步骤中详细的操作命令，进行分词及TF?IDF 计算，得到变更步骤中的命令及命令频率，某变更步骤就可以表示为向量d=（t1，t2，…，tk），tk 是该变更步骤中出现过的命令，通过变更管理平台结合已有知识库中的历史变更步骤及其实施风险（高，中，低），经分词得到训练样本数据。

第三步是应用阶段。后续有新的变更出现，通过分词方法得到文档向量d=（t1，t2，..，tk），采用朴素贝叶斯文本分类算法的多项式模型，结合先验概率P（risk）与类条件概率P（tk|risk），计算出P（risk|d）=P（risk|（t1，t2，…，tk）），即此变更方案的实施风险分别属于高、中、低三种情况的概率。例如，给定某变更方案，属于高风险的概率为0.005，属于中风险的概率为0.002，属于低风险的概率为0.003。

3结束语

大数据运维内控管理平台引入了大数据、机器学习等新技术，从数据中心日常运维积累的庞大多结构化数据中挖掘出对内控管理有价值的数据，分为人员画像（Persona ）、规范分析（ Prescriptive ）、风险防范（Prevent）和行为预测（Predictive）四个维度，强化运维内控的事前管理能力、加固运维内控的事中监督机制、提升运维内控的事后管理效率，实现了全面、精准、高效、量化的内控管理，为数据中心安全保驾护航。