基于贝叶斯和大数据分析的业务连续性风险管理
2021-11-29卢士达张露维吴金龙朱旻捷蔡瑞奇
卢士达,张露维,吴金龙,陈 艳,朱旻捷,蔡瑞奇
(1.国网上海市电力公司信息通信公司,上海 200436;2.国网上海市电力公司,上海 200122;3.上海服泽能源科技有限公司,上海 200001)
1 云数据中心容灾备份研究现状
业务连续性保护在国际上备受关注,是由多学科交叉的新兴前沿研究的热点领域。针对关键风险因素对业务连续性的影响,构建风险评估模型,基于大数据实现状态、阈值、趋势、评价等风险预警的云服务技术;提出保障电网云数据中心业务连续性的风险管理机制;研究业务运行过程中的故障精准定位等故障止损技术;构建基于监控软件的应急恢复策略及技术。但目前缺少适应云环境下容灾备份的业务连续性风险分析与评估方法[1-5]。
面向云环境下容灾备份的业务连续性风险分析是一个较崭新的研究领域,此前还没有形成通用的风险评价体系的设计和风险分析评估模型,在缺乏通用的业务连续性风险分析指标评价体系和评估模型的情况下对业务连续性进行研究是比较困难的。
2 业务连续性分析与保护
2.1 风险管理的方法与内容
项目风险管理主要有控制型和财务型两种方法。
(1)控制型风险管理方法。降低风险发生的概率,也就是从根本上解决问题,控制造成风险发生的因素,减少风险因素的存在。在遇到风险时,将风险的来源、产生原因分析出来,然后根据风险分析的结果,制定对策,解决风险并寻找从源头消灭风险的办法。在风险发生前,减小风险发生的概率[6-9]。
(2)财务型风险管理方法。虽然不是所有的风险都是可控的,但是许多风险都具有不确定性,例如自然条件下造成的风险。由于人们并不能有效预防风险的发生,在风险必然发生的情况下,可以假设风险随时到来,做好一切准备措施,使风险来临后造成的伤害最小化,并且做好灾后恢复准备工作,可在最短的时间内恢复过来。
风险管理主要可以分为风险识别、风险评估和对策制定三个部分。简单来说,就是先识别出风险的类型,然后评估风险的大小、来源,最后根据分析结果制定对策,应对风险。
2.2 灾备体系的构建
一般来说,灾备系统的运维对象为:①基础设施;②IT系统。灾备系统的运维过程设置为:①日常运行维护;②应急和恢复;③接替生产运行维护。
灾备恢复业务和其他的业务不同,平时不会发生,但是如果风险来临,灾备恢复业务就会变得尤其重要,因此对灾备中心的运营管理提出了特殊的要求,具体如下。
(1)“7×24×365”的要求。由于不是所有的灾难都是可以预测的,没有准备地遭遇灾难会让灾难破坏力达到最大,灾备恢复应该做到时时刻刻不间断待命,以备不时之需。
(2)“小概率,高风险”的管理要求。虽然许多风险都可以被抑制,但是没有被发现、没法根治的灾难才是最关键的,不能因为发生概率小而放松警惕。
(3)工作重复性强。由于需要反复演练以及反复检查设备,因此工作的重复性很强。
(4)“演练为主,实操为辅”的日常管理要求。同理,因为使用到的概率小,所以灾备管理需要经常演练,保持对灾备业务的熟练度。
(5)质量控制难度较大。因为平时工作主要为演练,所以想要控制好质量是一件比较困难的事情。
因此,为了保证灾备中心灾备恢复业务的运行维护质量,建议以ITIL为基础建立管理体系和设定管理流程,并且引入ISO 20000、ISO 9001、BS 25999、ISO 27001等国际标准管理体系的理念,从日常运行操作管理、问题管理、变更管理、应急响应、恢复管理等方面入手,搭建符合自身运行的灾备中心灾备管理体系。
2.3 业务连续性风险评估模型的构建方法选用
数学知识和结果评估,在最开始是由模型发展而来的,因此使用其建立模型可以很好地反映实际的问题,而且将风险数据化会对分析风险起到很大的帮助。针对云数据中心风险评估模型的搭建,从用数学知识进行分析的角度切入,选择将贝叶斯网络法当作主要工具,然后用云日志大数据分析的方式解析风险。
贝叶斯网络擅长于分析不确定性和概率性的事件,可以从不完整、不准确的信息中进行推理,得到结论。同时,该网络与风险的不确定性十分契合,因此使用贝叶斯网络来搭建风险评估模型。
3 基于贝叶斯网络构建风险评估模型
3.1 贝叶斯网络与模糊集理论
贝叶斯公式是贝叶斯网络的基础。贝叶斯网络的定义为在某事件发生时,另一事件的发生概率。贝叶斯网络通常由两部分构成:贝叶斯网络结构,就是将代表随机事件的节点使用有向边连接起来,构成有向无环图;贝叶斯网络参数,它是对BN的定量分析,用来表示网络节点之间的连接强度。
在具有动态故障信息的混合故障特性下,其诊断性能将受到限制。基于此,针对混合故障信息下的多故障分类问题,本研究提出了一种基于动静态信息协同分析的分布式贝叶斯网络在线故障诊断方法。通过动静态信息的有效结合,深入挖掘故障特性,多方面提取故障特性;然后基于故障特性进行合理化分组,建立分布式的诊断子网,对混合故障信息进行解耦,进一步完成对多故障分类识别中故障类型的精细化诊断。
模糊数可以有多种形式,在风险评估中经常使用的有三角模糊数、LR型模糊数、梯形模糊数等。在研究中为了降低整体的复杂程度,选用较为方便、简洁的三角模糊数作为事件的隶属函数。
3.2 贝叶斯网络与模糊集理论的结合
将模糊集理论的相关概念更深地加入到贝叶斯网络中,使模糊贝叶斯网络能对模糊问题、不确定性高的问题以及多态问题进行有效处理,这种应用可以将BN节点变量转化为模糊节点变量[10-14]。
3.2.1 模糊贝叶斯网络表示
将假定所研究的系统用X={x1,x2,x3,…,xn}表示,然后用ui表示xi所有可能的状态集。
假设xi∈X,xi可被模糊化为模糊随机变量ui,并且xi的状态可能被模糊随机变量ui继承,则推出xi的模糊集:
Ui={ui1,ui2,ui3,…,uik}
(1)
式中k——ui的模糊状态数;uij——ui的第j个模糊状态,Uij={xi,uij(x)|xi∈X}。
其中,xi,uij(x)为变量xj位于ui中第j个模糊状态uij的程度,用uij在给定xi条件下的概率表示。
假设U={u1,u2,u3,…,un},用有向线段表示变量中的因果依赖关系,即:
L={(ui,uj)|i≠j,i=1,2,3,…,n,j=1,2,3,…,n}U×U
(2)
用条件概率表示,即:
P={P[ui|π(ui)]|i=1,2,3,…,n}
(3)
式中π(ui)——模糊变量ui的父节点集合。
综上所述,推出模糊贝叶斯网络:
FBN={U,L,P}
(4)
3.2.2 模糊贝叶斯网络知识推理技术
模糊贝叶斯网络推理分为预测推理、诊断推理和支持推理三种形式。
使用模糊贝叶斯网络知识推理技术能够将各子系统或组成部分在系统正常时起到的作用进行定量分析,并且可以快速计算出其正常工作时的概率以及系统故障条件下各子系统或组成部分出现故障的概率,最终可以做到迅速有效地识别系统中防御薄弱的地方,保障系统的正常运行及维护。
3.3 风险评估模型的构建
现阶段模糊贝叶斯网络的建模方法是使数据学习建模和人工建模相结合,将两种方法的优势发挥出来。由人工搭建模型,通过样本数据学习修正人工搭建的不足,最终确定模糊贝叶斯网络。但是样本数据学习这一阶段缺乏大量关于云数据中心业务连续性的样本数据,在没有数据支持的情况下,本研究选用ISM构建模糊多态贝叶斯网络结构。
ISM能全面、准确地描述云数据中心业务连续型影响因素的组成,以及影响因素之间的关系。因此,将ISM确定结构模型更换为模糊多态贝叶斯网络结构,能充分发挥解释结构模型在系统安全分析中的优势,构建出更加科学合理的模糊贝叶斯网络结构。
由于ISM影响因素本身不存在任何状态,为构建模糊多态贝叶斯网络,本研究依据最低合理可行准则将模糊贝叶斯网络节点风险等级划分为可忽略状态、可接受状态和不可接受状态三种。
基于模糊多态贝叶斯网络的云数据中心业务连续性风险评估模型的具体思路如下。
(1)分析影响云数据中心业务连续性的因素,按其影响大小选出关键的影响因素,然后以此为基础构建指标体系。
(2)用ISM构建解释结构模型,进而分析出影响因素间的相互关系。
(3)利用模糊贝叶斯网络知识将解释结构模型转换为模糊贝叶斯网络结构。
(4)确定模糊贝叶斯网络各节点的状态,然后进行网络推理计算。
4 基于云日志的风险预警应用
为了保证大规模分布式云数据中心的高可用性和可靠性,需要对大规模云数据中心的状态进行监控,以及时发现系统的异常行为状态。结合云数据中心的日志特点,构建基于深度学习的日志分析及异常检测方法,根据云数据中心的运行日志信息检测当前的调用或者服务请求是否合理,对于异常的调用和服务请求给出预警。
4.1 云日志解析技术
4.1.1 大数据云日志
日志是软件系统非常关键的组件,它记录了软件运行时的信息,监控系统中发生的事件。
日志具有以下两个特点:大数据级别;非结构化。因此,直接从表面上的数据发现有用的信息十分困难。日志分析的第一步应该为日志解析:将非结构化的日志转化为结构化的形式。在此基础上提出了一个基于日志匹配树的无监督日志解析方法。这个方法对于每一条新生成的原始日志,能够自动并快速生成其模板。日志会被分成多个组,在每个组内,采用日志对比树提取其模板。
4.1.2 云日志解析
聚类算法的基本思想具体如下。
(1) 基于日志长度将日志划分为不同的组。
(2) 利用日志字符串将每个组再进行细致划分,使第二步划分后组内的日志之间具有更高的相似性。
(3) 基于前缀树的思想构建日志匹配树,完成日志模板的提取。
对于日志解析,仅仅需要对日志内容部分进行处理。由于消息头所包含的信息非常直观,因此可以利用简单的正则表达式将其识别并保留。
(1)基于日志长度将日志划分为不同的组。首先,对每一条新进的原始日志进行划分,将日志划分成单词的集合,以提高程序的准确性。最后,将日志分成许多组,每个组包含长度相同的日志对应的集合。而实际上长度相同的日志组中也存在模板不同的日志。为解决这一问题,提出了新的概念,称之为日志字符串,这是对日志更具有代表性的描述。
(2)获得日志字符串。为避免日志字符串种类数量爆炸,当遇到数字、标识或者两者混合的时候,用“*”将其替代。最后,将所有字符和“*”按所属字符的位置组成一个字符串,称之为该原始日志信息的日志字符串。
(3)基于日志字符串聚类。为了降低时间复杂度,在日志模板提取之前利用日志字符串进行一个简单的聚类。通过对比日志字符串,将具有相同日志字符串的日志归为一类,不区分大小写。在每个类下进行日志模板的提取,日志数量大大减少,从而大大降低了算法的时间复杂度。
(4)基于Trie树思想构建日志匹配树。基于Trie树的思想构建日志匹配树,可以有效提高从日志中抽取模板的效率和准确性。动态地构建日志匹配树,将新进的日志作为查询项与树中日志匹配相同的节点。
4.2 基于深度学习的大数据云日志分析系统异常检测框架与模型
完成对云日志的解析后,将非结构化的数据解析为结构化的表示。将得到的日志模板转换为数字Log key。可以通过一种利用LSTM的深度神经网络模型,将系统日志建模为自然语言序列。LSTM是长短期记忆网络,一般用于解决循环神经网络存在的长期依赖问题。基于LSTM的学习模型自动地从正常执行的日志中学习日志模式,利用反馈机制动态调整权重使其之适应新的执行状态。
基于深度学习的云日志异常检测模型运行流程设计为训练阶段和预测阶段,而该模型的内容主要设计为两个部分。
(1) 日志模板异常检测模型。该模型的基本思想是把日志模板序列异常检测问题转化为一个多分类问题,即输入一个固定窗口大小的日志模板序列,输出下一个日志模板的概率分布。
(2) 日志变量异常检测模型。在有些系统异常发生时,它的日志不会偏离正常的执行路径,但是日志内的参数会与正常情况下的参数有较大差异。该模型将每一个Log key对应的参数保存下来,作为异常检测的数据源。
5 保障电网云数据中心业务连续性的风险管理机制
根据风险管理理念,制定具体的风险管理防范方法。
5.1 云数据中心风险管理机制
云数据中心业务连续性风险管理机制的构建基于以下4个原则:全面性原则;时效性原则;经济性原则;安全性原则。风险管理机制具体由风险识别机制、风险评估机制、风险处置机制构成。
(1)风险识别机制。风险识别是指在风险事故发生之前,通过风险的大小、风险的形态、历史记录等信息识别风险的类型以及风险的来源,从而制订相应的对策。
(2)风险评估机制。云数据中心风险评估机制的基础评估内容是由控制域、控制措施、控制要求三级架构组成。风险评估实施流程可以分为准备阶段、实施阶段和分析阶段,方便评估工作的进行。
(3)风险管理机制。将风险识别机制、风险评估机制、风险处置机制,与风险评估模型、异常检测模型相搭配,再结合实际情况,构建云数据中心的风险管理机制,则整个风险管理架构就形成了一个实时监测-实时反馈的风险管理机制。
风险评估模型与风险预警模型形成一个整体机制,可以有效降低灾难发生的频率,提高云业务系统对风险的响应速度。
5.2 云数据中心风险防范对策
针对数据制定风险防范对策。首先要加强数据的安全性和保密性;然后分散关键业务的集中度,在制定关键业务应用战略时,应避免将所有数据放在一处;最后制定完善的多方备份战略,了解云数据中心关键数据面临的风险,并为最坏的情况做好策略上的准备。
针对云数据中心制定的风险防范对策如下。
(1)做好云平台部署前的系统评估。为了将风险降到最低,在云平台部署前必须要先做好虚拟化技术的应用,以及建设的调研、评估等准备工作。
(2)强化云平台安全技术措施。主要为控制虚拟机蔓延、隔离虚拟机和常规性的安全防护等,加强安全技术水平是提高安全控制能力的重要基础。
(3)增强数据库的风险防范能力。根据云数据中心的各种数据以及历史数据等信息查看各种用户口令,根据用户口令来配置口令的强弱程度,需结合实际情况进行调整。
(4)提高云数据中心自动化运维能力。通过建立一个智能运维自动化管理系统来实现云数据中心的自动化管理,然后使用自动化运维管理系统来实现对云数据中心运行过程中出现的故障以及问题进行集中管理和处理。运维管理平台可以实时地对云数据中心的设备进行管理与监控。
(5)建立完善的云平台架构。云平台作为承载各种应用系统的基础载体,必须保证其有一个完善的架构。如果预算不足,可以缩小规模,但还是要保持架构的完善,预算充足后再扩展。
(6)建立配套的运维辅助系统。为了有效地防范病毒以及攻击,提高补丁的升级效率和可靠性,建议使用无代理防病毒管理和集中补丁升级管理。
6 结语
云数据中心业务连续性风险分析与评估是进行云环境下业务连续性研究的前提和基础。云环境下业务连续性典型应用场景分析是实现云环境下业务连续性的关键措施,制定云环境下业务连续性评估指标体系与模型是有效评价云环境下业务连续性保护的关键所在。
通过研究不可抗力、管理要求、相关标准、运行环境等关键因素对业务连续性的影响,构建了风险评估模型,基于大数据实现状态、阈值、趋势、评价等风险预警的云服务技术来保障电网云数据中心业务连续性的风险管理。基于层次分析法的云环境下业务连续性评估方法是解决问题的手段。以这些研究成果为基础,设计云环境下业务连续性保护评价指标体系,配套实施相应的风险管理流程,降低灾难发生的频率,提高响应速度。