APP下载

数据挖掘在数据中心运维中的应用

2022-09-06

科海故事博览 2022年24期
关键词:数据仓库时序数据挖掘

陈 峥

(深圳市共济科技股份有限公司,广东 深圳 518000)

1 概述

1.1 数据中心的重要性

数据中心是计算设施和网络设备的放置和集中位置。它们的任务是收集、存储、处理和分发大量数据,几乎每个现代企业和政府机构都需要自己的数据中心。数据中心在各个行业的信息化建设及数字化改造中扮演重要的角色,全社会的数据和信息资源都被储存在数据中心中(后文简称IDC)。同时,IDC 设备种类相对较少,例如服务器、供电设备、制冷设备、防护设备。所以,数据中心的数字化改造具有技术基础、先发优势、经济价值和重要的示范作用。

1.2 数据挖掘对IDC 运维的价值

国内数据中心保有量巨大。根据“IDC 圈”2021年对国内已建数据中心(规模以上运营商机房)的调查统计结果,已建数据中心613 个[1]。根据国家工信部发布数据,我国在用数据中心机架规模达到了166万架,数据中心数量(含企事业单位的自用机房)达到1844个,在建规模为107 万架,数量463 个[2]。当前IDC运维管理存在四个问题和新的挑战。第一,数据庞杂,管理混乱;第二,运维碎片化,加大运维成本;第三,容量管理缺失,无法规划扩容;第四,被动式运维,用户体验差。人工智能技术和数据挖掘解决方案对解决IDC 运维面临的问题具有不可或缺的价值[3]。

1.3 IDC 运维的自动化智能化改造

IDC 自动化智能化改造由三部分组成——数据的采集存储、数据挖掘任务、根据挖掘的知识指导实践。最终,实现IDC 运维的降低能耗、提升运维管理效率、提升资源利用率。IDC 数据挖掘任务由五个步骤组成——数据存储、数据准备、算法模型、评估寻优、数据可视化。

2 IDC 数据挖掘的数据基础

在进行IDC 自动化智能化改造时,需要以五大类数据为基础——物状态、空间、人位置、物描述、人的活动数据。

2.1 物状态数据

“物状态”主要体现在时序数据,包含了设备各个参数在各个时刻的值,主要存储于时序数据库,例如SSDB 中。时序数据最显著的特点是数据量巨大。首先,IDC 采集监控的对象和设备多、要监控的参数多。以某省电网IDC 为例,设备的参数(后文简称测点)数量达到300 万个;其次,IDC 监控采集频率高,要求达到毫秒级,每秒钟采集10 次以上。

2.2 三维空间数据

三维空间数据是可视化和自动化的基础数据之一,主要包含建筑信息数据与设备空间位置数据,主要存储BIM 模型和三维组态文件中。

2.3 人位置数据

人的位置主要体现在,基于超宽带技术UWB(Ultra Wideband)的人员室内定位数据,主要存储于消息队列中,根据人员佩戴的工牌或手环反馈的定位数据,实时更新。

2.4 物描述数据

物描述数据是对物的描述,其序列化包含设备与空间、人和设备、设备和设备之间的关系,例如所属关系、供电关系、制冷关系,从属关系等,符合W3C成立的WoT 工作组制定WoT 标准。WoT 数据主要存储于配置管理数据库CMDB 中,为故障分析、影响溯源、自动化控制和群控提供了必不可少的数据基础。

2.5 人员管理活动数据

人的活动数据主要体现在基于ITIL 规范的各类管理表单上,存储于关系数据库,例如MySQL 中。

3 IDC 监控管理的数据挖掘

3.1 IoT 数据仓库

与典型的数据仓库不同,首先,用于IDC 数据挖掘的数据仓库必须是包含五大类基础数的多源异构数据库;其次,用于IDC 数据挖掘的数据仓库,必须具有时序数据存储和处理的功能。在本文中,称用于IDC数据挖掘的数据仓库为“IoT 数据仓库”。IoT 数据仓库是在线分析型多元异构数据库,需要同时满足五大类异构数据的链接、查询、存储能力——非关系型数据库如SSDB、3D 空间配置文件、告警及人员定位消息队列、关系型数据库如MySQL。

目前,以ClickHouse 为代表的列式数据库管理系统(DBMS),通过数据按列存储的方式,进行矢量(向量或列块)执行,满足IoT 数据仓库多元异构数据库的要求,同时可以对AI 智能算法进行定制化集成,为智能分析提供了技术基础。

3.2 IoT 数据准备

IoT 数据准备最大的特征就是在时间维度对数据进行聚合,例如,首先,对测点时序数据、表单流程数据、告警数据按照日期进行聚合;其次,将多元数据进行并表,得到以时间为统一尺度的多元数据特征;最后,使用数据挖掘算法提取分析模型。下面,以分析每天UPS 电流峰值与故障产生频次关联为例,介绍数据准备的步骤:第一,在时间维度,对UPS 的电流数据进行聚合操作,例如,按照天维度将UPS 的电流进行聚合,得到每天UPS 电流的最大值;第二,在时间维度,对运维管理表单进行聚合操作,例如,按照天对告警数据量和维护保养活动给进行聚合;第三,使用神经网络模型,分析UPS 的最大电流与告警数量和维护保养活动是否有关联,定量分析UPS 电流与保养活动,或告警数量之间的关系。

3.3 IoT 算法模型

IoT 数据挖掘算法模型主要体现在两个方面:时序预测模和关联分析。时序预测,主要应用于温度、网速、电流、功率等时序数据,通过历史数据,预测未来一段时间内的变化趋势,或预测未来某一时刻的值,从而实现故障预警。关联分析,主要用于分析时序数据之间或时序数据与运维活动间的关系,例如,运维保养,参数配置等与设备的关键指标之间的关联关系,提升运维能力。

3.3.1 最小二乘法

最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。

3.3.2 神经网络回归QRNN

回归是确定两种或两种以上的变量间相互依赖的定量关系的方法。QRNN 结合了神经网络和回归的两大优势,能够揭示数据分布规律。首先,加载使用历史数据,例如正常与故障蓄电池各时间段的历史数据为训练集。其次,数据归一化同时构建神经网络并进行训练,训练模型对正常和故障蓄电池进行分类,并保存模型。再次,将训练好的模型下发至现场的采集器或监控主机,对一天的历史数据进行反归一化和预警。最后,将故障的蓄电池数据重新放入训练集更新预警模型。

3.3.3 时序预测prophet

prophet 算法基于时间序列分解和机器学习,进行时序数据的预测,能够在较快的时间内得到需要预测的结果。算法可以通过输入时间序列的时间戳和相应的值,预测未来的时间序列走势,同时提供必要的统计指标,包括拟合曲线,上界和下界等。时序数据的预测使数据中心的预警和群控成为可能,例如,提前预测线缆的温度从而实现主动防御,通过预测热点,空调的提前增加或减少冷量,实现节能减排。

3.4 评估寻优

1.均方差。均方误差MSE 通过计算预测值和实际值之间距离(即误差)的平方来衡量模型优劣。即预测值和真实值越接近,两者的均方差就越小。MSE 的值越小,说明预测模型描述实验数据具有更好的精确度。如下是均方误差的计算方法:

2.Softmax。Softmax 的含义就在于不再唯一的确定某一个最大值,而是为每个输出分类的结果都赋予一个概率值,表示属于每个类别的可能性:

其中zi为第i 个节点的输出值,C 为输出节点的个数,即分类的类别个数。通过Softmax 函数将多分类的输出值转换为范围在[0,1]间,且和为1 的概率分布。

3.5 基于三维位置的数据可视化

1.预测结果的三维可视化。在进行测点预测之后,需要结合置信度,将预测结果以图表的形式展示出来,从而指导运维实践。使用3D 可视化的手段可以弥补传统2D 手段的不足——只有唯一的、预置的视角展示。3D 可视化可应对复杂的预测结果和展示需求,以多种形式呈现给运维人员。

2.设备拓扑关系的三维可视化。通过传统组态方式展示设备拓扑关系有明显的缺陷——无法筛选指定的链路或部分设备,同时,无法将拓扑关系与空间信息结合,读图分析的难度极大,必须有专家指导。使用3D 的手段展示拓扑关系,可以有效地弥补筛选和拓扑与空间结合的缺点。降低现场运维的难度,提升故障分析与处置的难度。

3.人员位置的三维可视化。当前应急演练与应急指挥处于“眼看手摸”的阶段,指挥中心无法看到处置人员的跑位情况,在协同多个房间和多个部门时,需要通过对讲机确定位置和现场情况。例如,机房UPS故障定位需要协调配电间的开关操作。故障分析团队通过三维可视化和单兵作战系统,在ECC 上看到现场的摄像头画面、故障设备的实施参数、故障拓扑关系、人员跑位的信息指挥故障处置。

4 使用获取的知识改造运维活动

数据挖掘获得的知识需要回到真实的世界,对真实世界进行改造。改造体现在两个方面:一是基于一体化监控的自动化控制、群控;二是改造运维流程,包括应急辅助、应急演练、标准操作流程SOP。

4.1 自动控制与群控

结合测点间关系信息、测点计算器、阈值配置、联动策略、PLC硬件实现自动控制。例如,在烟感报警时,触发自动控制策略,自动计算附近PDU 负载、空调制冷的冷量,同时通过三维可视化的形式将相关设备展示到ECC 指挥大屏上,提供为该PDU 供电的UPS 以及上游配电柜功率信息,在有人员监督的情况下进行开关控制。在负载系统(例如精密空调)内部包含多个子模块,子模块的配置需要预设多种运行模式,例如低温模式、高温模式、局部过热模式,通过测点预测实现提前增加或减少冷量从而达到节能的目的。

4.2 运维流程改造

通过分析运维表单数据与故障发生次数、设备关键参数之间的关系,优化运维活动的频次,重点覆盖的区域和设备种类,从而提升运维效率,降低运维成本。另一方面,通过总结故障与设备测点之间的关联关系,改造标准操流程SOP,从而达到提升故障处理效率的目的。

4.3 故障分析与溯源

通过分析告警类型与处置方法之间的关联,优化故障处置流程。在告警发生时,DCIM 根据告警信息类型和相关参数特征,自动匹配辅助决策处置方案,根据关系信息分析故障设备的拓扑,分析故障对整个系统的影响、可能的原因,实现故障处理智能化、简单化、可追溯化[4]。

4.4 应急指挥

通过三维可视化系统与室内定位数据结合,实时在ECC 大屏上查看故障处理人员的位置,在指挥中心对于现场疑难故障处置。还可以借助单兵系统、可穿戴视频电话等设备,实现指挥中心与现场的音视频连线,由专家进行远程指导,并可将处置方案等信息推送到现场终端进行显示,有效缩短故障处置时间。

5 智能化运维效果

5.1 节能减排

粤东数据中心未使用数据挖掘技术签,投产共计N 个机架,整体PUE 约为1.8。通过使用人工智能算法降低能耗,PUE 达到1.76,平均减少约7.42% 用电量。

5.2 提高资源利用率

通过U 位精细化管控和机架推荐,在散热允许的情况下,降低了 U 位的碎片化情况,释放将近 200 个机架资源,在客户业务增加的情况下,提升了机架利用率约20.12%。

5.3 降低人力成本

2018 年,粤东某IDC 驻点运维人员为53 人,月度运维人力成本约为60 万元。通过虚拟定位演练、减少抄表、对照等繁杂操作、加大高风险点运维力度。2019 年,运维人员缩减到35 人,月度运维人力成本约38 万元,缩减成本22.26 万[5]。

6 结语

本文介绍的“数据挖掘技术对IDC 运维进行自动化智能化改造”是结合数据挖掘技术和数据中心运维需求进行的探索,通过对五大数据的采集监控,进行数据挖掘,将挖掘的知识通过DCIM 系统和运维流程,及一体化监控系统对运维流程进行改造,对运维流程进行自动化、智能化改造,实现数据中心的节能减排、降本增效。解决目前IDC 运维管理上存在“烟囱式运维”的困局,后续将通过整体解决方案的复制迁移,验证在其它物联网行业,例如能源或智能制造行业实现信息化、自动化、智能化改造,推动整个物联网行业的发展。

猜你喜欢

数据仓库时序数据挖掘
清明
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
基于不同建设时序的地铁互联互通方案分析
基于数据仓库的住房城乡建设信息系统整合研究
基于FPGA 的时序信号光纤传输系统
基于并行计算的大数据挖掘在电网中的应用
探析电力系统调度中数据仓库技术的应用
基于模体演化的时序链路预测方法
一种基于Hadoop的大数据挖掘云服务及应用