APP下载

数据中心运营管理工作组实践思考

2021-06-08高晓欣

中国新通信 2021年3期
关键词:运营管理

高晓欣

【摘要】    近年来,数据中心的重要性日益突出,需要高效的运行和管理。因此,直流基础设施管理(DCIM)成为了一个热点话题,它可以管理 ICT 设备、电力设备、 HVAC 系统等。在本研究中,我们利用计算流体动力学(CFD)技术,提出了一种设计服务器机房 ICT 设备布局的方法。对该方法的有效性进行了评估,并对其实现高效数据中心运行和管理的能力进行了验证。在此基础上, 越来越多的应用程序转移到云计算中,而云计算实际上是由地面上的大型数据中心支持的。这些数据中心是需要管理的复杂系统,集中解决方案可能无法满足所需规模,也无法有效利用其网络。本文提出了一种数据中心动态资源管理的层次化方法,利用数据中心网络的拓扑结构设计管理层次结构。我们在层次结构中的各个级别定义了一组聚合度量,以将系统状态信息传递给更高的管理级别,并定义了管理者的职责和交互。我们通过仿真对我们提出的方法进行了评估。实验结果表明,该管理方法大大减少了数据中心网络中管理数据的流量,从而降低了网络开销。

【关键词】    数据中心运营    运营管理    工作组织

引言

越来越多的应用程序转移到了云中。思科预测,到2017年,将近三分之二的工作负载将在云中处理。大规模数据中心的增加为这种增长提供了支持,这些数据中心的明确目的是托管这些云工作负载。这些大型数据中心构成了一个有趣的管理挑战: 一方面,数据中心供应商希望尽量减少能源消耗以降低成本,而另一方面,数据中心客户希望其应用程序的资源需求在任何时候都能得到满足。协商这两个目标是困难的,并已成为许多研究工作的目标。

数据中心由集群组成,每个集群由机架组成,每个机架由物理服务器组成。通过使用系统虚拟化,多个应用程序可以驻留在单个物理服务器(或主机)中,每个应用程序都在自己的虚拟机(VM)中运行。此外,资源可能会被超额预订(也就是说,在一台主机中,可以承诺将总共更多的资源提供给共存的虚拟机组,而不是主机实际拥有的资源) ,从而大幅度提高主机的资源利用率。

然而,考虑到应用程序资源需求的动态特性,如果共用位置的虚拟机的总资源需求超过其主机的容量,这种安排可能会出现问题。如果不采取任何行动,虚拟机将无法满足其资源需求,这将导致违反服务水平协议(SLA)。但是,通過利用 VM 实时迁移,可以将 VM 从资源压力较大的主机重新迁移,从而在本地释放可以分配给剩余 VM 的资源。迁移后的 VM 将在不同的主机上恢复执行,过程中只经历了最小的停机时间。这被称为动态 VM 管理。

大多数资源管理系统都是为集群设计的,似乎不会扩展到单个集群之外,通常都是集中式的。集中管理者的假设通常反映在提出的动态资源管理系统中。然而,这些系统可能无法满足大型数据中心的规模以满足现实需求。此外,通过将整个数据中心视为单一资源池,管理数据(包括通信和 VM 迁移)在不考虑管理费用的情况下通过网络发送,导致数据中心资源的使用效率低下。

一、数据中心运营管理工作概述

近年来,信息和通信技术系统已成为支持社会生活基础设施的重要工具。因此,数据中心(DCs)管理信息的作用变得越来越重要。此外,云计算和信通技术虚拟化的发展导致发展中国家出现高热密度和增加能源消耗的趋势[1]。因此,DC 运营管理者需要在考虑各种因素的同时管理复杂的环境。这些因素包括空气调节、电力、建筑物以及虚拟服务器数量超过物理服务器数量的情况。在这样的环境下,如何构建一个安全、节能的直流电源系统,并对其进行高效、持续的运行和维护,已成为一个重要课题。因此,这项研究的目的是检验一种管理方法,这种管理方法可以通过对信息通信技术设备、机架、空气调节系统、电力、建筑物和发展中国家的空间进行单独管理,从而有效地、持续地管理安全、节能的发展中国家。本文描述了 DC 基础设施管理(DCIM)的概念、问题和预期作用,并报告了使用 DCIM 设计 ICT 设备布局的效果。

二、DCIM 概述

DCIM 包括监控 DCs 中各种设备故障的系统(ICT 设备、电力设备、空气调节设备) ,并管理各种能力(空间、机架安装状态、 ICT 设备的负载比、电力和空气调节)。它具有分析这些因素的信息的功能。这是一个整合和提高信息和通信技术效率以及管理单独管理的调频系统的工具。

在发展中国家,“资讯及通讯科技管理人员”主要负责设计、操作及维修与资讯及通讯科技有关的设备,而“设施管理人员”则负责设计、操作及维修楼宇、空气调节系统及电力设施等。

每个基金经理各自节省能源、空间和资产管理。虽然支持集成的 DCIM 概念已经存在很长一段时间了,但许多 DCIM 供应商都是软件公司和空气调节设备制造商。因此,许多 DCIM 功能仅限于每家公司的专业领域,没有一个能够支持控制、操作和维护的所有三个领域。另一个问题是,尽管 DCIM 中注册了大量的数据,但它还是不能解决它特有的一个问题:创建和维护数据的困难。由于这些原因,对 DCIM 的需求正在变得越来越普遍,但是没有像预期的那样广泛或迅速地扩散。

资讯及通讯科技设备(例如伺服器及网络设备)与设施(例如建筑物、空调及电力设施)彼此关系密切。例如,由于信息和通信技术设备不是简单地安装在一个空旷的空间里,因此重要的是要从电力供应、空气调节容量、运行效率等方面对其做出全面的判断。通过使用 DCIM,可以准确有效地完成这些任务。主要角色如下所示:

1、整个直流系统的管理和可视化不仅需要服务器机房内部的管理和可视化,而且需要整个直流系统的管理和可视化,包括热源设备、电源接收设备、应急发电机和蓄电池。为此,必须能够与建筑和能源管理系统、出入境管理系统以及其他业务管理系统等相关系统进行合作。

2、先进的数据分析和环境改善与控制为了实现各种效益,如提高节能和降低运行和维护成本,对 DCIM 收集的大量信息进行分析是非常重要的。

3、集成化管理与建设和维护信息集成化管理由 DCs 处理的信息多种多样,变化频繁。为了有效地利用 DCIM,必须有一个能够适当反映信息的报表管理功能。

三、DCIM 效果实例

当增加机架和 ICT 设备到直流电,不仅要考虑物理空间和容量,而且要考虑对安全的影响(温度环境的变化)和节能(空气调节消耗)。

首先,一个可以添加 ICT 设备的机架是从物理空间、负载、现有电力容量和空气调节中选择的。其次,利用 DCIM 收集的信息进行热流体模拟。在发展中国家,ICT 设备进气温度的上限和下限被归纳为 SLA。基于 DCIM 收集的信息和将要添加的 ICT 设备的功耗,进行了热流体模拟,预测了 ICT 设备在假定的最坏情况或年份下的进气温度,满足 SLA 的位置是有限的。

四、现有云数据中心计算平台

目前最先进的云基础设施,如亚马逊 EC2既不支持考虑消费者对节能计划偏好的能源效率资源分配,也不利用复杂的经济模型设定正确的激励机制,让消费者准确地披露有关其服务需求的信息。因此,供应商无法与消费者进行必要的信息交换,因此无法实现有效的服务分配,而这种分配满足了消费者对绿色云计算的节能偏好的需求和期望。

在本文中,我们研究了一种层次化的方法来管理数据中心。分层方法提供了更高的可伸缩性,但代价是只有系统的部分视图。

我们将管理域划分为管理范围,每个范围包含一个托管元素子集,并在其中封装管理数据和管理操作。我们利用数据中心网络的拓扑结构来定义范围,范围包括主机、机架、集群和数据中心。通过使层次结构具有拓扑感知性,我们限制了跨越数据中心的管理数据流。我们假设,这种组织将导致更有效地使用数据中心,大大减少网络流量。

使用分层方法进行动态数据中心管理的挑战包括: (Ⅰ)定义一组度量标准来表示机架和集群的系统状态。集群管理器可以向数据中心管理器发送关于其所有主机的信息,但这将代表需要传输和分析的大量数据; (Ⅱ)确定管理器的职责以及它们之间的交互。这两个挑战都在这项工作中得到了解决。

目标基础设施由一组集群组成,每个集群是一组机架,每个机架是一组物理服务器。虚拟机(vm)被托管在物理服务器(或主机)中,在那里它们被分配资源来运行。数据中心有两个网络: 数据网络和管理网络。

虚拟机使用数据网络进行应用程序的通信,而管理网络则用于管理数据(即通信和 VM 迁移)。两个网络具有相同的架构。机架中的主机通过放置在机架中的两个交换机(每个网络一个交换机)连接到网络。集群中的机架通过集群级交换机相互连接,集群级交换机连接到数据中心级的中央交换机。从现在开始,当我们谈论数据中心网络时,我们将指的是管理网络。

使用分层管理方法背后的思想是对主机集合进行逻辑分组,并将每个主机集合作为一个单元进行管理,尽可能在单元内封装详细的监控和管理操作。此外,每个级别的元素再次组合,形成上面级别的元素。这些结果导致了管理范围的创建,从而限制了管理数据在整个数据中心的传播。在每个范围内收集监控数据,并与上级管理层共享数据摘要。尽可能多的 VM 迁移也限制在它们自己的范围内。我们决定利用数据中心网络的组织,使用主机、机架和集群来划定管理范围。此外,数据中心作为一个整体形成了一个庞大的、包罗万象的管理范围。

主机管理器定期从主机和(托管)虚拟机收集监视数据。收集的数据包括每个虚拟机和主机本身的资源利用率(CPU、内存、网络带宽和存储)、主机功耗以及当前传入和传出的虚拟机迁移次数。这些信息被打包并以状态更新的形式发送给主机所属的机架的管理员。机架管理员处理各主机管理员在其范围内发送的状态更新,并根据所收到的信息更新其知识库。

五、小结

未来,数据中心(DC)业务将在全球范围内蓬勃发展。信息和通信技术的发展可望使发展中国家的规模更大、密度更高,但也可望带来对更廉价和更可靠的发展中国家服务的需求。为了实现这一目标,管理和分析综合信息和节能方法以降低运行和维护成本将变得越来越重要。我们相信,通过使用直流基础设施管理来管理和分析 ICT 设备以及空气调节、电力和建筑设施,不仅有可能实现本报告所示的 ICT 设备放置计划,还有可能实现直流设备和设施的高效运行/维护。

参  考  文  献

[1]毋江波. 竞合环境下基于信息和关系的企业战略匹配研究[D].山西大学,2019.

[2]赵瑞胜. 内蒙古铁塔公司运营流程优化研究[D].内蒙古工业大学,2019.

[3]黄圆圆. 跨界破产承认与救济制度研究[D].对外经济贸易大学,2019.

[4]刘壮. 西非水务工程項目中推进人力资源属地化进程的研究[D].湖南大学,2019.

[5]何秋. 美国气候变化法律制度研究[D].中南财经政法大学,2018.

猜你喜欢

运营管理
县域城市公共自行车运营管理体制浅析
对风电场运营管理的探讨
基于电信运营商及物联网运营平台的研究
新能源公交车辆发展的政策支持及使用管理
博物馆免费开放后的运营管理
医药制造型企业总部层面运营管理的思考与实践
医院大型设备的运营管理(pet—ct)
村镇公共设施优化配置与运营管理综述