基于电网领域的智能云运维管理平台的设计
2020-11-30李超马崇瑞徐赢张辉
李超 马崇瑞 徐赢 张辉
(1.北京中电普华信息技术有限公司 北京市 100000 2 国网辽宁省电力有限公司大连供电公司 辽宁省大连市 116001)
目前针对信息化运维的研究探讨大部分偏重于平台建设本身,而信息化运维体系则不仅仅包括信息化运维平台,还包括与之结合紧密的企业运维管理制度、运维专家的作用、运维流程的演进等内容,仅完成平台建设不足以达到信息化运维的目标。基于研究,梳理了信息化运维体系建设的主要难点。
1 电网领域IT信息化运维技术特点及建设云运维平台的意义
1.1 信息化运维体系建设的目标和意义
一般情况下,一个信息系统项目的发起或产生有两种方式:自上而下由管理层发起,自下而上由员工发起。而许多企业信息化运维平台的发起往往是两者均有,该现象说明企业管理层和运维员工同时意识到其必要性,前者往往是为了节约成本,而后者主要为了提高工作效率。
一些业内人士认为,信息化运维是“双刃剑”,给运维工作带来高效率的同时也将原有的生产风险放大了。如仅仅是将原有运维动作批量化执行,不附加任何系统、管理和流程上的约束,确实有此可能,但一个精心设计的、符合企业实际的信息化运维平台是可以同时提高运维的安全程度的。综上所述,节约成本、高效、安全,这三者组成了信息化运维平台的建设目标。不同企业侧重点有所不同,但基本都会在这三个目标范围内。每个企业的情况不尽相同。工欲善其事,必先利其器。在确定信息化体系建设目标的时候要根据企业痛点、组织构成、技术栈等情况进行综合考虑。
1.2 如何建设符合企业实际的信息化变更平台
首先需要分析企业需求,如:
(1)同时满足系统信息化运维和应用信息化运维两部分内容。系统运维指操作系统、数据库、中间件等基础环境运维;应用运维指应用系统的部署和发布。
(2)同时适应标准化和非标准化两类变更。
(3) 支持多个操作系统平台, 包括LINUXUNIXWINDOWS。
(4)可由运维专家灵活定制运维流程。
(5)变更平台需要具备4A 系统的特点,即集中认证管理、集中账号理、集中权限管理和集中审计管理。
非功能需求有如下方面:
(1)高可用。不仅仅是信息化平台本身提供的服务需要高可用,其执行通道,即平台与生产服务器之的命令通道也必须是高可用;
(2)对外提供API 或服务总线式的接口,以便更好地与其他运维系统,如CMDB 相融合。可借助相关开源的组件,采用自研的方式去建设。
1.3 在信息化体系建设过程中,需要协调的关系
在信息化体系建设过程中,需要协调下述关系:
(1)和决策层的关系。周期性向决策层汇报进展,最大程度获取理解和支持。
(2)和用户的关系。关注用户反馈和功能体验,吸纳用户有益建议的同时适当予以引导。
(3)和关联项目团队的关系。接口类功能需要与关联项目组达成一致意见。
(4)和企业研发部门的关系。信息化部署通常意味着需要一定程度的标准化,标准化从研发开始会相对容易推广和实施,并能保障生产和开发环境的一致性。
2 电力企业信息系统运行维护现状
电力企业内部都分布着若干的应用系统,比如财务管理系统、客户关系管理系统、企业资源计划系统、产品数据管理系统等,业务人员的许多工作都要在这些系统的辅助下才能完成,业务对应用系统的依赖程度越来越高。目前,电力企业信息系统运行维护主要存在以下问题:
(1)频繁的系统故障让电力企业无所适从。尽管电力企业的IT 队伍越来越壮大,IT 的运行维护投入越来越高,应用系统的运行故障依然此伏彼起,从而让运维人员成天疲于奔命,并让电力企业的核心业务受制于繁杂的系统故障。
(2)电力业务人员总是迷失在应用系统的迷阵中。一方面,业务人员的工作要与越来越多的应用系统发生关系,人们不得不在不同的应用系统间来回登录、切换,耗费大量的时间;另一方面,不同系统都要分别建立复杂的授权身份管理体系,尽管如此依然会出现应该被授权的用户登录不上系统,而非法用户却能任意进出并造成数据泄密。
(3)巨额的IT 投资不能保障所有的应用系统都正常运转。特别是对于数据密集型企业,在应用系统逐步普及之时,仅仅依靠人工来管理IT 是不符合IT 发展规律的,IT 架构管理问题正在成为制约IT 发展的瓶颈。所以,企业需要引入信息化的IT 服务架构管理。这些现象都表现出所面临的严重问题:①故障不能及时处理,运维人员的工作处于被动状态;②不能对网络设备、服务器系统资源及应用软件的运行状况进行监测;③无法实现网络的集中统一管理,很难掌握网络系统的整体性能。
3 电网领域的智能云运维管理平台
3.1 创新服务模式,创建有利的运维平台
借助智能电力运维云平台,运维服务单元可以充分掌握用户用电设备的运行状态,从而有针对性地运维资源分配;它还可以分析和挖掘能耗特征,以帮助用户节省能源并减少能耗;此外,通过对大数据的深入分析,释放数据的潜力,准确地满足用户需求并提供个性化服务,节省资源,科学高效地进行运维,创造更大的价值。运维管理服务单元根据电力大数据,进行集中监控和运维管理,指导云平台科学有序的运维,并管理专业的值班调度,检查和维修团队。云处理中心对云计算和大数据进行分析和处理,深刻挖掘数据的价值,科学指导运维服务,为实现多业务提供保障。运维由专业团队负责,使用电更省心。电力运维模式对比如表1所示。
3.2 智能电力运维云平台功能分布
(1)变电站的所有者主要负责用电,因此他担心电力的安全性,电力的可靠性,电力的经济性和电力的环境保护。主要内容是:工单评估,在线客户服务,设备管理,能效分析。
(2)值班调度员主要负责全局监视和调度,他需要实时监视每个受管变电站的运行,以便在出现异常情况时可以及时有序地对其进行处理。涉及的主要内容是:实时监控,工单管理,视频监控,设备管理,事件警报,趋势曲线,运行报告,用户管理。
(3)巡检维护人员主要负责变电站的巡检和应急维修。他们希望巡逻检查记录方便快捷,能够及时调查并消除隐患,并能迅速,妥善处理故障,确保用电无后顾之忧。主要内容有:视频监控,事件报警,负载率,检查管理,维护管理,设备管理,知识库管理。
4 微服务架构的应用与管理
4.1 服务布局
微服务采用多地自治、园区互备的架构,城市之间的数据是相对独立的。除了少数账号全球同步以外,大部分业务都以电子邮件式的服务,各自有自身的环境在流转和通信。城市间的后备则使用公网的UDP 通道。在城市内,使用三园区的架构,每个园区都是一套独立的系统,从接入、逻辑、存储每一层都是完全独立的,并且可以互相为对方提供备份,多园区形成整体服务规模。在园区内,由多机组成的set,互为容错,包含它们的网络与电力也是独立的。这样的服务布局,不仅满足微服务架构,也考虑了容灾能力。
4.2 过载保护
过载保护是微服务架构的核心功能,目的是确保核心服务可用。它包括三个级别:
(1)服务必须分清轻重缓急。不能同时具有繁重的操作和轻巧的操作。
(2)队列控制。通过监视可以确定请求在队列中等待的平均时间,以决定是发起拒绝还是限制流量。
(3)结合势在必行。由于微服务调用链和层的增加,还将有多个后端服务。
假设后端有两个服务(服务A 和服务B),并且前端调用需要取决于A 和B 服务的组合结果,那么单个A 或单个有过载B,可能会导致前端服务不可用。在这种情况下,需要有一个反馈机制。整个系统基于反馈,把整个拒绝的信息全程传递。从一个CGI 调用一个后台服务,再调用另一个后台服务,系统会在CGI 层面把它的重要程度往下传。回到刚才前端调用A、B 服务的例子,在如此重要的传递过程中,可以直接拒绝来自相同用户的20%的请求,从而有效解决单个服务的轻微过载问题。
4.3 容量管理
为了在微服务架构下实行较好的容量关系,应做到三个前提:
(1)微服务间资源进行隔离管理;
(2)微服务的过载有自我保护能力;
(3)服务的快速伸缩操作容量管理是为了更好地进行业务支撑,因此构建了需要支撑的业务与其容量之间的模型关系,从而有效地评估出那有效的微服务所对应的容量。
随着公有云被广泛地运用,基本上能够实现及时获取容量资源。当然要保证具有较好的业务支撑的话,应当具有容量的发现能力和适当的处理效率。在实际进行容量评估的时候,可能会将容量误解为左边的线性关系。在某些时候,使用量上升到60%之前还是处于线性,可一旦升至65%或80%时,就会维持。所以说容量评估的困难之处就在于:一个应用或一个微服务在使用资源时会受到CPU、内存、网络、以及磁盘I/O 等多种因素的制约。因此,有必要熟悉某个微服务主要消耗资源的关键点,以及它与其他资源之间的关系。针对容量的评估,同样在微服务中引入了压测。有三种常用的模拟测试的方案:
(1)模拟流量到测试环境,对现网不产生影响,这往往由测试团队来操作。
(2)真实流量到测试环境,即运用TCP 协议复制一份流量到测试环境。许多电商经常在一些大促之前,会把一些真实的流量引到测试环境之中,以检验系统到底能支撑多久。这往往由运维和开发协同执行。
(3)真实流量到真实环境,这是在微服务中使用最多的主要的现网压测方式。该方法虽然最真实、且对容量的评估也最准确,但也会有最大的风险。它可能会引发故障,并考验及时发现故障点的能力。
压测具有双面性,一方面有助于发现过去未曾注意的底层问题;另一方面,则是在出现问题之后,可能无法快速地恢复,因为一旦某个服务崩溃了,则需要花时间和精力重新启动它。因此在做真实压测时,会特别注意以下三点,即:
(1)压测引发故障,能否及时发现;
(2)压测引发底层问题时如何处理;
(3)压测出现故障时能否快速恢复。
当有更多的流量抵达时,过剩的流量会被直接拒绝掉,显然也可籍此测算出其真实的流量大小。
4.4 微服务监控
微服务的立体化监控内容包括:常规指标,如CPU、内存、网卡等。由于监控指标非常多,同时伴随着微服务的增多,其产生的报警数量也会呈爆炸式增长。因此需要有智慧化的运维,通过AI 应用去收敛各种报警。就监控能力而言,为每台机器都部署了Agent。这些Agent的监控粒度较密集,能够达到秒级监控。与此同时,它们的数据上报能力也非常的迅速。
5 结束语
总之,完善电力需求侧管理的提升,整合系统运行,市场交易和用户用电数据,可以有效提高负荷侧大数据分析能力,增强负荷侧响应能力,通过建立“ Internet +”电力运行模型,促进双向交互。智能计量技术的应用,不仅加快了电能服务管理平台的建设,而且实现了用电量信息采集系统的全覆盖。因此,智能调度控制系统的全面推广以及大数据,云计算,物联网和移动互联网技术的应用可以提高信息平台的承载能力和业务应用水平。