金融集团云数据中心安全营运支撑平台设计
2017-02-13周一波陈捷
周一波+++陈捷
【 摘 要 】 随着云时代的到来,金融集团数据中心产生了重大变化,一是所有IT资源均是以服务的形式提供给用户;二是IT资源变得庞大,通过人工方式难以实现安全高效的运维管理;三是产生了大量的虚拟化IT基础资源,如虚拟机、容器、SDN网络、分布式存储,资源需进行灵活调配。针对以上问题,文章设计了金融集团云数据中心营运支撑平台,用于云计算环境下的金融集团数据中心安全运行及统一调度管理。
【 关键词 】 云计算;云支撑平台;安全运维
Cloud Computing Datacenter Operation and Management System Platform Design for Financial Group
Zhou Yi-bo Chen Jie
(1.State Grid Yingda International Holdings Co.,ltd. Beijing 100005;
2.Beijing Huitong Financial Information Technology Co.,ltd. Beijing 100053)
【 Abstract 】 There are three significant changes of data center of financial group with the advent of the era of the cloud computing.First, all IT resources are given in the form of services to users; Second, IT resources scale becoming large, by artificial way is difficult to achieve safe and efficient operations management; Third, virtualization resourcessuchas virtual machine, containers, SDN network, distributed storage need flexible deployment on demand. We designed a kind ofcloud computing datacenter operation and management system platform for safe operation and unified management in financial group computing data center.
【 Keywords 】 cloud computing;virtualization resources operation;safe management
1 引言
在云环境下金融集团数据中心存在四个主要特点:一是业务复杂、业务安全性要求高;二是IT基础庞大,各类IT资源经过复杂的封装、关联、调度后以服务的方式提供给业务系统使用;三是运维难度增大,海量的、存在复杂关联的IT资源运维管理复杂;四是云数据中心需要满足业务高可用性,能够提供高安全性、高质量水平的云服务。正是由于存在以上的特点,金融集团可通过设计一个涵盖云数据中全方位的安全营运支撑平台,通过安全营运支撑平台来屏蔽底层云数据中心IT基础资源的复杂性、多样性,降低资源的管理难度,实现海量IT基础资源的安全调度、高效运维,并以高质量的云服务形式支撑金融集团业务系统运行。
2 金融集团云数据中心概述
2.1 金融集团云数据中心架构
金融集团已经完成云数据中心的基础设施建设,主要包括网络资源池、存储资源池、计算资源池、操作系统资源池、数据库资源池、中间件资源池。通过云数据中心基础设施提供IaaS层的服务能力,支撑金融集团公司ERP、财务管理系统、互联网金融等相关业务系统。如图1所示。
操作系统资源池:主要包括Windows、Linux、SUSE、ESXI、Fusion Sphere等系统。
数据库资源池:主要使用MySQL和Oracle关系型数据库。
中间件资源池:主要包括Weblogic、Nginx、Apache、Tomcat等中间件。
计算资源池:以开放的X86架构服务器为主,以及部分小型机在数据中心内提供计算服务能力。
存储资源池:在数据中心部署集中式存储和分布式存储,提供块存储、对象存储、文件存储等多样化的存储服务。
网络资源池:以软件定义网络(SDN)及传统路由交换网络的方式在数据中心提供高性能、灵活的网络访问服务。
2.2 云数据中心运行过程中存在的问题
在获得云数据中心带来的低成本、弹性伸缩、高效率的IT环境的同时,也带来了一些新的问题。
(1)设备管理复杂。金融集团云数据中心内具备软硬件系统数量多、品牌多、型号多、管理界面多等特点,缺乏统一的管理手段。
(2)虚拟化资源多。金融集团云数据中心采用了大量的虚拟化技术,如虚拟机、容器、软负载、虚拟防火墙、分布式存储、虚拟网络,大量的虚拟化资源看不见,摸不着,逻辑关系梳理困难。
(3)运维复杂。缺乏统一的资源的运维监控手段,各种资源的运维主要依靠自带的管理系统进行,缺乏统一、高效、集中、安全、自动化程度高的监控运维工具。
(4)资源调度缺乏灵活性。主要体现在无统一资源调度手段,缺乏按需进行弹性伸缩手段,资源分配过程环节多、复杂、缓慢。
(5)资产统计困难。软硬件设备台账主要依靠手工登记,存在资产清单更新不及时、台账信息不准确、管理繁琐等问题,缺乏自动化的资产生命周期管理手段。
(6)难以优化资源配置。主要体现在资源使用情况难以量化,无法对资源情况进行多维度分析,缺乏趋势预测及分析能力,富裕的资源难以向外界提供服务,业务下线后,资源很难及时恢复。
3 云数据中心安全营运支撑平台设计
3.1 设计目标
通过云数据中心安全营运支撑平台(以下简称“营运支撑平台”),对金融集团公司云数据中心内的所有系统软硬件资源进行统一管理、安全调度、全面监控,实现各种资源的动态按需调度和全生命周期管理,满足云数据中心的运营、安全运维的需求,通过对云数据中心整体服务能力的规划与服务化封装,健全云数据中心完整的服务目录,提供完整的云数据中心基础设施即服务,实现云数据中心资源管理集中化、服务流程标准化、作业自动化、日常运营专业化、运维操作安全化,推动云数据中心由粗放式硬件导向的基础管理向服务驱动的专业化运营模式转变,更好地提升数据中心资源利用率,实现平台资源的优化整合配置,提升金融集团云数据中心附加值,如图2所示。
3.2 云数据中心安全营运支撑平台功能设计
营运支撑平台主要由门户展现、业务编排、资源控制与管理、资源监控与告警、自动化运维、运维流程管理、身份/权限管理、集成接口等功能模块构成,如图3所示。
3.2.1 门户展现模块设计
门户展现模块负责向用户以图形化等直观的方式展示平台资源与服务的运行动态效果以及平台实时运营状况。展示内容包括:整个平台的实时资源运行情况、一段时间的任务执行统计、资源的展示(包括资源的总量、剩余量、执行的任务量、变化趋势、实时状态等),帮助IT管理员通过门户模块方便工作。
3.2.2业务编排模块
(1)自动化部署。自动化部署模块负责将软件部署过程的每一个步骤都自动化,可以带来包括效能在内的显著的好处。自动化部署包含软件部署、软件配置、集群部署等。
(2)营运管理。能够全面、直观、多维度的对现有云数据中心运营情况进行统计分析,多维度主要包含但不限于:面向云数据中心、云服务以及用户的成本与效益分析;面向资源池、用户、业务系统的资源使用情况分析以及用户行为分析等,并可以通过运营数据自定义分析决策模型从而提升整体运营维度与决策依据。其主要功能点包括几个方面。
运营分析——在云数据中心运营数据的基础上,定义多种不同维度的运营分析,每类运营分析对应多种运营分析模型,各个模型将不同类型的数据、算法、可视化显示等参数进行不同组合将产生不同的模板提供给云数据中心运营人员使用。
成本分析——利用成本核算及其他有关资料,分析成本构成及变动情况,研究影响成本升降的各种因素及其变动原因,寻找降低成本的途径的分析方法。成本分析内容包含但不限于:云数据中心投资成本、运营成本、用户分摊成本等。考虑维度包括但不限于:服务器投资、存储投资、软件系统投资、网络投资、数据中心基础环境投资、运维人员成本、管理成本、带宽成本、维保成本、电费成本等。
资源分析——提供云数据中心资源池各类资源、服务及营运支撑平台各类信息的数据搜集、存储以及展示等功能,生成各种资源统计报表和分析报告。
用户分析——提供用户相关的各维度分析指标的数据搜集、存储以及展示等功能,并通过用户业务系统评估模型配置相关的服务等级,实现平台的差异化服务,实现精细化运营。
收益分析——收益分析是通过对平台资源按照其整体总成本进行定价,采取超卖、运维效率提升、运营策略调整、资源回收等措施实现有限资源的收入效益提升,通过收益对比调整优化资源配置分配策略,从而实现数据驱动的云数据中心运营,做大整体云数据中心效益。
(3)虚拟数据中心。虚拟数据中心管理对应的是虚拟化环境中的集群或资源池,虚拟数据中心通过虚拟化技术将计算、存储、网络资源进行池化管理,动态进行资源分配和调度,实现数据中心的自动化部署,可以大大降低数据中心的运维成本。支持虚拟数据中心的创建、修改、删除、利旧等功能,对虚拟数据中心进行性能监控,通过基于虚拟数据中心的动态资源调度策略,实现业务的高可用性。
(4)重点业务保障。提供重点保障业务的全面检查、资源倾斜、监控推送等功能。
(5)统计分析。运行分析管理包括实时运行情况整合展示、统一的报表展示和运行趋势分析和预测。
实时运行情况整合展示是以统一的业务视图展示各类应用系统的业务数据状态、应用运行状况、基础设施运行状况,并可根据运维管理层和执行层人员的不同需求显示不同内容。
统一的报表展示是设计面向管理视角和执行视角的运行分析报表,并进行统一展示。
运行趋势分析和预测是依托内建的分析模型对云数据中心运行趋势预测,例如:服务器资源容量分析、存储资源容量分析、网络资源容量分析、机房容量分析、系统负载分析等等。
(6)服务等级。提供多样化、差异化的服务,保证服务质量。管理员可以根据实际情况,调整服务等级的配置参数,以满足不同用户的需求,可以提供服务等级分为金牌、银牌、铜牌三个级别;通过资源配置参数,定义服务等级。服务等级体现在符合不同配置参数的资源分区,并在服务等级的基础上创建虚拟数据中心。资源配置参数包括CPU核数、CPU主频、内存、网卡数量、网络QOS、存储类型、数据库类型等。
(7)资源调配。资源调配根据服务申请单、资源现有使用率以及剩余量等规则策略设置调度规则,并且调用底层相关资源接口实现对资源池资源的策略调度。
(8)服务目录。通过服务目录,云数据中心使用者可以自助完成日常服务工作,如:服务申请(可以通过服务目录,查看能够提供的服务,然后提交服务申请,提交服务申请时,可以配置该服务的服务时长、规格等服务参数,服务申请审批通过后就可根据服务模板,快速部署应用);服务释放(可以自助释放不再使用的服务资源,当服务到期后,可以通过人工方式或自动来释放资源);服务变更(可以根据实际需求,对已使用的服务提出服务变更,以满足实际的业务需求);服务维护(对已使用的服务可以进行自维护)。通过服务目录还可以为用户提供多种类型服务配置模板,如虚拟机模板服务、网络配置模板、数据库配置模板、存储配置模板等。
3.2.3 资源封装与管理模块
资源封装与管理模块主要是通过各种虚拟化技术将底层软硬件资源进行集成整合,根据其资源特点形成不同类型的资源池,然后在资源管理层将底层各种类型的资源池按照服务类型构建相关服务的管理模块。该管理模块对上提供统一安全的服务接口,主要完成云数据中心底层资源到上层服务的封装、调度,使得底层的异构平台对上层透明,上层管理平台在统一运营的过程中,无需关心底层架构的具体实现计算资源。
(1)计算资源。通过虚拟化技术对物理计算资源(CPU、内存、磁盘、网卡)进行封装,按需提供虚拟化计算资源。
(2)存储资源。实现对云数据中心对象存储、块存储、文件存储资源的统一封装及管理。对象存储主要通过分布式存储提供对象存储空间,提供对象存储接口;块存储主要通过集中式存储提供块存储空间,提供ISCSI、FC等块存储接口;文件存储主要通过分布式存储提供文件存储空间,提供NFS,HDFS等文件存储接口。
(3)网络资源。提供云数据中心SDN网络资源的管理,通过营运支撑平台可以调用SDN网络相关功能,对SDN Overlay进行业务编排,部署虚拟机时SDN网络自动配置虚拟机VXLAN及IP。
(4)数据库资源。提供云数据中心数据库资源的统一管理,接口封装、任务执行。
(5)操作系统资源。提供操作的系统的统一管理,统一封装、统一镜像,可通过支撑平台分发、安装、卸载指定的操作系统。
(6)中间件资源。提供中间件资源的统一管理,统一封装,统一镜像,可通过支撑平台分发、安装、卸载中间件。
(7) 基础资源。提供云数据中心机房机柜、线缆资源同一管理。
3.2.4 资源监控告警模块
(1)性能监控。提供资源池、平台、硬软件设备、中间件等组件的性能监控,监控指标包括但不限于CPU使用率、内存使用率、网络带宽、数据表等。
(2)拓扑发现。以拓扑的方式对平台已有设备与虚拟机等要素进行拓扑展现。
(3)状态监控。对虚拟机、网络、存储、操作系统、服务器等软硬件管理对象进行状态监控。
(4)异常告警。告警管理可以在物理资源、虚拟资源、应用出现故障时,发出告警信息,管理员可以第一时间发现告警并及时处理。提供告警策略配置管理,通过设定的策略,可以对所管理的物理资源、虚拟资源、应用服务进行监控和故障检查,发现故障后系统会分为一般、严重、紧急等告警级别进行上报,上报方式有管理页面显示、邮件告警、短信告警、语音告警。通过订阅重要的告警,管理员即使在无人值守的情况下,仍然可以充分掌握整个云数据中心运行状况。
(5)日志管理。日志管理主要包括审计日志、系统日志、操作日志三种日志类型的统一记录与管理,系统会记录用户对资产的各种操作,日常访问情况,实现操作行为追溯和日志记录,以规范用户的操作。用户可以根据时间、资产、操作类型等信息,查询日志信息。
3.2.5自动化运维模块
(1)自动巡检。通过预置的自动巡检脚本引擎对某对象情况进行定时执行检测。
(2)故障自愈。实现在系统在出现故障时以主备切换、业务迁移、自动启动等方式进行自我修复,保障业务运行的连续性。
(3)自动升级。实现对云数据中心内相关系统以及营运支撑平台自身模块的自动升级与模块更新。
(4)自动发布。将应用系统以虚拟机的方式进行封装后,通过对相关虚拟机的克隆与启动运行从而实现应用系统/软件的自动发布。
(5)配置管理。配置管理数据库作为金融集团云数据中心运维管理的核心数据源,需要严格保证数据的准确性,并在数据变化后利用有效地手段进行更新,因此需要利用自动发现工具、手工录入和流程控制手段持续保证配置管理数据库的信息准确。
自动发现工具:自动抓取标准的系统信息及关联关系,将信息存入配置管理数据库中。在系统配置数据改变后,自动发现工具能够自动比对配置信息,并进行配置管理数据库的更新。
手工录入:将无法自动发现但又需要收集的配置项信息和关系,通过手工录入的方式进行信息填充。
流程控制:通过严格的变更管理流程,所有对于配置项的更新操作进行严格控制,以避免跳过流程进行配置调整的情况发生。
3.2.6运行管理模块
(1)事件管理。对平台运行过程中所遇到的运行事件、故障事件、告警事件等事件进行统一管理,支持相关的生命周期操作。
(2)流程管理。对平台业务流转以及工单审批流程等方面进行统一管理和配置。
(3)知识库。知识管理的目的是建立共享的知识数据库,主要包含服务知识数据,运维案例库、操作手册等。知识管理一般分为几种角色:知识提交者、知识审批者、知识管理者、知识使用者。知识提交者负责将知识的信息归纳总结提交;知识审批者负责根据审批规则,将知识提交者所提交的知识进行审批;知识管理者负责监视知识库中知识的提交情况、使用情况,以决定是否需要进行知识的更新淘汰等工作;知识使用者负责查询和使用知识库中的知识,并对知识的有效性进行反馈。
(4)审批管理。用户提供提交工单或者资源申请单后,通过流程周转,相关负责人对申请进行审核后确认,实现跨部门审批与各部门内部审批业务的无缝对接,提高整体效率。
(5)资产管理。提供软硬件资产管理系统,刻画企业资产地图,对资产进行全生命周期管理,并通过资产间关系进行影响面分析。
3.2.7 身份认证/权限管理
提供统一认证模块,通过一次登录,实现整个营运支撑平台安全访问。营运支撑平台提供默认角色,包括管理员、项目经理、开发、测试、运维、运营角色,根据角色控制各系统菜单权限。提供身份识别与访问管理系统,用于调用的接入认证,实现营运支撑平台的统一权限管理。系统后端支持与第三方认证对接,也支持相关权限数据的同步,实现管理员、用户身份认证与识别;业务、资源访问、使用账户管理服务的内外部调用全部通过统一的认证服务进行控制,提高安全性。
3.2.8 统一集成接口
营运支撑平台提供统一安全的第三方调用接口从而方便第三方系统进行功能集成,具备良好的扩展性。
3.3 云数据中心营运支撑平台典型应用场景介绍
3.3.1 重点业务保障应用场景介绍
场景假设:月底财务系统需要出具报表,需要对财务系统进行重点保障,通过营运支撑平台可以自动实现对财务系统的全面保障,保障方式如图4所示。
①通过营运支撑平台实现对业务系统使用的网络、虚拟机、服务器、数据库进行自动全面的检查,提前发现问题。
②-⑤通过网络带宽保障业务系统网络QoS;通过计算管理增加业务系统的计算资源如CPU及内存;通过存储管理优化存储读写能力;通过数据库管理保障数据库处理能力。
⑥将业务系统相关IT资源监控状态情况数据在支撑平台显著界面显示,同时除必要的管理员账号开放外,暂时锁定其他账号,防止人为误操作。
3.3.2资源动态调配应用场景介绍
场景假设:集团资金结算系统每月1-25日为正常访问时间段,所需计算资源为CPU 16C 内存128G,每月26-30日为高峰访问时间段,所需计算资源为CPU 32C 内存256GB,通过营运支撑平台资源调配功能可以实现集团资金结算系统资源的自动调整,实现示意如图5所示。
①集团资金结算系统每月1-25日计算资源为正常访问。
②-③每月26-30日资金结算系统为高峰访问,通过预置的配置模板,将资金结算系统计算资源池自动调整为CPU 32C内存256GB,以满足业务系统的使用。
④-⑤次月1-25日资金结算系统恢复平稳,通过支撑平台将其计算资源自动恢复为CPU 16C 内存128GB。
3.3.3服务等级配置应用场景介绍
场景假设:集团需要新上线两套业务系统为:核心业务系统(需要高性能计算资源、高性能集中式存储资源、网络带宽需要优先保障);文档管理系统(需要普通性能计算资源、大容量分布式存储资源、普通网络带宽),集团IT管理员通过营运支撑平台对两个系统划分不同等级的IT资源,示意图如图6所示。
① 业务部门向集团IT管理部门发起资源请求。
②集团IT管理部门通过营运支撑平台统计分析功能查询富裕资源情况。
③确认资源满足要求后,集团IT管理部门通过服务等级功能划分金牌服务及银牌服务,金牌服务划分为4路X86服务器、高QoS网络,集中式存储;银牌服务2路X86服务器、中QoS网络、分布式存储。
④资源分配后营运支撑平台自动对资源进行统一的监控。
⑤营运支撑平台配置管理功能自动更新配置管理数据库。
3.3.4统计分析应用场景介绍
通过营运支撑平台统计分析功能,可以迅速、直观的统计分析出云数据中心整个IT资源的情况,部分统计分析应用场景如表1所示。
4 结束语
通过云数据中心安全营运支撑平台,金融集团IT管理员可以将云数据中心基础资源封装整合成一个拥有计算、网络、存储、操作系统、中间件、数据库集合的资源池,利用直观、可视化的操作界面按需提供相关资源服务,为金融集团不同部门、不同业务系统提供高性能、可弹性扩缩、安全隔离的私有云服务,实现云数据中心基础资源的营运管理,持续优化提升资源的利用效率,降低TCO,实现智能运维。
参考文献
[1] Gary Lee著,唐富年,译.云数据中心网络技术[M].北京:人民邮电出版社.
[2] 杨欢,著.云数据中心构建实践[M].北京:机械工业出版社.
[3] 《智慧云数据中心》编委会著.智慧云数据中心[M].北京:电子工业出版社.
[4] 卓苏拉,著.云计算与数据中心自动化[M].北京:人民邮电出版社.
[5] 张文科,刘桂芬.云计算数据安全和隐私保护研究[J].2012.(11)38-40.
作者简介:
周一波(1980-),男,汉族,湖南新化人,毕业于加拿大温莎大学,硕士研究生,国网英大国际控股集团公司信息化工作部,主任助理,高级工程师;主要研究方向和关注领域:信息安全与数据中心建设。
陈捷(1985-),男,汉族,江苏淮安人,毕业于中央财经大学,硕士研究生,北京汇通金财信息科技有限公司集成业务部,副主任,中级工程师;主要研究方向和关注领域:云计算、信息系统集成。