云平台下转变运维模式势在必行
2018-07-17涂庆华李华峰高静
文/涂庆华 李华峰 高静
从国际著名咨询机构Gartner发布的IT新技术成熟度曲线可以看出,一项技术最吸引眼球、最炙手可热的阶段是在它的期望膨胀期,但这只是一个风口,它真正作为一项普及技术,大规模应用是在其平稳成熟期。经过5年多的发展,云计算和私有云达到它的平稳成熟期,已成为一项普及技术。
近年来,南京理工大学进行了虚拟化云平台的建设,取得了一些实践经验。据此,结合当前虚拟化和云计算的发展趋势,对未来的应用前景做一些探讨。
虚拟化平台现状
南京理工大学目前共部署有17台虚拟化主机,承载近200台虚拟机,涵盖了学校大部分的核心业务系统。从经济角度来看,高密度刀片服务器搭配高整合比的虚拟化方案,极大节约了数据中心的空间及能耗;从管理角度来看,集中统一的虚拟机资源管理提升了运维效率,降低了人员工作负载,资源申请流程效率提升了80%以上。虚拟化平台的高可用性、在线迁移等优势功能最大限度地保障了业务的连续性。总体看来,虚拟化平台无论在总体拥有成本还是简化运维管理方面,都起到了显著效果。
虚拟化平台分为虚拟化平台1期和虚拟化平台2期两个集群。其中1期集群内14台虚拟化宿主机,主要运行在IBM 刀片内(建设时间较早);2期集群内有3台虚拟化宿主机,主要运行在X86平台PC服务器上。
当前,南理工虚拟化平台内承载了超过180余台虚拟机,通过裸光纤实现了校园内两机房SAN网络的互通。底层存储设备通过存储的同步技术实现了跨机房的存储镜像,确保了业务数据的安全。
虚拟化平台使用的经验总结
虚拟机的蔓延
从管理角度看,有时候,虚拟化的优势也是问题的根源。虚拟机的部署相比传统实体机更方便和快捷,同时也造成了虚拟机的大量蔓延。例如:业务部门某个项目临时需要使用几台虚拟机,但项目结束后并未及时回收,久而久之,大量无用的虚拟机空转运行,造成了资源的极大浪费。因此,需要加强对虚拟机的生命周期管理来防范此类问题。
现有存储架构的局限
尽管计算虚拟化(服务器虚拟化)是一个分布式架构,满足云平台资源横向扩展(Scale-Out)的技术要求,但目前的存储架构仍然采用集中式的SAN/NAS存储。SAN/NAS存储是纵向扩展(Scale-Up)架构,当存储的容量和性能到达瓶颈时,需要进行扩容、更新、数据迁移等一系列操作,涉及预算采购及人力服务,还需考虑设备利旧,也不符合云平台横向扩展的需求。
当前,存储技术日新月异,除传统的SAN/NAS,分布式存储、软件定义存储、对象存储都有各自的适用场景,未来需要结合高校不同的业务类型,实现精细化适配。例如,图书馆应用场景,对存储容量要求高,对性能要求相对低一些。针对这样的业务场景,可以考虑使用并行NAS存储或对象存储;对于一卡通业务,稳定性、并发性要求较高,容量要求较低,可采用块存储技术;对虚拟化平台而言,各方面的需求相对平衡,从扩展性角度考虑,采用软件定义存储会更合适。
网络安全管理的挑战
在全校信息资产梳理工作中发现,虚拟化平台的系统密度较高,且各类应用的操作系统版本繁杂,更容易加速风险传递,在网络安全管理上面临极大挑战。所以,加强安全防范风险要从技术和管理上双管齐下,技术上进行加固,管理上要有明确的制度规范。
虚拟化平台的运行机制不同于传统实体机,在安全防护上也需要有合适防护手段。传统的网络防火墙、IDS/IPS等仍然可用,但不够精细化。传统的网络安全手段防护更多的是数据中心南北向流量,属于入口防护,当威胁进入数据中心内部后基本属于不设防状态,通过无保护的东西向流量将可快速传播。
在所有服务器间部署防火墙基本不现实,而且对于虚拟化环境,也无法部署传统防火墙。网络虚拟化的微分段技术,可实现对数据中心内部东西向的流量进行保护。微分段技术通过虚拟出多个分布式虚拟防火墙,可以做到针对每一个虚拟机配置一个虚拟机防火墙,并为每个虚拟机提供定制化的安全策略。例如前段时间大规模爆发的勒索病毒,通过445端口对服务器系统进行攻击,如果部署了分布式虚拟防火墙,可以有两种方式进行防御。一种方法是对虚拟机进行分类,应用不同的分类安全策略。例如Web服务器,通常只需开通80和8080端口,可直接在保护Web服务器的虚拟防火墙上设置“80,8080 Allow,其余所有端口Deny”的策略;第二种方法是在网络虚拟化的控制中心设置一条“端口445 Deny”的策略,然后统一下发到各个虚拟防火墙即可。在对虚拟机进行分类后,同一类的虚拟机属于相同的安全策略区,无论该虚拟机在集群中如何迁移,这些安全策略始终是跟随虚拟机的。相对于传统基于端口的网络安全策略,分布式虚拟防火墙提供的网络安全策略更加灵活、高效。
传统管理模式的挑战
虚拟化的利用率可分为三个阶段:第一阶段为0~30%,第二阶段为最多70%,第三阶段则达到70%以上。成本节约贯穿上述所有阶段,第一阶段通过资金开销整合实现节约,第二阶段通过自动化管理模式降低运维开销,第三阶段可真正实现敏捷性提高。以上是虚拟化平台向云计算平台转变的必然过程。
这一转变使得信息化部门能够转变运维方式,从被动反应转变为主动创新的部门,从而将节约的IT资源投入到有助于实现关键业务目标的新应用/服务或计划。主动创新的部门更能与业务目标保持一致,并且对高校的发展、创新和竞争能力起着更为关键的作用。在云平台下,现有的管理模式已不能满足需求,转变运维模式势在必行,流程及工具成为云平台运维模式下的必备选项,例如,通过监控工具可以及时发现正在发生或潜在的问题,并可通过流程触发具体的运维动作。
未来展望
云平台是由IaaS、PaaS和SaaS三个层面组成,做个简单的比喻,IaaS是一座写字楼的地基,包括水、电、管网等基础设施;PaaS则是一座座标准化的写字楼;SaaS是写字楼的租用客户。虚拟化只解决了基础设施资源的集中化和集约化,面向业务应用、标准化的PaaS平台是未来的趋势。
当前大部分的系统都是以业务为导向,这种“业务决定资源”的竖井式模式,将带来一系列的资源瓶颈问题。同时,还存在另外一个问题,软件资源没有标准化。每个应用开发商可能会使用不同的软件版本,比如A应用使用Windows 2012/SQL Server;B应用要求Redhat Linux/MySQL;C应用是Suse Linux/Oralce。每个应用要求的软件资源都不相同,直接造成软件无法管理的问题。软件版本的不统一给运维管理带来了很大挑战,也是安全风险的根源之一。
通用基础软件平台提供的是标准化的软件服务。可以梳理业务应用的特点,精简成几类标准的软件镜像,再封装成软件服务提供给业务应用。例如,经过业务分析,高校信息化服务平台只需要提供Weblogic、Tomcat两类标准化的中间件版本,及SQL Sever、MySQL两类标准化的数据库版本,再通过平台封装成四类软件镜像,提供中间件和数据库服务接口,并形成使用规范和标准。新开发的业务应用都必须按照通用基础软件平台的要求去开发应用。
这种方式带来的好处有很多,第一,尽可能地精简和统一了软件类型和版本,减轻了运维压力和安全风险;第二,将应用和基础软件解耦,应用只需要关心业务逻辑和代码实现即可,给应用瘦身的同时提高了业务的敏捷性;第三,标准化的数据库使用规范提高了数据质量,减轻了大数据业务繁重的数据治理工作。这也是现在“重平台、轻应用”的趋势和路径。
未来,南京理工大学的信息化要从虚拟化全面向云平台过渡,把能虚拟化的资源都进行改造,打造综合云平台,构建微服务,优化业务流程,为智慧校园建设奠定坚实基础。