数据机房的云运维模式探讨
2021-06-04金建国范世权董玉娟
金建国, 范世权, 董玉娟, 厉 炜
(浙江德塔森特数据技术有限公司,宁波 315000)
1 我国运维现状
随着信息技术和信息化建设的快速发展,各行各业在数字化、智能化转型中建设了大量网络化的业务系统,IT基础架构规模也随之不断扩大,较之以往更为复杂化、异构化。庞大且异构的IT基础架构给运维管理带来更大的压力和挑战,国内多数网络运营主体单位都面临以下几类运维管理难题。
(1)自主运维单位依赖内部IT人员的技术和经验进行纯手工管理的被动“救火式”运维,缺乏可视化运维监管平台,运维效率低。运维工作往往只有结果,缺少过程审计,导致发生的运维事件、问题难以溯源,责任无法追究,难以管理。
(2)随着系统的不断升级,IT基础架构中存在大量不同年代、品牌和型号的产品,需要协调不同厂商解决问题,增加运维复杂度,IT技术人员压力大。
(3)需投入大量财力人力培养专业IT技术人员组建自主运维团队,而技术人员一旦离职,可能会造成系统维护的困难。
(4)自主运维团队需要的专业技术人才要有相应的技能、工作经验和管理经验,专业需要细分涵盖硬件、网络、虚拟化、操作系统、存储、数据库、信息安全等。运营单位难以快速组建一支专业的运维队伍,技术人员短缺,导致运维中出现复杂问题无法及时处理,甚至无法处理。
(5)一些单位依赖系统集成商的运维服务,而系统集成商通常专注于信息系统的集成建设,核心能力并非IT基础架构的运行优化和故障排除,不同服务商的专业服务能力也参差不齐,存在资源协调难、缺乏监管流程、服务质量差异等问题。且服务商自身综合运营成本高,导致运营单位运维成本也很高。
面对日渐复杂化的IT基础架构,集合了专业服务工程师团队的第三方运维服务商的综合能力优势愈发凸显,运营主体通过外包引入专业的第三方运维服务商,负责IT基础架构的监控运维、优化升级等工作,充分利用外部资源的优势以降低运营风险、提高管理效率。因为第三方运维服务商专注于运维服务领域,运维对象能够覆盖各类主流的软硬件产品,能提供本地化和一站式的运维服务,具有更高的性价比,第三方运维将成为未来IT基础架构运维服务的发展趋势。
2 云运维概述
在各种运维难题的困扰下,第三方运维服务商提出了IT基础架构云运维平台方案。基于云计算、大数据技术建成的集成运维管理(包含硬件设施监控、应用性能监控、网络性能监控、IT资产和IT服务管理等)、运维分析等功能以业务为导向的综合监控管理平台,是云运维的核心。其中,IT运维管理包括硬件设施监控、应用性能监控、网络性能监控、IT资产和IT服务管理(如ITSM和CMDB)等,使用工具软件对IT基础架构进行实时有效的监控、管理并提供反馈,保障IT基础架构以最佳状态稳定运行;运维分析通过运用大数据、人工智能等技术手段,预先发现信息系统运行中潜在的问题,协助运营单位做出有效的业务决策,降低运营管理风险。
建设综合监控管理平台,能帮助运营单位在网络设备和业务应用的运行监控管理的基础上,实现统一运维管理。云运维平台通过梳理业务资产,搭建整体的业务系统资产管理系统,可实现资产的全生命周期管理;加强运维的主动性,并构建云运维平台内各用户独立的管理监控体系,通过云端的集中监控与运维审计系统,可实现整个云运维平台的集中监控和统一操作,改善被动运维的局面,加强整体运维效率,将分散的业务系统统一集中管理。
云运维平台通过参照ITIL的规范,对云端的运维管理工作进行合理优化、改善管理服务、建立有序高效的协同合作体系,使运维服务具备更高的工作效率,同时把运维过程中的运维经验形成云端知识库,实现海量的知识积累和共享机制,让云端运维更好、更健全地发展。
3 云运维的特点及优势
云计算改变了传统的数据处理模式,提升了计算效率的同时也给运维管理工作带来了更多挑战。IT设备数量增加,业务系统愈发复杂,可视化、标准化、流程化、平台化的综合运维管理必将成为IT基础架构运维的新趋势,其特点和优势包括以下几点。
(1)基于B/S模型的可视化管理工作台,用户可随需随时提报故障和查阅服务信息,实时、全面掌握故障处理状态,在线阅览或下载各种运维服务报表。
(2)基于ITIL的运维作业与流程管理,合理调度运维工程师为用户提供及时高效的服务体验,用户可随时了解故障处理过程。
(3)基于云计算的数据接入和处理平台,提供低延时、高性能、高可用的数据接入能力和数据处理能力。
(4)通过秒级的告警上传、实时的运维告警处理,可以实现在极短时间内发现定位并解决问题,保障运营单位业务系统正常运转。
(5)云运维提供“7×24h远程监控值守”“定期巡检”服务,管理人员能及时准确得到报警信息并采取措施,提高了数据中心运行的可靠性,减轻运维管理人员压力,节约运营单位的用人成本。
(6)云运维的“远程监控值守”“运行分析报告”等服务,及时发现、提前预防,为保障IT设备、业务系统稳定运行起到重要作用,也为帮助运营单位做到专业化、精细化运维管理提供决策依据。
4 基于边缘计算的云运维平台
在物联网、5G的发展和推动下,运维监控数据的采集渠道和涉及的数据类型会越来越多,数据采集端产生的数据量将会更大。完全基于云的传统模型中,将大量可监管设备产生的监控数据通过网络传输到位置较为集中的云平台上,需要超大带宽和回传容量,数据处理也会产生成本。
基于边缘计算构建“云 + 边 + 端”架构的云运维平台(图1),边侧更接近数据生成或使用数据的设备,负责计算、处理、存储和网络传输,将设备产生的大量无关紧要的数据在本地进行筛选处理,减少需要传输的数据量,这会明显提升数据处理的速度和保障数据的应用边界。而且边缘计算能提供更多的通信路径(相比于集中模型)以保障数据通信的弹性。
图1 基于边缘计算的云运维平台
(1) “端”侧实现数据采集、实时监控和告警感知,对IT基础架构进行集中监管,提升运维管理效率进而提高IT基础架构的可靠性和可用性。
1)集中监控子系统利用多种远程运维、管理协议或接口实现对各种设备、系统及应用等的数据采集,感知获取设备物理状态、设备间链路状态和链路质量、应用环境等性能指标并进行实时监测和阈值告警,实时、准确、全面地监控当前系统运行状况,实现集中监控展示、实时告警通知。2)资产管理子系统实现对信息化资产全生命周期的管控。3)操作审计子系统实现对运维过程的安全管控,确保“事前须审核,事后可追溯”得以落实,降低人为失误概率,提高事故补救率。
(2)“边”侧作为云运维平台近用户侧部署的数据处理节点,负责各个业务区用户端的上传数据筛选处理、安全传输、远程运维。
基于边缘计算技术,“边”侧系统节点对端侧上传的数据筛查、智能排错、误报过滤等智能分析处理,删除重复数据、精简数据大小,提高数据处理和中转传输能力。集成虚拟堡垒机功能,实现远程运维准入和安全审计管控。
(3)“云”侧是云运维平台的能力中心,负责大数据分析、流程管理、人员管理、问题处理、7×24 h监控等运维能力。运用人工智能数据模型,通过不断学习和训练,将收集的数据进行综合分析,及时发现各个设备、业务存在的资源瓶颈和性能瓶颈,对可能产生的问题进行预测分析,自动检测和故障定位、智能分析问题根源,识别设备、系统运行潜在的故障风险并做出主动预警。