移动通信运营商办公云
2014-02-26匡华王翔王欣明周尚勤刘福蛟赵淦森
匡华+王翔+王欣明+周尚勤+刘福蛟+赵淦森
【摘 要】
移动通信运营商面临着越来越大的市场竞争。主要针对移动通信运营商的IT基础设施建设和运营的技术问题,陈述了利用云计算来构造移动通信运营商办公云平台。给出了移动运营商办公云的技术架构,并且从系统运维的角度,讨论了利用大数据技术对办公云的运行状态数据进行数据挖掘与分析,实现对办公环境的精细化管理、智能化和自动化的运维,进而合理利用资源并提升用户体验。
【关键词】
办公云 智能运维 大数据 移动通信
中图分类号:TP392 文献标识码:A 文章编号:1006-1010(2014)-01-0061-04
近年来,云计算[1]、大数据和智慧城市成为了后互联网时代标志性的IT技术和应用。云计算、大数据作为智慧城市的支撑,从技术和模式上为实现智慧城市打下了基础。智慧城市在应用上迎合了现代对城市精细化运作的需求。在一定程度上,云计算成为了大数据和智慧城市的核心技术及使能技术。缺乏云计算的支撑,大数据和智能城市的实现将会面临极大的技术与管理上的挑战。
1 历史发展推动的技术变革
在后互联网时代,人类社会面临着越来越复杂的问题,需要越来越强大的计算系统来协助解决。由此,IT基础设施的规模越来越大,形成了大量的规模在万个节点以上的数据中心和集群系统。如此庞大的基础设施,其管理成本和复杂度远远超越传统小型数据中心的成本与复杂度。要有效地利用如此大规模的基础设施,必须要有一个高效的方法,能够对大规模基础设施以及相关的资源进行自动化的、动态的管理和控制[2]。
同时,复杂的问题和大规模的基础设施,必然意味着更加复杂的计算以及更加大体量的数据[3]。当前很多复杂的问题以及海量的数据,都超越了单体高性能计算设备的能力。也就是说,目前已经构建的单体计算设备,其配备的计算能力、存储能力或者数据处理能力难以应对这些复杂问题或者如此体量的数据。
大规模、分布式基础设施以及横向扩展的系统在这种情境下成为了一个必然的趋势,由此推动了云计算的形成。
2 云计算的本质
巨型的IT基础设施带来多方面的挑战,从技术层面看,其挑战有2个:
(1)如何有效地管理和整合超大规模IT基础设施,形成高效运作、具有超大资源和能力的系统?
(2)如何高效地利用集群系统应对复杂问题,特别是海量数据的处理?
从运营层面看,其挑战也有2个:
(1)如何完成资源和能力的交付?
(2)如何实现资源和能力的高效运转与运营?
云计算的形成,针对性地响应了上述挑战:
在技术层面,云计算通过利用虚拟化技术等,管理IT基础设施,构造由中央管控、集中调配的资源池,实现IT资源的高效运作[4];通过特定的应用平台或者框架,实现资源和任务的自动管理与调度、透明的并行化处理等,支持对海量数据的存储和处理。
在运营层面,云计算通过按需索取的形式在运营层面进行资源分配,利用虚拟化服务的形式交付资源和能力。利用云计算,小规模企业可以避免大规模基础设施的投资门槛,以租赁的形式获得大规模基础设施的使用权,构造自身的业务系统;大规模企业可以通过基础设施的集约化建设和集中管理,提升资源的利用效率。
3 运营商办公云架构
结合移动通信运营商的业务背景,云计算可以支撑移动通信运营商的内部办公业务、通信业务、基础设施管理业务以及增值业务等。
从内部办公业务角度看,移动通信运营商雇佣有大量的工作人员。这些工作人员的主要办公都是基于信息化的手段,通过计算机和网络实现无纸办公与网络协同。因此,移动通信运营商的办公过程中,需要有大量的桌面办公电脑支撑。由此带来的问题有以下几个:
(1)大量、分散的桌面办公设备的日常维护工作量大。桌面办公电脑的配置、地理上的分散以及其数量带来了大量的日常维护工作,日常的维护无法高效、自动化地完成。
(2)分散的桌面电脑容易引起安全问题。桌面办公设备的权限管控等难以完全统一实施;同时,分散在桌面电脑上的数据的保护,如私密性和完整性等,都难以开展;对于桌面电脑上的数据备份容灾就更难。
(3)大部分的桌面电脑的利用率低下。大部分桌面电脑主要是用来应对办公的文书处理、资料录入和检索等简单信息化应用,由此大部分桌面电脑的计算和存储资源被大大地浪费。
利用云计算,可以有效地解决上述问题,具体的架构如图1所示:
运营商办公云通过对物理资源进行虚拟化处理,把物理资源构造为两个资源池[5]:一个是办公虚拟机池,一个是虚拟服务器池。其中办公虚拟机池主要承载终端办公的计算业务和临时存储业务,以及承载面向外部接入的应用发布系统;虚拟服务器池主要承载后台业务系统。
4 办公云的智能运维
在运营商办公云中,资源的分配需要完成动态的调整才能够实现高效的利用。运营商办公云需要对资源池内各个独立资源的使用情况进行有效的监控,了解该资源承载的用户和系统的状态,并对这些状态进行实时的分析挖掘,然后根据相应的决策模型进行决策,形成相应的调整方案,最终通过相应的运维接口来完成资源的调整。
智能自动优化方案贯穿监控、分析、决策、运维四大流程,涉及用户状态监控、系统状态监控、运维数据分析挖掘、资源自适应调度模型、智能运维模型、故障恢复模型和应激式自动化运维等核心模块。整体框架流程如图2所示。
(1)用户状态监控
在虚拟化平台核心部件和资源池主机中部署用户状态监控探针,实时采集与用户状态和用户体验密切相关的资源信息,包括虚拟机的用户登录时间、使用时间、使用习惯、用户资源性能指标(CPU、内存、磁盘I/O、网络等)。endprint
采集的监控数据根据多个维度进行分类(如用户的级别或权限、资源所属的集群、用户接入模式等),方便形成不同维度的用户状态性能指标基线。
(2)系统状态监控
在虚拟化平台各个系统部件中部署系统状态监控探针,实时采集与系统状态密切相关的资源和状态信息,其中包括:
1)虚拟化平台关键部件的性能监控(CPU、内存、存储、网络等核心参数);
2)虚拟化平台提供服务的各Windows应用服务器的性能监控(CPU、内存、磁盘I/O、网络等核心参数)。
采集的监控数据根据多种维度进行分类(如系统部件所属的层次、按服务时段等),方便形成不同维度的系统状态性能指标基线。
(3)运维数据分析挖掘
通过监控模块获得的大量非结构化运维信息数据,作为本模块的输入,然后进行数据分析和挖掘,挖掘流程可以分成四个层次依次执行。详细层次结构如表1所示。
根据运维信息的级别,本模块使用不同的响应流程:
1)对于级别为“故障”、“错误”类的运维信息,本模块会立即进行相关数据检测,在确认非误报的情况下,形成“故障”消息包,传递到决策模块的故障恢复模型。
2)对于级别为“预警”类的用户状态运维信息,本模块会进一步收集与用户资源弹性调整相关的信息,形成“用户预警”数据消息包,传递到决策模块的资源自适应调度模型。
3)对于级别为“预警”类的系统状态运维信息,本模块会进一步收集与资源弹性调整及资源精细化整合相关的信息,形成“系统预警”数据消息包,传递到决策模块的智能运维模型。
4)对于级别为“日志”类的状态运维信息,本模块会将信息转储,并定期启用海量数据分析引擎,对日志类状态运维信息进行筛选过滤处理,主要实现以下需求:
◆运维规律预测:根据对大量历史数据的分析,可以对未来的系统运行规律进行预测,从而有针对性地在运维策略上做出提前响应,输出相关知识模型到智能运维模型。
◆基线对比修正:对采集到的性能日志数据与当前定义的基线进行对比,如果发现平台及系统状态未能达到基线定义要求,可以触发预警信号,通知人工对性能基线做出调整,或重新增加资源达到当前定义的基线要求。
◆资源整合发起:在用户空闲时段(例如晚上),对当前系统及用户行为的空闲规律进行分析,当闲置的资源达到特定条件(临界值)时,触发资源调整回收的信号,通知对应消息到决策模块的智能运维模型。
(4)资源自适应调度模型
统一桌面云智能优化需要建立一个自适应资源调度模型,依据该模型,系统可以进行资源分配决策,实现资源供给的自动调整,以适应用户的业务负载和资源消耗的需求。
(5)智能运维模型
云智能优化需要建立一个智能运维模型。依据该模型,系统可以根据状态感知,在资源占用达到一定阈值时(如资源需求低谷,或局部资源占用过量导致其他用户可能达不到性能基线要求时),对自身管理的资源进行重新规划和部署调整。其主要实现在保证当前服务质量的前提下,提高资源利用率。
(6)故障恢复模型
云智能优化需要建立一个故障恢复模型。根据该模型,系统能够在接收到各种“错误”、“异常”类消息时,使用既定的模式,执行一系列的故障恢复动作,最后对是否恢复做后续的跟踪检查。
(7)应激式自动化运维
应激运维自动化模块主要是维护一个自动化运维脚本,以适应各种虚拟化平台或用户资源的运维需求。该模块的主要任务是接收决策模块的指令集,并执行对应的自动化运维动作。
5 云计算在运营商应用的远景
本文仅从运营商办公云的角度来介绍云计算以及在运营商办公领域的应用。实际上,云计算在通信领域有着更多的应用,限于篇幅,本文不一一叙述。
笔者认为,云计算在通信领域的应用未来将着重在两个方面:
(1)云计算作为基础设施以及IT服务交付手段,协助运营商完成业务系统以及增值服务的快速部署。特别是在移动互联网应用中,运营商需要承载数量庞大的应用的后台服务,这些后台服务需要具备充足的弹性并能够抓紧市场时机进行快速部署。云计算将是最主要的技术手段。
(2)云计算作为使能技术,协助运营商构建大数据中心。移动通信受益于其庞大的用户群体、丰富的业务应用以及完备的基础设施,能够持续不断地产生大量有潜在价值的数据,运营商需要利用大数据技术充分挖掘利用这些数据来提升自身的竞争力。云计算将作为大数据的核心技术和承载平台,推动移动通信的进一步发展。
参考文献:
[1] Peter Mell, Timothy Grance. The NIST Definition of Cloud Computing[EB/OL]. (2012-04-27). http://csrc.nist.gov/publications/nistpubs/800-145/SP800-145.pdf.
[2] 邢丘丹,蒲建华,严康. 浅析B2C电子商务的云计算解决方案[J]. 科技与管理, 2011,13(5): 48-51.
[3] Dillon T, Chen Wu, Chang E. Cloud Computing: Issues and Challenges[A]. 2010 24th IEEE International Conference on Advanced Information Networking and Applications(AINA). Perth, 2010: 27-33
[4] 邓倩妮,陈全. 云计算及其关键技术[J]. 高性能计算发展与应用, 2009(1): 2-6.
[5] Nurmi D, Wolsk R. The Eucalyptus Open-source Cloud-computing System[A]. 9th IEEE/ACM International Symposium on Cluster Computing and the Grid 2009(CCGRID'09). Shanghai, 2009: 124-131.
作者简介
匡华:硕士毕业于北京邮电大学,现任中国移动通信集团广东有限公司信息系统部项目经理、工程师,研究方向为云计算和大数据,曾获“2011年度中国移动科技进步及业务服务创新奖”的科技进步奖三等奖、“2010—2011年度广东公司创新成果奖”二等奖等奖项。
王翔:硕士毕业于长沙国防科技大学通信与电子系统专业,现任广州杰赛科技股份有限公司云计算研究与应用中心副总经理,一直从事软件工程、项目管理、云计算应用开发管理工作,曾主持多项电信运营商云计算应用集成项目,发表文章多篇。
王欣明:博士毕业香港大学,IEEE和IEEE计算机学会学生成员,现任职于中山大学软件学院,研究方向:软件测试和分析、程序调试和软件挖掘。endprint