NFV与VNF架构演进与网络架构未来
2016-05-14于益俊
蒋 铭 于益俊
1 NFV发展背景:互联网云计算技术
1972年,IBM为提高大型机利用效率率先发布虚拟机技术,实现在一个物理主机上虚拟出多个虚拟主机,供多个用户安装不同的操作系统,并同时运行使用[1]。
伴随Intel X86 CPU性能的持续提升和市场的广泛应用,1998年Vmware推出X86虚拟化技术,容许在一个X86主机上运行多个Windows/Linux操作系统。与此同时,Intel CPU从2005年开始也不断提升硬件辅助虚拟化的能力,使虚拟化带来的CPU开销持续降低到5%~10%。这些技术进步带动了X86虚拟化技术的繁荣发展,Citrix、微软等也先后推出了自己的虚拟化技术。
虚拟化技术最初主要应用于主机整合解决方案,即把多个独立的物理主机上的系统通过虚拟化技术运行到一个物理主机上;基于CPU计算能力的持续提升,在一台新主机上可以实现多台老主机的功能和性能,从而降低IT硬件拥有成本。
伴随虚拟化技术应用的深化,产业界逐步认识到虚拟化带来的资源聚合、应用聚合效应以及自动化管理能力,不仅可以降低硬件成本,而且带来运营及运维的成本降低和效率提升、具备了软件协作开放、系统容量弹性管理以及开发运营流程变革的潜力。这为云计算产业的应运而生打下了基础。
2004年Google发表MapReduce(Simplified Data Processing on Large Clusters)技术论文,MapReduce利用大量的PC主机实现大规模分布式并行计算,用于搜索引擎的大数据分析处理,该论文代表具备高度可扩展性的云计算技术已经成熟。2008年,Apache开源组织很快基于Google公开的技术发布了分布式处理软件框架的开源版本:Hadoop。
2006年,Amazon基于XEN虚拟化技术发布EC2(Elastic Compute Cloud),提供云计算服务。并于2009年正式支持Hadoop。云计算服务(虚拟化)通过对大量PC主机的统一管理和资源租用,使资源聚合成为可能;而云计算技术(Hadoop)充分发挥被聚合资源的能力,实现大规模的并行处理;这些技术进一步促进了自动化管理和容量弹性伸缩等云化技术的成熟。至此,基于云计算框架的互联网技术体系基本构建完成。云计算使互联网业务获得了空前的灵活性、效率、速度和弹性,支撑了互联网产业的蓬勃发展。互联网的发展也进一步促进了产业的资源聚合、服务聚合、应用聚合。
这种分层能力聚合带来了行业新的水平整合,整个IT行业按新的垂直分层架构被重构,分为IaaS、PaaS、SaaS。
1)IaaS(Infrostructure As A Service)。以虚拟化技术为基础的基础设施层(IaaS),通过Hypervisor屏蔽服务器硬件差异,实现计算资源、网络资源、存储资源的物理资源一虚多、资源量纲归一、规格可定义和动态调度。云管理系统通过对整个系统虚拟化资源统一调度、分配、管理,实现了资源的高效共享、弹性伸缩和高可用性。
2)PaaS(Platform As A Service)。以分布式并行计算和大数据平台为基础的平台层(PaaS),利用IaaS提供的海量VM资源和自动化弹性扩展能力,可以根据应用层的负荷要求提供相应的处理能力,以适应快速的业务变化,并提供海量的处理能力满足互联网巨量的业务扩展要求。PaaS提供的多租户管理和租户生命周期的自动化管理能力,大幅度提升了应用部署的效率和资源共享的效率,使大规模的软件服务和应用聚合成为可能。
3)SaaS(Software As A Service)。云平台为基础的大规模软件服务和应用聚合,带来了软件生产方式的挑战。为适应软件大规模并行开发、灵活组合、可扩展性的要求,SOA框架成为构建软件服务层(SaaS)的关键。SOA框架中服务间通过开放API相互调用,促进了软件服务能力的充分共享和新应用的快速创新。
云计算极大推动了互联网服务创新能力、投资效率、运营运维效率、开发协作效率的提升,降低了机会成本和边际成本,使互联网成为一种先进生产力。伴随这些技术的发展和成熟,必将影响和启示电信网络技术发展的未来。
2 NFV产业背景
和互联网服务发展紧密相关的通信行业,在经历了从语音到数据业务的转型后,外部面临通信服务不断被互联网服务商蚕食,内部面临新业务推出缓慢、创新不足、运营和运维效率较低的竞争困境。为实现运营商技术体系和商业模式的转型,电信行业希望借鉴和引入互联网的先进技术和思想,改造运营商基础设施和运营运维系统。2012年10月ETSI NFV ISG发布NFV白皮书[2],推动电信行业技术向虚拟化和云化升级转型。如图1所示。
图1 网络功能虚拟化愿景
NFV(Network Function Virtualization, 网络功能虚拟化)主要针对的网络设备包括以下三类。
1)包处理类设备。如:BNG、GGSN/PDN-GW、FW/NAT、IPSEC GW、DPI、SBC、网络监控设备等。这类设备针对用户或会话实施复杂的包分析、转发、QoS计费、策略、安全等处理。
2)控制类设备。如:IMS、MME、SGSN、PCRF、LR/HSS、AAA、CG等。这类设备完成网络的运行控制和用户的接入、服务控制。
3)其他。NFV也希望基站、路由器等网络层以下处理设备逐步实现虚拟化,由于这部分设备涉及的物理层处理、数字信号处理和高速IP路由处理需要依赖专用硬件,而且它们是保证网络(空口、物理线路)效率的关键,因此是否适合虚拟化还没有形成定论和普遍共识。
NFV希望这些设备软硬件解耦,采用COTS服务器、存储和交换机作为通用硬件平台,并在这些通用硬件平台上部署虚拟化、云化软件实现软硬件隔离,各种网元作为虚拟网络功能(Virtual Network Feature, VNF)运行在虚拟化、云化平台上。通过引入虚拟化和云化技术,实现软硬件解耦,运营商希望实现以下收益。
1)降低采购成本。硬件通用化后可以扩大硬件的采购规模,并和IT产业一起形成更大规模的硬件产业/采购环境,从而降低硬件部件的采购价格。同时COTS硬件更新速度快,也可以通过更及时获得摩尔定律的收益,提升硬件性能价格比
2)提升运维效率。统一基础设施建设也统一了基础设施的维护方式,避免了不同厂家的不同设备采用不同的设备维护方式,从而带来设备维护的复杂多样性。同时,虚拟化、云化带来的自动化管理能力,也可以提升网络规划、设计、安装、调整的运维效率。
3)提升资源效率。不同的网络功能共享相同的基础设施资源,可以实现更好的削峰填谷,实现更好的按需资源调度,从而提升资源使用效率。
4)加快新产品上市。由于不需要针对每个新增加的网元进行硬件平台的认证和使用培训,且基于云化管理系统和生命周期管理系统可以实现网络功能的自动化部署和快速开通,可以加快新产品的上市速度。
5)促进创新。统一硬件平台和基础设施后,资源可以在不同的网络功能间充分共享,这样就不需要为业务创新独立构建硬件资源。业务创新初期可以只分配少量资源进行创新尝试,如果业务创新成功可以通过弹性资源扩展从云基础设施申请更多的资源,如果业务创新不成功则可以快速回收资源、再分配给其他业务使用。
3 电信网络业务特点与NFV挑战
NFV通过软/硬件解耦,实现降低成本、提高效率、促进创新的同时,也改变了当前网络设备的集成方式。传统电信设备在部署到现网前已经完成了内部的软件/硬件(包括内部计算/存储/网络)集成,并提供了完备的运维工具实现设备软硬件各层的配置管理、状态监控和故障处理。部署到现网时只需要遵循标准协议完成组网和接口IOT测试,就可以入网运行。以NFV为基础的网络功能由于软硬件解耦,且使用共享统一的基础设施,必须在部署现场完成软硬件集成。这要求NFV必须构建网络(功能)自动化部署、统一资源调度和生命周期管理能力。
同时电信网络为海量用户提供服务,网络服务由整个网络不同位置、不同功能的网元相互协同来实现。电信网络服务特点决定了对其中每一个网元的能力都有较高的要求,这些要求就构成了所谓的电信级能力。电信级能力通常包括以下几点。
1)高可靠性/高可用性。
高可靠性/高可用性是电信网络设备的一个基本特征,这是由两个原因产生的要求。
①电信持续服务的特点。电信服务通常都是一个国家或地区的基础服务,其上承载了整个社会运行的信息连接和互通。2015年中国移动电话用户规模已将近13亿,移动互联网用户规模近9亿[3]。电信服务的中断会对社会的基本活动造成严重影响,尤其是在移动互联网渗透到整个社会后,基于移动宽带构建起的金融支付、交通导航、社区交流、采购物流、新闻时讯、搜索定位等各种服务搭建起了数字化世界的基础。而在未来,数字化互联世界还将从人与人的连接向物与物的连接、人与物的连接快速渗透,水表、电表、健康监控、汽车、路灯、工厂等各种物理世界的实体通过数字化和互联来提升整个社会的运行效率和基础服务能力。这些都要求电信服务保证连续性提供。
②电信网络构成的特点。电信网络服务和互联网服务的显著不同是互联网服务其本质是信息服务,而电信网络服务必须基于物理网络E2E提供,这就要求必须通过一个物理网络中的大量网络设备相互协作才能最终为用户提供完整的通信服务。这使通信网络中一个节点的故障往往会导致整片网络的异常,产生雪崩效应。虽然电信网络会有网络级的冗余设计,但这些设计都是基于网元具备一定可靠性/可用性的前提下设计的,一般要求网元具备5个9的可靠性。
以上两个原因要求NFV架构下的网络功能也必须提供服务电信网络要求的可靠性/可用性,但基于IT/互联网技术基础的云集成设施通常只能提供3个9的系统级可靠性。如何在3个9可靠性的基础设施上提供5个9甚至6个9可靠性/可用性的网络功能是NFV面临的一个关键挑战。
2)故障处理能力。
电信服务以网络为单位E2E为用户提供通信服务,用户通信服务的体验和网络E2E的质量及可用性直接相关,一旦出现质量大幅度劣化(丢包、时延、吞吐量减少、成功率降低),需要网络具备快速故障检测、定界定位及快速恢复的能力。
NFV实施了软硬件解耦后,网络功能无法直接感知底层硬件、资源的运行状态,资源层也无法确定其上承载的业务类型。这使NFV云环境中的故障检测、定界、定位变得困难。例如:出现呼叫成功率下降时很难确定是交换机、服务器或控制应用哪个环节出现异常。这将导致用户体验受到影响,甚至影响网络使用者的关键业务。
3)实时/高性能处理能力。
网络中包处理设备的实时/高性能处理能力是构建低成本、高质量网络的关键。由于虚拟化/云计算技术当前主要应用于计算领域,如果BNG、PDN-GW、FWL之类的包处理设备虚拟化后性能大幅度下降,将极大增加虚拟化设备采购量,影响NFV的实施和推广。
NFV面临的挑战,需要电信行业引入虚拟化/云计算技术过程,一方面充分引入互联网先进技术和理念,改造或重构电信网络设备,另一方面也需要优化虚拟化/云计算技术本身,使之更符合电信行业的要求。
4 NFV整体架构演进
为实现软硬件解耦和基础设施资源共享,NFV必须构建一个分层架构如图2所示。这个分层架构不是指一个设备如何实现软硬件解耦,而是构建一个独立的基础设施层,通过NFV管理和编排系统完成各种虚拟网络功能的生命周期管理和资源共享分配[4]。NFV架构包括以下部分。
图2 网络功能虚拟化管理和编排架构
1)NFVI。NFVI是由软硬件构成的NFV基础设施层,包括由COTS服务器、交换机和存储设备构成的硬件资源和由虚拟化软件层构成的虚拟资源层。虚拟资源层虚拟机的调度引擎叫“Hypervisor”,具体实现上包括开源的KVM、XEN和闭源的EXSi、Hyper-V等。同时,虚拟资源层还提供一个重要的虚拟网络部件:vSwitch,用来支持VM机间以及和外部网络的组网互通能力。
NFVI通过虚拟资源层最终给上层虚拟网络功能使用的资源容器是虚拟机,虚拟网络功能像使用物理服务器一样使用虚拟机,一个虚拟网络功能通常需要申请多个虚拟机协同工作。
2)NFV管理和编排(MANO)。NFV管理和编排系统是衔接NFVI和虚拟网络功能的核心环节,包括Orchestrator、VNF manager和VIM。其中VIM负责管理一个数据中心的所有虚拟资源,目前在NFV领域常用的VIM包括开源的OpenStack和闭源的Vmware。VNF manager负责虚拟网络功能(VNF)的生命周期管理,包括部署上线、动态扩缩容、状态监控等。VNF manager基于VNFD(虚拟网络功能描述)完成VNF的生命周期管理,VNFD通常是一种开放的XML描述文件,如TOSCA类型模板。一个VNF manager通常管理一个或多个VNF,而一个MANO系统通常包括多个VNF manager。Orchestrator完成由多个VNF组合的NS(网络服务)的生命周期管理和对VIM提供的资源进行统一调度。Orchestrator基于NSD(网络服务描述)运行,调用VNF manager完成VNF的实例化,基于Forwarding Graph 描述完成VNF间网络连接实例化。
MANO是专为NFV分层架构设计的在线管理部件,是NFV系统自动化管理、运行、多厂商兼容、NFV系统开放的关键。对NFV系统的规划预测、资源效率、故障管理、安全管理起到关键性作用。
3)VNF/EMS。VNF是指各种虚拟化的网络功能,这些网络功能传统上运行在各种专用硬件上,虚拟化后运行在由VNFI统一提供的虚拟机上。
VNF是运营商网络的关键组成部分,在向NFV虚拟化迁移过程中,不仅要保持原有的电信级能力和网络功能特性,而且要发挥云计算中分布式系统优势,实现弹性伸缩、N way冗余等关键云化特性。
EMS实现对VNF的业务层管理,同时要和VNF manager互通,实现业务层和资源层的协作。
4)OSS/BSS。NFV演进中,OSS也需要相应改造并和MANO对接,通过对MANO系统的驱动,实现网络的E2E运营和运维。
5 VNF架构演进应对
如何结合电信系统的关键技术和云计算引入的创新技术,在NFV演进中保持VNF的电信级能力,并获得新的云化能力,是NFV是否能达到预期目标的关键。VNF架构需要实施如下关键性的演进。
1)数据和处理分离架构。传统电信嵌入式系统通常采用过程为中心的设计方式,系统由多个硬件/软件程序/上下文数据解耦合功能部件组成。而IT和互联网软件采用数据为中心的设计方式,通过数据和处理分离的架构,解耦计算弹性和系统鲁棒性。
图3 虚拟网络功能云化架构示意图
嵌入式架构直接迁移到虚拟化环境中,虚拟网元将继承嵌入式系统的固化架构,无法实现云化系统中的动态扩缩容能力和虚拟网元对共享资源的有效利用;同时为实现1+1备份,N+1备份应用必须感知具体的基础设施资源的部署,降低了软硬件解耦的程度。
数据和处理分离的架构中,处理需要的上下文数据被存储在分布式数据层,处理层根据处理节点能力、处理负荷、处理资源分布动态确定数据层数据向处理层不同节点的映射和同步方式,从而实现了计算弹性和数据鲁棒性的解耦。计算弹性和数据鲁棒性解耦是动态扩缩容、N way冗余、无极限容量等关键云化特性和电信级能力的架构基础。
2)高速软转发。为实现包处理设备虚拟化后的高性能、实时性,需要构建E2E高速软转发能力。包括:采用支持SRIOV的物理网卡、支持N×10Gbps/core高性能转发的vSwitch或软直通技术和用户态高速软转发框架。由于软转发涉及软硬件多个层次的合理配置和配合,不同的技术组合转发性能相差达到几十甚至上百倍,是目前虚拟化工程技术的一个关键。目前,从行业技术积累看,只要恰当组合各种高速软转发技术,可以满足包处理设备虚拟化带来的高性能/实时性要求。
3)基于大数据的故障管理。由于NFV软硬件解耦带来了分层系统间的协作能力变弱,为保证高效的故障管理能力,必须基于大数据升级VNF故障管理系统。基于大数据分析,VNF故障管理系统更容易在不感知基础设施层的情况下快速检测故障,并实施故障定界和恢复,使故障管理算法从模型匹配为基础的处理升级到模式分析为基础的处理。
4)云化加速。在实现加解密/DPI/编解码等包处理功能时,由于可能需要对整个数据包的每个byte进行处理计算,采用通用CPU会大幅度降低处理性能。目前在互联网/IT领域也在通用计算框架下探索采用专用硬件来加速这部分功能的处理能力。单纯采用嵌入式的硬件加速方法将会导致软硬件耦合,和NFV的架构目标背道而驰。因此,目前业界正在积极探索云化加速技术,通过把加速资源池化,让加速资源可以和存储资源一样能够分布式远程访问,达到资源和位置无关的云化目标,就可以既实现软硬件解耦,又大幅度提升云化系统处理能力。
5)服务化架构。网络功能虚拟化后,网元本质上已经变成了一个软件。而服务化是软件领域实现灵活功能扩展、快速业务创新和优化开发效率的基础。因此,恰当地引入服务化架构是实现基于NFV环境快速创新和业务上线的基础。没有经过服务化改造的虚拟网元只是延续了传统网络的功能,无法达到NFV促进创新的愿景。
6)跨DC部署能力。由于数据中心基于互联网技术的成熟,以追求最高性价比为目标,如果要达到5个9~6个9的系统可靠性,必然引起数据中心建设成本的急剧提升。
在不过度提高数据中心可靠性的前提下,VNF如果能支持跨DC部署,可以有效缓解DC故障导致的VNF故障,从而实现在低可靠性基础设施上构建高可靠性网络的目标。
6 Open NFV促进NFV产业关键构建
网络功能虚拟化的主要目标是提高服务的灵活性,以达到更好地利用资源的目的。为了实现这一目标,运营商们希望通过一个开放源码的参考平台来孵化、验证多厂商互操作的NFV解决方案。NFV开放平台(Open Platform of Network Function Visualization, OPNFV)就是为提供这样平台的开源项目。OPNFV始于ETSI NFV ISG,并最终于2014年9月30日正式成立OPNFV开源社区。作为Linux基金会托管项目之一,OPNFV定位为针对虚拟化的运营商级、集成的开源参考平台(OPNFV is carrier grade, integrated, open source platform for NFV)[5],并将从如下角度进行发力。
1)需要提供电信特性、功能、性能、安全增强,达到电信运营需求,即所谓的运营商级;
2)基于OpenStack、OpenDaylight、ONOS、KVM等开源组件进行集成,通过功能/系统测试进行集成验证,实现技术选型,即所谓集成;
3)提供基于开源的参考平台和参考解决方案,供运营商和设备商参考,可以基于该开源平台进行二次开发提供商业产品。
OPNFV的出现为NFV产业提供了一个公共的平台,能够有效帮助产业进行NFV技术升级和推广。
1)OPNFV聚集了NFV领域主要的参与方,包括运营商、CT厂商、IT厂商等,通过业界主要厂商的相互合作,共同确定NFV的技术方向,共同推进NFV技术走向成熟,能够削减单个厂商在NFV研究上的投入和避免失败。
2)OPNFV不使用设备商的商业软件,而是基于开源项目进行集成,首先提供一个“基本可用的”NFV平台作为基础。基于该平台,业界主要厂商还可以通过测试验证NFV技术对电信传统需求的支持情况,从而发现问题和短板,并进而进行增强,如修改相关的开源项目代码。通过持续的集成和测试验证,逐步完善NFV平台,加速产业成熟。基于OPNFV的平台,能够在代码和解决方案层面进行持续的验证和反馈,从而促使整个NFV产业成熟,特别是帮助运营商消除对NFV技术的疑虑和担心。
3)OPNFV能够提供一个参考的平台和解决方案。NFV厂商可以基于开源的参考平台和解决方案向客户提供增强的商业平台和解决方案,运营商和服务商也可以通过OPNFV的参考平台和解决方案来验证设备商提供的产品成熟度,从而促使商业健康发展。
4)OPNFV能对开源组件进行选型和认证,促进竞争,优胜劣汰,并最终提供电信最佳推荐和参考。
7 基于NFV的未来网络架构
伴随NFV架构演进和实践的不断深化,我们发现NFV已经为未来打造更加灵活、高效、创新的网络打下了基础,同时NFV要全面发挥优势,也越来越受到网络架构和协议定义的制约[6]。在目前正在开展的5G网络定义中,正在讨论全面、深入的变革当前的网络架构和网络协议,充分发挥NFV带来的网络创新能力,使电信网络可以为万物互联提供多种多样、灵活定义的网络能力和网络服务。
放眼未来,我们相信NFV已经为电信行业翻开了新的篇章,而5G网络架构将使电信行业迎来一个全新的时代。
参考文献
[1]张巍.虚拟化技术发展史[M].北京: 机械工业出版社, 2013
[2]NFV ISG工作组.Network Functions Virtualisation -Introductory White Paper[S].NFV ISG, 2012
[3]2015年3月份通信业经济运行情况报告[EB/OL].[2015-12-10].http://www.miit.gov.cn/n11293472/n11293832/n11294132/n12858447/16548851.html
[4]NFV ISG工作组.NFV-MAN 001[S].2013
[5]OPNFV工作组.Opennfv_Whitepaper[S].2013
[6]蒋铭.移动网络架构演进白皮书[R].华为3MS, 2015