NFV系统可用性模型研究

2017-12-27肖子玉

移动通信 2017年22期

肖子玉

NFV系统可用性模型研究

肖子玉

（中国移动通信集团设计院有限公司，北京 100080）

电信网引入网络功能虚拟化（NFV）的过程中，保证电信级高可用性成为运营商进行VNF云化部署关注的重要研究领域。通过分析系统服务的高可用性实现方法，结合运营商的应用实践在第3章提出NFV系统可用性指标分配原则和可用性关键指标参数，第4章通过实例分析给出一种优化的NFV系统可用性模型。

NFV可用性模型虚拟化网络功能虚拟网络功能组件

1 引言

由于“云”的特殊容错措施可以采用极其廉价的节点来构成云，“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本，“云”的通用性使资源的利用率较传统系统大幅提升，因此用户可以充分享受“云”的低成本优势。网络功能虚拟化（NFV）即是在电信网中引入云计算技术。NFV要解决的关键问题，一是使用廉价通用的COTS设备代替传统昂贵的电信级专用硬件；二是采用云计算技术实现自动化集中式管理。因此，如何保证电信设备NFV的可用性成为运营商引入NFV技术的重要研究领域。本文将结合运营商的应用实践提出一种可行的NFV可用性模型。

2 系统服务高可用的实现方法

通常一个网络服务（NF）是一个复杂的过程。它包括两端的外部环境因素、传统网络功能（PNF）在路由中的影响、虚拟化网络功能（VNF）在路由中的影响、两端点间所有网络连接的影响、数据中心环境策略的影响等。当一个网络服务提供商向用户提供服务时，用户关注的服务质量指标通常有四类：

（1）服务宕机时间：服务完成不可用；

（2）服务可靠性：如呼叫完成率、掉话率、切换成功率、失败率；

（3）服务时延：通常是指90%或95%概率下的服务时延统计值；

（4）特定应用质量：如MOS值是语音质量用户感知度测试值。

通常运营商使用的端到端服务质量指标为服务宕机时间、呼叫完成率、95%服务时延统计值。为得到上述指标需定义：测量点、测量方法、计数和排除规则。在系统设计中，要预测端到端服务指标，估算可行的目标性能，以便使预测值更接近长期测量平均性能。以上服务质量指标都可以归入通信技术中QoS质量保证的关键指标，包括可用性、吞吐量（满足SLA）、时延、时延变化（包括抖动和漂移）和包丢失率。

常用的平均故障间隔时间（Mean Time Between Failures，MTBF）和平均恢复时间（Mean Time To Repair，MTTR）就是用来预测服务宕机时间的可用性可靠性指标。它们分别指在一段时间内系统正常运行的时间和一段时间内系统故障修复所需的时间。系统的可用性与MTBF和MTTR有关，可靠性仅与MTBF有关。

可靠性（Reliability）（%）=e-t/MTBF（t为观测的时间间隔） (1)

可用性（Availability）（%）=正常运行时间/（正常运行时间+宕机时间）=MTBF/（MTBF+MTTR） (2)

从以上定义可知，提高系统可用性的方法为：

（1）缩短MTTR可有效提高单点设备可用性指标。缩短故障修复时间MTTR是NFV系统具备的天然优势，过去对于单点故障需更换硬件，修复时间长，而NFV系统运行在VM上，只要重新分配VM并实例化即可实现。

（2）提高MTBF也可以提高单点设备可用性指标。目前使用的设备已经是电信级高可用系统，要再降低故障率可行性不大。而在NFV架构下，软件、硬件解耦，过去由电信设备商通过系统内部软硬件的可靠性可用性设计和优化实现的5个9的电信级高可用性能需要通过分层的软件、硬件、管理策略协同完成。

（3）采用冗余配置可有效提高系统可用性，形成高可用性系统。

（4）端到端系统可靠性和服务可用性随冗余并联配置增大而增大，随串联配置节点数增加而减小。

因此，对于NFV系统高可用性设计，应能够避免由于任何单点故障而导致不可接受的服务中断。因此高可用性系统的设计需具备如下功能：

（1）自动故障检测；

（2）自动故障遏制和隔离；

（3）自动故障恢复；

（4）服务恢复及完全冗余恢复。

不可抗力事件或灾难事件会导致多个系统同时故障，这时需要容灾系统来保证系统设计的高可用性。容灾系统设计时关注两个指标：恢复时间目标（RTO）和恢复点目标（RPO）。RTO是指从通过正式的灾难声明及灾难恢复计划被激活的时间开始，到把应用服务恢复到远程灾备中心的目标时间，通常几小时到几天不等。RPO是恢复到远程灾备中心系统状态的最近时间点。通常如果数据每天远程同步一次，则RPO应为24小时。

本文主要关注网络功能虚拟化（NFV）系统可靠性和可用性架构模型研究。在NFV系统架构中硬件、虚拟层和软件变为三层串联模式——Hardware、Virtualisation Layer和VNF，如图1所示：

图1 NFV三层串联架构模型

从模型的角度看，在一个完整的网络服务中影响NFV可用性的独立网络服务组件如表1所示。

由于可靠性RNF=RHardware×RHypervisor×RVNF和可用性ANF=AHardware×AHypervisor×AVNF的定义，系统故障率特别是软件、硬件故障率和故障修复过程就决定了在资源池中配置冗余设备的数量，以便保证提供稳定可靠的网络服务。因此MTTR和MTBF是两个可靠性和可用性的重要指标，直接影响服务质量保证和SLA的特性。

表1 影响系统可用性的相互独立的网络服务单元[1]

3 NFV系统可用性指标分配原则

3.1 NFV高可用性关键因素和需求

由于系统的高可用性是由冗余配置来保证的，以下针对冗余配置进行分析。冗余配置下影响系统可用性的有五个因素[2]：关键部件故障率、故障覆盖率、故障检测时延、保护切换时延和切换成功率。

（1）关键部件故障率是指发生影响服务的故障事件概率；

（2）故障覆盖率是指系统快速检测到故障并正确地将故障与可恢复模块隔离的概率；

（3）故障检测时延是指系统自动检测并正确隔离故障所需的时间；

（4）保护切换时延是指系统在冗余单元上恢复服务所需的时间；

（5）切换成功率是指自动切换成功恢复服务的概率。

从以上定义可知，对于一次故障导致的系统不可用，当故障覆盖率和切换成功率达到100%时，故障恢复时间=故障检测时延+保护切换时延。

根据ETSI GS NFV-REL 001 V1.1.1[3]对业务服务等级SAL（Service Availability Classification Levels）的定义，本文取定SAL1和SAL2作为电信运营商在NFV系统中对可用性要求的指标，具体如表2所示：

表2 服务等级指标（SAL）表

SAL1、SAL2提出的系统恢复时间为5-15S这个数量级。

3.2 NFV故障检测和高可用性指标分配

NFV系统由NFVI（网络功能虚拟化基础设施）和VNFC（虚拟网络功能组件）组成。NFVI包括硬件资源和虚拟化软件，由VIM管理；VNFC是部署于VM上的应用软件组件，可以看作是应用软件的最小单元，由VNFM进行生命周期的管理。对于应用层VNFC的故障检测方法包括VNFM检测、VNFC间的心跳检测和来自负载均衡器组件（LB）的检测；对于云基础设施NFVI的故障检测主要包括VIM检测、VIM与VNFM关联的故障检测等。影响系统可用性指标的关键因素可以用故障检测时长、服务恢复时长和故障次数来计算，具体如图2所示：

图2 NFV系统的故障检测方法示意图

由于虚拟化使应用能够在相同的虚拟化配置中运行，而不管底层硬件的实际物理配置。理论上讲，虚拟化可使应用软件关于硬件适配方面的缺陷被屏蔽，从而提高应用软件的可用性。

以下是分两个场景的故障检测和恢复时长分配实例。实例1由VNFC故障引起的服务中断，如图3所示。

实例1给出了三种不同冗余方式的故障检测和服务恢复时间。当VNFC故障时，1+1热备采用双机心跳检测，N+M热备时采用前端负载均衡器检测，N+M冷备时采用负载均衡器检测。根据上节SAL1的要求，电信级应用故障检测时间应＜1 s，热备的应用倒换时间应在6 s之内完成。冷备方式需要重新加载一台VM，上例中给出的是负载均衡器通过负载调度，使系统由原来的N台主用变为N-1台主用，当业务量不饱满时依然可以在6 s内完成切换。切换的同时，应用会上报VNFM，VNFM在原有VM上重启或重新加载VNFC，这一过程就＜10 min。在此之前，VNFC的运行处于无冗余保护的状态。

实例2由NFVI故障引起的故障检测和恢复如果图4所示。

图3 实例1由VNFC故障引起的故障检测和恢复示意图

实例2也给出了多种不同冗余方式的故障检测和服务恢复时间。当NFVI故障时，1+1热备采用双机心跳检测，N+M热备时采用前端负载均衡器检测，1+1/N+M热备由VIM检测，冷备时由VIM检测。采用心跳检测和前端负载均衡器检测时，可以达到上节SAL1的要求，故障检测时间＜1 s，热备倒换时间在6 s之内完成。采用VIM检测时，由于需要通知VNFM进行倒换，因此倒换时间略长，可在10 s内完成。冷备方式需要重新加载VM，倒换恢复时间较长，可在10 min内完成。服务恢复的同时，由于是基础设施故障，还需要VIM分配新的NFVI资源，VNFM实例化新的备份系统，在此之后，系统方可重新具备冗余备份能力。无论以上实例1还是实例2，NFV的故障恢复时间和冗余系统完成恢复时间均优于传统PNF系统。表3给出了以上分析的总结。

图4 实例2由NFVI故障引起的故障检测和恢复示意图

3.3 NFV可用性关键指标参数

从以上实例可以看出，在为NFV的可用性进行建模分析时，表4中的指标均应作为输入参数。

4 NFV系统可用性模型分析

4.1 实例：保证网元VNF达到99.999%的可用性配置方案

首先取定NFV三层架构可用性指标分别满足99.9%时，则一个VNF组件组合在一起的可用性降为99.7%。如图5，整体可用性=99.9%3=99.7%

如图6，冗余热备模型的可用性=1-（1-99.7%）2=99.9991%（达到5个9）

假设VNF由10个串行VNFC组成，且每个VNFC均1+1热备，则这个VNF的可用性为4个9，如图7所示。

通过网元VNF 1+1冗余配置可得：

可用性=1-（1-99.99%）2=99.999999%。

从以上实例的配置可得，为保证VNF网元的99.999%的可用性，从VNFC配置到网元VNF相当于1+3备份。因此需要寻求更优配置模型。

表3 冗余备份情况下一次故障不可用时间分配表

表4 NFV可用性关键指标参数表

图8 N+M备份方式与系统可用性关系图表

4.2 建立网元冗余模型，寻找最有利的配置方案

结论如图8所示。由图8可得以下结论：

（1）当可用性为99.7%的VNFC采用N+M冗余配置模型时，最优配置模型为N+M=12+2，可满足VNFC 5个9的可用性要求。

（2）当N+M=5+2时，VFNC可用性达到6个9，串联10个VNFC组成的VNF网元可达到5个9的可用性要求。

从NFV三层架构到组成VNFC组件，再到单VNF网元的可用性模型如图5、图6、图9所示。

5 结论

图9 单VNF网元5个9可用性模型

本文研究了NFV架构下为达到电信级可用性的配置方法和配置模型，并得出以下结论：

当NFV三层可用性分别达到99.9%时，以VNFC（单独部署在一台VM上）为单位，均须采用1+1/N+1热备部署方式才能保证99.999%的可用性。

每个VNFC+它的Hypervisor层+VM冗余热备系统的月故障次数小于4次时，这个单元系统的可用性可以达到5个9。设备厂商的实现应优于该数值。

当可用性为99.7%的VNFC采用N+M冗余配置模型时，最优配置模型为N+M=12+2，可满足VNFC 5个9的可用性要求。当N+M=5+2时，VFNC可用性达到6个9，串联10个VNFC组成的VNF网元可达到5个9的可用性要求。

[1] ETSI GS NFV-REL 003. Network Functions Virtualisation(NFV); Report on Models and Features for End-to-End Reliability[Z]. 2014.

[2] Eric Barer, Randee Adams. 云计算实战——可靠性与可用性设计[M]. 北京: 人民邮电出版社, 2014.

[3] ETSI GS NFV-REL 001 V1.1.1. Network Functions Virtualisation (NFV); Resiliency Requirements[Z].2014.★

Study on Availability Model for NFV Systems

XIAO Ziyu
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)

When the network function virtualization is introduced into telecommunications networks, the carrier-class high availability becomes the important research area of the VNF cloud deployment for operators. According the analysis on the implementation method of the high availability of the system service, the allocation principle of the VFN system availability metrics and the key parameter of the availability were presented in the third chapter based on the operators’ applications and practice. An optimized availability model of the NFV system was given based on the case analysis in the fourth chapter.

NFV availability model VNF VNFC

10.3969/j.issn.1006-1010.2017.22.011

TN929.5

1006-1010(2017)22-0051-06

肖子玉. NFV系统可用性模型研究[J]. 移动通信, 2017,41(22): 51-56.

2017-06-30

刘妙 liumiao@mbcom.cn