数据中心网络的链路故障检测分析
2018-10-20钟清平
钟清平
网络服务虚拟化是未来一段时期计算机网络技术的发展方向,其通过利用软件虚拟的形式打破品牌、工艺等硬件架构层面上的差异,为用户提供更为理想的使用环境。然而,在实际建设过程中网络服务虚拟化依赖于数据中心的建设,且对于通讯带宽及稳定性具有更高的要求。本文以数据中心为研究对象,探究其链路故障的产生与检测,希望为后续建立完整的快速检测、自动处置体系提供必要基础。
现阶段虚拟化技术主要分为计算机虚拟化及网络服务虚拟化等两个层面。二者根据虚拟对象的不同来进行区别,其中计算机虚拟化更多的是通过软件架构来虚拟替代计算机的硬件架构;而网络服务虚拟化则是通过提供计算中心服务器的方式为用户客户端的计算强度进行“减压”。无论何种虚拟化技术,数据中心的建设是必要的硬件基础,而数据中心与用户间的通讯稳定性则是重中之重。笔者根据其常见的故障类型,系统对链路故障的检测加以分析,旨在为后续的相关研究与系统升级提供必要基础。
1 数据中心链路特征
从一般的数据中心建设实践中我们不难发现SDN的应用广泛度相对较高。本文以SDN架构的服务中心为例其网络结构大致分为应用层、控制层及基础设施层等三个环节,而所谓的链路结构则是对上述不同层级间计算机设备形成有效连接的物理通径。从其具体的特征角度来看大致分为如下几个方面:一是去中心化建设思想提高了链路的复杂度。去中心化的核心目的是为系统提供多个(一般等于节点数)的中心结构,相互节点间在系统中的权重相同,同时允许相关数据的跨节点传输。这一特征性建设客观上增加了链路的复杂度;二是自定义网络为链路通讯提供了更多可能,在相同的网络下,按照不同的数据复杂度及应用模式可以采用不同的协议方式来进行分别構建,即增加了链路的复杂性,同时也提高了链路的灵活性与自主性。三是链路互补性相对较高。在不同层级关系中形成的链路结构并不是传统的线性结构,而是采用网状结构来进行合理构建。这一构建基础形成了不同链路通径下形成有效的互补,在单一链路存在故障时信息可以采用“绕道”的形式进行替代传输,而过程中所产生的系统差异则为检测提供了必要依据与信息来源。
2 数据中心链路故障检测模式
上文对数据中心的链路特征进行了系统分析,在实际的故障检测体系中核心方法大致分为如下两种:
一是PUSH模式。PUSH模式即心跳模式,指的待测对象周期性发送心跳数据至检测器。检测器将根据是否在有限时间内接收到心跳数据,作为判断待测对象状态的依据,其关键参数为待测对象的屯、跳周期和检测器对心跳消息的接收超时时间。若未能在有限时间内收到心跳数据,检测器则认为待测对象发生故障。二是PULL模式。模式也称为轮询模式,检测器将周期性向待测对象发送询问消息,并对响应消息进行验证,其关键参数为检测器的检测周期和响应消息的接收超时时间。若未能在有限时间内接收对应待测对象的响应消息,检测器则认为待测对象发送故障。
分析两种不同的检测模式我们不难发现一种作为服务器内设序号的主动发送,一种作为检测服务器的主动问询。二者在架构与原理层面上存在一定的差异,且检测的工作重心与主要负载也存在一定的不同,其他针对服务中心链路故障的具体检测方式均依托于上述两种类别而存在。
3 数据中心链路故障检测应用分析
分析了数据中心链路故障的具体检测模式,从实际的应用角度来看,针对不同的常见链路故障对应不同的检测方式是一种可行模式,其具体应用主要分为如下几个方面:
第一,在交换机端口故障方面的检测:此种检测采用LOS检查技术整合交换机自身的管理机制采用心跳式自主发布的模式来进行。此种模式将检测工作交由交换机自身的端口管理来完成,在频次层面一般以1-5秒自动发送检测报告,系统汇总的方式来进行。
第二,在链路故障方面的检测:此种检测主要检查非端口的链路故障,其自身不具有检测与管理功能,需要通过服务器自主讯号的形式来进行。在实际的构建过程中常以LLDP技术为主要实现模式。该技术可以对链路的直接状态进行分析,采用与交换机端口故障同频次检测的方式来进行架构,同时能够对故障状态进行交互性表征。
第三,在交换机失效方面的检测:除了交换机端口故障之外,实际链路检测还应该考虑交换机总体失效的可能。此种失效在故障特征层面上表现为总体功能的缺失。而实际的检测体系可以从其特征的角度入手,采用PULL回文方式对其进行构建。具体而言是在PULL技术框架下对全部端口进行回文要求,回文符合OpenFlow协定下的应用失效报文模式则可以判断其故障类型。
第四,在链路状态方面的检测:链路体系除了总体失效情况下还会存在一定的非失效故障,如带宽降低、延时增加、数据丢包等。这就需要在故障检测的同时构建完整的信息收集系统,对链路状态进行实时的监控,并通过对状态的分析来完成链路有效性与可用性的总体评价。在检测应用层面上则可以基于OpenFlow协定,对其中的STATS字段的回文状态进行评估,通过此种模式确立链路状态的一般表现形式,从而对其可能存在的故障加以分析。
4 总结
数据中心在现代计算机技术虚拟化进程中尤为重要,而链路稳定性更是其中的关键一环。本文以此为研究对象,在系统分析数据中心链路特征的基础上,对其检测模式的分类与特征进行讨论,并按照常见的不同故障模式对自动化检测技术的具体应用加以分析,希望能够为后续实际开发与建设提供必要依据。
(作者单位:赣西科技职业学院)