面向用户和应用的高校智慧网络运维模型
2019-02-27涂庆华李华峰
文/涂庆华 李华峰 高 静
随着计算机技术的创新发展,传统的教育系统逐渐演变成大数据背景下的电子信息化模式,应用涉及到校园生活的各个方面。随着校园网络硬件设备规模的逐渐扩大,学校用户群体的增加,网络应用的层出不穷,硬件设施设备老化等原因,导致当前高校网络故障数量和类别不断增多。[1]目前高校网络的部署和运维大量依赖人工来进行网络设备配置、数据采集分析、业务系统管理的操作。因此在运维人员数量及精力有限的情况下,通过一定的方法,构建一个自动化网络运维模型,建立起高校智慧网络运维平台是十分必要的。
目前高校网络运维的现状
高校网络的建设在我国教育信息化工程的建设中占据着越来越重要的地位,高校的教学、科研以及通讯办公等对高校网络的依赖性也在日益增强。随着高校网络用户的增长,以及各种网络应用系统的投入使用,用户对高校网络的可用性、稳定性、安全性等方面的要求愈发提高,高校网络运维管理的工作量也随之增加。
流量调度的现状
流量调度通过对网络流量的路由进行调度,以此来升级网络的承载能力并试图让网络业务以当前的最优方式存在,是一种比较关键的机制[2]。目前高校网络流量调度普遍存在以下局限性:
1.依赖物理链路;
2.依 赖VLAN(Virtual Local Area Network,虚拟局域网)设置;
3.依赖路由协议;
4.不够灵活,需要人工操作。每次变更时都会导致业务中断,无法满足快速和自动化变更的需求。
网络运维的现状
目前高校网络的运维普遍存在以下局限性:
1.需要现场测试,依赖大量人力资源;
2.故障定位步骤繁琐,需要经验积累;
3.大量重复性工作。
究其原因,是由于网络的互通与控制都同时实现于一张物理网络中,“通”和“控”可能存在相互矛盾。校园网络的业务功能和物理网络基础架构的紧耦合,使得网络与应用紧密相关:(1)应用与Port/VLAN/IP 地址的耦合,意味着应用和位置的紧密绑定,不具备移动性;(2)基于ACL(Access Control List,访问控制列表)的应用控制与IP 地址的耦合,意味着无法实现灵活的策略部署;(3)业务流量流向到网络转发路径环环相扣;(4)业务的变更意味着基础网络频繁的配置修改,反之亦然。
突破上述局限性的前提就是要实现应用和网络的解耦合,在物理网络上层抽象出一个业务层,把网络的基本转发功能(即“通”)和对应用的复杂控制功能(即“控”)完全分离,面向用户和应用进行灵活的业务流量调度和业务逻辑控制,实现智慧网络的智能运维。
面向用户和应用的智慧网络实现
SDN Overlay 方案简述
Overlay 技术与SDN(Software Defined Network, 软件定义网络)技术结合而成的SDN Overlay 方案可以很好地实现应用与网络架构的解耦合。Overlay 是一种网络架构上叠加的虚拟化技术模式,它可以在已有网络上建立一个虚拟网,并具有独立的控制和转发平面,如图1 所示。它的优势在于物理网络设备的转发性能比较高,可以支持非虚拟化的物理服务器之间的组网互通。而SDN 技术能实现对整个Overlay 网络的管理和控制,具有较高的可靠性和可扩展性。SDN Overlay 方案能支持智能化诊断、流量可视化以及自动化运维[3][4],相比传统方案具有明显优势。
面向用户和应用的智慧大脑
图1 基于Overlay 的叠加网络平面
通过SDN Overlay 方案将应用与底层网络解耦合,网络的基本转发功能和对应用的控制功能就实现了分离。应用的控制功能不再单纯地依赖于基础网络元素的Port/VLAN/IP,而只与用户、业务属性相关,实现面向用户和应用的感知、自动化的流量调度和控制。通过人工辅助决断、乃至今后人工智能的输入,可以实现业务调度、业务控制、自动检测、动态响应、业务保障、系统联动、主动防御、分析报告等内容的输出,构建一个面向用户和应用的智慧大脑。
基于智慧大脑的智慧网络运维
智慧网络运维主要分为数据收集分析、事件关联处理分析、判断定位和自动响应四个环节,以实现变手动为自动、变被动为主动的高校智慧网络的智能运维,如图2 所示。
图2 智慧网络运维流程
1.数据收集分析
数据来源主要是应用系统监测数据,第三方系统接口信息,事件触发主动检测,AAA(Authentication、Authorization、Accounting,验证、授权和记账)、 DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)、DNS(Domain Name System,域名系统)、Syslog 数据。经过数据的预处理和海量数据的分析,平台开始进行事件关联处理分析。
2.事件关联处理分析
根据业务流程和应用场景的事件关联、基于历史基线和预测趋势的处理分析,可以进入到判断定位的环节。
3.判断定位
经过数据收集分析和事件关联处理分析两个环节,故障基本已经可以进行判断定位了。此时若该场景的处理流程在模板中能找到,则发起基于该模板的处理流程,进入自动响应环节;若该场景需人工处理,则等待手动干预,再转至自动响应环节。
4.自动响应
经过一系列的环节,故障已经得到定位。平台将根据不同的场景进行相应的自动响应。包括业务调度业务控制、动态响应自动修复、业务保障自动切换、安全事件主动防御、主动检测系统联动等等。
经过上述四个环节,就实现了面向用户和应用的智慧网络运维。该自动化网络运维模型实现了流量按需导引,灵活且具有可扩展性,大大改进了目前高校网络运维中存在的局限性,实现了面向用户和应用的智慧网络智能运维。
高校智慧网络运维应用场景
智慧网络运维平台通过实现对应用和转发的分离,以及对用户和应用信息的采集分析和响应实现了智慧网络的智能运维,有着极为广泛的应用场景。其中在高校网络运维中,最为典型和常用的就是端到端业务检测与故障报告。
1.网络的自检测:作为日常运维检测,可以设置每天8 点自动探测,以用户的身份从末端向上探测,DNS、网络是否正常。
2.网络报障的快速检测:用户报障后,从末端到核心自动进行检测。
3.应用的自检测:作为日常检测,可以实现从内到外或从外到内的检测。
4.应用报障的快速检测:用户报障后,从内到外或从外到内地进行自动检测。
实现具体方式为:一台VM(Virtual Machine,虚拟机),满足全网模拟测试的需求,自动完成每个节点的端到端测试,提供模拟用户全流程的测试报告。周期性覆盖全网每个节点、AP(Access Point,接入点)或者用户VLAN 进行检测,如图3 所示。
图3 端到端业务检测与故障报告
测试内容包括:(1)可以设定任意区域任意用户VLAN;(2)模拟DHCP Client(DHCP 客户端服务)测试;(3)模拟WEB portal 认证测试;(4)模拟校内、校外DNS 解析测试;(5)模拟校内应用访问测试;(6)模拟校外应用访问测试。
在用户群体增加、应用数量增多、设备规模扩大的趋势下,传统的网络运维管理方法已无法高效地满足高校信息化管理的需求。尤其是在高校智慧网络建设的大背景之下,更要求转变传统模式,面向用户和应用,实现自动化的智能网络运维。本文指出了目前高校网络运维的局限性,提出了一个面向用户和应用的高校智慧网络的自动化网络运维模型,并对其中的关键技术和应用场景进行了讨论。目前,国内关于高校网络智慧化的相关研究仍处于起步阶段,可供借鉴的案例有限。如何全方位地构建一个稳定、安全、易维护的高校智慧网络已成为高校在信息化建设中的重要课题。