园区网骨干链路负载均衡优化方案的设计与实现
2017-09-20潘宝春
◆潘宝春
(1.广西大学计算机与电子信息学院 广西 530004;2.右江民族医学院 广西 533000)
园区网骨干链路负载均衡优化方案的设计与实现
◆潘宝春1,2
(1.广西大学计算机与电子信息学院 广西 530004;2.右江民族医学院 广西 533000)
本文针对高校网络建设与管理模式逐步集中的情况,通过分析骨干链路负载和运行性能确定压力瓶颈问题。提出链路负载均衡的优化方案并结合现有网络架构特点设计建设一套行为审计集群,最后给出优化改造后性能测试数据。
负载均衡;高可用;聚合链路;冗余
0 引言
右江民族医学院校园网规模化建设始于2002年,原定位以满足校区范围内教学、行政管理业务信息化需求为主。近年来为配合学校发展建设,校园网接入环境经过升级改造实现骨干链路统一化,信息出口统一汇总至校信息中心。目前已完整覆盖教学、行政和师生住宅公寓区三大区域,承载信息化教学、学术科研、行政管理及日常互联网接入服务,用户群包括教师、行政人员和学生在内,日均在线数可达到7000IP。
1 网络架构现状
随着各方面教学和管理活动对网络依赖程度越来越高,校园网能否保证高效稳定运转,对学校发展有非常重要的影响。现有架构方面,本校骨干链路主体为两台核心交换机通过IRF虚拟化为单台逻辑设备实现硬件资源统一调度管理,上联由行为管理器、防火墙与负载均衡器负责承担出口转发与防护业务,链路拓扑如图1:
图1 骨干链路拓扑架构现状
2 运行情况分析
拓扑结构中,边界负载均衡器、防火墙和行为管理器均为单节点串行桥接链路,设备均承担内网所有数据转发业务的压力,可尝试从带宽资源利用情况、会话请求数曲线、节点设备负载峰值期性能参数三方面对骨干链路业务运行情况进行分析。通过对比链路设备业务设计承载容量与实际业务运行情况,确定骨干链路拓扑结构中的性能瓶颈。首先基于行为管理器工作于桥接模式对校园网转发流量及会话请求进行实时审计,如图2、3所示:
图2 行为管理器全天转发流量曲线
图3 行为管理器全天会话数曲线
可确定每日从22:00至次日01:00为网络使用高峰期,选取该时段对各节点设备运行数据进行分析可确定设备业务峰值期运行性能占比,如表1:
表1 高峰期节点设备下行转发业务性能占比
根据所收集数据分析,由负载均衡器下联往行为管理器方向1Gbp/s容量的光钎链路处于入口数据转发满负荷状态,由行为管理器下联至核心交换机方向2Gbp/s容量聚合光纤链路利用率为47%约等于总入口数据转发量。设备性能利用率方面,除行为管理器外的三个节点均处于CPU性能值偏低位运行,行为管理器在业务峰值时段抽取的15分钟内CPU性能均处于高负载甚至接近满负载工作状态。
3 待解决问题及优化思路
骨干光路缺乏高容量冗余设计,目前总出口容量设计为2Gbps对等光缆同时考虑到今后本校信息化建设的推进出口带宽势必有所增加,而现有骨干链路环境仅基于单对千兆光路驳接,不能满足大于2Gbps对等光缆的交换容量需求。并且单对光路由于没有冗余设计,在实际生产环境当出现光路故障,数据传输势必产生中断,有可能严重影响教学工作。
考虑到上述两方面需求,首先应采用基于至少两对千兆光纤链路组建节点设备间聚合链路组的模式,对接驳介质进行改造优化。在聚合链路组技术支持下交换设备主动检测成员物理端口工作状态,并根据物理端口负载情况策略均衡报文转发端口,可充分利用成员物理端口的转发性能,标准化协商协议同时又能支持设备在预定策略下自行管理维护聚合链路[1][2],在面对如成员端口故障等状况下聚合组发生变化时仍可自动调整聚合链路业务逻辑从而保证数据报文转发不受影响。
另外,骨干链路中行为管理节点承担全校最高7000ip上下的审计流控任务,用网高峰期其设备性能利用率长时间接近饱和值,单一设备不足以满足业务增长和应对可能出现的业务波动或泛洪攻击[3]。基于单链路架构建设骨干网络一定程度满足了过渡期的使用需求,但从长期发展需要和借鉴参考业内园区网建设经验来看如文献[4]文献[5]文献[6],需通过采用高可用(HA)[7]及负载均衡(Load Balance)技术构建行为管理集群架构[8][9]提升管理效率。
目前行为管理器采用的是华三H3C ACG-1000E型号设备,设计可支持双设备主-主工作模式,其通过HA检测端口发送心跳检测(Keepalive)检测报文判断设备工作环境实现业务负载均衡并与对端共享会话(Session)信息、设备配置和应用特征库实现行为管理机制高可用。利用上述设备特性,通过新增行为管理设备与原有设备组建行为管理HA集群,下联至核心交换集群方向设计两组聚合链路组对应接驳至两台核心交换机业务端口,实施改造后拓扑调整如图4:
图4 改造后骨干链路拓扑架构设计
4 实施过程及性能对比
根据设计,原核心交换集群上联至行为管理器ACG-1000E-1端口GE-0、GE-1的聚合光链路结构BAAG-1000保留。新增一组基于两对千兆聚合光链路BAGG-1001接驳至行为管理器ACG-1000E-2业务端口GE-0、GE-1,用于为两台行为管理设备实现转发容量均衡提供端口资源。
边界负载均衡器下联往行为管理器方向节点设备间新增聚合链路组若干,把改造前物理链路划归各对应位置的聚合链路组中,再分别对各聚合链路组添加成员光纤链路使聚合组介质容量扩容至≥2Gbps水平。
行为管理集群工作模式沿用改造前的透明桥接模式(Bridging),可通过自动学习机制识别并完善路由信息,在面对其他网络主机时集群对所有数据帧做无差别透明转发,其本身加入或退出链路的行为对原始三层环境影响较小,同时又能保证数据帧审计和流控的需求。
行为管理集群中,原行为管理器ACG-1000E-1物理端口GE-2、GE-3为上联聚合组成员端口,改造过程中将端口GE-3从聚合链路组agg2中拆分出,保留聚合组agg2聚合业务把新行为管理器ACG-1000E-2的端口GE-2重新加入到聚合组agg2中,形成双机端口上联聚合链路组。
集群内设备均启用多机部署功能,各自使用GE-3端口作为通信隧道。通过定时心跳检测获取对端设备HA和LB工作状态,并同步安全审计策略、系统配置和路由信息等数据,所有设备共享统一配置信息从而协调实现硬件资源的负载均衡使用。
对改造后接驳链路进行监测,负载状态如图5至图8:
图5 边界负载均衡器至防火墙
图6 边界防火墙至行为管理集群
图7 核心交换至行为管理汇聚组1
图8 核心交换至行为管理汇聚组2
对改造后行为管理器流量转发业务进行监测,运行状态如图9、图10:
图9 ACG-1000E-1转发流量与CPU利用率一小时取样
图10 ACG-1000E-2转发流量与CPU利用率一小时取样
根据图5至图8分析,骨干链路设备边界负载均衡器-防火墙-行为管理集群间接驳聚合光链路已运行在2Gbps状态下,核心交换往行为管理上联方向通过两组汇聚链路接驳,如图7、8所示两组聚合组均衡分担两节点间的转发数据流量负载,链路冗余改造完成。
图9、10波形曲线对比显示两张波形图CPU性能曲线为互补状态。即随集群内两台物理设备各自性能利用率升降,集群转发业务处理压力自动基于HA/Load Balance机制在两台物理设备间分摊,当其中一台设备性能压力上升较快时另一台设备自动对转发业务进行抢占,行为管理集群HA/Load Balance生效。
5 总结
通过对本校网络骨干链路升级改造,自改造完成投入使用至今,校园网出口链路业务稳定性得到提升。通过利用链路聚合和设备集群化的思想和技术,原有高负荷链路节点的业务压力得到缓解,数据转发效率得到提升,改造后链路架构比原有架构更为健壮,校园网在高峰期运转环境下基础网络访问业务可得到有效保障。同时链路冗余设计对提升校园网安全和完善容灾机制起到关键作用,也为校园网信息系统安全等级保护认证监管工作提供基础支持,本架构在今后一段时间内可以很好地承载本校对于信息化建设的需求。
[1]王兆敏, 潘志鹏, 高婷婷等.论链路聚合技术——网络带宽和可靠性瓶颈解决方法[J].科技尚品, 2015.
[2]蔡惠, 胡岚.高校校园网双核心冗余设计与实现[J].电脑编程技巧与维护, 2016.
[3]耿技, 马新新.对等网络泛洪DDoS攻击的防御机制[J].电子科技大学学报, 2009.
[4]林骏澎, 谭吉芳.高可用性企业网络的改造设计与实施[J].科技广场, 2013.
[5]王东.VRRP协议实现园区网络的路由冗余和负载均衡[J].重庆科技学院学报:自然科学版, 2010.
[6]李乃振.构建高可用性专网[J].网络安全和信息化, 2016.
[7]Gibbs M.High availability and heartbeat[J]. Network World, 2005.
[8]胡章平.集群系统与分布式计算[J].电脑知识与技术:学术交流, 2006.
[9]李鹏.高可用集群系统实时控制管理软件设计[J].自动化技术与应用, 2016.