基于校园网的网络透明缓存系统的构建与实现
2009-03-10董春生
董春生
摘 要:网络缓存技术是目前用来提高高校校园网的用户响应速度及相关网络性能的有效手段,本文详细介绍了网络缓存技术在校园网中的构建与实现,及其工作原理、性能特点,并说明了使用网络缓存的优越性。
关键词:校园网 网络缓存 网络结构 教育网 流量
中图分类号:TP393.18 文献标识码:B 文章编号:1673-8454(2009)01-0036-03
一、概述
1.互联网访问存在的问题
近年来,随着许多高校校园网网络规模的迅速扩大,上网用户爆炸性增加,校园网网络带宽及Web服务器处理能力的增长速度永远处于巨大的压力下,这种供需双方的不平衡发展带来诸多的问题,出现了骨干链路拥塞、服务器过载以及响应时间过长等现象。用户普遍反映校园网网速慢,希望提高网络访问速度的要求越来越强烈。可以说,网络访问速度已经成为影响高校数字化建设的一项重要指标。
从整体上看,校园网用户得到的响应慢是由以下几个因素造成的:
(1)网站服务器的延时
当某个服务器收到多个并发HTTP请求时,会产生排队延时。由于响应一个HTTP请求,往往需要多次访问本地硬盘,所以即使是一台负载并不大的服务器,也可能产生几十或几百微秒的延时。
(2)由路由器、网关、防火墙引起的延时
通常在客户端和服务器之间的路径上会存在多个网络设备,如路由器、网关、防火墙等。它们对经过的IP包都要做存储/转发的操作,于是会引入排队延时和处理延时。在网络拥堵时,这些设备甚至会丢弃数据包,此时会寄希望于客户端和服务器通过端到端的协议来恢复通信。
(3)不同通信链路上的数据传输速度
在广域网中,从一个网络设备到另一个网络设备间的数据传输速度是决定往返时间的一个重要因素。但基本带宽所起的作用并不像人们想象的那么重要,一项测试表明,当网站采用T3速率接入Internet时,也仅有2%的网页或对象能以64kbps的速度提供给客户端。这显然表明,带宽在网络性能上不是最关键的因素。
(4)互联网上新业务发展带来的挑战
随着宽带平台的建设完成与互联网的发展,互联网上的新业务层出不穷,其中开展最好的主要有互动游戏与视频服务。网络游戏的运营不会对校园网络产生太大的影响。而视频服务作为目前校园网的主要业务之一,基于流媒体协议,具有时序性、连续性、低延时性的特点,同时在网络上传输的数据量较大,校园网络的延时往往会影响用户的访问质量。
2.网络缓存解决的问题
高校校园网正以迅猛的速度发展,在全国高校中,99%以上的高校有自己的Web地址,80%以上的高校已实现了校园网,并在公用Internet上存放图文并茂的数据。在未来的几年里,校园网用户数量将进一步增长。Web访问需求不可控制的增长将导致人们为满足带宽需求付出巨大的努力。
Web的流量是惊人的,但其中绝大部分是冗余的,即一个位置上的多个用户要访问大量相同的内容,这意味着在广域网上日复一日地传输大量相同的内容。消除这些大量的重复传输,就可以大大降低通信成本,从而为校园网管理部门和用户节约大量的费用。Web缓存实现了Web内容的本地存储,为校园网用户的访问提供了快捷的服务,而不用在广域网上重复传递访问请求和结果。
网络缓存技术正是基于这样一个事实:校园网用户访问Internet的数据中,有很大一部分是重复的。通过使用网络缓存技术,可以在缓存设备中缓存用户访问过的对象,这样对相同对象的访问就无需再占用服务器处理能力或者主干的出口带宽。同时,由于校园网用户对服务器的请求可以由校内的缓存设备立即响应,因此可以极大地提高校园网用户访问的响应速度,减少互联网延时对校园网用户的影响。
二、用户需求
高校校园网用户在使用中国教育和科研计算机网(CERNET,以下简称教育网)的过程中,发现访问网站页面速度比较慢。这主要是由于教育网的出口在清华大学,校园网用户访问网站页面时需要绕到清华大学出口,用户的数据包绕经多台网络设备,每台设备都需要对IP包进行排队转发,造成了较大的网络延迟。为了减少IP包在网络中的延迟时间,提高用户打开网页的速度,各高校校园网管理者希望通过网络缓存系统解决目前的问题。
各高校由于没有自身的Internet网络出口,为了向其用户提供上网服务,需要使用教育网的线路。教育网与其他网络运营商之间的互联互通会引起网络的较大时延,直接导致用户的访问效果不佳,而更为重要的是:对于国际流量各高校需要按照网络流量向教育网支付相关的费用。通过建立网络缓存系统,能够有效地节约各高校的国际访问流量,降低系统运行费用,同时改善用户的访问效果。
1.未部署网络缓存系统前的网络拓扑结构
我校未部署网络缓存系统前的网络拓扑结构如图1所示。
我校的校园网网络采用双核心结构,通过在两个校区设置的核心交换机来承载全校的数据流量,并通过各自连接的一条千兆光纤接入教育网。核心节点之间采用双链路连接,两个核心之间互为冗余。校内各楼宇通过交换机分别连接两个核心节点,流量在两条链路上实现负载分担和冗余。
2.缓存系统建设要求
缓存系统的建设既要符合对当前系统应用的考虑,又要面向未来数字化校园发展的需求。其建设原则主要有以下几点:
(1)实用性和先进性
采用成熟的技术满足当前的业务需求,采用先进的网络技术以适应更高的数据、多媒体信息的传输需要,整个系统在一段时期内能保持技术的先进,并具有良好的发展潜力,以适应未来业务的发展和技术升级的需要。
(2)灵活性与可扩展性
随着业务量的发展,能够通过对缓存设备的扩容、分散部署,扩大网络容量,提高网络各层次节点的功能。缓存系统应具备支持多种通信媒体的能力,提供技术升级、设备更新的灵活性,从而适应数据业务的迅速发展。
(3)可管理性
采用智能化、可管理的缓存设备,能够实现监控、监测整个网络的运行状况,合理分配网络资源、动态配置网络负载,可以迅速确定网络故障等。
本期工程主要是对校内用户进行Web加速,需要在校园网出口处布置网络缓存(Cache)设备。Cache设备的部署采用透明代理的方式,即Cache设备对用户是透明的,避免用户端改动配置。考虑到用户需求增长得很快,为了满足今后的扩容及Cache资源的最大化利用,布置Cache设备时需要考虑到流量在多台Cache设备间的负载均衡及灵活方便地增加Cache设备数量。
三、方案建议与实施
在当前的网络结构中,推荐采用四层交换设备部署网络缓存系统。该方式是在校园网的出口处外挂四层交换机。通过核心路由器和四层交换机配合完成用户数据的重定向,四层交换机实现对Cache设备的负载均衡和健康检测。
1.方案部署结构
部署网络缓存系统后的网络拓扑结构如图2所示。
如图2所示,在本方案中两台核心交换机各采用一条链路连接到一台四层交换机,该四层交换机再通过以太网接口下连Cache设备。四层交换机可以布置在核心机房,通过光纤同时连接到两台核心交换机上。
在核心交换机上配置策略路由,将端口号是80(HTTP)、21(FTP)、554(RTSP)、1755(MMS)的数据包转发到四层交换机上。四层交换机对Cache设备进行健康检测,并将两台核心交换机转发来的数据包在多台Cache设备上进行负载均衡。
2.数据访问流程
下面,我们以核心交换机1为例,说明校园网用户进行HTTP数据访问的具体流程:
(1)校内用户的HTTP请求到达核心交换机1后,其按照在连接校内用户的端口上所作的基于TCP 80端口的策略路由,将用户请求重定向到四层交换机;
(2)四层交换机根据数据包的目的地址,把HTTP请求重定向到某台Cache设备中;
(3)如果Cache设备中已经存储了用户请求的相关内容,Cache设备将直接响应用户请求,Cache通过四层交换机与核心交换机1的互连端口将回应数据包转发到核心交换机1,由核心交换机1将数据转发到用户端;
(4)如果Cache设备中没有保存用户所请求的内容,Cache会代替用户向Web服务器发起HTTP请求,数据包通过四层交换机转发到核心交换机1,再由核心交换机1发送到Web服务器上获取相关数据,并返回到Cache设备保留备份。同时Cache利用保存的内容响应用户的请求。
如果某台Cache设备发生了宕机,会被四层交换机的健康检测及时发现。宕机的Cache设备将不会再被分发数据包,四层交换机会将后继的数据包转发到其他可用的Cache设备上。如果所有的Cache设备都宕机了,四层交换机会把核心交换机1转发来的用户请求再转发回核心交换机1,核心交换机1再把请求发送到Web服务器,由Web服务器直接响应用户请求。这样就避免了由于Cache设备不可用造成的用户Web服务中断。
另外,四层交换机还可以根据Cache设备的性能,在Cache设备间按比例分布流量,实现每台Cache设备资源的最大化利用。对于今后的扩容,管理员可以方便地将新的Cache设备挂接到四层交换机下,稍做配置即可实现容量的扩容。
核心交换机1也有一定的健康检测功能,可以对四层交换机进行健康检测。若连接四层交换机的链路断掉或交换机宕机,都可以被核心交换机1检测到,并取消向四层交换机路由的重定向,数据包被直接转发到Web服务器,从而保证了用户可以正常上网。
核心交换机1的路由重定向可以根据TCP端口进行转发,并能限定数据包源IP地址、目的IP地址和进出路由器方向。根据这些特性,我们在核心交换机1上只对校园网内部节点的用户进入核心交换机1的数据包进行路由重定向(如根据源IP地址)。来自校园网外、Cache设备、其它地点和流出核心交换机1的数据包,核心交换机1不进行路由重定向,因此不会形成数据环路。
3.优化的流量
Cache设备接入到我校的校园网后,优化了带宽的流量有以下几种:HTTP、FTP、Streaming(RTSP、MMS)。
根据部署前后所做的对比测试,对HTTP流量,达到30%的带宽节省效果,通过策略对一些Web对象进行优化后,最高可达40%以上的带宽节省效果。
对FTP流量,所有匿名FTP的访问,Cache设备都能对其进行缓存,具体节省带宽的大小取决于当前校园网网络中FTP流量的总量。增加Cache设备对FTP Data通道的流量进行缓存,时间稍长后,节省的带宽将有明显改善。
RTSP、MMS直播/点播流量在校园网呈上升趋势,仅CCTV就有11个网上频道有直播和点播。例如:在进行十七大网上直播的高峰时段,CCTV在我校网络缓存设备节点上650Mbps的直播流量中,服务器端流量仅不到10Mbps;没有直播时,该节点上点播流量达155Mbps,服务器端流量仅不到5Mbps。
RTSP、MMS流媒体流量的带宽节省取决于实际的流量总量。但从比例上讲,视频点播(静态流媒体文件)业务经过一段时间运行后,带宽节省率应在该项总量的60%左右,直播业务带宽节省率应该在该项总量的90%左右。
这里需要说明的是,PPLive/QQLive/PPStream的播放虽然基于WMS(Windows Media Services),但其采用P2P方式获取数据,且没有使用RTSP或MMS来建立Client与Server之间的控制通道,因此Cache设备无法对这些流量进行标准流媒体的分流(Streaming Splitting)。
四、结束语
通过网络缓存系统的部署,有效地优化了我校校园网几种主要业务的网络带宽,减少了校园网出口的流量,节省了网络运营开销,成功地改善了我校校园网网络拥塞的状况,得到了广大校园网用户的认可。
参考文献:
[1]郭琳,李欣,陈志军,苏群,程懋泰,赵宇明.网络缓存技术[J].计算机系统应用,2002 (8).
[2]乐德广,郭东辉,吴伯僖. 网络缓存技术及应用的研究[J].计算机系统应用, 2003 (5).
[3]黄慧,李建华. 网络缓存性能的研究[J].信息安全与通信保密,2004(11).
[4]王昭,郭成城,晏蒲柳.一个面向站点的Web缓存系统[J].计算机工程, 2005 (7).
[5]赵玉伟.WWW中缓存机制的应用研究[D].武汉:武汉理工大学,2006.
[6]黄文枫. 基于主动网络的缓存技术研究[D].西安:西安电子科技大学,2007.