高校网络环境中内容缓存“云模式”部署分析
2014-06-05陶亮,甄平
陶 亮,甄 平
(1.金陵科技学院信息化建设与管理中心,江苏 南京 211169;2.星网锐捷通讯股份有限公司,江苏 南京 210008)
高校网络环境中内容缓存“云模式”部署分析
陶 亮1,甄 平2
(1.金陵科技学院信息化建设与管理中心,江苏 南京 211169;2.星网锐捷通讯股份有限公司,江苏 南京 210008)
随着互联网各种应用的不断发展,网络流量也在大幅度增长。特别是P2P和在线视频等应用,抢占了出口链路的大部分带宽,从而导致出口网络性能下降,用户体验很差。而缓存技术不仅能缓解出口链路的流量压力,而且最重要的是能大大地提升用户上网的体验感。介绍了内容缓存技术的基本概念和几种内容缓存类型,以及在高校网络环境中“云模式”部署的发展。
内容缓存;云模式;高校网络
目前,以Bit Torrent(BT)、迅雷等为代表的Peer-to-Peer(P2P)文件共享应用已经成为当今互联网的主流应用之一。这些互联网应用的广泛流行给各高校校园网带来了前所未有的流量压力。内容缓存云模式部署技术是一种减轻校园网流量压力的有效手段,近年来受到关注。其本质是利用缓存技术将内容存储在缓存设备并服务于后续请求,从而减少网络中的冗余流量、优化网络性能,该缓存技术的优势是对用户友好,无需修改,干预客户端,并可以实现透明部署。
1 校园网网络应用流量的分析及出口瓶颈的解决方式
1.1 网络应用流量的现状分析
随着互联网应用的多样性发展,以P2P应用、HTTP下载和各种在线视点播等应用的流量大幅度增长,占用了校园网大量的带宽资源,导致网络的拥塞和服务质量下降。根据对高校网络应用的调查,比如某一高校在校人数约3万人,出口总带宽为2G左右,在上网高峰期对于校园网的网络应用进行分析,发现HTTP应用在所有网络流量中的比例约在43%,P2P排名第2位,在所有网络流量中占到39%的比例,其具体分析见图1。
按照应用类型对HTTP应用进行划分,传统网络下载包括HTTP下载和HTTP分段下载,在HTTP网络流量中占24%的比例,流媒体视频包括优酷、快播、FLV等占47%的比例,基本的HTTP流量占29%。值得注意的是,仅优酷一家网站就在HTTP网络流量中占到约12%的比例,所以HTTP下载和流媒体视频对网络带宽消耗是比较大的,其具体占比见图2。
图1 校园网络流量分析Fig.1 Campus Network Traffic Analysis
图2 HTTP与流媒体流量分析Fig.2 HTTP and streaming media traffic analysis
高校作为一个用户群数众多且网络访问非常集中(包括时间和内容)的特殊单位,正在经历着高昂的互联网带宽成本、用户投诉网络速度慢和质量差等问题,这也正是高校网络主管部门面临和急需解决的问题。
1.2 网络出口瓶颈的解决方式
在校园网中,HTTP下载、web视频和P2P下载占用了校园网大量的带宽资源,导致网络的拥塞和服务质量下降。校园网网络出口由于受到带宽的限制,P2P应用的增加,将导致非主要网络应用引起带宽挤占和延迟的增大,校园网出口满负荷现象严重[1]。对于如何减少校园出口带宽的瓶颈和拥塞对用户体验的影响,以及满足越来越多的用户对高带宽应用的需求,可采取如下措施:
1)带宽扩容。不断增加网络出口链路的带宽,但从现在网络应用的发展来看,带宽的扩容远远无法满足网络应用增长的需求。据业内权威统计,2010年,互联网每月流量20 EB;到2015年,这个数值将达到81 EB,是5年前的4倍。同时不断增加带宽会带来运营成本的大幅度增加,国内某些城市运营商1条1G的出口链路,每年的费用基本上在100万左右。现在高校都是同时部署多家运营商的出口链路,来解决互联互访慢的问题。如果每个运营商链路都进行扩容,学校每年出口带宽费用会高达400万。
2)流量控制。对网络流量进行精细化管理,将内网用户的P2P流量、下载、视频应用进行流量限制,可以较好解决出口链路带宽的压力[2]。但是这些应用正是用户日常经常使用的网络应用,对其进行限制会造成用户体验的严重下降,导致用户的不满以致投诉。
3)外网资源本地化。在校内部署内容缓存设备,通过将外网热门的资源本地网络化服务,减少这些大流量的应用对出口的带宽占用,从而减少出口带宽的压力。同时以内网的速度为用户提供外网资源的网络服务,将大幅度提升用户的网络体验。
综上所述,目前在本地部署内容缓存设备将外网资源本地化以减轻校园网络出口带宽压力和提升用户满意度的最行之有效的一种方法。
2 内容缓存技术概述
内容缓存设备通过DPI(深度包检测)对内网的数据进行分析,得到用户请求的web视频、http下载、P2P下载等信息,并进行记录[3]。当内网用户访问同一个资源的请求超过阈值时,内容缓存设备将此资源定义为热点资源下载到本地。后续再有用户访问此资源时内容缓存设备通过HTTP重定向、DNS重定向或者P2P重定向,使用户直接从内容缓存设备进行本地访问,大大提升用户的访问速度,提高用户的网络体验,其原理见图3。并且缓存设备可以通过主动缓存分析选定网站的热门视频,通过视频切片缓存技术识别整个视频的所有碎片并进行全部下载,为用户提供完整的视频资源。错峰缓存则利用低峰期出口带宽缓存资源技术改善缓存效果。
图3 内容缓存原理Fig.3 The content caching principles
内容缓存设备旁路在网络核心交换机上,通过在核心交换机上对上联链路的上行流量镜像配置或者使用分光器传给内容缓存设备的监听网卡,以获取用户的上网数据进行性分析,通过服务网卡进行热点资源的下载和为内网用户提供服务[4]。
设备的使用效果和镜像数据是一样的,把链路的数据复制一份到内容缓存设备的监听网卡,出口网络拓扑结构见图4。
图4 校园网出口网络拓扑结构Fig.4 The topology for campus network
2.1 web缓存技术
Web缓存是根据用户访问某网站的频率或者预设的网站信息将网站页面直接存储在本地,为用户再次访问时直接提供本地服务,加速用户的页面访问速度[5]。Web缓存对网站中静态内容的缓存有很强的效果,如传统的静态网页HTML文件、各种图片类文件、多媒体文件、样式类和脚本类文件等等。这些内容一般都不大会改变,完全可以缓存在Web缓存中并进行压缩,并且设置一个生存时间,一旦存储在本地缓存中的Web内容超过了这一生存时间,缓存设备就会自动的到Internet上去获取这些内容的最新拷贝,并将之存放在本地,确保缓存的页面与真实服务页面内容同步。动态内容,如PHP、JSP页面和动态网页网站中的标志性符号"?",一般具有实时性而且还需要和网站数据库进行实时交付,若完全缓存在Web缓存中,显然会造成页面内容的不同步。
因此通常web缓存加速时只为用户提供网站页面中静态内容的缓存加速,动态页面内容还是由用户从外网服务器直接读取。这样既能为用户通过web页面加速,又能确保访问的页面与真实服务器页面内容完全一致。
缓存设备通过DNS重定向,将用户访问的DNS请求重定向到缓存服务器,以提供Web缓存服务。或者HTTP重定向,将用户访问的HTTP请求以HTTP 302响应方式重定向到缓存服务器,以实现web、HTTP下载、流媒体类内容的缓存。
2.2 P2P缓存技术
P2P(Peer-to-Peer,即对等网络)是近年来广受IT业界关注的一个概念。由于广大的网络终端节点(普通用户拥有的节点,即通常意义上的终端设备)的计算和存储能力以及连接带宽随着摩尔定理不断地增长,使用P2P技术将大大提高这些节点的利用率,从而进一步提升网络、设备和信息服务的效能。Napster、Gnutella、CAN、eDonkey、Bit Torrent等提供文件和其它内容共享的P2P网络。
根据Bit Torrent协议,文件发布者会根据要发布的文件生成提供一个.torrent文件,即种子文件,也简称为“种子”。种子文件本质上是文本文件,包含Tracker信息和文件信息两部分。Tracker信息主要是BT下载中需要用到的Tracker服务器的地址和针对Tracker服务器的设置,文件信息是根据对目标文件的计算生成的,计算结果根据Bit Torrent协议内的Bencode规则进行编码。它的主要原理是需要把提供下载的文件虚拟分成大小相等的块,块大小必须为2 K的整数次方(由于是虚拟分块,硬盘上并不产生各个块文件),并把每个块的索引信息和Hash验证码写入种子文件中。所以,种子文件就是被下载文件的“索引”。
下载者要下载文件内容,需要先得到相应的.torrent文件,然后使用BT客户端软件进行下载时,BT客户端首先解析.torrent文件得到Tracker地址,然后连接Tracker服务器。Tracker服务器回应下载者的请求,给下载者提供其他下载者的IP,下载者再连接其他下载者,根据.torrent文件,两者分别向对方告知自己已经有的块,然后交换对方没有的数据。下载者每得到一个块,需要算出下载块的Hash验证码与.torrent文件中的对比,如果一样则说明块正确,不一样则需要重新下载这个块。这种规定是为了解决下载内容准确性的问题。
一般的HTTP/FTP下载,发布文件仅在某个或某几个服务器,下载的人太多,服务器的带宽容易不胜负荷,变得很慢。而Bit Torrent协议下载的特点是:下载的人越多,提供的带宽也越多,下载速度就越快。同时,拥有完整文件的用户也会越来越多,使文件的“寿命”不断延长。
缓存设备通过P2P重定向技术,监听网络用户的BT客户端向tracker服务器发送获取peer list的请求,Cache创建一个大小尺寸动态增长的空文件,与内外网P2P用户交换下载内容块(碎片),在下载的同时,如果有内网用户请求已经缓存的内容碎片,缓存设备会通过P2P重定向将BT客户端对tracker的请求重定向到本地缓存设备上直接提供服务,实现边下载边服务。
3 内容缓存“云模式”模型及部署
内容缓存设备对于网络加速提升的一个重要参数就是缓存命中率,命中率是指内缓存设备所提供的缓存服务资源占网用户所有的访问资源请求的百分比。命中率越高代表缓存设备提供的服务越多,缓存加速效果越好。是什么决定命中率的高低呢?活跃用户数和缓存设备的存储空间,活跃用户数越多访问共性资源的几率越大,也就是更多的资源被作为热点资源存储在缓存设备中。更多的热门资源被缓存下来就需要缓存设备有足够的存储空间,缓存设备都会有一套硬盘清理(GC)算法[6]来保持设备有一定的空间存储新的热点资源,如果空间不足的时候会造成一些资源被删除然后成为热点资源再次进行下载,影响加速效果。
活跃用户数越多并且缓存设备的存储空间足够大,这两个条件都满足的情况下缓存命中率才会提高。而在一个高校中上网用户数是固定的很难有大幅度增加,而且从性价比考虑本地缓存设备的存储空间不可能无限大。
在这种情况下可以通过将多少高校的缓存设备联合起来,通过云模式部署实现一个高校的“cache云”,来解决以上问题。
3.1 “云模式”模型简介
通过网络将多个高校本地部署的缓存设备连接起来形成一个云联盟,在云联盟内部共享每台缓存设备上的热点资源,来提高缓存的命中率和服务率,见图5。
图5 云模式部署示例Fig.5 The deployment for cloud model
加入到云联盟中的缓存设备每隔1小时会进行本地数据库更新,按照硬盘清理(GC)算法将本地排名前95%的热点资源索引更新到本地数据库中,其余5%的文件可能会随时被删除回收,所以不放入数据库中,系统还会将更新到数据库中的文件进行标记,不允许GC算法进行删除回收。每个周期(比如10 min)将数据库同步给云联盟的其他成员,确保每个成员能清楚地知道云联盟中都有哪些热点资源,并且会每隔很短的时间进行周期性地检测成员之间网络链路的健康情况,当成员之间的网络不可达时即使用户访问命中云联盟中其他缓存设备,本地缓存设备也不会进行重定向到云中。
当一个校内的用户在访问外网资源时,首先检查本地资源如果命中本地缓存设备直接从本地读取,反之则先通过在云联盟内进行查找,如果命中云联盟中成员则由本地缓存设备将热点资源从云取回提供给用户。如果云中多个成员都存在此资源,可以根据各成员之间链路带宽的情况设置的优先级来决定优先从链路最优的成员上缓存资源。也可以根据用户访问同一热点资源的次数来确定是否将此资源直接下载到本地缓存设备上,为后续用户直接提供本地缓存服务。如果没有命中本地资源和云中资源,则从本地出口链路直接访问外部资源,用户详见表1。
表1 成员用户间一学期的云服务、云接受流量统计表Table 1 The traffic statistics for users of cloud service/acceptance among members in a semester
3.2 “云模式”模型在高校网络的部署分析
云模式的部署要求各成员之间存在网络互连链路并且链路质量要有保证,才能真正为用户提供高速的缓存服务,提升用户的体验感。在高校的网络环境下,每个学校都有教育网链路进行互连,并且一些学校的教育网链路带宽非常充足,如南京市高校的网络连接拓扑图(图6),通过JSERNET(江苏省教育和科研计算机网)使得市区内的高校之间实现高速的互联,形成了一个高校城域网。
图6 南京高校高速城域网拓扑图Fig.6 The topology for colleges’high-speed metropolitan area network in Nanjing
更重要的是由于用户群体一样很容易有共性的访问,热点资源利用率非常高,这些因素都极大地促使了缓存设备在高校间的云模式部署。
通过一个高校在加入云联盟以后缓存流量的变化来分析一下云模式部署下对缓存服务的影响,见图7。
图7 某高校云服务/云接受流量对比Fig.7 The traffic contrast between cloud service/acceptance in a university
云服务流量是指本地缓存设备服务于其他云成员的流量,云接收流量是指本地缓存设备从其他云成员接收的流量。当本地缓存云接收流量大于云服务流量时,本地缓存会节约流量,反之则不会节约流量[7]。从图6可以看出在加入到云联盟中的几个月中共节省了29.25 TB的流量。
另外,可以通过查看实时流量,来分析具体的时间点的服务流量情况,见图8。
图8 周日6:00至周一6:00流量变化情况Fig.8 The traffic changes from Sunday 6:00 to Monday 6:00
图标中黑色曲线是从云中其他成员接收到的流量情况,灰色曲线为云中其他成员提供的流量情况。通过对比发现在用户上网高峰期时平均可以达到100 M左右的接收量,而提供流量平均在20 M左右。从数字上来看上网高峰期阶段实时节省了80 M的带宽流量,而实际却是通过利用cenent的链路带宽为其他出口链路节省了100 M左右的带宽,更重要的是提高了本地缓存设备的命中率从而为更多的用户提供的缓存服务,使得缓存效果得到了更大的提升。图9是南京某所高校从云联盟中的其他成员处获取的热点资源以及提供给其他成员的热点资源总体统计信息。
图9 江苏4所高校云服务、云接受流量对比Fig.9 The traffic contrast between cloud service/acceptance in four universities
由图9可以看出,作为云联盟的成员不仅是云中热点资料享有者而且也是资源提供者,随着云联盟成员数量的不断增加,每个成员从云中获得的服务也将大幅提高,更好地为本地校园用户提供更多的缓存服务。
缓存云架构平台已经搭建起来,下一步的工作就是将更多的高校加入到云联盟中,根据高校的网络运营模式,只要是校园宿舍网非运营商运营的并且在校人数在1万人以上的,都作为下一步拓展的用户。首先解决学校本地的缓存加速问题,再通过云联盟这个大的资源平台进一步提升用户的缓存加速能力。
4 结 语
通过以上分析可以看出云模式的部署方式非常适合在高校这种环境下进行应用,而且将成为一种发展趋势。可以充分利用学校现有的教育网链路,从而减少其他出口链路的带宽压力,更重要的是利用云联盟中其他高校的活动用户数和缓存设备的存储空间来提升本地缓存设备的缓存命中率,最大限度地提升本地缓存服务的能力,提高更多用户的用户体验感。而且通过云模式的建设,对于缓存设备在区域高校市场的推广有着重要的作用,对于客户而言购买的不仅是一台设备,而是整个云联盟中的资源,对于客户的吸引了也会大幅度提高。
参考文献:
[1]J Choi,J Han,E Cho,et al.A Survey on Content-oriented Networking for Efficient Content Delivery[J].IEEE Communications Magazine,2011,49(3):121-127
[2]周小勇.基于数据流的实时网络流量分析系统设计与实现[J].计算机应用研究,2007(10):296-297
[3]张红林,王宏.一种基于sFlow的网络流量分析方法[J].计算机工程与科学,2007(8):61-73
[4]李馥娟.RMON技术在网络管理中的应用研究[J].计算机时代,2008(12):10-12
[5]张震,饶光,唐戎.Web Cache技术及其在电信运营商中的应用[J].电信建设,2004(2):39-42
[6]汤小春,罗晓宇.高性能计算过程中基于网络带宽代价的节点决策算法研究[J].西北工业大学学报,2007,25(4): 599-600
[7]蒋海,李军,李忠诚.混合内容分发网络及其性能分析模型[J].计算机学报,2009,32(3):473-482
(责任编辑:马金玉)
本刊“工程技术”栏目稿约
《金陵科技学院学报》是国内外公开发行的自然科学学报,曾获得“中国高校特色科技期刊”称号,是江苏省一级刊物,季刊,每逢季末出版,本刊的“工程技术”栏目是创刊以来的固定栏目。
本校正在创建南京软件科技大学,特长期向校内外征集以下学科的文章:软件工程、计算机科学与技术、电子科学与技术、信息与通信工程、控制科学与工程等。另外本栏目也包含建筑学、土木工程、机械工程、材料科学与工程等学科。本栏目要求学术性和专业性较强,优先发表省部级以上基金项目的阶段性成果,按质择稿,优稿优酬。欢迎广大作者踊跃投稿,我们将提供高效优质的服务,快速审稿,来稿必复。
《金陵科技学院学报》编辑部
The Deployment Analysis of Cloud Model for Content Cache in Colleges’Network Environment
TAO Liang1,ZHEN Ping2
(1.Jingling Institute of Technology,Nanjing 211169,China;2.Star-net Communication Co.Ltd.,Nanjing 210008,China)
With the continuous development of internet applications,the network traffic has also greatly been increasing.In particular,the applications of P2P and online video have seized most of the export link bandwidth,which results in the degradation of export network performance and poor users’experience.While the caching technology can not only ease the traffic pressure of the export link,but also can greatly enhance the users’experience.This article introduces the basic concepts of content caching technology,several types of content caching,and the development of cloud mode in a college network environment.
content caching;cloud model;college network
TP393.1
A
1672-755X(2014)03-0026-08
2014-09-01
陶亮(1981-),男,江苏南京人,工程师,主要从事网络技术与信息安全研究。