网络流量模型的关联分析*
2021-01-08贾忠上孙英娟
贾忠上,孙英娟
(1.菏泽学院物理与电子工程学院,山东 菏泽 274015 ;2.山东省菏泽信息工程学校,山东 菏泽274000)
随着网络业务的发展,特别是自相似性流量的发现,针对园区网络,人们更关注网络实时和半实时等突发业务(如VoIP和IPTV)的性能和质量.园区网络的特点:一是网络的速率越来越高,过去一般是指网络速率以千兆为主的中大型交换式局域网(Switching LAN),而现在已经发展到了万兆;二是网络规模越来越大,从数百个信息点上升为数万个信息点;三是园区网络的直径越来越大,数公里已不罕见;四是网络的业务功能越来越多,除了传统业务之外,IPTV、QQ、MSN、VoIP等实时服务都进入园区网络的服务范畴;五是园区网络的多层交换化,百兆交换到桌面已成为园区网络的主流.本文研究的对象就是交换式的大型园区网络(以下均简称为园区网络).
目前主要是利用排队模型和自相似模型分析园区网络流量,专门针对园区网络性能的分析模型还没有出现.排队模型计算方法简单,但只适合分析轻负载情况的网络.自相似网络模型比排队模型能较好的分析网络层和应用层,但进行自相似性模型设计却非常复杂.目前很多人分别对两种模型进行了大量的改进,如文献[1]提出了排队系统云计算中心近似分析模型,得出提高服务器服务速率比增加服务器数量更利于提高服务性能,文献[2]成功地由实验得出由于一系列流量明显的多重分形固有的特性而使得FARIMA过程在3G移动网络中失败了,提出了ARMA与FARIMA模型相结合的一种集成方法,并验证了其有效性,文献[3]提出了一个模拟数据包丢失的方法,发现了Hurst参数和分组丢失率之间的关系.本文没有从一贯的思路出发,只对模型进行改进,而是把两种模型做了关联分析.
本文以排队模型和自相似输入模型为基础,推理了两种主流模型的关系.通过捕包、流量测试等方法对园区网络上的主要业务进行了测量,并利用模型的关联关系结论分析了园区网络主要业务的主干带宽,最后针对关联关系结论展开了相关讨论.
1 两种模型的相关性
1.1 排队模型
排队模型中假设分组传输呈泊松分布.这里利用排队模型中最为经典的M/M/1模型.虽M/D/1模型比M/M/1模型具有更短的时延,但它只传输等长的分组,而且指数服务时间模型对应的性能较差,若以它进行计算,只可得到保守的分析结果,所以这里不考虑M/D/1模型.
对于M/M/1模型,排队系统中的平均分组数γ与利用率ρ的关系是:
(1)
在真实网络中分组的传递不可能完全遵循泊松分布,可能会出现突发的现象,这时可以利用自相似模型分析流量性能.
1.2 自相似模型
网络中数据突发(分组列长)及其长时间的空闲(数据到达的间隙)现象都会发生.像这样出现突发现象的VBR视频等实时流量,大量研究表明可以用自相似特性来描述.Norros是这方面研究的代表,他在文献[4]中提出一个基于FBM过程(Fractional Brownian Motion)的定长服务时间的无穷大缓存的工作负载模型,并得出一个简单的结果公式.即自相似输入模型的存储需求r与平均利用率ρ的关系:
(2)
本文中将利用这个自相似输入模型进行计算分析.
1.3 两个模型的关系
当自相似参数Hurst的值H=0.5时(传统的短程依赖模型),关系式(2)简化为r=ρ/(1-ρ),就是经典的M/M/1排队公式(1).
下面进一步推导这两个公式的关系.也就是在H≥0.5时,H参数是不是只对延迟具有影响.令:
(3)
由式(3)解得:
1-3ρ+ρ2≥0
(4)
由式(4)解得ρ值为常数,并且与H参数无关.ρ值分别为0.382和3.736,因3.736不符合实际,故舍去.
根据高速网络与互联网—性能与服务质量(第二版)中的自相似存储模型,如图1所示,可以看出,利用率ρ大于0.382时,自相似特性对延迟才起明显的作用.当低于0.382时,自相似模型的延迟还低于排队模型,H参数越大,自相似的队列长度比M/M/1模型的队列长度还要小.而高于此ρ值则相反,如当队列长度r=4时,H值为0.75对应的ρ值0.568,而H值为0.9对应的ρ值0.45.
图1 自相似模型与排队模型比较
通常工程计算的误差在20%以内.自相似模型与经典排队模型的交点ρ值的上限误差是0.382×1.2=0.458,接近H值为0.9所对应的ρ值0.45.基于多种统计检验估计出来的以太网通信量的自相似的H值正是0.9[5].
对于园区网络因文件大小不等产生的传输所构成的重尾分布,可在低层实现优先级队列.根据GB/T 21671-2008《基于以太网技术的局域网系统的验收测评规范》,要求全双工以太网的链路健康指标链路平均利用率≤70%[6].显然链路利用率设计的ρ值低于0.382时,链路还有一倍以上的容量可以用来应对突发流量,从而重尾的影响可以消除.
所以只要控制链路利用率ρ不超过0.382或最多0.45时,可以以经典排队方式建立园区网络的计算模型.
2 关联模型
这样可以依据上述推导,得出园区网络的关联计算公式:
(5)
当ρ≤0.382 时,则园区主干网络的带宽可以通过单服务M/M/1排队模型来计算.园区网的交换设备通常是多口转发设备,若多个平均速率λi的泊松流合并到一起,得到的平均速率是多个泊松流之和,计算公式为:
(6)
这时园区网络的模型如图2所示:
图2 园区网络主干模型
该模型也适用于汇聚层和接入层.
3 关联模型的应用
园区网络的业务可分3类:
非实时业务:如E-mail、Web、文件图像、MP3下载等.
实时业务:如VoIP、视频会议、QQ超级视频、股票实时行情、管理信息系统等.
半实时业务:如VOD和IPTV等流媒体业务等.
IPTV所需带宽最大,是园区网络的主要业务,单独列出研究是有必要的,下面围绕IPTV进行探讨.
3.1 主要QoS参数
QoS参数主要有吞吐率/带宽、丢包率、时延、时延抖动等.一般来讲,对于语音和交互式视频或视频会议:单向延迟不能越过150 ms,抖动不能越过30 ms,丢包率不能越过1%.两者的区别仅在带宽的需求,语音报文较小,视频会议的报文较大.而流媒体视频的要求低于交互式视频,流媒体视频要求丢包率不超过5%,时延不超过4~5 s.因为带宽需求与语音/视频的编码有关,所以建议只用一种编解码标准计算[7,8].此情况下,建议语音使用G.729A,建议视频使用H.263以上.带宽需求见表1:
表1 常见语音、视频带宽(Kb/s)
3.2 实际带宽测量
利用DU Meter工具在万兆校园网测量得到的一些实时和半实时多媒体业务和股票实时行情带宽平均值,见表2.
从上述实际测量值与园区网络的常用业务带宽比较:
1)QQ语音:功能与IP电话相同,平均带宽可满足IP电话G.729 A编码的需求.
2)QQ视频:功能与视频电话相同.在H.323协议簇中,视频的标准采集分辨率QCIF为176×144像素.典型应用的QQ视频达到QCIF质量的速率为128 Kbps.
3)QQ影音播放:QQ影音播放属于流媒体性质,图像质量不佳,实际很少有人使用,所需带宽低于网络视频会议带宽.网络视频会议的图像变化不会太大,所需带宽有限,只要达到CIF 352×288像素,有384 Kbps的带宽就行.在园区网络内,会议视频无论是采用多点传输或者多播技术,由于信息量、使用时间和用户数量都十分有限,因此可不做主要考虑对象.
4)股票行情:带宽在0.8~3.4 KB/s之间.
由上述分析,正常情况下每个信息点的最大带宽需求是QQ视频和股票信息,合计21.4 KB/s,这些带宽需求并不大.事实上在园区网络中消耗带宽最多的是网络电视IPTV(包括VOD)业务.H.263编码的IPTV速率如果达到700 Kbps以上,即可播放600×480(2/3D1)图像格式的电视片,接近有线电视的标准清晰度的图像水平.如采用WMV-HD/H.264标准还可以降低带宽需求.所以本文高速园区网络主要计算用户使用率较多的IPTV和VoIP所需的主干带宽,并注意ρ值的上限分布.
3.3 主干带宽的计算与分析
目前园区网络只有千兆和万兆两种,这里以万兆以太网为例.文献[7]中指出,万兆以太网可支撑的信息点数为3 000~30 000个,现取中间值10 000个信息点进行计算.
如果计算IPTV等业务必须考虑下列指标:
1)视频包大小:在网上传输如果用UDP协议传输,以1KB左右最佳.
2)传输速率:从实际传输效果来说一般达到768 Kbps时,即使全屏观看也可有足够的清晰度.
3)时延和抖动:压缩视频的单向延时Tr最大可达250 ms,为保证质量取100 ms;抖动率Trq为1 ms.
4)在线人数估算:对于有高峰通信量的网络要考虑可能产生最大负载的时间段的通信量.以校园网为例,校园网的上网高峰在中午12时到晚上12时.设平均每人看k部网络电视,每部电视为1.5小时.当0 Nj=10 000×j (7) 即任何时刻的在线人数分别为:Nj1=1 250,Nj2=2 500,Nj3=3 750,Nj4=5 000.如视频播放器置于外网,该人数可直接用于估算园区网的出口带宽需求.如视频播放器置于核心层中区,由于园区网络的对称性,主干链路每边的用户数量可按1/2计算. 现设速率为768 Kbps,每个UDP包为1 KB计算,IP包也近似为1 KB,因此产生的单向数据包的速率约为768 K/(1 K×8)=96包/s,设信道速率C为已知速率10 Gbps.则文献[9]中的数据包到达速率和数据包服务时间可以改成公式(8)和(9). λ=96×Nj (8) Ts=1KB×8/C (9) 公式中,λ为数据包均匀到达率,Ts为数据包均匀服务时间.根据M/M/1模型,可计算出不同在线人数Nj的线路利用率ρ、分组平均滞留时间Tr和平均滞留分组数.文献[9]中关于公式(8)和(9)中各值见表3: 表3 不同在线人数Nj的QoS值 根据表3分析,即使在线人数Nj=5 000时,ρ值也仅为0.384,略大于自相似性模型与M/M/1排队模型关联点0.382.而Ts和Tr值都远远小于实时播放的时间要求,是理想的运行状态,由于IPTV一般都采用流媒体播放技术,实际上可以支持更多的用户.从而合理地控制ρ的取值可以简化高速园区网络的带宽计算. 由于园区网络的主干网既要满足尽力而为的特性,又要满足用户的服务质量需求,需要一个合适的模型来进行估算.在规划网络利用率时,Mischa Schwartz在文献[10]中曾假定在任何时间内能够工作的远端集中器接口中有三分之一是空闲的(处于等待状态),三分之一正在输入信息,而三分之一正在输出信息,但未给出理论证明.本文通过数学公式证明,当链路利用率ρ不超过0.382时,自相似模型比经典排队模型具有更小的排队长度;当0.382<ρ≤0.382×1.2时,自相似参数H对网络的影响还是比较弱的.在ρ≤0.382×1.2这个区间内,以排队方式的计算模型分析园区网络主干带宽需求也是可行的,关键技术是控制主干链路的利用率ρ值.当然通过使用编码效率高的视频/音频算法和多播技术,还可进一步降低用户的带宽需求.在园区网络中,设备协议容易达到一致性,使得进行大规模多播成为可能.不论VOD还是IPTV,都可以采用多播来减轻用户对带宽的需求.4 讨论