网络时延数据的统计特性分析
2015-11-25魏利胜
吴 旭,魏利胜
(安徽工程大学电气工程学院,安徽芜湖 241000)
网络时延数据的统计特性分析
吴 旭,魏利胜∗
(安徽工程大学电气工程学院,安徽芜湖 241000)
研究了网络时延数据序列的统计特性.分析过程中,分别采用基于谱密度构造统计量方法、周期图法、JB检验方法研究了网络时延数据序列的平稳性、周期性、正态性.最后,基于校园网应用层获得时延数据并通过MATLAB仿真.结果表明,网络时延数据是平稳的、不含有周期项,且呈反正态性的.
谱密度;周期图法;JB检验法
随着网络控制系统被广泛应用于各个领域,网络时延所带来的问题不容忽视,它不仅使控制系统传递信息滞后,同时也降低了系统的性能甚至影响其稳定性[1-2].研究网络时延,分析其统计特性,有利于我们对不同条件下的网络时延建立更适当的数学模型,提高时延预测的准确性,这对未来网络化系统的普及具有十分重要的意义.
目前,对于有关网络时延问题,主要采用确定延时的方法[2],但时延通常是时变的,这种方法浪费资源,甚至有时不具有可行性.针对时变时延,主要采用不确定系统法[3]、时滞系统法[4]等方法进行处理,这些方法都具有较大的保守性,不能依据网络时延的实际情况进行分析和建模.
本文基于时间序列的方法详细地研究了网络时延数据的统计特性.分别采用基于谱密度构造统计量的方法[5]、周期图法[6]及JB检验法[7]分析其平稳性、周期性和正态性,为以后在不同的实际情况下建立适合的时延模型奠定基础.
1 网络时延的平稳性检验
数据统计性分析的首要问题是平稳性分析,而进行平稳性检验是为了判别数据序列是否具有不随时间原点的推移而变化的特征.如果数据序列是平稳的,且各态历经,则该数据序列就可用单个样本平均替代总体平均来表示各种统计特性,这极大地方便了我们进一步处理数据.通常情况下,无法直接判断出数据序列是否具有平稳性,所以需要选用适当的方法进行判断.
对于网络时延数据序列,假设x1,x2,…,xn是其一个长度为N的样本,N足够大,将该序列分成s个子序列,每个子序列的长度均为M,且足够的大.记为:
式中,xij=x((i-1)·M+j);i=1,2,…,s;j=1,2,…,M;N=s·M.
目前,检验过程平稳性的方法即为检验均值的平稳性,而检验均值的平稳性主要是检验数据{Xi}的均值函数是否为常数,那么,检验网络时延数据序列是否具有平稳性就可转化为检验其均值函数是否是常数.对于平稳序列的p阶AR模型可以表示如下:
式中,系数ϕi,i=1,2,…,p若是绝对可和的,且条件和不等于0,则当N→∞时2πg(0))[8].其中,g(0)表示数据序列在0点的谱密度,即:
通过式(2)计算得到的g(0)估计量是易变不相合的,为了得到其一个渐近无偏相合估计,可采用加窗周期图的谱估计,即:
式中,f(k)表示时窗函数.
根据3σ检验法则:
根据德莫佛-拉普拉斯中心极限定理,有p~N(a,a(1-a)/s),其中,p表示的频率.于是可构造出检验统计量:
综上所述,网络时延数据平稳性检验的具体步骤为:①提出检验假设H0:网络时延数据序列具有平稳性;②构造并计算统计量,即用网络时延数据计算式(4)的值;③给定一个显著性水平:α=0.05,查表得其一侧分位点:uα=1.96;④比较|U|,uα大小,若|U|>uα,则拒绝假设H0,否则接受假设H0.
2 网络时延的周期性检验
进行周期性检验是为了判别平稳数据序列中除了随机量外是否还具有周期分量的统计特征.首先,可以直接观察网络数据时延数据序列的功率谱密度函数,判断出该序列是否含有周期分量.若序列有隐含周期项,再用周期图法对该序列进行分析.现假设网络数据时延数据具有隐含周期项,其函数可表示为:
式中,A1表示振幅;ω1表示频率;φ1表示相位.
则网络时延数据函数可表示为:
式中,w(n)表示随机噪声序列,均值为零,方差为δ2w;其自相关序列可用式ΦW=δ2wI表示,I表示N阶单位矩阵.
将s(n)、y(n)和w(n)分别用矢量表示,如下:
式中,Ac1表示正弦波的复数振幅:Ac1=A1exp(jφ1);e1表示信号矢量:e1=[1,exp(jω1),…,exp(jω1)].
假设s(n)已知,w(n)是复高斯白噪声,Y的概率密度函数可表示为:
式中,H表示共轭转置.
为估计出隐含周期项的A1、ω1和φ1值,需对这些参数进行最大似然估计(MLE),即求式(6)中A1、ω1和φ1最大化解,也就是求式L=(Y-S)H(Y-S)相对于A1和ω1最小化解.
在数据序列的周期图中,纵轴最大值对应到横轴上的频率值即为ω1的最大似然估计值,记为1,代入式L=(Y-S)H(Y-S)中并进行最小化求解可得:
3 网络时延的正态性检验
进行正态性检验是为了检验多数实验数据是否具有正态分布的统计特性.因为网络时延数据是复杂的、随机的,且受到多种因素的影响,所以在分析网络时延数据正态特性时需要判断它的概率分布.一般情况下,我们不可能知道网络时延数据真实的概率分布,所以需要估计和检验网络时延数据的分布.目前,正态检验的方法很多,其中JB检验(Jarque-Bera检验)应用最为广泛,它是一种基于偏度和峰度统计量的综合检验法.
对于随机变量X,设其期望为μ,方差为σ2,它的k阶中心距可表示为:
式中,p(x)表示概率密度函数;k表示大于1的整数.
那么,它的k阶标准矩可表示为:
利用变量X的标准矩定义偏度和峰度.偏度即是变量X的3阶标准矩距,峰度即是变量X的4阶标准矩,可分别表示为:
偏度和峰度分别度量了随机变量X以均值为中心分布的对称性和尖锐性.当序列渐进服从标准正态分布时,有:S=0,K=3.
对于不含疏失误差项的网络时延数据,为了检验其是否具有正态性,给出对应形式的偏度和峰度,分别为:
当n→∞时,可以求得:E(S)=0,Var(S)=6,E(K)=3,Var(K)=24,于是构造出JB统计量如下所示:
由上可知,若网络时延数据序列的JB统计量渐进服从自由度为2的卡方分布,则其是正态分布的;反之,则是反正态的.
综上所述,网络时延数据正态性检验的具体步骤为:①提出检验假设H0:网络时延数据正态分布;②构造并计算JB统计量,即用网络时延数据计算式(15);③查找卡方分布表,得出临界值:χ2(2)=5.991;④比较JB统计量与临界值的大小,若χ2>χ2(2),则拒绝假设H0,否则接受假设H0.
4 实验验证
4.1 网络时延数据的测量
为了分析网络时延数据的统计特性,首先必须获得网络时延数据.建立一个基于校园网应用层的测试平台如图1所示,并从该平台上测得足够多的时延数据.
选用校园网公用以太网,采用TCP/IP协议检验系统的延时特性,并在具有较大的负载时测量.由图1可知,T1、T1′分别表示客户机发送和接收数据延时;T2、T2′分别表示服务器发送和接收数据延时;T3表示TCP/IP协议执行延时;T4和T5分别表示客户机发送和接收时以太网的延时.网络数据延时则可表示为:T=T1+T2+T1′+T2′+4T3+T4+T5.
在实验中,客户机和服务器分别采用时间和事件驱动.客户机每0.5 s发送长度为36字节的数据包.为了降低软件延时的影响,服务器收到该数据包后不予任何处理即返回.因为数据包中存在时间标签,当返回的数据包被客户机收到后,将数据包中的时间标签与当前时间相比较,即可计算出数据包延时.
为保证测量获得准确的数据,在客户端的VC程序中调用Query Performance Frequency()函数可以获得计算机内部的时钟频率f,然后调用Query Performance Counter()函数,获得数据发送前的计数值n1,当客户机接收到返回的数据后,再次调用Query Performance Counter()函数,获得当前的计数值n2.此时,网络数据延时则可表示为:T=f(n2-n1).
4.2 网络时延数据的仿真
通过校园网应用层的测试平台获得了足够多的网络时延数据,在MATLAB中进行编程,具体时延测量结果如图2所示.由图2可知,测量数据主要分布在0~20 ms之间,极少数的测量数据超出该范围.这些数据可能是由于某些原因造成的误差,所以我们假设大于20 ms的测量数据为疏失误差,将其剔除后获得新的网络时延数据序列如图3所示.
对于剔除疏失误差项的网络时延数据序列平稳性的检验,先将该数据分为10个子序列,每个子序列的长度均为150.再在显著性水平α=0.05下,采用三角窗时窗函数,计算式(4),得到:|U|=≈1.923 3<1.96,所以接受原假设.最后可得到结论:网络时延数据序列是平稳的.
周期性检验时,首先绘出剔除误差项的网络时延数据的功率谱密度函数,观察它的功率谱密度图.如果功率谱图中出现明显的尖峰现象,表明数据中含有很强的周期分量,反之则没有.校园网络的时延数据功率谱密度如图4所示.由图4可知,除ω=0点外,网络时延数据的功率谱密度函数未出现明显的尖峰现象,那么,我们认为网络时延数据序列中不含有周期分量,则不用再对数据进行去周期项处理.
最后,利用JB检验法对网络延时数据的正态性进行检验.仿真获得该延时数据的偏度约为1.351,峰度约为6.716,χ2≈1 319.299≫5.991.比较卡方表获得结论:网络时延数据不具有正态分布的统计特性.
为了验证本文正态检验的有效性,绘出原始网络延时数据分布直方图如图5所示.由图5可知,原始的网络时延数据主要分布在0~10 ms之间,约85%,其中,分布在0~2 ms、2~4 ms、4~6 ms、6~8 ms分别约为19%、21%、22%、23%,呈现出缓慢上升的趋势;约14%的数据分布在10~16 ms之间,6~8 ms间的数据是8~10 ms间的数据一倍多;分布在10~12 ms、12~14 ms、14~16 ms间的数据分别约为3%、2%、1%,这部分呈现下降的趋势;剩余的测量数据仅约为1%.从整体上看,图5所示的直方图呈不对称分布,不符合正态性对称分布的特征.由此,不难发现网络时延数据不呈正态分布,证明了JB检验法检验结果的正确性.
5 结论
对照时间序列的分析方法,分析了网络时延数据的数学统计特性.对网络时延数据序列平稳性的分析采用基于谱密度的方法.比较自相关函数、偏相关函数等平稳性判别法,该方法比较客观;比较单位根等检验法,该方法的计算量较小.对网络时延数据序列周期性的分析采用周期图的方法.与常用的相关分析等方法相比,周期图法不需要计算序列的自相关函数,运算效率得到了很大提升,且能识别出数据序列中的隐含周期函数项的周期、幅值与相位.对网络时延数据序列正态性的分析采用JB检验法.对于大样本检验,JB检验法具有客观、运算简单、检验结果精确的优点.仿真结果表明,网络时延数据是平稳的、不含有周期项的、反正态的.同时,文章所述检验方法也适用于检验其他大样本序列.
[1] 郭诗朦.基于时间序列方法的网络时延预测与改进型广义预测控制算法在网络控制系统中的应用[D].北京:北京交通大学,2013.
[2] 孔金生,赵静.网络延时对网络控制系统的影响及其控制对策[J].河南理工大学学报,2006,25(4):310-312.
[3] W A Zhang,L Yu.BIBO stability and stabilization of networked control systems with short time-varing delays[J].Int.J.Robust and Nonlinear Control,2011,21(3):295-308.
[4] H J Gao,T W Chen,J Lam.A new delay system approach to network-based control[J].Automatica,2008,44(1):39-52.
[5] 唐诚,陶敏.基于谱分析下的时间序列的平稳性检验[J].南京邮电大学学报,2009,29(2):31-34.
[6] 何锐,陈拴发,段冰.基于周期图法的路面不平度随机过程数值分析[J].郑州大学学报,2011,32(4):35-37.
[7] 田禹.基于偏度和峰度的正态性检验[D].上海:上海交通大学,2012.
[8] P Hall,C C Heyde.M artingale Lim it Theory and Its A pplication[M].New York:Academic Press,1980.
Statistical characteristics of network delay analysis
WU Xu,WEI Li-sheng∗
(College of Electrical Engineering,Anhui Polytechnic University,Wuhu 241000,China)
The statistical characteristics of the network delay is researched.In the process of analysis,its stability,periodicity and normality are analysized respectively by the method of constructing statistic based on spectral density,the cycle diagram method and the JB test method.Finally,the delay data is obtained based on the application layer of the campus network.Simulation results show that the data of the network delay is smooth,aperiodic but not in normal distribution.
spectral density;cycle diagram method;JB test
TP273
A
1672-2477(2015)04-0043-06
2015-02-02
国家自然科学基金资助项目(61203033);安徽省自然科学基金资助项目(1208085QF124);国家大学生创新创业基金资助项目(3110201204)
吴 旭(1990-),男,江苏仪征人,硕士研究生.
魏利胜(1978-),男,安徽庐江人,副教授,硕导.