APP下载

一种新型P2P流媒体协议及其流量模型研究*

2014-09-13季一木袁永阁张苏锐

计算机工程与科学 2014年11期
关键词:网络流量加密建模

季一木,袁永阁,张苏锐

(1.南京邮电大学计算机学院,江苏 南京 210023;2.南京邮电大学先进技术研究院,江苏 南京 210023)

一种新型P2P流媒体协议及其流量模型研究*

季一木1,2,袁永阁1,张苏锐1

(1.南京邮电大学计算机学院,江苏 南京 210023;2.南京邮电大学先进技术研究院,江苏 南京 210023)

针对FlashP2P技术,对其RTMFP协议进行了深入分析,提出了一种基于RTMFP包检测的FlashP2P流量识别算法,并采用该算法对国内主流视频网站的FlashP2P流进行了有效的识别。在此基础上,对FlashP2P流量特征进行分析并证明其具有自相似性。最后,提出了一种基于ARIMA模型的经验模式分解预测自相似网络流量的方法,而且进行了仿真验证。结果表明,该模型不仅降低了算法的复杂度,并且对短期预测精度较高。

FlashP2P;流量识别;EMD;流量预测

1 引言

当下视频业务传输主要基于CDN网络、P2P网络或两者混合的网络结构,P2P流媒体技术在大大降低内容提供商的硬件成本和带宽租赁成本的同时,有效提高了视频业务的QoS。基于Web的Flash平台于10.0版本开始使用支持P2P技术的实时流媒体传输协议RTMFP(Real Time Media Flow Protocol)。然而,P2P流媒体技术产生了巨大的网络流量,对于网络运营商而言,为了对其进行有效管理,研究FlashP2P流量的识别及其建模的方法就成为一个重要的课题。

P2P流量识别是对P2P流量进行研究建模的基础和前提。基于深层数据包检测DPI(Deep Packet Inspection)技术往往需要对P2P应用的传输协议进行深入分析,如Zhao Rui等人[1]提出Gnutella、KazaA、DirectConnect、BitTorrent和eDonkey等五种P2P应用的流量特征。模式匹配算法在DPI技术中具有重要作用,文献[2]综合分析了单模式匹配算法BM、BHM以及QS算法的优点,并设计了新的用于P2P网络流量识别的改进算法。P2P网络行为特征主要包括对等体的连接模式、流行度、扰动性等[3],基于这些特征的P2P流量识别经典算法有:利用P2P的连接模式来识别算法的PTP算法[4]以及Gallagher B等人[5]提出的计算应用层连接同质性的算法,但其不能细化到具体的P2P传输协议[3]。基于统计学习算法的识别技术主要依赖于P2P流量的数据包级和数据流级特征。 P2P流量识别常用的机器学习算法有无监督学习的K均值聚类[6]、GMM和HMM等聚类方法[7]和监督学习的贝叶斯核估计算法[8]、支持向量机算法[9]等。由于Flash的相关技术一般是Adobe公司私有,对RTMFP协议[10]和FlashP2P技术的相关研究很少,也不够深入[11],因此对FlashP2P网络流量的识别带来了困难。

网络流量模型通常用于描述网络流量的特征,特定的网络流量模型还可以用于流量预测。传统的网络流量模型有泊松模型、马尔可夫模型和回归模型等,但这些模型仅适合描述具有短相关性的网络流量。研究发现,当下的网络流量普遍表现出自相似性和长相关性,基于自相似性的流量模型有重尾分布的ON/OFF模型、M/G/∞排队模型以及能够描述多尺度特性的小波模型等[12]。近年来随着智能算法的不断发展,如基于人工神经网络的模型[13]、基于混沌理论的模型[14]和基于模糊理论的模型[15]等也被应用于网络流量的建模。

本文主要内容如下:第2节主要研究FlashP2P流量的检测方法,在分析RTMFP报文结构的基础上提出RTMFP包检测算法,并结合国内视频网站非标RTMFP报文载荷特征给出具有较高识别精确度的FlashP2P流量的识别方法;第3节主要对抓取的FlashP2P流量建立EMD-ARMA和EMD-ARIMA模型,并对FlashP2P流量进行短期预测;第4节作了总结。

2 RTMFP协议研究

2.1 RTMFP报文特征分析

RTMFP是基于UDP的实时传输协议,传输过程中要求必须加密,加密后的RTMFP包载荷部分数据格式如图1所示。

RTMFP数据包可以分为两个部分:前四个字节是加扰的会话标志SSID(Scrambled Session ID),从第五个字节开始是用AES128 CBC方式加密的报文。 原始的会话标志SID(SessionID)是一个32位无符号整数,SSID由SID与加密部分的前两个32位字段按位异或形成,公式如下:

031SSIDEncryptedPart[0]EncryptedPart[1]…

Figure 1 Encrypted RTMFP packet

图1 加密后的RTMFP包

SSID=SID⊕(Encrypted_Part[0])⊕

(Encrypted_Part[1])

(1)

说明:

(1)连接建立的前两次握手阶段,SSID均为0。

(2)从第三次握手开始,双方需要告知对方一个确定的SID,此后,对方发来的所有RTMFP包,都必须采用这个SID。两个方向(Send/Receive)是两个SID,它们可以不同。

(3)由于采用128位块加密的方式,所以加密部分的位数必须是128的整数倍。若不满足,则RTMFP包内部就会产生Padding,以达到这一要求。

2.2 RTMFP包检测算法

上一节介绍了传输过程中加密的RTMFP包的包文特征,在此基础上可以建立RTMFP包的检测算法。从抓取的网络流量P中提取FlashP2P流量的算法如下:

步骤1根据IP数据包中0x11字段从抓包文件P中筛选出UDP包,再根据常用端口号剔除其中DNS、DHCP等基于UDP协议的包集合Q。

步骤2从剩余的UDP包集合P-Q中按抓取的时间顺序读入一个包,从载荷部分的第五个字节开始,检测剩余部分位数能否被128整除。若能,则判定为RTMFP包,转步骤3;否则判定为非RTMFP包,并重新读入。

步骤3判断SSID字段是否等于0,若等于0则说明该包为RTMFP的控制包,转步骤4;否则为正常通信包,转步骤5。

步骤4建立RTMFP包五元组(源IP,目的IP,RTMFP包长度,加密部分长度,SSID),并将布尔型SSID置0,转步骤2。

步骤5建立RTMFP包五元组(源IP,目的IP,RTMFP包长度,加密部分长度,SSID),并将布尔型SSID置1,转步骤2。

2.3 Flash P2P流量识别

上一节介绍了RTMFP包的检测方法,经在南邮校园网环境下验证,该方法平均可以检测出100%的携带视频数据的RTMFP包和96%以上的RTMFP通信包,具有相当高的准确率。但是,由于AES128 CBC加密方式被广泛采用,实际检测出的数据包有包含非RTMFP视频包的可能,所以该RTMFP包的检测方法存在一定的误报率。

为了解决这一问题,对国内采用Flash平台作为播放器的视频网站,如爱奇艺、优酷、搜狐等进行抓包分析,发现各视频网站根据RTMFP标准协议制订了各自私有的非标RTMFP传输协议,协议实现细节被加密屏蔽。但是,从携带视频数据的RTMFP包的载荷部分长度可以看出,各视频网站的协议实现并不完全相同,如表1所示。

Table 1 Load length of some domestic videosites RTMFP video packets表1 国内部分视频网站RTMFP视频包的载荷长度

因此,在FlashP2P流量识别的过程中,可以通过上述RTMFP包的检测方法结合RTMFP包载荷长度等信息的方式,来提高FlashP2P流量识别的精确度,同时降低误报率。

3 FlashP2P流量建模

3.1 FlashP2P流量基本特征

本节将对FlashP2P网络流量进行建模,用于预测未来一段时间内FlashP2P流量的变化趋势,以便合理有效地管控FlashP2P流量。在南邮校园网一台带宽为1 Gbps的服务器端抓取网络数据包,利用前述FlashP2P流量识别方法从中提取RTMFP包,即得到其中的FlashP2P流量。本文主要针对FlashP2P流量做短期预测,故抓包时长选为1小时,时间粒度取60 s,得到FlashP2P流量时序F(t)(t=1,2,…,60),如图2所示。

由图2,对FlashP2P流量采用带常数项和趋势项的ADF模型进行检验[16],在各显著性水平下均接受单位根存在的原假设,说明流量时间序列F(t)是显著非平稳的。

Paxson V和Floyd S[17]提出,不同时间粒度的网络流量服从不同的行为规律,其中秒级时间粒度的流量行为体现出自相似性,所测流量F(t)恰好符合这一时间粒度。网络流量的自相似性可以由Hurst指数描述,若Hurst指数在(0.5,1),则说明流量序列具有自相似性,Hurst指数越大说明流量序列的自相似(长相关)程度越高,突发性也越强[18]。通过R/S分析法估算F(t)的Hurst值,得到HurstFt=0.717,可以认为F(t)具有自相似性。

3.2 FlashP2P流量分解

经验模态分解[19]是将原始数据在不同的时间尺度上分解为若干本证模态函数IMF(Intrinsic Mode Functions),各IMF分量包含原数据的不同时间局部特征。IMF满足如下条件:

(1) 每个IMF信号的极值点数目与穿过零点的数目必须相等或者至多相差一个;

(2) 在任一时间点上,IMF信号的局部最大值与局部最小值所定义的信号包络的均值为零。

对获取的FlashP2P流量序列F(t)做EMD分解,得到四个IMF分量和一个趋势项r(t),如图3所示。为了叙述方便,这里将残差项记为IMF5。由图3可知,IMF1至IMF5频率递减,确定性递增,其中IMF1随机性最强。

Figure 3 IMFs of F(t)图3 F(t)EMD分解后的IMFs

根据EMD分解原理,可知其可以将长相关的流量转化成短相关。对IMF分别做ADF检验并用R/S分析法估算Hurst指数,结果显示,除IMF1外,其余IMF的Hurst指数的估计值均小于0.5。由图观察可知,IMF2~IMF4的图形越来越接近正弦曲线的一部分,因此不可能具有自相似性,文献[20]给出了EMD分解可以消除流量序列的长相关性的数学证明。

3.3 FlashP2P流量模型

3.3.1 EMD-ARMA(p,q)模型

自回归滑动平均ARMA(Auto Regression-Moving Average)模型,如下式:

(2)

其中,φi为自回归系数,θj为移动平均系数,白噪声εt~W(0,σ2),θ0=1,c为常数。为了使序列平稳,还必须保证下面的特征多项式在单位圆内没有根:

(3)

确定ARMA(p,q)模型的过程就是确定p和q的阶数,选取使AIC、BIC达到最小值的阶数,从而确定模型。

以抓取的FlashP2P流量序列F(t)为例建立EMD-ARMA(p,q)模型,即对经过EMD分解的IMF分别采用ARMA建模。为量化模型预测精度,考虑到各IMF分量幅度不同,定义标准化均方误差NMSE(Normalized Mean Square Error)作为评价标准,分别计算各IMF分量的NMSE值,如图4所示。从图4a中可以看出,IMF2~IMF5的NMSE值均趋近于零,但IMF1的NMSE值接近0.5,表明IMF1拟合效果较差,IMF2~IMF5的拟合效果都比较好。这主要是因为IMF1包含最多的随机高频信息,为了降低IMF1的建模误差,可以采取差分的办法进一步使流量序列平稳化,以提高拟合精度。

Figure 4 NMSE图4 NMSE

3.3.2 EMD-ARIMA(p,d,q)模型

求和自回归滑动平均ARIMA(Auto Regressive Integrated Moving Average)模型,如下式:

(4)

其中,φ(B)=1-φ1B-…-φpBp,|B|≤1;θ(B)=1-θ1B-…-θpBp,|B|≤1。B为后移算子,即BXt=Xt-1,=(1-B)为差分算子,d=(1-B)d为分数差分算子。

对上述FlashP2P流量序列F(t)分解得到的IMF1建立EMD-ARIMA(p,d,q)模型,并分别计算不同阶数下的NMSE值,得到图4b,其中DIMF1表示差分后的IMF1。图中显示,NMSE值呈现先减后增的趋势,且d=2时的NMSE值最低。于是建立d=2的EMD-ARIMA(p,d,q)模型如图5所示,Unit表示分解后加总的流量值。

Figure 5 EMD-ARMA model of D2IMF1图5 D2IMF1的EMD-ARMA模型

显然,还可以用EMD-ARIMA(p,d,q)模型对IMF2~IMF5进行建模以提高精度,这里不再赘述。至此,FlashP2P的流量模型建立完毕,建模结果及残差见图6。

Figure 6 EMD-ARIMA forecasting model图6 EMD-ARIMA预测模型

3.4 FlashP2P流量预测

下面利用F(t)的数值的前60-n个值作为输入,按上述模型进行建模,采用迭代法分别作n(n=1,2,…,5)步预测,对预测值计算均方误差MSE(Mean Square Error),得到表2。

Table 2 MSE表2 MSE

从表2可以看出,随着预测步数的增加,MSE值也不断增加,预测结果在可接受范围内。

4 结束语

本文对RTMFP协议的分析进行了深入分析,提取出RTMFP加密报文的载荷特征,在此基础上提出基于RTMFP包检测的FlashP2P流量识别算法,并对主流视频网站FlashP2P流进行了抓取,验证了算法的有效性。通过研究发现,FlashP2P流量具有自相似性,基于这一特性,对实验室获取的FlashP2P流量进行流量建模,并用EMD-ARIMA模型成功对FlashP2P流量进行了预测。本文提出的FlashP2P流量识别方法可以很好地识别FlashP2P流量,具有一定创新性,但由于国内视频网站采用基于RTMFP的私有协议,其载荷特征可能发生变化,因而本算法也存在一定的缺陷。此外,该模型对于具有自相似特性的网络流量都可以进行有效短期预测,但长期预测的精度较低,有待改进。

[1] Zhao Rui.The study and implement of P2P flow identify based characteristic string[D]. Chengdu:University of Electronic Science and Technology of China, 2009.(in Chinese)

[2] Lu Gang, Zhang Hong-li, Ye Lin. P2P traffic identify[J]. Journal of Software,2011,22(6):1281-1298.(in Chinese)

[3] Sen S, Spatscheck O, Wang D M. Accurate, scalable in-network identification of P2P traffic using application signatures[C]∥Proc of the 13th International Conference on World Wide Web (WWW 2004), 2004:512-521.

[4] Karagiannis T,Broido A,Faloutsos M,et al.Transport layer identification of P2P traffic[C]∥Proc of the 4th ACM SIGCOMM Conference on Internet Measurement, 2004:1.

[5] Gallagher B,Iliofotou M,Eliassi-Rad T,et al.Link homophily in the application layer and its usage in traffic classification[C]∥Proc of the INFOCOM, 2010:1-5.

[6] Bernaille L, Teixeira R, Akodkenou I, et al. Traffic classification on the fly[J]. ACM SIGCOMM Computer Communication Review, 2006, 36(2):23-26.

[7] Bernaille L, Teixeira R, Salamatian K. Early application identification[C]∥Proc of the 2006 ACM CoNEXT Conference, 2006:1-12.

[8] Moore A W,Zuev D.Internet traffic classification using Bayesian analysis techniques[J]. ACM SIGMETRICS Performance Evaluation Review, 2005,33(1):50-60.

[9] Xu P, Liu Q, Lin S. Internet traffic classification using support vector machine[J]. Journal of Computer Research and Development, 2009,46(3):407-414.(in Chinese)

[10] Thornburgh M C. Adobe's secure real-time media flow protocol[EB/OL].[2014-05-01].http://tools.ietf.org/html/rfc7016.

[11] Kaufman M.RTMFP overview for IETF77 TSV AREA[EB /OL].[2014-05-01].http://www.ietf.org/proceedings/10mar/slides/tsvarea-1.pdf.

[12] Flandrin P.Wavelet analysis and synthesis of fractional Brownian motion[J]. IEEE Transactions on Information Theory, 1992,38(2):910-917.

[13] Liu J,Huang Y L.Nonlinear network traffic prediction based on BP neural network[J]. Journal of Computer Applications, 2007,27(7):1770-1772.(in Chinese)

[14] Lu J J, Wang Z Q. Prediction of network traffic flow based on chaos characteristics[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2006,38(2):217-221. (in Chinese)

[15] Wang Z X, Sun Y G, Chen Z Q, et al. Study of predicting network traffic using fuzzy neural networks[J]. Journal on Communications, 2005,26(3):136-140.(in Chinese)

[16] Wang Li-ming,Wang Lian, Yang Nan. Application time sequence analysis[M].Shanghai:Publisher of University of Fudan,2009.(in Chinese)

[17] Paxson V,Floyd S. Wide-area traffic:The failure of Poisson modeling[J]. IEEE/ACM Transactions on Networking, 1995,3(3):226-244.

[18] Hong Fei, Wu Zhi-mei.Adaptive Hurst index estimator based on wavelet[J]. Journal of Software, 2005, 16(9):1685-1689.(in Chinese)

[19] Huang N E, Shen Z, Long S R. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[C]∥Proc of Royal Soc London A, 1998:903-995.

[20] Gao Bo, Zhang Qin-yu, Liang Yong-sheng, et al. Predicting self-similar networking traffic based on EMD and ARMA [J]. Journal on Communications, 2011, 32(4):47-56.(in Chinese)

附中文参考文献:

[1] 赵瑞.基于特征串的P2P流量识别研究与实现[D]. 成都:电子科技大学,2009.

[2] 鲁刚,张宏莉,叶麟. P2P流量识别[J]. 软件学报,2011,22(6):1281-1298.

[13] 刘杰,黄亚楼.基于BP神经网络的非线性网络流量预测[J].计算机应用,2007,27(7):1770-1772.

[14] 陆锦军,王执铨.基于混沌特性的网络流量预测[J].南京航空航天大学学报,2006,38(2):217-221.

[15] 王兆霞,孙雨耕,陈增强,等.基于模糊神经网络的网络业务量预测研究[J].通信学报,2005,26(3):136-140.

[16] 王黎明,王连,杨楠.应用时间序列分析[M].上海:复旦大学出版社,2009.

[18] 洪飞,吴志美. 基于小波的Hurst指数自适应估计方法[J]. 软件学报,2005,16(9):1685-1689.

[20] 高波,张钦宇,梁永生,等. 基于EMD及ARMA的自相似网络流量预测[J]. 通信学报,2011,32(4):47-56.

JIYi-mu,born in 1978,PhD,associate professor,CCF member(E2000014042S),his research interests include P2P network, cloud computing, and bigdata.

袁永阁(1992),男,江苏徐州人,硕士生,研究方向为P2P网络、云计算和大数据。E-mail:1196980536@qq.com

YUANYong-ge,born in 1992,MS candidate,his research interests include P2P network, cloud computing, and bigdata.

《计算机工程与科学》高性能计算专刊和专栏征文通知

一、刊物简介

《计算机工程与科学》是由国防科技大学计算机学院主办的中国计算机学会会刊,是国内外公开发行的计算机类综合性学术刊物。本刊已先后被列为中文核心期刊、中国科技信息研究所中国科技论文统计分析源期刊(中国科技核心期刊)、中国科学引文数据库来源期刊(CSCD核心期刊)、中国学术期刊(光盘版)全文入编期刊、中国期刊网全文入编期刊、中国学术期刊综合评价数据库来源期刊。

二、征稿范围(但不限于)

目前,国内高性能计算的研究方兴未艾,为更好地宣传目前国内高性能计算领域的研究和应用现状,我刊计划从2013年开始每年出版一期高性能计算专刊,并且常年增设高能性能计算专栏,重点是面向国内高性能计算领域的研究和应用。包括:

(1)系统研制技术:体系结构、系统软件、软件并行化、多核编程、编译技术、GPU计算、低功耗技术、系统优化技术。

(2)系统应用:EDA设计仿真、CAE、数值计算、计算化学、计算物理、材料设计、量子力学、分子动力学、流体力学、工业设计、图像渲染、生物信息、生命科学、气象、天文、金融、石油勘探、工程计算、地震资料处理、集群管理、并行应用软件开发(MPI、OpenMP、CUDA)、Linpack测试研究、超算服务等。

三、投稿要求

(1)投稿方式:采用“计算机工程与科学在线投稿系统”(http://www.joces.org.cn)投稿。投稿时请在备注栏中注明“高能性能计算专刊或专栏”字样。

(2)稿件格式:参照《计算机工程与科学》下载中心的排版规范(网站上提供了论文模版,可下载)。

(3)投稿文章未在正式出版物上发表过,也不在其他刊物或会议的审稿过程中,不存在一稿多投现象;保证投稿文章的合法性(无抄袭、剽窃、侵权等不良行为)。

(4)其他事项请参阅投稿指南: http://www.joces.org.cn/CN/column/column291.shtml。

(5)专刊投稿文章按《计算机工程与科学》正常标准收取审稿费和版面费,但将会优先发表;发表之后,将按《计算机工程与科学》的标准支付稿酬,并赠送样刊。

《计算机工程与科学》编辑部

AnovalP2Pstreamingprotocolanditstrafficmodel

JI Yi-mu1,2,YUAN Yong-ge1,ZHANG Su-rui1

(1.School of Computer Science & Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023;2.Institute of Advanced Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

The RTMFP protocol of FlashP2P technique is analyzed in detail and a FlashP2P traffic recognition algorithm based on RTMFP packet detection is proposed.The algorithm is used to effectively identify the FlashP2P streams of the domestic mainstream video sites. On this basis,the characteristics of FlashP2P flow are analyzed and their self-similarity is proved.Finally, based on the empirical mode decomposition of the ARIMA, we build a model to predict the self-similar network traffic. The simulation results show that the model not only reduces the complexity of the algorithm but also has high short-term forecast accuracy.

FlashP2P;traffic identification;EMD;traffic forecasting

1007-130X(2014)11-2100-06

2014-06-05;

:2014-08-15

江苏省自然科学基金青年基金资助项目(BK20130876);中国博士后基金资助项目(2013M541702);江苏省未来网络项目(BY2013095-4-03);国家自然科学基金资助项目(61170065,61373017)

TP391.02

:A

10.3969/j.issn.1007-130X.2014.11.008

季一木(1978),男,安徽无为人,博士,副教授,CCF会员(E2000014042S),研究方向为P2P网络、云计算和大数据。E-mail:jiym@njupt.edu.cn

通信地址:210023 江苏省南京市南京邮电大学计算机学院842号信箱

Address:Mailbox 842,School of Computer Science & Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,Jiangsu,P.R.China

猜你喜欢

网络流量加密建模
基于多元高斯分布的网络流量异常识别方法
基于神经网络的P2P流量识别方法
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
一种基于熵的混沌加密小波变换水印算法
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
AVB网络流量整形帧模型端到端延迟计算
认证加密的研究进展
基于ECC加密的电子商务系统
基于格的公钥加密与证书基加密