APP下载

基于信任抽样的P2P流量识别

2013-11-12喻东阳陈宏伟

湖北工业大学学报 2013年4期
关键词:样本容量估计量报文

喻东阳, 陈宏伟, 杨 庄

(湖北工业大学计算机学院, 湖北 武汉 430068)

对等网络(P2P)是近年来发展迅速的的网络应用之一,根据统计,其占用的带宽已占到了网络总带宽的60%~90%.大量的P2P应用已经成为互联网上带宽消耗的主要原因,如何识别控制P2P业务流量成为产业界和学术界关注的热点[1].

当前P2P流量识别技术主要有[2]:端口特征识别、连接模式识别、深度流检测Deep Flow Inspection (DFI)[3]、 深度包检测Deep Packet Inspection(DPI).其中,DPI是一种基于应用层的流量检测和控制技术,其检测的单位是单个完整的数据报文.通过预先给定某些具体P2P应用的报文特征,其扫描的过程中通过匹配特征库中的特征来达到识别某报文是否为P2P报文的目的[4].DPI的核心是一个字符串的模式匹配算法,目前较为流行AC、Wu-Manber、SBOM三大多模匹配算法,本次仿真实验仅用到AC算法.AC算法是KMP单模算法在多模上的扩展,不同的是,AC算法使用一种特殊的树型数据结构,通过计算最长前缀移动窗口和匹配位置.

在高速宽带的ISP上部署该类监控系统时,由于流量很大,想要用DPI监控系统对到来的数据报逐个分析较为困难.当前较为流行的做法是使用一定的抽样策略来对数据报的量做一定的控制,使用抽样策略可以大大减小DPI检测的数据报的数量,使得资源消耗降低,整个系统的实时度也随之提高[5].本文对基于信任策略的P2P流量识别展开研究.

1 基于抽样的P2P流量识别体系结构

图1是使用DPI监测的P2P流量识别体系结构图.

图 1 基于信任抽样的P2P流量识别系统图

2 抽样理论和信任抽样策略

其中Zα/2为标准正态分布的双侧α分为点.

由抽样理论样中抽样比的确定公式

T=(N-1)d2/alogb(p+1).

其中参数ab满足a2b=1,则抽样比f确定为

3 仿真结果及分析

本文只针对BitTorrent协议进行单一节点的测试,实验过程中主机使用BitComet0.59版下载1G左右文件,在下载过程中对所有数据报进行捕获并写入数据库,再使用离线的方式对数据库中的记录进行抽样和信任抽样分析,然后分析两种抽样方式各自的特点.初始化的参数如下.公共参数:绝对误差上限d=0.05,置信度1-α=0.95,N=1000.抽样参数:抽样比f=0.286,样本容量n=286.信任抽样参数:起始信任值T1=f(p=1.0),起始抽样比f1=0.606,起始样本容量n=606,样本容量下限nl=30,b=e.在整个仿真实验的过程中,由于预设总体N=1000,共进行181个周期,捕获约18万数据报.数据库中字段从左到右依次是数据报编号、到达时间(s)、数据报间隔时间(μs)、流量(KB/s)、传输层协议、数据报长度(字节)、生存期、源IP、源端口、目的IP、目的IP、该报文是否为P2P报文.

图 2 不抽样、抽样、信任抽样的估计量变化图

图 3 信任抽样、抽样的绝对误差变化图

4 结束语

本文首先介绍了已有的P2P流量识别技术,然后介绍了基于信任抽样的P2P流量识别的系统模块结构,在此基础上使用简单随机抽样和定长报文数量这一抽样策略进行了仿真实验并分析了实验的结果.实验结果表明,对于定长报文周期分片方式而言,抽样以及信任抽样估计量的精确度大致相同,这两种抽样方式都能将抽样过程中比例估计量的绝对误差控制在预设的范围内.

[参考文献]

[1] 陆 庆,周世杰,秦志光,等. 对等网络流量检测技术[J]. 电子科技大学学报, 2007,36 (6):1 333-1 337.

[2] 鲁 刚,张宏莉,叶 磷.P2P流量识别[J].软件学报,2011,22(6):1 281-1 298.

[3] Auld T, Moore Andrew W, Gull S. Bayesian neural networks for Internet traffic classification[J]. IEEE Transactions on Neural Networks, 2007, 18 (1): 223-239.

[4] CHENG Wei-qing, GONG Jian, DING Wei. Identifying file-sharing P2P traffic based on traffic characteristics[J]. The Journal of China Universities of Posts and Telecommunications, 2008, 15(4): 112-120.

[5] 郭振滨,裘正定.应用于高速网络的基于报文采样和应用签名的BitTorrent流量识别算法[J].计算机研究与发展, 2008, 45(2):227-236.

猜你喜欢

样本容量估计量报文
基于J1939 协议多包报文的时序研究及应用
最小二乘估计量优于工具变量估计量的一个充分条件
CTCS-2级报文数据管理需求分析和实现
采用无核密度仪检测压实度的样本容量确定方法
浅析反驳类报文要点
浅谈估计量的优良性标准
ATS与列车通信报文分析
基于配网先验信息的谐波状态估计量测点最优配置
广义高斯分布参数估值与样本容量关系
多种检测目标下样本容量设计的比较