P2P流量识别技术研究
2014-12-13张玉辉,王冬霞
张玉辉,王冬霞
摘 要:随着P2P技术的广泛使用,P2P应用虽然丰富了人们的生活,但部分P2P应用严重的影响了企事业单位的正常办公,并且为不良信息的广泛传播提供了便利。如何有效的识别并控制P2P流量已成为当前Internet技术中越来越重要一项研究,本文对P2P流量的识别进行了深入的研究,并提出了字段特征与PDU格式两种有效的识别方法。
关键词:P2P;流量识别;字段特征
中图分类号:TP311.1 文献标识码:A
1 引言(Introduction)
随着计算机网络技术的不断发展,因特网应用也越来越丰富,它给人们的生活提供了便利的同时,也给计算机网络的管理增加了难度,特别是当前应用比较广泛的P2P服务,不但占用了绝大多数的带宽,影响了企事业单位的正常办公,还给一些不良信息的传播提供了便利,因此针对P2P流量识别与过滤的研究已成为当前一项重要的研究,本文研究了基于DPI(Deep Packet Inspection,深度包检测)的P2P流量识别技术。
2 P2P技术(Peer-to-peer technology)
针对于传统的C/S结构,有一个中心服务器(Server)为所有的用户(Client)提供服务,P2P结构的网络没有一个具体的中心服务器,整个网络由所有连入P2P网络的终端组成,不存在一个中心服务器为其他用户提供服务,任意一个终端即可能是其他终端的服务器也可能是其他终端的客户机,终端与终端之间是一个对等的关系。P2P网络将所有加入到该网络的终端都利用起来,不但起到了负载均衡的功能,也避免了单点故障的问题。因此,P2P被广泛的应用于资料共享、即时通信与流媒体播放中,甚至还应用于网络攻击中。
2.1 P2P网络的拓扑结构
P2P网络在不断的发展过程中,网络拓扑结构在也在不断的变化,经历了中心式、分布式和混合式三个阶段。中心式P2P网络结构主要以Napster为代表,该拓扑结构中存在一个中心服务器,但服务器并不为Peer节点提供资源下载,服务器上主要提供了资源索引、Peer管理等服务,网络的运行需要中心服务器的支持,因此存在单点故障问题。分布式拓扑结构取消了服务器的中心服务器,P2P网络由Peer结点组成,这样避免了单点故障问题,但产生了搜索资源慢的问题。目前被广泛使用是混合式拓扑结构,该结构综合了中心式和分布式结构中优点,网络中存在多个中心服务器为Peer结点提供资源索引的服务,即提高了资源搜索的速度,也避免了单点故障的问题。
2.2 P2P的通信原理
通过对P2P网络拓扑结构的分析,针对当前基于混合式的P2P网络主要的连接有三种:普通节点与服务器之间、普通节点之间和服务器之间。而在网络中占总通信量比较多的是普通节点与服务器之间和普通节点之间,这也是本文研究的重点。P2P协议运行于应用层,并且在不同的应用环境中,有些数据在传输层通过TCP协议封装,有些通过UDP协议封装,以TCP为例,P2P通信原理如表1所示。
表1 P2P通信原理
Tab.1 Communication principle
3 P2P流量识别(P2P traffic identification)
由上分析可知,为了能够对P2P流量进行识别,首先分析该通信的过程与原理,找出其中一些可用于识别的数据包,这些数据包所具有的特征即可成为DPI识别的流量特征。通
过P2P数据的抓包并进行分析后发现,当前的P2P通信数据包的特征主要有两类:特征字段和PDU格式。特征字段出现在数据包数据部分的开始位置,例如BitTorrent流量中特征为0×13BitTorrent Protocol。PDU格式表示数据包的结构,不同的P2P应用采用自己特有的结构。因此,根据特征的不同,可以将P2P应用分为基于特征字段的流量特征和基于PDU的流量特征,如表2所示。
表2 P2P应用分类
Tab.2 P2P application field
具有固定PDU格式的P2P协议 PPS、SoulSeek、迅雷、PPLive、eDonkey、youku、迅雷看看
具有特征字段的P2P协议 MSN、BitTorrent、GnuTella
通过对大量P2P应用的研究,绝大多数的P2P应用主要用于资源的分布式共享,因此为了数据传输的快速与方便,并没有对数据加密的处理,例如:PPS、PPLive、迅雷、eDonkey、BitTorrent等。对于这些P2P应用,可以采用特征字段和PDU格式的方式进行流量的识别,通过实验获取各P2P应用的对应的特征字段或PDU格式,采用DPI方式去匹配通过的数据流的特征字段或PDU格式实现流量的识别。
对于部分对数据进行加密的P2P应用,通信的Peer对等端在通信的过程中对数据进行了加解密处理,使得通信的数据不存在具有标识特性的特征码或PDU格式,因此无法通过DPI方式识别此种类型的流量。因此对于此种类型的P2P应用,首先采用DPI方式检测出部分能够识别的流量,找出此部分流量的流量特征并进行过滤。
4 结论(Conclusion)
本文针对基于P2P技术的应用被广泛使用,且流量如何有效识别的问题进行了深入的研究,最后得出两种识别方法:基于特征字段和基于固定的PDU格式,这两种方式能有效的识别大多的P2P应用,但却无法识别对数据进行了加密处理的P2P应用,针对进行了加密处理的P2P应用的流量识别问题将是本题课下一步所要做的工作。
参考文献(References)
[1] 刘琼,等.P2P流媒体网络电视通信机制研究[J].电信科学,
2009,(6):61-64.
[2] 赵瑞.基于特征串的P2P流量识别研究与实现[D].成都:电子
科技大学,2009.
[3] 王一.P2P流媒体监控平台的设计与实现[D].上海:上海交通
大学,2008.
作者简介:
张玉辉(1983-),男,硕士,讲师.研究领域:计算机网络.
王冬霞(1983-),女,硕士,讲师.研究领域:嵌入式系统.endprint
摘 要:随着P2P技术的广泛使用,P2P应用虽然丰富了人们的生活,但部分P2P应用严重的影响了企事业单位的正常办公,并且为不良信息的广泛传播提供了便利。如何有效的识别并控制P2P流量已成为当前Internet技术中越来越重要一项研究,本文对P2P流量的识别进行了深入的研究,并提出了字段特征与PDU格式两种有效的识别方法。
关键词:P2P;流量识别;字段特征
中图分类号:TP311.1 文献标识码:A
1 引言(Introduction)
随着计算机网络技术的不断发展,因特网应用也越来越丰富,它给人们的生活提供了便利的同时,也给计算机网络的管理增加了难度,特别是当前应用比较广泛的P2P服务,不但占用了绝大多数的带宽,影响了企事业单位的正常办公,还给一些不良信息的传播提供了便利,因此针对P2P流量识别与过滤的研究已成为当前一项重要的研究,本文研究了基于DPI(Deep Packet Inspection,深度包检测)的P2P流量识别技术。
2 P2P技术(Peer-to-peer technology)
针对于传统的C/S结构,有一个中心服务器(Server)为所有的用户(Client)提供服务,P2P结构的网络没有一个具体的中心服务器,整个网络由所有连入P2P网络的终端组成,不存在一个中心服务器为其他用户提供服务,任意一个终端即可能是其他终端的服务器也可能是其他终端的客户机,终端与终端之间是一个对等的关系。P2P网络将所有加入到该网络的终端都利用起来,不但起到了负载均衡的功能,也避免了单点故障的问题。因此,P2P被广泛的应用于资料共享、即时通信与流媒体播放中,甚至还应用于网络攻击中。
2.1 P2P网络的拓扑结构
P2P网络在不断的发展过程中,网络拓扑结构在也在不断的变化,经历了中心式、分布式和混合式三个阶段。中心式P2P网络结构主要以Napster为代表,该拓扑结构中存在一个中心服务器,但服务器并不为Peer节点提供资源下载,服务器上主要提供了资源索引、Peer管理等服务,网络的运行需要中心服务器的支持,因此存在单点故障问题。分布式拓扑结构取消了服务器的中心服务器,P2P网络由Peer结点组成,这样避免了单点故障问题,但产生了搜索资源慢的问题。目前被广泛使用是混合式拓扑结构,该结构综合了中心式和分布式结构中优点,网络中存在多个中心服务器为Peer结点提供资源索引的服务,即提高了资源搜索的速度,也避免了单点故障的问题。
2.2 P2P的通信原理
通过对P2P网络拓扑结构的分析,针对当前基于混合式的P2P网络主要的连接有三种:普通节点与服务器之间、普通节点之间和服务器之间。而在网络中占总通信量比较多的是普通节点与服务器之间和普通节点之间,这也是本文研究的重点。P2P协议运行于应用层,并且在不同的应用环境中,有些数据在传输层通过TCP协议封装,有些通过UDP协议封装,以TCP为例,P2P通信原理如表1所示。
表1 P2P通信原理
Tab.1 Communication principle
3 P2P流量识别(P2P traffic identification)
由上分析可知,为了能够对P2P流量进行识别,首先分析该通信的过程与原理,找出其中一些可用于识别的数据包,这些数据包所具有的特征即可成为DPI识别的流量特征。通
过P2P数据的抓包并进行分析后发现,当前的P2P通信数据包的特征主要有两类:特征字段和PDU格式。特征字段出现在数据包数据部分的开始位置,例如BitTorrent流量中特征为0×13BitTorrent Protocol。PDU格式表示数据包的结构,不同的P2P应用采用自己特有的结构。因此,根据特征的不同,可以将P2P应用分为基于特征字段的流量特征和基于PDU的流量特征,如表2所示。
表2 P2P应用分类
Tab.2 P2P application field
具有固定PDU格式的P2P协议 PPS、SoulSeek、迅雷、PPLive、eDonkey、youku、迅雷看看
具有特征字段的P2P协议 MSN、BitTorrent、GnuTella
通过对大量P2P应用的研究,绝大多数的P2P应用主要用于资源的分布式共享,因此为了数据传输的快速与方便,并没有对数据加密的处理,例如:PPS、PPLive、迅雷、eDonkey、BitTorrent等。对于这些P2P应用,可以采用特征字段和PDU格式的方式进行流量的识别,通过实验获取各P2P应用的对应的特征字段或PDU格式,采用DPI方式去匹配通过的数据流的特征字段或PDU格式实现流量的识别。
对于部分对数据进行加密的P2P应用,通信的Peer对等端在通信的过程中对数据进行了加解密处理,使得通信的数据不存在具有标识特性的特征码或PDU格式,因此无法通过DPI方式识别此种类型的流量。因此对于此种类型的P2P应用,首先采用DPI方式检测出部分能够识别的流量,找出此部分流量的流量特征并进行过滤。
4 结论(Conclusion)
本文针对基于P2P技术的应用被广泛使用,且流量如何有效识别的问题进行了深入的研究,最后得出两种识别方法:基于特征字段和基于固定的PDU格式,这两种方式能有效的识别大多的P2P应用,但却无法识别对数据进行了加密处理的P2P应用,针对进行了加密处理的P2P应用的流量识别问题将是本题课下一步所要做的工作。
参考文献(References)
[1] 刘琼,等.P2P流媒体网络电视通信机制研究[J].电信科学,
2009,(6):61-64.
[2] 赵瑞.基于特征串的P2P流量识别研究与实现[D].成都:电子
科技大学,2009.
[3] 王一.P2P流媒体监控平台的设计与实现[D].上海:上海交通
大学,2008.
作者简介:
张玉辉(1983-),男,硕士,讲师.研究领域:计算机网络.
王冬霞(1983-),女,硕士,讲师.研究领域:嵌入式系统.endprint
摘 要:随着P2P技术的广泛使用,P2P应用虽然丰富了人们的生活,但部分P2P应用严重的影响了企事业单位的正常办公,并且为不良信息的广泛传播提供了便利。如何有效的识别并控制P2P流量已成为当前Internet技术中越来越重要一项研究,本文对P2P流量的识别进行了深入的研究,并提出了字段特征与PDU格式两种有效的识别方法。
关键词:P2P;流量识别;字段特征
中图分类号:TP311.1 文献标识码:A
1 引言(Introduction)
随着计算机网络技术的不断发展,因特网应用也越来越丰富,它给人们的生活提供了便利的同时,也给计算机网络的管理增加了难度,特别是当前应用比较广泛的P2P服务,不但占用了绝大多数的带宽,影响了企事业单位的正常办公,还给一些不良信息的传播提供了便利,因此针对P2P流量识别与过滤的研究已成为当前一项重要的研究,本文研究了基于DPI(Deep Packet Inspection,深度包检测)的P2P流量识别技术。
2 P2P技术(Peer-to-peer technology)
针对于传统的C/S结构,有一个中心服务器(Server)为所有的用户(Client)提供服务,P2P结构的网络没有一个具体的中心服务器,整个网络由所有连入P2P网络的终端组成,不存在一个中心服务器为其他用户提供服务,任意一个终端即可能是其他终端的服务器也可能是其他终端的客户机,终端与终端之间是一个对等的关系。P2P网络将所有加入到该网络的终端都利用起来,不但起到了负载均衡的功能,也避免了单点故障的问题。因此,P2P被广泛的应用于资料共享、即时通信与流媒体播放中,甚至还应用于网络攻击中。
2.1 P2P网络的拓扑结构
P2P网络在不断的发展过程中,网络拓扑结构在也在不断的变化,经历了中心式、分布式和混合式三个阶段。中心式P2P网络结构主要以Napster为代表,该拓扑结构中存在一个中心服务器,但服务器并不为Peer节点提供资源下载,服务器上主要提供了资源索引、Peer管理等服务,网络的运行需要中心服务器的支持,因此存在单点故障问题。分布式拓扑结构取消了服务器的中心服务器,P2P网络由Peer结点组成,这样避免了单点故障问题,但产生了搜索资源慢的问题。目前被广泛使用是混合式拓扑结构,该结构综合了中心式和分布式结构中优点,网络中存在多个中心服务器为Peer结点提供资源索引的服务,即提高了资源搜索的速度,也避免了单点故障的问题。
2.2 P2P的通信原理
通过对P2P网络拓扑结构的分析,针对当前基于混合式的P2P网络主要的连接有三种:普通节点与服务器之间、普通节点之间和服务器之间。而在网络中占总通信量比较多的是普通节点与服务器之间和普通节点之间,这也是本文研究的重点。P2P协议运行于应用层,并且在不同的应用环境中,有些数据在传输层通过TCP协议封装,有些通过UDP协议封装,以TCP为例,P2P通信原理如表1所示。
表1 P2P通信原理
Tab.1 Communication principle
3 P2P流量识别(P2P traffic identification)
由上分析可知,为了能够对P2P流量进行识别,首先分析该通信的过程与原理,找出其中一些可用于识别的数据包,这些数据包所具有的特征即可成为DPI识别的流量特征。通
过P2P数据的抓包并进行分析后发现,当前的P2P通信数据包的特征主要有两类:特征字段和PDU格式。特征字段出现在数据包数据部分的开始位置,例如BitTorrent流量中特征为0×13BitTorrent Protocol。PDU格式表示数据包的结构,不同的P2P应用采用自己特有的结构。因此,根据特征的不同,可以将P2P应用分为基于特征字段的流量特征和基于PDU的流量特征,如表2所示。
表2 P2P应用分类
Tab.2 P2P application field
具有固定PDU格式的P2P协议 PPS、SoulSeek、迅雷、PPLive、eDonkey、youku、迅雷看看
具有特征字段的P2P协议 MSN、BitTorrent、GnuTella
通过对大量P2P应用的研究,绝大多数的P2P应用主要用于资源的分布式共享,因此为了数据传输的快速与方便,并没有对数据加密的处理,例如:PPS、PPLive、迅雷、eDonkey、BitTorrent等。对于这些P2P应用,可以采用特征字段和PDU格式的方式进行流量的识别,通过实验获取各P2P应用的对应的特征字段或PDU格式,采用DPI方式去匹配通过的数据流的特征字段或PDU格式实现流量的识别。
对于部分对数据进行加密的P2P应用,通信的Peer对等端在通信的过程中对数据进行了加解密处理,使得通信的数据不存在具有标识特性的特征码或PDU格式,因此无法通过DPI方式识别此种类型的流量。因此对于此种类型的P2P应用,首先采用DPI方式检测出部分能够识别的流量,找出此部分流量的流量特征并进行过滤。
4 结论(Conclusion)
本文针对基于P2P技术的应用被广泛使用,且流量如何有效识别的问题进行了深入的研究,最后得出两种识别方法:基于特征字段和基于固定的PDU格式,这两种方式能有效的识别大多的P2P应用,但却无法识别对数据进行了加密处理的P2P应用,针对进行了加密处理的P2P应用的流量识别问题将是本题课下一步所要做的工作。
参考文献(References)
[1] 刘琼,等.P2P流媒体网络电视通信机制研究[J].电信科学,
2009,(6):61-64.
[2] 赵瑞.基于特征串的P2P流量识别研究与实现[D].成都:电子
科技大学,2009.
[3] 王一.P2P流媒体监控平台的设计与实现[D].上海:上海交通
大学,2008.
作者简介:
张玉辉(1983-),男,硕士,讲师.研究领域:计算机网络.
王冬霞(1983-),女,硕士,讲师.研究领域:嵌入式系统.endprint