基于流量的Voip分段匹配识别算法
2014-02-27葛明阳
葛明阳
(北方工业大学信息安全实验室 北京 100144)
0 引言
Voip是联网技术向基础通信领域的成功应用。它具有互联网灵活、便捷、开放的特点,但同时也将网络中可能存在的安全问题带入到通信领域。随着Voip用户的增多,影响越来越大,由于缺乏规范和相应的监管,各种安全问题,如通信金融诈骗、隐私泄露等。所以对Voip的监测显得尤为重要和迫切。
1 当前的VOIP识别的研究进展
现有的Voip流量识别检测从宏观上可以归结为两大类:一类是基于Ip包内容的深度检测,此种方法具有较高的准确性,但灵活性差,对新出现的Voip通信方式不能够很好的检测;一类是基于包行为,从宏观上提取包的特征,并不关注具体Ip包的内容,此种方法灵活性较好,能够较好的适应新出现的Voip通信方式或者相应的版本升级检测,但准确率要差一些。
1.1 基于内容的深度检测
文献[1]提出一种基于标准协议的综合流量监测分析的算法,从控制会话中提取动态会话信息,以此来准确检测出Voip的使用情况。文献[2]提出了 基于 SIP协议 的 VoIP 监听模型的设计与实现,此种算法重点分析了SIP协议,由于SIP是基于Udp协议的所以,只对Udp包进行分析,对其它包直接丢弃。文献[3]提出了一种基于协议分析、端口匹配、深度净荷匹配来分析了VoIP流量的综合方法。此类方法针对已知协议或已知传输端口的 Voip应用来说检测准去率较高而且速度很快实时性好,但是健壮性差,当使用协议或端口发生变化,很难准确的进行识别。
1.2 基于流量行为的检测
文献[4]把 Ip包中一段时间内的数据包的包长和包间隔作为分析对象,对其分布范围、均值、中值和方差进行统计,据此识别 VoIP 流量。文献[5]分析了流量包的大小,把大小在区间 60 ~150 比特流量包标记成 VoIP 流,此种算法在稳定的网络环境下识别率较高。文献[6]提出一种基于流量行为的识别算法,引入熵的概念分析研究的数据包长度的无序程度,并采取自适应的估计值分析连续相邻数据包间隔的相关性识别voip。
本文提出的研究方案中点在流量本身的典型特征,提出一种能够对标准协议和私有 Voip协议的识别算法。摆脱了对端口、传输协议以及流量包关键直接的依赖,实现了对主流Voip的识别。
2 实验方法
本实验重点是基于Voip包的流量特征。着重从包的大小、包长的分布不确定性、包到达时间间隔进行特征提取。
2.1 实验方案流程图
实验方案如果如图1:
图1 Voip识别系统
2.2 特征提取
经过多次的实验数据分析发现特征值随着包的数目也呈现出一定的变化,并分别计算了在不同包数下的包的平均包长、包长分布不确定性、包到达时间间隔以及时间间隔的分布不确定性。
(1)流量包大小
Skype语音数据大小分布具有自相似性,主要集中在125Byte,其中主要分布在50~160 Byte。包的大小对流量的识别具有较高的参考价值。
(2)流量包的分布不确定性
假设有m中包长,一共有N个数据包,用R={r1,r2,…,rm},其中用ri长的个数用Ni表示这N个包中的个数,对应的先验概率为Pi:
Pi=Ni/N
其熵值计算公式为Er:
为了更好的反应流量特征引入了不确定性(RU),
RU= Er/log n
(3)流量包到达的时间间隔
不同应用由于采用的协议不同以及编码方式的不同,倒置流量包之间的间隔分布也会有所不同。
(4)流量包时间间隔不确定性
此特征是在提取Voip包时间的基础上做的,计算了包间隔的变化情况,这是首次引入包间隔不确定计算算法。假设总的样本集为T{T1,T2,…Ti…Tm},一共有m个样本点,用Si表示时间间隔为Ti的个数,一共统计了S个数据间隔。
对应的先验概率为Pi:
Pi=Si/S
时间间隔的熵值为Ei:
时间间隔不确定性为RU:
RU= Er/log n
3 实验数据
根据需求和设计方案,数据包特征提取方案如图2:
图2 数据包提取流程图
本方案首先分类提取数据包,然后对数据包进行分段处理,以100个为梯度递增。经过试验分析的,数据包的特征和提取的包的数目是有关联的。为了保证试验数据的可靠性,分别选取相同个数的数据包提取对应的特征进行比较,分类。
表1 抓包情况汇总
结合上述数据和图表容易看出,Voip流量包和非Voip的流量包具有较为明显的区分度,Pplive的包分布较为均匀,不确定性维持在一个稳定的低水平范围内,其时间不确定性也比较稳定而其他Voip应用不确定变化比较明显。实验表明设定合理的阈值即能将不同应用识别开来,准确率较高,而且实时性有了较大的改进。
4 结语
文章基于数据包的特征,对常见的Voip进行了特征的提取和分析。综合了时间特征、包的大小、包的个数等特征。提出了一种分段识别的分类算法,即在抓包的同时,在1000个包范围内,每隔100个包进行特征提取匹配,大大提高了识别的准确率和识别速度。由于对于特征阈值依赖较大,下一步研究重点将减少对阈值的依赖,提供智能更可靠的识别算法。
[1]陈敏,张广兴,毕经平.基于 SIP 的 VoIP 流量识别方法研究[J].计算机应用研究,2007,24(4):301-303.
[2]杜 江,陈 锐.基于 SIP 的 Vo IP 监听模型的设计与实现[J].重庆邮电大学学报.:自然科学版,2010,22(4):513-515.
[3]万 兵,杨 阳.VoIP流量监测技术的研究与应用[J].电信快报,2010,2:33-35
[4]OKABE T,KITAMURA T,SHIZUNO T.Statistical traffic identifica-tion method based on flow-level behavior for fair VoIP service[C]/ /Proc of the 1st IEEE W orkshop on VoIP M anagement and Security.2006:35-40.
[5]YILDIR IM T,RADCLIFFE P.Vo IP traffic classification in IPSectunnels[C]/ / Proc of International Conference on Electronics and In-formation Engineering.2010:151-157.
[6] LI Bing,MA Mao-de,JIN Zhi-gang.A VoIP traffic identification scheme based on host and flow behavior analysis[J].Journal of Network and Systems Management,2010,19(1):111-129.