一种基于统一DPI 的流量欺诈识别系统
2019-02-13郑涛
郑 涛
(宜通世纪科技股份有限公司,广州 510000)
随着计算机网络的发展,互联网逐渐普及起来,网络安全事故的日益增多,传统的网络欺诈流量识别与监控技术分为纯软件欺诈和纯硬件欺诈识别两种,软件识别在识别流量的过程中耗时长,欺诈检测速度缓慢,无法满足当前高速上传和下载形式的网络数据,而硬件识别则比较难进行复杂的网络协议处理。因此考虑基于软件来识别复杂的网络协议,普通的网络协议则通过硬件来识别,软硬结合实现高效的流量欺诈识别。
1 系统总体结构
目前在网络中较为常用的大部分网络流量协议都是以超文本传输安全协议为主,只需要借助特殊的字段,就能够实现身份欺诈,主要以硬件为基础,在欺诈流量识别速度方面具有优势。在识别了这部分的欺诈行为后,系统记录了无法通过硬件识别的流程通过软件方法流转到人工引擎进行识别。不能通过欺诈流量识别的主要是网络中不常见的流量,或者有必要通过其他方法来识别欺诈流量,它的数据流需要通过信令流进行关联,然后进行分析和计数,通过模式字符串知识库使用不同的关键字来判读使用硬件识别和软件识别过程,系统支持三个线程模式,包括数据库生成线程、知识库编译线程和数据线程,数据库生成线程用于解析和加载模式字符串,知识库编译线程用于匹配字符串[2]。
2 知识库语法设计
软件识别欺诈流量的语法设计相对复杂,因为它支持复杂的欺诈识别技术,如深度包解析、特殊功能和关联欺诈识别,它消耗了大量的cpu 资源。为了防止系统性能下降,该系统限制了软件欺诈识别规则的数量,设计人员需要使用硬件模式来分析和提取尽可能多的应用程序规则,以减少软件欺诈识别规则的数量。输入数据后,系统为五元组信息创建一个流表,并在硬件欺诈识别后进行更新。软件欺诈识别处理硬件无法处理的流量,并更新流量表,因为流量表中的数据量随着网络流量的增加而增加。网络流量越大,流量计中的数据量越大,系统需要设置流量计的自动移除时间,数据量数据在流量计中只有有限的时间,通常是15秒,当时间超过15秒,之前的数据被自动清除时[3]。
3 系统硬件设计
系统的硬件设计采用多核CPU,在硬件上实现了具有高品牌,以效率的正则表达式进行逻辑的匹配,同时对于网络中较为常见的流量,采用匹配的语法进行表达。硬件状态机会将语法中的规则进行加载,然后针对流量表中需要检测的数据进行欺诈识别和匹配,最终得到匹配的结果,在流量表中进行更新。
4 系统软件设计
本文的系统软件设计是基于Linux 内核的,当欺诈识别加密的数据包流量或网络中没有明显特征的数据时,需要一些其他欺诈识别手段,例如,在实现匹配之前需要解密一些P2P 流量,借助特殊功能,实现对于数据包的识别,所使用的匹配算法直接决定软件的工作效率。选择的匹配算法朝向边缘偏移,能够有效缩短整体的匹配时间。本次课题研究主要使用紧凑正则表达式算法有效缩短时间,同时也减少查询数量,保证整体搜索的效率。移边压缩的主要原理是用最大的移边从任何状态压缩移边到该状态[4]。
5 运行验证实验
使用网络带宽100M 的局域网进行测试,这使得网络的畅通得到一定程度的保证,使用1:9的数据样本(欺诈流量:正常流量)被用作这项测试的数据源,在局域网内进行收发测试,对欺诈识别的流量通过丢包进行处理,当下发欺诈流量的阻断策略后系统的丢包数显著上升,最终接收的数据样本,经过检查欺诈流量被拦截,正常流量得以正常传送,没有发生堵塞。
6 结束语
综上所述,为了有效地管理和监控网络流量,本文提出了一种基于统一DPI 的欺诈流量识别系统,针对传统纯软件流量监控表现出速度缓慢的问题进行有效解决,能够更好适应现代网络高速数据流量的特性。借助纯硬件方式识别欺诈,往往会占据大量的内存,而采用不同的语法进行识别,能够有效缩减内存空间,避免重复识别对象,提升整体识别效率,借助软件和硬件结合的方式,表现出两者的共同优点。最终结果显示,本次课题研究所设计的系统在欺诈流量识别准确率。一方面要明显高于传统的方式,并且不会造成网络的阻塞。