APP下载

特匹配的网络应用识别技术研究

2014-02-27

网络安全技术与应用 2014年4期
关键词:网络应用字符串特征值

姚 斌

(海军大连舰艇学院政治系 辽宁 116001)

0 引言

互联网已经成为全球性的应用技术,全球互联网数量和互联网用户数量也是呈现逐年井喷的现象。随着互联网软硬件技术的进一步发展,多功能型的互联网应用协议得到了普及应用,这给超大流量的互联网运行提供了可能,正是基于这一技术基础,结合用户的实际需求,大批量的新型网络应用程序呗普及开来,多种类网络应用协议在加大数据流量速度的同时,也给互联网系统稳定性、模式识别和网络控制带来了极大的挑战。现有的网络应用识别很难适应更新换代速度奇快的新型应用程序,其匹配特性更是存在替换速度繁琐、效率低下的现象,因此,本文将针对这一现象提出基于特征值匹配的网络应用识别技术,进一步改善网络应用识别技术的分析精度和分析效率。

1 网络应用识别技术的发展现状

1.1 网络应用程序流量识别技术分析

目前来看,网络应用程序流量识别是网络应用识别技术中最为常见,也是有效性最好的方法之一,它包括了端口匹配识别、载荷特征检测识别、行为特征匹配识别、流量统计特征识别、机器学习识别等。端口匹配识别能够在较短的分析周期中,基于简便的硬件设备,实现高效识别,但是对于端口伪装和多通道端口的识别效果还有待进一步提高;载荷特征识别通过提取应用层载荷特征码,对应用层数据流量进行特征码匹配度分析,能够对应用程序的数据流量进行深度监测分析,但是受限于特征码提取技术和匹配算法的精度,其求解效率有待加强;行为特征值匹配识别以启发式规则为基准,分析网络应用程序的工作中存在的行为规律;流量统计特征识别技术主要是对数据包流量中的格式、大小、时间间隔等数据统计特性进行分析,但是受流量动态变化的影响较大,稳定性较差。基于机器学习的识别方法是在流量统计特征识别方法的基础上,引入机器学习,实现对新型网络应用的自动发现,从而实现对网络应用的可适应性自动识别。

1.2 基于特征模式的识别技术

匹配算法是网络应用识别技术的分析基础,结合应用层载荷特征匹配方法,可以进一步加快网络应用识别技术的分析效率和分析精度。匹配算法中主要采用的是字符串匹配,以字符串为搜索目标,在数据流量信息中进行模式识别,但是在超大数据流量的数据库系统,搜索效率,即字符串匹配效率是其关键。目前主要有单模式字符串匹配和多模式字符串匹配,单模式字符串匹配采用从前往后的匹配搜索顺序,按照待匹配文本的字符顺序,进行模式串行比较。多模式字符串匹配能够在进行局部匹配之后,基于优化算法和模式识别技术,快速进行属性分类和功能配型,能大大节省字符串匹配识别时间,计算效率大大提高。

2 基于特征值匹配的网络应用识别技术分析

面对超大数据流量的新型互联网系统,网络应用识别技术的关键是要保障分析效率和分析精度。因此要对传统的网络应用识别算法在匹配特征选取和识别规则定义上进行创新,本文正是在这一前提下,探讨了基于特征值匹配的网络应用识别技术的工作原理和应用前景。

2.1 基于特征值匹配的网络应用识别技术设计

从对传统识别算法的分析中可以看出,端口特征值识别和载荷特征值识别算法的优势和弊端十分突出,如果能够结合两种算法的优点进行算法嵌套创新,就能够最大限度的发挥两种算法的在分析效率和分析精度上的巨大潜力。从计算效率上来看,端口信号匹配和载荷特征匹配是主要的耗时环节,尤其是匹配顺序方案的选择上,因此,新型特征值匹配算法的核心工作可以在两个方面开展,就是降低端口信号和载荷特征值匹配的次数,以及进一步提高单次匹配过程的工作效率。

机械式的匹配方案是造成匹配次数居高不下的主要原因,以此,可以采用匹配特征树来表述特征值信息,特征树包括端口信号二叉树、多模式匹配自动计算模块和信息属性模块等,信息属性模块通常表现为单行串行数据,每个数据节点代表了不同网络应用程序的端口信号和载荷特征码;端口信号二叉树以端口信号为数据键值,与信息属性模块存在特定的对应关系;对只含有载荷特征码的匹配特征,无法使用端口号进行索引,本算法把该类型的载荷特征码集中在一起,以载荷特征字符串为模式集合,构建多模式字符串匹配自动机,自动机的状态节点中记录着与特征描述信息表的对应关系。采用改进过的算法构建载荷特征学习机器,实际的特征值匹配算法执行时,首先提取流量数据包的端口信息和应用层数据最为识别匹配的原始数据,以端口信号数据作为二叉树序列进行遍历查询,找到目标端口信号之后,同时提取对应的信息属性描述模块中的载荷特征提取码,与应用层数据进行匹配分析。

图1 基于特征值匹配的网络应用识别技术流程图

2.2 基于特征值匹配的网络应用识别技术系统实现

从上述算法分析方法上,可以看出,要实现基于特征值匹配的网络应用识别技术,就必须建立一个有效的运行系统,以便于支撑大规模的数据处理工作。功能结构上来看,网络应用匹配配置模块,将是该系统应付当前形式多样的网络应用程序的关键,根据网络用户的程序流量日志文件,可以对目标特征值数据库进行特征值编辑提取,按照特定的语言格式和识别匹配方案进行信息属性的特征值修改,以便于上述算法的识别运行。网络应用识别模块,则是识别匹配的主要工作模块,根据特征信息库中的信息匹配特征树,可以在历史匹配数据的基础上,进一步加快对网络应用数据流量的识别匹配速度,并且通过各种操作系统实现基于匹配信息的网络控制调整操作。

3 结束语

互联网技术和数据联通能力的快速发展,不仅带来了激增的互联网用户群体,也使得互联网系统内的应用程序不断增加。随着系统程序的功能升级、网络协议的进一步优化,已经形成了海量的数据流量。针对网络数据流量的应用识别技术,成为新时期网络技术的关键。本文概述了传统网络识别技术的发展弊端,从适应性和匹配特性等方面分析了基于特征值匹配的网络识别技术,并对其应用前景进行了简要分析。

[1]陈亮.龚俭.徐选.基于特征串的应用层协议识别[J],计算机工程与应用,2006(24).

[2]陈贞翔,具有规模适应性的互联网流量识别方法研究[D],山东大学,2008(6).

猜你喜欢

网络应用字符串特征值
一类带强制位势的p-Laplace特征值问题
单圈图关联矩阵的特征值
交通领域中面向D2D的5G通信网络应用探析
基于数字电子技术的通信网络应用研究
大气环境质量评价工作中基于MATLAB的BP神经网络应用探究
基于商奇异值分解的一类二次特征值反问题
新媒体视阈下青少年网络应用行为探析
关于两个M-矩阵Hadamard积的特征值的新估计
一种新的基于对称性的字符串相似性处理算法
依据字符串匹配的中文分词模型研究