基于特征相似性的僵尸云网络检测∗
2019-03-26成淑萍
成淑萍
(1.四川文理学院智能制造学院 达州 635001)(2.达州智能制造产业技术研究院 达州 635001)
1 引言
近年来,随着云计算技术的发展和成熟,越来越多的其他技术都争先恐后地与之相结合,产生了一大批的新型技术和事物,人们从中获得的收益也日益增大。当然这结合中间也少不了网络安全的威胁者——病毒、蠕虫、恶意代码等。其中网络安全的最大威胁之一的僵尸网络的变化多样一直是研究人员的研究难点,在云计算的时代里,僵尸网络利用云计算的高资源利用率优势弥补了在传统网络的缺点,使其如鱼得水。僵尸云网络的研究成为网络安全研究者的研究热点问题,其中僵尸云网络的检测及反制是研究的难点。
传统的僵尸网络是一种入侵网络空间内若干非合作用户终端构建的、可被攻击者远程控制的通用计算平台[1~2]。在云环境中构建的具有传统僵尸网络的作用的僵尸网络就是僵尸云网络。与以往的僵尸网络相比,BotClouds中的BotMasters不是使用一个被感染网络的主机,而是使用云服务构建僵尸网络。BotMasters购买云服务提供商的主机群,在每台主机上安装Bot程序从而形成基于云计算的僵尸网络或称为僵尸云。传统的僵尸网络需要大量的时间来进行构造,而僵尸云往往只需要几分钟,传统僵尸网络因检测和监测的不断威胁或计算机用户的使用不能充分利用处理器和宽带资源,而僵尸云可以没有中断的顾虑充分利用这些资源[3]。
本文在分析传统僵尸网络相似性特征度量的情况下,提出了基于特征相似性的僵尸云网络的检测框架。
2 相关研究
传统的僵尸网络检测机制有基于行为特征[4~6]、基于蜜罐/蜜网技术[7~9]、基于流量聚类分析[10~11]三种,从已有的研究成果可以看出这三种检测机制都存在一定的问题。基于行为特征的检测机制对特征库中已有的僵尸网络检测方法的效率及准确度是最高的,但僵尸网络采用的协议、网络结构的变化对已有的特征就会失效;基于蜜罐/蜜网技术的检测机制以一种新的思想来构建一个诱捕网,在保证网络的高度可控性的前提下,可以用多种工具对攻击信息进行收集和分析,但它的被动性和指纹的存在使其效率和实施较困难;基于流量聚类分析的检测机制能对网络流量时行主机的监测和捕获,并从收集到的网络数据信息采用某种聚类分析算法得出其特征,但面对大量的网络流量某单个用户实施比较困难,对于专业机构流量分析效率、准确度难以得到保证,另外对于加密的通信流量分析都存在相当大的问题。
对于BotCloud的检测国内的研究成果较少,在对云环境下的僵尸网络的研究[12]中对僵尸云计算平台下僵尸网络的检测技术有简单的介绍,并没有进行深入的分析和研究。国外有大量的研究成果,2014年基于僵尸云网络的行为的检测方法中,针对僵尸云网络的被感染端发起攻击时会出现与传统僵尸网络不同指标特征,从一个系统的视角对僵尸云网络发起攻击时可能会产生的特征进行分析[13]。但因僵尸云网络所具有的云计算技术的新特点,用传统僵尸网络的行为特征去检测新型的僵尸云网络已经失去了作用,因此必须先分析出僵尸云网络行为的新特征,再利用特征相似性来进行僵尸云网络的检测。Jerome Francois提出一种利用主机的分布式计算框架依赖模型的自适应算法进行取证分析,并在开源的Hadoop集群中进行了实验,可以检测出僵尸网络主机之间的关系[14],但云服务提供商之间的合作还有很多问题需要解决。
从上面的国内外研究现状可以发现已有的检测机制不适合云环境下的僵尸云网络。因此,我们在传统的行为特征检测机制上进行改进,用数据流、数据包和主机通信量[15]三个流量统计信息来刻画僵尸网络的特征因素,并把该方法应用到云计算的环境中,使其特征库能进行实进更新,解决传统的基于行为特征的检测机制中存在的问题。
3 基于特征相似性的僵尸云网络检测
3.1 特征相似性度量因素
1)数据流统计
数据流主要反映僵尸主机的在线情况,用两个连续时间段内的数据流统计具有相似的变化趋势来判断两组僵尸主机属于同一僵尸网络。以某个时间段数据流的数量作为统计值记为fpt,其中fpti(t)表示僵尸网络i在第t时间段的数据流统计数量。两组僵尸主机在数据流统计量变化趋势的相似度的计算如式(1)所示,当Sfpt(t,t+1)的值越趋近于1,两组僵尸主机的数据流统计量在这两个时间段内的变化情况越相近。
2)数据包统计
由于僵尸网络的受控主机群在某一工作阶段与服务器交互的信息是比较固定的,因此与服务器的通信数据流中的数据包数量(ppf)相近。ppfj(t)为第t个时间段数据流fpti(t)中数据包数量的统计值,在此我们考虑的网络状态为理想情况下。ppf在两个时间段变化的相似度计算如式(2)所示,当Sppf(t,t+1)的值越趋近于1,两组僵尸主机的通信数据流中的数据包数量越相近,也就代表两组僵尸主机正在与服务器完成相同的动作。
3)主机通信量统计
同一僵尸网络的受控主机在控制者的统一操作下,其通信量有相似的变化规律。通过综合分析各通信特征变化趋势的相似性,判断两批僵尸主机间的关系。以IP地址表示在线僵尸主机,第t个时间段,某个IP地址的通信数据流数量(fpi)的统计值为fpij(t)。僵尸网络处于攻击状态的主机的通信量数据非常庞大,为了更方便计算两组僵尸主机的主机通量量的相似度,我们把fpi出现的次数加权算术平均值进行计算,其函数见式(3),其中m为总次数,j为某次的通信数据流,N为该时间段内总的通信量。FPIi(t)在两个连续时间段内的相似度见式(4)所示,当Sfpi(t,t+1)的值越趋近于1,则两组僵尸主机属于同一僵尸网络的可能性较大。
3.2 检测框架模型
该检测框架采用集中式的结构,其结构图如图1所示。中心点为中心关联模块,其主要功能为每个云服务提供商(CSP)提供聚类分析、检测报告反馈及与特征数据库之间的数据交换。单个云服务提供商与中心点的功能图如图2所示,在云服务提供商中主要包含数据收集、特征收集与管理器三部分功能。
图1 检测框架结构图
图2 检测框架中云服务提供商功能分解图
数据收集:主要把由该主机发出,和访问该主机的数据流量收集起来,作为特征信息收集的基础数据。
特征数据收集:把数据收集到信息运用特征相似性度量的三个因素进行特征数据收集。
管理器:主要作用是与中心点进行数据的交换,把收集到的特征数据发送给中心点进行聚类分析,然后给出报告。如果发现收集到数据为特征数据通知云服务提供商断开两者的通信并进行通信的过滤,从而从僵尸网络的受控主机与僵尸服务器断开通信,也可使正在执行攻击任务的受控主机失去攻击目标。
4 结语
本文针对新型的僵尸云网络,与云计算技术结合的情况下,采用数据流、数据包和主机通信量三个特征,提出了一个新的基于特征相似性的僵尸云网络检测框架,并对框架中每个功能部分进行了阐述。为下一步进行实体实验提供了理论支撑依据。但在研究中还存在以下两个问题,一是三个特征相似性度量因素只考虑了理想状态的网络情况,没有对实际网络通信中存在多种问题进行考虑,以至度量因素的准确度需进一步提高;二是不同云服务提供商之间的竞争和技术多样化,在该检测机制在某个云服务提供高上实施的可行性较高,但如何使多个云服务提供商进行协作检测就是下一步研究的重点和难点。