基于深度神经网络burst特征分析的网站指纹攻击方法

2020-04-21马陈城杜学绘曹利峰

计算机研究与发展 2020年4期

马陈城杜学绘曹利峰吴蓓

1(战略支援部队信息工程大学郑州 450001) 2(河南省信息安全重点实验室(战略支援部队信息工程大学) 郑州 450001) 3(61497部队北京 100000)

对于党政军网络及大型企业网络等敏感网络，网络监管是维护网络良好秩序的重要手段.近年来发展迅速的流量加密和匿名网络技术，一方面保护了网络的敏感数据和用户隐私，另一方面也给网络监管带来了巨大的困难和挑战.SSH和VPN等技术通过加密数据包载荷，可绕过基于载荷字段的流量分析和检测，但通过分析数据包的长度分布等规律，加密流量仍能被有效分析[1-3].但随后的Tor(the onion router)匿名通信技术进一步隐匿了数据包长度信息，给流量分析带来了更大的困难.由于匿名通信系统具有节点发现难、服务定位难、用户监控难、通信关系确认难等特点，利用匿名通信系统隐藏真实身份从事恶意甚至网络犯罪活动的现象层出不穷[4]，如利用暗网进行地下交易[5]及国内不法分子翻越中国墙访问不健康网站和发表不正当言论等行为.

Fig. 1 Schematic diagram of the Tor network图1 Tor网络原理示意图

Tor网络[6]是匿名网络的代表之作.目前Tor网络在全球拥有6 000个志愿者节点，日活跃用户达到了200万[7].Tor基于传输层安全协议(transport layer security, TLS)加密数据包载荷以及随机链路技术来保护用户端的数据隐私.其原理如图1所示，用户本地的客户端与Tor目录服务器进行协商分配链路节点，由于构成通信链路(circuit)的3个Tor节点relay的随机性和周期更新性，基于链路追溯数据包是困难的.待传输数据在客户端相应地被依次实施3道传输层安全协议(TLS)加密，每经过一个Tor节点，最外面一层的加密就被相应地解开，因此即使控制了其中一个Tor节点，也无法读取用户的数据包内容.Tor基于一个或多个512 B的数据单元(cell)实现数据传输.固定长度的cell传输模式使得过去基于数据包长度的分析手段失去了攻击和分析效果.为了对基于Tor匿名网络的通信和访问行为进行有效监管，针对Tor匿名通信系统的攻击和分析技术研究发展迅速，如流水印技术[8]、流量关联分析技术[9]等.其中，网站指纹(website finger-printing, WF)攻击技术发展尤为迅速[10-11].相比其他匿名通信攻击技术，WF攻击技术具有易部署、低成本的特点.面向加密或匿名传输的WF攻击技术基于内网用户访问网站产生的流量数据对模型进行训练，模型对新产生的网页流进行分类，分析该网页流是否正在利用加密通道或匿名通信网络秘密访问敏感网站，如非法网站或可能导致内网失泄密的网站，及以暗网为代表的隐藏网站等[12]，实现对利用匿名网络访问非法网站行为的攻击与分析.

WF攻击与分析本质上是一个分类问题[11]，机器学习在网络空间安全中的广泛应用[13-14]促进了WF技术的快速发展，近几年神经网络方法更是隐隐成为研究WF技术的主要利器[15].基于神经网络的WF攻击技术通过数据驱动构建模型，使模型自动学习网站指纹特征.相比传统方法[16-17]，神经网络方法能够学习到人工经验难以定义的网站指纹特性，实现更好的攻击效果[11].

但目前主流的基于神经网络的WF攻击与分析方法仍存在不足之处.WF攻击技术研究通常基于封闭世界场景(close-world, CW)和开放世界场景(open-world, OW)2个假设进行分析.CW场景假设用户仅访问网络管理员定义的被监控的敏感网站，WF模型需要识别出用户当前访问被监控网站的具体站点域名，是一个n分类问题(n为被监控网站的数量)；而OW场景假设用户访问任意网站，WF模型需要识别用户是否正在访问被监控网站集的站点，即识别网页流是否属于被监控网站集，是一个二分类问题.在CW和OW场景下，当前基于神经网络的WF研究都仅直接利用经典的神经网络架构，如VGG16[18]，ResNet[19]等，没有根据WF攻击技术的特点对神经网络模型结构进行设计和改进，存在网络过于复杂和分析模块冗余导致特征提取和分析不彻底、模型运行缓慢等问题[20]，因此神经网络在WF攻击技术上的适应性还有待提高，模型性能还有很大的提升空间.另外，神经网络方法在OW场景下通常仅基于阈值判别法分析神经网络输出的指纹向量以实现二分类决策[21].由于神经网络方法输出的指纹向量的高度准确性，阈值法虽然简单但也表现出了较好的分类性能[22].但是阈值法没有分析被监控网站集和非监控网站集的指纹向量在各维度的相关性，也没有学习被监控网站集和非监控网站集的二类别特性.在被监控集网站为天然自成一类的情况下(如被监控集的站点均为Tor隐藏网站)，阈值法的分类性能表现出较大的不足.

针对上述研究存在的问题，本文通过对Tor匿名网络流量序列的特征表现进行研究后，设计了基于深度分析burst特征的网站指纹攻击模型(deep burst-analysis based website fingerprinting attack, DBF).强加密性和隐匿性的Tor网络流量只有少数特征可分析出有用信息，突发流量特征(burst)是其中的一个重要的上层特征，它反映了访问网站时数据交互过程中的一段持续性的数据传输行为.为对Tor匿名网络流量的burst特征进行有效发现与分析，本文分别针对CW与OW场景进行了相关研究.在CW场景中，设计了基于burst特征提取模块和burst特征抽象学习及深度分析模块的DBF-CW(DBF in Close-World)模型.首先，burst特征提取模块通过由多个卷积层平行拼接而成的浅层卷积神经网络(convolution neural network, CNN)对不同长度的burst特征进行提取；然后，burst特征抽象学习及深度分析模块对VGG16架构的基本区块(由2层卷积层及一层池化层组成)和含残差连接的密集神经网络(dense neural network, DNN)进行融合，对burst特征进行深度的抽象学习，由此提取并输出网页流的指纹向量，并通过对指纹向量做反向最大值函数计算实现对被监控网页流的网站标记识别；在OW场景中，基于DBF-CW输出的指纹向量结果，进一步设计了基于随机森林算法的二分类模型DBF-OW(DBF in Open-World)，通过对指纹向量进行向量维度相关性分析，模型可以学习二分类特性，实现了比阈值法更好的分类效果.

本文的主要贡献有3个方面：

1) 在封闭世界场景中设计了一个基于CNN和DNN的WF攻击模型DBF-CW，通过对浅层卷积网络、VGG16基本区块和含残差连接的密集神经网络进行连接与结合，形成多层深度神经网络结构，对Tor流量序列的burst特征进行提取和深度分析，提高了burst特征发现的成功率和准确率，模型对Tor流量的分析和分类性能得到很大的提高；

2) 在开放世界场景中设计了一个基于随机森林算法的WF模型DBF-OW，改进了基于阈值法的决策思路，通过分析DBF-CW输出的指纹向量间各维度相关性与被监控网站集和非监控集二类别的映射规律，实现了更有效的二分类决策；

3) 使用了多个数据集对方法进行评估，从实践的角度验证了本文所提出的DBF模型在缓解概念漂移、绕过网站指纹攻击防御机制、识别Tor网络隐藏网站、小样本训练模型和运行速度等方面优异的性能表现.

1 相关工作

1.1 针对匿名通信的攻击与分析技术对比

从对流量的干扰程度及流量的采集点2个维度进行分析[23]，匿名通信攻击技术主要可分为被动端到端流量分析[9]、主动端到端流量分析[8,24-25]、被动单端流量分析[1,12,26]和主动单端流量分析[27-29]，它们的区别如表1所示.端到端分析在实际网络环境中难以实施完备的攻击，因为需要在被监控站点近端进行系统部署，而站点数量往往是非常庞大的.主动单端攻击通过向用户端注入恶意代码，通过分析用户机器物理特征(如内存)与访问不同网站时的映射关系来实现攻击，操作性要求较高.相比之下，以网站指纹攻击为代表的被动单端流量分析的实现成本最低，通过监听并分析用户近端流量即可建模，是当前实现全面的敏感站点检测的最可行方法.

Table 1 Comparison of Four Anonymous Network Communication Attack Technologies

1.2 网站指纹攻击技术发展现状

网站指纹(WF)攻击是一个本地的、被动地获取用户进出流量、不主动干预流量状态的一种流量窃听攻击.如图2所示，WF攻击的发起者可以是用户与Tor入口节点之间链路上的本地管理员(local administrator)、服务提供商(Internet server provider, ISP)、自治系统(auto-nomous system, AS)或者控制了Tor入口节点的攻击者.网络管理员首先定义需要监控的敏感网站集，通过前期获取用户端近端流量样本和网站标记形成训练数据，完成训练的模型部署在用户端近端的链路上.基于被动监听用户的进出流量判断用户当前是否正在访问被监控网站，以达到网络监管的目的.

Fig. 2 Schematic diagram of WF attack图2 WF攻击原理示意图

WF攻击通常基于3种模型假设：

1) 用户访问行为单一.假设用户在同一时间只浏览一个网页，攻击者可以简单获取到网页流的开始和结束.

2) 无噪声流量.假设网页流无背景流量，不需要处理噪声流量.

3) 特殊网页可代表网站.假设用户访问某个具体网站时必将访问某个特殊网页(如网站首页)，因此网站指纹分析可转化为网页指纹分析.

WF攻击技术由于初期所基于的安全假设过于理想化而没有被广泛认可[30]，近年来有许多研究围绕放松其基于的安全假设展开[31].Gu等人[1]在2015年在用户同时访问2个网站的复杂情况下成功实施了WF攻击；Wang等人[32]在2016年提出了模型更新算法以应对数据概念漂移问题，提出了多网页流分割算法以应对用户同时浏览多个网页的情况，还提出了处理流量噪声的手段等；Cui等人[33]在2019年提出了2个针对连续和重合网页流的分割算法；针对网站指纹攻击可转换为网页指纹攻击的理想假设，Cai等人[34]在2012年基于隐Markov链对网站链接的点击关系进行分析，基于多网页训练形成网站指纹；Zhuo等人[35]在2017年提出了一种面向分析网站链接的隐Markov链模型.

上述对模型基础性安全假设进行分析和放松的研究工作，为在理想条件下建模的WF攻击技术提供了数据清洗等基础性的支撑工作，大大提高了WF模型应用到真实网络中的可行性.这些基础性的工作同样适用于本文模型，因此本文不涉及对安全假设的研究，旨在在理想条件下，提高WF模型在2个场景下对Tor匿名通信的攻击和分析能力，从提升分类性能的角度提高WF攻击技术应用到实际的可行性.

依据数据封装协议的不同，WF攻击主要分为3类[36].在早期网站还使用HTTP1.0进行数据传输时，攻击者通过分析资源(如图片、文字等)长度可实现WF攻击[37-38].而后HTTP1.1,VPN和SSH通过加密和混淆的方式使攻击者无法获取网站资源长度特征，基于数据包长度的分析可构建网站的指纹信息[26,39].Tor匿名网络通过填充和固定传输单元的大小进一步隐匿了长度特征，针对Tor网络的网站指纹攻击在当前仍是一个难点.

作为WF模型的信息源，流量特征的提取是决定模型性能的关键一环.Tor流量可以在数据包、TLS和cell层次上进行提取，实验证明在cell层次上提取特征最有利于对Tor流量的分析[40].由于只有方向特征和数量特征可利用，对cell的分析通常基于cell方向序列的形式.方向序列中的burst特征被WF研究广泛使用[16,36]，是实现WF攻击的一个重要的上层特征.

当前主流的面向Tor网络的WF模型主要分为基于人工设计指纹的一般机器学习方法和指纹(半)自动学习的神经网络方法.如表2所示，序列号1～7为一般机器学习方法，其基于流量特征直接形成或者通过形态变换形成网站指纹；而序列号8～14为神经网络方法，它通过深度挖掘流量特征的方式自动学习形成网站指纹.表2还对各研究所采用的基础模型算法、所利用的流量基础特征的层次、类型和表现形式进行了总结和描述.

Table 2 Comparison of Website Fingerprint Attack Methods for Tor

Notes:Accmeans accuracy;TPRmeans true positive rate; “√” means the item is selected.

对于一般机器学习方法，由于模型分析能力有限，指纹向量通常基于人工设计的规则进行提取，模型算法只进行指纹向量的距离对比、相似性计算等，因此模型所分析的特征一般需要包含丰富的表层信息，如通过增加特征维度、扩大特征的涵盖范围(如通过统计计算的方式)等，特征提取一般较为复杂.Wang等人[36]在2014年通过对传统KNN算法进行加权改进，并基于改进后的k-NN算法分析高维特征集实施WF攻击，在封闭世界环境下取得了91%的准确率.Panchenko等人[17]在2016年对网页流实例使用累加和(cumulative representation, CUMUL)的方式表达序列特征，并使用基于RBF(radial basis function)核函数的改进SVM进行分类，得到较好的效果.Hayes等人[16]在2016年使用随机森林(random forest, RF)模型分析网页流的包计数、包间隔等共150维统计特征，并基于各叶子节点的标识形成网页指纹，通过传统KNN算法和汉明距离(Hamming distance)实现分类.然而，一般机器学习方法基于人工设计的指纹是不稳健的，匿名网络通过改进协议即可破坏这些指纹的提取[11].

对于指纹(半)自动学习的神经网络方法，由于模型具备强大的分析能力，指纹向量通常由模型自行分析得到，因此模型所分析的特征一般为不加处理的原始流量特征(如网页流的包方向序列、时间序列等)，较少通过统计的方式对原始数据进行加工.Abe等人[42]在2016年提出了一种基于自编码神经网络和多层感知机分析Tor cell方向序列的WF方法，在开放世界场景中的准确度要高于此前的一般机器学习方法.Rimmer等人[11]在2018年提出了利用深度学习的思想分析Tor cell方向序列并自动提取流量特征，以实现网站指纹建模.他们采用了SDAE(stacked denoising autoencoder),CNN和LSTM(long short term memory)这3种神经网络进行模型构建.实验结果表明，基于神经网络的网站指纹攻击方法在性能上比当前人工提取指纹的传统方法要好.Sirinam等人[22]在2018年基于CNN的VGG框架[18]分析Tor网页流cell序列特征，在封闭世界情景下达到98%的准确率，并成功攻破了WTD-PAD防御机制[44].Oh等人[15]基于CNN分析cell序列和人工提取的burst长度特征实施WF攻击，在封闭世界情景得到了较高的准确率.He等人[20]利用残差网络思想分析cell序列特征和包时间戳特征，基于CNN的ResNets架构[19]和GRU网络实施WF攻击，在封闭世界场景下得到了99%的准确率.Bhat等人[21]在2019年同样基于ResNets架构训练WF模型，并且还引入了时间类特征，通过集成的方法综合分析了方向和时间类特征，也取得了99%的分类准确率.Rahman等人[43]在2019年通过实验证明了在一般机器学习算法中无法被有效使用的时间特征，在神经网络中能被有效挖掘出有用的信息.以上方法从特征设计和提取的角度对WF攻击技术进行改进，或利用已有的神经网络架构直接应用到WF攻击上，但都没有根据Tor流量和WF攻击技术的特点对神经网络结构进行改进，网络结构存在指纹分析不彻底或结构冗余的问题，前者导致分类准确率较低，后者导致模型运行速度缓慢.

burst特征是方向(direction)特征的序列形式表现，是流量中的一种上层特征表现，在人工设计指纹的一般机器学习方法被广泛使用[16,36]，但通过人工提取的burst特征只有长度信息，而位置抽象信息及潜藏的深度规律难以被人工设计的规则所提取和分析.同时，当前的神经网络方法[11,20,22]大多仅利用深度学习泛性地挖掘原始流量特征的规律，而没有从流量本身潜藏的特性分析出发设计模型，因此目前还没有针对burst特征进行分析的神经网络方法.对于数据加密、链路随机、传输时延不稳定、隐匿了数据传输单元长度特征的Tor流量，burst特征无疑是一个非常重要的上层特征表现，而本文是该领域首个针对Tor流量burst特征进行分析的神经网络方法.

由于WF攻击的蓬勃发展，相应的防御手段也应运而生[45]，但大多数防御技术的实用性较差[46-47]，或仅针对某一个具体的WF攻击模型进行防御，应用范围不广[48].BuFLO家族(BuFLO[49],CS-BuFLO[50],Tamaraw[51])对WF进行了有效的阻截，但是消耗过多的网络带宽和增加较多的传输延迟.近年来基于神经网络方法提出了对抗样本模型，基于误导攻击者将该网页流误导分类至另一个网站的思想实施防御[52-53]，但是该方法的假设前提过强，实际可操作性较低.目前相对可用的WF防御机制是WTF-PAD[54]和Walkie-Talkie(W-T)[55]，但本文在实验部分会验证模型可以有效攻破这2个防御机制.

2 基于burst深度分析的网站指纹攻击模型

基于当前神经网络方法与面向Tor匿名网络的WF攻击技术结合不足的问题，根据burst特征在基于Tor网络的网站访问流量中具有强显性的特点，设计了基于深度分析burst特征的网站指纹攻击模型(DBF).本节首先对模型的重要元素进行定义，然后给出模型的整体框架，最后对DBF模型的2个重要部分DBF-CW和DBF-OW进行阐述和分析.

2.1 模型基本元素的定义

在对本文提出的DBF模型进行分析前，需要对网站指纹(WF)攻击技术的重要元素进行介绍，符号定义如表3所示，其中4个重要的定义如下:

定义1.网站集(website set).网站集分为被监控网站集和非监控网站集.被监控网站集是由网络管理员定义的禁止用户访问的网站集，以MW表示；而非监控集则为真实网络中除监控集以外的所有网站，以UW表示.

WF模型的任务是分析内网中是否存在用户正在利用匿名网络访问被监控网站，甚至进一步分析用户访问的是哪一个被监控网站，2个目的分别对应于WF模型验证及测试阶段的开放世界场景(OW)和封闭世界场景(CW).如表3所示，MW的大小为Ns，UW的大小在真实网络中为无限大，而在模型实验阶段是有限的，实验会采集一个尽可能大的数据集以模拟真实环境，至少保证UW的大小远大于MW的大小.

Table 3 Concepts and Symbol Definitions of WF Model

定义2.网页流实例(instance).是用户对单个网站访问一次所产生的流量，是WF模型训练和分析的数据基本单元，Ii表示实例集I中的第i个实例，Fi表示实例Ii用于模型输入的特征向量.

定义3.网站标记(website label).是网站类别的标识，是WF模型的分类标记.其中封闭世界场景标记(CW)集中的每一个标记分别对应于被监控网站集中的一个网站，为Ns类标记；开放世界场景标记(OW)集为二类标记，即被监控网站类标记和非监控网站类标记.实例Ii的2种标记分别记为l(CW)(Ii)和l(OW)(Ii)，以l(Ii)泛指Ii的2种标记.

定义4.指纹向量(fingerprinting vector).即神经网络的结果向量(result vector)，由神经网络方法自动学习特征形成并输出，用于识别网站标记.实例Ii的指纹向量记为Ri，Ri[k]为向量第k维的值.

2.2 DBF模型框架

封闭世界场景假设(CW)和开放世界场景假设(OW)是WF攻击技术研究中2个重要的场景验证.DBF模型由DBF-CW和DBF-OW这2个子模型构成，如图3所示.DBF-CW基于深度神经网络对被监控网站的网页流burst特征进行深度分析和学习，输出网页流的指纹向量，若网页流属于被监控网站集，则利用指纹向量可直接得到该被监控流的网站域名CW标记.CW标记为多分类标记，每一类为一个具体的网站域名.以往的研究通常仅训练一个WF模型同时用于2个场景，在OW场景中对模型输出的指纹向量基于阈值判断的方式实现二分类决策.DBF-OW同样是基于DBF-CW输出的指纹向量进行再分析，但放弃了阈值法的使用，而是利用随机森林(RF)算法对被监控网站流和非监控流进行二分类特性学习以构建模型，在OW场景下实现二分类获取流的OW标记，即识别该网页流是否属于被监控网站集，OW是二类标记，即被监控网站标记和非监控网站标记.

Fig. 3 The framework of DBF图3 DBF模型框架

(1)

(2)

在模型验证和测试阶段，对于CW场景，DBF-CW与常规基于神经网络的WF模型相同，输入待测试的被监控网页流实例Itest的特征向量Ftest，提取指纹向量Rtest，Rtest←DBF_CW(Ftest)，进一步得到被监控网站CW标记l(CW)(Itest)=arg max(Rtest)，即实例标记l(CW)(Itest)为Rtest中向量值最大对应的维度位序.对于OW场景，区别于一般神经网络方法人工设定一个阈值Th，只有当Rtest[arg max(Rtest)]>Th时，实例Itest才被判定为被监控网页流，否则为非监控网页流的思路，DBF在DBF-CW提取出指纹向量的基础上，DBF的子模型DBF-OW基于随机森林算法分析指纹向量Rtest各维度值的关联性和潜在规律得到实例Itest的OW标记，即l(OW)(Itest)←DBF_OW(Rtest).

在WF模型应用到实际中时，模型首先基于OW场景分析网页流是否属于被监控网站集，若是则进一步基于CW场景分析网页流所属的具体网站域名.具体而言，模型首先基于DBF-CW计算获取指纹向量，并基于DBF-OW对指纹向量的分析得到网页流的OW标记，若流的OW标记为被监控网站，则进一步基于指纹向量分析流的CW标记，即识别流的具体网站域名，如图3所示.

2.3 封闭世界场景模型DBF-CW

2.3.1 burst特征

2.3.2 burst特征深度分析的神经网络原理

一维卷积神经网络对序列具有较好的分析效果，而且相比循环网络，运行速度更快.卷积网络基于卷积层和池化层的叠加，使得卷积窗口能覆盖到越来越多的局部序列信息，并提取到越来越深度抽象的序列特性，其卷积原理如图4所示.卷积网络的卷积核可用于提取网页流序列的burst特征，并通过更深层的卷积和池化运算得到序列中burst位置的抽象相关特性.Tor流量的burst特征有长有短，利用卷积核大小不同的卷积层对不同长度的burst特征进行提取，进而利用深层网络对不同长度burst的位置分布进行分析，能较有效地分析Tor流量的burst特征，解构Tor流量特性.深度神经网络对高维向量具有较好的分析效果，基于卷积网络输出的高维向量，DNN可以实现对向量各维度间复杂的相关性分析，如图5所示.

Fig. 4 Schematic diagram of one-dimensional convolution operation图4 一维卷积运算示意图

Fig. 5 Schematic diagram of dense neural network图5 密集神经网络示意图

2.3.3 DBF-CW的神经网络结构设计

DBF-CW由burst提取模块、burst抽象学习模块和burst深度分析模块三大模块构成，主要由卷积层(convolution layer, Conv)、最大池化层(max pooling layer)、密集层(dense layer)、批标准化处理(batch normalization)和Dropout处理这5个基本层件组成，如图6所示.批标准化处理有助于神经网络参数的快速训练；Dropout处理则有利于提高模型的泛化性，丢失率越高，模型越不容易过拟合，但丢失率过高会大大降低模型的性能.

Fig. 6 The neural network structure of DBF-CW图6 DBF-CW神经网络结构

模块1为burst特征提取模块，主要作用和功能是利用不同大小的卷积核对短、中、长burst进行提取，并对burst在序列中的位置进行简单的定位和浅层分析.定义短、中、长burst长度依次为8，24和72，后者依次为前者的3倍长度.基于该定义，模型对不同长度的burst分别采用了4个与其长度对应大小(即8,24和72)的卷积核进行提取，然后将得到的3个卷积张量在通道维度轴上进行拼接(concatenate)，形成通道轴为12维的卷积张量.拼接后的张量进入有32个大小为1的卷积核的卷积层中进行学习，大小为1的卷积核的主要作用是学习卷积张量在通道维度轴上的通道向量各维度之间的规律和相关性，分析定位burst在序列上可能出现的单点位置.最后采用一层最大池化层加快卷积网络对局部特征的学习效率.DBF-CW使用的池化层均为最大池化层，且池化窗口大小与短burst长度一致，步进长度为短burst长度的一半.

模块2为burst抽象学习模块，主要作用是对第1模块输出的浅层卷积张量实施更加抽象和深度的学习，从局部特征的学习逐渐过渡到全局概念的学习，以挖掘不同类网页流序列burst特征的深层抽象特性和概念.该模块由经典CNN架构VGG16的2个基本区块构成，该基本区块由2层卷积层和一层最大池化层组成，在充分利用卷积运算对特征规律学习的同时，保证了网络的学习效率.第1个VGG16基本区块的卷积核数为64，是模块1卷积层的2倍；第2个VGG16基本区块的卷积核数为128，是上一个基本区块的2倍.随着卷积网络层的深入，卷积核数的增加有助于学习到不同类网页流burst特征的深层概念.burst抽象学习模块的卷积窗口大小均与定义的短burst长度一致，步进长度均为1.

模块3为burst深度分析模块，主要作用是将上一模块输出的具有burst特性深度和全局概念意义的卷积张量铺平形成向量，并基于密集神经网络对该向量的各维度相关性和特征规律进行分析，以进一步挖掘上一模块所提取出的各个全局特征的关系.模块3由4个密集基本区块构成，密集基本区块由一层全连接层、一层批标准化层和一层Dropout层组成，全连接层的神经元数均为512.同时，burst深度分析模块还基于残差连接的思想，将第1和第3、第2和第4基本区块的输出进行残差相加，以缓解特征向量信息随着网络层的增加而丢失和遗忘的问题.

模型采用RMSProp算法训练网络，批处理大小batch为128，采用交叉熵计算分类损失，模型评估指标为准确率(accuracy,Acc).

2.4 开放世界场景模型DBF-OW

DBF-OW模型基于随机森林(RF)算法，对DBF-CW输出的指纹向量Ri进行分析.随机森林是基于结构和参数简单的决策树等弱分类器的集成模型，对中低维的特征向量具有良好的分析效果.如图7所示，DBF-CW结果向量在进入RF模型训练前，DBF-OW先计算向量Ri各维度值的3个统计特征.结果向量各维度值的统计分布是反映向量属性的重要特征，对模型的分类决策具有影响力.3个统计特征如式(3)～(5)所示，DBF-OW通过计算Ri的最大维度值、熵和标准差，得到Ri各维度值的分布情况，并将这3个统计特征添加到Ri中，形成Ns+3维的特征向量.新的特征向量与其对应的二分类标记输入到RF模型中进行规律学习，最终得到一个可识别未知网页流实例的二分类标记的开放世界模型.

(3)

(4)

(5)

Fig.7 The structure of DBF-OW图7 DBF-OW模型结构

DBF-OW所基于的随机森林由若干决策树构成，每个决策树的训练、结构和参数相互独立、各不相同.每个决策树在分析训练数据时，以指纹向量某一维度的属性值作为基准对数据进行划分，计算分类前和分类后的信息熵差值，以此得到以不同维度轴作为划分基准的各数据划分方法的信息增益，以信息增益最大的分类方法作为该“树支”的分类逻辑.训练数据被划分成多个部分后，决策树对各部分数据分别继续分析，形成新的分支逻辑，以此类推，最终形成一个有若干分支的决策树.信息熵、信息增益及划分基准选择的计算如式(6)～(8)所示:

(6)

(7)

(8)

其中，Ent(D)表示原始数据集D的信息熵，|y|是数据的类别数，p(xi)表示第i类数据占整个数据集的比例；G(D,a)表示以指纹向量第a维度作为划分基准时的信息增益，J表示此时的分支数，Dj表示被划分到第j个分支的数据；a*表示被选择的基准维度，即信息增益最大的指纹向量维度.

在各决策树训练完毕后，决策树的所有叶结点由该结点训练数据的大多数类作为该结点的类别.决策树在对新的数据点指纹向量进行分析时，新向量依照决策树的逻辑分支分配到某个叶结点，该叶结点对应的类别即决策树对该向量的类别预测.在所有决策树都对新数据点的指纹向量进行类别预测后，随机森林对各决策树的预测结果进行集成和综合分析，以投票的方式决定数据点的类别，如式(9)所示:

(9)

其中，ct(x)表示第t个决策树对x的预测结果；T是随机森林模型中决策树的个数；Y是标签集；派函数∏()表示当括号内条件为真时函数值为1，否则为0.因此式(9)的含义是对于标签集Y中的每一个元素标记y，将随机森林模型T中的每一棵树t的预测结果ct(x)与y进行比较，当结果为真时对y的预测值加1，最后通过反向最大值函数输出具有最大预测值的y值，即为随机森林模型对数据x的标记预测结果.随机森林以决策树为基础，通过各决策树对指纹向量的学习，分析向量各维度的相关性和潜在规律，获取指纹向量的属性逻辑规则，对应于决策树的每一条路径.

随机森林作为一个集成模型，子分类器的个数是一个重要的参数.由于结果向量的维度会随着被监控网站集的大小而变化，DBF-OW设定子分类器数为Ns/4，即被监控网站集大小的四分之一.RF子分类器数随着被监控网站集的大小而变化，有利于RF模型对数据进行充分的拟合，避免欠拟合的情况发生.

3 实验与结果

3.1 实验设置

实验主要分为2个部分，分别在封闭世界场景和开放世界场景下对模型性能进行评估.采用了微星(MSI)GT63作为实验机器，包含了6个Intel®CoreTMi7-8750H@2.2 GHz的CPU和一个NVDIA GeForce GTX 1070的GPU，机器内存为32 GB.实验中的算法代码均基于Keras实现，DF[22]和AWF[11]作为实验的对比模型.由于实验所使用的数据集只有包方向序列特征，k-FP[16],k-NN[36]和CUMUL[17]等需要分析时间特征的算法无法在该实验条件下执行，这些模型的实验对比结果来源于与数据集或模型相关的论文.

3.2 评估指标

封闭世界场景是一个多分类任务，在该场景下模型的分类性能主要体现在对不同网页流的分类能力上，因此采用准确率(Acc)对模型性能进行评估:

(10)

其中，TPi表示第i类网页流被正确分类的实例数，N表示参与评估的实例总数.

开放世界场景是一个二分类任务，在该场景下模型的分类性能不仅体现在能正确识别出受监控网页，还体现在尽可能少地将非监控网页误识别成监控网页.实验采用了真阳性率(true positive rate,TPR)、假阳性率(false positive rate,FPR)和多类真阳性率(multi-TPR,MTPR)对模型性能进行评估：

(11)

(12)

(13)

其中，TP表示被监控网页流被正确分类的实例数，TN表示非监控网页流被正确分类的实例数，FN表示受监控网页流被错误分类为非监控网页流的实例数，FP表示非监控网页流被错误分类为受监控网页流的实例数.在真实网络中非监控网页流要远多于被监控网页流，准确率和精度(precision)指标不能准确衡量模型性能，因此实验不采用这2个指标.

3.3 实验数据集

针对不同的实验目的，实验采用了多个基于Tor网络访问网站的数据集，数据集的每一条数据表示一个网页流实例的数据包方向序列，即(1,-1,-1,…,-1)的数据形式，序列长度均为5 000维，不足5 000维的部分以0补足.如表4所示，前缀为CW的数据集表示封闭世界数据集，前缀为OW的数据集表示封闭世界数据集；N(MW)表示被监控网站集的大小；N(Ii)表示各被监控网站的网页流实例数；N(UW)表示非监控网站集的大小，每个非监控网站的实例数均为1；数据括号中的第1个数表示训练-验证集(train-val)的大小，第2个数表示测试集(test)的大小，训练-验证集和测试集的划分与源论文保持一致.所有数据的测试集仅用于模型最后的结果对比；在参数验证的实验中，验证集的大小始终保持为训练-验证集的10%.

Table 4 Datasets Used in the Experiments

不同数据集的用处不尽相同.CW100-CW900数据集的被监控网站集大小不同，可用于验证被监控网站集MW的大小对模型性能的影响.CW200-Time和OW200-Time数据集采集了与训练数据间隔3 d、10 d、2周、4周、6周的被监控网站实例，可用于测试模型的抗概念漂移性能.Sirinam数据集[22]用于验证模型对W-T和WTFPAD这2个相对成熟的WF防御机制的突破能力，CW-NoDef，CW-W-T，CW-WTFPAD分别是在无WF防御、有W-T防御和有WTFPAD防御机制下采集的封闭世界数据集，OW-NoDef，OW-W-T，OW-WTFPAD同理.Haye数据集[1]可用于验证模型对Tor隐藏网站的检测能力，CW-Normal和CW-HS是用户通过Tor网络分别访问普通网站和Tor隐藏网站所采集到的数据集，OW-Normal和OW-HS同理.

3.4 封闭世界场景实验

封闭世界场景的实验目的，是检验WF攻击模型是否能正确分类被监控网页流实例所对应的被监控网站集标记，检验的是模型的多分类性能.实验主要分为参数验证和性能测试2部分.参数验证阶段主要探讨训练轮次epoch、神经网络的输入序列长度、训练实例数对模型性能的影响；性能测试阶段主要分析被监控网站集MW的大小对性能的影响、模型的抗概念漂移能力、绕过WF攻击防御机制的能力以及检测Tor隐藏网站的能力.DBF-CW与DF的默认参数是epoch为30，输入序列长度为5 000.AWF的默认参数是epoch为30，输入序列长度为3 000.

3.4.1 epoch对模型准确率的影响

实验在CW100和CW-NoDef数据集上对训练不同epoch下的模型准确率进行验证，训练集为训练-验证集的90%，验证集为10%.如图8和图9所示，图8为DBF-CW模型分别在CW100和CW-NoDef数据集上运行60个epoch的结果，图9为DBF-CW,DF和AWF模型在CW100数据集运行30个epoch的结果.尽管CW100和CW-NoDef数据集的大小不同，但当epoch为15～20时，DBF-CW在2个数据集上均达到了拟合的状态，验证了DBF-CW训练的稳定性.同时，相比AWF模型，DBF-CW和DF训练速度更快且更稳健，仅经过前5轮的训练，整体准确率已经稳定在97%以上.

Fig. 8 Performance of DBF-CW under different epochs图8 DBF-CW训练不同epoch时的性能

Fig. 9 Performance under different epochs on the CW100 dataset图9 各算法在CW100数据集上训练不同epoch的性能

3.4.2 网页流序列长度对模型准确率的影响

实验在CW100和CW-NoDef数据集上验证模型在输入的网页流序列长度不同时的准确率变化，训练集为训练-验证集的90%，验证集为10%.如图10所示，DBF-CW和DF模型的准确率均随着输入序列长度的增大而增大，且在输入长度为1 000时，模型的验证准确率在98%以上.相比AWF模型，DBF-CW和DF模型对输入长度不敏感，准确率变化幅度较小，表明模型对输入的长度依赖性不强，有较好的健壮性.

Fig. 10 Accuracy of the algorithms with different input lengths图10 各算法在输入序列长度不同时的准确率

3.4.3 训练实例数对模型准确率的影响

Fig. 11 Accuracy of the algorithms with different training instances on the CW100 dataset图11 各算法在CW100数据集上训练不同实例数的准确率

实验在CW100和CW-NoDef数据集上对模型的训练实例数与模型准确率之间的关系进行验证，验证集大小为训练-验证集的10%，训练集大小依次为10%～90%，间隔10%，取9个点.实验结果如图11和图12所示，随着每类被监控网站的训练实例数增加，3个算法模型的分类准确率均随之增大，但DBF-CW相比AWF的变化幅度小得多.在小样本训练的情况下，DBF-CW和DF算法仍能保持96%以上的分类准确率，表明算法对样本的规律学习和泛化性能比较好，在小样本训练的情况下同样可以成功实施WF攻击.

Fig. 12 Accuracy of the algorithms with different training instances on the CW-NoDef dataset图12 各算法在CW-NoDef集上训练不同实例数的准确率

3.4.4 被监控网站集大小对模型准确率的影响

实验在CW100-CW900四个数据集上验证被监控网站集的大小对模型准确率的影响，这4个数据集的网站集大小分别为100,200,500和900.如图13和表5所示，随着被监控网站集的增大，DBF-CW和DF的准确率有略微下降，而AWF模型准确率下降较快.DBF-CW的分类准确率始终保持在最高位，且均在98%以上.实验表明DBF-CW是健壮的，对WF技术适应性较好，受被监控集网站大小的变化影响较小.

Fig. 13 Test accuracy of the algorithms on CW100-900 dataset 图13 各算法在CW100-900数据集上的测试准确率对比

Table 5 Test Accuracy of the Algorithms on CW100-900 Dataset

3.4.5 模型的抗概念漂移能力验证

实验采用CW200-Time数据集验证模型缓解概念漂移(concept drift)的能力.概念漂移是指在实际网络环境中，数据模式会随时间的推移而出现变化，模型训练使用的数据与测试数据的间隔越长，模型通过“旧”数据训练得到的概念与测试数据实际的概念模式的偏差就会越大，导致模型分类性能下降.

图14和表6是DBF-CW与对比算法在CW-Time数据集上的准确率对比，CW-Time数据集包含1个训练集和6个测试集，各测试集的采集时间与训练集分别相隔了0 d,3 d,10 d、2周、4周和6周.从图14可以看到，DBF-CW,DF和AWF模型的分类准确率随着时间间隔增大而均有所下降，但DBF-CW的下降速度是最慢的，验证了DBF-CW能较有效地缓解概念漂移问题.概念漂移是实际应用中模型随着时间推移而性能下降的一个无法避免的问题，但如果模型能有效减缓性能下降的速度，就有更充分的时间准备新的训练数据以训练出新的模型，以真正解决实际应用场景中的概念漂移问题.

Fig. 14 Test accuracy of the algorithms on CW-Time dataset图14 各算法在CW-Time数据集上的测试准确率

Table 6 Test Accuracy of the Algorithms on CW-Time Dataset

3.4.6 模型对Tor隐藏网站的检测性能

实验在Tor隐藏网站数据集上对模型的Tor隐藏网站检测能力进行测试.如表7所示，DBF-CW在正常集CW-Normal和隐藏网站集CW-HS的准确率表现一般，分别为70.6%和80.66%.这可能是因为该数据集的训练实例数和序列长度过短导致的，各类被监控网站的训练实例数仅为70和60，远远少于其他2个数据集的900训练实例和2375训练实例；另一方面，该数据集的序列为数据包序列，而不是其他2个数据集的cell序列，这会导致模型对burst特征的提取和分析不足.相比之下，基于一般机器学习方法的k-FP[16]在小样本情况下表现出了较强的学习能力.从纵向看，DBF-CW在隐藏网站数据集上的分类准确率高于正常数据集约10%，说明DBF-CW对Tor隐藏网站是有检测能力的.从横向上看，DBF-CW相比其他2个神经网络模型的准确率是最高的，体现了DBF-CW的神经网络结构在WF领域有更强的适应性.

Table 7 Test Accuracy on Tor Hidden Website Dataset

表7 各算法在Tor隐藏网站数据集上的测试准确率 %

3.4.7 模型对WF攻击防御机制的突破能力验证

实验在无针对WF攻击的防御机制、有W-T机制和有WTFPAD机制这3个数据集上进行.如表8所示，WTFPAD和W-T防御机制牺牲了一定的带宽，分别为31%和64%，WTFPAD机制还有34%的传输延迟.从横向比较上看，DBF-CW在CW-NoDef,CW-W-T和CW-WTFPAD这3个数据集上的准确率均为最高.对于WTFPAD防御机制，DBF-CW对各被监控网站的识别准确率达到了96.25%，表明WTFPAD对DBF-CW几乎没有防御能力.虽然DBF-CW在W-T防御机制数据集上的准确率只有52.06%，但考虑到该数据集的被监控集大小为100，该准确率仍能说明DBF-CW在一定程度上能够突破W-T防御机制.

Table 8 Test Accuracy of the Algorithms on Defense Against WF Attack Dataset

3.5 开放世界场景实验

开放世界场景的实验目的，是检验WF攻击模型是否能正确识别未知网页流实例为被监控网站流或非监控网站流，检验的是模型的二分类性能.实验主要分为参数验证和性能测试2部分.参数验证阶段主要探讨基于随机森林算法的DBF-OW子分类器数和非监控网站训练实例数对DBF模型性能的影响；性能测试阶段主要分析模型的抗概念漂移能力、绕过WF攻击防御机制能力以及对Tor隐藏网站的检测能力.实验中，DBF-OW的子分类器为被监控集大小的1/4，其余参数与封闭世界场景实验的设置保持一致.

3.5.1 DBF-OW子分类器数对模型准确率的影响

Fig. 15 Performance of DBF with different number of estimators on OW-NoDef图15 DBF在OW-NoDef上子分类器个数不同时的性能

实验在OW-NoDef和OW200数据集上对由不同子分类器构建的DBF-OW模型性能进行验证，训练集为训练-验证集的90%，验证集为10%.如图15和图16所示，图15为DBF-OW模型在OW-NoDef数据集上运行的结果，实验选取了子分类器数分别为10～210(间隔为20)的11个模型进行评估；图16为DBF-OW模型在OW200数据集上运行的结果，选取了子分类器数分别为10～410(间隔为40)的11个模型进行评估.从对比结果上看，2个实验分别在分类器数为30和50时性能达到相对最优，此后模型性能几乎没有增长.需要注意的是，30和50个分类器分别约是各自所使用数据集的被监控网站集大小(N(MW))的31%和25%.因此，该实验验证了DBF-OW模型在分类器数取为被监控网站集大小的1/4时，性能能够达到一个相对较好的水平.

Fig. 16 Performance of DBF with different number of estimators on OW200图16 DBF在OW200上子分类器个数不同时的性能

3.5.2 DBF-OW有效性验证

实验在OW-NoDef和OW200数据集上通过比较DBF-OW和阈值法的性能以验证DBF-OW模型思想的有效性，训练集为训练-验证集的90%，验证集为10%.如表9所示，DBF-OW模型在OW-NoDef数据集上的TPR与MTPR值要优于阈值法，而在OW200数据集上的TPR与MTPR值与阈值法持平，表明DBF-OW相比阈值法对正类的检测率有所提高，但提升水平有限.而对于FPR值，阈值法在2个数据集上的表现均大于15%，表明阈值法将反类误分类为正类的问题较为严重，而DBF-OW的FPR分别仅为传统阈值法的43%和11%，表明DBF-OW有效缓解了该问题的出现，改进了阈值法的缺陷.

3.5.3 非监控网站训练实例数对模型准确率的影响

实验在OW200数据集上对模型的非监控网站训练实例数与模型性能之间的关系进行验证.实验使用数量固定的被监控网站实例数和数量不定的非监控网站实例数对DBF模型进行训练.被监控网站训练实例数为训练-验证集中被监控集的一半，即190 000条数据，非监控网站训练实例数依次取训练-验证集中非监控集的10%～90%，间隔10%，共9个点.实验使用10%的训练-验证集(含监控集和非监控集，且与训练数据不重复)作为验证数据.如图17所示，随着非监控网站训练实例的增多，模型的TPR,MTPR和FPR均有所下降.但整体上看，DBF在训练数据不平衡的情况下，性能依旧是稳健的：在非监控网站训练实例数约为被监控数的20%时，FPR只有4.5%；而在非监控数为被监控数1.8倍时，DBF的TPR和MTPR仍旧保持在97%以上.

Table 9 Performance of DBF-OW and Threshold Method

Fig. 17 Performance comparison of DBF with different number of training instances of unmonitored website 图17 DBF在非监控网站训练实例数不相同时的性能对比

3.5.4 模型的抗概念漂移能力验证

实验采用OW200-Time数据集验证模型在开放世界场景下缓解概念漂移的能力.OW200-Time的被监控网站集部分与3.4.5节中使用的CW200-Time数据集完全相同，非监控网站集部分与OW200完全相同.由于实验重点关注的是模型对被监控网站类的学习是否会随着时间的变化与实际的类概念发生偏差，而不关心非监控网站是否出现概念漂移(各非监控网站实例只有一个，实际上构不成概念)，因此实验的非监控网站集没有和被监控集一样间隔多天采集一次，所以测试集中的非监控集部分没有变化，如表10所示FPR始终为1.63%.如图18和表10所示，模型性能随着时间间隔的增大，有较明显的下降.相比3.4.5节在封闭世界场景下验证模型抗概念漂移能力的实验，模型在开放世界场景下的性能下降得更快.但总的来说，模型在使用42 d前的数据进行训练时仍能达到80%的TPR，表明模型具有较强的抗概念漂移能力.从实践的角度分析，6周的时间足够网络管理员采集新的数据训练模型.

Fig. 18 DBF performance on the OW-Time dataset图18 DBF在OW-Time数据集上的性能表现

Table 10 DBF Performance on the OW-Time Dataset

3.5.5 模型对Tor隐藏网站的检测能力

实验在Tor隐藏网站数据集上对模型的Tor隐藏网站检测能力进行测试，该数据集的被监控网站集部分与CW-Normal和CW-HS一致.如表11所示:

Table 11 Performance on Tor Hidden Website Dataset

表11 各算法在Tor隐藏网站数据集上的性能测试对比 %

DBF对Tor隐藏网站的检测效果是最好的，在FPR只有0.13的情况下FPR达到了85.33%，在各类监控网站训练实例只有不到100的情况下，其性能比一般机器学习k-FP[16]还要出色.相比3.4.6节在封闭世界场景下DBF-CW检测Tor隐藏网站较弱的准确率表现，DBF在开放世界场景下对Tor隐藏网站的识别有了很大的提高，而2个实验的被监控集是相同的.出现这种的可能原因是DBF-OW起到了重要的作用.不同于AWF[11]仅使用被监控网站集训练以及DF[22]同时使用被监控集和非监控集及相应的多分类标记同时训练模型，DBF的子模型DBF-OW使用二分类标记训练模型，使得DBF-OW能够学习隐藏网站及非隐藏网站的二类特性.另外，不同于人为随机定义的被监控网站集，其整体的规律性比较弱，Tor隐藏网站作为一种特殊的网页流天然地自成一类网页流，因此Tor隐藏网站和非Tor隐藏网站具有可以学习的网页流规律.实际上，在该实验中DBF的MTPR只有66%，远低于TPR值85.33%，从反向的角度也证明了DBF-OW在识别Tor隐藏网站中起到的重要作用.

3.5.6 模型对WF攻击防御机制的突破能力验证

实验在无防御机制、有W-T机制和有WTFPAD机制这3个开放世界数据集上进行.如表12所示，DBF在WTFPAD数据集上对各被监控网站的MTPR和TPR分别达到了92.16%和93.66%，WTFPAD对DBF几乎没有防御能力，与3.4.7节在封闭世界场景下的结果相呼应；DBF-CW在W-T数据集上的TPR到达了93.92%，但MTPR为64.11%，超高的TPR值与3.5.5节中的实验结果类似，这同样归功于DBF-OW对二类特性的学习能力.综合来看，DBF在一定程度上绕过了W-T防御机制.与其他算法对比，DBF在3个数据集上的MTPR和TPR均为最高，且有较高的性能优势.但DBF在2个数据集上的FPR均超过了15%，在非监控网页流远远少于被监控网页流的真实网络中，这个FPR值是过高的，其主要原因是非监控网站集的训练实例数(20 000)较少于监控集训练数(90 000)且防御机制对模型起到了干扰作用.但在与对比算法的横向比较上，DBF的FPR性能也不具备太大优势，说明DBF-OW在分析经过防御机制加持的Tor流量时还存在一定问题，仍需要继续改进.

Table 12 Performances on Defense Against WF Attack Datasets

3.6 模型复杂度分析

DBF相比其他2个神经网络方法要更加轻便、运行速度更快，其神经网络结构简化对比如图19所示.DBF的简化结构与DF相似(DBF的具体参数在2.3.3节已有描述；DF的4轮卷积网络参数为：卷积窗口均为8，卷积步进均为1，卷积核数依次为32,64,128,256，池化步进均为4，池化窗口均为8)，但DBF运算速度更快.一方面，DBF仅有3轮基本卷积网络运算(即2层卷积层一层最大池化层)，而DF有4轮.另一方面，DBF的第1轮卷积网络用于burst特征提取，其结构远比DF的第1轮卷积网络要简单，如第1层卷积层的核数仅为4(DF的卷积核数为32)，第2层卷积层的卷积窗口大小仅为1(DF的卷积窗口大小为8).DBF由于深度分析burst特征的需要，密集连接网络运算有4轮，要多于DF的2轮，但密集连接网络的运算速度很快，时间消耗远远少于卷积网络.DBF在简化网络结构的同时提高了模型性能，关键在于DBF充分结合了流量burst特征分析的需要和网站指纹攻击技术的特点设计神经网络结构，并且摒弃了以往研究中冗余的神经网络结构.其中最具特色的是DBF的第1轮卷积网络的第1层卷积层运算实际上包含了3个平行的卷积层，用于提取burst特征(DBF的具体结构如2.3.3节图6所示)，而这3个平行的卷积层是可以并行计算的，因此没有增加时间消耗.AWF神经网络结构虽然仅有7层，但长短时记忆网络层(LSTM)属于循环网络层的一种，运算非常耗时，因此AWF的时间消耗要大于DBF和DF.

Fig. 19 Simplified neural network structures of the algorithms图19 各算法的神经网络结构简化图

DBF与对比算法具体的时间消耗如表13和表14所示，DBF每个epoch的训练时间只有86.30 s，远低于对比算法，可知DBF在模型效率上同样优于对比算法.实际上DBF的训练并不需要多达30个epoch，3.4.1节验证了模型在15～20个epoch时就基本能达到最佳的性能效果.在减少训练epoch的情况下，模型的训练时间能进一步缩短.

Table 13 Running Time of DBF on OW-NoDef Dataset

Table 14 Comparison of Running Time of the Algorithms on OW-NoDef Dataset

3.7 实验讨论

从场景的设置上看，实验从封闭世界场景和开放世界场景2个角度对DBF进行了分析，模型均表现出了良好的性能.从功能性验证上看，DBF在受被监控网站集大小影响、缓解真实网络环境存在的概念漂移问题、绕过WF攻击防御机制以及对Tor隐藏网站的检测上有较好的性能表现，这些模型性能对WF攻击技术应用到真实网络环境中有很大帮助；同时DBF在3.5.2节的开放世界场景实验验证中，表现出对传统阈值法的极大改进，相较传统方法明显降低了FPR值，但在3.5.6节的实验出现了FPR值过高的情况，表明抵御WF攻击的防御机制对带宽的扰乱，在误导WF模型将非监控网页流误分类为监控流方面起到了明显的作用.虽然DBF一定程度上突破了防御机制，并表现出了较高的MTPR，但较高的FPR表示DBF-OW受防御机制加持的影响较大，说明模型在训练阶段对指纹向量的学习能力还有所欠缺.从模型自身的参数验证上看，DBF对训练轮次epoch、输入的特征序列长度、被监控网站的训练实例数、随机森林算法的子分类器数等参数敏感度不高，说明模型本身的结构是健壮的，模型性能不容易受参数变化而影响.从模型对比上看，DBF模型在各方面的性能表现都要优于DF模型，但是在个别方面的优势不明显，如小样本训练下的模型准确率、输入序列长度对模型的准确率影响等；而AWF模型的性能与DBF和DF模型相差较大，证明了神经网络方法虽然是一个利器，但是如果没有对经典架构做出改进以适应WF的特点，神经网络的优势也无法发挥出来.另外，DBF相比其他2个神经网络方法要更加轻便、运行速度更快.综上，DBF在保证模型运行效率的同时，全方位地提高了模型的分类性能.

4 结论

本文提出了一个基于神经网络深度分析burst特征的网站指纹攻击模型DBF，提高了神经网络应用到WF攻击技术上的适应性.DBF有效缓解了概念漂移问题和提高了小样本训练下模型的分类准确率等，相比已有研究的方法要更加轻便、运行速度更快，从提升性能的角度提高了WF攻击技术应用到实际的可行性.但在OW场景下验证模型对WF攻击防御机制的突破能力实验中，DBF出现了FPR过高的情况，这将对实际中的网络管理带来一定困难，也表明了DBF对WF攻击防御机制的突破还有很大的提升空间.该问题的出现与DBF-OW的设计是相关的，因此下一步将研究对DBF-OW作出改进，使DBF-OW的设计更加精细，以更加有效地应对WF攻击防御机制，有效降低在加持了防御机制下的FPR值，进一步提高WF攻击技术在WF攻击防御机制下的性能表现.