基于Spark平台的NetFlow流量分析系统

2014-02-28丁圣勇闵世武樊勇兵

电信科学 2014年10期

丁圣勇，闵世武，樊勇兵

（中国电信股份有限公司广东研究院广州510630）

1 引言

NetFlow是由Cisco（思科）公司在1996年开发的内置于Cisco IOS的一种网络协议，目的是收集IP流量信息和监控网络的使用情况。NetFlow被广泛应用于Cisco的路由器和交换机中，类似技术也得到Juniper、华为等公司生产的路由器的支持，是网络规划、运营和优化的重要依据。从路由器中发送出来的NetFlow记录核心属性包括源地址、目标地址、IP地址类型、源端口号、目标端口号、报文大小，本文中的NetFlow泛指能够支持类似功能的网络协议。

对于一个骨干网络，为了统计流量模式，需要在所有边缘路由器入口开启NetFlow采集，导致NetFlow系统每天需要处理数十TB甚至上百TB的原始记录，并且随着网络规模的不断扩张，系统需要具有接近线性的扩展能力。目前大型网络一般使用第三方流量分析系统，这类系统多采用私有分布式架构支持大规模处理，通过将采集器和分析器分离实现容量扩展。由于价格昂贵，这类系统在网络持续扩容时面临较大的成本压力，此外，开放性也相对较低，客户很难实现特定的分析需求。

另一方面，伴随着大数据技术的快速发展，新的分布式平台为处理大规模NetFlow数据提供了契机，尤其是Spark技术的出现，大规模数据处理在通用服务器集群上能够达到准实时的性能。本文提出了一种基于Spark平台的大规模NetFlow处理系统，通过实验表明，该系统具有很强的扩展能力，性能显著优于Hadoop MapReduce计算平台。

2 Spark技术介绍

Apache Spark是由UC Berkeley开源的类MapReduce新一代大数据分析框架，拥有Hadoop MapReduce的所有优点，与MapReduce不同的是，Spark将计算的中间结果数据持久地存储在内存中，通过减少磁盘I/O，使后续的数据运算效率更高。Spark的这种架构设计尤其适合于机器学习、交互式数据分析等应用，这些应用都需要重复地利用计算的中间数据。在Spark和Hadoop的性能基准测试对比中，运行基于内存的logistic regression，在迭代次数相同的情况下，Spark的性能超出Hadoop MapReduce 100倍以上。

Spark在设计上参考了Hadoop MapReduce，完全和Hadoop生态系统相兼容，如Spark底层的数据持久化部分就完全重用了Hadoop的文件系统，Spark也可以运行在Hadoop Yarn资源管理系统上。从大数据生态系统的发展来看，Spark的出现不是对以Hadoop为中心的大数据生态系统的取代，而是补充，更多的是深耕于MapReduce不适用的应用领域（如机器学习、流式计算、实时计算、交互式数据挖掘等）。但Spark又不局限于MapReduce简单的编程范式，Spark立足于内存计算，同时在上层支持图计算、迭代式计算、流式计算、内存SQL等多种计算范式，因此相对于MapReduce更具有通用性。

为了支持在多次迭代计算过程中重复利用内存数据集，Spark在借鉴传统分布式共享内存思想的基础上，提出了一种新的数据抽象模型RDD（resilient distributed dataset），RDD是只读、支持容错、可分区的内存分布式数据集，可以一部分或者全部缓存在集群内存中，以便在多次计算过程中重用。用户可以显式控制RDD的分区、物化、缓存策略等，同时RDD提供了一套丰富的编程接口，供用户操作。RDD是Spark分布式计算的核心，Spark的所有计算模式都必须围绕RDD进行。

3 基于Spark的NetFlow流量分析

NetFlow作为一种通用的数据报文格式，是典型的结构化数据，随着运营商网络的扩容与升级，NetFlow数据的生成速率和数据规模都出现了大规模的增长，NetFlow的数据分析是天然的大数据处理。典型的NetFlow解决方案是使流量采集系统和流量分析系统相分离，本文只讨论流量分析系统。

一种大规模的处理方法是使用MapReduce（以下简称MR）方案。在该方案中，当需要对NetFlow数据进行多维度、多次数的统计时，需要编写多个MR任务，这些任务被分别提交到集群上，以串行或者并行方式执行，任务之间无法共享内存数据，数据需要反复在内存和磁盘之间转移，导致MR分析任务有性能低、分析时延长、内存占用大等缺点。

Spark的出现有效地解决了MR执行过程中，中间数据不能缓存在内存中的问题。在基于Spark的分析系统中，NetFlow流量数据只需要从磁盘加载到内存一次，即可在该缓存数据上进行多维度、多次数的分析和查询，通过减少磁盘I/O，提高了分析性能，降低了分析时延，特别适合于NetFlow这种生成速率快、数据规模大的应用场景。

4 基于Spark的NetFlow流量分析系统架构

基于Spark的NetFlow数据分析数据流图如图1所示。NetFlow以文本记录的形式保存在HDFS上，Spark计算引擎调用textFile方法从HDFS上加载NetFlow数据到集群内存中，并将NetFlow数据转换为HadoopRDD[string]的形式。然后即可调用RDD上的编程接口如map、filter、reduce、join等，对NetFlow数据进行多维度统计分析。由于RDD的只读特性，每次对RDD的操作都会生成新的RDD，整个分析流程便形成如图1中所示的“管道”。计算过程中，可以根据需要对任意RDD通过调用persist的方法将该RDD缓存在集群内存中，以便后续基于该RDD的分析效率更高。对于不再需要的RDD，调用unpersist方法即可将该RDD从集群内存中清除，释放该RDD占用的内存空间。分析完成后，对于包含结果数据的RDD调用saveAsTextFile方法可将结果RDD中的数据持久化地存储到HDFS上。

上述NetFlow分析任务在Spark集群上运行时的图解如图2所示。整个分析任务由一个全局的用户driver程序、机器主节点上的master和若干集群从节点上的worker共同组成。提交到集群的driver程序和master进行通信，master内的DAGScheduler根据分析任务的具体情况对RDD上的计算过程划分阶段，如图1中分成了阶段1和阶段2。划分完阶段后，master内的taskScheduler将这些阶段包装成task的形式调度到worker上运行，worker在运行任务时需要和driver保持通信，以进行一些数据汇总的操作。在连续的多个分析任务运行过程中，RDD始终保持在worker的内存中，因此分析任务的执行速度很快、效率更高。

5 实验验证

本实验以基于Hadoop的应用构成统计为例，对比Spark和MapReduce在实际运行过程中的性能。应用构成统计根据应用的目标端口号对流量数据进行分类，统计不同类型应用流量的大小和占比情况。分别使用MR的编程接口和Spark的编程接口编写统计分析作业，并将作业代码打包上传到集群上执行。集群配置情况见表1。在集群上同时搭建Hadoop 2.2和Spark 1.0分布式环境，选择其中一台服务器作为Hadoop和Spark的主节点，其他7台服务器作为从节点。

表1 集群配置

图1 NetFlow分析流图

图2 NetFlow分析运行图

通过调整输入数据量的规模大小，测试MR和Spark作业的完成时间，性能对比结果如图3所示。从图3中可以看到，在输入数据规模相同的情况下，Spark作业的完成时间比MR更少，而且随着数据量的增大，Spark的性能超出了Hadoop 2倍以上。通过分析Spark和MR运行原理，可知Spark将HDFS上的数据抽象成RDD，并在计算过程中缓存在计算节点的内存中，加快了计算速度。同时Spark由于RDD的引入，每个节点上的计算任务以多线程的方式执行，相对于MapReduce为每个任务启动单独的Java虚拟机，效率更高。因此可知，在同等条件下Spark的计算性能要明显优于MapReduce。

图3 Spark和MapReduce性能对比

6 结束语

本文在研究Spark大数据平台基本原理的基础上，结合NetFlow数据规模大、生成速度快等特征，提出了使用Spark大数据平台对NetFlow数据进行统计分析的基本方法，并在具体的实验中对比了Spark和MapReduce在NetFlow数据处理上的性能差异。验证了Spark在NetFlow数据分析方面相对MapReduce，处理速度更快，效率更高。

1 White T.Hadoop:the Definitive Guide.O’Reilly Media Inc,2012

2 Zaharia M,Chowdhury M,Das T,et al.Resilient distributed datasets:a fault-tolerant abstraction for in-memory cluster computing.Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation,San Jose,CA,USA,2012

3 Rossi D,Silvio V.Fine-grained traffic classification with NetFlow data.Proceedings of the 6th International Wireless Communications and Mobile Computing Conference,Shenzhen,China,2010