APP下载

DeepFlow混合云全网监控流量采集与分发方案

2020-06-20北京云杉世纪网络有限公司来源

网络安全和信息化 2020年6期
关键词:网络流量采集器数据包

■ 北京云杉世纪网络有限公司 来源

在混合云环境,企业的业务运行在逻辑网络中,同样面临网络性能分析、网络问题定位及排障、网络安全管理、合规审计、网络扩展等问题。在解决以上问题时,有能力获取完整的网络流量,是一个前提。

为什么混合云需要全网流量

网络的保障涉及到配置、日志及现网流量或流数据等元素。在混合云环境中获取并管理好现网监控流量并不是一件轻松的事情。在云环境下,选择网络流量采集方案需要考虑流量获取的方式、环境中的流量模型、规模及可管理性、对现网环境的影响、平台开放性。

1.流量获取的方式

在云环境中,影响获取虚拟交换机流量的因素首先是对现有生产环境的侵入性,其次是性能。目前获取虚拟交换机流量的技术方案有以下几种,企业可根据自身IT环境的实际情况进行选择:

(1)在虚拟机或工作负载(Workload)中安装采集探针,从操作系统层抓取流量信息。此方案探针部署规模大,且需要获取虚拟机根(Root)权限。

(2)通过在虚拟交换机(OVS:Open vSwitch、VDS:vSphere Distributed Switch、VSS:Virtual Stand ard Switch)上配置镜像或广播策略,将所需流量引出。该方案需要对生产平面的虚拟交换机进行配置。

(3)在宿主机Hyperviso r(如Openstack Hyperviso r)上安装采集探针,以用户态进程形式独立获取虚拟交换机上的流量。该方案无需对生产平面的虚拟交换机进行配置。

2.环境中的流量模型

规划网络流量采集方案时,现网中的流量模型、主要业务的流量特征是方案选择的重要依据,基础特征包括IP分配、流量、包长、协议、端口、TCP、HTTP信息等,同时也需要考虑组合特征,尤其是可能出现的渗透、异常等因素。

3.规模及可管理性

混合云环境中,网络规模宏大且资源池类型繁多,虚拟交换机采集点数量相比传统监控规模有几个数量级的增长。此外,虚拟化及容器资源池动态性很强,流量采集和分发策略也要随着资源变化进行实时跟随或释放。

在构建整体采集方案时,企业应考虑IT资源的多样性,采集平台应分阶段进行建设,尤其要注意确保方案具备扩展和统一管理能力。

4.对现网环境的影响

单一的生产环境在企业中并不多见。在进行流量采集部署时,需满足平滑部署且保证业务不间断,同时确保对计算资源和网络带宽的消耗限制。此外,流量采集系统的部署要兼容传统监控方案或支持其无缝切换,并可对接企业的分析工具。

5.平台开放性

采集平台本身应具备开放性,避免采集端与消费端绑定,导致在现网中不断部署垂直竖井式的流量采集系统,对于流量数据应具备一次采集,可按需多处进行分析消费的能力。此外,还考虑具备数据开放性,针对原始流量数据进行处理,得到流日志、统计、特征等数据,有能力提供高性能存储写入、检索查询、API输出等数据服务。

全网流量采集与分发方案

目前多数大型企业都存在多数据中心、混合云架构的IT资源,从网络的角度看如下图所示。自有的数据中心划分为不同业务区并通过专有网络互联,且可能存在多个分支机构。为保障资源弹性,企业不同程度地使用公有云资源和选择多个云服务商。企业从运维排障、运营管理、业务监控等方面都需要对网络有全面清晰的画像,如图1所示。

本方案的目标是为企业混合云IT建立统一高效的网络流量采集和处理平台。针对异构资源池实现统一的流量采集抽象层,可对流量实现过滤、去重、压缩、截短等处理,支持IPv4、IPv6协议,能为网络运营中心(NOC:Network Operation Center)、安全运营中心(SOC:Security Operation Center)、大数据分析平台等不同的流量消费端提供数据供给服务。

在混合云环境中,方案的挑战在于资源池内的网络边界——各类虚机交换机数量多、波动大、技术新。实现全网流量采集及处理,可以从业务或者网络区域以及资源池来规划,本文基于DeepFlow®设计,分别从数据中心侧、公有云侧及整体控制管理侧详细阐述。

1.数据中心侧

按网络功能将数据中心按区域(Region)来定义,区域内可包含多个可用区(AZ:Available Zone),区域内的网络流量包含可用区内的物理网络和资源池内的虚拟网络数据流量。

(1)物理网络流量采集

在物理网络涉及的范围,除可用区内部网络外,还包括各类链路;流量采集可通过传统监控方式如分光、镜像等获取。在物理网络中,采集点主要有互联网业务区中的ISP线路、外联区域的专线线路、各区出口线路以及防火墙、负载均衡设备前后线路;通常由设备厂商的监控方案实现,DeepFlow®采集器通过对接设备厂商方案的标准数据输出实现物理网络流量的采集。

图1 多数据中心的混合云架构拓扑结构

(2)资源池内网络流量采集

各类型号的DeepFlow®采集器为全网流量采集方案提供数据包捕获能力;按部署方式分为VMware ESXi采集器、KVM采集器、KVM-DPDK采集器、HyperV采集器、容器OnVM采集器、容器OnHost采集器。对于裸金属设备资源池,可将网络设备的端口镜像至专属采集服务器完成对数据包的处理;亦可将采集器安装在每一台需要采集的裸金属设备系统上。

(3)DPDK环境下的支持

在采用了DPDK (Data Plane Development Kit)的运营商CT(Communications Technology)网和企业网环境中,可采用DeepFlow®KVM-DPDK采集器进行资源池内流量采集。

(4)多区域支持

多数考虑统一监控流量采集平台的企业,IT资源都存在于多个数据中心,而且存在众多分支机构。各地数据中心区域、各类资源池,网络流量采集需求都由相应型号的采集器完成。

2.公有云侧

公有云为租户提供VPC网络,Workload采集器以用户态的软件形式部署在虚拟机、容器、裸金属设备等Workload上,支持Linux、Windows等主流操作系统,实现VPC内各类资源的网络流量采集。由于部署安装在Workload操作系统上,采集器数量多,可以通过镜像进行预装。

3.控制管理侧

由于采集器数量大、策略多,波动强,需从控制面的设计入手,解决大规模及可管理性的问题。在多点的部署环境中,首先指定主区域(Region),主控制器存在于主区域中,当启动主控制器高可用功能,主区域内应部署多台控制器,通过心跳保证控制器间的状态同步,及时启动主、备控制器选举。选举产生主控制器后,为整体流量管理平台提供控制入口。除主区域外的其他区域控制器为从控制器,不参与主控制器选举。

在云环境、容器环境中,控制器通过对接虚拟化资源池、配置管理数据库(CMDB:Configuration Management Data Base)、公有云开放API等,可实现多粒度下发采集、分发策略,更灵活、更贴近业务应用。

各类型的采集器可能处于自检、运行、停止、异常、保护等几种状中,其中保护状态,是确保采集器工作时,平台能对其使用CPU、内存资源使用上限的限定。当采集器压力过大时,采集器状态将由“运行”切换至“保护”状态,以确保不对生产环境产生影响,直至重新调整资源配置或处理压力下降,切回至“运行”状态。

单一DeepFlow®控制器可管理2000个采集器,通常能够满足一个可用区;控制器最大支持50台的规模,方案整体可满足10万台采集器统一管理,足以应对大型企业私有IT、公有云、容器等网络流量采集需求。

基于分布式的监控流量处理

不同于集中式后处理的方案,DeepFlow®采集器具备专利算法的前置计算能力可在采集点对流量进行直接处理。众多采集器和控制器共同构建成一个与云网规模一致的分布式流量处理系统,大幅减少了分发数据对监控网络和后端分析工具的压力。

1.流量预处理

流量采集过程中的过滤策略支持更丰富的维度,除了五元组还包括业务、主机、服务、POD等条件。此外DeepFlow® 采集器还具备去重、截短、流日志、压缩、标记等能力,以最小资源消耗实现流量全局的精准采集。

2.包分发

包分发功能通过三层隧道实现,控制器统一下发分发策略后由采集器端直接进行数据包封装和发送,支持单一数据包多目的端发送。同时针对分发目的端是否具备解封装能力可灵活定制隧道卸载方案。

在混合云数据包分发方案中,需要考虑分发的网络平面,如果分发流量较大,建议预留独立的网络监控平面;如果仅针对少量核心业务,可复用已有的物理网络。在混合云环境中,资源池数量多、种类不同,应以分布式部署避免单点瓶颈,并适配逻辑网络跨多资源池场景。

3.数据服务

在每个区域、可用区都可配置高性能时序数据库,通常在分支机构环境下,不需要部署时序数据库,其数据通过压缩后写入纳管区域内的数据库。对于非原始数据包的数据消费需求,平台提供开放的数据订阅服务,用户可通过API、消息队列调用。数据订阅可通过ZeroMQ等消息队列提供,由数据需求平台向数据库发起消息队列请求后,就可执行订阅服务。

部署

整体方案主要涉及采集器、控制器、高性能时序数据库三部分,在完成规划整体方案后,可分区域、分资源池按阶段投入建设,最终为企业混合云环境构建统一的流量监控管理平台。

1.第一步:解决虚拟网络环境流量“黑盒”不可见的问题,满足对虚拟网络流量合规审计的要求;采集流量对接已存在的监控分析工具,闭合私有云、容器环境中的运维、业务分析工具链。

2.第二步:纳入更多资源池,与新建扩容的资源池同步部署,接入物理网络中交换机sFlow数据,接入专线等分光流量数据,实现对整体数据中心的监控流量采集能力;对接网络中心、安全中心、智能运维等平台,提供数据包、流数据服务,满足各平台对现网流量数据的展示、分析需求。

3.第三步:对存在公有云上所运行的Workload或实例流量进行采集,完成对混合云IT环境整体监控流量管理,具备整体网络画像、流量分发、支持对多平台流量数据分发服务能力。

对于已经运行的混合云环境,可以在不影响生产环境运行的情况下部署实施,网络规划上将DeepFlow® 平台所涉及的管理、监控分发平面复用在已有的网络平面中,通常可以复用已经存在的网络管理平面。对于整体规划的方案,建议对整体混合云规划独立的网络监控平面,对于混合云的监管流量统一、独立地进行管理。

方案优势

流量采集先进:全网采集方案主要围绕DeepFlow®采集器技术实现,采集器以进程形态部署,最大程度上避免对现网的影响,同时在操作系统上继承进程级保护优势,整体更稳定。

分布式处理系统:采集到数据包后避免集中处理,采用分布式架构,采集点分布处理控制器集中管理。

场景全规模大:方案基于云原生设计,涵盖裸金属、虚拟机、容器、公有云资源池等多种异构系统场景,整体系统可满足10万台节点的需求。

可管理性:平台主控制器具备对所有采集器的监控和管理能力。通过对接云平台使得操作贴近资源池特性,针对云资源移、回收、重新部署等场景做到了实时策略跟随,保障采集能力在动态环境下的持续执行。

数据包、流数据服务:数据服务是将流量采集与后端平台对接的重要环节,完整流量数据包多目的地分发,高性能网络时序数据库通过API、ZeroMQ、Kafka等消息队列提供流数据服务。同时也将采集与后端各类分析工具解耦,避免流量采集器局限在仅为单一工具服务的竖井中。

总结

DeepFlow®混合云全网流监控量采集与分发解决方案为企业提供完整的、可持续的平台级监控流量管理,为企业规划整体运维。本方案已应用于金融、运营商等客户IT环境中。

猜你喜欢

网络流量采集器数据包
基于多元高斯分布的网络流量异常识别方法
COVID-19大便标本采集器的设计及应用
基于神经网络的P2P流量识别方法
SmartSniff
AVB网络流量整形帧模型端到端延迟计算
基于ZigBee的大型公共建筑能耗采集器设计
基于LabVIEW的多数据采集器自动监控软件设计与开发
基于Libpcap的网络数据包捕获器的设计与实现
网络流量监控对网络安全治理的重要性
多接口温湿度数据采集器的设计