APP下载

信息采集网络支撑系统的设计与实现

2016-06-22潘竹虹许卓斌

关键词:信息采集网络安全

潘竹虹,许卓斌

(厦门大学信息与网络中心,福建厦门361005)

信息采集网络支撑系统的设计与实现

潘竹虹*,许卓斌

(厦门大学信息与网络中心,福建厦门361005)

摘要:基于网络数据帧转发原理,提出了一种端口镜像设计方法,并实际部署了一个独立于生产网络的、可精确筛选的、多输出的网络流量镜像系统,为厦门大学多套网络信息采集分析系统提供网络支撑.

关键词:网络安全;信息采集;端口镜像

随着信息技术的不断发展,校园网内网络信息采集的需求大量增加.流量监控、入侵检测、上网行为日志审计、舆情监控等信息安全管理,图书馆数据库热度分析、数字资源偏好分析等用户行为分析系统,以及内容分发网络(content delivery network, CDN)、Cache等网络加速系统等,都需要对相应的网络数据进行网络信息采集.

大部分网络信息采集系统仅关心网络数据流中的部分信息,但当前的常见网络数据输出技术往往将包含相关信息的全部数据报文传输至信息采集系统,它存在着以下两方面的矛盾:1) 信息采集系统能够采集到校园网全部网络数据报文,对校园网管理而言存在严重的数据隐私泄露等合法性及安全性问题,违背了网络安全管理规范;2) 校园网主干网络的流量动辄达到万兆,基于通用处理器以软件方法实现包头解析的信息采集系统通常无法处理该级别的流量,信息采集所产生的信息数据量巨大,其中仅基础的网页访问日志即可达传统本地化资源分析架构难以承载的TB数量级,成为基于传统架构的信息采集与分析系统的部署难题.

另一方面,当前国内外园区网高端交换机受限于设备软硬件能力,往往仅支持少量用于支撑信息采集系统的网络数据输出链路.即使在网络设备的支持数量范围内,过多的数据输出也存在着影响生产网络健壮性和稳定性的可能,如厦门大学校园核心网络当前部署的多种网络数据输出技术最大可支持8路链路,目前已使用7路,无法满足未来的爆发式的信息采集需求.

为解决以上矛盾,本文致力于研究设计一种独立于生产网络、可精确控制、多输出的数据输出系统作为信息采集的网络支撑,该系统从校园网核心网络设备获取一份网络数据,再由该系统将网络数据进行过滤或分流后多路输出至相应安全级别的信息采集系统,以实现对输出数据的安全控制以及对多套信息采集系统的支持.

1技术背景

2002年7月18日IEEE通过了万兆以太网标准802.3ae后,万兆以太网凭借其高达10 Gbit/s的带宽以及种种技术优势,逐渐在局域网乃至城域网中普及应用.高校校园网是万兆以太网的重要应用场合,利用10万兆的高速链路构建校园网的骨干链路以及各个分校区和本部之间的连接,实现端到端的以太网访问,提高网络传输的效率,可以有效地保证远程多媒体教学、数字图书馆等业务的开展.同时也给网络测量及信息采集分析系统带来了极大压力.网络数据采集可分为基于专用硬件的网络数据采集和基于通用处理器平台的网络数据采集,其中基于专用硬件的采集方法在高速链路的环境下有巨大的性能优势,但是昂贵的成本让大多数系统仍选用基于通用处理器以软件方法实现包头解析的方法,受限于操作系统和硬件性能,目前处理速度仅能达到1 Gbit/s[1],高速链路特别是万兆流量链路已成为信息采集分析系统部署的瓶颈.

在数据捕获采集前进行数据过滤分流是解决该矛盾的有效手段.该工作由网络设备进行网络数据输出时完成.当前关于数据输出有多种技术方案,但支持数据过滤的技术非常少且没有行业标准,相关研究及成功部署成果也比较少.

在交换网络中,有2种有效的数据输出方法:

1) 分路器通过在通信链路中串接插入分路器实现.对于光纤链路来说分路器即分光器,目前分光器的核心技术被国外公司垄断,为光通信工程的研究方向之一.分光器具有各种应用场景,校园网中的分光器主要为各种网络侦听系统服务,一般为无源设备,按比例分光,分路损耗与插入损耗决定其无法对同一链路多次分光,因此输出接口有限并且不能远程管理输出链路.分路器为物理层设备,对网络传输的数据保持有天然优势,但因固定串接部署,调整时需中断链路,所以调整灵活度低,更无法进行流量过滤.

2) 端口镜像技术,也被称为交换端口分析器(switched port analyzer,SPAN),是网络设备提供的具有管理功能的一种技术.它将指定端口(源端口)或虚拟局域网(virtual local area network,VLAN)(源VLAN)的报文复制一份到其他端口(目的端口),由网络管理员利用数据监测设备来分析复制到目的端口的报文,进行网络监控和故障排除[2].

发展至目前,端口镜像技术可细分为3种:本地镜像、远程镜像、流镜像.

1) 本地镜像(local SPAN):镜像源端口和目的端口在同一台设备上,是被广泛支持和使用的镜像方式.

2) 远程镜像(remote SPAN):将本设备源端口/源VLAN 上的报文通过2层或者3层网络复制到另一台设备的目的端口.

3) 流镜像:具备镜像过滤能力的镜像技术在大部分场合被称为流镜像技术,它是一种基于访问控制列表(access control list,ACL)的镜像.其优势在于用户通过流分类技术可以灵活地配置匹配条件,从而对报文进行精细区分,并将区分后的报文复制到目的地进行分析,从而实现对镜像报文的精确控制.

端口镜像技术不会改变镜像报文的任何信息,也不会影响原有报文的正常转发,但需要消耗交换机的硬件性能,可能会对网络设备的工作造成影响,即使是当前国内外最高端的网络核心交换机,其常见的镜像输出能力也局限于4组甚至少于2组镜像组.镜像技术目前没有规范标准,在不同设备上的实现机制存在较大差异.流镜像技术仅在部分最新设备的最新软硬件版本中被支持,功能仍有较多局限,稳定性也需验证[3].对比可见,数据输出方法有多种,但数据过滤输出的主要手段为流镜像技术.发展至目前,作为唯一具有过滤功能的镜像技术,流镜像的多输出支持能力仍然较弱,一般仅支持一个输出,无法满足当前爆发的信息采集需求.

当前常见的网络信息采集系统数据获取方案为校园网通过本地端口镜像技术将相关网络链路的数据信息输出至信息采集系统,由采集系统本身的数据采集模块捕获全部数据后再进行数据过滤[4],数字资源利用率分析、数字资源网络加速、网络运行记录等应用系统一般都采用端口镜像作为数据来源,如上文所说,端口镜像方案存在着违背信息安全管理、流量超过系统负荷、网络支撑能力不足、影响生产网络等多处矛盾;少量信息采集系统利用分路器旁路接入[5],除了以上矛盾外,分路器方案还存在部署不灵活的缺陷;据了解,目前有少数高校已部署核心网络设备的流镜像数据输出来支撑信息采集系统,流镜像方案可以解决信息安全和万兆流量的矛盾,但其对网络设备资源消耗高于其他镜像技术,网络支撑能力不足、影响生产网络等矛盾更加严重.

本文提出的复合镜像技术可支持经过精确过滤的多路数据输出,基于复合镜像技术设计的网络支撑系统适用于不同的网络环境,可以解决目前大多数网络设备上镜像过滤与多输出难以并存的矛盾,并避免对生产网络造成影响.

2设计思路

2.1复合镜像技术

端口镜像技术分为多种,图1为各种镜像技术的镜像数据流路径示意图.

图1 镜像数据流路径示意图Fig.1Road map of mirrored flow

本地镜像简单地将网络设备的源数据在硬件转发时进行额外复制,发往镜像目的端口,其镜像数据流路径示意图如图1(a)所示.部分网络设备的多输出镜像技术的实现原理为利用远程镜像技术.将镜像报文发送至远程镜像反射口,通过镜像反射口将报文在远程镜像VLAN内通过广播方式复制发送,所有配置为远程镜像VLAN的端口都会发送镜像报文,从而支持多端口输出,数据流路径如图1(b)所示.流镜像仅将匹配流分类条件(部分设备为匹配ACL)的报文复制到指定目的地,用于报文的分析和监控,如图1(c)所示.

图2 网络支撑系统设计模型Fig.2Network supporting system design model

由上述示意图对比可见,远程镜像将复制的报文发往反射口后在VLAN内广播来实现多输出,流镜像将符合条件的流发往目的端口.我们提出一种技术设想:根据流镜像和多输出远程镜像的技术原理特征,如果能在交换机转发平台将流镜像的数据流直接发往远程镜像技术中的镜像反射口,再由反射口将报文广播发往所有配置为远程VLAN的端口.如图1(d)所示,即将流镜像与远程镜像功能深度结合形成一种复合镜像技术,则该复合镜像技术可以在硬件层面整合实现可精确控制的多路输出,解决目前大多数网络设备上镜像过滤与多输出难以并存的矛盾,实现可精确控制的、多输出的高带宽数据输出系统.

2.2系统方案设计

现有数据输出技术的主要矛盾为违背信息安全管理,流量超过系统负荷,网络支撑能力不足,影响生产网络.为解决这些矛盾,信息采集网络支撑系统的对应设计需求为流量可控、支持多输出、独立于生产网络.图2为网络支撑系统设计模型.

该系统基于支持流镜像的3层交换机设计,具有第1次传输和第2次传输2个数据传输阶段:1) 将网络流量从生产网络传输至独立的网络设备,以保证独立于生产网络,不对生产网络性能造成影响,2) 由网络设备对数据包进行二次过滤传输,以达到流量可控及多输出需求.

2.2.1整体技术选择

数据帧的转发原理决定了数据输出系统所能选用的输出方式以及整体设计方向.

表1 数据帧传输改变字段信息

表2 网络监听系统所需字段信息

以太网数据帧有如下多种格式:

1) Ethernet V2帧[6],也被称为DIX帧,是最常见的帧类型;

2) Novell Ethernet 非标准IEEE 802.3帧变种;

3) IEEE 802.3 逻辑链路控制 (LLC) 帧[7];

4) IEEE SNAP帧.

物理网络上可能有多种数据帧在同时传输,大多数TCP/IP应用都是用Ethernet V2帧格式,而交换机之间的桥协议数据单元(BPDU)数据包则是IEEE802.3/LLC的帧,VLAN Trunk协议如802.1Q和Cisco的思科发现协议(CDP)等则是采用IEEE802.3 SNAP的帧.

网络管理员进行故障排查的网络嗅探需要监听到所有数据帧,但针对图书馆信息资源传输的信息采集系统仅需求TCP/IP报文,因此我们以Ethernet V2帧格式来说明数据帧传输过程中改变的字段(表1)及网络监听系统所需字段信息(表2)的对比关系.

对比可见,基于物理层的网络串接、分路器以及基于数据链路层的端口镜像等输出技术不会改变数据报文,是支持网络信息采集的最佳输出方式.2层交换及3层路因为传输会改变数据帧中部分内容,无法支撑如故障排查等需要精确侦听网络信息的需求,但也能满足常见的网络信息采集分析系统的信息需求,也是设计数据输出系统时可用的输出方式之一.

2.2.2第1次传输技术选择

基于物理层的分路器传输以及基于数据链路层的端口镜像等输出技术都可用于从生产网络输出.

分路系统的实施对象为通信链路,校园网边界网络通常具有多链路负载均衡,分路系统布署成本高,无法灵活调整,局限性较大的特点.

端口镜像技术不会改变镜像报文的任何信息,也不会影响原有报文的正常转发.从生产网络镜像一份数据至独立的网络设备之后,该设备收到的报文为正常报文,未被封装或者改变数据帧内容,是较为理想的输出方式.

鉴于分路传输在实际部署环境中的局限,本文所设计的系统第1次数据传输选用端口镜像方式.

2.2.3第2次传输技术选择

对镜像报文的第2次传输的需求为流量可控以及多输出.上文已提到分路器等物理层传输或者2层广播方式传输的流量数据不可控制,因此本文主要采用3层路由以及再次镜像方式.

1) 3层路由方式

根据TCP/IP 参考模型体系,数据的收发是遵循以下过程:当数据由应用层自上而下传递时,在网络层形成IP 数据报,再向下到达数据链路层,由数据链路层将TCP 数据报文分割为数据帧,并增加以太网包头,再向下一层发送.链路层的数据帧传输时,是依靠48 位介质访问控制地址(media access control,MAC)而非IP 地址来确认的,以太网的网卡设备并不关心IP 数据报中的目的IP 地址,它所需要的仅仅是MAC地址.如果接收数据报文设备的MAC地址与报文目的MAC一致,则设备认为该数据报文发往自身,否则进行丢弃.因此,识别镜像流量需要将设备MAC改为镜像报文的目的MAC,再通过配置路由策略或者静态路由将报文分别输出至不同端口,进行第2次数据传输,并可精确控制数据报文的筛选输出.根据图1,该方式会改变数据帧的源MAC及目的MAC,仅适用于各种监听分析系统,不适用于管理员故障排查等需要严格保证报文内容的需求.

MAC地址被设计时,被认为每张网卡都会将拥有全球唯一的物理标识.网络上2层可达的网络设备都应有独一无二的MAC地址,相同的MAC地址将对网络造成各种影响,特别是作为网络重要组成单元的核心网络设备而言,MAC互相冲突可能会带来极其严重的后果,这种后果远超过终端用户的ARP欺骗.因此,本方案实际部署中,必须确认生产网络设备镜像目的端口不再接收数据.

2) 再次镜像方式

镜像技术作为网络设备管理功能,其报文镜像复制会在网络设备识别转发该报文前进行,其复制技术可以类比成集限器[4],即使网络设备因为VLAN tag之类的传输标志而不会转发某些镜像报文,也会先将报文先发往镜像目的端口,可以保证全部报文的镜像输出,因此,使基于输出后的数据报文通过独立的网络设备进行再次镜像输出成为可能.

再次镜像可以采用多种镜像方法来实现不同的数据输出,本文所设计提出的复合镜像技术可以很好地完成第2次传输过程中流量过滤及多输出的需求.

2.3系统模型设计

如图2所示,根据第2次传输阶段所选择的技术,网络支撑系统可分为3个功能模块:路由分流模块、全流量镜像模块、复合镜像模块.不同的功能模块可以独立工作,适应不同的网络环境.

1) 全流量镜像模块

通过远程镜像将全部流量输出至多个端口.该功能模块部署技术难度小,仅需求可支持远程镜像技术的万兆交换机,缺陷为无法满足流量过滤需求,主要为流量分析监控、入侵检测防御、网络管理员进行故障排查的网络嗅探等需要全部信息的信息采集系统提供支持.

2) 路由分流模块

修改交换机MAC为生产网络核心的MAC地址,通过路由策略或者路由表(视所修改的MAC为本地镜像流量的源端口MAC或者源端口所接目的端口的MAC而定),将需严格保密的敏感数据分流至某一端口进行保密过滤;将部分被关心的数据,例如对图书资源的查询及关注行为转发至相应的信息采集系统;其余与图书馆相关流量通过发往某一端口,并对该端口进行远程镜像,分发至其他端口,以实现对数据库访问热度分析、图书馆网络加速系统等多个信息采集系统的扩展支持.交换机作为网络设备本身并不提供修改MAC地址的功能,但有部分产品可以通过技术支持获得修改方案.

该模块对设备硬件要求较低,除去镜像部分也可在普通终端设备如多网卡PC上实现,部署成本低,实现方式更为灵活,但无法支撑较大的网络流量.

3) 复合镜像模块

交换机设备作为一个封闭的功能硬件,并不提供底层硬件转发的修改接口,为在实际环境中验证复合镜像技术的可行性,该模块按照上文提出的复合镜像技术的思路设计,通过流镜像的流定义ACL对网络流量进行筛选过滤,仅将符合条件的流量送往某个端口,并对该端口进行再次远程镜像,实现可控的多路输出.该模块与复合镜像技术的差距在于用额外的物理接口转发了复合镜像技术设计中直接发往远程镜像反射口的流量.实验证明直接对流镜像目的口进行远程镜像,远程端口目的端口并没有预期的输出.分析其原因为镜像目的口被标记为非转发口,相应的数据报文被认为非转发数据,从而不再触发镜像功能.

为再次触发镜像功能,将流镜像目的端口与本机其他端口通过外部物理线路互联,将过滤后的流量重新送回网络输出系统,并对该回接端口进行远程镜像输出至多个端口,实现多输出.

复合镜像模块过滤条件灵活,可替代路由分流模块的全部功能,为各种信息采集系统提供输出支持.

3实验过程及结果

4台3层交换机及3台终端被设计用于实验实现数据输出系统,拓扑如图3所示.

Switch A/B/C用于模拟正常路由交换的生产网络,Switch D为一款中端的数据中心3层万兆交换机.网络监测设备1/2/3分别使用wireshark抓取分析数据报文.Switch B将G0/1端口的数据通过本地镜像发往Switch D的G0/20端口.Switch D的MAC改为与Switch B一致.最终实验为同时配置全流量镜像模块、复合镜像模块及路由分流模块.

复合镜像模块分流控制信息配置为:

acl number 3 000

rule 0 permit ip destination 10.0.5.0 0.0.0.255

rule 5 permit ip destination 10.0.8.0 0.0.0.255

设备上路由模块分流控制信息配置为:

ip route-static 10.0.5.0 255.255.255.0 10.0.4.2

ip route-static 10.0.7.0 255.255.255.0 10.0.4.2

ip route-static 10.0.8.0 255.255.255.0 10.0.4.2

从Switch A(10.0.1.2)顺序对10.0.5.2、10.0.6.2、10.0.7.2、10.0.8.2发送5个ping包进行数据传输和数据过滤功能验证,按照预期,监控端收到报文的结果符合如下规则:

1) 负责捕获复合镜像模块输出报文的网络监控1应捕获到发往10.0.5.2以及10.0.8.2的报文各5个,发往10.0.6.2以及10.0.7.2的报文被流规则过滤.

2) 负责捕获路由镜像模块输出报文的网络监控2应捕获到发往10.0.7.2的报文5个,发往10.0.5.2、10.0.8.2的报文各10个.发往10.0.6.2的报文因没有路由被丢弃,发往10.0.5.2、10.0.8.2的报文会出现重复翻倍,其原因为同时工作的复合镜像模块中流镜像目的口跳接回本机端口时,数据包再次被系统收取并路由转发.

3) 负责捕获全镜像模块输出报文的网络监控3应捕获到所有报文.

实验结果如表3所示,由此成功验证3种功能模块均可以正常工作并且只输出了符合预期的报文.

表3 实验结果

注:10.0.5.2、10.0.6.2、10.0.7.2、10.0.8.2为目的IP.

在复合镜像模块实验成功的同时也验证了本文所提出的复合镜像技术的可行性.

4实际部署示例

厦门大学校园网已成功部署独立于生产网络的可控的多输出的信息采集网络支撑系统.

图4 网络支撑系统部署拓扑Fig.4Deployment topology of network supporting system

系统部署拓扑图如图4所示.系统源流量为校园网4条万兆IPv4出口链路及1条千兆IPv6出口链路的本地镜像流量,源高峰流量为5.5 Gbit/s.部署复合镜像模块及全流量镜像模块,已有1路全流量镜像为流量监控分析系统提供数据来源,1路复合镜像输出为图书馆数字资源利用分析系统提供数据来源,并可支持未来较多的系统接入需求.

表4 流过滤规则

表5 端口速率采样结果

复合镜像输出的流过滤规则如表4,各端口通信包速率采样结果如表5所示.

由表4可见,全镜像流量可传输并输出全部源数据,复合镜像仅传输并输出了部分相关流量.其中校园网镜像输出与支撑系统接收数据的微量差异,由不同品牌设备速率显示时间区间差异造成.

该系统已在线稳定运行7个月.

5结论

本文提出了复合镜像技术并成功验证了其可行性,该技术可以解决当前网络环境中镜像技术多输出与流量过滤难以并存的问题;成功部署了基于校园网的信息采集网络支撑系统,可在较长时间内满足校园网日益增长的信息感知需求,并有效解决部分核心网络设备无法对镜像流量进行过滤的安全隐患,为信息采集系统提供了良好的网络基础支撑.

参考文献:

[1]肖寅东,王厚军,田书林.高速网络入侵检测系统中包头解析方法[J].仪器仪表学报,2012(6):1414-1419.

[2]CISCO. Configuring traffic mirroring[EB/OL].[2015-03-16].http:∥www.cisco.com/c/en/us/td/docs/routers/asr9000/software/asr9k_r5-1/interfaces/configuration/guide/hc51xasr9kbook/hc51span.html.

[3]H3C.网络管理和监控配置[EB/OL].[2015-03-16].http:∥www.h3c.com.cn/Service/Document_Center/Switches/Catalog/S5800/S5800/Configure/Operation_Manual/H3C_S5820X[S5800]_CG-Release_1110-6W103/10/.

[4]唐晓兰,刘中临,刘嘉勇.一种基于知识库的行为特征检测模型[J].信息安全与通信保密,2012(2):51-53,56.

[5]任富新.高速网络流量监测系统的设计与实现[J].微型机与应用,2012(1):58-60,63.

[6]CHARLES H.IETF RFC 894:a standard for the transmission of IP datagrams over ethernet networks[S/OL].[2013-03-02].http:∥datatracker.ietf.org/doc/rfc894/.

[7]Postel J.IETF RFC 1042:a standard for the transmission of IP datagrams over IEEE 802 networks[S/OL].[2013-03-02].http:∥datatracker.ietf.org/doc/rfc1042/.

Design and Implementation of Network Supporting System for Information Acquisition

PAN Zhuhong*,XU Zhuobin

(Information and Network Center,Xiamen University,Xiamen 361005,China)

Abstract:Based on principles of network data frame forwarding,a design technique of port mirroring is proposed.An accurate filtering multiple-output network traffic mirrored system,which is independent of production network,is deployed to provide the network support for the Xiamen University network information acquisition and analysis system.

Key words:network security;information acquisition;port mirroring

doi:10.6043/j.issn.0438-0479.2016.03.021

收稿日期:2015-07-03录用日期:2015-08-23

基金项目:2015年福建省中青年教师教育科研项目(高校教育信息化专项)(JA15002)

*通信作者:zhpan@xmu.edu.cn

中图分类号:TP 393

文献标志码:A

文章编号:0438-0479(2016)03-0426-08

引文格式:潘竹虹,许卓斌.信息采集网络支撑系统的设计与实现.厦门大学学报(自然科学版),2016,55(3):426-433.

Citation:PAN Z H,XU Z B. Design and implementation of network supporting system for information acquisition. Journal of Xiamen University(Natural Science),2016,55(3):426-433.(in Chinese)

猜你喜欢

信息采集网络安全
网络安全
网络安全人才培养应“实战化”
上网时如何注意网络安全?
基于Internet的网络化交通信息采集系统
如何提高卷烟零售市场信息采集的有效性
计算机网络安全
网络安全监测数据分析——2015年11月
我国拟制定网络安全法