网络流量元数据下的安全大数据探索
2017-10-13尚智婕李雨泰董希杰
◆尚智婕 李雨泰 董希杰
网络流量元数据下的安全大数据探索
◆尚智婕 李雨泰 董希杰
(国家电网公司信息通信分公司 北京 100761)
大数据是当前社会发展的高新技术,它在网络安全领域的应用价值也在不断凸显。本文将从网络信息安全保护的角度出发,科学分析网络流量元数据背景下网络流量分流平台的构建过程与元数据的处理过程。同时重点探讨安全大数据分析平台中大数据挖掘与关联的技术应用。
大数据;元数据;网络流量分流平台;大数据;安全;挖掘技术
0 引言
2013年,美国“棱镜事件”轰动世界,美国政府的多个秘密情报监视项目全面曝光了英美各国通过大量网络通信元数据实施用户跟踪与情报搜集的隐藏内幕。虽然美国政府声称这一行为主要是为了国家网络安全及反恐现实的需要,但它也让全世界公众深刻了解到在大数据技术背景下网络流量元数据的密保脆弱性。从此以后,各个国家都开始进一步强化自身的国家信息安全防护体系。
1 网络流量元数据的处理应用及分流平台构建
1.1网络流量分流平台的建设过程
大数据是当前社会发展的前卫技术,但是令人困惑的却是大数据的主要来源,过小的大数据集合无法反应真实的网络信息分析状况,也无法通过信息数据验证来获取良好的反馈结果。以我国上海某高校为例,它的网络信息平台每天都要为数万名师生提供专业IT服务内容,学校中拥有信息安全需求的用户单位也不计其数,在这种背景下,基于网络交换路由设备的Miroor、PBR、Multicast技术应用就成为关键。为此,应该为高校构建基于高性能的网络流量分流平台,满足校园中校园网的大规模高流量分析需求,主要来讲,就是基于分布式部署策略来展开技术操作,从原有的10G规模线性扩容到100G以上流量,实现网络流量的有效汇聚与分流过程,即对海量元数据的大数据体系形成,为校园内部提供稳定的网络流量支撑,保持校园网技术稳定发挥。
从专业角度来讲,网络流量分流平台相对灵活,能够实现交换机端口级别的一对多、多对一、多对多网络流量复制过程,满足不同应用业务系统操作过程,例如对病毒入侵检测系统、缓存加速系统、应用层安全审计系统等等的网络流量源头监控。在网络流量复制过程中,也基于ACL(Access Control List)访问控制列表来实施五元组级别与简单协议的流量过滤过程,最终降低网络流量分流平台的业务系统负载。如此一来,校园内就可以实现多条10G高负载链路流量与多条1G低负载链路流量的有效转换,实现了多路负载均衡,对提高网络流量分流平台的数据整体处理能力具有极大促进作用。另外,像交换机堆叠技术也能够实现上述技术操作,且同时迅速扩展断口数量,为校园网中现有的10G链路与未来的100G链路提供更强信息处理能力[1]。
1.2元数据的处理技术分析
传统主干网络的安全监测系统主要围绕主干节点路由器来提供诸如NetFlow输出信息,监测系统会针对数据实施全时段分析与关联历史信息挖掘,并将网络流量体系中所存在的异常连接筛选出来,根据数据信息统计结果来迅速发现存在于元数据中的安全问题,例如以DDoS类型为主的Flood攻击等等。所以在元数据的存储采集前应该特别针对特定断口进行大范围网络扫描,并配合开放式递归DNS和NTP来查询网络流量分流平台中可能存在的流量放大攻击不良事件,配合flow信息来源进行及时预警。不过从技术严谨的角度来讲,仅仅依靠抽样获取flow信息的做法对网络流量分流平台的安全监测还并不到位也不够完整,需要进行进一步优化调整。
为了满足未来100G网络流量目标,应该试试分布式网络架构,构建开源库及开源软件来实现高速网络流量的元数据提取过程,并从中抽取预各类元数据来存储到本地文件中。这里以HTTP类型元数据文件为例,如果从安全分析角度考量,应该为现实用户构建以下网络流量元数据模型,例如POST类型,它的格式应该为:
时间|域名URL(去除域名)|发送类型|发送字节|Referer|用户IP|用户断口|服务器IP|服务器断口|User-Agent。
以校园网为例,它的具体计算模型示例应该如下:
时间|welcome.sjtu.edu.cn|/jdyx/member/login.php? action=checkandlogin|
由于校园网拥有数千个Web应用信息系统,所以它应该采用基于不同院系、不同分支校区、不同实验室和教室楼来实现分布式架构,为每一台服务器都安装Agent以记录收集网站中的访问信息日志。如此,可以考虑为校园网便捷出口单独设立Web信息系统网络流量分流功能,围绕应用层展开流量分析,并还原主机上所有Web访问日志,以达到统一校内网站HTTP访问日志形式元数据的目的。同时,它也能避免某些校园网系统数据被入侵后导致数据日志被误删除或直接丢失。而对于某些少数HTTPS类型加密网络流量,如果他们拥有网络流量分流认证证书,就可以通过网络流量途径来还原相应通讯内容,或者通过主机日志系统来满足安全审计分析需要,采集和存储元数据。
当前高校校园网网络流量元数据较多,如果以全部网络流信息作为元数据,它就应该包括五元组中的所有数据,如此计算每天整个学校的网络流量记录都要超过5亿条,每月流量可以达到百亿量级,所以说这对校园元数据采集、存储以及安全挖掘都会带来较大压力,以下给出基于网络流量的基础元数据格式,如表1[2]。
表1网络流量的基本元数据格式范例表
2 基于网络流量元数据下的安全大数据平台技术分析
为了迎合大数据技术时代的海量信息存储与处理,应该考虑为校园、企业等建立基于网络流量元数据背景下的安全大数据平台,展开对大数据的挖掘与关联技术分析,实现在前期主动调整网络流量,选择性清除许多对大数据安全分析毫无意义的冗余数据。
据目前来看,对某些组织结构的区域性突发性重大安全漏洞,可以采用大数据分析来给出安全预警及安全评估范围,像校园网也基于Java框架构建了多个应用信息系统,并为校园网中所涉及的数千个网站构建Struts2开发框架,并基于HIVE查询技术与HTTP访问技术来对元数据中所存在的URL特殊字段(如.do、.action)配合Shell脚本分析。在这里,安全大数据平台还运用到了Python脚本配合所对应的系统漏洞POC展开网站快速扫描,判定反馈结果中有多少会受到系统及外界影响,根据结果作出合理调整。当前拥有高持续性威胁的APT攻击并不仅仅局限于HTTP协议,它还能通过SSL加密与其它隐藏隧道来展开通讯技术流程,从各个角度来威胁企业及高效资源数据库,而就校园网方面来说,他们在针对这种不对称的APT攻击还能力有限,无法基于IP流与部分关键应用层协议进行针对性分析,对元数据的分析与存储技术发挥也变得有限,但它能够在外界病毒攻击早期阶段就发现它们,通过协调资源来降低系统损失,追踪并还原攻击历史过程,对APT攻击形成限制,非常有效[3]。
3 总结
在大数据时代,互联网被外部环境安全事件及安全风险威胁在所难免,所以无论是企业还是校园等公共组织场合都要做好基于网络流量元数据背景下的安全大数据防护探索,合理冷静地应对大数据安全攻防过程,通过对元数据的快速评估找出网络安全中所存在的薄弱点,巧妙应用大数据平台,提高自动化智能异常计算能力,完善平台威胁的可视化呈现技术,最终实现对不同类型数据的有效挖掘与关联性分析过程。
[1]姜开达,李霄,孙强等.基于网络流量元数据的安全大数据分析[J].信息网络安全,2014.
[2]张丁.试析基于网络流量元数据的安全大数据分析[J].数字通信世界,2016.
[3]蒲以国.基于网络数据分析的失泄密检测[D].中国科学院大学,2013.