大数据平台Hive组件深度审计实现技术研究
2019-05-14叶荣伟中国移动信息技术有限公司北京0003中国移动杭州研发中心浙江杭州30000
冀 文,田 峰,康 乾,叶荣伟(.中国移动信息技术有限公司,北京0003;.中国移动杭州研发中心,浙江杭州30000)
1 概述
大数据业已成为产业发展的创新要素,不仅在数据科学与技术层次,而且在商业模式、产业格局、生态价值与教育层面,大数据都能带来新理念和新思维[1-2]。在充分认知大数据产业发展重要性的同时,也要充分意识到大数据安全对大数据应用发展的重要性[3-4]。
大数据平台是实现大数据分析能力的基础,而大数据行为的合规审计则是一种保护平台的有效方法。目前,这类审计能力基本上是基于组件的安全日志、运行日志和审计日志的组合分析,存在一定局限性。
a)缺少原生分析能力。大数据平台的组件基于开源软件,在设计时缺少安全机制,例如Hadoop生态系统[5],其本身没有审计功能。
b)日志字段粒度太大。可审计日志包括安全日志、运行日志和审计日志,但是其字段不完整,记录的信息模糊,例如HDFS[6],其日志缺少对操作目录的记录。
c)审计能力不可扩展。新增日志字段需要修改源代码,分析能力不可扩展,无法满足分析审计规则更新的需求[7]。
针对上述问题,本文提出了大数据组件深度审计方法。该方法主要通过采集和解析网络流量数据,提取全量组件访问、共享过程安全日志进行分析,实现第三方集中式安全深度审计。
2 大数据组件深度审计实现原理
下面对大数据组件深度审计方法中涉及的相关概念做一个基本介绍。
a)深 度 包 检 测 技 术[8](DPI——Deep Packet Inspection),是一种基于应用层的流量检测和控制技术,当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时,可通过深入读取IP包载荷内容对OSI七层协议中的应用层信息进行重组[9],从而得到整个应用程序的内容,然后按照系统定义的管理策略对流量进行整形操作。
b)Hive[10]是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),是一种可以操作和分析Hadoop中存储的数据的机制。
图1是Hive组件构成和交互方式示意图。Hive组件由 HiveServer、MetaStore、WebHCat等构成[11],支持多种Hive Client(如Beeline、Thrift、JDBC、ODBC驱动的客户端)与组件进行数据交互。
图1 Hive组件交互示意
大数据平台Hive组件深度审计方法重点研究Hive组件和CLI、SDK应用、Web客户端的交互机制,形成可操作协议解析功能模块。而DPI技术具有的支撑全栈协议解析能力和能够提供通用的可插拔应用层协议解析的能力,是此方法实现的基础[12]。
3 大数据组件深度审计方法
3.1 研究目标
大数据组件深度审计技术的目标是及时发现大数据组件运行的安全风险,实现对Hive组件的深度审计。具体来说,该技术通过Hive组件原生能力,实现组件交互行为的重构;通过DPI技术替代常规的日志分析,可以控制分析的字段和粒度,保证审计能力的可扩展性,提供多维度的交互分析。
3.2 深度审计方法
深度审计方法重点阐述Hive组件和客户端的交互信息,基于DPI能力进行数据包特征提取和协议识别,剥离非应用层数据,获取核心交互行为,并结合多维度的分析方法,审计Hive组件交互行为。
面向Hive平台的深度审计方法的流程如图2所示,主要包括以下步骤。
图2 深度审计方法流程示意图
a)审计系统通过采集模块,捕获网络流量数据包。
b)识别网络流量数据包访问协议,过滤非审计范围的数据包。
c)解析应用测协议内容,提取协议中包含的Hive操作相关信息,如操作方法、操作对象、操作参数等。
d)识别访问操作行为是否符合异常行为特征,异常与正常行为分类存储。
e)访问操作行为语义分析,构建操作行为上下文。
f)操作行为关联分析,发现深度安全风险。
g)输出审计分析结果。
深度审计方法的实现主要基于以下2个关键技术。
a)基于DPI的Hive组件协议解析技术:基于DPI分析技术,获取全量的Hive组件流量,结合组件访问协议库和可执行语意库,匹配流量负载的数据字段,完成协议判断和协议解析。表1是部分交互数据包的结构。
表1 Hive组件通信协议字段表
b)多维度分析方法:基于DPI分析技术,获取全量的Hive组件平台通信行为数据后,采用多维度分析方法进行平台数据交互行为的风险审计。该分析方法包括以下3个维度。
(a)行为审计:通过对大数据组件的网络操作行为,包括用户通过客户端、管理平台对组件的连接、访问以及对数据的增删改查等操作进行监控,根据评估模型识别异常行为并按安全策略实时告警并记录。
(b)内容审计:提供深入的内容审计功能,可对用户请求的操作及节点间的通信内容进行深入的包探测和分析,提供完整的内容检测,以数据为对象对大数据组件中的数据访问操作进行灵活的细粒度(数据粒度)审计。
(c)流量审计:提供基于访问协议的流量识别分析能力,识别规范协议外的其他非安全协议的数据传输,提示安全风险。
基于上述关键技术,本文提出的大数据安全审计系统包含了组件行为重构、多维度行为分析等能力,能在相关业务场景中发挥审计作用。
3.3 大数据安全审计系统
本文提出的大数据安全审计系统基于大数据组件深度审计方法实现。通过大数据平台集群侧的全流量镜像能力,系统采集网络原始数据包,解析全网Hive组件的访问流量,并识别大数据组件访问场景中操作行为的关键要素日志,帮助大数据平台运维人员发现异常行为,实现多维度、可视化的安全审计。
3.3.1 功能架构
大数据安全审计系统包括关系模块、存储层、展示层、分析层、采集层和知识库,具体如图3所示。
图3 大数据安全审计系统功能架构图
a)管理模块:主要包括用户认证、权限管理、日志管理、审计策略、审计任务,并提供配置管理和规则库升级等功能。
b)存储层:审计系统的数据存储位置,可存储数据包括采集到的操作日志和数据内容、审计分析产生的审计结果、审计报告、知识库内容。
c)展示层:展示审计结果,如监控告警展示和审计报表展示等,包括实时监控告警、审计报表展示、综合统计展示、违规内容数量展示等。
d)分析层:根据审计需求和审计条件,筛选存储层中操作日志,并进行审计分析,包括根据审计条件快速筛选操作日志,分析操作行为的时效性,根据审计需求全面分析操作行为和操作内容、构建操作会话,实现用户访问的完整审计。
e)采集层:对接网络镜像端口,捕获网络流量,解析协议语义,提取操作行为和操作数据,采集组件操作日志,完成数据清洗和操作日志解析。同时,在该层还需丢弃无关流量并将采集到的数据写入存储层。
f)知识库:包括审计策略、配置和规则等内容,如采集流量协议范围、操作行为审计规则、操作内容审计规则、审计策略、系统配置内容(独立模块可包含过滤器配置)、审计报告模板、综合统计模板、操作行为、操作内容黑白名单。
3.3.2 整体实施方案
大数据审计系统整体实施方案如图4所示,通过获取大数据集群的二层网络流量,前置服务器形成流量包pcap文件,交由统一协议解析平台,统一协议解析平台通过协议插件管理器,按配置动态加载大数据组件协议解析插件进行轮询解析,输出解析后的原始日志数据流,通过日志融合规则关联、融合原始日志,形成标准化日志记录数据,并由交互界面呈现审计分析结果[13-14]。
3.3.3 系统核心实施方案
图4 大数据审计系统实施方案图
系统实施方案的核心是采集层和分析层。采集层由采集模块构成,可支持离线文件分析和在线分析的处理模式,其中在线分析需要路由设备提供镜像端口。采集模块通过知识库将操作行为格式化,以供分析器调用分析;格式化数据包以流的形式导入分析器,先进行协议识别分类,然后结合特征知识库,分析平台中执行的操作行为,对异常行为可通过上下文信息构建完整的操作会话,并结合已有安全事件,整体分析操作行为的安全风险。
3.3.3.1 基于DPI技术的采集模块设计
采集模块的数据入口为网络路由设备的镜像端口,该模块结构如图5所示,主要包括以下内容。
图5 采集模块示意图
a)捕获器:根据审计协议需求捕获有效数据并按协议重组数据包;对捕获的数据包进行基础的协议解析,解析层级在应用层以下。
b)协议解析:通过分析应用层的数据内容,匹配数据负载字段,获取操作行为和操作内容(后续可扩展至操作协议)等数据。
c)存储预处理:将过滤后内容和协议分析结果写入存储层,并将协议解析结果中的操作行为实时发送至分析层。
经过预处理,网络数据流量包被分解为用户访问大数据组件的操作行为和操作数据,该数据一部分将在本地持久化存储,另一部分将继续流转供上层分析模块挖掘访问行为。
3.3.3.2 多维度行为分析模块设计
分析模块将对采集层解析出的操作内容和操作行为进行二次分析。模块对Hive组件的操作数据进行风险等级评估操作,挖掘数据交互过程中的异常日志,结合行为、会话、内容3个维度,深度审计Hive组件数据流转行为(见图6)。
分析模块涉及到以下几个关键知识库。
a)白名单:综合行为特征和数据特征,通过用户自定义操作源、操作对象、操作时间、操作内容、操作环境等内容,指定必须审计的行为和数据。其匹配优先级仅次于黑名单。
图6 分析模块示意图
b)行为特征:规则库,指明异常行为特征。
c)数据特征:规则库,重要数据泄露风险画像。
根据审计策略,系统加载对应的黑白名单,协助模块获取待分析的操作行为和操作内容数据,这些数据将分别导入各审计分析模块,并结合上述行为特征、数据特征、协议库信息等进行深度用户行为分析。
4 结束语
本文以DPI技术为基础,进行Hive组件的深度审计技术研究,在理论研究的基础上,实现了大数据安全审计系统。该系统基于Hive组件原生能力,利用DPI技术还原负载内容和操作行为,保证对大数据组件审计能力的可扩展性,实现重构组件交互行为,并提供多维度的交互分析能力。大数据安全审计系统能够在数据安全审计与稽核、数据访问风险监测、数据共享防泄露等场景下,提供直观的审计结果,及时发现大数据组件交互过程中的安全风险,保障数据安全。