大数据平台的集中访问控制
2018-11-08
随着单位基地大数据平台的建设,在考虑配套安全手段方面发现一些传统手段无法解决的难题。由于大数据本身数据的集中、开放的特征,传统的安全控制措施已无法满足大数据安全发展的需要。在数据存储、实时监控、访问控制策略等方面面临着巨大的挑战。如基于Hadoop的大数据平台本身安全机制缺失;多租户模式下的共享数据安全问题;敏感数据保护问题;平台虚拟机的物理隔离、网络隔离机制与传统方式不同;大数据平台引入了许多新技术和新的软硬件。
大数据平台的配套安全如不能尽快解决,将影响到平台的正常生产和推广。
用户安全管控
大数据平台安全管控框架如图1所示。包括用户安全、数据安全和门户几个方面。
帐号管理
通过4A平台对大数据平台的用户帐号、程序帐号的集中管理,确保大数据平台内帐号密码使用的合规性。实现将访问大数据平台的应用系统帐号和各类人员帐号纳入到4A平台集中管理时,4A平台在帐号生命周期的不同阶段通过与Kerberos认证服务器同步帐号信息,包括:帐号创建、删除帐号、帐号过期、密码修改/重置后,需实时将其添加到Kerberos服务器中。
图1 大数据平台安全管控框架
4A向Kerberos服务器同步帐号时,需首先进入Kerberos管理环境,进入管理环境有两种方案:
1.使用Kerberos客户端命令(Kadmin)进入管理环境:该方式需在4A服务器上安装Kerberos客户端,由4A平台调用Kerberos的客户端命令。
2.使 用Kerberos管理命令(kadmin.local) 进入管理环境:该方式4A平台使用root帐号通过SSH协议登录到Kerberos所在服务器,在Kerberos服务器上执行kadmin.local命令,进入Kerberos的服务端管理环境。然后使用如下方式对帐号进行操作:
向Kerberos中添加帐号:执行命令“addprinc 帐号名@DOMAIN”,并在提示后输入新建帐号的密码;
从Kerberos中删除帐号:执行命令“delprinc 帐号名@DOMAIN”;
更 新Kerberos帐号密码:执行“cpw帐号名 @DOMAIN”,根据提示输入两次待修改帐号的新密码。
认证管理
通过4A平台实现对访问大数据平台的统一身份认证,从而降低帐号盗用、冒用的风险。4A平台管控的大数据平台通过启用Kerberos认证方式实现,采用B/S架构为用户提供访问大数据平台的唯一访问入口,基于Kerberos实现大数据平台帐号与服务器帐号的解耦,从而实现大数据系统的帐号和认证的统一管控。
所有帐号通过4A平台登录大数据平台并执行操作前首先向Kerberos验证帐号合法性,并携带Kerberos签发的票据访问对应大数据平台,具体流程如图2。
授权管理
图2 认证管理流程
图3 日志审计流程
通过4A平台集中管理大数据平台访问权限,依据数据类型、操作类型进行授权,简化授权操作、减少帐号权限不匹配问题。基于大数据平台Sentry组件与4A平台授权模块的结合,实现大数据平台的权限控制,基于人员的访问权限以及大数据操作的细粒度授权,对Hadoop目录、文件的细粒度授权等。
审计管理
实现对大数据平台的使用者访问大数据平台、执行敏感操作进行真实全面记录。基于大数据平台的运维管理日志进行的安全审计场景开发,包括用户、认证、授权以及 Hive、Hbase等组件在Web界面、API、命令行、操作系统等入口的安全运维行为管控和审计。
对大数据平台和相关系统如实记录日志。需要记录的日志包括帐号和权限管理日志、用户登录登出日志、数据访问日志等。
帐号和权限管理:对大数据平台用户的帐号及权限进行管理,如授权、权限更新等;
用户登录登出:大数据平台用户的登录退出;
数据访问:用户对大数据平台中存储数据的查询、删除等访问操作;
平台维护:对平台组件进行管理,或其他影响平台正常运行的配置更改操作;
数据采集:从外部数据源采集数据导入大数据平台并进行存储的操作。
大数据平台HDFS、Hive、HBase的审计日志,通过大数据平台组件审计日志的集中接入、标准化解析、存储,实现大数据平台操作及运维的审计管理,降低系统安全风险。日志审计流程如图3。
数据安全管控
本文研究了大数据平台环境下Hive、Hbase等组件中存储的敏感数据,根据定义的数据资产发现规则,通过自动或人工的方式进行敏感数据资产发现,并对敏感数据资产信息进行管理和展现,实现大数据平台敏感数据访问操作监控和管理,降低系统安全风险。
敏感数据资产发现
敏感数据是指包括客户个人隐私或企业商业价值的信息的数据。数据资产是为安全管理而描述和表示敏感数据的信息实体。敏感数据资产管理包括敏感数据资产的信息导入、自动发现、补全和维护,用于支撑敏感数据全生命周期的监控、合规检查等功能。敏感数据资产发现主要包括以下几个流程:
1.获取敏感数据发现规则:在敏感数据资产发现的过程中,首先从安全策略中心中提取敏感数据发现规则,并下发给统一采集控制中心。
2.敏感数据扫描发现:统一采集控制中心根据敏感数据发现规则,在相应的主机或数据库中进行敏感数据扫描发现,并把扫描结果提交敏感数据安全管理模块。
3.敏感数据确认:从扫描结果中发现的新增的敏感数据,提交给相关人员进行敏感数据确认。
4.敏感数据资产信息补全:根据敏感数据确认结果对新增的敏感数据资产信息进行人工补全。
5.敏感数据资产入库:把已完成补全的新增敏感数据资产统一存储于安全资产库中,以供相关系统使用。
敏感数据监控分析
针对业务系统运行、开发测试、对外接口和前后台操作使用环节,根据定义的敏感数据主机连接、访问操作、终端使用、明文访问、文件流转等监控规则对数据的流转、存储与使用进行监控,及时发现违规行为并进行下一步处理。
敏感数据监控分析主要包括以下几个流程:
1.获取敏感数据监控规则:在敏感数据监控的过程中,首先从安全策略中心中提取敏感数据监控规则,并下发给统一采集控制中心。
2.监控信息采集:统一采集控制中心根据监控规则,采集相应的日志或监控信息提交给敏感数据安全管理模块。
3.监控数据分析处理:敏感数据安全管理模块根据监控分析策略对采集来的日志或监控信息进行分析处理。
4.敏感数据安全监控告警:将监控分析出的异常情况转化为告警,并针对有必要的事件提交给“安全事件管理”模块统一告警或展示。
敏感数据安全合规
敏感数据安全合规策略管理主要实现对脱敏检查所需策略和规则的集中管理,分为数据取样规则管理、脱敏规则管理和核查策略管理三部分内容。敏感数据安全合规主要包括以下几个流程:
1.获取数据取样规则:在敏感数据合规管理的过程中,首先从安全策略中心中提数据取样规则,并下发给统一采集控制中心。
2.信息采集:统一采集控制中心根据数据取样规则,采集相应的信息提交给敏感数据安全管理模块。
3.合规检查分析处理:敏感数据安全管理模块根据分析核查策略对采集信息进行分析判定。
4.敏感数据安全合规告警:将分析出的异常情况转化为告警,并将必要的事件提交 “安全事件管理”模块统一告警或展示。
门户管控
单点登录
通过4A平台首先实现对大数据平台的集中接入管控,在实现用户对大数据平台的单点登录,也即用户访问大数据平台之前,4A系统通过票据类接口从Kerberos中获取会话票据和被访问服务的服务票据,并携带票据完成实际访问。可以使用客户端命令(kinit)和程序接口(GSSAPI)。
访问控制
通过4A平台的权限管理模型按照权限最小化原则授予访问者不同的数据使用权限,有效防止未授权人员或不合规授权人员对数据的访问,控制运维人员、应用程序等对大数据平台的访问操作。
例如,对大数据平台的Hive、HBase、HDFS的敏感数据操作以及Sqoop导入导出敏感数据等操作,从而实现对高危操作的金库管控或阻断控制。
图4 大数据平台敏感操作的管控流程举例
大数据平台金库操作的管控流程如图4所示。
敏感数据管控视图
大数据平台敏感数据分布范围广、访问操作频繁,可实现通过多种视图综合呈现敏感数据在大数据平台中的存储、流转、操作访问等使用情况。
1.敏感数据分布视图:结合大数据组件网络部署情况,以拓扑图的方式直观展示各节点敏感数据存储与布。
2.敏感数据访问视图:分析大数据平台敏感数据访问行为(访问入口日志、数据生命周期及权限管理日志、脱敏日志、网络流量日志等),实现大数据平台敏感数据访问视图,直观展示对敏感数据的操作行为。
3.敏感数据访问渠道视图:统计分析大数据平台中敏感数据访问渠道或方法,展示敏感数据访问渠道。
4.敏感数据权限流转视图:结合敏感数据在大数据组件中的存储分布、操作访问行为以及常用的访问渠道,通过关联、综合分析,最终实现敏感数据流转视图,直观呈现敏感数据的流转流向。