大数据分析平台安全问题分析与建议
2020-12-30谭旺
◆谭旺
(中国人民银行长沙中心支行 湖南 410005)
2017年人民银行科技工作会议提出:“构建以大数据为支撑的央行决策平台、以分布式系统为核心的央行服务平台、以数字货币探索为龙头的央行创新平台”。人民银行“长沙中支”迅速行动,组织开展了人民银行湖南省大数据分析平台的建设工作。加强了大数据分析技术的学习和研究,对大数据分析平台的可行性进行了论证,召开年度信息化项目立项审批会,将“大数据分析平台”列为年度信息化建设项目。经过多月开发测试,人民银行湖南省大数据分析平台上线运行。2017年11月至今,完成系统生产环境部署及近3年相关业务数据导入,平台运行情况良好,各项功能达到或超过设计要求。
1 应用效果
人民银行湖南省大数据分析平台采用大数据领域的先进技术框架,顺应大数据技术发展趋势,便于技术的跟踪、升级。从目前来看,大数据平台运行效果较好,能够满足业务数据大规模存储、分析、挖掘的需要。一是为海量业务数据提供了存储空间。该平台能够存储海量数据,设计存储量可满足未来10年几十亿条数据的存储。二是能在海量数据下,完成快速计算、快速统计。目前数亿数据量情况下,根据任意条件,精确、快速定位到对应记录,查询时间小于5秒。用户进行数据统计生成图表,相应时间在2秒以下。三是提供了多种数据展示手段,让数据可视化。根据业务需求,该平台提供对数据的多样化统计、分析,以报表、多维分析、图表等形式进行展现,为决策提供可靠的数据支持。
2 存在问题
人民银行湖南省大数据分析平台的成功应用,为履职提供了强有力的支撑,但在应用过程中,也发现存在一些安全隐患。下文结合大数据安全和传统数据系统安全之间的差异,分析人民银行湖南省大数据分析平台存在的安全问题。
(1)缺乏全局的安全防护体系
一是大数据环境下的安全模式发生改变。在传统数据系统中,数据来源及用途,对于安全维护人员都是可知可控的,因而可以建立起有针对性的安全保护措施。但是在大数据系统中,数据海量,数据来源多种多样,一些不经意的问题可能造成无法预料的结果。二是大数据系统的应用催生了网络攻击的新手段。传统网络攻击手段,主要以瘫痪数据系统或窃取数据为主,攻击方式较为直接,目的性强。而在大数据系统中,可持续攻击(APT)被运用得更为广泛,攻击持续时间长,攻击行为也更为隐蔽,给防护带来困难。因此,大数据安全需要具有全局的思路,综合考虑数据的传输、存储和处理过程的安全,建立多角度的防护体系。目前人民银行湖南省大数据分析平台的安全依赖于传统的安全防护策略,尚未建立针对大数据系统的全局安全防护体系。
(2)未实施有效的网络隔离方案
大数据系统中,网络安全防护体系的建设难度较传统数据系统高。一是由于分布式的服务器和离散的数据采集,使得访问控制的配置难度提高,容易出现配置漏洞,造成非授权数据访问风险。二是数据在网络中流动非常频繁,而传统网络保护的方式对于较大较复杂的网络往往力不从心,无法将监控和保护部署到每个网络节点,数据在流动中被窃取的可能性大大提高。目前人民银行湖南省大数据分析平台部署集中在省级数据中心,但是为了快速提供对外服务和同原有数据系统进行数据交换,大数据系统未同原有数据系统之间采取隔离措施,大数据系统复用了现有的存储网络和应用网络,未使用独立的安全域,这给大数据系统带来了网络方面的安全隐患。
(3)数据泄露风险大、溯源难度高
大数据系统中各种数据存储在一起,如果未采取相应的措施进行安全等级分类,可能出现违规获取的情况。另外,进行数据分析时,由于未进行数据细粒度权限控制,可能出现数据无法按需调用的情况。数据出现泄露情况后,由于数据来源复杂,使用量大,数据泄露的追踪和溯源难度高。目前人民银行湖南省大数据分析平台数据来源于单一业务,使用人员也集中在单一部门,数据安全风险较低。平台扩展后,数据来源广,人员复杂,数据安全风险激增,势必需要将数据安全防护体系与大数据系统同步规划、同步建设、同步使用。
3 加强大数据平台数据安全的措施建议
3.1 加强大数据系统本身的安全防护水平
(1)建立集中审计系统,对Hadoop的数据访问和使用进行安全审计。由于Hadoop自身没有审计系统,同时各组件的日志和审计记录都分别存储于组件内部,想通过Hadoop自身完成全范围的安全审计几乎不可能。可以通过建立一个集中审计系统,从各组件中收集日志及审计记录,进而集中存储、分析,完成全系统安全审计。通过审计系统加强大数据系统责任管理,将数据安全责任落实到每个使用人身上。
(2)使用加密认证机制替代简单认证机制。Hadoop中简单机制是默认设置,根据客户进程的有效UID确定用户名,只能避免内部人员的误操作。使用加密认证机制替代简单认证机制,可更好地确保Hadoop集群的可靠性、安全性。目前,普遍采用的较为安全可靠的是Kerberos认证机制。Kerberos认证机制支持集群中服务器间的认证和Client到服务器的认证。Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上,集群运行时,集群内的节点使用密钥得到认证,认证通过后的节点才能提供服务,企图冒充的节点由于没有事先得到密钥信息,无法与集群内部的节点通信,无法非授权使用或篡改Hadoop集群。
3.2 建立有效的网络隔离机制
(1)建立独立的网络安全域供大数据平台使用。通过使用网络防火墙和交换机ACL策略,结合主机自身防火墙和远程登录配置,限制大数据平台的外部访问。通过防火墙映射等方式,保护大数据应用WEB服务。
(2)通过流量分析系统等网络安全设备,建立针对大数据系统的网络数据分析报告。通过对日志信息、流量数据等的采集、分析,可以对大数据系统的网络流量、网络行为等信息有整体的了解,从而制定针对性的网络安全防护策略。
3.3 对敏感数据进行隔离监控
(1)建立敏感数据保护视图,加强数据分级。可根据数据的不同来源,在大数据平台中建立数据保护视图。根据用户的等级权限和业务需求,采用分级别保护的方式让用户接触不到业务需求之外的数据,当数据使用者使用敏感数据时应有提醒。
(2)建立数字水印机制,使泄密数据可以溯源。数字水印是指将一些标识信息直接嵌入数字载体(包括多媒体、文档、软件等)当中,且不影响原载体的使用价值,也不容易被探知和再次修改。但生产方可以探查并通过这些标识信息确认数据来源。数字水印机制在数字版权保护系统中被广泛使用,并被认为是有效的。数字水印在大数据中的应用,主要在于两个方面:一是利用数字水印隐蔽和不可篡改的特性,判断数据传输过程中是否遭到篡改;二是通过数据水印探测,对数据泄露进行溯源。基层央行大数据平台可在数据源和数据分析结果中使用数字水印机制,一方面保证数据源的可用性;另一方面保障数据分析结果安全,当数据出现泄漏时,可及时发现并溯源。
(3)对敏感数据进行脱敏处理。数据脱敏是指对敏感信息通过脱敏规则对数据进行变形,实现敏感数据的保护。数据脱敏的主要方法有:一是加密方法,采用标准的加密算法,加密后完全失去业务属性;二是基于数据失真的技术,使用随机干扰、“乱序”等方式,不可逆的打乱数据,通过这种算法可以生成“看起来很真实的假数据”;三是可逆的置换算法,兼具可逆和保证业务属性的特征,可以通过位置变换、表映射、算法映射等方式实现。脱敏后的数据,既不影响大数据的分析、挖掘,又可有效地保护数据安全。当用户使用央行大数据平台中的数据时,应根据用户权限和数据用途等,对调用的数据进行脱敏处理,既可保证大数据的充分使用,又可防止敏感数据泄漏。