大数据运用模式与安全风险
2016-05-25崔洪刚唐浩汪永超
崔洪刚 唐浩 汪永超
【摘 要】随着社会的不断发展,人们采用传统的设备和工具来处理庞大的数据流已经显示出其在扩展性和分析技术上的劣势。当前主流的大数据处理新技术通常选择在云计算环境下搭建Hadoop完成存储和分析。本文首先分析了现行的大数据运用模式,分析了在Hadoop不同阶段操作过程中所存在的安全威胁,进而根据安全风险给出了对应的安全策略。
【关键词】大数据;云计算;安全风险
随着社会的不断发展,人们在日常工作和生活中的信息交流量越来越大,需要处理的数据变得越来越多。对于如此庞大的数据流依旧采用传统的设备和工具来处理,已经显示出其在扩展性和分析技术上的劣势,无法有效地获得蕴藏在大数据中的潜在价值。同时,大数据还体现出了多样态势的数据组成方式,这样的结构相应增长了常规数据计算和处理的难度。要想满足大数据的运用要求,需要广泛研究新技术。
1 大数据运用模式
云计算的实现,对于设备的要求是相当严格的。首先需要通过小型的计算机和单体化的数据中心向大型的计算中心传输数据,这些计算中心能够通过专业的存储和计算能力实现计算机在硬件和软件上的资源共享。企业在使用云计算的服务和相关功能时,并不需要再花费更多的预算和实际费用在购买大型的基础设备方面,也就不需要对更多的设备进行安装调试和维护工作,仅仅需要与云计算服务商签订一定的使用协议,就能享受其提供的相应云计算服务,在一定的计费周期内按计时或计件方式支付相应的服务费用。
云计算服务商自身的发展离不开对庞大的数据流进行存储和计算的能力。因此,云计算服务商在当前的数据处理与管理方面被认定为选择信息服务外包的最佳对象。大数据时代的很多运用都离不开云计算的强大机制和功能。而Hadoop作为支持大数据分析和处理的技术实施方案,最初的设定出发点是基于Google开发的云计算中的映射归约编程模型(Map Reduce),并积极吸收谷歌三大技术之一谷歌文件系统(Google File System,简称GFS)的开源性设计。Hadoop的运用通过其中的核心技术HDFS(Hadoop Distributed File System)以及Map Reduce为云计算的大数据运用提供了一种计算框架。HDFS以及 Map Reduce都是针对分布式运算的相关技术,HDFS作为能够显示成独立磁盘的多机器系统,所提供的是文件系统依然是分布式的,在系统吞吐量方面具有很大优势。而Map Reduce属于分布式处理模型。Hadoop的建立通过搭建可靠的共享存储和分析系统来促进大数据的运用处理。当前的技术竞争环境下,世界上已经出现了很多的自发性群体,通过组织自建集群的方式来运行Hadoop,当前更多的人群和组织依然选择通过更加直接和有效的方式来完成Hadoop的组建和服务,选择租赁性价比更为合理的硬软件,搭建匹配的运行平台供Hadoop运行或提供迅速完成目标任务的可靠服务。
2 大数据安全风险分析
云计算的特点是由云服务商将已经外包的数据集中分析后进行处理,外包方能够共享到相应的服务。当数据的支配权全部属于云计算服务商后,相当于所有用户对于眼前的物理资源虽能接触到却没有直接的使用和控制权利。云端服务器重,存储的大数据一般都有惯用的排位方式,即使用明文方式。在一定的权限下,云计算服务商们基本都会对数据的基层控制权全盘接收,在这样的情况下,怀有恶意的云计算服务商们对于数据安全来讲,具有相当严重的危险,很多用户的数据面临被盗用丢失,而且往往选择在用户不知情的前提下,同时云计算平台也可能受到非授权人进行数据读取,往往受到不明的攻击使自身的安全机制失效或被非法控制,给大数据安全带来了威胁。Hadoop的版本样式发展到Cloudera CDH3后,来自于Kerberos随设定的身份识别认证机制和依据ACL成立的访问控制机制被创立和使用,但是这样的安全机制却依然显得薄弱,由于Kerberos的认证机制仅仅运用于客户机、密钥分发中心、服务器之间,仅仅是针对机器级别的安全认证,并未对Hadoop运用平台本身进行认证。而基于ACL的访问控制策略需要通过在启用ACL之后,其配置的9条属限制了用户与组成员对Hadoop中资源的访问以及其他关键性节点间的通信,但是需要注意的是,该机制的运行离不开管理员对整个系统的设置。因此,往往出现控制列表被访问后在服务器中内容易被不法分子或者自动运行程序进行更改,而且更改的程度往往骗过了人们的防备。依据ACL成立的访问控制策略在粒度方面的设计上细度不够,涉及用户信息的隐私字段就不能够在映射归约编程模型中实现细粒度保护。访问控制列表常常会调整不同用户的不同操作习惯,但是这些更改过程是相对繁琐的,而且风险安保方面也存在较多隐患。通过上述可知,Hadoop的运行所建立和应用的安全机制并不真正安全。
3 提高安全保护的有效策略
真正考虑数据的安全风险,应该对于用户的隐私保护也同样考虑在内。对于可能发生的大数据应用安全风险,可以积极尝试运用如下相关策略:
第一,需要对云计算服务商和使用者的身份信息及平台进行完整性验证。使用云计算的用户,对于Kerberos的双向认证要有所了解,要灵活应用这一原理在平台收发请求时进行认证,这样的做法进一步提高了用户和云计算服务商两方身份认证方面的完整性信息安全。
第二,在确认了用户和云服务商之间身份的真实可靠之后,平台整体上的安全性能还需要进行严格的验证。鉴于此,可以采用有关的算法和模型等构件合理的协议,配合TPM完成对云计算可信环境的构建,平台环境构建完成后还需要对系统的可信链展开完善,确保云平台无较大的安全风险。
第三,需要在数据使用过程中监控行为请求,云服务商一般情况下会有很大的概率接触到某些无理化的数据请求,只有建立更加严格和规范的监控机制才能管理非法数据,进而对非法运算和错误的输出结果也能完成实时监控。可以考虑借助利用LSM的访问控制策略,通过hook函数进行内核程序的控制,对合法行为予以同行,准许访问数据,对不可信的可疑行为,直接拒绝后设立记忆点,确保数据的正确流向。
4 结语
对于大数据应用中可能存在的风险,应充分考虑监控云计算服务商的可疑行为,杜绝直接更改文件权限获取数据内容,也应该避免数据计算者可以对于相关数据的获取也可以直接通过计算程序输出隐私字段等方式来实现,通过一定的安全策略,来提高大数据运用中云计算服务的使用。
【参考文献】
[1]马媛.基于Hadoop的云计算平台安全机制研究[J].信息安全与保密通信,2012(6):89-92.
[2]周天阳,朱俊虎,王清贤.基于VMM的Rootkit及其监测技术研究[J].计算机科学,2011,12(38):77-80.
[3]李虹,李昊.可信云安全的关键技术与实现[M].北京:人民邮电出版社,2010.
[责任编辑:王楠]