大数据应用模式及安全风险研究
2020-12-28李洪波
李洪波
摘要:目的:对大数据应用模式进行分析,并对其存在的安全风险进行研究。方法:采用文献查阅法和案例分析法来对大数据应用模式中的安全风险进行分析。结果:Hadoop在云计算的应用中有不同的形式,同时也存在许多安全风险,要应对这些风险,可以对用户、平台、行为请求进行监控。
关键词:大数据;应用模式;安全風险;研究分析
中图分类号:TP309 文献标识码:A
现阶段,我国各个领域的数据生成都非常迅速,要处理的数据量也在急剧增多。这些数据除了具有数量大的特点外,还具有多样化的符号,这就对数据处理器的性能提出了更高的要求。如今,数据的处理已经不再是简单地要求生成统计报告,而是利用分析模型对数据进行进一步分析。依赖云计算平台搭建而成的Hadoop计算框架由此产生。但由于其自身的特点和安全机制的薄弱,该计算框架也存在着巨大的安全风险[1]。
1 大数据的应用模式
大数据应用模式本身就是信息技术发展的新兴产物,其具有数据的海量储存性,能够通过数据运算对海量的信息进行准确的处理。该模式通常会被运用于企业的会计信息处理中,也就是说当下的会计信息化,其本质是将会计知识与大数据处理进行结合,进而形成有利于企业会计资源处理的一种新型模式。在该模式下,企业能够利用云计算对每天发生的业务进行相应的处理,包括因为业务而产生的凭证、资金流动等数据,最重要的是企业可以通过云计算来将企业的每一笔资金流动进行计算,为企业财务部门提供更为准确有效且具有时效性的数据,对于企业的生产销售、产品定位等也能带来极大的帮助。比如可以通过云计算来整合市场数据,为企业下一步的发展做出相应的战略分析。云计算将传统的个人电脑和有私人数据中心的任务执行方式转变为具有专业计算存储功能的大型专业计算中心。这样一来,也就强有力地实现了计算机软件、硬件等计算资源的充分整合以及共享,使计算机软、硬件之间的资源高度共享成为一种可能,为企业的发展提供便利,让计算机中的私人数据与网络中的共享数据进行有效的整合,使这些数据充分发挥其作用,更好地为企业生产、销售等提供支撑力,为更好地服务企业提供了便利。
但是,大数据应用模式需要建立在企业拥有科学合理的数据以及企业财务人员懂得相应的计算机知识,能够利用财务软件进行数据处理这一基础之上,要求财务人员逐步提升自身的综合素质水平,将自身培养成综合性的人才。而大数据应用模式也并非只针对财务方面的运用,还体现在企业的整体发展中,大数据应用模式能够充分整合市场资源,对某一产品的销售量、市场潜力进行合理的分析,帮助企业对下一季度的产品生产做出最精准的预测,进而帮助企业盈利。大数据建立在科学的分析基础之上,其对于企业的发展具有重要的意义。由此,其应用范围也极为广泛。当下,大数据应用模式主要有以下几种模式:(1)数据的出售模式。对一些时效性较强的数据进行保留,定期为各行各业提供相关的数据服务,这种应用模式需要建立在庞大的数据库基础之上。(2)信息的租售模式。这种模式通常集中在某一行业或领域,在大数据庞大的处理能力支持下,对信息进行广泛的收集和有效的整合,将一些有价值的信息整理并向相应行业出售,以此来获得回报。(3)数字媒体的模式。这一模式近年来也应用得越来越多,主要是指利用网络媒体能够进行快速广泛的传播和及时互动的能力,实时、快速、准确地捕捉到客户群体,为客户提供准确的数据信息服务,并获得有效的反馈信息。(4)空间的运营方式。这个方式主要用于获取更多的数据资源,以及对数据资源的独占访问。(5)云计算服务模式。其优势是针对客户可以定制个性化的服务,通常面向企业,是基于互联网的动态虚拟化而提供的信息资源服务。这种模式下,企业无需花费大量的资金来购买基础设备,更不需要对设备进行维护与安装,这些专业的服务都将由云计算服务商来提供,只需要按照一定的方式来支付相应的租赁费用就可以对数据进行处理。这一方式不仅为企业节约了大量的资金,也为企业节省了更多的时间与人力。
通常情况下,数据应用需要与云计算相结合。Hadoop是目前大数据领域最为通用的技术平台,也是Google云计算GFS的开源实现。这为数据的计算提供了一种计算框架,而此框架更是为现代企业云计算和数据处理模式的实际运用提供了新的可能性,能够有效促进企业的发展,帮助企业朝现代化企业发展模式转型,进而提升企业的综合竞争力,让企业以有效、及时、精准的数据来应对企业发展中可能会存在的各种风险。而其中最为核心的技术就是HDFS(Hadoop Distributed File System)以及MapReduce,企业在实际运用大数据应用模式时,需要明确这两种核心技术的基本理论,然后将其落实于企业发展进程中。前者为大数据分析提供了高吞吐量的分析,而后者则是一种大型的数据分布式处理模型,由此可见,Hadoop为大数据的分析与处理提供了一个非常有效且可靠的信息存储与分析系统,其是企业真正将大数据应用模式融入于企业生产、销售的各个环节中的基础条件,能够助力于企业的现代化发展。当下,企业发展中运用大数据处理模式已经成为一种必然选择,是企业在现代化发展过程中想要取得更高的利润和拓展市场份额的必备条件,而在大数据的分析和处理中,将云计算与Hadoop相结合已经是一种必然的趋势,当下的企业发展已经与云计算、Hadoop的实际运用产生了必然的联系[2]。
2 对大数据应用模式安全风险的分析
云计算将数据外包给云服务提供商并提供服务,该服务标准也允许数据所有权归属于CSP,在对物理资源的控制中,用户失去了直接控制的主动权。通常,存储在云端中的数据以合法的文本形式存在,而CSP有权控制底层数据,因此,恶意的CSP很可能会在用户不知情的情况下窃取并篡改用户的数据,使云计算平台受到非法数据的控制,导致数据被非法读取,这让用户和平台的信息安全受到了威胁。这是大数据应用模式存在的安全风险之一[3]。
最初,在对Hadoop进行设计时,设计者并未考虑到相应的安全问题,在进行了多个版本的改进之后,Hadoop才有了基于ACL的访问控制机制。但是,该实施方案仍然存在很大的安全问题,尽管已经增加了访问控制策略,但安全形势依然非常薄弱。因为在基于此策略的ACL控制被激活之后,才可以对ACL执行访问控制,对其中相应的屬性进行匹配,其中包括限制用户与组成员对资料进行访问的节点通信。由此可以看出,这种过于依赖管理员的传统控制机制很容易被篡改并且不易被察觉。由于ACL的访问控制策略粒度过粗,很难对用户的隐私字段进行保护,并且针对不同的用户与不同的应用模式,访问控制机制也需要定时修改,这种操作过于烦琐且不利于维护。所以,Hadoop自带的安全机制非常不完善。
2.1 在不同应用模式下CAP和Uers带来的安全风险
企业自身应用的Hadoop中,由于使用者为企业的各个员工,因此,企业外部人员无权访问和使用这些数据与资料。而在非企业自身应用的Hadoop中,CSP被分为两级,一组需要负责提供相应的基础设施,另一组负责对Hadoop进行搭建与管理。当CSP存在权限过大的情况时,在用户不知道的情况下,CSP就能获取到用户的数据,这就是CSP对用户数据造成的威胁;当伪造用户获取到合法用户的数据或恶意用户对CSP提出非法请求时,也可以获取用户隐私数据,这便是用户对CSP造成的威胁[4]。以Hadoop在不同的应用模式中数据可能受到的威胁点为例,如图1所示,位置1和位置5处于相同的风险中。CSP可以通过位置1、3、4、5获取数据,Hadoop文件格式也有多种类型,有些文件格式是二进制,所以这些文件可以被读取。由于CSP对数据有绝对的控制权,所以很容易获得物理磁盘的所需内容,以便进行读取和分析。此外,CSP还可以使用超级用户的身份特权,在用户不知情的情况下对文件进行修改,并且可以通过位置1、2、5窃取所需的数据。非法用户也可以相应地获取和读取数据,非法用户一旦获得合法身份,就会与合法用户享有同等权利。它们可以在位置1和位置5发出请求,从datan-ODE获取相应的数据,并在位置2输出它们想要分析的数据。
2.2 威胁模型
假设数据库中所有的数据均是以客户订单日期等形式存在于数据库中,且每个客户都拥有一份相应的交易记录,如果客户想要得到某一个特殊日子里的订单数目,客户就可以通过Mapper来对数据进行读取。比如记录日期为D,那么对应的输出键/值就是
3 安全策略
在当今大数据时代下,数据的价值变得越来越重要,数据的安全问题也变得越来越严重。由于大数据具有规模大,数据类型多,数据结构非常复杂的特点,因此,维护数据所需的资金成本也越来越高。在大数据应用模式下,如何以低成本来保护数据的安全变得尤为重要。对文件和系统的保护通常称为数据服务安全保护,而对密钥值和结果存储内容的保护则称为隐私保护。根据上文中提到的一些大数据应用安全风险,提出了以下解决策略。
3.1 对CSP以及用户的身份进行验证
验证CSP及用户身份的完整性,Kerberos的双向验证功能可以保证使用双方身份的安全性,这是一项在请求发起时的验证。
3.2 验证平台的安全性
除了要保障使用双方的身份安全外,还需要对平台的安全性进行验证,平台验证可以通过使用可靠的计算技术方式进行,使用TPM技术创建一个可信任的云计算环境,并通过对平台云计算环境的测量,建立从物理层延伸的信任链于虚拟化层,这样就能够最大限度地保证云计算的安全性。
3.3 对行为请求进行监控
为了降低行为请求当中的安全风险,在数据使用过程中还需要对操作的请求进行实时监视。建立相应的非法操作监控机制可以确保监控这些非法操作的数据,降低数据的运算及输出的安全风险。另外,LSM还可以建立相应的访问控制策略,利用book函数监控内核调用,允许访问合法数据,拒绝非法数据和不可靠行为,保证数据流与应用程序的主体一致。
4 结语
文章对大数据的应用模式进行了阐述,分析了对云计算环境中使用Hadoop进行数据的存储,也对云计算中Hadoop的不同应用环境进行了分析,在Hadoop的操作过程中,对不可信主体造成的安全威胁给予了相应的威胁模型,并且判断风险主要来自于CSP以及数据的计算者。再加上通过CSP可以在用户不知情的情况下盗取和篡改数据,这并不能够保护客户的隐私和数据的安全,所以,针对这些问题,也对CSP、用户身份、平台的安全进行验证和对行为请求进行监控等提出了解决策略。
(责任编辑:侯辛锋)
参考文献:
[1]孙海勇,李青.大数据信息安全风险框架及应对策略研究[J].信息与电脑(理论版),2017(5):209-210.
[2]王帅,金华敏,沈军,等.大数据应用安全方案及对策研究[J].广东通信技术,2017(8):2-5.
[3]李依函,高寅生.大数据信息安全风险框架及应对方式探析[J].现代经济信息,2018(21):320.
[4]杨子建,倪娇娇.大数据面临的安全风险和对策研究[J].数字化用户,2018(50):104.
[5]谢琦.大数据背景下个人信息安全风险及保护措施研究[J].网络安全技术与应用,2018(3):57+76.