基于Hadoop的云计算数据安全性研究
2023-05-23徐嘉诚郭晓娜
徐嘉诚 郭晓娜
作者简介:徐嘉诚(1992— ),男,江苏南京人,工程师,学士;研究方向:网络安全。
*通信作者:郭晓娜(1980— ),女,江苏淮安人,工程师,学士;研究方向:网络安全。
摘要:随着计算机技术的发展,云计算逐渐成为一种新型且重要的商业模式,在现代社会中扮演着越来越关键的角色。文章主要介绍了基于Hadoop数据安全的研究,首先概述了云计算技术和Hadoop技术;其次对云数据和安全情况进行了分析;最后就安全性问题及解决办法进行了论述。
关键词:Hadoop;云计算;数据安全
中图分类号:TP 399 文献标志码:A
0 引言
当今社会,云计算技术的发展已经十分迅速,其应用也越来越广泛。企业面临着海量数据的处理和分析任务,这些数据需要高效、安全的存储和处理。基于Hadoop的云计算平台提供了一种高效、可靠、可扩展的分布式计算和存储解决方案,可以帮助企业解决这些问题。当企业使用基于Hadoop的云计算平台来存储和处理数据时,其系统业务的数据安全性就显得尤为重要,因此,保障基于Hadoop的云计算平台数据安全性具有重要的意义,这也正是本文所要探讨的云计算平台的安全问题和安全性实现。
1 云计算平台
1.1 云计算技术
云计算是一种以互联网为基础的虚拟化技术,可以把大量与计算机有关的信息(包括硬件)集合起来存储在一个网络上[1],在使用这种方式时,需要将数据进行加密处理。云安全也称为可信访问控制或密钥管理,其作用主要是保护用户的服务器资源以及系统中其他人、设备和物品所提供的信息不被泄露或者篡改,保证整个互联网交易过程不会受到影响,并且可以有效地避免不必要的损失和风险发生。云计算是一种虚拟化的资源,不需要储存硬件设施,但是可以在计算机系统中进行运算和存储。
云计算是一种基于虚拟化的信息处理技术,利用计算机硬件、软件和服务等实现对用户数据的存储,通过网络连接完成资源共享。20世纪80年代,随着计算机性能的提高和网络技术的发展,分布式计算开始受到人们的重视,它是一种将计算任务分配给多个计算机节点并协同工作的方式,以提高计算效率。21世纪初,随着Internet的普及和大规模分布式计算的发展,网格计算成为分布式计算的一种重要形式,网格计算是将全球计算机资源组织起来,形成一个超级计算机网络,以完成大规模的计算任务。目前,全球已经开发了许多云计算服务,包括基于网络的服务器、基于分布式数据库和面向应用领域的。其中最成功的是谷歌公司,在2008年就推出了Web浏览器系统来实现资源共享,它将一个或多个用户按需分配到各个节点上使用该客户端部署过的数据流,并把所有信息存储起来为其他服务需要时提供便利,最终达到服务的目的[2]。
云计算作为一种基于互联网的新型计算模式,具有以下特点。云计算系统能够根据实际需求动态调整计算和存储资源,从而实现弹性伸缩;云计算系统能够将计算和存储资源在多个用户之间共享,从而提高资源的利用率和效率;云计算技术是基于多租户的环境设计的,多个用户可以在同一个云平台上共享计算资源。通过对资源进行虚拟化和隔离,云计算技术可以提供高效的资源共享和利用,并且可以保证用户的数据和应用程序的安全性;云计算系统能够提供高可用性的服务,通过多副本备份机制、冗余存储机制等保证服务的可靠性;云计算技术具有强大的网络化管理能力,通过云平台的管理界面可以轻松地管理和监控计算资源的使用情況,包括服务器的状态、存储空间、网络带宽等。同时,云计算平台还可以提供自动化的管理和故障排除功能,以降低管理成本和提高系统的可靠性。
1.2 Hadoop技术
Hadoop技术是一种高效、可靠、可扩展的分布式计算平台,适用于处理大规模的数据集,具有可靠性、扩展性、高效性、易用性、兼容性等特点。
Hadoop是基于分布式系统的技术,数据被分布存储在多台服务器上,避免了单点故障,保证了数据的可靠性和可用性;Hadoop可以在集群中添加新的节点,以应对不断增长的数据量和计算需求,具有良好的横向扩展性;Hadoop采用MapReduce并行计算模型,可以并行处理大规模数据,提高数据处理效率;Hadoop提供简单易用的API和工具,使得开发人员可以方便地进行数据处理和分析;Hadoop兼容各种不同的数据格式和存储方式,可以处理不同类型的数据,包括结构化数据和非结构化数据。
基于Hadoop的云计算平台,可以根据需求动态调整计算资源,实现弹性伸缩,提高计算效率和成本效益。云计算平台提供高可靠性和可用性的基础设施,可以保证Hadoop集群的稳定运行,减少单点故障和数据丢失的风险;云计算平台提供多种计算实例类型和配置选项,用户可以根据自己的需求和预算选择合适的实例和配置,提高灵活性和可配置性;将Hadoop部署在云计算平台上,可以根据实际的使用情况灵活地选择计算资源和存储资源,避免资源浪费,降低总体成本。
总的来说,将Hadoop技术和云计算技术相结合,可以实现资源的高效利用、成本的降低和安全的保障,为云计算企业提供更好的数据处理和分析服务。
2 云计算系统中的Hadoop技术安全分析
2.1 云计算平台安全问题
基于Hadoop的云计算平台提供了一种高效、可靠、可扩展的分布式计算和存储解决方案,但是随着云计算平台的普及,数据安全问题也日益凸显。基于云计算技术的特点,其自身可能存在以下安全问题。
(1)由于云计算服务通常是公共云服务,可能存在恶意用户冒充他人身份进行访问或使用,或者未授权的用户或程序通过弱口令或漏洞等方式访问云计算服务中心的数据和资源。
(2)云计算服务商需要处理大量用户数据,可能存在隐私泄露和数据保护的问题。例如,云计算服务商可能会在未经授权的情况下访问用户的数据,或者在数据存储和传输过程中存在数据泄露的风险。
(3)云计算服务可能会受到各种网络安全攻击,如DDoS攻击、网络钓鱼攻击等。此外,云计算服务商的网络安全设施可能存在漏洞或者配置错误,导致出现安全漏洞。
(4)云计算服务的使用需要遵守相关的法律和法规,如数据隐私保护法规,如果服务商不遵守,将可能出现合规问题。
(5)云计算服务通常依赖于供应商和第三方服务,如果其中某一个环节存在安全问题,可能会对整个云计算生态系统造成威胁。
2.2 Hadoop安全措施
Hadoop提供了许多安全措施,如访问控制、数据加密、身份验证等,确保数据的安全性和机密性,故而,基于Hadoop的云数据安全性需要综合考虑以下几个方面:身份验证、访问控制、数据保护、安全审计和合规性要求。
(1)身份验证。Hadoop集群中的节点和用户必须经过身份验证,以确保只有授权的用户才能访问集群。Hadoop支持基于Kerberos的身份验证机制,可以通过Kerberos服务器验证用户身份。
(2)访问控制。Hadoop集群中的每个节点都须具有访问控制机制,以确保只有授权的用户才能访问敏感数据。Hadoop提供了基于用户、组和角色的访问控制机制,可以通过配置文件和ACLs(访问控制列表)来管理用户访问权限。
(3)安全审计。Hadoop集群中的操作应该进行记录和审计,以便跟踪故障、调查安全事件和满足法规要求。Hadoop通过提供日志记录和审计机制,记录用户操作、系统事件和安全事件,并满足保留6个月以上日志的法律要求。
(4)數据保护。在Hadoop集群中,敏感数据应该加密存储,以确保未经授权的访问者无法查看和窃取数据。通过Hadoop提供的数据加密和数据脱敏机制,来保护敏感数据的安全。
(5)合规性和监管要求。在处理敏感数据时,Hadoop集群必须符合适用的合规性和监管要求,包括《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》等的具体规定。
2.3 云计算平台安全性实现
云计算框架是一个完整的系统框架,包含物理层、传输层和应用服务3层[3],通过这3层技术能够提供非常丰富的云计算能力和友好的用户界面。云计算的安全性取决于各种因素,包括云服务提供商的安全措施、客户使用云服务的方式以及数据的敏感程度。作为云服务提供商需要考虑以下几个安全方面的内容。
(1)身份验证和访问控制。云服务提供商应该实施身份验证和访问控制机制,以确保只有授权用户才能访问客户数据,可以采用基于角色的访问控制模型,通过用户组和角色来管理用户的访问权限,限制非法用户的访问。此外,还可以采用访问控制列表和网络隔离等技术来加强访问控制策略。
(2)数据保护。云服务提供商应采取适当的技术措施,以确保存储在其服务器上的数据不会被未经授权的人员访问、窃取或破坏,通过使用数据加密算法,如AES、DES、国密SM4等,对数据进行加密,从而防止数据在传输和存储过程中被窃取或篡改。此外,还可以采用分布式密钥管理系统来管理密钥,确保密钥的安全性。
(3)合规性和监管要求。云服务提供商应遵守相关法规和监管要求,包括《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》等的具体规定,并应提供相应的合规性证明。
(4)安全审计。云服务提供商应定期进行安全审计,并向客户提供相应的安全审计报告,通过采用成熟的日志管理和监控工具,如ELK,Splunk等组件,对系统进行实时监控和数据收集,对系统行为进行分析和监控,及时发现系统中的安全问题。
(5)灾难恢复和备份。云服务提供商应该实施恢复和备份策略,通过分布式存储的多副本模式进行冗余备份,以确保客户数据的可用性和完整性。
作为云计算用户可以采取以下措施来保护云上系统的安全。
选择信誉良好、拥有丰富经验和完善安全措施的云服务提供商;根据用户的职责和权限设置访问控制,确保只有授权的人才能访问敏感数据;采用双因素身份验证,例如使用密码和手机验证码等,防止密码泄露和黑客攻击;在数据传输和存储过程中使用加密技术,防止数据被截获或窃取;定期监控和审计用户的云计算使用情况,及时发现异常行为和安全威胁;定期本地备份数据,并采取灾备措施,确保数据不会因为自然灾害、硬件故障或人为错误等原因丢失或损坏;定期更新软件和安全补丁,确保系统和应用程序的安全性和稳定性;对管理用户进行安全意识教育和培训,提高用户的安全意识和防范能力,防止因为用户疏忽导致的安全事故。
3 结语
云计算作为一种新兴的服务模式,具有广泛的应用前景,国内外很多人都已经意识到了其重要性和必要性。然而,由于技术、安全等问题,现在还未能实现对它所有方面数据的全面保护。本文主要是针对基于Hadoop的安全性研究做了探索及分析,介绍了云计算的概念以及相关理论知识;根据实际情况提出了新的思路来解决云计算环境下存在的信息泄露风险,并为云计算在大数据网络安全方面的应用提供了一定参考;对云计算中所涉及的概念进行了研究,包括安全性原则以及如何实现这些目标。
参考文献
[1]李杰.大数据和云计算技术在智慧城市建设中的应用[J].网络安全技术与应用,2023(2):102-103.
[2]张文明.基于云计算的Hadoop大数据平台挖掘算法及实现研究[J].无线互联科技,2021(19):110-111.
[3]苏俊坚.云计算高校数据中心建设及安全性研究[J].电子技术与软件工程,2020(24):251-252.
(编辑 沈 强)
Abstract: With the development of computer technology, cloud computing has gradually become a new and important business model, playing an increasingly crucial role in modern society. The article mainly introduces research on data security based on Hadoop. Firstly, it provides an overview of cloud computing technology and Hadoop technology; Secondly, an analysis was conducted on cloud data and security situation; Finally, the security issues and solutions were discussed.
Key words: Hadoop; cloud computing; data security