云计算中的大数据安全挑战与策略研究*
2023-01-18武岳
武 岳
(河南工业贸易职业学院信息工程学院,河南 新郑 451191)
如今,由于互联网的应用,计算存储机制发展迅速,用户可以用最低的成本获得所需的计算资源。因此,用户可以通过互联网将数据存储在任何云的远程系统上。云服务提供商(CSP)提供各种云服务,云计算分为部署模式和服务交付模式。部署模式分为:私有云、社区云、公共云、混合云;服务交付模式分为:软件即服务(SaaS)、平台即服务(PaaS)、基础架构即服务(IaaS)[1]。
云计算为企业或终端用户提供了各种便捷,例如减少运营成本、易于访问和迁移、具有灵活性。但是,由于安全和隐私问题,云计算解决方案的实施受到了限制,例如漏洞和来自内部和外部用户的威胁以及云风险。要确保云计算的安全,重要的是正确理解现有的安全策略。因此,本文的主要内容是了解各种安全风险和现有的安全解决方案中使用的机制,并且通过理论支持为未来的研究提供知识基础。
1 云计算中的安全挑战
1.1 云计算中的一般数据安全问题
由于云计算通过互联网向用户提供服务,如数据存储、计算或多种资源,因此很容易对数据造成威胁或导致数据丢失、泄漏,从而引发更大的安全和隐私问题。主要有以下5种安全威胁。
1)数据泄露:恶意的和未经授权的人通过技术手段进入企业或公司网络,访问或披露敏感、保密和受保护的数据。
2)数据丢失:数据的备份副本丢失、服务器崩溃、服务器内的数据丢失,都将导致数据被破坏、删除或无法被用户或软件读取。
3)帐户劫持:恶性入侵者窃取云服务的凭证信息,他们利用证书进入用户的网络,发布错误信息,并将用户引向恶意网站。
4)不安全的应用程序接口(Application Programming Interface,API):应用程序编程接口应该是足够安全的。如果出现了不安全的情况,则会造成一些严重的安全问题,例如数据威胁、无效的访问控制等。
5)拒绝服务:一些用户可能需要24 h使用云服务,对服务器的攻击会造成用户向服务器的访问不能被正常应答,拒绝正常授权用户访问数据。
1.2 面向大数据的云计算安全问题
大数据分析技术可以保护数据,并防止入侵者访问数据。大数据安全问题包括4个方面:一是保护大数据;二是为大数据分配和取消分配磁盘存储空间;三是维护公共云中大数据的日志文件;四是防止未经授权用户的访问。
为了有效保护大数据,云服务提供商在开发安全系统的过程中,需要维护数据的完整性、保密性和可用性。加密技术是云计算中常用的一种技术,它可以保证数据的安全,保护数据的机密性,防止因授权和未授权数据计算而造成的数据丢失,并使授权用户可以使用数据。
2 大数据安全的技术
2.1 大数据安全的基本技术
BlowFish加密算法是一种对称的分组加密算法,每次加密一个64位分组,使用可变长度密钥,32~448位。数据加密标准(Data Encryption Standard,DES)的密钥大小为164位,高级加密标准(Advanced Encryption Standard,AES)是用于大数据安全的基本加密方法,可变密钥大小。云存储采用非对称密钥加密技术有效保护大数据,但计算时间较长。RSA是一种引入公钥加密技术的加密方法,为了实现高度保护,该方法使用高达16 386的密钥长度。DH(Diffie-Hellman)密钥交换方法引入了第一个公钥协议,需要2 048位密钥大小以有效保护大数据。还有错误检查和纠正(Error Correcting Code,ECC),是一种很好的、复杂的大数据保护技术。数据加密算法(Secure Hash Algorithm,SHA)-2系列(SHA-224,SHA-256,SHA-384,SHA-512,SHA-512/224,SHA-512/256)和SHA-3都是使用哈希值进行加密的算法。大数据保护的一般流程见图1。
图1 云中大数据保护机制
2.2 保护大数据的技术手段
保护大数据的方法有很多,基于属性和同态加密是使用公钥加密的先进安全技术。格式保留加密是一类特殊的对称性加密算法,它可以保证在加密过程前后都保留数据格式。例如,如果明文是一个客户的ID,在加密完成后,密码文本的格式也是客户ID。在同态加密技术中,所有的计算都只在加密数据上进行,即密码文本,而不是明文。在完成所有计算后,对密码文本进行解密。与其他安全方法相比,完全同态的方法具有很高的效率,见图2。
图2 完整的同态加密方法
3 现有云环境中大数据安全概述
3.1 云计算中的安全技术
该方法使用加密技术来构建加密云计算框架。云计算安全的一个有效方法是信息加密,该策略使用量子密钥分发系统,它是一种高效和非对称的算法,用来生成一个离线密钥,该算法为每个实体分配私钥和公钥,每个实体都有一个私钥和一个公钥密钥生成器,能够离线生成任何其他实体的公共密钥。由于云服务中的所有终端元素都有自己的密钥,因此可以避免劫持接收终端的行为,而且很容易通知准确的数据丢失点,从而保证了信息交换的安全性。
3.2 云计算应用框架
开发一个具有多层结构的新框架,用于检测、销毁和隔离数据中心的数百亿字节的数据。第一层为访问控制和防火墙,它只允许拥有授权的受限用户访问数据。中间层的身份管理由两个系统组成:入侵防御系统(Intrusion Prevention System,IPS)和入侵检测系统(Intrusion Detection Systems,IDS)。该层的实施可以防止许多攻击,如拒绝服务(DoS)、结构化查询语言(Structured Query Language,SQL)注入。在第三层中,采用了一种加密方法,与自上而下的基于策略的安全管理和身份管理一起使用。
第一层具有防御入侵功能,它将产生一个加密密钥字符串,以保护数据免受恶意或未经授权的攻击。在生成加密密钥后,配置保存在IPS中,创建IPS规则,配置IPS签名存储位置,最后通知IPS事件。
第二层包括3个角色:用户、云计算应用框架(Cloud Computing Adoption Framework,CCAF)服务器和安全管理器。用户通过用自己的密钥和区块的组合生成每个密钥来进行加密。文件或数据块使用用户生成的密钥进行加密,对加密后的区块进行签名,并请求存储。该密钥用于解密文件或数据块,以在检索时获得原始文件。CCAF服务器只允许被授权的人、监控访问控制、数据加密和数据所有者之间的解密。
第三层采用融合加密(CoE)机制对所有节点进行安全测试。在这一层,应用哈希函数生成加密密钥K,从节点A的信息中获得节点A的加密密钥。假设M是一个来自节点A的消息,H是一个加密哈希函数,那么K=H(M)。节点A的消息是用这个生成的密钥K加密的。
这种方法比单层结构更有效地检测和清除威胁,并避免重复数据删除。通过选择正确的算法,可以提供更好的安全解决方案。
3.3 MetaCloudDataStorage的安全架构
为了保护云计算中的大数据,提出了Meta-CloudDataStorage架构[2]。根据大数据的重要性和生命周期,它们分布在多个数据中心。在这个体系架构中,数据被分为3个级别:关键、敏感和正常。用户请求通过MetaCloudDataStorage接口有效地转发到相应的数据中心。这个架构使用AWS Cloud-Trail来处理和管理日志文件,使用AWS密钥管理系统(KMS)负责日志文件的传递。其中,API调用时间、请求、响应参数以及API调用的IP地址,都由AWS CloudTrail维护。在这种方法中。数据中心是由n个部分组成的序列,假设有m个数据提供商,P是存储提供商,M是物理存储介质,那么存储路径={数据((P1(M1,M2,…,Mr))(P2(M1,M2,…,Ms)),…,(Pn(M1,M2,…,Mt))}。该方法对大数据的存储路径进行加密,加密后的值被称为大数据的加密虚拟映射[3]。这种方法中使用的机制并不能保护大数据,但这个架构保留并保护了部分存储在每个云存储的信息。管理员将相同的数据存储在不同的云存储中,并维护每个存储索引数据。如果任何数据部分出现问题,该架构接口可以使用另一个可以使用的数据副本[4]。
3.4 隐私保护的数据分割技术
采用数据分割技术对大数据进行保护。为了保护敏感数据,将整体的数据分割成若干可以独立管理并以清晰的形式存储,而不需要引用存储在不同位置的其他数据(见图3)。在这种方法中,入侵者无法通过使用一个单一的片段识别相应的主体,也就无法窃取隐私和重要数据。例如,如果入侵者窃取的片段包含一个用户名称的数据列表,但是他们不能通过这个列表了解任何关于用户名称的其他信息[5]。在保留隐私的数据分割方法中,敏感数据文件被转换为字节,这些字节被组合为一系列的部分内容。根据数据隐私的优先级,使用不同的云来存储部分数据。
图3 数据分割结构
4 结论
本文对云计算中大数据所涉及的所有安全挑战进行了描述,并列出了安全问题,主要有攻击、威胁和其他安全问题,并讨论了解决方案。本文还分析了现有安全机制的效率,本文的研究或分析结果可以为云安全知识提供理论支持和证据。云大数据安全和隐私问题是目前急需解决的问题,在不久的将来,可以通过安全的方法和架构提高云大数据的安全性。