云计算环境下数字图书馆数据安全和隐私保护研究
2016-12-20王家玲郝梅梅
王家玲 郝梅梅 孙 敏
(铜陵学院,安徽 铜陵 244000)
云计算环境下数字图书馆数据安全和隐私保护研究
王家玲 郝梅梅 孙 敏
(铜陵学院,安徽 铜陵 244000)
建立云计算环境下数字图书馆数据的生命周期模型,分析云计算环境下数字图书馆数据在生命周期各阶段的安全威胁,构建生命周期各阶段数字图书馆数据安全和隐私保护框架,并对数据安全和隐私保护策略中的关键技术进行阐述。
数字图书馆;云计算;信息安全
1.引言
随着数字图书馆建设步伐的不断加快,图书馆的计算机等硬件设备需不断的维护与更新、各系统软件需不断升级、对计算机技术人员的要求也越来越高。维护和更新计算机设备所需资金的不足和计算机专业技术人员的缺乏正是数字图书馆发展过程中急需解决的问题,而云计算服务可有效解决这些问题。云计算是现代计算机技术应用的先进模式,它以高端数字化技术为支撑,扩大了数字图书馆信息处理的工作平台,实现了数字图书馆安全模式的智能化运行,因而得到图书馆界的极大关注。云计算通过网络通信技术使互联网上众多的计算机组合成为一台虚拟的超级计算机,它的分布式储存处理技术,给图书馆的数字化带来很大的机遇,如:提供便捷多样的软件服务和超大规模的计算和存储服务,以及方便的网络平台服务和全方位的网络扩展服务。然而由于云计算系统规模巨大,且集中了诸多用户的应用和隐私数据,同时它还具有前所未有的开放性和复杂性,因此它在给我们提供方便的同时,其安全性也将面临着比传统信息系统更为严峻的挑战。云安全联盟与惠普公司曾经共同列出云计算安全问题主要集中存在的七个方面[1]。因此,云计算若想在图书馆界广泛运用,云服务商和图书馆必须考虑到云计算所带来数据安全和隐私保护风险,并采取有效的应对策略。
2.云计算环境下数字图书馆数据的生命周期模型
数据的安全性主要包括两方面,一是数据完整性,即数据在保存或传输过程中不会被丢失或者破坏,用户在需要这些数据时可以及时、准确并且无误地获取。二是数据保密性,即数据在保存或传输过程中不会被泄露出去,能够保证用户的隐私信息不被侵犯。在云计算环境中,用户数据的存在形式可分为两种,静态数据和动态数据[2]。静态数据主要以海量存储服务和便捷访问服务为目的,例如用户需长期存储的图片文件、视频文件、文档文件等。这些数据只是静态的存储在云端,不参与动态运算,用户仅仅利用云的存储服务。对于静态数据,用户只需关注数据在上传至云端和存储在云端时数据的安全和隐私保护。动态数据是指存储在云端时需参与动态计算的数据,例如用户的数据库文件、程序文件、配置文件等。这些数据不仅使用了云计算的存储服务,还需使用它的计算服务,这些数据可以从云存储服务器上直接调用至内存进行运算。在云计算环境中,数字图书馆数据属于动态数据。数字图书馆的读者信息、书目信息、流通数据以及数据库数据等都是以动态数据的形式存放在云计算服务器中。用户需对数据进行各种操作运算,比如检索、查询、插入、删除等。因此,数字图书馆数据安全和隐私保护需考虑从数据上传至云计算服务器开始到数据在云计算服务器完全销毁为止这整个过程的各个阶段,包括数据的创建、存储、传输、使用和销毁。我们将这五个阶段称为云计算环境下数字图书馆数据的生命周期[3],如图1所示。
图1 云计算环境下图书馆数据生命周期模型
数据创建:数据通过静态上传或动态计算等方式被创建。如:数字图书馆将数据上传至云计算服务器、读者查询或检索信息过程中产生的记录信息,读者借阅产生的流通信息等。
数据存储:数据产生后被存储在内存,硬盘等存储空间中。如:图书馆上传来的信息要存放在云计算服务器的硬盘上,应用程序调用动态数据进行计算时数据存储在内存中等。
数据传输:数据上传至云端时要进行数据传输,用户使用数据或上层虚拟服务要使用数据时,数据要通过网络、进程通信等方式进行传输。
数据使用:数据在被云终端或其他云服务使用是整个生命周期中最为外在的功能。
数据消亡:数据在生命周期结束时,必须采用数据销毁技术进行处理。比如:数字图书馆只保存十年内的读者信息、流通信息,对于十年以前数据要求从云端删除;或者数据更换存储设备时,要求删除原服务器上的数据。
3.云计算环境下数字图书馆数据在各生命周期的安全威胁
(1)数据创建。数据在创建阶段的安全威胁主要来自三个方面:网络黑客、非法用户和不可靠的云服务商。数据在利用网络上传至云计算服务器的过程中,可能被黑客窃取和损坏。一些非法云服务商在接收数据后,可能会利用一些用户隐私信息,如读者身份信息等,获取非法利益。用户在新账户创建过程中产生的数据,若系统身份验证机制薄弱,入侵者就可以轻松获取用户账户信息,并利用它进行各种非法操作。
(2)数据存储。数据在存储阶段的安全威胁主要来自以下四个方面:一是由于云计算有着高度整合的大容量存储空间,而使用云计算服务的用户并不清楚自己的数据存储在哪个具体的物理服务器上,因此他们对自己的隐私数据失去了物理控制;二是在云计算环境下,数据存储资源是多用户共享的,在数据进行加密处理后是否就能够完全保证数据之间的隔离安全;三是对于用户隐私数据,能否建立安全的冗余备份机制以保证在事故出现时,用户的数据能够及时、安全地恢复;四是如何保证核心数据不被云服务商非法利用。
(3)数据传输。数据在各云端服务器间传输过程中主要面临两方面的安全问题:首先是如何确保用户的隐私数据在网络传输过程中能够严格加密,入侵者即使窃取到数据也无法解密还原成明文,保证用户隐私数据的保密性;再次是如何保证数据能够完整地、准确无误地传输。
(4)数据使用。数据在使用阶段的安全威胁主要有:一是由于云服务商的可靠性很难评估,为了维护自己的利益,他们很可能隐瞒数据在云计算服务器上已被破坏的事实,用户无法判断存储在云计算服务器上的数据的完整性和可恢复性;二是系统调用数据进行云计算时,如何保证数据的可用性、正确性和完整性;三是如何保障数据在使用过程中的隐私安全;四是用户在访问使用数据时,如何进行访问控制,防止非法用户和黑客对数据的盗取和破坏。
(5)数据消亡。云计算环境下,用户数据会被多个服务器以多种方式进行备份,以确保数据在云端的可靠性。然而这种可靠性也给数据在生命周期结束后的删除带来了不便。被删除大量的密文重复数据以及由于技术原因造成的数据残留,可能被入侵者非法重建并窃取。
4.云计算环境下图书馆数据安全和隐私保护策略
4.1 全生命周期数据安全和隐私保护框架
图2 全生命周期数据安全和隐私保护框架
在云计算环境中,为了保障数字图书馆数据在整个生命周期的安全,需要对数据的创建、存储、传输、使用和消亡等过程进行全生命周期数据安全和隐私保护,确保数据的完整性和机密性。
(1)数据创建。对于数据创建阶段的安全威胁,云服务商和数字图书馆可通过身份认证、权限管理和数据加密等多种技术手段来保证数的安全和隐私。由于数字图书馆静态上传的数据,可通过高强度加密技术保证数据的机密性。对于数字图书馆核心数据,如读者身份信息,可对其进行全同态加密,以实现数据的密文检索。利用密文检索技术,可直接对密文进行检索,防止数据解密后泄露给云服务商或入侵者,是实现隐私保护的有效手段。
对于用户使用过程中产生的数据,可采用身份认证和权限管理相结合的方式保证数字图书馆数据资源不被非法访问和使用。在云计算环境下,数字图书馆服务安全的首要前提是统一认证,特别是用户的身份认证,它在安全保障中起到了至关重要的作用。只有通过身份认证的用户才被授权访问“云”中的相应资源[4]。其次,可根据用户对信息需求层次的不同,将用户划分成多个层级,每个层级的用户访问权限不同,我们可严格控制各层级用户对资源的访问权限[5]。云计算环境下,若将单点登录的统一身份认证与PMI权限控制技术相结合,图书馆可根据不同的用户级别设置不同的管理访问权限,将物理位置不同的云端资源实现物理上和逻辑上的多层管理和控制,然后通过严格控制用户对资源的访问权限来保证数据与服务的安全。
(2)数据存储。图书馆数据上传至云端后,被存储在云计算服务器上。为确保数据的安全和隐私,云服务商可通过硬件的冗余容错、数据恢复技术、存储加密技术和数据隔离保护技术等多种技术多数据进行多重保护。采用冗余容错技术和数据恢复技术,保证服务器物理设备出现故障或系统软件出现问题时数据的完整性和可用性。采用各种高强度数据加密技术对数据进行记录级加密、文件级加密、数据库级加密,以保证数据的机密性。使用数据隔离保护,如:进程隔离、任务隔离、虚拟机隔离、租户隔离等保证数据隔离安全。
(3)数据传输。云端数据一般采用加密算法对其进行加密后再传输,传输的网络采用虚拟专用网以保证数据的机密性与完整性。首先,对于上传的静态数据采用高强度加密算法进行加密处理,若是调用多个服务器中的数据进行动态运算,数据在传输过程,可通过对多个服务器上的数据进行分布式加密处理,防止隐私数据泄露给未经授权的用户;另外,在数据的安全传输协议中增加完整性校验算法,接收到数据后对其进行校验以保障数据的完整性。
(4)数据使用。通过严格的身份认证技术,保证数据被合法用户访问和使用。在使用过程中,一些核心数据,可通过密文检索技术和查询隐私技术等进行检索,确保数据的隐私安全。为了确保用户使用数据的完整性,图书馆需定期对云计算服务器上的数据进行完整性验证,云服务商需向数字图书馆出示持有性证明,确保数据完整的保存在云计算服务器中。
(5)数据消亡。由于云计算系统中数据的可靠性,大量的密文重复数据和多副本冗余数据的删除成为难题。云计算服务商必须采用可靠的数据销毁技术进行处理,防止入侵者或其他租户利用数据还原技术恢复出原始数据。可靠的数据销毁技术可实现对虚拟机映像以及虚拟服务的敏感数据在生命周期末时的数据擦除,从而确保数字图书馆数据隐私安全。
4.2 关键技术
(1)加密技术。数据的存储或传输过程中,用户通常利用对称密码体制或公钥密码体制对数据进行加密处理,以在一定程度上达到保证数据私密性的目的。其中,有一种基于公钥密码体制的特殊加密方式,它以属性特征作为公钥和私钥对用户数据进行加、解密,是一种基于属性的加密。只有当用户私钥能够满足加密数据所对应的属性时,才能够将密文数据解密成明文数据。此外,还有一种加密算法称为同态加密[6],它可以实现有目的性的对密文进行搜索等操作,使得云端数据私密性安全有了新突破,目前同态加密已成为学术界研究的主要方向。
(2)数据完整性验证和持有性证明。验证云端数据的完整性,传统的方法是在上传数据至云端时,首先利用哈希函数计算出数据的哈希值,并将其存放在本地。验证数据时,要下载所有数据到本地,计算得到哈希值和本地存储哈希值进行比较。但是这种验证方法对于存有海量数据的数字图书馆不仅低效,而且还占用了大量的网络资源,因此无法满足数字图书馆验证数据的要求。为此,研究者提出了利用数据持有性证明来验证数据完整性的概念,即在用户验证数据完整性时,云计算服务商无需向其提供完整的数据,而是通过某种方法向他证明其持有的数据还完整的存放在服务器上,并且这些数据是可存取的。目前,数据持有性证明的研究主要集中在PDP[7]模型和POR[8]模型。其中PDP模型只能检测存储在服务器上的数据是否完整,无法保证这些数据是否可以恢复。而POR模型则结合了检测点和纠错码来验证数据完整性,它不仅可以验证数据是否完整,还可以在数据出错时将其恢复。
(3)密文搜索。密文搜索是一种对加密后的密文直接进行检索的技术,因此与加密处理环节密切相关。在数据加密阶段,若使用的是同态加密算法,则可直接对加密后的密文进行搜索等操作,这样既可以保护用户的隐私数据,也可以减少加解密所消耗的系统资源,大大提高了操作的时效性。目前,密文检索主要有等值匹配检索和密文区间检索两种方法。等值匹配检索主要是线性检索,如:基于关键词的公钥检索和安全索引的算法[9][10];密文区间检索,主要有区间检索和保序加密算法[11]。
5.结语
云计算环境下,数字图书馆数据的存储安全是图书馆和云服务商必须考虑的问题。文章从云计算环境下数据的生命周期角度,探讨了数据的安全和隐私保护所存在的威胁,并给出了相应的应对策略。但是,若要实现云端数据真正的安全,光从技术上保障是远远不够的,只有将严格的“云”安全标准和“云”安全监管体系的建设结合起来,并遵守国际通用的“云”安全法律制度,才能真正解决云端数据的安全问题,才能为用户提供一个真正安全的“云”图书馆[12]。
[1]Top Threats to Cloud Computing V1.0[EB/OL].[2015-07-10].http://wenku.baidu.com/view/db3506ea81c758f5f61f-67e5.html.
[2]张逢喆.公共云计算环境下用户数据的隐私性与安全性保护[D].上海:复旦大学,2010.
[3]李清玉.云计算数据安全研究[J].信息安全与通信保密,2012 (12):62-65.
[4]刘高嵩,张传昌.网格环境下统一身份认证的研究[J].网络安全技术与应用,2008(10):19-21.
[5]赵海霞,刘万国,洛凤军.数字图书馆安全的用户分级研究[J].图书馆学研究,2008(11):50-52.
[6]GENTRY C.Fully Homomorphic Encryption Using Ideal Lattices[M].New York:Association for Computing Machinery,2009: 169-178.
[7]ATENIESE G,BURNS R,CURTMOLA R.Provable Data Possession at Untrusted Stores://Proc of the 14th ACM Confon Computer and Communications Security(CCS'07)[C].NewYork: ACM,2007:598-609.
[8]JUELS A,Jr KALISKI B S.PORs:Proofs of Retrievability for Large FIles://Proc of the 14th ACM Conf on Computer and Communications Security(CCS'07)[C].New York:ACM,2007: 584-597.
[9]黄永峰,张久龄,李星.云存储应用中的加密存储及其检索技术[J].中兴通讯技术,2010,16(4):33-35.
[10]SWAMINATHAN A,MAO Y N,SU G M,et al.Confidentiality-Presving Rank-OrderedSearch://Proceedings of the 2007 ACM Workshop on Storage Security and Survivability(StorageSS'07)[C].New York:ACM,2007:7-12.
[11]AGRAWAL R,KIERNAN J,SRIKANT R,et a1.Order Preserving Encryption for Numeric Data://Proc of the 2004 ACM SIGMOD Int Conf on Management of Data(SIGMOD'04)[C]. New York:ACM,2004:563-574.
[12]周波.基于云计算的图书馆服务模式研究[J].现代情报, 2010(10):44-47.
Research on Information Security and Privacy Protection of Digital Library’s Data under the Cloud Computing Environment
Wang Jia-Ling,Hao Mei-mei,Sun Min
(Tongling University,Tongling Anhui 244000,China)
In this paper,we proposed a life cycle model of digital library’s data under the cloud computing environment,and analyzed the security threats of digital library’s data under the cloud computing environment at each phase of the life cycle.Then we constructed the framework of information security and privacy protection of digital library’s data under the cloud computing environment,and expound the key technologies of information security and privacy protection policy.
digital library;cloud computing;information security
TP393.083
A
1672-0547(2016)01-0115-03
2015-11-03
王家玲(1983-),女,安徽无为人,铜陵学院图书馆馆员,硕士,研究方向:情报文献学;
郝梅梅(1982-),女,安徽寿县人,铜陵学院图书馆馆员,硕士,研究方向:情报文献学;
孙 敏(1982-),女,安徽铜陵人,铜陵学院图书馆馆员,硕士,研究方向:情报文献学;