APP下载

云计算中数字图书馆外包数据的完整性检测*

2014-12-31邵志毅梁启凡

图书馆论坛 2014年12期
关键词:计算环境完整性加密

邵志毅,杨 波,梁启凡

0 引言

在数字资源急速膨胀时代,云计算是较好的存储解决方案。云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使各应用系统能根据需要获取计算能力、存储空间和软件服务。全基因关联分析(The Genome- Wide Association Study,GWAS)就是该应用的实例。微软研究院在Windows Azure 云平台上进行了一次27000 核的试验,用72 个小时完成一个8 核系统上需25 年才能完成的任务。云存储是云计算的一个方面,能有效解决大数据和海量数字资源背景下图书馆存储能力不足问题。云存储将大量存储资源整合成资源池,用户可按需申请,不需自行购买存储设备和维护服务,这些事务可交给云服务商,削减运营成本[1]。

然而云计算环境下,仅5.5%的研究人员希望通过数字方式保存研究成果[2];科研人员中认为数据丢失造成严重影响的有44%,对云存储可信性质疑,并认为问题比较严重的有37%[3]。后两种情况相加比例高达81%,它们都和数据完整性相关,可见数据完整性是阻碍云计算发展的重要问题。且近年云数据泄露和损毁情况迅猛增加[4],补救措施花费惊人[5]。中国70%的企业不愿将内部数据放在云上,主因是数据安全。在IDC(互联网数据中心)关于“用户认为云计算模式的调整和问题是什么”的调查中,数据安全以74.6%位居榜首。可见安全问题是阻碍云计算走向成功的关键[6]。

但在图书情报领域,对云计算环境下图书馆数字资源的安全问题研究较少,尤其是关于云计算环境中图书馆外包数字资源的完整性检测问题,相关研究几乎空白。本文围绕该问题,在云计算环境中,针对图书馆可公开的外包数据和隐私外包数据,分别提出数据完整性检测方案。

1 云计算安全问题

云计算安全问题主要有[7-8]:数据完整性,即数据审计,这是最重要的安全问题之一;云计算的正确性,即怎样确保云计算平台给用户提供的计算结果正确;数据保密性,包括针对云服务商的保密和针对其他用户的保密;云平台运转是否可靠,是否能长期运营;用户对云资源的操作通过网页和网络进行,网页和网络接口的安全直接影响云端数据的安全;云用户的身份认证和操作权限判定,恶意用户通过身份欺骗获取权限,从而在云平台上非法获取数据。云计算中安全问题多,本文只关注数据完整性检测,具体的研究内容是:在云计算环境下,针对图书馆外包数字资源,研究如何检测这些数据是否被完整地保存在云服务器上。

2 云数据完整性验证

图书馆数字资源可分为两类:一是可公开数字资源,包括电子图书、报刊、可以公开的学位论文、书目信息;二是隐私数字资源,包括古籍善本、保密的学位论文、学生信息等。对于古籍善本,公开数据有利于中华文明的传播[9],但并非意味可不假思索地任意传播。这种公开可能是有条件的,或者是在一定基础上的公开。故将该类资源归到隐私数据。

不管是公开或是保密数字资源,数据量非常庞大,则在进行完整性检测时,就不能按照传统方式,将数据从云存储下载再去比照。这样做会严重增加网络带宽消耗,而且对于动辄TB 的数据量来讲也不可行。该情况下,进行完整性检测的基本要求是不需下载数据。笔者针对这两类数字资源,分别探讨其完整性检测的方法。

3 公开数字资源完整性检测

对于公开数字资源,如电子图书等,因无需保密,则该类资源可以明文形式保存在云存储上。为了在检测完整性时不用下载数据,我们借助Shacham 等人“可恢复性证明[10](Proof of Retrievability 或PoR)”的思想,构造如下方案:

第一步:对一个名称为name 的数字文件M,图书馆将其分成n 个数据块{m1,…,mn}。

第二步:图书馆对每个数据块m1签名,使用Boneh 等人的BLS 签名算法[11]。假设这n个数据块的签名为{σ1,...,σm},数据块mi的签名具体表示为σi=(μH(mi))α,其中,H 是密码学hash 函数,可将任意长度的0、1 字符串映射为群G 上的元素;μ 是群G 的生成元;α 是图书馆私钥。

第三步:图书馆将数据块和相应签名一起外包给云存储。

第四步:检测文件M 的完整性时,图书馆先生成挑战对(i,vi),用来对第i 个数据块进行检测,其中vi是为数据块i 选取的随机数。假设群G 的阶为p,即G 中有p 个元素,则vi从G 的支撑Zp中选取。

需选取多少个这样的挑战对,有两种方案:一是对每个数据块生成一个挑战对,优点是检测结果的准确性高,但数据块越多,相应的挑战对数量就越多,运行检测方程时计算量就越大。该方法对完整性要求较高的数字资源,比如学生的资料信息、古籍善本等比较适用。二是概率性的抽取部分数据块进行检测,挑战对的数目和想要达到的检测成果的准确率成正比[12]。该方案效率高,但结果存在误差,适用于对完整性要求不太严格的资源,如电子图书等。应该选哪种方式,是一个折中的考虑。

本文目的在于说明如何进行完整性检测,对于该问题不作展开,因此选择第一种方案以便说明,即针对每个数据块生成一个挑战对,最后组成一个挑战chal= {(i, vi) }。图书馆将chal 发送给云存储,并等候应答。

第六步:图书馆通过判断方程e(σ,g)=e(μμ,v)是否成立来确定数据的完整性。该方程中e 是密码学的双线性映射,可理解为函数运算;g 是群G 的一个生成元,在生成图书馆公钥v 时用到,即v=gα。公钥v 和私钥α 相对应。如该等式成立,图书馆可确定文件M 完整,反之,若不成立,则文件一定存在丢失或被篡改。

4 隐私数字资源完整性检测

对于隐私性数据,如学生的保密论文以及学生资料信息、未公开的古籍善本等,为防止云服务提供商私自使用数据,或第三方用户盗取数据,图书馆在外包该类资源之前,应先加密。

加密有两种方式,对称加密和非对称加密。所谓对称加密,是指加密操作和解密操作使用同一密钥,该密钥只有加密方和解密方能获得。所谓非对称加密,是指加密和解密的密钥不一样,加密密钥可公开,任何人都可用该公开密钥加密;解密密钥保密,只有可解密实体才能拥有。两种加密方式有一个很大区别,即对称密钥的加密效率要远高于非对称加密。对称加密常用来对文件本身加密,非对称加密常用来对对称加密中的密钥加密。

就图书馆数字资源而言,因数据量大,如使用非对称加密,效率非常低。因此加密时应选对称加密。方案如下:

第一步:图书馆用对称加密算法对数字文件M 加密,得到加密后的文件C。将C 分成n块{c1,...,cn}。

第三步:图书馆将密文数据块和相应签名一起保存在云存储上。

第四步:对文件M 检测时,图书馆生成挑战chal= {(i, vi)},并发送给云存储。

第六步:图书馆通过判断等式e(σ,g)=e(μμi,v)是否成立,来确定数据的完整性。

5 方案分析

5.1 方案正确性

本节证明在第三、四节中提到的检测方程e(σ,g)=e(μμi,v)可用来检测数据完整性,证明过程中将用到双线性映射的重要性质,即e(αm,bn)=e(α,b)mn=e(αn,bm). 证明如下:

由证明知,若图书馆外包数据未发生变化,则云存储返回的应答一定满足检测方程;反之,若数据变化,则应答不满足方程。因为方程中出现的μ 是根据外包数据计算的,只要数据发生变动,μ 必变,则检测方程必不再满足。由此可知外包数据是否发生变动,即完整性是否满足。

5.2 方案可公开验证性

所提方案可实现数据完整性的公开验证,即图书馆可将验证数据完整性的任务委托给任何第三方机构。因为在验证方程e(σ,g)=e(μμ,v)中,双线性映射e 的计算方式、群的生成元g 和μ 以及图书馆的公钥v,都是公开参数;i和vi由检测机构产生;σ 和μ 是云存储返回给检测机构的值。因此任何第三方机构都可通过这些公开参数来验证完整性。

5.3 方案对隐私数据的保密

5.4 协议的可行性

在Matlab 仿真环境中设计实验,如下进行:先建立用户文件,按方案对文件分块、签名,将文件块和签名发送至云存储。分4 种情况:(1)云存储不对文件修改。该情况下,用户通过计算得知云存储的应答满足判定方程,从而确认文件完整;(2)云存储将文件第一段部分内容删除,用户计算判定方程无法满足。(3)云存储对第一段内容修改,判定方程无法满足。(4)云存储给文件添加内容,判定方程无法满足。实验证明当文件完好保存时,判定方程满足;在云存储对用户数据文件进行删除、修改、添加等操作后,判定方程无法满足。以下是实验截图。

图1 原始文件内容

图2 完整文件测试结果

图3 删除文件第一段部分内容

图4 修改第一段内容

图5 在第一段前插入新内容

6 结语

本文将密码学和信息安全中完整性检测的最新技术应用到图书馆中,解决了数字资源在云计算环境中的完整性检测。日后工作将着力研究如何对动态变化的数据进行完整性检测。

[1] 马晓亭,陈臣.云计算环境下数字图书馆的成本效用研究[J].图书馆论坛,2012(3):37- 40.

[2] 臧国全,安明.数字保存的认知与实践—基于图书情报学科数字资源保存的调查[J].图书馆论坛,2012(5):78- 112.

[3] 韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121- 122.

[4] Data Breach Investigations Report:Breaches Increased Dramatically While Data Loss Was at All- Time Low[EB/OL]. [2012- 09- 06]. http://newscenter.verizon.com/press- releases/verizon/2011/verizon- 2011- databreach.html.

[5] StorageNewsletter [EB/OL]. [2012- 09- 06]. http: //www.storagenewsletter.com/news/security/ponemonsymantecdata- Breach.

[6] 巴力立.中国云存储深入调查[EB/OL].[2010- 04-12]. http://www.cloudcomputingchina.cn/Aritcle/luilan/200910/335.html.

[7] 张海玉.云平台下数字图书馆的安全策略研究[J].图书馆学研究,2013(3):42- 46.

[8] Lifei Wei,Haojin Zhu,Zhenfu Cao,et al. Security and Privacy for Storage and Computation in Cloud Computing[J].Information Sciences,2014:371- 386.

[9] 黄玮夏.古籍文献数字化与数字图书馆建设[J].情报科学,2010(8):1267- 1277.

[10] Hovav Shacham, Brent Waters. CompactProofs of Retrievability[J].Journal of Cryptology,2013 (26):442- 483.

[11] Dan Boneh,Ben Lynn,Hovav Shacham. Short Signatures from the Weil Pairing[J].Journal of Cryptology,2004(4),297- 319.

[12] Giuseppe Ateniese,Randal Burns,Reza Curtmola,et al. Provable Data Possession at Untrusted Stores[C]//In Proceedings of 14th ACM Conference on Computer and Communications Security,2007:598- 609.

猜你喜欢

计算环境完整性加密
云计算环境下船舶无线通信网络入侵检测方法
云计算环境下网络安全等级保护的实现途径
一种新型离散忆阻混沌系统及其图像加密应用
石油化工企业设备完整性管理
一种基于熵的混沌加密小波变换水印算法
加密与解密
莫断音动听 且惜意传情——论音乐作品“完整性欣赏”的意义
大数据云计算环境下的数据安全
精子DNA完整性损伤的发生机制及诊断治疗
云计算环境下电子书包教育应用创新研究