云存储中数据完整性的可信第三方审计研究及进展

2017-11-13刘华楠

河南科技 2017年20期

关键词：副本服务提供商完整性

刘华楠

（国家知识产权局专利局专利审查协作河南中心，河南郑州 450000）

云存储中数据完整性的可信第三方审计研究及进展

刘华楠

（国家知识产权局专利局专利审查协作河南中心，河南郑州 450000）

用户本地无需存储原始数据，就可以通过可信第三方完成对其在云端存储的数据是否具有完整性的验证，这一完整性审计（Provable Data Integrity，PDI）的处理成为学术界、工业界关注的焦点。基于此，本文对各种审计策略加以分类，在此基础上着重展示每种分类为了满足各种需求而对验证过程所作出的改变，并指出云存储中的数据完整性的第三方审计所面临的挑战和发展趋势。

云存储；可信第三方；第三方审计；数据完整性

当将数据外包给云进行存储后，用户需要验证这些外包数据的完整性，通常为了降低用户负担，这一完整性验证工作会交由第三方完成，称为第三方审计。本文通过对多种可信第三方审计机制进行归类分析，探讨适合云存储数据完整性的验证机制，对云存储可信第三方审计数据完整性机制的发展趋势进行展望。

1 数据完整性审计机制模式分类

如图1所示，本文按照不同的关注点对审计模式进行了分类。按照验证算法，可以分为数据持有性证明PDP、可恢复性证明POR；按照审计方式，可以分为基于数据起源的验证、基于日志或可追责的验证；按照数据处理方式，可以分为动态审计、并行审计、多副本的批量审计。

图1 云存储中数据完整性审计分类

2 各审计模式特点

2.1 验证方式

数据持有性证明（Provable Data Possession，PDP）和数据可恢复性证明（Provable of Retrieval）是完整性验证中的经典思想。他们都是一个交互过程：由挑战者向数据存储方提出挑战，基于数据存储方的应答，来判断其存储的数据是否具有完整性。两者的核心区别是POR可以对部分被损坏的数据进行恢复。

PDP最先运用于网格计算和点对点网络中。GAte⁃niese等［1］最先利用哈希函数来实现远程数据的完整性验证：数据存储到远程节点之前，预先计算数据的MAC值，并将其保存在本地。验证时，用户从远程节点上取回数据，并计算此时的MAC值，比较验证者手中的MAC值，以此来判断远程节点上的数据是否具有完整性。由于取回整个数据文件会导致较大计算和通信开销，故Deswarte等后来利用RSA签名的同态特性来构造PDP，然而整个文件需用一个大数表示导致了高昂的计算代价。随后，QWang等［2］提出了采用概率验证策略，而且利用RSA签名的同态特性，将完整性证明值合成一个小的数值，很大程度减少通信开销。K Bowers等［3］提出了一种保护隐私的数据完整性验证机制，其引入了可信第三方，并且通过随机掩码技术，有效地隐藏了云中服务提供商返回证据时的数据信息，使得可信第三方只能获知验证结果，而不会探知云服务提供商存储的其他数据。

H Shacham等［4］最先对如何恢复已损坏的数据进行了考虑，提出一种基于哨兵的POR方法，该方法既能判断外包存储的数据是否发生损坏，又能一定程度地恢复损坏的数据。但该方法不支持公开验证，且只能进行有限次验证。随后，GAteniese等［5］结合 K Muniswamy-Reddy［6］关于同态验证标签（Homomorphic Verifiable Tags，HVTs）的思想，运用BLS短消息签名机制来构造同态验证标签，该方法降低了验证阶段的通信开销，且被证明是高安全性的。但是，由于POR方法大多都是在初始化阶段引入数据容错预处理，故块级的动态操作，如修改、删除、插入等在POR中变得难以实现。

2.2 审计方式

为了能够追责云存储中数据破坏行为，可以通过数据起源验证和基于日志的完整性验证来进行审计。对数据操作进行历史记录，一方面可以基于该记录可以对数据的完整性进行考察，另一方面基于这样的记录可以对出现的问题进行追责处理。

GAteniese［7］首先将数据起源技术运用于云环境，其基于起源信息收集系统，设计了在云环境中保证起源信息安全性的3个协议，该协议忽略了起源数据的完整性与机密性。SBDavidson［8］形式化地定义了数据起源查询结果的隐私保护（Privacy-preserving）数学模型。JPark［9］建立了一个用于以组为中心（Group-centric）的安全协作环境中的数据起源系统，为各协作方提供关于共享数据的可靠性支持。R Lu［10］提出了适用于云环境的基于双线性对的数据起源方案，给出了形式化的安全系统，数据使用者先将数据加密、签名，然后发送给服务提供商，这样就确保了起源信息的完整性与机密性。当发生数据争议时，服务提供商将访问信息发送给可信第三方，可信第三方利用系统主密钥来追踪数据使用者。该方案仅能追踪使用者，而且没有具体阐明服务提供商应如何管理起源信息。R Aldeco-P'erez［11］设计了一种密码算法来保证数据起源信息的完整性，该方案将数据起源划分为起源记录、存储、查询与分析四层，利用密码算法确保以上4层上面的数据起源的完整性。MR Asgha［12］建立的适用于云环境的数据起源系统支持加密查询，同时该方案可以保证起源信息的不可否认性、机密性、完整性、有效性及不可伪造性。

审计日志是分析系统历史工作状态的基础，其实时记录了系统运行的重要信息。通过分析日志文件［13］，能够掌握系统运行的情况，及时发现系统异常、违规、入侵行为，并提供这些操作的证据。由于审计日志可以提供非正常操作的证据，对实现存储系统的安全有着重要的意义。AR Yumerefendi等［14］首次构建了可问责的网络存储服务。该存储服务为每个收发节点都维护一个日志，并依赖可信第三方来确保日志的完整性，其通过对比描述存储服务正确行为的规则与实际日志，来发现系统运行中的错误；Yumerefendi实现了存储系统的可问责的一般方法，并没有给出适用于云环境中的可问责性的具体协议。当然，一般分布式存储系统中可问责技术将有助于云存储可问责系统的实现。A Haeberlen等［15］研究了分布式系统的可问责问题，其底层实现利用了显篡改日志（Tamper-evident Logs)，审计追踪（Audit Trail）以可信的方式记录数据的产生与变化，这完全适用于云存储环境。K Muniswamy-Red⁃dy［6］提出了一种对云存储数据进行审计的日志生成方法和管理方法，利用可信时间戳来保证能够反映细粒度操作的日志的完整性和机密性。IBM公司2014年提出一种在多租户云存储环境中基于日志对单个租户进行审计的方法［16］，审计事件是匿名的，且依据租户ID进行存储，该方法能够保证审计信息不会在各个租户之间泄露。

2.3 数据处理方式

存储在云中的数据应按照用户需求随时进行修改、插入、删除等操作。存储在云中的数据可以进行上述操作表明这样的存储属于动态存储，那么相应地对这些动态存储的数据进行完整性审计就称之为动态审计。CErway等［17］首次引入动态数据结构来组织数据块集合，实现了支持块级的全动态操作，其设计了2个动态数据完整性验证模型，均采用了哈希函数树来实现对数级的通信、计算开销；其中DPDP-1被称为基本模型，仍然限制了挑战次数；DP⁃DP-2被誉为无块化模型，在进行完整性验证时无需访问文件块。之后，GAteniese等［7］构建了一种支持全动态操作的数据完整性证明方法，该方法采用Merkle哈希树来确保数据块在其位置上的正确性，通过BLS签名机制来确保数据块值的正确性；同时为了减轻用户负担，该方法还引入可信第三方，利用其代替用户验证云存储中的数据完整性。RCurtmola等［18］提出的动态完整性验证的解决方案，被称为可扩充性PDP（Scalable PDP），该SPDP模型具有以下缺陷：不支持公开验证、完整性验证的次数有限、挑战缺乏随机性、动态更新操作受限：插入操作只能在文件末尾进行。基于上述缺陷，FSebé等［19］将Shacham和Waters提出的紧凑型POR和Merkle Hash Tree（MHT）［20-21］相结合，构建了新的动态完整性验证系统。还有多种动态完整性验证模型被提出，如A Muthitacharoen等的研究［22］。

为保证数据具有高可用性，云服务提供商通常对数据进行多副本存储，在位于不同地理位置的多个服务器上存储数据［23］。此时数据完整性证明应实现对所有副本的检查，以确认各数据副本均被正确持有。R Curtmola等［18］指出引入可信第三方进行批量审计将大幅度降低用户成本，其构建了多副本批量审计的可修复模型。刘文卓等［24］为支持多副本数据完整性验证，在单密钥加密的基础上加入伪随机掩码处理，既防止服务提供商之间或者单个服务商不同服务器组之间合谋攻击，又简化用户的密钥管理。当确认云服务提供商上所有副本都完整存储后即确认该服务提供商的可靠性。金瑜等［25］对批量审计的策略进行了研究。

并行计算可以将任务分解部署在不同计算单元执行，极大地提高数据处理速度。将并行计算模式运用于可信第三方的审计中，将大幅度提高数据审计阶段的计算效率。张萌［26］以Hadoop技术作为数据存储和计算的技术框架，对海量网络安全日志进行存储和审计工作，详细阐述了如何利用Hadoop对安全日志进行审计的过程。徐葵［27］构建了一种云存储数据完整性可信第三方并行审计模型（Parallel Audit for Data Possession，PADP），其以可信第三方为中心，引入基于MapReduce算法的并行审计日志模式，在充分保障审计安全性、可靠性的基础上显著减少审计开销；在挑战证明阶段实行并行分析，该文献给出了具体实现用例细节。由皇家技术开发公司（Empire Technolo⁃gy Development LLC）提出的云迁移并行审计模型［28］也在对数据块的审计处理过程中采用了并行处理。网络租用安全有限公司（Tenable Network Security，Inc.）构建了防止恶意攻击的监视系统［29］，该系统通过对日志的并行审计来高效发现敌手的恶意攻击行为。

3 未来的研究趋势

基于云存储中数据完整性可信第三方审计的各种模型的研究现状，本文认为云环境下数据完整性的可信第三方审计机制的发展趋势主要如下。

首先，可信硬件在提高云存储安全性上的潜力还没有充分挖掘，如何将可信计算和数据可取回性检查、可问责存储等存储安全技术相结合，为用户提供安全存储服务，有待更深入的研究。

其次，云存储中数据的动态操作，尤其是插入、删除、修改操作将愈加频繁，如何能够使动态完整性审计既能满足各种动态操作，又能保证至少指数级，甚至常量级的审计开销是一个有意义的研究方向。同时，多副本的批量审计中，如何对多副本的执行高效进行动态更新也将是云存储数据完整性审计所面临的一个重要问题。

再次，多种审计方式组合优化将成为未来云存储数据完整性验证的趋势，如动态审计与可修复审计的结合、并行审计与批量审计的组合等。

最后，云存储环境下，轻量级的数据完整性验证模型，既保证了用户端的低开销且符合移动计算的要求，又能够保证用户的隐私性，即恶意攻击者无法轻易从挑战、响应信息中还原关于原始数据持有者的数据信息。但是，由于数据可恢复性证明POR模型中，需要抽取器去恢复损坏的原文件，故其将会暴露更多信息给敌手，对用户数据隐私性是一个极大挑战。对POR中的隐私保护研究也将是值得研究的问题。

［1］G Ateniese，RD Pietro，LV Mancini，et al.Scalable and efficient provable data possession［A］//International Con⁃ference on Security&Privacy in Communication Netowrks，2008：1-10.

［2］QWang，CWang，JLi，et al.Enabling public verifi⁃ability and datadynamicsfor storagesecurity in cloud comput⁃ing［J］.European Conference on Research in Computer Secu⁃rity，2009（5）：355-370.

［3］K Bowers，D Kevin，A Juels，et al.Poofs of retriev⁃ability：theory and implementation［A］//Technical Report 2008/175，Cryptology ePrint Archive，2008.

［4］H Shacham，BWaters.Compact proofsof retrievabili⁃ty［J］.International Conference on the Theory&Application of Cryptology&Information Security，2008（3）：90-107.

［5］GAteniese，R Burns，R Curtmola，et al.Provable da⁃ta possession at untrusted stores［J］.Acm Conference on Com⁃puter&Communications Security，2007（1）：598-609.

［6］KK Muniswamy-Reddy，PMacko，M Seltzer.Prove⁃nancefor thecloud［J］.Usenix Association，2011：14-15.

［7］GAteniese，SKamara，JKatz.Proofs of storage from homomorphic identification protocols［J］.International Con⁃ference on the Theory&Application of Cryptology&Informa⁃tion Security:Advancesin Cryptology，2009（5912）：319-333.

［8］SB Davidson，SKhanna，SRoy，et al.Privacy issues in scientific workflow provenance［A］//International Work⁃shop on Workflow Approaches to New Data-centric Science，2010：3.

［9］JPark，D Nguyen，R Sandhu.On data provenance in group-centric secure collaboration［A］//International Confer⁃ence on Collaborative Computing：Networking，2011：221-230.

［10］R Lu，X Lin，X Liang，et al.Secure provenance：the essential of bread and butter of data forensic in cloud comput⁃ing［A］//Acm Symposiumon Information，2010：282-292.

［11］R Aldeco-P'erez，L Moreau.Securing Provenance-Based Audits［M］.Heidelberg：Springer Berlin Heidelberg，2010.

［12］MR Asgha，M Ion，G Russello，et al.Secuing data provenance in the cloud［A］//Ifip Wg 114 International Con⁃ference on Open Problems in Network Security，2010：146-159.

［13］孙健.基于安全芯片的可信存储审计日志的研究［D］.北京：北京工业大学，2014.

［14］AR Yumerefendi，JS Chase.Strong accountability for network storage［J］.Acm Transactions on Storage，2007（3）：11.

［15］A Haeberlen，PAditya，RRodrigues，et al.Account⁃able virtual machines［J］.Usenix Symposium on Operating Systems Design&Implementation，2010：119-134.

［16］PMassonet，SNaqvi，CPonsard，et al.A monitoring and audit logging architecture for data location compliance in federated cloud infrastructures［A］//IEEE International Sym⁃posium on Parallel&Distributed Processing Workshops&Phd Forum，2011：1510-1517.

［17］CErway，A Kupcu，CPapamanthou，et al.Dynamic provable data possession［J］.Acm Transactions on Informa⁃tion&System Security，2015（4）：1-29.

［18］RCurtmola，OKhan，RBurns，et al.MR-PDP：mul⁃tiple-replica provable data possession［A］//International Con⁃ferenceon Distributed Computing Systems，2008：411-420.

［19］F Sebé，JF Domingo，A Martinez，et al.Efficient re⁃mote data possession checking in critical information infra⁃structures［J］.IEEETransactions on Knowledge&Data Engi⁃neering，2008（8）：1034-1038.

［20］CPapamanthou，R Tamassia，N Triandopoulos.Au⁃thenticated hash tables［J］.Acm Conference on Computer&Communications Security，2008（2009）：437-438.

［21］Seny Kamara，Kristin Lauter.Cryptographic cloud storage［M］.Heidelberg：Springer Berlin Heidelberg，2010.

［22］A Muthitacharoen，R Morris，T Gil，et al.Ivy：A read/write peer-to-peer file system［J］.Acm Sigops Operat⁃ing Systems Review，2002（SI）：31-44.

［23］李超零，陈越，谭鹏许，等.基于同态Hash的数据多副本持有性证明方案［J］.计算机应用研究，2013（1）：265-269.

［24］刘文卓，曹天杰，黄石.一种高效的多副本数据持有性证明方案［J］.山东大学学报，2014（9）：160-165.

［25］金瑜.一种基于MapReduce的云存储批量审计方法：CN105072086A［P］.2015-11-18.

［26］张萌.基于hadoop的网络安全日志审计系统关键技术研究［D］.哈尔滨：哈尔滨工程大学，2013.

［27］徐葵.云存储环境下数据持有性审计技术研究与应用［D］.长沙：湖南大学，2013.

［28］SHasit.Parameterized dynamic model for cloud mi⁃gration：WO2013/110966A1［P］.2013-08-01.

［29］MJRanum，R Gula.System and method for strate⁃gic anti-malware monitoring：US2014/0013434A1［P］.2014-01-09.

Research and Development of Trusted Third Party Audit for Data Integrity in Cloud Storage

Liu Huanan
（Patent Examination Cooperation Center of the Patent Office,SIPO,Henan，Zhengzhou Henan 450000）

Local users without the original data storage,you can through the trusted third party has completed to verify whether the integrity of the data stored in the cloud,the integrity of the audit(Provable Data,Integrity,PDI)processing hasbecome the focusof attention of academia and industry.Based on this,thispaper classified the vari⁃ous audit strategies,and on this basis,focused on the change of the verification process in order to meet the needs of each category,and pointed out the challengesand the trend of the third party audit data integrity of cloud storage in theface.

cloud storage;trusted third party;third party audit;dataintegrity

TP333

1003-5168(2017)10-0050-04

2017-8-20

刘华楠（1986-），女，硕士，助理研究员，研究方向：计算机大数据、云存储。