一种改进的大数据流通共享安全方案
2020-12-10裴超范东媛倪明鉴
裴超 范东媛 倪明鉴
摘 要:在大数据的整个生命周期中,针对数据流通共享的过程,已经有了一些安全技术进行保障,如数据加密技术、数据脱敏技术。但是,由于数据的提供方和使用方通常并不在同一系统中进行管理,存在数据资产跨域流通的情况。如何对跨域流通共享的数据资产进行确权,并对数据发生安全事件时进行泄露溯源,是大数据流通共享过程中亟需解决的安全问题。文章通过将数据加密技术、数据脱敏技术、数字水印技术和区块链技术等进行结合,提出了一种体系化的安全的改进方案,能够解决在数据跨域传输后,确保数据被安全合规的使用。
关键词:大数据;区块链;数据流通共享;模糊哈希;数据确权
中图分类号: TP309.2 文献标识码:A
1 引言
大数据时代背景下,由于供需方所有的数据资源的不均衡、数据算力的差异性,为减少数据孤岛现象,将数据转化为知识和价值,实现业务创新和增值,需要进行各方数据的流通和共享。但在此过程中,由于数据安全相关的法律法规的不健全[1]、企业数据安全风险意识缺乏和数据安全技术能力的不足,使得在进行政府与政府之间、政府与企业之间、企业与企业之间的数据流通和共享过程中,可能发生数据泄漏、数据窃取和滥用等问题,危害了国家社会利益,侵犯了公民隐私[2,3]。
为从技术层面上保障数据安全的流通和共享,促进大数据的合法合规使用,减少数据安全事件发生,传统的数据脱敏和加解密技术的应用,能够在防止敏感信息泄漏和数据窃取方面起到一定作用[4,5],但并不能防止数据滥用和非法传播。通过引入数字水印技术,配合区块链建设可信任的使用网络,形成体系化的数据安全解决方案,可明显地保障数据的安全流通和共享。
2 大数据流通共享现状
2.1 大数据流通共享定义
大数据流通共享是指将企业、政府等信息系统中存储的大数据作为流通和共享对象,按照数据供需各方约定的规则、协议等,将数据从数据所有方向数据需求方提供分析使用的过程[6]。数据的流通共享可使数据脱离数据所有方,从其原有场景中进入一个目的性更强的应用场景,实现数据价值的变现。因此,数据的流通共享是创造数据价值关键的一环,它通过变更数据原有的使用场景和使用目的,将数据从产生端转移到使用端,实现了数据资源的优化和数据价值的释放。
2.2 大数据流通共享方式
本文定义的流通共享分为原始数据和结果数据的流通共享。设有数据提供方S和数据需求方A、B、C,如圖1所示。S从本地数据仓库抽取数据并传至A、B、C对应的数据服务器DB-Sa、DB-Sb、DB-Sc中。
方式一:S对A通过直接存储对接的形式提供原始数据,如通过FTP、HDFS,将原始数据从DB-Sa传输至DB-A。在此种方式下,数据通常以离线或批量的文件形式进行传输,有时也可以是库对库的直接同步传输。
方式二:S对B提供数据资源目录,如数据开放平台,B通过登录访问S的数据开放平台,选择所需的原始数据资源,并进行访问获取至DB-B。B获取原始数据的方式可能是离线文件的形式,如CSV、XLS等文件,也可能是API调用的形式,查询单条数据结果。
方式三:S对C不直接提供原始数据的传输,而是在内部提供数据分析平台,由C通过数据分析平台在S所控制的区域内,完成数据分析任务后,将分析结果取回至DB-C。
在三种数据流通方式中,方式三为结果数据的流通。对于结果数据,一般认为已脱离了原始数据所具有的表现形式,并且对特定数据需求方和特定应用具有针对性,因此从数据资产的所有权上来讲,结果数据的所有权应属于数据使用方。而方式一和方式二的情况,流通的数据为原始数据,数据的所有权属于数据提供方。
2.3 存在的安全性问题
由于数据资产不同于其他实物资产,存在易于复制、易于传播、易于加工等特性,从而造成了原始数据在流通共享过程中出现一些安全问题,包括数据资产确权的问题和数据泄露后溯源的问题。
(1)数据资产确权问题:由于数据采集源丰富、易于编辑的原因,使得在流通共享后无法清晰分辨数据的所有权。如S将其所有的原始数据传输给A后,A可以否认原始数据来自S。即使S的本地留存有数据传输的日志,但是中心化的记录存在被S修改的可能,因此无法从完全合规的层面确认数据资产的所有权。
(2)数据泄露溯源问题:按照供需双方的协议约定,数据应当限制在一定范围内使用,并保证被有限次使用。但由于无法对需求方的使用进行安全管控,因此可能存在数据被二次售卖的情况。如A可以违背协议,将S的数据转售给其他厂商,造成数据无法追溯。
针对上述问题,闫树[7]等人提出将区块链技术应用于数据共享,王海龙[8]等人也给出了一种基于区块链的大数据确权方案,通过利用区块链的防篡改特性,实现数据流通记录的可信存证。吴健[9]等人提出通过结合区块链和数字水印技术,实现了一种在版权保护场景下的应用。但是,上述方案都是基于数据的强密码哈希的一致性保证的,一旦链下的数据发生微小改变,如增删部分内容的情况,则由于哈希值的变化将造成方案中链上链下无法对数据进行追溯和确权的现象。
3 改进的流通共享方案
3.1 模糊哈希
模糊哈希算法[10,11]是一种基于数据内容的分片哈希算法(Context Trigger Piecewise Hash,CTPH),算法涉及到一个弱哈希算法和一个强哈希算法。弱哈希算法主要用于基于数据内容计算分片的大小,然后由强哈希算法对指定分片的内容进行计算,再将每片数据内容的哈希值中的部分数据拼接后,与分片大小等条件共同构成最终结果。本方案使用模糊哈希的一种实现—Ssdeep用于哈希值的计算和相似度判断,表1为对含有10000条数据记录的文件,分别进行了以100条记录为单位的顺序改变、记录增加和记录删除的情况下与原始数据进行相似度对比的结果。
通过对数据修改前后的模糊哈希结果进行相似度对比[12~14],能够判断二者之间的相关性。结合区块链对于数据的安全保护特性及相关方案[22,23],将模糊哈希算法在区块链中进行应用,能够弥补现有基于区块链技术的数据流通共享方案中只能对数据进行确定性对比的不足。
3.2 改进方案
针对上述两个问题,提出了一种基于区块链技术的面向大数据的改进的流通共享方案。如图2所示,方案以区块链技术Hyperledger Fabric构建底层可信联盟链网络,数据供需方作为网络中的节点,把相关信息形成区块交易进行申请和提交,包括对区块进行验证及更新本地账本数据。方案中设有数据监管方角色的节点,对供需方之间的活动进行监管和公证。
方案中的数据传输分为链上和链下两部分。链上依赖于区块链的安全特性,提供数据信息的可信记录、查询和追溯,链下将依据供需双方的约定将数据从提供方发送至需求方。为了实现数据的安全流通和共享[15],链下传输的数据将采用加密[16,17]或脱敏[18,19]技术进行处理。同时,为解决数据的确权和溯源的问题,采用数字水印技术[20,21]将数据的供需双方的身份信息嵌入原始数据中,实现用户身份和数据资产的关联。通过水印提取并还原用户身份信息,能够达到了对数据所有权和使用权的鉴别,以及对数据使用的追溯。
3.3 方案过程
3.2.1 前提条件
方案中需要的前提条件说明有二点。
(1)设有区块链网络BNet,数据提供方S、数据需求方A和数据监管方R分别作为网络的节点,负责维护区块链网络及账本,各方相应的身份标识及公私钥表示为(SID,S-pubkey,S-prikey)、(AID,A-pubkey,A-prikey)和(RID,R-pubkey,R-prikey)。网络节点Po负责根据共识算法,对交易数据统一打包成区块并加入账本。
(2)S建有数据资源目录提供外部查询访问,并将与需求方的数据服务器地址、传输任务的启动方式、传输形式等信息,编写为链上的智能合约。
3.2.2 具体过程
数据流通共享方案大体分为数据申请、申请受理、登记上链、流通和共享、确权和溯源五个阶段,具体过程描述有五方面。
(1)数据申请
①A通过S公开的数据资源目录,查询需要使用的数据情况,获取如数据唯一标识dID、数据名称dName等信息。
②A向S提出需求申请单,申请参数为(req、A-sig)。其中,req由需求的数据唯一标识dID、数据名称dName、申请时间timestamp等组成,A-sig为A使用A-prikey对req计算的签名。
(2)申请受理
①S接收到需求申请单(req、A-sig)后,使用A-pubkey对A-sig进行验证,如验证不通过则拒绝。
②S从申请参数req中提取dID和dName,检索本地数仓中相应的数据D。S将SID和AID的身份信息通过无损压缩算法、水印生成算法计算出水印Watermark,并通过水印加注算法,将其注入检索出的数据中并生成新数据D。
③使用确定性密码哈希算法和模糊哈希算法分别计算D的确定性哈希值DetHash和模糊哈希值FuzzyHash。S生成需求受理数据〔(req、A-sig),Watermark,DetHash,FuzzyHash〕,并经S-prikey计算签名值S-sig,构成需求受理单〔(req、A-sig),Watermark,DetHash,FuzzyHash,S-sig〕,然后发送给R请求背书。
R使用A的公钥A-pubkey和S的公钥S-pubkey,验证需求受理单中A-sig和S-sig,如验证不通过则拒绝背书。否则R使用R-prikey对需求受理单进行签名背书,并形成交易提议发送给S,由其决定是否受理A的数据需求申请。
(3)登记上链
①S接收A的数据需求申请后,将经R背书的交易提议结果发送给区块链网络节点Po。
②Po对提交的交易验证其中R的签名,按照约定的共识算法,将交易数据统一打包成区块Block-n,并广播给网络中其他相关节点,如节点Ps和Pa。
③Ps和Pa按相同方式处理接收到的区块,包括验证交易的签名、R的背书,区块数据的完整性等。确认无误后将区块更新到本地账本中,完成S到A的数据流通共享受理信息的上链。
(4)流通和共享
①S和A获取更新的賬本数据后,通过智能合约分别启动服务器Svr-S上的数据发送服务和Svr-A上的数据接收服务。
②当需提供隐私的数据使用时,Svr-S对数据进行去脱敏处理,再注入数字水印Watermark后发送至Svr-A;当需提供保密的数据使用时,Svr-S对数据注入数字水印Watermark后,再加密发送至Svr-A。
③Srv-A接收完数据后计算其确定性哈希值,并与区块链账本中相应的DetHash进行对比,若验证一致则进行数据使用,否则要求S重传数据。
(5)确权和溯源
①S对疑似数据进行确定性哈希值的计算,并对比链上账本中保存的DetHash,若对比一致则跳转至下一步。否则对该疑似数据进行模糊哈希值的计算,并对比账本中保存的FuzzyHash的相似度。当相似度大于预设的阈值时则认为数据疑似为己方数据并跳转至下一步,否则结束本过程。
②S对该数据进行水印检测和提取,并对比链上账本中保存的Watermark,通过对水印数据使用解压缩算法恢复数据提供方和使用方的身份信息,以此判定数据的所有权和使用权。若水印对比失败或身份恢复失败,则无法认定对数据的权属并结束本过程。
至此,本文提出的安全的数据流通共享方案流程结束。
4 安全性分析
在本方案中,链上数据存储的内容主要包括用于标识数据的编号、名称、大小等数据元信息,通过采用密码学强哈希算法以及模糊哈希算法计算所得的确定性哈希值和模糊哈希值,以及通过使用可逆的无损压缩算法和水印生成算法计算所得的水印数据。
链下传输数据通过采用不可逆的脱敏算法对敏感数据进行去隐私化处理,实现对敏感信息的保护,同时也可对加注水印后的数据,采用加密算法或安全的通信协议,实现对数据的保密传输,防止数据传输和存储过程中的数据泄露。供需双方可通过对比链上数据的确定性哈希值的一致性,判断传输数据的完整性。
通过将数据供需双方的身份信息变换处理为水印数据,并嵌入待传输的数据中,当产生确权纠纷时,数据提供方可通过提取水印数据对比链上数据的一致性后还原出供需双方的身份信息,进而证明数据的所有权和使用权,以此解决数据确权纠纷的问题。同时,本方案由于对模糊哈希算法的应用,使得当链下数据发生变动时,提供方仍可通过计算数据的模糊哈希值进行数据内容的相似性对比,在数据水印还原失败的情况下确定对其权属。
整个方案过程中,需求申请数据和申请受理数据分别被需求方和提供方进行各自的签名后发送,且受理数据被作为交易再次由数据监管方进行背书。区块链中的打包节点将验证各签名或背书后,打包成区块再由各节点验证并加入区块链账本中。整个数据流通共享的过程,每次数据的关键交互都伴有数据签名,实现了传输数据的不可否认性。
5 结束语
本文提出的改进的大数据流通共享安全方案,通过基于区块链技术建设的基础网络,实现了数据提供方和需求方的可信关联,监管方作为区块链网络的背书节点,实现对数据流通共享活动的监管和证明。本方案在隐私和保密的要求下,通过引入了模糊哈希算法,增加对比链上链下模糊哈希值的相似度的处理,相比于仅使用确定性哈希值进行一致性校验,能够实现当链下数据发生修改时,溯源至链上对应数据的区块交易,进一步解决了数据确权问题,包括数据的所有权和使用权易。
参考文献
[1] 张博卿,王超.我国大数据安全问题及对策建议研究[J].网络空间安全,2019,10(8):1-.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(001):146-169.
[3] Mehmood A, Natgunanathan I, Xiang Y, et al. Protection of Big Data Privacy[J]. IEEE Access, 2016,4:1821-1834.
[4] Ahmad N. Restrictions on cryptography in India - A case study of encryption and privacy[J].Computer law & security report, 2009,25(2):173-180.
[5] Gai K, Qiu M, Zhao H. Privacy-Preserving Data Encryption Strategy for Big Data in Mobile Cloud Computing[J]. IEEE Transactions on Big Data, 2017.
[6] 中国信息通信研究院云计算与大数据研究所.数据流通关键技术白皮书(1.0版)[M].2018.
[7] 闫树,卿苏德,魏凯.专题:区块链与数据共享—区块链在数据流通中的应用[J].大数据,2018.
[8] 王海龙,田有亮,尹鑫.基于区块链的大数据确权方案[J].计算机科学,2018.
[9] 吴健,高力,朱静宁.基于区块链技术的数字版权保护[J].广播电视信息,2016.
[10] Jesse Kornblum. Identifying almost identical files using context triggered piecewise hashing[J]. Digital Investigation, 2006,3(supp-S):91-97.
[11] Seo K, Lim K, Choi J, et al. Detecting Similar Files Based on Hash and Statistical Analysis for Digital Forensic Investigation[C]. Computer Science and its Applications, 2009.
[12] Frank Breitinger, Vassil Roussev. Automated evaluation of approximate matching algorithms on real data[J]. Digital investigation, 2014.
[13] 邸宏宇,張静,于毅,王连印.一种基于改进模糊哈希的文件比较算法研究[J].信息网络安全,2016(11):12-18.
[14] Winter C, Schneider M, Yannikos Y. F2S2: Fast forensic similarity search through indexing piecewise hash signatures[J]. Digital investigation, 2013.
[15] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报, 2014(01):246-258.
[16] Cheng H, Wang W, Rong C, et al. Privacy protection beyond encryption for cloud big data[C].international conference on information technology, 2014.
[17] Abdullah Al Mamun, Khaled Salah, Somaya Almaadeed, et al. BigCrypt for big data encryption[C].Fourth International Conference on Software Defined Systems. IEEE, 2017.
[18] 乔宏明,梁奂.运营商面向大数据应用的数据脱敏方法探讨[J].移动通信,2015,000(013):17-20,24.
[19] 陈天莹,陈剑锋.大数据环境下的智能数据脱敏系统[J].通信技术,2016(7):915-922.
[20] Sion R, Atallah M J, Prabhakar S, et al. Rights protection for relational data[J].IEEE Transactions on Knowledge and Data Engineering,2005,16(12):1509-1525.
[21] Yong Zhao, Xiamu Niu, Dongning Zhao. A method of protecting relational databases copyright with cloud watermark[J]. International Journal of Information Technology, 2007.
[22] Zyskind G, Nathan O, Pentland A, et al. Decentralizing Privacy: Using Blockchain to Protect Personal Data[C]. IEEE symposium on security and privacy, 2015.
[23] Yue L, Junqin H, Shengzhi Q, et al. Big Data Model of Security Sharing Based on Blockchain[C]. 2017 3rd International Conference on Big Data Computing and Communications (BIGCOM), 2017.
作者簡介:
裴超(1986-),男,汉族,河南新乡人,中国人民大学信息学院,在读硕士,中国联通大数据有限公司,高级工程师;主要研究方向和关注领域:密码学、数据安全、网络与信息安全、芯片安全。
范东媛(1992-),女,汉族,河北衡水人,北京邮电大学,硕士,中国联通大数据有限公司,工程师;主要研究方向和关注领域:大数据安全、数据安全管理。
倪明鉴(1987-),男,汉族,北京人,北京大学软件与微电子学院,博士,中国联通大数据有限公司,高级工程师;主要研究方向和关注领域:人工智能、5G通信系统、数据安全。