大数据背景下数据可追踪性应用分析与方法研究*
2020-11-06胡爱群胡奥婷李春国郭晓军
胡 韵, 胡爱群, 胡奥婷, 李春国, 郭晓军
1. 东南大学, 南京211189
2. 西藏民族大学 信息工程学院, 咸阳712082
3. 紫金山实验室, 南京211189
1 引言
随着物联网、移动互联网等的兴起和普及应用, 不同种类传感器、智能设备不断从各领域汇总累积数据, 形成了现如今复杂多变的大数据环境. 研究人员利用机器学习和数据挖掘等技术从错综复杂的数据结构中提取出有价值的知识和信息, 已成为大数据环境下实现数据潜在价值的主要操作模式. 然而, 因分析挖掘出的数据中可能包含隐私信息, 如国家安全数据、企业机密内容或个人金融账户等, 随之带来的数据安全威胁也日益严重[1]. 在合法操作中, 隐私信息只能由具有相应权限的授权用户获取并操作. 然而在对数据进行统计分析、数据挖掘甚至开展对外合作共享时, 隐私信息的泄露事件经常发生, 这是因为目前的安全技术很少能够对数据进行全生命周期、实时有效的追踪和监控操作.
依据用户类别的不同可将数据的安全威胁总结为两个方面: 一是未授权用户对数据信息的非法窃取和操作使用, 二是授权用户对数据信息的越权获取和非法传播. 原则上, 只有授权的合法用户才能依据自身权限或者密钥获取相应的数据信息, 权限不够、无对应密钥的未授权用户不能随意获取相关数据信息.针对上述数据信息获取模式, 有三种可能的攻击方式, 如图1中①、 ②、 ③三条攻击路线所示. 其中①是指攻击者利用协议漏洞获取解密盒或者攻破防火墙等边界防护获取未加密的数据信息, 随后向未授权用户进行散播, 如图中①所示; 图中②指系统内部合法授权用户可将获取到的机密信息或者解密盒泄露散播出去,使得非授权用户获知机密信息或者非法登录; 图中③指系统中的授权用户以共谋方式获取更高的权限或更多的机密信息的同时, 尽可能消除非法操作或数据中的标识性特征以逃避后续追查.
图1 攻击模型图Figure 1 Attack model
为保证大数据背景下信息的安全性和完整性,当前的研究多集中在对传统技术, 如访问控制、加密、防火墙等加以改进的方式, 以实现对信息的安全保障, 对大数据不同生命周期中安全问题提出了许多解决方案. 如El Ouazzani 等人[2]提出了改进的基于K-匿名的大数据隐私保护技术, 针对准标识符问题实现在数据发布时的匿名隐私保护; Min 等人[3]利用完全同态加密算法解决大数据存储中的安全问题, 有效避免了在进行分布式处理时数据加解密过程的存储安全问题; Deepak 等人[4]针对大数据应用安全提出了网格化的信息流访问控制算法, 通过确定系统用户的访问大数据资源的权限, 确保合适的数据及属性在合适的时间被合适的用户访问.
上述解决方案均将研究重点放在对系统或数据的隐私防护方面, 通过不断叠加相关安全设备和技术,最大程度抵抗因非法攻击或越权访问等导致的数据非法获取及使用. 但在大数据环境下, 因环境、人为等因素, 隐私数据的泄露往往是不可避免的. 现实中, 数据一经发布就难以对其实现追踪和监控等操作. 数据可追踪性是指当捕获到被泄露给第三方的数据后, 能通过分析非法数据的相关特性, 追查到源头和相关责任人, 并实施补救措施等. 目前对于此类问题的研究还较少, 也没有适用切合的技术或者解决方案能够全方位的解决大数据背景下的数据可追踪性问题.
本文重点探讨大数据背景下, 因系统漏洞、非法及授权用户以直接或者共谋方式攻击导致数据信息发生泄露之后, 实现数据可追踪性的追踪问责方案. 通过对现有相关研究的分析对比, 认为有三种技术能够从不同的角度较好的解决部分问题, 分别为数据溯源技术、数字指纹技术和叛徒追踪技术.
·数据溯源技术利用标记或函数推导等方式, 实现对数据从产生至消亡整个生命周期内所经历的全部操作及变换信息的描述, 确保由原始数据派生的数据的真实可靠. 可利用其特点在捕获到泄露的数据后, 分析数据相关属性, 识别并追踪到相关非法用户、数据泄露源头和路径等信息, 并为后续法律工作准备证据等.
·数字指纹技术是在数字产品中嵌入与用户相关的编码信息, 可通过提取指纹信息实现对数字产品的版权保护、追踪盗版用户的功能. 同时非法用户可通过直接或者共谋形式消除、减弱数据标识特征的方式, 如修改部分原始数据或只散播部分数据逃避追责, 对于这种情况, 也能依据残留的数据特征信息锁定泄露数据的源头.
·叛徒追踪技术是在广播加密系统中利用加密和水印嵌入的方式实现对散播隐私数据的非法用户的识别和追踪. 其在捕获到非法解密盒后, 利用有效算法检测出至少一名参与制作非法解密盒的共谋用户, 同时还可在截取到非法重放至系统的隐私信息后, 识别出部分或全部的非法授权用户.
本文通过对比分析三种技术在实现数据可追踪性时的可行性和应用状态, 重点探讨它们面对大数据环境下复杂多变的数据和网络结构, 实现高效率、低延迟、高准确性追踪目标时所面临的问题, 并尝试提出相关的应对解决方案, 为后续提出可探索的研究方向. 上述三种技术能够从不同角度解决数据可追踪性的部分问题, 也能拓展应用至大数据环境中. 需注意的是, 本文只关注三种技术在大数据背景下解决数据可追踪性方面的相关研究, 对于它们解决如验证数据、归属性证明等其他方面问题的知识不做过多讨论.
本文结构如下: 第2 节介绍数据溯源、数字指纹和叛徒追踪这三种技术与实现数据可追踪性相关的基础概念、模型和方法等内容; 第3 节分析数据可追踪性解决方案应具备的特性, 对比利用三种技术实现数据可追踪性方面的侧重点、优劣势等内容, 并对三种技术应用解决数据可追踪性的可行性和应用现状进行分析; 第4 节说明在大数据背景下, 实现解决数据可追踪性应具备的特性, 并重点分析说明三种技术作为可行的解决方案存在的问题以及解决途径; 最后进行总结分析, 并提出未来可行的研究探索方向.
2 相关技术基础知识介绍
数据溯源、数字指纹和叛徒追踪这三种技术能够从不同的角度应对解决数据可追踪性问题, 同时在面对大数据环境时, 易通过简单改进或者与新型技术结合的方式进行扩展研究, 是较为理想的解决方案. 本节将介绍上述三种技术与实现数据可追踪性相关的基础知识.
2.1 数据溯源技术
2.1.1 数据溯源概念与模型
数据溯源(Data Provenance) 技术是20 世纪90 年代针对数据库所提出的追溯技术, 旨在重现数据在整个生命周期内的历史状态和演变过程. W3C 组织对数据溯源的定义为: 某个资源的数据溯源是一种记录, 它描述了生产、影响、提供此资源的实体和过程, 是保证资源产品获得可靠性, 建立信任和实现责任制的重要基础. 从数据追踪层面考虑, 利用数据溯源技术重构数据及其处理过程, 精确定位捕捉数据的来源以及异常发生的位置等, 实现数据审计追踪和版权归属证明的功能. 其中审计追踪指实现捕获数据的产生过程, 找出数据间的映射关系, 定位数据在操作处理过程中错误或异常发生的位置并分析原因; 版权归属证明是通过数据间的引用来定位数据源头, 查找数据的版权或知识产权归属.
任何溯源功能的实现都需要建立在一个有效的溯源模型框架之上, 依据框架可以确定实现思路和基本步骤. 数据溯源模型架构应包含对溯源数据的获取、溯源数据的存储以及溯源追踪操作. 如图2所示.
图2 数据溯源模型框架Figure 2 Data provenance model
溯源数据的获取 溯源数据的获取是实现溯源功能的基础, 早期对于溯源数据获取主要是通过注释的方式记录数据的来源, 将数据和描述存储在一起, 但这种方式易造成管理的混乱. 目前应用较为广泛的是W7 模型, 要求溯源信息应该包括What、Where、Why、hoW、When、Who、Which 七个部分, What为W7 的核心, 记录数据生命周期内使其发生改变的事件, 其余六部分围绕What 进行描述.
溯源数据的存储 溯源数据通常需要占据比数据对象更大的空间, 传统数据表形式的溯源存储方案已不再适用于如今数据环境. 对溯源数据实现高效精简的存储是如今存储方案研究的关键. 目前大部分存储方案是基于FAI 机制改进扩展的, 该机制主要通过消除图结构中重复溯源子图减少溯源信息, 但其未考虑对溯源图中边的压缩. Web 压缩算法利用相似性和局部性对起始节点号和连续节点的个数进行编码以减少存储空间. 字典编码通过扫描所有数据査找频繁出现的字符, 用整数取代字符, 消除重复的信息串.
标准化模型 研究人员提出了许多数据溯源标准化模型用以规范溯源流程等. 2007 年8 月发布的开放溯源模型(Open Provenance Model, OPM) 开启了数据溯源标准化之门[5]. 随后不断有新的模型推出,如语义网环境下溯源表达模型PROV[6]、Provenir 数据溯源模型[7]等均为具有代表性的溯源标准化模型.
(1) 开放溯源模型[5]: 定义了与技术无关的通用溯源模型, 能够实现在不同系统间溯源信息的互操作.通过定义节点和弧线描述数据溯源的有向图, 为不同的系统提供可交换的溯源信息.
(2) 语义网环境下溯源表达模型PROV[6]: 目前使用较为广泛的模型, 其实现了异构系统间的互操作以及溯源信息的传递. 但在处理大量数据和面对较为复杂的计算环境时, 需要在多个计算平台进行频繁切换操作, 增加了计算的复杂度和成本.
(3) Provenir 数据溯源模型[7]: 通过不同模块组合的形式实现溯源功能, 因此具有较高的灵活性和可扩展性. 此外模型提供修改溯源数据功能, 并能有效解决数据溯源存储问题.
上述三种标准化模型是从不同的角度构建实现的, 其中数据溯源安全模型强调溯源链本身的安全, 其他几种均是以实现对数据的溯本追源为目的. 开放溯源模型OPM 是数据溯源的基础标准化模型, PROV模型是当前网络环境下最常用的一种数据溯源模型, Provenir 数据溯源模型与OPM 相比属性信息的定义更加细致灵活, 与领域本体相结合就可以描述某一具体领域的溯源信息.
2.1.2 数据溯源基本方法
目前数据溯源的方法包括标记法、逆查询法、数据追踪方法、利用图论思想和专用查询语言追踪法以及以列存储定位法等. 其中最常用的是标记法和逆查询法, 对实现大数据背景下的数据追踪有借鉴意义的是数据追踪方法和列存储定位法.
标记法是指在执行过程中对原始数据的背景、作者、时间、出处等重要信息进行标注, 并将标注信息和原始数据进行关联. 该方法的优点是实现简单, 容易实现和管理, 但因需要额外的空间存储元数据(即标注信息), 故只适用于小型的系统. 对于大型数据集, 会导致元数据比原始数据占据更大空间, 难以提供细粒度数据溯源信息, 同时造成低查询效率和高时间复杂度的结果.
逆查询法是为了应对标记法不适合大型数据的细粒度数据溯源而提出的, 主要通过构造逆置函数来对数据进行反向查询, 从而对结果溯源. 使用逆查询法最关键是构造逆查询机制, 机制的优劣将直接决定溯源追踪查询算法的性能.
数据追踪方法主要是利用追踪路径和图的概念, 将视图作为元数据存储, 在追踪时通过解析得到追踪路径, 再根据路径提取数据. 列向量存储定位法将源数据与元数据分离, 通过索引建立两者的关联, 元数据中相同的内容只需存储一次, 其它保存行号即可.
2.2 数字指纹技术
2.2.1 指纹技术概念与模型
数字指纹(Digital Fingerprinting) 技术是由数字水印技术发展得来, 其通过在数字产品中预先嵌入与获得该数字产品的用户有关的唯一性指纹编码实现对用户身份识别验证的目的. 当发现盗版行为后, 数字产品发行商提取数字产品中的指纹码识别出相关的非法用户, 达到追踪目的. 其中, 能否抵抗住鲁棒性攻击和共谋攻击是衡量数字指纹可行性的重要标准.
(1) 鲁棒性攻击. 为应对数字指纹的追踪检测, 不诚信用户通过对嵌有指纹的数字产品进行诸如裁剪、压缩、加噪、缩放等方式修改处理, 以期达到削弱或消除指纹的目的.
(2) 共谋攻击. 多个拥有相同类别数字产品的不诚信用户联合起来, 通过比对彼此的数字产品, 识别出不同之处, 即判定为数字指纹. 再修改相应指纹信息, 达到无法追踪出盗版用户的目的.
数字指纹模型由分发系统和追踪系统两部分组成, 其中分发系统用于向数字产品中嵌入不同指纹, 包含数字指纹的编码生成和指纹嵌入两个过程; 追踪系统实现对非法发布者追踪, 包含数字指纹的提取和追踪两个过程, 同时整个过程通过发行商和用户之间的协议规定各实体间的交互方式. 其中嵌入和提取采用数字水印的方法, 数字指纹的研究主要集中在指纹编码、检测追踪和协议等方面. 具体框架如图3所示.
本节将着重阐述与解决数据可追踪性相关的数字指纹编码和协议等内容.
2.2.2 数字指纹编码
数字指纹的方案通常包含两个部分: 编码算法和追踪算法, 编码算法将用户的个人标识信息按照一定的规则进行编码, 生成带有用户指纹具有抗攻击能力的副本; 追踪算法是在发现盗版副本时, 运用解码规则判断出非法传播者并对非法用户实现追踪识别. 通常追踪算法是依赖编码算法生成的, 编码算法的优劣直接影响到追踪算法的效率.
目前对于数字指纹编码研究主要集中在抵抗共谋攻击的编码技术, 依据码字的分布情况, 可分为连续指纹编码方案[8]和离散指纹编码方案[9].
(1)连续指纹编码方案[8]: 在取值区间上对每个码元连续编码. 最早是将高斯分布采样序列作为待嵌入信息, 在生成指纹时, 为每个用户随机选取不同的高斯采样序列, 且取值都是满足高斯分布的随机实数序列X. 当捕获非法样本后, 提取嵌入的指纹信息X′, 将其与X 做检测比对, 若相关值大于阈值, 就可认定该非法样本中含有用户的指纹X . 因编码长度会随着用户数量增多而变长, 指纹的检测和追踪算法的复杂度也会显著增加, 该方案只适用于中小型用户系统.
(2)离散指纹编码方案[9]: 指码元是离散的编码方案. 要求其满足嵌入假设(Marking Assumption),即合谋用户通过对比他们的数字产品, 只能在相异之处进行修改. 对于没有被发现的指纹所在之处, 除非将产品变得无用, 否则无法对该处的指纹进行修改. 但此方案的码长和用户的对数成正比, 当系统用户较多时, 为了保持较低的误检率, 必须持续增加码长.
图3 数字指纹框架图Figure 3 Digital fingerprinting framework
离散指纹编码是目前较为流行的指纹编码方案, 主要研究集中在缩短码字长度, 提高编码效率, 增强抗合谋攻击能力和提升用户容量等方面. 最早的编码方案是针对保护二进制数据的c-Secure 码[9], 其能够以较高的概率从共谋副本中检测出至少一个共谋者. Trappe 等人[10]基于组合学和区组编码理论提出了一种抗共谋码ACC 码, 能够较好的抵抗共谋攻击, 但是存在大参数编码困难, 组合设计算法不易实现的缺陷. 随后一系列具有较高的鲁棒性和可追踪性编码方案被提出, 如IPP 码、FP 码等, 但均适用于中小规模用户的应用. Silverberg 等人[11]利用纠错码(ECC) 的思想来构造数字指纹编码TA 码, 实现高效编码、解码并且追踪共谋者的目的. 在此基础上, 又先后提出了c-TA 码、层次编码指纹等一系列编码算法, 但它们对于共谋攻击的鲁棒性较差. 为此, Wang 等人[12]提出了基于分组的指纹编码方案, 按照特定关系将用户划分为不同组, 大大降低了指纹检测的复杂度, 提高了抗共谋攻击的能力, 同时可容纳更多的用户量. 但其分组关系是静态的, 很可能出现用户跨组共谋生成新的盗版产品, 降低分组指纹系统的抗共谋攻击性能. 表1总结对比了离散指纹编码方案.
表1 离散指纹编码方案对比Table 1 Comparison of discrete fingerprinting coding schemes
2.2.3 数字指纹协议
数字指纹协议用于控制数字指纹处理流程中用户和版权方之间的交互, 一般分为三种类型: 对称的指纹协议、非对称指纹协议和匿名指纹协议.
对称指纹协议规定发行商和用户双方拥有完全相同的指纹编码副本. 通常由发行商将生成的带有用户指纹的数字产品分发给指定用户, 这时发行商和用户两方均知道数字产品中的编码内容. 当出现带有某用户指纹的非法副本时, 无法判定是授权用户还是发行商非法传播.
针对这一问题, 研究人员提出了非对称指纹协议, 规定只有可信第三方拥有用户和数字指纹产品的匹配记录. 当出现非法副本时, 发行商提取数字产品中指纹与可信第三方中的记录指纹编码进行核对, 实现对非法用户的追责.
上述两种协议均存在暴露用户隐私的问题, 因此又提出了匿名指纹协议. 该协议引入可信的登记中心,负责对用户的真实信息进行登记, 同时为用户发放购买中需要的验证信息, 确保用户在购买的过程中不会泄漏自己的身份信息. 当发现非法副本时, 发行商通过登记中心获知非法副本的用户信息. 匿名指纹协议包括准匿名指纹协议和强匿名指纹协议, 准匿名指纹协议不能防止发行商和登记中心联合确定出用户身份的可能, 强匿名指纹协议中无辜用户不会被暴露, 同时也不能得到同一用户的不同购买记录.
2.3 叛徒追踪技术
2.3.1 叛徒追踪基本概念
由密码学技术衍生而来的叛徒追踪(Traitor Tracing) 技术[13]主要应用于广播加密系统中, 为数据提供者(Data Supplier, DS) 提供对信息的安全传播, 并能解决机密信息在泄露之后的追责问题.
广播加密系统指依据授权用户付费订购相关业务的情况, 通过网络实现同时为多名订购业务的合法用户提供高效加密的广播信息服务, 同时确保其他用户无法解密或破译广播信息. 而叛徒追踪技术主要用于抵抗广播加密业务中的共谋密钥攻击和重放攻击, 保证追踪识别出构造非法解密盒或者非法重放的相关用户. 其中, 若某授权用户将自己的解密密钥提供给其他非授权用户使用, 使得某一秘密消息被泄露或者使非授权用户也享受服务, 则称提供密钥的授权用户为叛徒(Traitor), 而获得密钥的非授权用户为盗版者(Pirator).
通常DS 会面临两种类型的典型威胁: 共谋密钥攻击和重放攻击.
(1) 共谋密钥攻击. 多名叛徒利用个人解密密钥合谋构造非法解密盒, 该解密盒能以较大概率解密DS 广播的加密信息.
(2) 重放攻击. 叛徒用户将接收的内容经解密后转存, 再发布给非授权用户. 依据数字内容的重放方式, 可分为即时和延时重放攻击. 在即时重放攻击中, 叛徒会实时重放所接收的秘密信息; 延时重放攻击中, 叛徒先将所接收的信息存储, 另选合适的时机进行重放操作.
针对上述两种攻击, 研究人员不断提出相关解决方案. 不同方案间对比关系见表2所示.
表2 叛徒追踪方案对比Table 2 Comparison of traitor tracing schemes
(1) 对抗共谋密钥攻击的叛徒追踪方案. 为了对抗共谋密钥攻击, Chor 等人[13]在单向函数存在及大整数的素分解困难的密码学假设的基础上, 提出了对称叛徒追踪方案. 但存在用户端密钥存储量有限和DS 可能诬陷无辜授权用户的问题. 因此Kurosawa 等人[14]基于线性空间码构造了非对称叛徒追踪方案, 保证在不诬陷无辜用户的基础上实现叛徒的不可否认性. Boneh 等人[15]在此基础上改进非对称叛徒追踪方案, 使广播分组长度与用户数量无关. 此后基于不同公钥密码体制的叛徒追踪方案相继被提出.
(2) 对抗重放攻击的叛徒追踪方案. 针对重放攻击, 由Fiat 等人[16]提出基于水印嵌入假设的动态叛徒追踪方案, 能够有效对抗即时重放攻击, 但是对延时重放攻击无效. 故Safavi-Naini 等人[17]又提出了连续叛徒追踪方案, 可以有效对抗两种重放攻击, 并追踪识别所有参与重放攻击的叛徒.Laarhoven 等人[18]提出著名二进制Tardos 指纹码的动态叛徒追踪方案, 在代码长度和合谋大小之间提供了一个很好的折衷. 之后许多针对Tardos 的改进方案相继提出.
2.3.2 叛徒追踪方案概述
对称叛徒追踪[13]和非对称叛徒追踪[14]方案主要用于对抗共谋密钥攻击, 根据I/O 之间的关系确定非法解密盒中包含的解密密钥, 从而能追踪到合谋构造非法解密盒的叛徒集合中的至少一名叛徒. 动态叛徒追踪[16]和连续叛徒追踪方案[17]主要用于对抗重放攻击, 利用水印符号集和反馈信道追踪重放信息的用户, 即在获取部分重放的数据内容之后, 能够准确判断参与重放的部分或者全部叛徒.
(1) 对称叛徒追踪方案[13]广播中心DS 与授权用户掌握相同的解密密钥. 当检测到非法解密盒时, DS 通过提取解密密钥,找出至少一名合谋构造非法解密盒的叛徒. 方案包含密钥生成、加密、解密和追踪算法四个部分.其中密钥生成是在Hash 函数生成基本密钥集中的每个行向量中取一个元素, 为每个用户生成个人密钥P (ui), 随后利用随机主密钥(MK) 对P (ui) 和明文信息分别加密生成授权分组(EB)和密文分组(CB). 授权用户解密时, 通过个人密钥P (ui) 解密EB 合成主密钥MK, 再对CB 进行解密操作, 得到明文M. 当DS 捕获到非法解密盒时, 依据其中的非法密钥, 比对识别出叛徒.
(2) 非对称叛徒追踪[14]为解决对称叛徒追踪方案中, DS 可能诬陷合法授权用户的威胁, 设计了基于公钥加密机制的非对称叛徒追踪方案. 保障无辜用户不被诬陷的同时, 叛徒也具有不可否认性. 其由密钥分发、加密、解密、追踪和叛徒撤销算法五个部分组成. 其中密钥分发是DS 利用随机选择的多项式f(x)生成公钥EK 以及每个用户的私钥PKi, 并实现DS 与用户真实性验证以及公私钥的配对验证.随后利用公钥EK 加密明文M 生成密文C. 授权用户i 解密时, 利用私钥PKi解密接收到的密文C. 当DS 捕获到非法解密盒时, 利用追踪密钥TK 对非法解密盒进行黑盒验证, 利用I/O相关性与安全阈值关系判定叛徒. 因用户的私钥PKi由用户本人唯一持有, 具有不可否认型. 此外, 当锁定叛徒后, DS 还具有撤消叛徒解密的能力.
(3) 动态叛徒追踪方案[16]对授权用户子集嵌入不同水印符号来对抗即时重放攻击, DS 利用反馈通道接收并检测当前重放信息, 不断调整水印嵌入方案, 保证重放信息的用户最终被划分至同一集合中. 动态叛徒追踪方案包含水印发布和追踪算法两部分, 其中水印发布旨在让授权用户获得嵌有水印符号的信息片段副本, 同时通过对称密钥方案对用户子集得到不同的信息分组副本加解密. 追踪算法旨在保证DS 在获得重放信息副本的水印符号后, 通过反馈信道不断重划用户子集确保所有叛徒在同一子集中.
(4) 连续叛徒追踪方案[17]针对动态叛徒追踪方案无法对抗延时重放攻击的缺陷, 提出了连续叛徒追踪方案. 方案也包含水印发布和追踪算法两个部分, 其中水印发布方案依据叛徒上限预先生成水印分配表, 通过密钥方案确保不同的用户接收到不同的信息片段副本. 若用户重放信息, 即选择重放某个内容片段的某个副本, 反馈信道能检测到这些重放片段. 追踪算法通过提取其中的水印符号, 合成反馈水印符号序列, 识别出叛徒用户.
3 数据可追踪性分析
本节在列举完善的数据可追踪性的解决方案应具有的基本特性的基础上, 对比分析数据溯源、数字指纹和叛徒追踪三种技术作为实现数据可追踪性的可行解决方案的优劣势、侧重点等, 进而对三种技术应用解决数据可追踪性的可行性和应用现状进行分析.
3.1 解决方案对比分析
理想的数据可追踪性解决方案应能依据捕获到的非法数据, 通过消耗定量合理的计算和时间等资源,识别定位出全部或部分相关非法操作人员, 同时定位出数据非法泄露、散播或重放等操作的具体位置, 估算因非法操作造成的实际损失, 并依据当前状态实施补救措施, 以避免更多非法数据操作的发生, 恢复系统或数据环境的正常运行. 完善的数据可追踪性的解决方案应具有以下基本特性.
· 分析追踪性: 经可追踪性解决方案处理过的数据应在特定的权限或者密钥作用下, 通过分析相关特性, 进而定位到关联步骤、责任人等信息, 实现对数据的追踪定位功能;
· 可用性: 在对数据进行追踪预处理时, 不应对原始数据实现较大的改动. 即经数据可追踪性解决方案处理过的数据应仍能达到原始数据在系统运行中的应用效果, 数据仍具有可用性;
· 关联性: 可追踪性解决方案应能保持数据间的关联性, 通过数据间的关联特性才能更好地推断出非法数据的源头;
· 易检测性: 可追踪性解决方案要能在确保可分析追踪性的基础上, 尽可能少的消耗系统各类计算和时间资源等. 需要消耗较大的资源实现对数据的追踪操作是没有实际意义的;
· 安全性: 经可追踪性解决方案处理过的数据至少应能保持与原始数据相同的安全等级;
· 不易察觉性: 保证处理过的数据不被相关应用人员察觉到对数据的改变;
· 可复原性: 在捕获到非法数据后, 在及时追踪到非法操作的责任人的同时, 应能及时矫正相关操作, 保证不会再次出现泄露数据事件, 同时恢复系统的正常运行.
目前未提出一种较为完善的数据追踪方案, 数据溯源、数字指纹和叛徒追踪三种技术均仅具有上述部分相关特性, 不能全面实现对数据的可追踪性的需求.
数据溯源技术旨在通过记录的形式重现目标数据整个生命周期的演变信息和处理内容, 利用溯源定位数据泄露或产生错误的位置, 进而分析出相关原因、确定责任人等, 其是帮助解决数据可追踪性问题的重要技术. 其侧重通过目标数据的关联记录, 找出数据间的映射关系, 重构数据及其操作处理过程, 进而实现对数据的追踪. 由上可知, 利用数据溯源技术应用解决数据可追踪性能够实现对数据的分析追踪性, 能保证数据可用性和关联性. 但是随着数据生命周期的延长, 对数据的检测需要消耗越来越多的资源, 同时无法对原始数据和元数据的安全性进行保证, 元数据直接与原始数据关联, 不具有不易察觉性, 也能针对已出现的非法操作进行及时地恢复矫正.
数字指纹技术旨在将用户信息预先嵌入目标数据中, 提取检测嵌入非法数据的信息来确定相关责任人. 由此可知, 利用数字指纹技术应用解决数据可追踪性能够实现可分析追踪性, 同时不易被察觉, 具备成熟的嵌入和检测方法. 但是数字指纹技术需要改变部分原始数据的内容, 对于用户量较大或者原始数据冗余量较小的情况, 无法完全保证数据的可用性、安全性和关联性, 同时也能针对已出现的非法操作进行及时地恢复矫正.
叛徒追踪技术旨在利用特定的加密系统使得广播出的信息能够分发给特定的用户, 利用算法分析非法解密密钥盒或者非法重放信息, 定位到非法操作的用户. 由此可知, 利用叛徒追踪技术应用解决数据可追踪性能够实现对数据的分析追踪, 同时因利用了加密及水印等算法, 数据能够保证可用性, 同时整个技术具有较强的安全性. 同时现有的对抗共谋和重放攻击的追踪方案能够对叛徒用户做出撤销密钥、重划用户集等操作, 具备一定的可复原性. 因为加密等算法是公开的, 所以不具备对操作的不易察觉性, 广播的方式也使得数据间和用户间的关联性较弱.
表3 显示了三种技术作为数据可追踪性的可行解决方案不同的特性和优劣势, 能够更加清晰地说明它们之间的优劣势及对比关系.
表3 相关技术特性对比Table 3 Characteristics comparison of related technologies
3.2 可行性和应用现状分析
3.2.1 数据溯源技术
数据溯源技术因具有描述数据的起源和处理过程, 提供对数据的审计追踪和版权归属证明, 可将其应用于数据安全领域解决本文讨论的数据可追踪性问题. 通过分析非法数据, 关联特定的进程和文件等元数据, 尝试还原数据从生成到出现问题的整个变换操作和运行路径, 定位到出现问题的节点甚至相关责任人.其在安全领域的应用大致可分为两类: 一是保证数据的本身安全可靠性, 依据溯源实现数据的重建. 通过溯源记录的数据生成历史和路径等信息, 重建数据实现审计功能, 确保数据的可靠性; 二是对系统的入侵行为进行准确分析[19]. 不同于传统系统入侵检测通过分析系统或网络日志方式, 通过溯源数据构造系统运行过程中所有数据和进程间的依赖关系, 形成特定的溯源记录链或图. 在发生入侵事件时, 可依据链或图中的关系对事件进行分析, 找出入侵的整个攻击路径, 并追踪到系统中数据的流向和攻击源头.
在面对数据泄露、恶意散播和非法重放等状况时, 通过对非法数据的溯源信息进行数据的重建, 利用溯源的入侵检测机制尝试构造相关溯源图, 找出数据的具体入侵路径, 还原数据生成的历史和路径等信息,找出非法数据产生源头. 同时管理员可以对入侵数据图上标记的每个时间进行分析, 从而方便进一步找出问题的节点或者系统漏洞.
在面对海量异构且变换复杂的数据环境时, 会出现查询处理效率较低, 结果和性能不可靠等问题. 为此许多研究人员尝试建立新的适用于大规模高复杂度数据环境的数据溯源模型. 如Appelbaum[19]提出了基于大数据环境下安全收集和审计溯源数据的模型, 重点突出溯源数据收集问题和数据审计问题. 利用数据溯源技术可以了解数据生命周期中的演变信息和处理过程, 在发现被泄露的数据后, 分析重建入侵路径和方式, 追踪问题节点或系统漏洞等, 实现数据追踪的功能.
3.2.2 数字指纹技术
数字指纹技术利用数字产品的冗余性和随机性, 向数字产品副本中嵌入与用户相关的定量差异信息,使得分发的数字产品具有唯一性. 当捕获到非法泄露、散播或重放的数字产品时, 依据数字产品中嵌入的数字指纹编码信息可定位相关非法用户, 故可将其应用于数据安全领域解决本文讨论的数据可追踪性问题. 它的最大优势是能够以不易察觉的方式实现对数据分析追踪操作. 即使非法用户明确知道数字指纹的存在, 企图利用某些方式去除指纹, 目前的指纹嵌入和检测方法也能够较为准确的定位出部分非法用户.
数字指纹技术将指纹编码嵌入相关数字产品中, 确保发布出去的产品在其生命周期内均能实现可追踪性. 当发现非法传播的数字产品的时候, 可依据该数字产品中嵌入的指纹编码信息追查到非法用户. 同时其能够应对以消除或减弱特征标识的方式逃避追踪的非法用户或行为, 适用于解决数据可追踪性问题.
当面对海量数字产品和复杂用户关系时, 数字指纹技术在编码、嵌入、检测算法等方面均存在需要进一步解决的问题. 如Chidambaram 等人[20]利用MD5 信息摘要形成数字指纹增强云计算中客户数据的安全性, 保证了指纹编码的不可更改性, 保证了数字指纹的鲁棒性.
3.2.3 叛徒追踪技术
叛徒追踪技术是处理大用户群体的数据安全分发和数据泄露或非法重放后的数据追踪问题, 所以其非常适合用于解决数据可追踪性问题. 叛徒追踪技术所提出的数据追踪方案按照算法可大致分为三类.
(1) 将依据特定算法编制的解密密钥放入解密盒中, 在追踪过程中, 通过分析捕获的盗版解密盒, 识别出至少一个叛徒[13,16];
(2) 使用公钥技术, 利用代数运算的方式为用户分配私钥. 在追踪过程中, 可以实现叛徒的不可抵赖性以及不能陷害合法用户的功能, 识别出至少一个叛徒[14,15];
(3) 每个用户的密钥是根据用户码字分配给不同的用户. 在追踪过程中, 分析每个位使用的密钥, 恢复所捕获解码器中嵌入的码, 识别出至少一个叛徒[17].
在面对密钥泄露或者散播的状况时, 叛徒追踪技术能够针对捕获到的解密密钥盒结合追踪算法确定至少一名非法用户. 在面对将解密后的信息重放状况时, 叛徒追踪技术能够利用水印技术和反馈通道确定至少一名非法用户. 同时若尽可能多的兼顾以下性质, 则能够更好地应对解决数据追踪问题.
· 完全抗共谋性: 保证任意用户不能通过共谋构造出一个完全不同的解密密钥;
· 黑盒追踪性: 不需要打开非法解密盒, 通过I/O 即可确定解机盒包含的解密密钥;
· 完全撤消性: 撤消任意数量叛徒, 即不存在撤消门限;
· 完全可恢复性: 完成撤消叛徒操作后无需更新其它个人解密钥即可恢复.
针对特定应用场景, 提出了许多较为综合的实现叛徒追踪解决方案. 除了能识别出叛徒用户, 还能对识别出的叛徒用户进行权限撤销等操作. 如Ahuja 等人[21]提出一种可追踪的基于属性的签密方案, 扩展ABS 技术构造了一个可追踪基于属性的加密方案, 该方案可同时实现叛徒追踪、细粒度的访问控制、发送者匿名、消息完整性等功能.
4 大数据背景下数据可追踪性分析
本节在分析大数据环境下实现数据可追踪性还需具备的其他特性的基础上, 进一步分析说明数据溯源、数字指纹和叛徒追踪三种技术在大数据背景下作为数据追踪解决方案的适用性, 最后总结讨论三种技术在大数据环境下实现数据可追踪性应用可能存在的问题以及解决途径.
4.1 特性分析
大数据具有数据量大(Volume)、高速(Velocity)、类型多样(Variety) 和蕴含丰富数据价值(Value)等特点. 因此, 在大数据这一特定的场景下实现数据的可追踪性, 除了3.1小节总结的基本特性之外, 还需要针对大数据的特点, 强调增加以下相关特性.
· 并发性: 因数据量呈几何倍数的增大, 需并发实现对数据的追踪处理操作以降低数据检测的消耗等;
· 实时性: 大数据环境下各类操作的实时性要求高, 故需要实时反馈对数据的追踪分析结果, 以保证高效性的需求;
· 兼容性: 大数据环境下数据类型的多样性, 使得追踪的对象不再是单一的数据库数据, 实现对不同数据类型的兼容性追踪;
· 智能性: 交错复杂且价值密度相对较低的庞大信息量需要具备一定智能型的追踪分析操作.
4.2 适用性分析
依据3.1及4.1小节, 本文提出的三种技术均不具备作为大数据背景下数据可追踪性解决方案的所有特性. 接下来依据大数据的特点, 从数据规模、处理速度、数据结构和语义信息四个方面分析三种技术在大数据背景下解决数据可追踪性问题的适用性.
(1) 数据规模: 数据的采集、计算、存储等操作过程中数据体量巨大是大数据的显著特征, 故解决大
数据环境下的数据可追踪操作时, 应充分考虑在面对大规模数据时解决方案的适用性. 其应能兼顾足够容量的采集、计算及存储操作的设备, 或者能够通过相关算法降低需采集、计算及存储的数据容量. 从数据规模角度考虑, 三种技术可通过技术提升或新技术结合的方式适用解决大数据背景下的数据追踪操作.
· 数据溯源技术. 庞大的数据量会增大溯源技术的执行难度, 可选择与新型应用技术结合以期达处理追踪大规模数据量的目的. 如Marchetti 等人[22]提出了一种针对网络中数据泄露的溯源追踪方法, 利用有向无环图及K-means 聚类等方法对网络流量监控识别, 从而确定大型网络中恶意活动的特定主机. 此外, 随着硬件的提升, 对于数据的容纳量也相助提高, 有助于帮助溯源技术完成追踪操作.
· 数字指纹技术. 数据规模的增大对数字指纹技术实现追踪操作的考验是对嵌入编码长度的限制, 特别是对于文本等冗余量较小的媒体对象编码等指纹信息的嵌入. 可通过优化编码方式,更新信息嵌入方式等操作实现对大规模数据的分类分组标记. 如Priebe 等人[23]利用水印技术添加加密安全标签和安装监视器的方式使得云租户能够实时监控其数据流.
· 叛徒追踪技术. 面对大规模用户数量及媒体信息对于密钥盒的设计以及抵抗共谋攻击具有很大的挑战. 目前已有研究通过改进系统运行方式解决追踪过程中数据量大的追踪问题. 如Wang 等人[24]在广播加密机制中, 结合访问控制机制实现数据所有者的云共享数据, 并确保实现数据的安全分享和可追踪性.
(2) 处理速度: 实现大数据环境下数据追踪操作对处理速度具有一定的要求, 但绝大部分操作不对实时性有绝对要求. 同时随着硬件处理速度的提升以及处理方式的改进, 针对非法数据相关责任的定位等操作三种技术均适用解决大数据背景下的数据追踪操作.
(3) 数据结构: 大数据环境下数据类型不再局限于结构化形式, 更多的是半、非结构化的数据, 如音频、视频、图片、地理位置信息等个性化数据. 三种技术主要是针对结构化数据类型设计实现的,若需要改进至针对不同的数据类型实现数据可追踪操作具有难度. 从数据结构方面考虑, 数据溯源技术和叛徒追踪技术因其操作方式较为适用于多样化的数据类型, 而数字指纹技术可通过技术提升或新技术结合的方式适用解决大数据背景下的数据追踪操作.
· 数据溯源技术. 在执行追踪操作时, 数据类型多样化对于利用数据溯源技术实现追踪操作的影响不大, 通过改进提升如增加标记属性实现大数据环境下的追踪操作. Bertino 等人[25]就将数据溯源技术、机密访问控制以及可信计算相结合, 提出了一种构建安全数据来源路线链图的方式, 确保不影响人员隐私的情况下, 实现数据来源的高度保证.
· 数字指纹技术. 不同类型的数据具有不同的冗余度、组织方式, 需设计不同的方式嵌入指纹信息. 面对复杂且不断涌现新的数据结构的状况, 数字指纹技术实现追踪操作具有较高的难度.目前大多针对单一数据类型提出基于数字指纹技术的追踪方案, 如Ikegami 等人[26]针对网络信息结构提出了利用水印技术和反情报方法识别窃取机密信息的攻击者, 将机密信息替换为包含嵌入式探测程序的虚拟数据以达到追踪目的.
· 叛徒追踪技术. 广播加密信息通过加解密算法实现对非法数据的追踪判别操作, 因此数据类型多样化对于利用此技术实现追踪操作的影响不大. 如Zhu 等人[27]就云计算环境中防止用户滥用文件同步和共享提出了解决方案, 其利用基于门限公钥密码体制和访问控制RBAC 模型实现有层次的加密, 保证了叛徒的追踪和密钥撤销功能, 同时提高了效率和安全性.
(4) 语义信息: 在海量信息中识别感知有价值的信息对于在大数据背景下实现叛徒追踪操作具有非常重大的意义. 如何在价值密度较低的信息中, 结合业务逻辑并通过强大的机器算法来挖掘数据价值, 是大数据时代解决数据可追踪性最需要解决的问题. 从语义信息方面考虑, 数据溯源技术可通过技术提升或新技术结合的方式适用解决大数据背景下的数据追踪操作, 而数字指纹和叛徒追踪技术对于因其处理方式对语义信息的识别需求不大.
· 数据溯源技术. 海量溯源信息的快速准确的语义识别也是实现大数据可追踪操作的方法之一,目前大多数研究结合机器学习技术同时消耗加大计算资源分类溯源信息, 从而达到定位相关信息的目的.
· 数字指纹技术. 向数字对象嵌入唯一编码标识, 通过提取检测即可定位相关责任人, 故数字指纹技术不需要在执行追踪操作时提取识别语义信息.
· 叛徒追踪技术. 通过设计加解密的算法识别叛徒信息, 故对语义信息的识别需求不大.表4综合对比三种技术在大数据环境下作为数据可追踪性的可行解决方案的适用性.
表4 技术适用性对比Table 4 Comparison of applicability of technologies
4.3 问题及解决途径分析
4.3.1 数据溯源技术分析
在面对大规模、高并发、高复杂度的大数据应用环境时, 数据溯源技术存在许多不足. 利用溯源技术实现对数据跟踪、重建、定位到数据泄露的源头是可行的. 但在尝试使用溯源数据进行数据追踪的过程中,依旧存在许多问题. 特别是在大数据环境下, 因数据的复杂异构、大规模等特性, 应用溯源技术实现数据的可追踪性, 需要重新考虑相关方法和流程, 才能保证更好的应用实现. 目前还没有针对此方面的研究和相关实验, 但结合已有的研究可以重点考虑和关注以下几方面的问题.
(1) 溯源数据量和存储问题. 原始数据对应着比其本身大若干倍的溯源数据, 占用大量存储空间. 即使经过压缩优化存储, 随着不断转换处理, 溯源数据必然会占据越来越多的存储空间. 在面对大数据环境中的海量数据和复杂操作, 原始数据和溯源数据存储问题会变得异常困难. 随着多媒体技术的发展, 图像视频等占据较大存储空间的数据类型逐渐成为主要媒体资源, 数据量呈几何倍数增长, 解决溯源数据量存储和合理关联问题是一个很大的挑战.
(2) 效率问题. 数据重建的效率与数据间的映射依赖关系有着密切的关系, 如基于溯源的入侵检测机制是通过检测恶意进程和被修改文件之间的依赖关系所构成的溯源图的边是否和规则库中匹配,判定入侵行为, 检测效率受规则库大小和相应溯源图的复杂度影响. 随着数据量的增大和网络环境的逐步复杂, 数据溯源技术在进行数据追踪操作时, 必然会带来执行效率降低的问题.
(3) 资源开销问题. 数据溯源溯源操作需要消耗系统和网络等资源, 在利用数据溯源技术对数据进行追踪操作时, 会占用大量的空间和计算等资源开销. 在面对越来越复杂的数据环境, 必然会占用更大的空间和使用更多的计算资源, 从而影响正常的系统运行.
(4) 数据定位问题. 面对大量溯源数据, 如何快速准确的定位到问题数据的相关溯源数据是一个很大的挑战. 在越来越复杂的数据环境下, 所产生的溯源信息是一个庞大且关系复杂的结构. 若只是利用传统的数据溯源方法定位数据, 识别指定数据的关联的记录、路径直至源头, 会造成低效率高消耗的情况.
(5) 数据传输问题. 为了解决溯源数据量大的问题, 基于溯源的分布式系统被提出, 其可有效地应用于云环境和网络文件系统(Network File System, NFS) 中, 解决部分计算和存储问题. 但极少有研究解决以此引发的网络传输问题. 如何利用已有的网络结构和存储系统实现数据的高效传输交换是分布式溯源结构应解决的问题.
结合现有研究, 尝试提出以下解决途径, 帮助改进上述提出的一种或多种大数据环境下的数据追踪问题, 可根据实际应用组合解决相关问题.
(1) 分布式结构. 利用分布式去中心或多中心化的网络运行方式, 通过分散存储和计算中心, 减小溯源数据量, 提高运行效率, 缓解资源开销问题. 如将区块链(Blockchain) 技术[28]与数据溯源技术结合, 区块链可看成是由无数个数据块连接而成的数据链. 区块链的去中心或多中心化的特点也能够很好满足溯源的安全性和可靠性要求, 同时其关联数据链的运行模式能够满足数据溯源不可篡改性. 分布式结构能够分散数据处理中心, 很大程度上解决数据追踪效率低和资源开销大等问题. 但是分布式结构会加大数据溯源时的数据定位难度以及增大数据传输开销.
(2) 优化路径算法. 在复杂的溯源记录中快速找出与指定数据相关联的溯源数据是决定数据溯源算法执行效率的关键. 合适的路径算法能够快熟速定位问题数据源头, 帮助提升运算效率, 降低资源开销.
(3) 标识化水印. 尝试利用水印技术在溯源数据中添加与原始数据相关的便于检测的标识ID, 可以在捕捉到问题数据后能够快速识别出相关的原始数据和关联数据, 提升溯源效率. 但是这种方式必然是以增加数据量为代价.
(4) 智能存储概念. 为了解决大数据分布式溯源的传输问题, 可尝试将存储设备智能化, 将溯源的处理从主机下放到存储设备, 提升处理效率, 减少溯源经存储设备在网络上传输的数据量. 但是智能存储是以消耗更多资源为代价, 在实现数据定位时也需要消耗更多的时间.
表5列出了利用数据溯源实现大数据环境下数据可追踪性的可行解决途径, 并标识出它们能够解决以及会引发的问题.
4.3.2 数字指纹技术分析
现有的数字指纹编码、检测算法无法解决大数据环境下用户量大、关系复杂, 数据载体类型复杂多变,数据产生和处理速度要求高等引起的问题, 而这些问题的存在阻碍了利用数字指纹技术实现大数据环境下数据可追踪性的实际应用.
表5 基于数据溯源技术的数据可追踪性解决途径对比Table 5 Comparison of data traceability solutions based on data provenance technology
(1) 用户量和编码问题. 大数据环境所带来的高交互性必然会出现数据交易中用户量增大、用户间关系多变复杂的问题, 即使是最适用于大用户容量的分组编码, 也不能实现亿级以上用户编码容量.较大的用户量也会导致编码效率低, 性能下降等问题. 在抗共谋攻击方面, 当共谋用户数量过大时, 数字指纹的辨识性会极大减弱. 在大数据环境下, 限定码字长度和控制共谋用户数量必然要以控制用户容量为代价, 而这与大数据应用背景是相悖的.
(2) 指纹检测和提取效率问题. 为追踪非法用户, 传统的数字指纹检测算法多采用基于相关性的遍历匹配方法, 而提取算法则是通过比对待测样本和指纹样本的相似度进行判定. 大规模用户会增加指纹检测、提取的难度, 必然导致检测和提取效率低下. 如何在不牺牲性能的前提下, 提高指纹检测、提取效率是数字指纹应用到大数据环境下进行数据追踪的挑战性问题.
(3) 数字指纹协议问题. 传统的数字指纹系统中, 数据的检测和追踪一般是由发行商完成, 同时依靠可信第三方解决版权和追踪纷争. 但在大数据环境下, 网络结构发生了巨大的变化, 出现了不适合设立可信第三方机构的交易模式, 任何用户均可发布数据, 数据一旦发布, 用户就应在其生命周期中应具备对该数据追踪和检测的能力. 因此应为大数据环境提出包容性强的数字指纹协议, 在保证盗版追踪、版权保护的前提下, 更好地应对复杂多变的交易模式.
(4) 数据载体问题. 数字指纹的嵌入研究多集中在如图像、视频等信息分布较为稀疏的数字媒体上,然而对于应用最为广泛的以文本和数据集作为载体的数字产品因冗余信息较少, 很难嵌入一定量的误差信息, 所以研究并不充分. 同时面对大数据环境下不断新增的其他结构的数字媒体, 数字指纹算法也无法提供合适的编码及提取方案. 因此需要设计能够以不同类型的数字媒体为载体,具有较高普适性的数字指纹算法方案.
结合现有研究, 尝试提出以下解决途径, 帮助改进上述提出的一种或多种大数据环境下的数据追踪问题, 可根据实际应用组合解决相关问题.
(1) 优化指纹编码算法. 大数据背景下阻碍数字指纹技术进行有效追踪的根本原因是庞大的用户量和复杂的用户关系. 可结合分组思想实现数字指纹的编码策略, 尝试利用机器学习中训练或者聚类的方式使具有相近关系的用户生成更为相似的编码, 提高编码和检测效率和抗共谋攻击能力. 但是此方式为提出更为合适数字指纹协议增加了难度.
(2) 多中心化或去中心化结构. 可利用多中心化和去中心化的网络结构, 建立多层或者图状指纹分发和检测机制, 在面对亿级用户以上的网络应用时能够极大地提升编码嵌入、检测和提取效率. 但是复杂结构对提出更为合适数字指纹协议增加了难度.
(3) 提升嵌入信息单元. 尝试设计对数字产品包容性较强的方便快速的嵌入数字产品的信息单元, 可不局限于二进制编码的方式, 利用集成特性生产待嵌入的半成品信息单元, 在发布和追踪数字产品时发行商只需要简单操作即可快速实现指纹嵌入和检测操作. 但是这种方式必然会因信息单元的复杂性提升编码难度.
(4) 智能嵌入和检测装置. 利用物联网技术, 将嵌入和检测功能下放至PC 或存储等低层设备, 提高操作效率的同时能应对大数据背景下诸如P2P 的交易模式. 但这种方式会消耗过多资源, 增加编码难度.
表6列出了利用数字指纹技术实现大数据环境下数据可追踪性的可行解决途径, 并标识出它们能够解决以及会引发的问题.
表6 基于数字指纹技术的数据可追踪性解决途径对比Table 6 Comparison of data traceability solutions based on data fingerprinting technology
4.3.3 叛徒追踪技术分析
叛徒追踪技术专门应用于广播加密系统, 在应对大规模高交互数据环境和复杂网络结构时, 在用户数量、抵抗攻击、系统带宽等方面还需要进一步的改进.
(1) 用户量和计算复杂度问题. 对称叛徒追踪方案通过执行循环操作找出叛徒用户, 随着用户数目的增多, 追踪算法识别出叛徒用户所需的时间就越长; 非对称叛徒追踪方案的密钥的形成、加密和解密步骤均需要大量的计算, 且计算量和用户数量成正比; 动态和连续叛徒追踪方案需要考虑与用户量相关的信息片段的副本数量和信息片段数量, 而两种数量的增加必然会增加水印嵌入、加密和检测的计算复杂度. 在面对大数据环境下大规模用户数量的实际情况, 解决计算复杂度以满足实际应用需求是关键问题.
(2) 抵抗攻击问题. 目前叛徒追踪技术方案只能针对解决抵抗共谋密钥攻击和重放攻击中的一种攻击, 然而在现如今大数据环境下, 必然存在两种攻击同时生效的情况. 亟需一种对包容性强的叛徒追踪方案, 能够同时抵抗多种类型攻击.
(3) 系统带宽问题. 叛徒追踪方案在实现DS 与授权用户的交互操作时, 如对视频的加密、嵌入水印信息等需要占用较大的带宽, 而数据交互量的增大会因带宽因素导致数据追踪失败.
(4) 识别叛徒问题. 对抗共谋密钥攻击的追踪方案成功标志是能否追踪至少一名叛徒. 显然这种方案并不能完全满足DS 期望的尽可能追踪识别出所有叛徒的的安全需求. 在大数据环境中, 叛徒间的交互更加复杂多变, 这导致通过现有叛徒追踪算法识别出所有的叛徒更加困难.
(5) 应用场景方面. 叛徒追踪技术主要是基于非可信公共信道向大量付费授权用户同时广播加密信息的广播加密系统, 然而针对大数据环境下更复杂多变的网络结构, 能否应用叛徒追踪技术成功高效地实现数据的追踪, 还需进一步的验证和改进.
结合现有研究, 尝试提出以下解决途径, 帮助改进上述提出的一种或多种大数据环境下的数据追踪问题, 可依据实际应用组合解决相关问题.
(1) 基于群组策略. 依据规则将共同特征的用户分组, 利用组属性来提高识别率, 解决共谋密钥攻击等问题. 该方案能够依据用户属性相似度辅助识别出更多的叛徒, 同时在一定程度上缓解大数据环境下计算复杂度问题, 但因分组关系会加大用户间的交互, 进而加重系统带宽问题.
(2) 优化算法设计. 设计提升算法使得公钥长度、用户解密钥长度、广播密文长度等均与用户数量无关, 进而解决计算复杂度问题.
(3) 水印技术引入. 在动态和连续叛徒追踪方案中的水印发布策略能追踪到全部叛徒用户, 故可尝试将水印发布策略融入到非对称叛徒追踪方案中, 保证抵抗共谋和重放两种攻击的同时识别出全部叛徒.
(4) 分布式和智能设备引入. 传统的叛徒追踪方案的加密、密钥分发、水印发布等操作均由数据提供者DS 实施, 在大数据背景下, 这种模式必然会引起计算复杂度和交互困难的问题. 通过进行分布式设计和引入智能底层设备, 分布和下放部分DS 操作, 能够减少DS 和用户之间的交互, 降低叛徒追踪方案中传输的信息量. 但是复杂的结构不利于叛徒的识别.
表7 列出了利用叛徒追踪技术实现大数据环境下数据可追踪性的可行解决途径, 并标识出它们能够解决以及会引发的问题.
表7 基于叛徒追踪技术的数据可追踪性问题和解决途径Table 7 Comparison of data traceability solutions based on traitor tracing technology
5 总结与展望
本文讨论研究了在大数据背景下, 因未授权用户的攻击或者授权用户以共谋、越权等方式导致数据信息发生泄露之后的数据可追踪性的问题, 尝试对三种可能实现解决的方案: 数据溯源技术、数字指纹技术和叛徒追踪技术进行综合分析, 讨论它们面对大数据环境中数据量大、数据和网络结构复杂多变等特性的情况下, 实现数据追踪并定位相关责任人等的可行性、应用状态、亟需解决问题以及对应的解决方案等.通过分析比较, 三种技术均能从不同的方面解决大数据背景下数据的可追踪性问题, 但均存在不同程度的缺陷.
因此, 无论是在理论研究还是实际应用领域, 对于大数据环境下数据可追踪性问题的探索, 均存在许多难点和新的方向有待进一步研究, 包括:
(1) 针对分布式结构的研究. 分布式结构下各个站点相对独立, 数据异构等特点, 使得通信、数据协同等其他操作将会更加频繁, 造成带宽及传输拥堵的状况. 如何设计多点高效协同工作的分布式结构的同时, 实现对数据的有效监控与追踪?如何在保证频繁的信息交互、数据传输行为过程中,降低带宽利用率, 保证追踪效果?分布式结构对于实现大数据背景下高效数据追踪操作, 具有巨大的潜力和广阔的应用前景. 虽然在分布式结构下对于数据可追踪性问题的探索面临着一系列新的挑战, 但若相关问题得到解决, 无疑会对数据追踪的应用起到巨大推动作用.(2) 针对低层追踪设备的研究. 低层设备的智能化能够实现对数据的简单处理, 如尝试使用底层存储设备实现对指纹的检测等. 此方式能够帮助解决中心处理器负载过大, 减轻因数据传输量大造成的带宽负载压力等问题. 针对现有网络环境中庞大的低层设备数量, 升级开发经济、有效的低层设备可追踪化技术或模块, 是相关追踪技术在大数据环境下降低系统带宽、缩短追踪时间的有效解决方案之一.(3) 针对群组策略的研究. 群组策略一直都是针对大型数据集或大规模用户系统的有效解决方案, 可将其应用于大数据环境下, 解决数据追踪过程中出现的数据及用户间关系复杂多变, 处理效率低下等问题. 提出依靠属性特征实现具有高搜索定位效率的群组划分方式, 能够帮助解决对非法数据的关联数据或用户的快速筛查, 提高追踪识别的效率, 缩短追踪时间.
总之, 对于大数据环境下数据可追踪性问题的研究还有许多工作需要深入探讨, 本文以三种典型追踪技术入手, 从理论和应用的角度对数据可追踪性问题进行了剖析, 希望能够为该领域的研究者提供有价值的参考信息.