基于泛化和抑制的内容中心网络隐私保护研究

2016-05-23张建伟孙海燕尚志慧蔡增玉

中原工学院学报 2016年1期

关键词：隐私

张建伟，袁　臣，孙海燕，尚志慧，蔡增玉

(郑州轻工业学院，郑州 450001)

基于泛化和抑制的内容中心网络隐私保护研究

张建伟，袁臣，孙海燕，尚志慧，蔡增玉

(郑州轻工业学院，郑州 450001)

摘要：介绍了内容中心网络体系结构在信息共享和散播方面的优点。为了克服用户访问数据造成的隐私泄露问题，以内容中心网络为基础提出一种泛化和抑制相结合的隐私保护技术。对用户访问过的数据进行泛化处理，将具有相同前缀的数据归为一类，并对这些数据信息进行抑制处理，以达到数据完全隐蔽的目的，使用户隐私得到更好保护。该隐私保护技术的隐私效率依赖于准标识符组的大小，因此准标识符组大小的选取是内容中心网络隐私保护研究的关键。

关键词：内容中心网络；隐私；泛化和抑制

随着互联网的飞速发展，现有网络体系结构逐渐暴露出许多问题，如不安全、移动性差、灵活性差[1]。内容中心网络(Content Centric Networking,CCN)是为了克服这些缺点在互联网体系结构上做出的技术处理。CCN用内容块替换了TCP/IP结构中的位置和接口，将内容作为通信体系结构的基础；并且,所有内容块必须由发布者签名，以确保内容的安全性[2]。

新的体系结构是否可以取代旧的体系结构的一个重要衡量指标就是如何解决数据的隐私问题，即匿名技术。它不仅可以克服信息交流的限制，而且可以避免一些不必要的审查。CCN只关心数据包的内容而不考虑访问后的数据，所以容易产生内容隐私泄露问题。它允许用户检索其中任何内容，但其加密技术只是对访问进行控制，所以不适用于公开可用的内容[3]。用户可以检索公开内容，但不能运用加密技术隐藏自己访问过的内容。为了更好地保护用户访问过的数据，提高用户隐私保护效率，本文提出一种基于泛化和抑制相结合的隐私保护技术。

1CCN架构和包类型

CCN是以内容为中心的通信架构，摆脱了传统体系结构依靠位置寻找内容的限制，内容名称由一个或者多个可变长度的部件组成，各部件的界限被“/”明确分开[4]。如CCTV新闻的内容就可以表示成/ccn/cctv/news/2015aug20。

1.1CCN架构

CCN体系结构的外形仍保留TCP/IP的“瘦腰”式设计原理[5]，呈沙漏形状。它与IP的不同是出现了3个替换层：内容块、策略层、安全层。图1中从下到上的第三、四、五层分别为CCN与IP结构的对比。

1.2CCN包类型

不同CCN之间的通信被数据消费者所推动。消费者通过广播方式将相关内容的兴趣包(Interest packet)发送到所有接口。同时，CCN的所有节点都在监听网络的兴趣包，当有数据与兴趣包相匹配时，就会得到一个数据包(Data packet)来响应兴趣包[6]。数据包被传输是为了响应兴趣包以及对相关内容感兴趣的消费者。因此，兴趣包和数据包相互识别并通过相同名字的内容块来完成匹配，对内容包感兴趣的多个节点运用标准多播抑制技术在广播媒介上共享传输。CCN包类型如图2所示。

CCN的数据包传递包括3个主要部分：FIB(转发

图1　CCN和IP结构的对比

图2　CCN包类型

信息基础-Forwarding Information Base)、内容存储(缓冲存储-buffer memory)、PIT(待定兴趣表-Pending Interest Table)。

FIB：转发兴趣包到有可能匹配数据包的源。

内容存储：内容存储和IP路由的缓冲存储作用一样，但是具有不同的缓存策略。

PIT：记录从上游向下游转发的过程中兴趣包被哪些数据包响应。

CCN中每一个网络实体都可以缓存内容，但其缓存空间不大。CCN强制对所有数据包进行内容签名来保证内容的真实性和完整性，一个名称绑定一个内容，在任何地方检索都将提供原始的出处证明。对于隐私而言，不包含源地址和目的地址是CCN的一个优势。这就意味着攻击者在线路上窃听内容提供者时不能立即识别消费者所访问的内容是什么[7]。然而，因签名途径简单而不能提供更多的隐私保护，攻击者可以将同一个内容链接到被不同消费者签名的多个兴趣包，重复发送兴趣包并确定返回数据包的内容。

2隐私保护方法

匿名工具与技术可用于执行去耦操作，最基本的匿名方法是使用可信任的匿名代理。为了隐藏发送者和接受者的身份，代理通常位于两者之间，使用匿名代理的效率很低，攻击者很容易监视所有的服务器代理[8]。

混合网络[9]实现匿名的方法是通过信息的重复路由，从一个代理到另一个代理，因此，信息会逐渐失去与原始发送者的任何关联。信息对潜在不信任的中间节点是加密的，但中间节点缺乏在分层上的加密，使每个信息接受者都容易受到攻击。

Morphmix是一个全分布式点对点混合网络，并且每一层都进行了加密[10]。发送者一旦选择匿名方式，接下来的每次匿名方式都将沿着“匿名加密链路”方式选择下一跳，动态建立通道。

洋葱路由(Tor)是最著名并且最常用的低延时匿名工具[11]。Tor用中心目录来定位参与节点，需要用户任意选择3个节点建立1个three-hop的匿名回路：第一个节点是guard；第二个节点是middle；第三个节点是exit node。匿名回路一旦被建立起来，每个回路即在Tor中持续10 min。为了获得更好的匿名性能，需要考虑节点带宽的利用率。Tor节点之间的通信安全通常用SSL来保证。Tor不采用任何诱饵通信模式和随机化隐藏通信模式。

NDN Security Group为了研究命名数据匿名化(Anonymous Named Data)方法，提出了一种在CCN 中匿名的应用方案ANDaNA[12]。它使用多个同心加密层和至少含有2个洋葱路由的链路来转发消费者信息，业务可通过短暂电路回路转发。这里定义了两个截然不同的匿名路由器(Anonymous Route，AR)，一个AR是一个CCN节点。定义第一个AR为入口路由器，第二个AR为出口路由器。这两个路由器不属于同一管理区域并且不能共享相同的名称前缀。一个短暂的电路回路只能转发一组加密兴趣包。当相应的数据包得到交付后，这个电路回路将消失或者由于超时而消失。为了防止包丢失，当有超时时间间隔时，重新签发一组相同的加密兴趣包。一个路由解除一层加密，将解密消息发送到下一条。其目的是实现CCN 网络中用户的隐私和匿名，并阻止攻击者通过用户检索到的内容链接到用户本身。其优点是，出口节点只知道内容的命名，但是不知道内容消费者的身份，而知道消费者身份的节点却不知道内容的命名。其缺点是不能运用加密技术隐藏自己访问过的内容。

3基于泛化和抑制的隐私保护方案

本文提出的基于泛化和抑制相结合的隐私保护方案以ANDaNA方案为基础，克服用户访问过数据被泄露的缺点，避免数据被二次利用，以达到更好保护数据的目的。

当接收到一个内容包时，入口路由器将对其进行以下操作：①寻找与所需内容包名称前缀相似的内容包(如0371，0372，0383，0384等)，将它们合成一个内容包；②运用泛化和抑制技术使内容包匿名化；③将匿名化的内容包发送到出口路由。出口路由的作用是对发送过来的匿名化内容包进行解密操作，并将解密操作后的内容包发送到相应用户。用户不需要的内容包可以缓存于路由器内，以便用户需要相似内容时随时获取。

3.1准标识符和k-匿名定义

定义一：准标识符

一个总体U，一个私人表T(A1,A2,…,An)，fc:U→T，fg:T→U、U⊆U′。表T中的一个准标识符记为QIT，是属性集{Ai,…,Aj}⊆{A1,A2,…,An}，∃pi∈U。因此，fg(fc(pi)[QIT])=pi。

定义二：k-匿名

以RT(A1,A2,…,An)建立一个表，用QIRT表示准标识符并且连接这个表。RT满足k-匿名：当且仅当RT[QIRT]中每个序列的值至少出现k次。

3.2泛化和抑制过程

泛化是将一个原始值隐藏于与原始值相似的一组值中，从而隐藏原始值的信息，但仍然存在一个范围。这就需要用抑制技术将相似的一组值全部隐藏起来，达到保护用户隐私信息的效果。

第四步：每进行一步泛化，都将泛化后的值进行抑制，直到最后全部抑制。去掉每个值泛化层级中旧的最大元素，添加一个新的最大元素，新的最大元素是抑制后的属性值，每个值泛化层级的最高层为一个最大元素。泛化和抑制过程如图3所示。

图3　泛化和抑制过程

4结语

通过泛化和抑制技术，内容包被传递时，攻击者不知道用户访问的是哪一个内容包，使链接攻击时得到的用户和敏感信息之间的联系变得模糊，保证了用户访问内容的隐私安全。但是，在如何选取准标识符QI组的大小，减小获取敏感信息几率方面，还需要进行深入研究。

参考文献：

[1]Jacobson V，Smetters D K，Thornton J D，et al. Networking Named Content[C]//Proceeding of the 5th ACM International Conference on Emerging Networking Experiments and Technologies (CoNEXT’09).Washington:ACM,2009:1-12.

[2]张建伟，袁臣，胡春晖.内容中心网络(CCN)关键技术分析[J].信息系统工程，2014(11):30.

[3]李军，陈震,石希. ICN体系结构与技术研究[J]. 信息网络安全，2012(4)：74-51.

[4]闵二龙，陈震，许宏峰，等. 内容中心网络CCN 研究进展探析[J].信息网络安全，2012(2)：6-10.

[5]闵二龙，陈震，许宏峰，等. 内容中心网络的隐私问题研究[J].信息网络安全，2013(2)：13-16.

[6]Trossen D,Sarela M,Sollins K.Arguments for an Information-centric Internetworking Architecture[J]. ACM Computer Communications Review, 2010, 40(4): 26-33.

[7]Bellare M, Namprempre C.Authenticated Encryption: Relations Among Notions and Analysis of the Generic Composition Paradigm[J]. Journal of Cryptology, 2008,21(4),14-21.

[8]Sweeney L.K-anonymity：A Model for Protecting Privacy[J].International Journal of Uncertainty，Fuzziness and Knowledge-based Systems，2002，10(5)：557-570.

[9]Chen Y，Ma J H，Feng Q J，et al.Nonlacal Prior Bayesian Tomographic Reconstruction[J].Journal of Mathematical Imaging and Vision，2008，30(2)：133-146.

[10]Machanavajjhala A，Gehrke J，Kifer D.l-diversity：privacy beyond k-anonymity[C]//Proc. of the 22th International Conference on Data Engineering.Washington：ACM Press，2006.

[11]Koponen T, Chawla M, Chun B, et al. A Data-oriented (and Beyond) Network Architecture[J].ACM SIGCOMM Computer Communication Review,2007,37(4):181-192.

[12]Sweeney L. Achieving k-anonymity Privacy Protection Using Generalization and Suppression[J].International Journal on Uncertainty，Fuzziness and Knowledge-based Systems，2002，10(5)：571-588.

(责任编辑：王长通)

Study on Privacy Protection in Content Center Networking Based on Generalization and Suppression

ZHANG Jian-wei， YUAN Chen， SUN Hai-yan， SHANG Zhi-hui， CAI Zeng-yu

(Zhengzhou University of Light Industry， Zhengzhou 450001， China)

Abstract：This paper introduces the architecture of advantages in content center network, such as information sharing and spread more convenient. In order to overcome the user privacy issues resulted from the access to data, this paper proposes a based on the generalization and suppression of privacy protection technology in content center network, combining the user visited to generalization of data processing, data is classified as a class, will have the same prefix and to suppress the information processing. The purpose is to make data to achieve the effect of completely hidden, So user privacy is better protected. The privacy protection of generalization and suppress combining technology efficiency depend on the size of the group quasi-identifier. How to select the appropriate size of quasi-identifier is the key to improve the efficiency of privacy protection.

Key words：content center network； privacy protect； generalization and suppression

中图分类号：TP393

文献标志码：A

DOI:10.3969/j.issn.1671-6906.2016.01.020

文章编号：1671-6906(2016)01-0084-04

作者简介：张建伟(1971-)，男，河南方城人，教授，博士，主要研究方向为信息安全。

基金项目：国家自然科学基金项目(61502436)；河南省科技创新人才计划科技创新杰出青年资助项目(2015-4)

收稿日期：2015-10-28