APP下载

内容中心网络中面向隐私保护的协作缓存策略

2015-02-05葛国栋郭云飞刘彩霞兰巨龙

电子与信息学报 2015年5期
关键词:攻击者时延节点

葛国栋郭云飞 刘彩霞 兰巨龙

(国家数字交换系统工程技术研究中心 郑州 450002)

内容中心网络中面向隐私保护的协作缓存策略

葛国栋*郭云飞 刘彩霞 兰巨龙

(国家数字交换系统工程技术研究中心 郑州 450002)

针对内容中心网络节点普遍缓存带来的隐私泄露问题,在兼顾内容分发性能的基础上,该文提出一种面向隐私保护的协作缓存策略。该策略从信息熵的角度提出隐私度量指标,以增大攻击者的不确定度为目标,首先对于缓存策略的合理性给予证明;其次,通过构建空间匿名区域,扩大用户匿名集合,增大缓存内容的归属不确定性。缓存决策时,针对垂直请求路径和水平匿名区域,分别提出沿途热点缓存和局域hash协同的存储策略,减小缓存冗余和隐私信息泄露。仿真结果表明,该策略可减小内容请求时延,提高缓存命中率,在提升内容分发效率的同时增强了用户隐私保护水平。

内容中心网络;协作缓存;隐私保护;内容路由

1 引言

随着互联网技术与应用的飞速发展,“宽带化”、“内容化”与“个性化”已成为未来网络发展的主旋律,人们对于数据内容的需求日益强烈,网络应用的主体逐步向内容请求和信息服务演进[1]。据Cisco VNI的统计预测,2012年~2017年期间,IP流量将以23%的年均复合增长率增加。其中,大部分流量都源自内容获取类应用,预计到2016年,仅视频类流量将占据超过86%的份额[2]。为了适应不断增长的内容访问需求,内容中心网络(Content Centric Networking, CCN)[3]作为一种革命式(clean-slate)的未来互联网设计思路,让内容本身成为网络通信的主体单元,将网络通信模式从关注“在哪”(地址、服务器)转变为关注“是什么”,成为未来互联网设计的重要模式。CCN在中间层用命名数据取代IP,数据传输采用“发布-请求-响应”模式,直接以内容名字进行路由。当沿途节点接收到兴趣包请求后,依据内容名字依次在内容存储器(Content Store, CS)、未决请求表(Pending Interest Tab le, PIT)和转发信息库(Forwarding In form ation Base, FIB)中进行匹配查询[4],采用网络内在普遍缓存(In-network caching)的方式,在兴趣包沿途转发路径的所有节点上存储应答内容,使得网络不仅是一个传输体,更是一个内容存储、服务平台。

内容的泛在存储在提升内容分发性能的同时,却增大了用户隐私的攻击平面和探测范围,给用户的隐私安全带来严重威胁[5]。在CCN中,由于内容命名语义与数据本身紧密相关,节点缓存内容会泄露大量的用户通信痕迹和请求行为信息,攻击者只要获取内容名字,即可请求相应的数据内容,导致严重的隐私信息泄露。

文献[6, 7]对于用户隐私威胁和信息泄露问题进行了全面的分析,指出在CCN中,必须综合考虑内容分发性能和用户隐私安全之间的关系,将隐私信息保护融入到CCN内在的缓存机制设计中。文献[5]提出了3种隐私攻击模式,并分别分析了攻击执行的条件和具体流程;文献[8]提出了使用随机延迟的方式,通过对就近缓存内容的响应时间附加额外时延,以使攻击者不能依据数据响应时间执行缓存内容探测,防止信息泄露。但是该方案却增大了用户请求时延,导致CCN网络缓存就近响应带来的低时延优势无法发挥;文献[9]采用洋葱路由思想对数据包进行多重隧道加密,实现信息中心网络(Information-Centric Networking, ICN)中的隐私性保护。但是,由于需要执行多次隧道的加解密操作,将会引入较大的内容传输延迟和额外开销;文献[10]提出了一种隐藏内容名字和数据信息的思想,将请求目标内容和掩护内容名字进行混合,以增加攻击者解析难度和探测成本,增强用户隐私保护;文献[7]指出,在缓存策略设计时,可以通过局部节点的协作缓存,增大请求者的匿名集合,实现用户隐私保护,但是文中并没有给出具体的实现机制。现有方案的不足之处主要体现在:(1)以牺牲内容分发效率来换取用户匿名性和隐私保护的提高;(2)隐私防护策略需要网络增加额外的功能和报文处理,引入大量的计算和代价开销,没有从CCN网络内在缓存设计的角度来解决隐私泄露问题。

本文认为缓存策略的设计必须综合考虑内容分发效率和用户隐私安全,将隐私信息保护融入到CCN内在的缓存策略设计中。为此,本文提出一种面向隐私保护的协作缓存策略(Collaborative Caching Strategy for Privacy Protection, CCSPP),从增大攻击者判断的不确定性出发,以扩大用户匿名范围来增加缓存内容的归属不确定度,通过请求内容的热点存储和混淆放置来减小隐私信息泄露,提升用户隐私保护水平。

2 隐私度量与合理性证明

2.1 隐私度量

为了度量用户的隐私保护程度,采用信息熵理论,来量化攻击者对于内容请求者推测的不确定程度。信息熵用于表示某种特定信息的出现概率,一个系统越是规则有序,信息熵就越低。对于攻击者而言,其主要目标是推测缓存内容对应的真正请求者,获知用户的请求行为。攻击者推测内容实际请求用户的不确定度越大,用户隐私保护水平越高。

定义1 匿名区域(Anonym ity Dom ain, AD):表示内容路由器(Content Router, CR)与其接入用户构成的局部空间区域。当攻击者与合法用户共同接入CR时,AD代表了攻击者可以探测的邻居用户集合,也构成了内容请求者可以进行匿名混淆的空间范围。

定义2 隐私匿名熵(Privacy Anonym ity Entropy, PAE):表示对于缓存内容,攻击者推测实际请求者的平均不确定度。例如,当CR的接入用户数量为k,在攻击者没有任何先验背景知识下,内容请求者被识别的概率不超过1/k,从而实现了一种空间k-匿名。对于CR构成的匿名区域AD,对应的PAE大小为

其中,p( u)表示用户被识别的概率。对于节点的缓存内容,其包含的接入用户数量越多,对应的匿名集合越大,攻击者探测的不确定度越大,用户隐私保护程度越高。

对于攻击者而言,主要目标是判断内容的实际请求者并窃取用户的敏感信息。对于那些流行程度大,众多用户同时请求的热门内容,攻击者难以进行单独的区分定位,大幅降低了攻击者推断目标个体的成功率[5]。内容请求概率越大,不确定度减小量越小,其所能泄露的隐私信息越少。为此,为了度量缓存内容对于用户隐私的危害程度,提出隐私泄露度的概念。

定义3 隐私泄露度(Privacy Leak Degree,PLD):定义为单位存储空间缓存内容泄露的信息量大小,表示缓存内容对于用户隐私的危害程度。对于请求概率为p( ci)的缓存内容ci,其包含的信息量I(ci)为

内容的请求概率越小,攻击者获得的不确定度的减小量越大,泄露的信息量越多。对于缓存空间为U的CR,单位存储空间对应的隐私泄露度PLD大小为

其中,C(CR)为节点的缓存内容集合,P(CR)为对应的请求概率分布。在缓存决策时,节点存储内容的请求概率越大,PLD取值越小,对用户的隐私危害程度越低。

2.2 合理性证明

结论1 为了提高内容请求者的隐私保护水平,增大隐私匿名熵PAE,应扩大接入用户对应的匿名区域范围,增加攻击者推测的不确定性。

定理2 隐私泄露度PLD与CR缓存内容的请求概率成反比。

结论2 为了减小缓存内容的隐私泄露度PLD,在执行缓存决策时,应尽量避免对于流行程度低,请求概率小的敏感信息存储。

3 协作缓存策略

CCSPP主要设计思想包括:(1)扩大用户匿名区域范围,从而增大攻击者推测的不确定性,提高PAE取值;(2)沿途热点缓存。将应答内容存储在沿途最大的热点请求区域,避免对于请求概率低的冷门资源的缓存,降低PLD; (3)域内协同存储。AD所属节点基于一致性hash实现请求内容的协同存储,内容的协同混淆存储,使得攻击者推测的难度和不确定度成倍增加,隐私匿名熵PAE取值明显提升。

3.1 匿名区域构建

步骤1 依据节点度分布D,选择V中度数最大节点作为管理节点,将其一跳邻居节点作为隶属节点,建立匿名区域AD。若出现度数相同节点,随机进行选择。

步骤2 添加AD到AD(G)中,更新管理和隶属节点集合。

步骤3 更新剩余节点集:V= V-AD( G)。

步骤4 判断V中节点是否全部包含于AD(G)。若V≠∅,则说明还有剩余节点没有进行匿名区域划分,重复执行步骤1~步骤3。

3.2 沿途热点缓存

定义4 区域内容活跃度(Domain Content Activity, DCA):表示在整个匿名区域AD内,特定内容被请求的频度。单位时间T内,内容c在AD中对应的DCA为

其中,n( vi)表示时间T内,AD中节点vi对于内容c的请求次数。DCA(c)是内容c在AD所有节点上的请求频度之和,衡量了整个匿名区域对于该内容的整体需求程度。

沿途热点缓存用来确定应答内容存储的目标AD,请求内容只存储在沿途内容活跃度最大的热点请求区域。在兴趣包和数据包中添加DCA字段,用于记录和匹配沿途AD的内容活跃度信息,下面给出缓存策略的具体步骤:

步骤 1 内容请求者 vr发送兴趣包请求内容c,节点接收到请求报文后,若CS已经缓存内容,直接进行响应;若CS和PIT中没有对应的请求内容和接口信息,将兴趣包转发到所属AD对应的管理节点 vM。

步骤 2 vM查询其CS是否存储请求内容,如果包含该内容,则直接进行响应。否则, vM执行一致性hash运算,判断是否执行AD内的局域缓存查找(见3.4节),若其它隶属节点含有该请求内容,将兴趣包转发至目标隶属节点,实现局部就近应答。

步骤3 如果不执行局域缓存查找,管理节点vM在兴趣包中添加该内容对应的区域活跃度信息DCA(c),并依据FIB表项执行下一跳路由转发。

步骤4 通过兴趣包逐跳的上行传输,依次记录和添加沿途AD对于内容c的活跃度信息。每当兴趣包转发至下一个AD,管理节点 vM将相邻AD对应的DCA(c)取值大小进行比较,并将DCA(c)更新为最大值。

步骤 5 最终,当兴趣包到达内容提供者 vp后,DCA(c)记录的就是对于内容对象c,沿途匿名区域中最大的内容活跃度取值DCAmax(c),其反映了垂直请求路径上,内容c对应的最大热点请求区域。

步骤 6 当 vp发送数据包进行应答时,将上行兴趣包中携带的DCAmax(c)添加到数据包的DCA(c)选项中,并依次比对反向路径对应的活跃度信息,匹配目标AD,实现应答内容的热点区域存储。

3.3 区域协同存储

当数据包到达目标AD后, vM执行以下两种操作:(1)正常数据转发。节点依据PIT表项的逐跳记录,向请求者传送应答数据内容;(2)区域内容存储。管理节点 vM依据DCA取值,判断是否缓存该应答内容。如果 vM中已有缓存内容的活跃度均大于内容c的活跃度DCAmax(c), vM不执行内容缓存,将c直接发送到下一级隶属节点进行存储。否则, vM将其添加到CS存储单元最顶层,将最底层缓存单元内容替换淘汰,并发送到下一级隶属节点进行存储。目标缓存节点 vt的确定通过 vM执行一致性hash来进行计算:

其中,输入为内容名字(Cname),目标空间为AD包含的隶属节点集合S,输出为目标缓存节点 vt。管理节点确定目标存储节点 vt后,从对应的转发接口将内容发送至隶属节点 vt进行存储。

3.4 缓存查找与路由转发

当管理节点Mv缓存了最新到达的内容后,其CS替换的内容将会被发送到下级隶属节点tv进行存储。为了维持目标节点的存储状态,Mv将建立缓存信息表(Cache Inform ation Table, CIT)用于记录相应的存储信息。每当替换内容被发送到tv后,对应的内容名字将被添加到CIT表项中,并进行动态更新。节点接收到后续请求兴趣包时,首先查找CS中是否已存储了该请求内容c,若匹配成功,直接返回数据包进行响应。否则,查找PIT表项,若已包含该内容的请求条目,直接添加到达接口到已有的请求列表中;如果为最新请求内容,在PIT中新增内容对应的请求条目,并将兴趣包转发至所属AD的管理节点Mv。如果Mv已包含该内容,则直接进行响应,否则执行以下两种策略:(1)Mv查询CIT表项,如果包含该内容名字,说明该请求内容在AD内其他隶属节点已经缓存。Mv执行一致性hash运算,确定目标缓存节点tv,将兴趣包转发至节点tv;(2)不必执行局域的缓存查找,直接依据FIB表项执行下一跳路由转发。

4 仿真与性能分析

4.1 仿真环境与参数设置

4.2 性能分析

将CCSPP与基于随机化延迟的方案(Generate Random Delay, GRD)[8]和基于缓存年龄(Age)的存储方案[15]进行对比分析,性能评价指标包括:平均请求时延(Average Request Delay, ARD),缓存命中率(Cache Hit Ratio, CHR),隐私匿名熵PAE和隐私泄露度PLD。

(1)平均请求时延: 图1给出α=0.8和α=1.0时,各方案ARD对比,采样时间间隔T=5 s。仿真初始阶段,由于网络节点存储状态为空,兴趣包都需要转发至内容服务器获取响应,ARD较大。但随着内容不断存储,缓存内容的响应率逐步增加,ARD随之减小。

在GRD中,采用随机延迟的方式,对就近缓存内容的响应时间附加额外时延,防止攻击探测和信息泄露。但是该方案增大了内容响应时间,对应的ARD最大;Age依据内容流行等级和节点距离数据源的路由跳数,设置缓存时间大小,但该方案仅仅考虑了垂直请求路径方向上的缓存放置,对于沿途路径以外的局部缓存资源无法进行加以利用,ARD高于CCSPP; CCSPP在应答内容存储时,依据AD对请求内容的整体需求程度,将应答内容存储在沿途活跃度最高的热点请求区域。内容请求时,不仅可以利用传输路径上缓存资源,对于沿途AD隶属节点上的内容副本也可加以利用,减小了内容请求时延,ARD是各方案中最小的。

(2)缓存命中率: 图2给出α=0.8和α=1.0时,各节点的CHR对比。对于GRD,在缓存决策时,采用的依旧是CCN泛滥式的沿途全部缓存方式,大量的缓存冗余和高频率的内容替换更新,导致缓存缺失概率增大,CHR明显小于CCSPP; Age在路由查找时,缓存内容的可用性只局限于沿途传输路径,内容请求对于沿途附近存在的大量缓存资源无法加以利用;对于CCSPP,整个AD最活跃的请求内容存储在度数最大的管理节上,隶属节点缓存缺失内容都将转发至管理节点,有效增大其缓存内容后续利用率,各管理节点对应的CHR取值明显高于其它节点。同时,局域缓存查找增加了隶属节点缓存利用率,各节点对应的CHR都得到不同程度提高。

(3)隐私匿名熵: 图3给出了k~U(1, 10),各方案的PAE对比。在Age中,节点间缺乏相互协同,内容请求者的匿名范围只局限于接入节点,隐私匿名熵的大小取决于接入节点包含的用户数量,PAE明显小于CCSPP; GRD通过附加额外时延,以使攻击者错误地认为请求内容缓存在一定跳数之外的路由器上,从而增大了合法请求用户的隐私匿名范围,提升了PAE取值;对于CCSPP,整个网络被划分为不同范围的匿名区域,除了少数由单独节点构成,其余都是由多个不同的接入节点协同组成,匿名区域用户数量的成倍增加,使得攻击者推测的成功概率大幅减小。相比Age和GRD,匿名区域的扩大和请求内容的协同混淆存储,使得攻击者推测的难度和不确定度成倍增加,隐私匿名熵PAE取值明显提升。

图1 平均请求时延ARD对比

图2 节点缓存命中率对比

(4)隐私泄露度: 图4给出了α=1.0时,各方案节点PLD的对比。GRD在执行内容缓存时,没有考虑不同请求内容流行程度的差异性,无法实现应答内容的差异化存储。特别是对于请求频度低的敏感内容,节点不加区分地盲目式存储,将会带来严重的隐私威胁。攻击者可以借助少量背景知识,准确定位内容的实际请求者,各节点对应的PLD取值明显高于CCSPP方案;Age依据内容流行等级来设置缓存时间大小,加快冷门资源的沿途替换更新,但是非流行内容依然会存储在沿途多个节点上,直到其缓存时间结束;在CCSPP中,AD内只存储整体需求程度最大的热点请求内容,避免对冷门敏感信息的缓存,有效降低了各节点PLD取值。对于CCSPP,管理节点负责存储整个匿名区域内最活跃的请求内容,对应的PLD取值明显小于隶属节点。

(5)隐私侵犯率: 由于不同方案在PLD和PAE方面可以取得不同的性能,为此,提出隐私侵犯率(Privacy Attack Ratio, PAR)来度量各方案总体的隐私保护程度,PAR定义为归一化后的PLD取值与PAE取值之比:

5 结束语

本文从CCN内在缓存策略的设计入手,在兼顾内容分发效率的基础上,提出了一种面向隐私保护的协作缓存策略。CCSPP借助少量额外代价的付出,在实现内容高效缓存的同时,增强了用户隐私保护水平,仿真结果和性能分析验证了其有效性。后续研究工作主要是针对CCN中缓存污染,兴趣泛洪攻击等其它安全威胁,如何设计相应的安全存储机制和防护策略。

图3 节点隐私匿名熵PAE对比

图4 节点隐私泄露度PLD对比

图5 隐私侵犯率PAR对比

[1] Xylomenos G, Ververidis C, Siris V, et al.. A survey of information-centric networking research[J]. IEEE Communications Surveys & Tutorials, 2014, 16(2):1024-1049.

[2] 张国强, 李杨, 林涛, 等. 信息中心网络中的内置缓存技术研究[J]. 软件学报, 2014, 25(1): 154-175.Zhang Guo-qiang, Li Yang, Lin Tao, et al.. Survey ofin-network caching techniques in in formation-centric networks[J]. Journal of Software, 2014, 25(1): 154-175.

[3] Jacobson V, Sm etters D K, Thornton J D, et al.. Networking nam ed content[J]. Comm unications of the ACM, 2012, 55(1): 117-124.

[4] 崔现东, 刘江, 黄韬, 等. 基于节点介数和替换率的内容中心网络网内缓存策略[J]. 电子与信息学报, 2014, 36(1): 1-7. Cui X ian-dong, Liu Jiang, Huang Tao, et al.. A novel in-network cach ing scheme based on betweenness and rep lacem ent rate in content centric networking[J]. Journal of Electronics & Information Technology, 2014, 36(1): 1-7.

[5] Lauinger T, Laoutaris N, and Rodriguez P. Privacy im plications of ubiquitous caching in named data networking arch itectures[R]. Techn ical Report TR-iSecLab-0812-001,2012.

[6] Lauinger T, Laou taris N, Rodriguez P, et al.. Privacy risks in named data networking: what is the cost of performance ?[J]. ACM SIGCOMM Computer Communication Review, 2012,42(5): 54-57.

[7] Chaabane A, Cristofaro E D, Kaafar M A, et al.. Privacy in content-oriented networking: th reats and counterm easures[J]. ACM SIGCOMM Com puter Commun ication Review, 2013,43(3): 25-33.

[8] M ohaisen A, Zhang X W, Schuchard M, et al.. Protecting access privacy of cached contents in information centric networks[C]. Proceedings of the ACM SIGSAC Sym posium on Inform ation, Com puter and Commun ications Secu rity,Hangzhou, Ch ina, 2013: 173-178.

[9] DiBenedetto S, Gasti P, Tsudik G, et al.. ANDaNA: anonymous named data networking application[C]. Proceedings of the Network and Distributed System Security Sym posium, San Diego, USA, 2012: 1-18.

[10] A rian far S, Koponen T, Raghavan B, et al.. On preserving p rivacy in content-oriented networks[C]. Proceedings of the ACM SIGCOMM W orkshop on Inform ation-Centric Networking, Toronto, Canada, 2011: 19-24.

[11] A fanasyev A, M oiseenko I, and Zhang L X. ndnSIM: NDN simulator for NS-3[R]. NDN, Technical Report NDN-0005,2012.

[12] Chai W K, He D, Psaras I, et al.. Cache “less for m ore” in inform ation-centric networks[C]. Proceedings of IFIP Networking, Prague, Czech Republic, 2012: 27-40.

[13] Kim Y and Yeom I. Performance analysis of in-network caching for content-centric networking[J]. Computer Networks, 2013, 57(13): 2465-2482.

[14] Guo S, Xie H Y, and Sh i G. Collaborative forwarding and caching in content centric networks[C]. Proceedings of IFIP Networking, Prague, Czech Republic, 2012: 41-55.

[15] M ing Z X, Xu M W, and W ang D. Age-based cooperative caching in information-centric networks[C]. IEEE INFOCOM Workshop on Emerging Design Choices in Name-Oriented Networking, O rlando, USA, 2012: 268-273.

葛国栋: 男,1985年生,博士生,研究方向为新型网络体系结构设计、内容中心网络.

郭云飞: 男,1963年生,硕士,教授,博士生导师,研究方向为新型网络体系结构设计、移动互联网.

兰巨龙: 男,1962年生,博士,教授、博士生导师,研究方向为可重构柔性网络和高性能路由.

刘彩霞: 女,1974年生,博士,副教授,硕士生导师,研究方向为内容中心网络、移动互联网.

A Collaborative Caching Strategy for Privacy Protection in Content Centric Networking

Ge Guo-dong Guo Yun-fei Liu Cai-xia Lan Ju-long
(National Digital Switching System Engineering & Techno logical Research Cen ter, Zhengzhou 450002, China)

How to m itigate the privacy attacks related to the ubiquitous presence of caching poses challenges to the content delivery in Content Centric Networking. On the basis of trade-off between content distribution perform ance and users’ privacy, a collaborative caching strategy for privacy p rotection is proposed. First, the privacy metrics are designed and the rationality of the proposed strategy is demonstrated by app lying the concept of information entropy. And then, the anonym ity domain is constructed to increase the uncertainty of which nearby consumer recently requested certain cached content. W hen making the caching decision, in order to elim inate the cache redundancy and p rivacy leaks, the hottest on-path caching and the collaborative hash caching are proposed for the vertical requesting path and horizontal anonym ity dom ains, respectively. The sim ulation results show that the strategy can decrease the request latency, increase the cache hit ratio, and enhance the p rotection of users’privacy while im proving the efficiency of content distribution.

Content Centric Networking (CCN); Collaborative caching; Privacy p rotection; Content-based routing

TP393

: A

:1009-5896(2015)05-1220-07

10.11999/JEIT 140874

2014-07-02收到,2014-10-29改回

国家973计划项目(2012CB 315901, 2013CB 329104),国家自然科学基金 (61372121)和国家863计划项目(2011AA 01A 103)资助课题

*通信作者:葛国栋 ggd@mail.ndsc.com.cn

猜你喜欢

攻击者时延节点
CM节点控制在船舶上的应用
机动能力受限的目标-攻击-防御定性微分对策
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的门窗节点图快速构建
基于GCC-nearest时延估计的室内声源定位
基于改进二次相关算法的TDOA时延估计
正面迎接批判
FRFT在水声信道时延频移联合估计中的应用
基于分段CEEMD降噪的时延估计研究
抓住人才培养的关键节点