数字图书馆用户行为隐私保护研究
2020-02-26吴宗大刘曦洋赵又霖
吴宗大 刘曦洋 赵又霖
数字图书馆的用户隐私可分为两种类型[1-2]:(1)用户资料隐私,具体包括身份标识(如身份证号、手机号等)和背景资料(如职业、收入、性别等);(2)用户行为隐私,即在使用图书信息服务(如图书检索服务、图书推荐服务等)时,用户行为(即服务请求)蕴含的敏感兴趣偏好(如图书检索服务请求蕴含用户偏好的图书类别)。这些敏感信息被不可信的数字图书馆服务器端大量收集,成为隐私泄露的主要根源[3-4]。用户资料隐私安全可通过数据加密技术给予较好的保证,即用户资料加密后再存放到数字图书馆的服务器端,即使泄露,也难以被他人读懂[5-6]。然而,数据加密并不适用于用户行为隐私。这是因为图书馆信息服务需要服务器端的支持,加密用户服务请求数据会使得服务器无法“读懂”用户行为,从而使得图书信息服务变得不可用[7-9]。所以,相比于用户资料隐私,由于不允许改变图书馆现有信息服务的质量,用户行为隐私问题难以通过传统加密技术加以解决[10],因而,更富有挑战性和研究价值。
目前,用户行为隐私保护研究主要有两个方向,即基于法律法规的角度和基于技术方法的角度。法律法规虽然能有效缓解数字图书馆用户行为隐私安全问题[11-12],但现有法律法规还不够系统全面(尤其是我国),并且层出不穷的用户隐私泄露事件[13]表明,法律法规并不能从根本上解决数字图书馆的用户行为隐私安全问题。本文将主要从技术角度,分析现有方法的特点以及它们在数字图书馆行为隐私保护中的应用局限性,以确立理想的图书馆用户行为隐私保护方法应满足的应用目标,为后续该问题的研究和解决提供参照。
1 隐私保护技术方法
图书馆界亦有学者尝试从技术方法角度解决用户隐私安全问题(包括用户行为隐私安全问题)。例如,邵志毅等人[3-4]探讨了现有信息安全技术(如加密法、访问控制、用户认证等)在数字图书馆中的一些具体应用。马晓亭等人[14]从完整性、机密性、可用性三个维度,对图书馆敏感数据的保护进行了研究,分析了大数据环境下图书馆敏感数据的安全需求,并据此设计了一个图书馆敏感数据分析与可视化管理系统平台。但总体来说,这些技术方法还不够深入,且缺乏系统性和整体性,并且它们更多是针对用户资料隐私(即它们通常假定服务器端可信),基本没有考虑用户行为隐私保护问题,因而无法应用于保护数字图书馆用户行为隐私安全。从技术方法角度看,对数字图书馆用户的行为隐私保护研究还处于初步阶段。
针对不可信网络环境下的用户隐私保护问题,计算机科学领域的学者给出了许多有效方法,其中,具有代表性的方法有:加密法、假名法、掩盖法和模糊法等,这些方法各具特点,同时在用户行为隐私保护应用中存在不同的局限性。
1.1 基于加密法的隐私保护
加密法是指通过加密用户服务请求相关数据,使其对不可信服务器端不可见,从而达到隐私保护的目的[15]。因此,加密法能在确保信息服务基本可用的前提下,不泄露用户服务请求背后蕴含的用户隐私,从而实现较为严格的隐私保护。具体地,加密法可进一步分为:基于隐私信息检索(Private Information Retrieval,PIR协议)的隐私保护和基于密码协议的隐私保护。PIR协议[16]最早用于安全地访问外包网络环境下用户数据,它允许用户在服务器端无法获知其查询请求的前提下,从外包数据库中检索到目标数据。PIR协议经改造后,也可应用于保护用户行为隐私。但PIR协议由于算法复杂度高,且使得服务器无法进行定向文本广告投放,限制了它在数字图书馆信息服务中的可用性,难以有效保护数字图书馆用户行为隐私安全。此外,基于PIR协议的加密法也适用于位置服务(Location Based Service,LBS)中的用户隐私保护。例如,Ghinita等人[17]提出了基于PIR协议的LBS最近邻查询方案;Papadopoulos等人[18]关注比最近邻查询更通用的K近邻查询,设计了一个需要安全硬件辅助的PIR协议。以上研究仅针对传统空间查询,此外,还有一些研究关注其他的LBS空间查询,如最短路径查询[16]。但是由于PIR协议需要调用一些复杂度较高的密码运算操作,使得它只能支持有限LBS数据访问模式[19],因而难以应用于图书馆位置服务。基于密码协议的用户隐私保护方法主要针对文本检索服务,主要有基于关键词检索的对称密钥加密[20]和基于关键词检索的公用密钥加密[21]。通过扩展,基于密码协议的用户隐私保护方法能帮助用户检索到完全满足关键词布尔关系条件表达式的目标文本文档。然而,正如Pang等人[22-23]所指出,密码协议难以应用于现代文本检索服务,因为现代文本检索需要检索出与给定用户查询最相似的文本文档(即需支持文本相似性检索,而不是确定性检索)。因而,密码协议也难以应用于现代数字图书馆文本检索服务以保护用户行为隐私。
综上所述,基于加密法的隐私保护技术没有考虑数字图书馆用户隐私安全度量问题,无法实现对数字图书馆用户行为隐私的完全保护。更重要的是,该类方法不仅要求引入额外的硬件和高复杂度的算法,而且还要求改变网络服务器端的信息服务算法,从而引起整个网络信息服务平台架构的改变。在现代数字图书馆中,各类信息服务作为平台的重要组成部分而存在,显然不能因用户行为隐私保护要求而改变整个平台架构。因此,加密法无法满足数字图书馆用户行为隐私保护的可用性约束。
1.2 基于假名法的隐私保护
假名法是指将用户服务请求中的用户身份标识用临时假名代替,以打破网络用户和服务请求之间的自然联系[24]。假名法通常采用集中式体系结构,即通过可信的第三方匿名服务器完成假名的发布、使用、撤销等操作,该类技术容易集成到已有网络服务中用以保护用户行为隐私,并且已在许多网络信息系统中得到了应用。然而,该类技术严重依赖于假名有效性。为此,Sun等人[24]和李凤华等人[25]提出设置混合区以增强假名有效性,混合区是指多个用户集中更换假名的特定区域,处在混合区内的用户不提交网络服务请求也不接收任何服务信息,从而增加攻击者追踪用户的难度。Gao等人[26]进一步提出了K匿名混合区模型,即混合区内同时改变假名的用户数不少于整数K,从而进一步改善了用户隐私保护效果。然而,混合区内用户无法通信,不可避免地会降低信息服务的质量。针对该问题,Arain等人[27]和Liu等人[28]提出了各自的多混合区部署方案,以在隐私安全和服务质量之间取得较好的平衡。然而,假名法也受到了许多质疑。Narayanan等人[29]和Shang等人[30]分析了假名法对用户隐私保护的不足,并通过实验结果表明,通过假名法收集的用户数据往往难以保证质量,因为在没有确认身份的情况下,用户可能会提交无用数据。为此,如果直接将假名法应用于数字图书馆保护读者行为隐私安全,可能会损害数字图书馆各类信息服务的服务质量。
吴振刚等人[19]和张学军等人[31]的研究成果表明,仅仅采用假名并不能充分地保护用户隐私,因为它并没有对用户服务请求数据(如查询位置或查询文本)做任何更改,使得攻击者根据用户服务请求本身,仍有很大概率推测出用户真实身份,即假名法难以抵抗数据挖掘技术的攻击(即无法满足隐私安全性约束)。更重要的是,由于用户身份被隐藏,假名法对需要用户身份认证的应用场景是一个不可逾越的障碍。现代数字图书馆一般要求用户必须实名登录后才能使用各项图书馆信息服务。综上可知,假名法难以有效地应用于数字图书馆保护用户行为偏好隐私。
1.3 基于掩盖法的隐私保护
掩盖法是指对用户敏感数据的掩盖处理,即通过伪造数据或者使用一般化数据来掩盖涉及用户敏感偏好的行为数据[31],使得不可信服务器难以获知用户敏感偏好,该类方法经过改造后也适用于数字图书馆用户行为隐私保护。针对文本检索服务,Pang等人[32]提出通过向用户查询文本中注入“伪关键词”,以保护用户的真实查询意图。随后,作者改进了他们的工作[22],允许用户定义自己的隐私保护需求,即允许用户定义需要保护的查询主题以及保护等级。针对个性广告推荐服务,Goetz等人[33]提出了一个基于客户端的用户隐私保护方法,通过综合考虑用户隐私保护度(即用户愿意与不可信服务器分享的隐私等级)和网络数据通信量(即服务器传回手机的文本广告数量),为用户选择相关广告。Shou等人[34]设计了一个针对个性网页检索服务的用户偏好保护方法:首先建立用户偏好分层结构,其中,高层节点存储概括性偏好主题,而低层节点存储针对性偏好主题。然后,通过使用概括性偏好代替针对性偏好,以保护用户敏感偏好。针对个性网页检索服务,Chen等人[35]提出了类似的用户偏好保护方法,即用概括性偏好来掩盖用户具体偏好,以保护用户数据中的敏感信息。Murugesan等人[36]设计了一个文本查询隐私保护方法,该方法预先构建若干个静态查询组,然后在运行时用户查询由最相似的静态查询替代,而同一组中的其他查询则用来隐藏用户查询,该方法的主要问题是以相似静态查询替代用户查询会降低查准率。
总体来说,该类方法不需要改变服务器端的网络服务算法,也不需要改变现有网络服务平台架构,因而具有较好的实用性,能很好满足数字图书馆用户行为隐私保护的实用性约束。然而,由于改写了用户服务请求携带的数据,该类方法会在一定程度上降低数字图书馆信息服务的准确性,因而,其隐私保护需以牺牲信息服务质量为代价,使它难以有效满足数字图书馆用户行为隐私保护的准确性约束。
1.4 基于模糊法的隐私保护
模糊法主要面向位置服务(LBS),用于保护用户位置隐私,即通过“泛化”或“扰动”查询位置信息,使得攻击者无法识别出用户的精确查询位置[19,31]。在这里,“泛化”是指把用户的真实位置用一个泛化的空间区域(称作“隐藏区”)代替,隐藏区通常由可信的第三方服务器结合K匿名隐私准则生成[37]。传统的K匿名隐藏区生成方法[29-30]在连续空间查询中难以实现预定的隐私保护级别。为此,最近的研究尝试改进该问题。例如,Lee等人[38]通过考虑用户移动位置之间的相关性来构造隐藏区;Chow等人[39-40]提出的方法能有效地防止用户移动轨迹中的目的地位置信息泄露。另外,由于用户的隐私需求是动态多样的,隐形区域的产生也要考虑用户个性化隐私需求的影响。Agir等人[41]提出的方法针对空间连续查询中的个性化用户位置隐私需求,能在一定范围内自适应地自动调整位置隐私级别。Dewri等人[42]提出了一个以用户为中心的位置服务框架,可以预先权衡用户查询请求的隐私强度和实用效果。然而,泛化模糊法通常依赖于第三方匿名服务器,降低了方法的实际可用性。模糊法中的位置信息“扰动”是指,在用户查询中以可控的方式有意地引入部分错误或噪声[43]。为了提供更严格的隐私保障,最近的研究尝试应用差分隐私模型来控制连续查询中添加的噪声数量,其中,最具代表性的是空间不可区分性模型[44]及其衍生模型[45-46]。
然而,模糊法主要应用位置服务来进行隐私保护,通常难以直接应用于数字图书馆中的各类信息服务(例如图书检索服务、图书推荐服务、图书浏览服务等),即难以直接应用模糊法保护数字图书馆的用户行为隐私安全。此外,由于发送给网络服务器端的是经过修改后的位置数据,很多时候也会影响位置服务的准确性,这一定程度上降低了方法的实际可用性(即难以满足数字图书馆用户行为隐私保护的准确性约束)。
2 分析与讨论
综上所述,目前相关研究提供的诸多用户行为隐私保护方法均有各自的局限性,并且不是针对数字图书馆而提出,在安全性、实用性、准确性、高效性等多项指标上,仍无法满足数字图书馆的实际应用需求,难以直接应用于保护数字图书馆用户的行为隐私。具体来说,数字图书馆中的用户行为隐私保护需要重点关注以下几个方面的问题。
(1)问题一:不仅要关注数字图书馆用户的行为隐私安全性,更要关注行为隐私保护方法的实用性、准确性和高效性。
通常,各类图书信息服务(如图书检索服务、图书推荐服务等)作为大型数字图书馆平台的重要组成部分,已成熟运行。然而,现有许多技术方法为了保护用户行为隐私,要求改变现有的整个网络服务平台架构或服务器运行的图书信息服务算法,或者要求牺牲信息服务的准确性或高效性(执行效率),这极大地降低了方法的实际可用性。因此,数字图书馆用户的行为偏好隐私保护,必须建立在不牺牲现有图书信息服务的实用性、准确性和高效性基础之上。
(2)问题二:不仅需要关注对用户当前行为(即用户当前服务请求)的隐私保护,更要关注对用户历史行为序列的隐私保护,即用户行为隐私保护应以用户行为序列(即同一用户在某一段时间内所发起的服务请求的序列)为基本研究内容。
数字图书馆信息服务中用户历史行为序列拥有规律的特征分布关联性,例如,同一用户在某段时间内通常喜欢围绕某些固定的图书主题展开查询操作。而现有许多技术方法仅针对用户当前行为,没有考虑用户历史行为,这严重降低了技术方法对数字图书馆用户行为隐私的保护效果。因此,用户行为隐私保护必须建立在用户行为序列之上,使得攻击者无论根据用户当前行为,还是根据用户历史行为,均难以推测出用户行为偏好隐私。
(3)问题三:不仅要保护图书信息服务中相关各类型的用户行为隐私,更要建立统一的用户行为隐私模型,将各类型用户行为隐私作为整体进行保护。
现有的大部分方法通常只针对某种单一类型的用户行为隐私,缺乏整体性和系统性,如仅针对位置服务或仅针对查询服务。然而,数字图书馆信息服务涉及多种类型用户行为隐私(如图书浏览隐私、查询隐私、推荐隐私等),并且各类型用户行为隐私之间存在很强的语义关联性(如同一用户发起的各类图书服务请求通常围绕固定的主题)。这就要求不能孤立地考虑某单一类型用户行为隐私,应当充分考虑来自同一用户的各类型行为隐私之间的关联性,建立面向数字图书馆用户的统一行为隐私保护框架和保护模型,以实现对用户行为隐私的有效保护,只有这样才能全面改善用户行为隐私在不可信数字图书馆服务端的安全性。
3 用户行为隐私保护方法的理想应用目标
总而言之,数字图书馆服务器端是不可信的,它是攻击者的主要目标,是导致用户隐私泄露的主要根源。然而,数字图书馆信息服务又离不开服务器端的支持,用户发布的各类图书服务请求均蕴含着大量偏好隐私,使得数字图书馆存在多种用户行为隐私泄露通道。理想的数字图书馆用户行为隐私保护方法应满足以下应用目标:能在“不改变”现有数字图书馆平台架构和现有图书信息服务算法(即不牺牲系统的实用性)、“不改变”信息服务准确性、以及“不改变”信息服务高效性的前提下,确保不可信数字图书馆服务器难以从用户提交的各类服务请求记录中分析出用户行为偏好隐私,“全面改善”用户行为隐私的安全性。
在上述的实用性、准确性、高效性和安全性指标中,用户行为隐私的安全性是关键研究目标。按照前文分析可知,用户行为隐私安全性可分为以下三个层次:(1)第I层安全性,要求攻击者难以根据单一类型的用户当前行为,推测出用户行为隐私;(2)第II层安全性,在满足第I层安全性的基础上,要求攻击者难以根据不同类型用户的当前行为,推测出用户行为隐私;(3)第III层安全性,在满足第I层安全性和第II层安全性的基础上,要求攻击者难以根据不同类型的用户历史行为序列,推测出用户行为隐私。只有第III层次的安全性得到了满足,才能说数字图书馆用户的行为隐私安全性得到了“全面改善”,使得不可信服务器端的攻击者无论是根据用户行为的当前特征,还是用户行为的历史特征;无论是根据单一类型的用户行为,还是综合考虑多种类型用户行为,均难以分析推测出用户行为背后蕴含的用户偏好隐私。
结合上述的几个应用指标,表1给出了前文提到的四类用户行为隐私方法的定性比较结果,其中:(1)安全性好,当且仅当相关安全问题已经被充分考虑,并且给出了有效的解决方案;(2)准确性好,当且仅当隐私机制被引入的前后,用户最终得到的信息服务结果不变;(3)可用性好,当且仅当隐私机制对外部用户和信息服务算法均透明;(4)高效性好,当且仅当用户行为隐私机制被引入的前后,图书信息服务效率不会明显下降。从表1可以看出,现有的用户隐私保护方法在实用性、准确性、高效性、安全性等多个方面仍无法满足数字图书馆的应用需求。尤其是安全性,计算机科学领域的许多技术方法(如加密法、模糊法、假名法、掩盖法等)经过改造后虽然也能应用于保护数字图书馆用户行为隐私,但它们通常仅针对用户当前行为,没有考虑历史行为,且通常只针对某种单一类型的用户行为隐私(如仅针对位置服务或仅针对查询服务),难以应用于保护其他类型的行为隐私,因而,难以有效应用于保护数字图书馆用户的行为偏好隐私安全。
表1 隐私保护方法有效性的定性比较
方法应用场景准确性高效性可用性安全性I安全性II安全性III加密法信息服务好好不好好不好不好假名法信息服务好好不好好不好不好掩盖法文本检索不好好好好不好不好模糊法位置服务不好好好好不好不好
笔者最近的研究工作[2]构建了一个面向数字图书馆的用户行为隐私保护框架,它通过在可信客户端精心构造一系列“真假难辨”的伪行为,连同用户真行为一起,提交给不可信服务器端,“以假乱真”掩盖用户行为背后蕴含的敏感偏好。该工作是针对数字图书馆用户行为隐私保护问题的一次重要研究尝试,相比于其他已有的技术方法,具有更好的实用性和安全性。然而,该工作仅在形式上描述了一个用户行为隐私保护整体框架。但数字图书馆用户行为的类型和形式是多种多样的(如图书推荐行为、检索行为等),且均拥有各自的特征。因此,如何在该理论框架下,为各类用户行为设计有效的隐私保护算法还有待进一步深入研究。
4 结语
针对不可信网络环境下的用户行为隐私保护问题,虽然从技术方法角度看,目前已经拥有了许多富有成效的研究成果,但它们均有各自的局限性,仍存在没有很好解决的一些问题。更重要的是,这些隐私保护方法并不是针对数字图书馆专门提出,它们在实用性、准确性、高效性、安全性等多个方面仍无法满足数字图书馆的应用需求,难以直接应用于保护数字图书馆用户的行为隐私。综合已有隐私保护方法的不足之处,以及数字图书馆的实际应用需求,本文得出结论,理想的数字图书馆用户行为隐私保护方法应满足以下应用目标:能在“不改变”数字图书馆现有平台架构、“不改变”现有信息服务算法、“不改变”信息服务准确性、以及“不改变”信息服务高效性的基本条件下,确保数字图书馆不可信服务器端难以从用户提交的各类信息服务请求记录中分析出用户行为偏好隐私,从而“全面改善”数字图书馆用户的行为隐私安全性。