基于语义的位置隐私保护综述
2023-11-29李雯萱吴昊李昌松
李雯萱,吴昊,李昌松
基于语义的位置隐私保护综述
李雯萱1,2,吴昊1,3,4*,李昌松1,3
(1.轨道交通控制与安全国家重点实验室(北京交通大学),北京 100044; 2.北京交通大学 电子信息工程学院,北京 100044; 3.北京交通大学 智慧高铁系统前沿科学中心,北京 100044; 4.北京市高速铁路宽带移动通信工程技术研究中心,北京 100044)( ∗ 通信作者电子邮箱hwu@bjtu.edu.cn)
5G时代的到来使基于位置的服务(LBS)应用更加广泛,但用户在享受LBS带来的巨大便利时,也会面对由位置服务引发的诸多隐私泄露问题。为了加强匿名的安全性,提高数据效用,对抗拥有一定背景知识的攻击以及保护用户的敏感信息,研究者们提出了基于语义的位置隐私保护机制。首先,对位置隐私保护系统结构和传统的保护技术进行介绍;其次,分析了基于语义的隐私泄露和攻击方式,给出了结合语义的位置隐私保护需求,重点从单点位置隐私保护和轨迹隐私保护两个方面综述了基于语义的位置隐私保护研究中最新的关键技术和成果;最后,对未来技术发展趋势和下一步研究工作进行展望。
隐私保护;位置语义;位置服务;位置数据;轨迹数据
0 引言
随着5G无线通信及车联网(Internet of Vehicles, IoV)的快速发展,移动设备和定位技术得到极大普及,基于位置的服务(Location-Based Service, LBS)逐渐渗透到人们社会生活的各个领域,如物流与运输、周边兴趣点(Points Of Interest, POI)查询、紧急救援、服务推荐[1]等。根据中国互联网络信息中心(China Internet Network Information Center,CNNIC)发布的《第49次中国互联网络发展状况统计报告》[2],截至2021年12月,网上外卖和网约车的用户规模分别达5.44亿和4.53亿,短视频用户规模达到9.34亿。同时,智慧城市基础设施与智能网联汽车协同发展,也将推动LBS的发展[3],可以预测未来LBS会越来越普及。
LBS依赖于大规模、多样化、高质量的位置数据,随着《网络安全法》《数据安全法》《个人信息保护法》的颁布,数据隐私保护成为有效合规使用位置数据必须考虑的因素。然而,即使是在移动终端APP中采用了严苛的地理位置策略(例如仅在使用时授权位置信息),也不意味着就能妥善保护个人的数据。广受欢迎的Facebook、陌陌等社交软件曾被指出存在严重的数据泄露问题[4],一旦这些应用存在“越界”行为,收集的用户信息被恶意兜售或窃取,将严重危害用户的信息安全[5]。数据信息中最为敏感的就是位置信息,而社交应用恰恰严重依赖于位置信息。有研究专家开发了TrackAdvisor应用程序在69名用户设备上进行实验,试图确认通过位置追踪能够收集到用户个人信息的数量,最终结果显示该应用可识别约2 500个地点以及5 000条个人信息,而仅通过查看这些位置信息便可以推断出用户的健康状况、经济状况等敏感信息[6]。
尽管针对位置隐私泄露带来的安全威胁[7]相继出现了越来越多的保护技术,但这些技术大多采用的方法是对空间位置进行扰动,没有考虑位置间的语义信息等复杂情况。伴随着机器学习的发展,由数据驱动的机器学习模型往往可以从大量数据中心预测出相关的推理信息,使得针对位置数据的攻击手段和分析方法更加全面和复杂[8],仅针对空间位置扰动的策略无法抵御深层次的语义推理攻击。例如,经典位置隐私保护技术Geo-Indistinguishability[9]处理后的脱敏轨迹集可以抵御基于Markov的攻击,但无法抵抗使用深度神经网络的攻击算法[10]。因此,研究基于语义的位置隐私保护技术对于对抗拥有一定背景知识的攻击以及深层保护用户敏感信息具有重要意义。
1 LBS隐私保护
LBS指移动终端借助通信技术和定位技术获取服务提供商带来的相关服务。一旦用户信息泄露,攻击者可以通过用户的位置信息和查询信息推测出个人的敏感信息,因此需要对隐私保护进行研究。隐私保护主要有两个方向值得关注:一是对位置隐私泄露问题进行研究;二是研究更有效的LBS隐私保护技术。本章将针对位置隐私泄露问题和隐私保护的主流技术与架构展开讨论。
1.1 LBS位置隐私泄露的度量
造成LBS隐私泄露的因素很多,设计有效的隐私保护算法仍具有挑战性,因此在隐私保护中不可避免地存在追求数据可用性和隐私泄露之间的平衡问题。要解决这个问题,就需要对隐私泄露进行评估,这势必会涉及隐私量化[11]和隐私泄露的度量问题。
此外,条件熵和平均互信息[13]也可以用来度量隐私泄露程度。分别表示为式(2)、(3):
隐私量化受到实际场景的限制,应用范围有限[14]。针对不同场景下的隐私保护算法,学者们相继提出了多种隐私泄露度量方法。例如:定义多样性攻击并且提出衡量多样性攻击下的隐私泄露计算方法[15];定义转移熵衡量连续查询下的用户隐私泄露情况[16];将熵集成到所提出的混淆方案中评估隐私泄露[17];使用欧氏距离计算用户位置扰动前后的差值从而获得泄露的信息量[18]。对隐私泄露进行合理度量并且最小化隐私泄露能够使用户信息更加安全,促进LBS隐私保护技术的优化。
1.2 LBS隐私保护中的主流技术
目前LBS隐私保护中的主流技术有假名、-匿名、差分隐私、mix-zone[19]、加密等。
-匿名是许多隐私保护方法的基础,它的原理是保证向LBS服务器发送的匿名集中的每一条个体记录在敏感属性方面不能与其他1个个体区分,因此被攻击概率为1/。‑匿名依据空间位置特性通过不同的位置筛选方法构造出符合条件的匿名集[20],为了进一步保护用户信息,许多技术也会结合查询概率[21]和时间特征[22]进行匿名保护。
差分隐私[23]通过Laplace机制和指数机制来对应实现数值型和非数值型数据的隐私保护[24]。如利用Hilbert曲线将用户位置映射到一维空间,通过Laplace机制对位置信息进行扰动[25]。为了防止第三方服务器泄露信息,有学者进一步提出本地差分隐私[26]以及结合加密[27]的保护方法。
假名技术[28]通过给用户一个临时的假名来打破用户与查询之间的关联,通过频繁地更换假名以减少攻击者推断用户身份的机会。
尽管传统的空间匿名技术考虑了地理环境、查询概率或时间特征,然而这些技术大多没有考虑结合位置语义信息,攻击者仍可以根据道路网络的位置语义的相关知识去推断出用户的敏感信息,导致基于语义的隐私泄露[29]。第2章将详细分析并给出基于语义的位置隐私攻击形式。
1.3 LBS隐私保护架构
LBS隐私保护技术一般由三种架构实现:集中式架构、分布式架构和混合式架构[30]。表1总结了这三种隐私保护架构的优缺点,图1则展示了它们的具体结构。
表1 LBS隐私保护架构对比
1)集中式架构。该架构在移动用户和LBS服务提供商之间部署一个第三方可信的匿名服务器,匿名服务器可以用来隐藏用户的真实位置,向LBS服务提供商转发用户查询。
2)分布式架构。该架构通过若干个移动用户之间的通信形成一个匿名组来完成隐私保护,所有用户都是平等的节点,每个用户根据需求分别完成各自的位置匿名。将匿名组和查询请求转发给LBS服务提供商后,LBS服务提供商对用户的查询请求进行处理,处理完成后将数据结果集返回给查询用户。
3)混合式架构。该架构是基于集中式架构和分布式架构的混合模型。在该架构中,若用户数量达到构建匿名组要求,则可以使用分布式架构进行隐私保护;而在用户稀疏时则选择集中式架构进行隐私保护。
图1 LBS隐私保护架构
2 基于语义的位置隐私安全威胁与保护需求
2.1 基于语义的位置隐私泄露分析
基于语义的位置隐私泄露与位置语义密切相关,在位置隐私保护的研究中引入位置语义对增强用户的隐私保护能力至关重要。位置语义是指位置地理环境的定性描述,通常由该位置的社会功能决定,可将位置分类为医院、博物馆、学校等。基于位置语义,延伸出了更加丰富的语义特征,如流行度、敏感度等。
如果一个匿名区域只包括若干具有相同语义的位置,则不能抵御基于语义的推理攻击。位置的语义特性作为位置数据的一个维度长期被大多数位置保护方案所忽视,造成语义的隐私泄露。基于语义的隐私泄露主要可分为查询隐私泄露和位置隐私泄露两类。
2.1.1查询隐私泄露
查询隐私泄露主要发生在用户使用LBS阶段,当用户将查询请求发送给LBS提供商时,如果查询请求被恶意截获,会暴露位置隐私并且根据该隐私推断出其他敏感信息。查询隐私可以分为快照查询隐私和连续查询隐私[31]。快照查询仅在用户有需要时进行查询,连续查询则要求服务器每隔一段时间返回一次结果,因此连续查询隐私保护需要在快照查询隐私保护的基础上考虑位置攻击跟踪。
此外,当攻击者对匿名服务器发起攻击时,用户的查询隐私遭到泄露,这时可以使用-匿名方法保护真实的请求位置,但若查询的内容和用户的请求位置语义相关,用户的个人敏感隐私信息也会遭到泄露。如:当攻击者知道Alice的查询内容为“附近哪里有美食”可以推断Alice可能位于与日常活动相密切的位置语义(家庭、学校和公司),而不是位于与电影院、餐馆和酒吧等查询概率较低的位置语义。假设Bob从银行取款后搜索“附近的皮肤医院”,如果仅为用户的位置提供保护,不为用户的查询位置提供保护,也将遭到隐私泄露,因为用户的查询位置反映了用户的需求。
2.1.2位置隐私泄露
位置隐私泄露主要发生在不可信第三方获取到用户访问位置以及在该位置存在逗留时间的场景下。位置隐私保护中用户身份是敏感信息,攻击者可以结合先验知识将用户身份和实际位置联系起来。位置隐私保护的目的是隐藏位置与用户之间的关系。
不同用户对不同的位置语义敏感度不同,将用户的不同偏好纳入隐私保护方案可以增强匿名集安全性。如:John是一名医生,认为医院是不敏感的位置语义;但Alice是超市员工,不经常去医院,医院对她来说是敏感的位置语义。因此,由于用户对不同位置的语义敏感度不同,应该获得个性化保护。
敏感语义位置是用户认为敏感程度较高的位置,与用户访问位置的频次有关。通过敏感语义位置可以识别出不同用户的访问模式,并且访问模式与用户的角色和偏好有关[32]。由于不同用户对各类位置的访问频率不同,当攻击者知道这一点时,可以根据用户的访问习惯推断出最不可能访问的匿名位置,从而损害匿名安全性。例如,假定用户只对敏感位置隐私进行保护,当攻击者查询到Alice的位置匿名集中含有书店、学校和快餐店三种语义类型,书店访问频次少,认为是Alice的敏感语义位置,学校和快餐店访问频次高,不是敏感语义位置,因此便可以过滤掉学校和快餐店,认为Alice处于书店。这种位置隐私泄露是由于攻击者知道Alice的个人访问模式造成的。
2.2 基于语义的位置隐私攻击类型
针对可能存在的隐私泄露时的风险,攻击者可以发起基于语义的隐私攻击,主要表现为语义推理攻击和语义重识别攻击两种类型。
2.2.1语义推理攻击
攻击者试图将非法获得的由位置隐私保护机制处理后的匿名集与先验背景知识结合,进而推断出用户的位置语义、实际位置、家庭状况、社会关系等敏感信息的行为。
基于语义的推理攻击模型中通常假设攻击者拥有城市位置语义道路网络和隐私保护算法的信息。即,攻击者已知城市道路网络的连接情况和所有位置语义的分布情况。
例如,攻击者通过对非法获取的匿名集中所有位置进行语义分析,如果发现它们具有相同的语义(例如医疗场所),则可判定用户的真实位置具有这一语义特征,进一步推测出用户的当前状况(例如就医);轨迹合并时,攻击者根据匿名集和整个城市的位置语义分布的对比情况,发现两者语义分布中存在不同的异常位置语义(例如工业,通常远离市中心),由于在匿名集生成时考虑地理因素,优先选择用户附近轨迹合并,因此攻击者可以推断该异常位置语义(工业)与用户附近独特的环境有关,从而推测与用户社会活动相关的信息(例如从事工业相关工作或居住在远郊)。
2.2.2语义重识别攻击
重识别攻击是攻击者通过匿名集或轨迹分段推断出用户的个人身份信息或跟踪未来的地理位置的行为。在轨迹离线发布中,服务提供商通常对移动用户的轨迹进行处理后进行发布,当攻击者可以获取到其他外部公共资源时,结合获取到的已知轨迹信息也可以推测出用户的身份。
该攻击模型通常假设攻击者可以访问已知用户身份的公共轨迹和一些包含私人信息的匿名轨迹,从而结合背景知识实现轨迹间的匹配。
例如,攻击者通过观察Bob获得他的部分移动轨迹(依次为丰华小区—医院—A餐馆—医院),结合背景知识推断出匿名集中符合条件的轨迹(依次为丰华小区—医院—A餐馆—医院—丰华小区健身房),以此可以获得Bob的完整轨迹,并且认为Bob是医务工作者。
2.3 基于语义的位置隐私保护需求
传统的位置隐私保护方法的核心思想是把用户真实位置或行为信息掩藏在虚假信息中,以达到隐私保护的作用。随着移动用户LBS的普及,用户产生了语义丰富的海量数据,如地理位置语义、时间语义等,然而大部分隐私保护方案没有充分考虑语义的影响,容易遭受基于语义的隐私攻击,造成语义隐私泄露。因此,基于语义的位置隐私保护机制需要充分考虑匿名集中位置语义的多样性、敏感度等因素。
例如,针对位置隐私泄露,假设Alice在公立医院发起查询,并且带上了“公立医院”这一位置语义时,匿名服务器需要根据用户隐私需求生成符合条件的匿名集。具体步骤如图2所示。
1)采用-匿名对位置隐私进行保护。假设=3,由于医院人流量大,生成的匿名集中所有用户的位置语义均为医院,攻击者仍然可以判断Alice在进行医疗活动。
2)将位置语义多样性纳入位置隐私保护机制,生成的匿名集中位置语义包括“公立医院、私人诊所和口腔医院”,攻击者仍然可以利用三个类似的位置语义推断出Alice在进行医疗活动。
3)进一步考虑位置语义分类颗粒度,将若干医院划分为一大类,重新生成的匿名集位置语义包括“公立医院、银行和学校”,Alice被推断出真实位置位于医院的可能性大大降低。
4)“银行”这一位置语义对于Alice而言较为敏感,则进行匿名集构建时可以倾向于选择Alice不敏感的语义位置。若图书馆相较于银行而言,敏感度较低,则可以将图书馆纳入匿名集。
5)当考虑移动用户发起请求的时间语义时,攻击者可以根据时间信息对匿名集中的位置语义进行过滤。如,Alice的查询时间为凌晨1点,当匿名集的位置语义包含“公立医院、学校和图书馆”时,攻击者可以排除图书馆这一位置语义,因此,可以考虑将深夜营业的餐馆纳入匿名集中,生成最终匿名集,以抵抗基于语义的隐私攻击。
对用户来说,医疗信息为敏感信息,敏感信息需要更高级别的保护。若能充分考虑用户的位置语义,攻击者将无法推理出Alice的隐私信息。因此在生成匿名集时需要充分考虑语义特性。
图2 考虑位置语义的匿名集生成
3 基于位置语义的隐私保护技术进展
3.1 基于语义的单点位置隐私保护
为了解决快照查询带来的用户位置隐私泄露问题,以及抵御基于语义的隐私攻击,国内外学者提出了相应的基于位置语义的隐私保护算法。
3.1.1基于语义安全的-匿名
基于语义安全的-匿名在传统的-匿名基础上考虑了位置语义,即同时计算位置间的物理距离和语义距离来构造匿名集。其中语义距离用来测量两个位置之间的语义差异,语义距离越大,语义相似度越小,语义安全程度越高。
文献[33]中使用超概念距离(Super Concept-based Distance, SCD)计算两个位置之间的语义距离,进而计算出语义相似度。首先,选择与真实位置语义距离相近的位置组成匿名集;其次,计算欧氏距离,根据所提算法进一步缩小匿名集;最后,从匿名集中选出1个语义相似度和欧氏距离乘积较大的假位置与真实位置组成最终匿名集,但该算法忽略了用户的隐私需求差异性,语义隐私和地理隐私应该跟随用户的需求动态可调节,因此需要对语义距离和欧氏距离进行合理编排。文献[34]中进一步考虑用户隐私需求差异性,使用Jaro-Winkler相似度衡量位置间的语义距离,在同时考虑查询概率和语义距离的基础上,设置可调节比例因子的综合距离(包含物理距离和语义距离)进行假位置选择。文献[35]中提出依次根据查询概率、物理距离和语义距离进行三轮位置筛选构造匿名集的方法。虽然文献[33-35]均可以提升匿名集的语义安全,但是仅考虑了位置的语义距离这一属性,没有考虑位置语义流行度、语义敏感度等重要属性,而这些属性也是暴露用户敏感信息的因素。
在路网环境下,文献[36]中将道路网络建模为带有语义信息的无向图,在构建匿名集时计算不同语义类型的位置对道路敏感度的影响;但是位置语义类别较少,缺乏实际应用性。文献[37]在此基础上构建带有语义信息的边簇图,建立位置语义属性集,其中包含位置类型、位置流行度和敏感度,这弥补了仅考虑语义距离的不足,达到满足用户多样的隐私需求的目的。位置流行度为位置受用户喜爱的程度,代表用户接近某一位置的概率,位置可以分为不同类型,如学校、银行和医院等,一般情况下用户访问不同语义类型的位置概率不同,流行度越高,用户越有可能出现在该位置。
上述用户人工设置敏感语义位置的过程较烦琐,为了改善用户的服务体验,文献[38]中设计了一种半自动化获取用户敏感权重的方法,在现有位置隐私保护框架基础上,根据用户对位置语义的敏感度不同自动生成敏感权重文档,从而快速获得用户的位置敏感度偏好,结合强化学习获得用户位置-匿名的最佳协作路段,同时对用户位置和查询位置进行保护,达到隐私保护效果。虽然该方法可以根据用户偏好有效提升服务质量和进行隐私保护,但是在位置语义稀疏的地区无法有效执行匿名算法。
位置语义树包含明确的层次结构,有利于将位置语义进行细粒度区分,利用这种层次结构可以定义位置语义的相关参数[40]。文献[41]中考虑查询概率,在查询前,终端用户向Wi-Fi接入点请求获取当前覆盖范围内的地图信息、位置语义树及历史查询概率,在匿名集生成时,通过建立最大最小假位置选择(Maximum and Minimum Dummy Selection, MMDS)算法保证匿名集中的位置之间查询概率和语义距离分别都更接近。将地理位置根据语义类型构建位置语义树,在计算语义距离时,每个叶节点表示地图上的真实位置,每个非叶节点表示它的子节点的类别,语义距离为语义树中两个位置叶节点之间的跳数。如图3所示,实验小学和职业技术学院的语义距离为3,社区和文化展览馆的语义距离为6。
文献[43]中考虑到匿名环境中位置点稀疏的问题,针对文献[41]中对位置语义和位置离散度度量粗略的问题进行改进,提出假位置干扰隐私保护(Dummy Location Interference Privacy, DLIP)算法,使用Heron公式计算位置间离散度,结合WordNet计算语义相似度,增强了算法实用性。
虽然上述工作可以有效防止语义攻击,但是采用集中式架构仍会对用户信息产生隐私威胁。为进一步保护用户数据安全,文献[44-45]中使用分布式架构避免第三方带来的安全问题,但是文献[44]中仅考虑了语义类别多样性,而文献[45]在对语义位置进行选择时,构建语义层次树,将基于智能合约的SDE模型用于匿名位置选择,在保证语义多样性的同时,提高不同类别位置语义占总位置比例的均衡程度,进一步提升匿名集安全。SDE与直接使用匿名集中位置语义类别的数量不同,它可以反映语义类别总数对语义安全的影响以及每个语义类别的数量对整体语义安全的影响,可以表示为:
根据向LBS发起查询请求的路段上的用户数量来推断查询用户位置的概率推断方法被称为边权攻击。文献[46]中考虑了道路语义特征,提出防边权和语义推理攻击的位置隐私保护算法,将道路的敏感度和关联度相结合构建道路隐私度,描述道路在语义位置的敏感性,筛选道路隐私度最小的道路加入匿名集。该方法使每条道路上的用户分布较均衡,并且保证了用户的语义安全;但是该方法也存在位置语义类别少的不足,没有充分考虑实际地区的丰富的语义类型。
语义编码是另一种计算语义距离的方法:语义距离可以通过语义编码之间的差值表示。根据POI标准[47],眼科医院的语义编码为140 502,骨科医院的语义编码为140 516,因此语义距离为14。文献[48]中将位置语义进行编码,进而计算位置间语义距离。根据语义隐私保护和地理隐私保护受重视程度不同,自适应调节用户的语义信息损失和地理信息损失的比重。通过联合调整攻击者发起的语义推理攻击和地理推理攻击产生的两类估计误差的比例实现不同的攻击效果,并且进一步使用Stackelberg博弈优化隐私保护效果,实现用户数据安全和获取质量服务之间的最佳平衡。
文献[49]中定义了基于路网和敏感语义位置的地理匹配隐私推理攻击,并且设计隐式数据发布方案来对抗基于道路网络和敏感语义位置的地理匹配推理攻击。采用基于路网拓扑和网格单元灵敏度量化的自适应隐私预算方法实现动态匿名区域的构造,可以有效抵抗不同隐私预算下的地理匹配攻击。
3.1.2加密
为同时减小匿名位置和查询内容的语义信息对匿名安全性的影响,文献[50]中采用Stackelberg博弈进行匿名算法优化的同时使用加密服务器对查询内容进行隐私保护,但是该方法缺少对用户敏感语义位置的保护;文献[51]中进一步考虑用户对位置语义的敏感度,提出了基于多匿名器的双重语义隐私保护机制。结合Shamir机制和多匿名服务器的方法可以防止攻击者获取查询信息,构造满足语义多样性的匿名集,通过构建个人语义树获得位置语义细粒度分类,在满足语义多样性的约束下进行敏感语义位置替换,提高匿名集的安全性,但同时也增大了系统开销。将用户访问不同类别语义位置的频率作为该位置的敏感度,当某一位置语义更频繁地出现在用户的访问轨迹,较少出现在其他用户的访问轨迹时,表示该用户对这一位置更加敏感。
3.1.3差分隐私
具有差分隐私保证的扰动技术可以有效抵御具有背景知识的攻击者。张学军等[52]结合位置语义信息与差分隐私,提出了融合语义位置信息的差分私有位置隐私保护方法以解决隐私保护的噪声添加效率问题,根据位置点敏感度不同为不同区域细粒度地添加Laplace噪声,提高了LBS的服务可用性。李洪涛等[53]基于路网拓扑关系对路段敏感程度进行级别划分,提出差分隐私位置保护机制,实现对用户位置隐私的保护,但存在所搜集的数据被窃取和泄露的威胁。以上两种方法未考虑数据的时间特征,文献[54]中使用差分隐私中的拉普拉斯机制生成满足Geo-Indistinguishability的扰动区域,结合位置语义和时间特征进行优化,最后通过线性规划方法选择最优扰动位置。
为了解决中心化差分隐私存在第三方数据收集者不可信的问题,文献[55]中使用本地化差分隐私技术,将位置数据隐私化的工作转移到每个用户,对用户位置数据进行统计意义上的扰动,同时引入动态博弈模型,进一步减少了语义隐私泄露,但是缺乏对用户个性化隐私需求的考虑。文献[56]中进一步提出车载自组织网络(Vehicular Ad hoc NETworks, VANETs)应用场景下的基于强化学习的位置语义扰动机制,并结合差分隐私技术对抗推理攻击。其中提出的基于强化学习的语义位置扰动(Reinforcement learning-based Semantics Location Perturbation, RSLP)方案动态地选择隐私预算,然后随机发布一个虚假位置以保护敏感的语义位置。RSLP根据车辆当前状态选择扰动策略,包括位置语义、位置敏感度和攻击历史,动态平衡服务质量(Quality of Service, QoS)损失和隐私保护能力。但RSLP面临维数灾难,考虑到深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法能有效保护连续值位置隐私,进一步开发了基于DDPG的位置语义扰动(DDPG-based Sematic Location Perturbation, DSLP)方案,解决了具有连续值扰动策略的位置优先级保护问题。在位置混淆中引入强化学习可以有效提高隐私保护效果,减少系统开销。文献[57]中使用强化学习求解位置隐私保护中的组合优化问题;文献[58]中由于使用了缓存机制,提出使用深度强化学习的缓存替换策略来减少用户与匿名服务器的通信;文献[59]中使用强化学习求解基于互信息定义的隐私泄露问题,取得了更好的隐私效用权衡。
3.1.4假名
为了保护IoV中车辆间交换道路信息时的隐私安全,需要使用假名更换策略来混淆攻击者。文献[60]中结合位置混淆和匿名区域技术设计假名更换策略,可以抵抗语义链接攻击和语法链接攻击。目前基于云计算的LBS系统架构可以提供更强大和全面的计算服务[61],基于云计算的车联网(Cloud-Enabled IoV, CE-IoV)是结合了云计算、IoV和物联网(Internet of Things, IoT)的新范式,主要依靠信标进行车辆间消息交换并确保信息安全,信标包含车辆的位置、标识符和速度。攻击者截获这些数据后,可以构建目标车辆的完整轨迹并跟踪用户。文献[62]中提出了针对CE-IoV场景中用户的隐私保护机制,以达到降低用户可链接性和被跟踪概率的目标。该机制使用信标在车辆协作组之间进行消息交换,依靠更改假名和虚拟标识符(Virtual Machines IDentifiers, VMIDs)进行车辆信息的模糊,通过设置静默期进一步混淆攻击者。采用全局被动攻击(Global Passive Attacker, GPA)对文献[62]中的隐私保护机制进行检验,其中GPA包括语义链接攻击、语法链接攻击、观察映射攻击和链接映射攻击,通过降低攻击成功率这一指标证明了该机制具有隐私保护能力。表2总结了近年来基于语义的单点位置隐私保护的研究方案。
表2 单点位置隐私保护方案对比
3.2 基于语义的轨迹隐私保护
轨迹数据由在时空上有相关关系的单点位置构成,在许多应用中更有价值,包括城市规划[63]、移动服务提供[64]等。特别是移动服务,轨迹数据分析的结果可以帮助改善服务体验和丰富服务类型。由于用户轨迹的敏感性,发布该信息往往会导致个人隐私泄露。例如,未经授权披露用户的私人轨迹可能会暴露他们的旅行记录、对敏感地点的访问,甚至社交关系[65]。未考虑轨迹语义特征的轨迹合成算法无法可信地模拟用户的移动行为,由于攻击者可以根据轨迹的合理性过滤掉合成轨迹,因此无法有效防御位置推理攻击。
为防止轨迹语义隐私泄露,采用的技术大致可分为四类:基于语义的轨迹差分隐私、基于语义的轨迹-匿名、基于语义的轨迹抑制和基于语义的假轨迹。
3.2.1基于语义的轨迹差分隐私
在IoV场景下,文献[66]中提出了基于强化学习的差分隐私机制,通过随机发布车辆的位置来保护车辆的语义轨迹,使用强化学习选择位置模糊的策略,其中位置模糊结合了车辆的当前状态,具体包括:位置坐标、位置语义、历史攻击强度和先前的位置语义是否被泄露。将差分隐私融入语义轨迹隐私可以隐藏车辆真实的位置语义,强化学习则能够根据隐私增益和服务质量损失优化隐私保护策略,但是该方法忽略了车辆移动路径应该保持相似的情况。文献[67]中则进一步实现自适应动态优化车辆轨迹中每个位置的隐私预算分配策略,通过强化学习对隐私预算进行更加合理的分配,该方法使用衡量两条路径相似性和位置语义安全性相结合的方法生成奖励函数,达到激励可靠用户加入匿名集的目的并有效平衡了地理位置混淆和语义安全。
轨迹社区发现场景下同样需要对用户轨迹进行隐私保护。文献[68]中开发了基于差分隐私的潜在轨迹社区发现架构(Differential Privacy Latent Trajectory cOmmunity Discovering, DP-LTOD),为了保护用户轨迹隐私和保留数据效用,将原始轨迹序列分段后模糊为满足差分隐私的轨迹序列,根据语义距离和地理距离判断轨迹使用不同的聚类方法,通过聚类上传的轨迹发现潜在轨迹社区,从而达到将具有相似兴趣的用户集中到一个社区的目的,同时对用户隐私进行保护。在服务推荐场景下,为降低计算成本,文献[69]的方法无需进行实时的灵敏度计算,而是建立灵敏度图进行离线轨迹点灵敏度查询,进而基于灵敏度图设计隐私保护机制,为不同用户分配不同的隐私预算,进一步提升轨迹数据利用率,降低差分隐私噪声对服务质量的影响。
大量工作表明,用户的移动数据和社会关系之间存在相关性[70]。用户移动数据通过建立马尔可夫模型进行预测,传统马尔可夫模型在传输模型和稳态分布中缺乏时间相关性,为了弥补这一不足,文献[71]中引入时间划分的概念建立用户的移动模型Tmarkov,基于该模型构建用户时间相关的轨迹集,进而可以实现时空相关的差分隐私轨迹模糊方案。但是该方案没有考虑用户会受到社会关系隐私攻击,因此,文献[72]从社会维度增强合成轨迹的合理性;文献[73]中则进一步提出S3T-Trajectory来抵抗社会关系隐私攻击,从真实轨迹中挑选子轨迹并添加Laplace随机噪声之后用于生成合成轨迹,通过建立基于自适应时空离散网格的时间相关马尔可夫模型捕捉人类的移动行为,从时空、语义和社会维度(Spatio-Temporal, Semantic, Social, S3T)提出三个移动特征度量来确定真实轨迹和合成轨迹是否相似或不同,进而通过构造两级优化问题完成效用感知和隐私保护轨迹的合成,并且由于限制了用户移动的可能性,提高了用户移动模型建模效率,大幅减少了时间开销。
焦荟聪等[74]根据位置语义敏感度计算保护区域中位置点的语义隐私度权重值,以及轨迹特征保持度权重值,结合两者设计打分函数,进而对轨迹进行模糊;但是该方案使用的数学模型较为复杂,算法运行时间有待优化。文献[75]中提出了最优个性化轨迹差分隐私方案(Optimal Personalized Trajectory Differentially Privacy, OPTDP),首先基于轨迹的语义相似度和概率移动模型对不同轨迹的停留点进行聚类和匹配;然后在区分用户位置隐私级别的情况下提出基于停留点和频繁子轨迹的隐私级别分配方法,根据位置匹配结果为轨迹中的停留点直接分配不同的隐私级别和预算;最后通过差分隐私机制对位置点进行模糊,构建轨迹匿名集防止推理攻击。但该方案没有充分考虑时空关系,无法抵御重识别攻击。文献[76]中为同时防止推理攻击和重识别攻击,提出了UDPT(Utility-optimized and Differentially Private Trajectory)算法,采用三阶段差分隐私保护机制:第一阶段结合差分隐私和-means将轨迹模糊成簇对抗推理攻击;第二阶段将选择候选模糊位置集合建模为多目标优化问题,采用差分隐私遗传算法求解数据效用优化问题:第三阶段结合差分隐私和基于条件的随机场(Conditional Random Field, CRF),通过CRF的序列解码选择最终模糊轨迹对抗重识别攻击。但是该方法只能通过人工设置权重参数来表示不同用户对语义效用或地理效用的偏好,无法自动调整参数。
3.2.2基于语义的轨迹-匿名
文献[77]中主要研究语义攻击的识别与隐私保护,引入POI作为轨迹语义的属性,不仅合并位置信息,而且进行时间和空间上的合并,所提算法同时满足-匿名性、-多样性和-相近性,并且在蜂窝网络和移动设备收集两个真实移动数据集对算法进行评估,针对语义推理攻击和重识别攻击提供了强大的隐私保护,但是位置语义的分类细粒度问题需要进一步优化。
-多样性可以表示语义类型的数量,如果区域A和区域B分别为医院和学校,那么认为匿名集具有2-语义多样性。保证-匿名数据集中敏感属性的多样性,可以增强位置隐私保护。-相近性保证敏感属性的位置语义分布接近经验位置语义分布,用KL散度(Kullback-Leibler Divergence)来计算两个不同分布的差异。如:在进行轨迹合成时考虑时空点的语义分布与整个城市的位置语义具有相似的分布,即小于某个阈值。
文献[78]中提出了基于-匿名模型的语义轨迹匿名方法,基于运动模式、道路网络拓扑和敏感区域的道路权重执行轨迹模糊策略,以轨迹相似度作为是否发布轨迹的标准,通过物理约束提高语义隐私级别,但是该算法在数据量增大时,平均执行时间会显著增加。文献[79]中将位置点语义感知信息与底层地图的背景知识结合,通过切断用户与访问的敏感地点之间的联系来降低隐私泄露风险,在构建虚拟轨迹之前,为个性化敏感位置构建隐藏区域。同时在位置语义多样性和-匿名约束下,结合匿名位置查询概率保证位置分布均匀。构建隐藏区域时定义语义相似度为两个POI在访问时间和停留时间的相似性,相似点需要超过语义相似度的阈值且不是同一类型,进一步保证了轨迹数据的语义安全。然而,如果敏感位置设置不当,会严重影响数据的可用性。
文献[80]中提出了移动语义感知的隐私保护(Mobile Semantic-aware Privacy, MSP),根据用户在位置上的角色,通过构建分层语义树来描述与用户相关的移动位置语义集,对位置的隐私敏感度进行评估并将其集成到用户相关的位置语义中。为了进一步考虑用户的个性化需求,开发自适应隐私保护机制MSP,移动语义感知的合成轨迹可以在第三方服务器将公共或个人语义树加载到缓存器中自适应不同用户需求,深度语义树将位置语义属性、用户的停留时间、位置的隐私敏感度相结合,实现自适应MSP机制。上述算法仅适用于静态轨迹,然而动态轨迹也需要进行隐私保护。贾俊杰等[81]提出基于遗传算法(Genetic Algorithm,GA)的动态轨迹匿名算法,利用GA对当前时间段内的历史轨迹建立轨迹行为模式,进而通过轨迹行为模式预测移动对象的行动轨迹,采用-匿名技术生成预测轨迹的假轨迹以达到匿名效果,在一定程度上避免了随机轨迹的出现。为了尽可能保证轨迹可用性,文献[82]中将真实轨迹分解为位置对集合,基于语义、时间和地理属性从历史轨迹集中选择符合的位置对构建等价类,进而根据等价类中的位置对生成虚假轨迹集,进一步提升了数据可用性。
许多模型假设对手拥有完善的背景知识,因此会高估隐私风险。文献[83]中引入轨迹数据隐私风险估计模型,假设攻击者不具有完整背景知识。该模型使用大小和形状不同的等价区域来反映不同语义的位置,通过构建等价区域,对不同类型的攻击进行建模,使用-匿名性、-多样性和-相近性对模型进行评价,但是该模型仅使用多边形对等价区域进行简单定义,没有考虑真实的地图信息。
3.2.3基于语义的轨迹抑制
轨迹抑制法的基本思想是在轨迹数据发布前删除轨迹中的敏感位置或用户访问频率高的位置,但会造成数据效用降低,目前的研究旨在保证数据效用的同时替换轨迹中敏感的停留点。
停留点指移动用户的轨迹在一定范围内停留超过一定时间的位置。一般认为移动用户的起点、终点和目的地为停留点,如购物中心、医院或学校。根据停留点的相邻位置分布不同,可以将它们分为三种类型:非孤立停止点、孤立停止点和完全孤立停止点。在进行轨迹发布时,可以对完整真实轨迹进行模糊,但会产生巨大开销,因此,在进行轨迹合成时可以仅对敏感停留点进行替换[84]。
文献[85]中提出离线轨迹发布场景中的隐私保护算法,将轨迹上所有采样点的语义属性进行标记,并建立语义分类树,针对不同类型的敏感停留点,在考虑用户速度和避免反向突变的同时,采用不同的策略选择适当的用户兴趣点进行替换,最后发布重构轨迹。该方法可以有效避免由于未考虑最大移动速度而产生不合理的轨迹点。将平均识别可能性、轨迹语义一致性和轨迹形状相似性作为评价指标,达到平衡用户定义的隐私需求和数据可用性的目的。轨迹的语义一致性可以理解为运动轨迹中停留点和替换位置之间语义差异的平均值。当停留点替换为语义相同或相似的地理位置时,可以较好地保留原始轨迹的语义特征,从而保证轨迹数据效用。文献[86]中提出基于敏感区域替换(Sensitive Stay Area Replacement, SSAR)的轨迹隐私保护,对用户运动特征进行分析后提取停留区域,再结合用户隐私偏好获得敏感停留区域,其次结合移动方向、位置语义和语义距离等属性进行区域替换,进一步减少对原始轨迹的破坏,在安全性和可用性之间取得了较好的平衡。
在基于位置的社交网络(Location-Based Social Network, LBSN)中产生的用户位置数据容易遭受基于机器学习的攻击。文献[87]中利用机器学习方法获得用户签到的动机,并且分析了语义和地理泛化造成的效用损失;文献[88]中提出了自动学习数据特征的异构图嵌入方法完成社交关系和位置预测任务;文献[89]中通过多级注意力机制对轨迹点和上下文特征进行提取,进一步挖掘轨迹间相似性,以获取用户行为偏好;文献[90]中为了解决最近邻查询泄露信息的问题,提出聚合查询方案PPAQ(Privacy-Preserving Aggregate Queries)同时保护用户位置、查询内容和访问模式;文献[91]中研究了通过交换评论进行轨迹隐私保护。移动用户向系统提供商(System Provider, SP)提交访问过的POI评论,因此,SP可以获得用户的信息和相关轨迹。引入基于评论的位置相关攻击(Review-based Location Correlation Attack, RLCA)和基于语义的长期统计攻击(Semantics-based Long-term Statistical Attack, SLSA),RLCA通过重建轨迹来识别真实用户,SLSA通过语义频率的差异性建立位置和用户的联系。针对RLCA,通过衡量用户和轨迹的相关性使重建轨迹上的位置数量得到抑制;针对SLSA,通过衡量不同位置的语义频率差异的不可区分程度,选择使用频率和历史数据的语义相同的用户组成匿名组,以保证对手不能通过启动SLSA推断用户的位置,在保护轨迹隐私的情况下不降低数据效用。
3.2.4基于语义的假轨迹
文献[92]中将用户历史语义轨迹与位置语义相结合构建了用户行为模型,根据模型中相邻时刻语义位置之间的转移概率和时空关联性构建符合用户行为规律的假轨迹,实现混淆用户真实轨迹的目的。表3总结了近年来基于语义的轨迹隐私保护的研究方案。
表3 轨迹隐私保护方案对比
4 未来挑战及展望
4.1 语义信息更新及多样化
随着移动技术和LBS日益发展,产生了语义丰富的海量数据,如地理位置语义、时间语义、用户移动模式语义、地理位置可达性、社会关系语义、访问时间等。数据预处理对模型训练的影响至关重要,结合当前知识学习对新增位置语义进行识别和添加,动态更新位置语义特征和语义颗粒度是未来一个重要的研究方向。未来可以结合数据挖掘技术对用户使用LBS产生的相关数据进行高效提取、融合及分析,从而进一步分析出用户的移动模式、社会关系等信息,通过设计隐私保护算法最大限度地降低这些信息暴露的风险,避免具有背景知识的攻击者对用户隐私进行语义推理攻击和语义重识别攻击。
4.2 位置语义评价指标的构建
在对位置语义隐私保护算法性能进行评估时,通常采用传统的通用性评估指标和基于位置语义的评估指标相结合的方式,虽然一些基于位置语义的评估指标被相继提出,但由于对位置语义的度量较为粗糙且方法不多,所以评价指标数量较少。因此,提出符合用户特征的位置语义处理方法和更精确的语义隐私度量准则是未来一个重要的方向。词频-逆向文件频率(Term Frequency-Inverse Document Frequency, TF-IDF)可以对位置语义进行数量上的统计分析从而对文本敏感性进行度量,因此可以精确判断用户的隐私需求以及在进行匿名保护时减少语义隐私泄露的风险。此外,可以借助语义词典对语义相似度进行计算,例如Word2Vec、WordNet、维基百科等,从而提高用户匿名假位置数据的真实性。
4.3 新应用场景下的基于语义的位置隐私保护
新应用场景包括智能铁路、智慧城市、IoV、工业物联网等。面对更智能化的应用场景,用户隐私泄露的概率将大幅增加。例如,通过本文调查发现,IoV中基于位置语义的隐私保护技术通常关注的是单点位置下的隐私保护,缺乏对轨迹语义隐私和查询位置语义隐私的保护。而随着IoV中人、车、云、路之间的连接数增加,车辆高速移动产生的一系列行驶轨迹和查询请求之间具有潜在的语义关联。此外,具有稳定行为模式的用户对隐私信息(身份、工作、偏好等)和车辆信息(日常轨迹、车牌号等)的隐私保护需求更为迫切。因此,如何在新应用场景中实时保护用户的位置及轨迹语义是未来一个重要的研究方向。这需要对用户转移模式进行合理建模,不仅关注移动的时空关联,还要关注访问规律、社交关联、隐私差异性,从而有效感知用户移动行为,刻画用户隐私保护需求。结合隐马尔可夫模型、贝叶斯等统计方法可以对用户移动行为模式进行建模,充分考虑多种用户信息。
4.4 结合机器学习的个性化隐私保护
不同用户在不同场景下具有不同的时空状态、行为模式等,由于人类的生活模式、行为偏好有一定的可预测性,因此,结合位置语义,针对不同的用户和场景设计个性化的隐私保护机制从而智能决策用户的保护策略是未来一个重要的研究方向。强化学习和生成对抗网络(Generative Adversarial Network, GAN)[93]的发展为位置隐私保护技术提供了新的手段和工具。结合GAN的差分隐私保护可以避免对原始位置数据进行过度清洗,未来可以结合GAN开发自动调整参数的机制进一步平衡地理效用和语义效用。强化学习可以根据海量用户数据集进行自主学习和推演,对不同用户的隐私保护级别进行选择以自适应动态环境调整用户的隐私保护策略,进一步提高智能互联网设备下用户的隐私安全保护水平。
4.5 基于语义的位置隐私保护与LBS服务质量的平衡
通过笔者的调查发现,随着攻击手段的多样化、数据分析的智能化,现有结合位置语义的隐私保护技术算法复杂度也随之增加。在LBS隐私保护技术中,隐私保护、服务质量和资源消耗之间的平衡仍然是一个需要解决的问题。未来需要开发轻量级的位置隐私保护机制,尤其是对于使用了加密和区块链技术的方法,可以结合边缘计算技术使用户将部分存储和加密过程迁移到边缘服务器、无线访问点等。
5 结语
LBS具有十分广阔的应用前景,因此LBS位置隐私保护技术仍然是未来研究的热点。本文通过分析基于位置语义的隐私泄露问题以及语义推理攻击,提出位置语义隐私保护策略的需求,详细介绍了基于位置语义的单点位置隐私保护和轨迹隐私保护的相关方法,进而对基于语义的位置隐私保护研究发展趋势进行展望。未来对用户隐私保护的策略依赖更加智能的语义分类及细化方法、结合先进技术对用户进行个性化保护,力求进一步平衡隐私保护与服务质量之间的关系。
[1] SALEEM Y, SOTRES P, FRICKER S, et al. IoTRec: the IoT recommender for smart parking system [J]. IEEE Transactions on Emerging Topics in Computing, 2022, 10(1): 280-296.
[2] 中国互联网络信息中心.中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2022. (CNNIC. Statistical reports on internet development in China[R]. Beijing: China Internet Network Information Center, 2022.)
[3] 住房和城乡建设部,工业和信息化部.部署智慧城市基础设施与智能网联汽车协同发展试点工作[EB/OL]. [2022-08-01]. https://www.mohurd.gov.cn/xinwen/jsyw/202105/20210510_250059.html.(Ministry of Housing and Urban-Rural Development, Ministry of Industry and Information Technology. Deploying pilot projects for coordinated development of smart city infrastructure and intelligent connected vehicles[EB/OL]. [2022-08-01]. https://www.mohurd.gov.cn/xinwen/jsyw/202105/20210510_250059.html.)
[4] 金元浦.大数据时代个人隐私数据泄露的调研与分析报告[J].清华大学学报(哲学社会科学版),2021,36(1):191-201,206.(JIN Y P. The investigation and analysis report on personal privacy data leakage in the era of big data[J]. Journal of Tsinghua University (Philosophy and Social Sciences), 2021, 36(1): 191-201, 206.)
[5] BOUSSADA R, HAMDANE B, KAMOUN F, et al. Surveying and analyzing privacy issues in contact tracing apps[C]// Proceedings of the 10th IFIP International Conference on Performance Evaluation and Modeling in Wireless and Wired Networks. Piscataway: IEEE, 2021: 1-5.
[6] 安全圈(北京)信息技术有限公司.太可怕了!仅从手机位置信息就能分析出你的隐私[EB/OL]. [2022-09-29]. https://baijiahao.baidu.com/s?id=1693028022310752333&wfr=spider&for=pc. (Anquanquan. Too scary! Your privacy can be analyzed solely from location information of your phone[EB/OL]. [2022-09-29]. https://baijiahao.baidu.com/s?id=1693028022310752333&wfr=spider&for=pc.)
[7] JOVER R P. The current state of affairs in 5G security and the main remaining security challenges [EB/OL]. [2022-09-29]. https://arxiv.org/pdf/1904.08394.pdf.
[8] ZHANG W S, YANG W D, ZHANG H J, et al. De-anonymization attack method of mobility trajectory data based on semantic trajectory pattern[C]// Proceedings of the 14th EAI International Conference on Mobile Multimedia Communications, LNICST 394. Cham: Springer, 2021: 354-366.
[9] ANDRÉS M E, BORDENABE N E, CHATZIKOKOLAKIS K, et al. Geo-Indistinguishability: differential privacy for location-based systems[C]// Proceedings of the 2013 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2013: 901-914.
[10] 沈钲晨,张千里,张超凡,等.基于深度学习的位置隐私攻击[J].计算机研究与发展,2022,59(2): 390-402.(SHEN Z C, ZHANG Q L, ZHANG C F, et al. Location privacy attack based on deep learning[J]. Journal of Computer Research and Development, 2022, 59(2): 390-402.)
[11] SHOKRI R, THEODORAKOPOULOS G, LE BOUDEC J Y, et al. Quantifying location privacy[C]// Proceedings of the 2011 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2011: 247-262
[12] LIU H Y, ZHANG S W, LI M L, et al. A real-time privacy-preserving scheme based on grouping queries for continuous location-based services[J]. Concurrency and Computation: Practice and Experience, 2023, 35(19): No.e7404.
[13] 彭长根,丁红发,朱义杰,等.隐私保护的信息熵模型及其度量方法[J].软件学报,2016,27(8):1891-1903.(PENG C G, DING H F, ZHU Y J, et al. Information entropy models and privacy metrics methods for privacy protection[J]. Journal of Software, 2016, 27(8): 1891-1903.)
[14] NIU B, LI Q H, WANG H Y, et al. A framework for personalized location privacy[J]. IEEE Transactions on Mobile Computing, 2022, 21(9): 3071-3083.
[15] 张文静, 刘樵, 朱辉. 基于信息论方法的多等级位置隐私度量与保护[J]. 通信学报, 2019, 40(12): 51-59.(ZHANG W J, LIU Q, ZHU H. Evaluation and protection of multi-level location privacy based on an information theoretic approach[J]. Journal on Communications, 2019, 40(12): 51-59.)
[16] SHAHAM S, DING M, LIU B, et al. Privacy preservation in location-based services: a novel metric and attack model[J]. IEEE Transactions on Mobile Computing, 2021, 20(10): 3006-3019.
[17] YIN L H, LI R, DING J Q, et al. δ-Calculus: a new approach to quantifying location privacy[J]. Computers, Materials and Continua, 2020, 63(3): 1323-1342.
[18] LUO H W, ZHANG H M, LONG S G, et al. Enhancing frequent location privacy-preserving strategy based on geo-Indistinguishability [J]. Multimedia Tools and Applications, 2021, 80(14): 21823-21841.
[19] KALAIARASY C, SREENATH N. An incentive-based cooperation motivating pseudonym changing strategy for privacy preservation in mixed zones in vehicular networks[J]. Journal of King Saud University-Computer and Information Sciences, 2022, 34(1): 1510-1520.
[20] ZHAO Y N, LUO Y L, YU Q Y, et al. A privacy-preserving trajectory publication method based on secure start-points and end-points[J]. Mobile Information Systems, 2020, 2020: No.3429256.
[21] YANG X D, GAO L, ZHENG J, et al. Location privacy preservation mechanism for location-based service with incomplete location data[J]. IEEE Access, 2020, 8: 95843-95854.
[22] 李维皓,丁晟,孟佳洁,等.基于位置服务中时空关联的隐私保护方案[J].通信学报,2018,39(5):134-142.(LI W H, DING S, MENG J J, et al. Spatio-temporal aware privacy-preserving scheme in LBS[J]. Journal on Communications, 2018, 39(5): 134-142.)
[23] GAO Z G, HUANG Y C, ZHENG L L, et al. Protecting location privacy of users based on trajectory obfuscation in mobile crowdsensing[J]. IEEE Transactions on Industrial Informatics, 2022, 18(9): 6290-6299.
[24] 孔钰婷,谭富祥,赵鑫,等.基于差分隐私的K-means算法优化研究综述[J].计算机科学,2022,49(2):162-173.(KONG Y T, TAN F X, ZHAO X, et al. Review of K-means algorithm optimization based on differential privacy[J]. Computer Science, 2022, 49(2): 162-173.)
[25] WANG J, WANG F, LI H T. Differential privacy location protection scheme based on Hilbert curve[J]. Security and Communication Networks, 2021, 2021: No.5574415.
[26] WANG X J, YANG W D. Protection method of continuous location uploading based on local differential privacy[C]// Proceedings of the 2020 International Conference on Networking and Network Applications. Piscataway: IEEE, 2020: 157-161.
[27] ALMARSHOUD M S, AL-BAYATTI A H, KIRAZ M S. Location privacy in VANETs: provably secure anonymous key exchange protocol based on self-blindable signatures[J]. Vehicular Communications, 2022: 36: No.100490.
[28] SUN G, CAI S, YU H F, et al. Location privacy preservation for mobile users in location-based services[J]. IEEE Access, 2019, 7:87425-87438.
[29] ZHANG Q Y, ZHANG X, WANG M Y, et al. DPLQ: location-based service privacy protection scheme based on differential privacy[J]. IET Information Security, 2021, 15(6): 442-456.
[30] 张学军,桂小林,伍忠东.位置服务隐私保护研究综述[J].软件学报,2015,26(9):2373-2395.(ZHANG X J, GUI X L, WU Z D. Privacy preservation for location-based services: a survey[J]. Journal of Software, 2015, 26(9): 2373-2395.)
[31] 王永录,左开中,曾海燕,等.面向连续查询的敏感语义位置隐私保护方案[J].计算机工程与应用,2020,56(14):74-81.(WANG Y L, ZUO Z K, ZENG H Y, et al. Sensitive-semantic location privacy protection for continuous query[J]. Computer Engineering and Applications, 2020, 56(14): 74-81.)
[32] 王辉,朱国宇,申自浩,等.基于用户偏好和位置分布的假位置生成方法[J].计算机科学,2021,48(7):164-171.(WANG H, ZHU G Y, SHEN Z H, et al. Dummy location generation method based on user preference and location distribution[J]. Computer Science, 2021, 48(7): 164-171.)
[33] ZHAO M Y, ZHU X Y, NIU J, et al. A semantic-based dummy generation strategy for location privacy[C]// Proceedings of the 2019 International Conference on Networking and Network Applications. Piscataway: IEEE. 2019: 21-26.
[34] 张琳, 张鸿刚,刘茜萍.一种基于多元数据的假位置筛选算法[J].南京邮电大学学报(自然科学版), 2021, 41(6):47-56.(ZHANG L, ZHANG H G, LIU X P. Dummy location screening algorithm based on multivariate data[J]. Journal of Nanjing of Posts and Telecommunications (Natural Science Edition), 2021, 41(6): 47-56.)
[35] 刘光辉. 群智感知网络的隐私保护方法研究[D].哈尔滨:哈尔滨理工大学,2022: 1-75.(LIU G H. Research on privacy protection methods of crowd sensing networks[D]. Harbin: Harbin University of Science and Technology, 2022: 1-75.)
[36] XU H Y, ZHENG Y H, ZENG J, et al. Location-semantic aware privacy protection algorithms for location-based services[C]// Proceedings of the 2018 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI). Piscataway: IEEE, 2018: 1219-1224.
[37] LU T, XU H, TIAN K, et al. Semantic location privacy protection algorithm based on edge cluster graph[C]// Proceedings of the 2020 IEEE 19th International Conference on Trust, Security and Privacy in Computing and Communications. Piscataway: IEEE, 2020: 1304-1309.
[38] KUANG L, WANG Y, ZHENG X, et al. Using location semantics to realize personalized road network location privacy protection[J]. EURASIP Journal on Wireless Communications and Networking, 2020, 2020: No. 1.
[39] TIAN C, XU H, LU T, et al. Semantic and trade-off aware location privacy protection in road networks via improved multi-objective particle swarm optimization[J]. IEEE Access, 2021, 9: 54264-54275.
[40] LI F, LIAO L J, ZHANG L F, et al. An efficient approach for measuring semantic similarity combining WordNet and Wikipedia[J]. IEEE Access, 2020, 8: 184318-184338.
[41] 王洁,王春茹,马建峰,等.基于位置语义和查询概率的假位置选择算法[J].通信学报,2020,41(3):53-61.(WANG J, WANG C R, MA J F, et al. Dummy location selection algorithm based on location semantics and query probability[J]. Journal on Communications, 2020, 41(3): 53-61.)
[42] YANG X D, GAO L, WANG H, et al. A user-related semantic location privacy protection method in location-based service[C]// Proceedings of the 2021 IEEE 27th International Conference on Parallel and Distributed Systems. Piscataway: IEEE, 2021: 691-698.
[43] ZHANG A, LI X H. Research on privacy protection of dummy location interference for Location-Based Service location[J]. International Journal of Distributed Sensor Networks, 2022, 18(9): No.15501329221125111.
[44] LIU Z, LIU Q, MIAO D, et al. A blockchain anonymity solution to prevent location homogeneity attacks[J]. Concurrency and Computation: Practice and Experience, 2022, 34(27): No. e7326.
[45] YANG X D, GAO L, WANG H, et al. A blockchain-based location privacy-preserving scheme in location-based service[J]. Mobile Information Systems, 2022, 2022: No.1931451.
[46] 张润莲,赵新红,武小年.一种防边权和语义攻击的位置隐私保护方法[J].计算机应用研究,2021,38(2):559-563.(ZHANG R L, ZHAO X H, WU X N. Location privacy protection method against edge attacks and semantic attacks [J]. Application Research of Computers, 2021, 38(2): 559-563.)
[47] 全国地理信息标准化技术委员会.地理信息兴趣点分类与编码:GB/T 35648—2017[S].北京:中国质检出版社,2017.(China National Standardization Technical Committee of Geographic Information. Classification and coding of geographic information points of interest: GB/T 35648-2017[S]. Beijing: Quality Inspection Press of China, 2017.)
[48] HE Y, ZHANG J, SHUAI L, et al. A personalized secure publishing mechanism of the sensing location data in crowdsensing location-based services[J]. IEEE Sensors Journal, 2021, 21(12): 13628-13637.
[49] NIU K, PENG C, TIAN Y, et al. K-implicit tracking data publishing scheme against geo-matching attacks[J]. Journal of Information Science and Engineering, 2022, 38(1): 1-16.
[50] YANG D, YE B, ZHANG W, et al. KLPPS: a-anonymous location privacy protection scheme via dummies and Stackelberg game[J]. Security and Communication Networks, 2021, 2021(5): No.9635411.
[51] YANG X, GAO L, LI Y, et al. A semantic-based dual location privacy-preserving approach[J]. IEICE Transactions on Information and Systems, 2022, E105D(5): 982-995.
[52] 张学军,杨昊英,李桢,等.融合语义位置的差分私有位置隐私保护方法[J].计算机科学,2021,48(8):300-308.(ZHANG X J, YANG H Y, LI Z, et al.X Differential private location privacy-preserving scheme with semantic location[J]. Computer Science, 2021, 48(8): 300-308.)
[53] 李洪涛,任晓宇,王洁,等.基于差分隐私的连续位置隐私保护机制[J].通信学报,2021,42(8):164-175.(LI H T, REN X Y, WANG J, et al. Continuous location privacy protection mechanism based on differential privacy [J]. Journal on Communications, 2021, 42(8): 164-175.)
[54] YAN Y, XU F, MAHMOOD A, et al. Perturb and optimize users’ location privacy using geo-indistinguishability and location semantics[J]. Scientific Reports, 2022, 12(1): No.20445.
[55] HAN W X, CHENG M Z, LEI M, et al. Privacy protection algorithm for the internet of vehicles based on local differential privacy and game model[J]. Computers, Materials & Continua, 2020, 64(2): 1025-1038.
[56] MIN M, WANG W, XIAO L, et al. Reinforcement learning-based sensitive semantic location privacy protection for VANETs[J]. China Communications, 2021, 18(6): 244-260.
[57] BERRI S, ZHANG J, BENSAOU B, et al. Preserving location-privacy in vehicular networks via reinforcement learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2022,23(10): 18535-18545.
[58] LIU P Q, XIE S C, ZHAO, SHEN Z H, et al. Enhancing location privacy through P2P network and caching in anonymizer[J]. KSII Transactions on Internet and Information Systems, 2022,16(5): 1653-1670.
[59] ZHANG W J, JIANG B, LI M, et al. Privacy-preserving aggregate mobility data release: an information-theoretic deep reinforcement learning approach[J]. IEEE Transactions on Information Forensics and Security, 2022,17: 849-864.
[60] BENAROUS L, KADRI B, BOUDJIT S. Alloyed pseudonym change strategy for location privacy in VANETs[C]// Proceedings of the 2020 IEEE 17th Annual Consumer Communications & Networking Conference. Piscataway: IEEE, 2020: 1-6.
[61] ZHU X J, AYDAY E, VITENBERG R. A privacy-preserving framework for outsourcing location-based services to the cloud[J]. IEEE Transactions on Dependable and Secure Computing, 2021, 18(1): 384-399.
[62] BENAROUS L, KADRI B. Obfuscation-based location privacy-preserving scheme in cloud-enabled internet of vehicles[J]. Peer-To-Peer Networking and Applications, 2022, 15(1): 461-472.
[63] XIE C, YU D X, ZHENG X Y, et al. Revealing spatiotemporal travel demand and community structure characteristics with taxi trip data: a case study of New York City[J]. PLoS One, 2021, 16(11): e0259694.
[64] YADAMJAV M E, BAO Z F, ZHENG B H, et al. Querying recurrent convoys over trajectory data[J]. ACM Transactions on Intelligent Systems and Technology, 2020, 11(5): No.59.
[65] JIANG H B, LI J, ZHAO P, et al. Location privacy-preserving mechanisms in location-based services: a comprehensive survey[J]. ACM Computing Surveys, 2021, 54(1): No.4.
[66] WANG W, MIN M, XIAO L, et al. Protecting semantic trajectory privacy for VANET with reinforcement learning[C]// Proceedings of the 2019 IEEE International Conference on Communications. Piscataway: IEEE, 2019: 1-5.
[67] CHEN X, ZHANG T, SHEN S, et al. An optimized differential privacy scheme with reinforcement learning in VANET [J]. Computers & Security, 2021, 110(2): No.102446.
[68] XU C, ZHU L, LIU Y, et al. DP-LTOD: differential privacy latent trajectory community discovering services over location-based social networks[J]. IEEE Transactions on Services Computing, 2021, 14(4): 1068-1083.
[69] ZHANG J, LI Y Z, DING Q, et al. Successive trajectory privacy protection with semantics prediction differential privacy[J]. Entropy, 2022, 24(9): No.1172.
[70] ZHAO P, JIANG H B, LI J, et al. Synthesizing privacy-preserving traces: enhancing plausibility with social networks [J]. IEEE/ACM Transactions on Networking, 2019, 27(6): 2391-2404.
[71] QIU G, SHEN Y, CHENG K, et al. Mobility-aware privacy-preserving mobile crowdsourcing[J]. Sensors, 2021, 21(7): No.2474.
[72] LI J, ZENG F, XIAO Z, et al. Social relationship inference over private vehicle mobility data[J]. IEEE Transactions on Vehicular Technology, 2021, 70(6): 5221-5233.
[73] ZHENG Z, LI Z, LI J, et al. Utility-aware and privacy-preserving trajectory synthesis model that resists social relationship privacy attacks[J]. ACM Transactions on Intelligent Systems and Technology, 2022, 13(3): No.44.
[74] 焦荟聪,刘文菊,王赜.基于指数机制的轨迹差分隐私保护方法[J].大数据,2023,9(1):141-152.(JIAO H C, LIU W J, WANG Z. Trajectory differential privacy protection method based on exponential mechanism[J]. Big Data Research, 2023, 9(1): 141-152.)
[75] CHENG W, WEN R, HUANG H, et al. OPTDP: towards optimal personalized trajectory differential privacy for trajectory data publishing[J]. Neurocomputing, 2022, 472: 201-211.
[76] LI B, ZHU H, XIE M. Releasing differentially private trajectories with optimized data utility[J]. Applied Sciences, 2022, 12(5): No.2406.
[77] TU Z, ZHAO K, XU F, et al. Protecting trajectory from semantic attack considering-anonymity,-diversity, and-closeness[J]. IEEE Transactions on Network and Service Management, 2019, 16(1): 264-278.
[78] TAN R, TAO Y, SI W, et al. Privacy preserving semantic trajectory data publishing for mobile location-based services[J]. Wireless Networks, 2020, 26(8): 5551-5560.
[79] YE A, ZHANG Q, DIAO Y, et al. A semantic-based approach for privacy-preserving in trajectory publishing[J]. IEEE Access, 2020, 8: 184965-184975.
[80] QIU G, GUO D, SHEN Y, et al. Mobile semantic-aware trajectory for personalized location privacy preservation [J]. IEEE Internet of Things Journal, 2021, 8(21): 16165-16180.
[81] 贾俊杰,秦海涛.基于遗传算法的动态轨迹匿名算法[J].计算机工程与科学,2021,43(1):142-150.(JIA J J, QIN H T. Anonymity of dynamic trajectory based on genetic algorithm[J]. Computer Engineering & Science, 2021, 43(1): 142-150.)
[82] WU W Q, SHANG W L, LEI R H, et al. A trajectory privacy protect method based on location pair reorganization[J]. Wireless Communications & Mobile Computing, 2022, 2022: No.8635275.
[83] BENNATI S, KOVACEVIC A. Modelling imperfect knowledge via location semantics for realistic privacy risks estimation in trajectory data[J]. Scientific Reports, 2022, 12(1): No.246.
[84] HAN P I, TSAI H P. SST: privacy preserving for semantic trajectories[C]// Proceedings of the 2015 16th IEEE International Conference on Mobile Data Management. Piscataway: IEEE, 2015: 80-85.
[85] DAI Y, SHAO J, WEI C, et al. Personalized semantic trajectory privacy preservation through trajectory reconstruction [J]. World Wide Web, 2018, 21(4): 875-914.
[86] JI Y L, GUI X L, DAI H J, et al. Trajectory privacy protection based on sensitive stay area replacement in publishing[J]. Mathematical Problems in Engineering, 2022, 2022(6): No.5114584.
[87] HUGUENIN K, BILOGREVIC I, MACHADO J S, et al. A predictive model for user motivation and utility implications of privacy-protection mechanisms in location check-ins[J]. IEEE Transactions on Mobile Computing, 2018, 17(4): 760-774.
[88] YANG D Q, QU B Q, YANG J, et al. LBSN2Vec++: heterogeneous hypergraph embedding for location-based social networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(4): 1843-1855.
[89] LIU A, ZHANG Y F, ZHANG X L, et al. Representation learning with multi-level attention for activity trajectory similarity computation[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(5): 2387-2400.
[90] ZHANG S N, RAY S, LU R X, et al. PPAQ: privacy-preserving aggregate queries for optimal location selection in road networks[J]. IEEE Internet of Things Journal, 2022, 9(20): 20178-20188.
[91] WANG Y, LI M, XIN Y, et al. Exchanging registered users’ submitting reviews towards trajectory privacy preservation for review services in Location-Based Social Networks[J]. PLoS One, 2021, 16(9): No.e0256892.
[92] 左开中,刘蕊,赵俊,等.融合语义信息的时空关联位置隐私保护方法[J].西安电子科技大学学报,2022,49(1):67-77.(ZUO K Z, LIU R, ZHAO J, et al. Method for the protection of spatiotemporal correlation location privacy with semantic information[J]. Journal of Xidian University, 2022, 49(1): 67-77.)
[93] RAO J M, GAO S, KANG Y H, et al. LSTM-TrajGAN: a deep learning approach to trajectory privacy protection[C]// Proceedings of the 11th International Conference on Geographic Information Science — Part I. Wadern: Schloss Dagstuhl — Leibniz-Zentrum fuer Informatik, 2020: No.12.
Survey of semantics-based location privacy protection
LI Wenxuan1,2, WU Hao1,3,4*, LI Changsong1,3
(1(),100044,;2,,100044,;3,,100044,;4,100044,)
The arrival of the 5G era makes Location-Based Service (LBS) more widely used, but users also have to face many privacy leakage issues caused by LBS when they enjoy the great convenience brought by LBS. In order to strengthen the security of anonymity, improve data utility, resist attacks with certain background knowledge and protect users’ sensitive information, researchers proposed the semantics-based location privacy protection mechanism. Firstly, the structure of location privacy protection systems and traditional protection technologies were introduced. Then, several typical privacy leakage and attack modes based on location semantics were analyzed, the location privacy protection requirements combined with location semantics were given, and the key technologies and achievements in the latest research of semantics-based location privacy protection from two aspects of single-point location privacy protection and trajectory privacy protection were summarized. Finally, the future technological development trend and the next research work were prospected.
privacy protection; location semantics; location service; location data; trajectory data
1001-9081(2023)11-3472-12
10.11772/j.issn.1001-9081.2022101612
2022⁃10⁃28;
2023⁃02⁃05;
国家重点研发计划项目(2018YFE0207600); 中央高校基本科研业务费专项资金资助项目(2022JBQY004); 轨道交通控制与安全国家重点实验室(北京交通大学)自主研究课题(RCS2021ZT008)。
李雯萱(1999—),女,新疆图木舒克人,硕士研究生,主要研究方向:隐私保护、语义通信; 吴昊(1973—),女,江苏常熟人,教授,博士,主要研究方向:信息安全; 李昌松(1998—),男,安徽蚌埠人,博士研究生,主要研究方向:语义通信、网络安全。
TP309
A
2023⁃02⁃08。
This work is partially supported by National Key Research & Development Program (2018YFE0207600), Fundamental Research Funds for Central Universities (2022JBQY004), State Key Laboratory of Rail Traffic Control and Safety (Beijing Jiaotong University) Independent Research Project (RCS2021ZT008).
LI Wenxuan, born in 1999, M. S. candidate. Her research interests include privacy protection, semantic communication.
WU Hao, born in 1973, Ph. D., professor. Her research interests include information security.
LI Changsong, born in 1998, Ph. D. candidate. His research interests include semantic communication, network security.