APP下载

隐私计算-面向隐私保护的新型计算

2019-01-18西安电子科技大学网络与信息安全学院执行院长

信息通信技术 2018年6期
关键词:原语同态密文

李 晖 西安电子科技大学网络与信息安全学院执行院长

移动互联网、云计算和大数据等技术的快速发展,催生了众多新的服务模式和应用,这些服务和应用一方面为用户提供精准化、个性化的服务,给人们的生活带来了极大便利,另一方面又采集了大量用户的相关信息,而所采集信息中往往含有大量包括病史、收入、身份、兴趣及位置等在内的敏感信息,对这些信息的收集、共享、发布、分析与利用等操作会直接或间接地泄露用户隐私,给用户带来极大的威胁和困扰。因此,个人隐私保护已成为人们广泛关注的焦点。

隐私信息是大数据的重要组成部分,隐私保护关乎个人、企业乃至国家利益。2016年4月欧盟通过了《通用数据保护条例》(GDPR)并于2018年5月25日正式在欧盟境内生效实施。GDPR定义了7类个人敏感数据,明确规定了数据主体对服务提供方收集个人敏感数据以及处理这些数据的方式具有知情权,可以要求服务方删除个人敏感数据(即被遗忘权)。我国于2016年11月颁布了《中华人民共和国网络安全法》,并于2017年6月1日正式实施,其中对个人信息保护做出了明确规定。各国重视数据安全和隐私保护立法的另一面,是互联网环境下隐私保护理论与技术研究的严重滞后。

针对隐私保护问题,学术界开展了大量的研究工作,并在社交网络、位置服务、云计算、大数据、智能医疗、智能电网、智能交通等方面提出了诸多具体的隐私保护方案。目前已有的各类隐私保护方案大多针对单一场景,隐私缺乏定量化的定义,隐私保护的效果、隐私泄露的利益损失以及隐私保护方案融合的复杂性三者之间的关系刻画缺乏系统的计算模型,使隐私信息在不同系统、不同用户间共享、交换和分析过程中难以被准确刻画和量化,阻碍各类计算和信息服务系统对隐私进行统一评价。

针对这一问题,李凤华、李晖等人2016年在通信学报上发表的论文《隐私计算研究范畴及发展趋势》提出隐私计算的概念,对隐私计算的内涵加以界定,从隐私信息的全生命周期讨论隐私计算研究范畴,对互联网环境下隐私保护的关键理论与技术给出了体系化的发展路径建议。

1 隐私计算定义

隐私是指个体的敏感信息。含有隐私的信息会在网络中传播、在各类信息服务系统中存储、处理(编辑、融合、发布和转发)。隐私信息的全生命周期如图1所示。

图1 隐私信息的全生命周期

隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。

隐私计算涵盖了信息所有者、搜集者、发布者和使用者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是隐私信息的所有权、管理权和使用权分离时隐私描述、度量、保护、效果评估、延伸控制、隐私泄漏收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。

2 隐私计算的关键问题

2.1 隐私信息感知

从包含隐私的信息中构建隐私变量集合,从变量集合中确定变量的取值或取值范围,对隐私进行标记和编码,确定隐私变量的概率分布,从而对隐私变量中隐私度量的大小进行计算,为实施隐私保护提供支撑。针对互联网环境下信息敏感性随时间、场景、载体类型/内容、主观感知等因素动态变化的特点,可基于信息熵的概念,从主体、客体、场景、操作等维度对蕴含于海量数据中的隐私数据进行分析和量化,提出融合主观感知能力的多维度隐私动态度量方法,形成隐私数据分类定级标准,解决互联网环境下数据隐私的精准度量问题,使隐私计算模型可以具备对主体、时间、空间三维演化的刻画能力。

2.2 隐私保护

根据隐私感知得到隐私信息保护效果需求选用相应隐私保护方法。主流的隐私保护方法可分为数据无失真的隐私保护方法和数据有失真隐私保护方法,如表1所示。

表1 隐私保护方法

数据无失真的隐私保护方法主要基于密码学方法,包括同态密码方案和安全多方计算。同态加密允许用户直接对密文进行特定的运算,将其解密所得到的结果与对明文进行同样的运算结果一样。2009年Gentry构造出了第一个全同态加密方案,经过近10年的改进,现有的全同态加密方案计算复杂度仍然很高,无法应用到实际系统中,所以目前主要的方法是针对具体的处理需求采用效率相对较高的部分同态方法设计密文计算方案,以支持数据匿名化统计、数据关联分析、多功能密文检索等隐私保护的数据处理。

数据有失真的隐私保护方法主要是数据匿名和数据扰动。数据匿名包括去除不同隐私数据间的关联性、数据泛化等,如k-匿名,l-多样性,t-邻近性等方法,使得攻击者无法获得个人的具体数据。这类方法的主要问题是不能抵抗背景知识关联分析。差分隐私技术(Differential Privacy)主要应用在对数据集作统计量的时候保护用户隐私,通过统计学的方法来模拟一个效果,使得从数据集中去掉(或替换)任何一个个体的数据之后,得到同样的统计结果的概率和不去掉(或不替换)该个体记录时候得出的结果在很高概率上是一样的。差分隐私的具体实现方式是对数据集统计量输出叠加一个适当的噪声。数据有失真的隐私保护核心问题是达到数据可用性和隐私保护效果的最佳折中。

2.3 隐私信息的融合处理

在隐私数据的融合处理环节中,由于不同系统在隐私界定、度量方法、隐私保护需求等方面都存在差异,而且随着时间场景的变更,人们对隐私认知也在不断的变化,此外,隐私信息可能被进行二次转发、局部处理、隐私分割、延伸授权等,因此需设计一套协议和封装描述方法,可根据不同的隐私属性、场景、隐私信息等级来自适应地选择不同的隐私保护措施,充分发挥现有隐私保护技术的各自优势。

2.4 隐私信息的销毁

在不再需要隐私信息,或隐私信息所有者希望终止隐私信息传播时,需要将隐私数据永远不可逆删除或销毁,GDPR赋予用户“被遗忘权”。从技术角度而言,实现这一权力需要研究可信删除,或称为确定性删除技术,以确保隐私信息的所有者、管理者和使用者都不可再恢复该信息。同时确保隐私保护的信息不能被隐私分析提取,并建立一套体系或机制,可通知关联系统,一旦数据被销毁,释放相应的存储空间。在当前泛在网络空间环境中,隐私信息的销毁难度非常大。

3 隐私计算的未来研究方向

3.1 隐私动态度量

当前大型互联网服务机构所控制的数据跨系统、跨境、跨生态圈流转,数据海量、数据类型与应用场景多样,需要在适应多媒体多场景的隐私信息度量方法、隐私度量动态调整机制及隐私度量与约束规则/策略自动映射等三个方面开展研究,解决巨数据集下的隐私信息的动态度量核心问题,以支撑开放环境下场景自适应的隐私按需控制。

3.2 隐私保护的基础算法

针对不同类型数据和隐私保护需求的隐私保护操作,需研究高效隐私保护原语的基础理论。在基于加密的隐私保护原语方面,重点在于全同态加密方法、部分同态加密算法、密文搜索、密文统计等密文计算理论。数据有失真的隐私保护原语方面,重点将在于差分隐私模型各种改进,以及信息论等新的理论方法的引入。

3.3 隐私保护效能评估

隐私保护算法的效能评估重点是要建立一套科学合理的量化体系,在这一量化体系指导下,对数据无失真和有失真的隐私保护原语以及原语的组合提出各对应指标的量化评估方法,包括隐私保护效果、数据可用性、算法复杂度等,以期为隐私保护方案的设计、比较和改进提供科学的评价依据。

3.4 隐私计算语言

研究隐私计算语言的语法体系,包括语句定义、编程接口、隐私保护原语的融合等,为复杂隐私保护方案的实现提供方便快捷、硬件和操作系统等平台无关编程工具,以支撑隐私保护机制在复杂互联信息系统中的实施部署。

4 结束语

隐私计算意图建立全生命周期的隐私保护理论体系,通过推动隐私计算的聚焦研究所取得的成果,将有力支撑大型互联网信息系统隐私保护的具体实现,指导大型信息系统隐私保护系统的开发,为隐私保护标准制订提供支撑,为评测机构提供理论支撑,为网络安全法个人信息保护的落地实施提供技术手段。

猜你喜欢

原语同态密文
一种支持动态更新的可排名密文搜索方案
基于模糊数学的通信网络密文信息差错恢复
关于半模同态的分解*
拉回和推出的若干注记
τ-内射模的若干性质①
密钥共享下跨用户密文数据去重挖掘方法*
模的投射覆盖、内射包络与局部环①
一种基于密文分析的密码识别技术*
浅谈旅游翻译中文化差异的处理
基于ZigBee协议栈的PHY服务研究