基于统计机器学习算法的隐私保护在数据发布与数据挖掘中的应用分析
2022-04-02曹宪赵雪昆
曹宪 赵雪昆
关键词 差分隐私 数据发布 匿名隐私 数据挖掘 机器学习
1引言
目前,数据产业面临新的机遇,只有遵循数据流通、数据共享、数据开放才能更好地挖掘数据的价值和激发市场的活力,从而使公共利益最大化。同时,数字化也面临各种挑战,如数据安全和隐私数据泄露事件频发,且数据确权归属矛盾也很突出。因此,在实现数据价值同时,有效保护敏感信息不被泄露显得尤为重要。
概率论与数理统计是数据统计中常用的技术,在隐私保护场景中也起到了重要的作用。在我国的“个人信息法”中,针对数据处理者提出明确要求:数据处理者处理的个人信息应采取相应的加密、去标识化等安全技术措施。在加密、去标识化技术中,常常会采用统计类算法。数据发布者针对数据发布前采用统计类算法或是其他数据脱敏技术对数据集进行敏感信息的保护处理工作,可以使发布信息的内容无法确定个体信息,从而对数据进行保护。
2隐私保护技术
关于数据泄露以及数据安全威胁, 威瑞森(Verizon)发布的《数据泄露调查报告》(DBIR)提出了重要观点。从2008 年起, Verizon 每年都会发布DBIR。2019 年的DBIR 对41686 起安全事件(其中有2013 起数据泄露事件)进行了分析,由73 个数据源提供数据,其中66 个数据源是Verizon 之外的组织,这些组织是来自世界各地的公共或私有实体。报告显示,69%的安全事件是外部人员所为;34%的违规行为涉及内容参与者;2%涉及合作伙伴;5%涉及多方当事人;39%的数据泄露事件的主使是有组织犯罪集团;23%的数据泄露事件被确定为有民族或国家行为者参与。从报告中可以分析出,泄露的数据属性包括凭据信息、个人信息(比如社会安全号码、保险相关信息、姓名、地址和其他容易盈利的数据)、医疗信息、银行卡信息、支付信息等。因此,保护隐私数据和防止敏感数据泄露问题,是我们目前面临的最大挑战。作为数据挖掘与信息共享应用的重要环节,数据发布和数据挖掘中的隐私保护成为当前的研究热点[1] 。
所谓隐私保护是指隐藏数据持有者的个人身份信息与敏感数据信息。常用的隐私保护技术包括数据匿名技术、数据扰动技术、数据加密技术。
数据匿名技术可以针对需要发布的数据进行发布限制,从而保护原始个体敏感数据不被泄露。常见的数据匿名技术如下:一是选择性地发布一部分,如删除姓名、身份证号等敏感信息再对数据进行发布,以保护敏感数据。二是发布精度较低的数据,如聚类方法中概括性的数据内容,针对年龄发布一段数据或是针对身份汇总发布数据,从而保护原始个体数据的安全性。其他方式:隐藏敏感信息,如替换、重写、散列、固定值偏移等。该技术主要对数据的可用性和隐私披露风险进行平衡。
数据扰动技术可以扰动原始数据或是在原始数据中增加噪音,以此实现隐私保护。其主要原理是让数据中的个体失真,从而不能确定数据的唯一性,但同时又能保证数据不变,如采用数据变换、合成伪数据、差分隐私等方法实现隐私保护。其优点是执行效率高,缺点是由于数据增加了噪音,数据缺损较大,所以会存在一定的差异项。本文研究的重点是增加扰动技术以及实际统计数据的准确性[2] ,比较适用于数据统计领域。
数据加密技术可对敏感数据进行加密,以实现隐私保护。其特点主要是计算开销大、通信代价高。常见的加密技术可以应用到联邦学习中的安全多方计算、同态加密等。数据加密技术不是本文讨论的重点内容。
3统计机器学习在隐私保护中的应用
统计机器学习基于对数据的初步认识以及对学习目的进行分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测[3] 。统计机器学习的三要素是模型、算法、策略。针对隐私保护的应用场景,大部分的研究在于对模型的选择、减少策略损失和风险上以及应用具体的学习模型的方法。两种常用的隐私保护方式为聚类算法和差分隐私法。
3.1聚类算法在数据匿名隐私技术方面的应用
聚类以统计分析、机器学习、神经网络等方法为基础,是统计学的一个重要分支。聚类属于无监督学习,其通过样本相似度或距离对数据进行划分,形成类或是簇(类或是簇事先并不知道),使得最終的类的数据差异性小,类外的数据差异性大。该聚类方式也常应用在数据匿名隐私技术中。在面对数据发布时,采用聚类的方式,将数据划分成不同的类别,形成不同的数据组,组内的数据相似度高,组外的数据相似度低,然后将聚类的数据进行发布,从而保护原始数据不被泄露,实现匿名隐私保护。通过聚类实现的隐私保护比基于数据扰动方式实现匿名技术数据的信息缺损要小。尤其是在数据挖掘中,通过聚类的方式实现个体信息的隐藏,优势更为突出。
常用的聚类算法:层次聚类和K 均值聚类。应用在数据匿名隐私技术中,基于聚类研究的数据类型方向主要是关系型数据和事务型数据。针对聚类方法研究方向或是应用场景,一方面主要在于数据的划分方法上,针对不同的数据类型或是属性,进行不同方式的划分。比如,针对年龄数据需要调整划分方式,确定匿名组的规模上界;针对人种不同(如有色人种和白种人),采用空间多维划分的方式进行划分;针对复杂网络模型,先通过聚类算法生成K 度向量,再采用Havel 定理的贪心策略重构图,保证重构图与原图的高度相似,从而保护网络数据隐私;针对轨迹数据的隐私保护发布,采用基于网格的聚类方法等。另一方面主要是在数据的发布方式上,比如全量数据发布采用的聚类方式以及增量数据发布采用的聚类方式方法。其他方面研究面向的是多敏感属性的隐私数据发布技术,针对的是多敏感属性的多样性,能够解决多敏感属性发布中的删除和泄露问题。
常见的聚类应用是K?匿名聚类,其原理是通过聚类分析技术将敏感数据划分成不同的类,类内数据高度相似,类之间差异较大,然后对每个类通过局部重编码的匿名策略将其转化为满足K?匿名约束条件的等价类。目前,出现了很多关于聚类的K?匿名隐私保护算法的研究,大部分研究集中在针对聚类的中心位置、聚类成员的大小以及聚类策略效率选择上。优化K?匿名聚类,可以提高数据发布的效率和准确性。gzslib2022040221473.2基于差分隐私的隐私保护方法
差分隐私技术是数据扰动技术的实现方式之一。
差分隐私的定义建立在对随机算法的约束上,其主要是通过聚合查询结果添加随机噪音的方式来保护个人信息。该模型由德沃柯(Dwork)等人于2006 年提出。保护模型的基本原理是对原始数据进行转换或者是对统计结果添加噪音来达到隐私保护效果。该保护方法可以有效防止攻击者利用背景知识进行攻击,同时差分隐私采用的是统计学模型,方便了数据工具的使用以及定量分析和证明。该模型被广泛应用于隐私保护数据发布与隐私保护数据挖掘、机器学习等领域。
3.2.1数据发布场景应用
在数据发布场景下,除了可以采用聚类的方式进行数据发布,同时也可以采用差分隐私保护技术。差分隐私保护数据发布研究的是如何在满足差分隐私的条件下保证发布数据或查询结果的精确性。常见的差分隐私数据发布有交互模式和非交互析模式两种。其处理方式各有特色,但是目标一致,即在满足差分隐私的同时,尽可能提高数据的可用性[4] 。
在交互模式下,数据查询者只能看到被差分隐私算法转换出来的数据,不能看到数据的全貌,从而保护数据集中的个体隐私。常用的发布技术为基于直方图的信息发布,其优点是敏感度小,分析简单,噪声可以控制在较小范围内。在该模式下,主要解决如何以较小的隐私预算与较低的误差来进行查询,如交互模式下的线性与批量查询。
在非交互模式下,数据管理者预先根据数据信息的特点来设计要发布的统计信息,并将经过隐私保护的数据进行发布。此时,数据查询者只能对发布后的合成数据库进行查询或者挖掘任务并获得近似结果。
常用的发布技术有分组发布、列联表发布等。在该模式下,提高发布数据的可用性是研究的重点。
3.2.2数据挖掘场景应用
数据挖掘研究要解决的是数据挖掘领域高层隐私需求带来的问题,如top?k 频次算法、k?means 算法、随机决策数树算法、基于SVN 的分类算法、logistic 回归算法、频繁项集挖掘、K 最近邻算法等。其主要目的是设计如何在保證数据安全和性能的前提下,获得最优的数据挖掘模型[5] 。
从应用效率以及用户的可信度上进行划分,可以将隐私保护数据挖掘分为可信模式和非可信模式。
在非可信模式下,默认用户是不可信任的,只提供查询能力,当用户提交查询申请,隐私保护系统根据查询请求,通过差分隐私算法生成结果集。在该模型中,比较常用的挖掘方法包含分类和聚类。在可信模式下,默认用户是可信任的,用户能够直接访问数据集并执行挖掘算法操作,通过设计满足隐私保护的数据挖掘算法发布数据结果。在该模型中,比较常用的挖掘方法有分类/ 回归和频繁项集挖掘。可信模式的数据利用度较高,数据挖掘的算法更灵活。
3.2.3联邦学习
为了让数据实现开放共享,打破“数据孤岛”,防止数据隐私出现泄露等问题,2016 年谷歌提出了联邦学习。联邦学习原本用于解决Android 手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全,保护终端数据和个人数据隐私,保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。联邦学习本质上是一种分布式机器学习技术,或机器学习框架。
在联邦学习中,差分隐私方法主要应用于纵向联邦学习框架,涉及多方安全计算模型。现有研究文献将纵向联邦学习中的差分隐私方式分为三种模式。(1)本地差分隐私,通过本地增加噪音的方式,实现对数据差分隐私保护,保护过程全部在客户端实现。比如可以在手机、平板电脑等小型设备上训练模型。但是本地差分隐私也存在弊端,一方面是训练的数据样本大的时候无法满足需求,训练的准确度较低。另一方面,在高维数据下,本地差分隐私的可用性和隐私性难以平衡。(2)中心化差分隐私,通过在中心数据服务器上针对各个采集节点增加噪音的方式,实现隐藏各个节点的贡献,不暴露参与训练的用户数据,从而实现差分隐私保护,其优于本地差分隐私。中心化差分隐私最大的缺点是在多个计算数据方中间需要有一个可信的服务器,服务器的安全性成为最大的问题。(3)分布式差分隐私,其在中心化差分隐私的基础上进行了优化,存在多个可信中心节点,每个用户将数据发送到不同的可信中心节点上,各个可信中心节点负责对用户发送过来的数据进行聚合和隐私保护,然后通过多方安全计算或同态加密以及差分隐私方式发送到服务器上,确保服务器只能得到聚合结果,得不到具体数据。分布式差分隐私最大的缺点是需要一个可信的中间节点,而且通信开销较大。
4总结和展望
基于机器学习的保护方法在隐私保护场景下得到了很多可证明的安全模型,并在数据发布、数据挖掘、多方联合学习等方面取得了突破。本文主要介绍了现有的隐私保护技术以及机器学习在隐私保护场景下的应用理论。
本文提出了针对隐私保护算法的几大热点研究趋势。
4.1隐私保护在大数据环境下的应用
从IT 时代到DT 时代,机器学习和数据挖掘是实现数据智能化的必要手段。例如,我们日常的购物信息、行程信息等通过数据聚类、基线分析、时间序列、回归等方法,可以分析出数据价值和数据规律。而整个过程会涉及隐私泄露的问题。无论采用哪种数据隐私保护技术,最重要的是在满足保护隐私的前提下使数据可用性最大化。未来的研究需要关注隐私性和可用性的平衡以及大数据环境下的隐私保护和信息安全问题。如果能够在数据挖掘中平衡好数据可用性、隐私性和数据量等问题,我们的研究就能获得巨大进步。
4.2隐私保护在无监督学习下的应用挑战
目前,隐私保护大多应用在有监督领域, 通过人工标记数据的隐私保护方法来实现有监督下的隐私保护。但随着技术的发展,无监督学习下的隐私计算准确性和精度的问题也亟须解决。现在针对无监督学习的隐私计算存在一定的问题,如通过聚类的方法进行数据发布,如果数据内容是攻击者利用背景知识或是已知的信息内容可以推算出来的,那很容易出现隐私泄露的问题。而解决此问题的方式是匿名和差分隐私,差分隐私可以实现聚类分析下的隐私保护,但是实现方式和误差的精确度需要进一步研究[6] 。
4.3多种技术结合的隐私保护方法
通过对隐私保护在机器学习中的应用进行分析,我们可以采用聚类、差分隐私、加密等的技术实现隐私保护,但是任何一种隐私保护算法在实际应用中都存在或多或少的问题,不能满足所有场景,所以我们应该针对不同的分析场景,如数据发布、数据挖掘、联邦学习等,按照实际的业务情况,进行组合技术保护,这在一定程度上可以实现功能互补,提升隐私保护效果。
4.4针对行业属性的数据挖掘隐私保护算法以