互联网时代的个人隐私保护
2016-03-22刘彩云刘志锋戴百林
刘彩云++刘志锋++戴百林
摘要:个人隐私保护日益成为隐私保护的电子数据格式。个人隐私保护也成为一种大数据现象的优势和挑战的展示。海量数据并结合智能数据挖掘算法的发展积累使得更多的数据被分析和链接。大数据分析意想不到的后果包括关于个人发现新的信息提高风险。有几种保护个人隐私的方法。其中马特温数据集,隐私保护数据挖掘就是一个例子。在这篇文章中,我们讨论的内容是感知的防数据泄漏。我们专注于保护个人健康信息(PHI),可以说是最脆弱类型的个人信息。本文讨论了当我们想要把健康信息私有时所需的应用方法和所面临挑战。预防个人健康信息在网络上和在在线社交网络上泄漏作为我们的案例研究。
关键词:隐私保护;个人信息;数据泄露;数据集;PHI
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)01-0043-02
1 简介
个人隐私保护日益成为隐私保护的电子数据格式。个人隐私保护也成为一种大数据现象的优势和挑战的展示。结合智能数据挖掘算法开发的个人信息(财务,医疗保健,零售)海量数据的积累使得个人数据被分析和创新的链接,但总是积极的一方面。随着越来越多不同来源的数据积累,大数据泄漏和无意的数据泄漏越来越普遍:2013年被爆出的2164事件的报告至今仍保持纪录。这些事件也暴露出越来越多的个人记录,目前为止有822万。在2013年曝光的所有违反记录中,发生在美国有48.5%,英国5.5%,加拿大2.7%,而其他国家仅占较小的数量。99%的所公开的数据是电子格式。更进一步说,我们只考虑电子格式的数据。
在本文中,我们将讨论内容感知预防意外的数据泄漏。在此,我们用保护个人健康信息(PHI)作为我们的例子。PHI是指个体的个人信息组合(例如,出生日期)和一个人的大体健康状况(例如诊断)的信息。PHI可以通过组织个人分布,表1提供的数据的例子。所有现有的PHI保护的方法是基于所述数据的内容的分析,因此它们提供一个完整的例子为我们的研究。此外,在本文中,为了解决DLP所面临的用于保护数据和信息,数据泄漏防护(DLP)和PHI保护问题的挑战,我们提供了更多细节方面的方法和技巧。
表1 PHI源和数据格式
2 数据安全原则和数据泄露
2.1 数据安全原则
在我们开始致力于内容感知DLP工具的讨论之前,我们要知道,个人信息保护的基本良好做法应从系统利用标准的计算机安全技术开始。这些基本的注意事项同时适用于被恶意攻击造成的数据隐私泄露,以及由于数据的无意泄漏造成的侵犯隐私(最常见的,人为的错误)。特别是下面这些原则,如果跨组织一贯增强,将是有目的的。
1)所有静态数据加密义务教育。这将防止黑客攻击收获非活动数据(如如果数据被加密,2013年和2014年的国内仓库的攻击目标将可能显著减少;如果从过去的交易数据进行加密存储,即使窃取信用卡信息的电子商务网站再发生攻击,也不会那么严重)。
2)承认授权人员跟踪的私人数据访问。这会在很大程度上,避免到组织内部故意侵犯隐私。该方法已被成功地用于全球中心的主要医疗环境中,以保护名人在意的与健康相关的数据。
3)教育。特别是,增敏人员能够访问在电子邮件中的有关的个人数据,USB记忆钥匙,采取了外组织的笔记本电脑和物联网设备的其他互联网。
2.2 数据泄露
数据泄密以很多可能的方式发生。泄漏可能是由业内人士,第三方,或外人无意或恶意引起的。可在运动、休息、或者在使用中(例如,所处理的网络的选择的节点上,而不是在时刻遍历它)引起泄露。在这项研究中,我们将讨论防止无意的泄漏。不幸的是,该泄漏已经成为众多业内人士和外部服务提供商口中随着共享数据成为常态的事件。在2013年,超过500个主要数据泄漏是无意的。在这些无意泄漏的数据中有66.4%的原因已知。在这些原因已知的数据泄漏中,信息披露在网站而导致数据泄漏的占16.7%,通过电子邮件的占14.7%。
大型医疗数据泄露和无意地泄露越来越普遍,使得人们大幅度增加对数据泄露的担忧。对于美国43个企业的调查表明,存在医疗保健数据泄露的一些明显的后果。因数据泄露而导致普通客户流失的占普遍3.6%,由于在金融服务方面数据泄露而导致客户流失的占5.5%,医疗保健方面这是一个高得多的比例-6.5%。并且一次医疗保健要282美元,超过平均零售价格的两倍之多,平均零售为131美元。该调查还显示,44%数据泄露发生的外部原因是因为涉及第三方数据的传输。PHI从医疗服务提供者泄露,一般是从员工和医学生发送的文件上泄漏。从充分的数据中删除个人信息,也可能会引起PHI违规。因此当务之急是要有一个全球知识最佳协议和保护隐私的机密性的数据系统。
3 个人健康信息:定义和概念
个人健康信息(PHI)是一种常用的名词,通常是通过一组相关的人的元类和他/她的健康状况定义的。PHI可以以结构化,半结构化和非结构化的文本格式进行存储和转移。前者包括药房和住院的记录,后者分别是病人的电子医疗记录中自由文本部分和信件的部分。医疗保健组织是PHI的主要持有者,其主要是在网络和数据库中对PHI进行保存。 因此PHI可以在网上的许多论坛和社交网络上找到。
数据共享和辅助数据的使用有利于患者、医疗专家和各个领域的研究人员进行保健管理。与此同时,隐私法规定PHI在被共享之前要获得个人的同意。但是获得同意易导致种群选择偏见。为了避免双方PHI披露和同意申请的陷阱,数据可经过一个修改的过程,在这个过程中它去除,大概改造个人的身份信息,由此很难从数据中去确定一个人,这种过程被称为匿名。
常用的数据挖掘匿名方法有以下几组:
K-匿名。这种方法规定,在一个数据集中的每个记录是相似的,至少另一个K-1的记录上可能识别变量。
1)标识通常指从半结构化和非结构化的文本中检索和提取PHI方面信息。
2)差动隐私确保添加或删除一个数据集项目基本上不影响数据分析的结果。
该方法通过所产生的资料丢失和工作效率进行评估。这些方法的适用范围差异很大。在表2中,我们举例说明数据格式和数据大小所必需的每个方法。
4 内容感知型数据泄露防护
内容感知数据泄露预防技术是数据泄露防护最具挑战性的部分。一些方法中,施加到结构化和非结构化数据,删除明确标识。然而这样的去除可能不足以去识别。大多数K-匿名算法可被用于结构化数据集,使用泛化和抑制。在精度或抽象属性上推广减少值,同时减少数据的效用。抑制取代一个有缺少值的属性记录的值(这被称为细胞抑制),或在极端情况下从数据集中除去整个记录。
一些技术建议,数据持有人可以通过第三方安全合作:医疗保健机构保持加密状的所有敏感信息,直到第三方证明该数据披露满足正式的数据保护模式。一般的DLP,可能需要不同的方法和工具对在休息和在使用中的数据实行运动安全防护装置。对于运动中的数据,如果DLP部署再到监控电子邮件的phi警报可以在发送电子邮件前产生。对于在休息的数据,如果DLP监控在因特网上的PHI泄漏(例如,在对等体的对等文件共享网络或onweb位点),那么警报涉及已经发生的泄漏,在该点处受影响的个人或数据托管人可以试图遏制破坏和阻止进一步的泄漏。
5 网络上PHI泄漏防御
由于数据的增加量和数据提供者的数量呈指数增长,网络上数据泄露防御刻不容缓。PHI泄漏的识别可以通过结合自然语言处理(NLP),机器学习(ML)和软件工程(SE)的努力来完成,因为它往往是与Web数据挖掘一起做,检测结果必须尽快交付。因为效率是很重要的,尤其是在不确定健康信息是不是无害的情况下(如艾滋病,SARS,埃博拉)。我们必须尽快检测出不可用敏感信息。为此,应该通过手工处理找到所有相关的文本,手动处理要求误报是越少越好,以免随着时间的推移人为控制变得松弛。为了检测PHI泄露,系统必须处理大量未预定的信息。为了防止不利的后果,检测应在尽可能短的时间间隔完成。这两个要求,使得Web-PHI贴防渗漏的任务变成计算和方法论复杂度。
对于看似棘手的技术问题,我们建议集中在一个“聪明”的解决方案,而不是PHI文本的特点上。每个PHI文件都可以用大量的,但受限制的特性的数目识别。我们推测这种PHI文本检测可以用来比较罕见的事件检测。检测过程可以基于寻找事件的区分特性,用于检测网络发布的PHI。
6 PHL泄漏在网络社区的防御
在网络上,最基本的PHI一般都是通过网上社区公开的。尽管PHI的敏感性质,但参与者并不都了解它在网上披露的风险。为了改善这种公共空间的安全,我们建议开发以证据为基础的准则,帮助在线用户避免在网上的帖子过多而导致PHI泄露。我们建议重点关注网络隐私的方面是更直接的在用户的控制上,即在用户编写文字的隐私保护上。例如,我们的指导方针将通知用户有关可能存在潜在的披露个人身份信息(如姓名,年龄),地理个人指针(例如,家庭住址,工作地点)和健康信息(例如,诊断,医疗卫生单位的潜在危险)。为了实现这一目标,可以使用社会的开采技术。它包括以下步骤:(一)确定促进过度披露PHI的在线社区的特点;(二)确定问题的程度,通过调查网友认为过分透露PHI的比例;(三)确定过多透露PHI用户的人口统计数据。
通过被告知什么是个人身份信息,用户就会知道张贴出人的姓氏和地理指向的潜在危险。在接受了指导如何避免不慎泄露私人信息和个人身份信息后,用户将不会危及他们的安全,并改善他们的砖坯安全。用户也将被敏化可以张贴他人的
信息到什么样的程度,从而,减少了无意违反保密的概率。
7 结语
本文总结了一些在大数据领域内的隐私保护现有的挑战,当从许多不同的数据源汇总及反复盘问后,可以找到个人的个人信息。为了保护个人健康信息,我们已经讨论了内容感知预防意外的数据泄漏和应用的优点。我们已经说明了成功实施泄漏预防方法依赖于几个数据挖掘问题的解决方案。本文,我们提出了可根据积极主动的内容感知预防个人健康信息在网上社区的泄漏。到目前为止,早期的尝试解决方案已经被开发出来了。如果为了避免有害的侵犯隐私权事故的发生,还有很多问题亟待解决,我相信只要我们共同努力,个人隐私保护一定不会是个难题。
参考文献:
[1] 段伟文,纪长霖.网络与大数据时代的隐私权[J].科学与社会,2014(2).
[2] 吴佳伟,刘国华,王梅.K-匿名隐私保护模型中不确定性数据的建模问题研究[J].计算机工程与科学. 2011(9).
[3] 钱萍,吴蒙.物联网隐私保护研究与方法综述[J].计算机应用研究,2013(1).
[4] 刘雅辉,张铁赢,靳小龙,等.大数据时代的个人隐私保护[J].计算机研究与发展,2015(01)
[5] 童云海,陶有东,唐世渭,等.隐私保护数据发布中身份保持的匿名方法[J].软件学报,2010(04) .
[6] 徐勇,秦小麟,杨一涛,等一种考虑属性权重的隐私保护数据发布方法[J].计算机研究与发展,2012(5).