大数据环境下用户信息隐私泄露成因分析和保护对策
2016-12-21陆雪梅古春生
陆雪梅 古春生
〔摘要〕针对大数据环境下用户信息隐私泄露问题,论文首先分析当前用户信息隐私保护的现状与趋势,并指出当前用户信息隐私保护存在的问题;然后通过典型案例、统计分析和系统分析等手段,研究大数据环境下用户信息隐私泄露的发生机制和成因;最后聚焦用户信息隐私泄露的成因,分析研究用户信息隐私保护的关键社会方法与技术方法,并构建用户信息隐私保护的社会技术模型以及优化策略。
〔关键词〕大数据;用户信息;隐私泄露;成因分析;隐私保护
DOI:10.3969/j.issn.1008-0821.2016.11.012
〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2016)11-0066-05
〔Abstract〕For the problem of user information privacy disclosure in the big data environment,the paper firstly analyzed the status quo and trends of the user information privacy protection,and presented current problems of user information privacy.Then through typical cases,statistical analysis and system analysis,the paper researched generating mechanism and causes of user information privacy disclosure in the big data environments.Finally,focusing on causes of user information privacy disclosure,the paper analyzed key social methods and key technical methods of user privacy preserving,and built social technology model and optimization strategies of user information privacy preserving.
〔Key words〕big data;user information;privacy disclosure;privacy preserving;causes analysis
大数据(Big Data)是指所涉及的数据量规模巨大以致无法通过人工在合理时间内达到收集、处理、并整理成为人类所能解读的信息。大数据来源于物理社会和网络社会,由运营式系统被动、互联网系统主动、感知式系统自动3种方式产生[1]。大数据时代已经到来,据Gartner公司估计,互联网上的数据量每两年会翻一番,互联网上新产生的数据量达到667EB(1EB=109GB)。
科学技术是一把双刃剑。一方面大数据已经在商业、传媒、政府等很多领域得到有价值的应用。2009年谷歌公司准确预测了美国甲型H1N1流感暴发是大数据应用的一个经典案例。谷歌通过分析大量用户的搜索记录,比如“咳嗽”、“发烧”等特定词条,并根据查询服务器日志的IP地址判定搜索来源,从而准确预测世界各地流感传播趋势,和官方机构相比,谷歌能提前14天预测流感暴发,预测结果与官方数据的相关性高达97%[2]。另一方面大数据所引发的隐私安全问题与其带来的价值同样引人瞩目。近年来侵犯用户个人隐私案件时有发生,如2010年360公司泄露上亿用户名和密码、2011年谷歌泄露个人隐私事件、CSDN开发者社区泄露600万用户账号及明文密码、2012年1 200万个苹果设备信息泄露事件、2013年腾讯泄露7 000万QQ群和12亿个QQ号数据、2014年初春运售票首日12306网站即发生登录串号泄露旅客信息、2015年社保系统成为个人信息泄露的重灾区等等,这些事件严重侵犯了用户的隐私与合法权益。目前社会公众与政府都开始重视个人隐私问题,如2010年,德国柏林数千人参加了争取个人数据隐私的游行;2012年美国政府号召公司在使用私人信息时将更多的控制权交给用户;2013年“棱镜门”事件曝光后,欧盟正在加速制定新版数据保护法案,根据该法,每个人有权要求公司清除他们自己的个人数据。
大数据已经给用户信息隐私保护带来巨大挑战。由于大数据的跨域联系性,导致匿名信息的重新身份化[3],使得人肉搜索成为可能;由于大数据的数据量大,导致一旦服务商的服务器遭到侵袭而可能导致大量用户私人信息泄露,国内近期发生的“查开房”就是此类典型案例;非隐私数据的整合可能产生敏感的个人信息[4],如性取向、财务状况等;大数据分析结果可能被滥用[5],如,美国大规模枪击事件已经产生试图确定哪些人有可能采取付诸行动的暴力冲动,这些线索被认为存在于Facebook和其他社交媒体中,与一定模式相匹配的任何人都变成了犯罪嫌疑人。
1国内外研究现状和趋势
用户信息隐私保护是指任何人无权收集、加工或使用个人信息,除非经信息主体的自愿同意或从事该行为有法律上的依据。实现大数据环境下用户信息隐私保护,较以往其他安全问题更为棘手[6]。目前解决用户信息隐私保护问题的方案主要有社会方法与技术方法两种。
11社会方法
111隐私保护立法
国际上已有50多个国家和地区制定了个人信息保护相关法律法规和标准,规范社会、政治、经济活动、网络空间中处理个人信息的行为[7]。立法保护隐私信息的代表是欧盟。问题是各国政府对个人隐私的刚性边界难以达成共识,隐私保护标准难以统一。美国官方认为在国际范围内保护个人隐私时,不应阻碍信息跨境流动,影响电子商务和跨境贸易发展,希望通过对隐私保护采取平衡的规制方式,创造有利于创新的最佳增长环境[8]。因此,目前要想在国别标准差异的法规基础上制定出一套切实可行的管理规则还是异常艰难。
112企业与行业自律
自律是指信息控制人主动单方面地做出信息保护的承诺,如新浪、360、Google、Baidu等商业网站都在首页载明了该网站的“隐私保护”政策。行业自律模式的代表是美国。美国保护个人信息行业自律模式主要有建议性的行业指引和网络隐私认证计划两种。如美国在线隐私联盟(OPA)于1998年公布在线隐私指引属于建议性的行业指引模式,美国的Truste认证属于网络隐私认证计划模式。然而,行业协会无权惩罚违规企业。
12技术方法
121基于数据加密方法
主要思想是通过对用户数据进行加密,使得隐私信息窥探者无法通过密文推测出用户隐私信息,包括:基于对称加密技术方案[9],基于公钥加密技术方案[10-11]和基于启发式加密方案[12]。然而,加密方法的局限性在于数据使用性受到很大限制。这是因为:(1)基于对称加密的方案在数据使用上受到很大限制,仅能支持有限功能操作;(2)尽管基于公钥加密的方案在数据使用上不受限制,可支持任何功能操作(如全同态加密方案),但现有全同态加密方案密文膨胀率大,计算复杂性高等问题,导致现有方案在大数据中不具有实用性;(3)虽然基于启发式的加密方案计算效率高,支持功能操作比较灵活,但方案安全性并不能证明。
122基于数据匿名与失真方法
匿名方法主要思想是攻击者基于目标背景知识在匿名数据中无法标识出单个个体的方法。k匿名方案指攻击者基于匿名化数据进行匹配识别时,至少有k个候选项符合,即目标用户信息隐私泄露概率小于1/k[13]。失真方法主要思想是对于用户数据进行随机化修改,使得攻击者不能准确地推测出原始真实用户数据,从而达到保护用户信息隐私目的[14]。尽管基于数据匿名与失真是目前隐私保护的关键技术,但在大数据中它存在“去身份”信息可以“重新身份”问题,如由生日、性别和邮政编码组成的“三重标识符”能够用来惟一标识公开数据库中至少87%的美国公民[15]。
综上所述,在大数据环境中用户信息隐私保护的问题需要进一步研究与探索,依靠单一的社会方法或技术方法都不能完全解决问题。实际上,大数据环境下用户信息隐私保护问题并不仅仅是一个纯技术问题,还是一个社会问题。问题涉及到用户个人、隐私攻击方、网络企业、行业协会和政府部门等多个主体,这些主体之间的利益关系非常复杂,且交互重叠。因此,研究基于社会技术理论视角,将社会与技术两种因素综合起来考虑与研究,这样的研究可能会发现新的解决方案与途径。
2用户信息隐私泄露成因分析
基于系统论的思想,通过典型案例、统计分析和系统分析等手段,对大数据环境下的用户信息隐私保护的发生机制进行建模。由于大数据环境下用户信息隐私保护问题涉及到多种类型的数据、跨域数据,同时数据挖掘技术不断发展,因此原来可能没有隐私泄漏问题的数据经整合或重新处理变成敏感的隐私数据,所以对发生机制进行深入细致的研究非常必要。
21典型案例研究与统计分析
211典型案例研究
对大数据环境下用户隐私问题的典型案例进行深入研究,确认用户隐私问题发生过程中相关当事方的主要责任,归纳总结出用户隐私问题发生的环节、信息类型、情景条件等,并界定其中所涉及到的社会因素与技术因素以及这两种因素是如何相互影响与共同作用。
212统计分析
通过社会调研获取样本信息以及虚拟环境下虚拟攻击生成的数据,对大数据环境下用户隐私保护问题的主要形态、主要方式,以及导致问题发生的关键环节与要素进行统计分析,从而发现用户隐私问题发生的统计规律。
22用户隐私泄露的发生机制及成因分析
221隐私泄露点与发生机制研究
首先建立用户信息隐私问题的发生机制模型,如图1所示用户隐私泄露点及发生机制的框架示意图。图1大数据环境下的用户信息隐私问题发生机制示意图
隐私泄露点1:是用户在与网络服务方交互作用时,提交或泄露了自己的隐私信息,没有进行相应的匿名或者是失真处理。
隐私泄露点2:是网络服务方在掌握大量用户隐私信息的情况下,一是受到隐私攻击主的攻击而将信息泄露;二是网络服务方委托大数据挖掘的第三方进行数据分析时,失真或加密处理无效导致隐私泄露。
隐私泄露点3:用户在网络上的行为或者是隐私信息被隐私攻击方跟踪与窃取,这是因为用户自身的隐私保护意识与保护手段不力所致。
222用户信息隐私泄露成因分析
从上述用户信息隐私泄露点和发生机制可以发现,用户信息隐私泄露的主要原因如下:一是用户自身隐私保护意识不强、隐私保护技术不高,造成用户隐私信息泄露,如隐私泄露点1、3;二是网络服务方内部数据管理松懈,用户隐私信息安全体系不完善,造成用户信息泄露,如隐私泄露点2;三是挖掘第三方利用隐私保护技术本身缺陷,造成用户信息隐私泄露,如隐私泄露点2;四是攻击者利用隐私保护技术漏洞非法获取用户隐私信息,造成隐私信息泄露,如隐私泄露点1、3。
3用户信息隐私保护对策
当前大数据环境下用户隐私保护存在的问题是用户隐私保护法律不完善、用户数据的中心本身存在安全缺陷、用户数据使用监管存在明显隐患、用户信息隐私保护技术不先进。针对隐私保护的问题,我们下面研究用户信息隐私保护对策,即关键社会方法、关键技术方法、社会技术模型建构与优化、隐私保护的研究方法。
31关键社会方法
311隐私保护立法
借鉴欧盟针对大数据环境下的隐私保护立法的实践经验,研究与分析我国用户信息隐私保护中的共性与个性问题,针对大量高发且影响严重的问题与环节,为制定出既有预防性质也具有救济性质的隐私保护法律提供参考和理论依据。由于大数据环境下隐私保护具有跨时空、超国界的特点,因此在考虑我国隐私立法独特性的同时,还需考虑到与欧盟等国家的相关立法关系,从而实现国际社会在隐私保护立法方面的协同。
312行业自律与认证
借鉴美国在此方面的成功经验,同时分析研究世界各国在大数据环境下行业自律与认证的未来发展趋势;针对我国相关行业与企业的特点,特别是与大数据相关的网络服务方、数据挖掘的第三方以及其他数据涉及方的行为特征相结合,为制定切实可行与有效的行业自律或认证方案提供参考。
32关键技术方法
对于所涉及到的匿名与加密技术、追踪与删除技术以及统计识别技术等,各项技术现在都在不断发展中,一是对现有的技术方法解决大数据环境下的用户信息隐私保护问题的可行性进行评估;二是对其技术组合及其中的某些关键技术难题进行有针对性的研究,而这些都将是本文研究的重点与难点。
321匿名与加密技术
一是研究分析现有的技术方法在大数据环境下的可行性以及组合使用的可能性;二是研究现有技术方法的完善方案与改进技术。匿名技术既要能够保护隐私信息,同时又要保证在挖掘算法中的数据可用性。加密技术主要是用于掌握用户数据的单位将用户数据加密后委托给数据挖掘第三方的情形。目前,全同态加密技术能够对加密的数据在密文状态下任意计算,但现有方案不具有实用性,所以需要进一步研究基于部分同态加密技术设计用户信息隐私保护方案。
322追踪与删除技术
当用户或者是隐私保护的第三方发现隐私信息被泄露后,相关人员能够对此信息的泄露路径进行追踪,并对隐私信息泄露传播路径中的关键节点或者是数据库进行敏感信息的删除。此项功能既要有技术手段,同时也需要有相关的社会支持。
323统计识别技术
用户或者是委托的隐私保护第三方通过对大数据环境下的各种信息的扫描与实时统计分析,识别可能的用户信息隐私问题,对具有高概率的用户隐私保护问题提出预警,从而保证相关各方能够采取及时有效的防范措施。
33隐私保护的社会技术模型建构与优化
331社会技术模型建构与优化研究
对大数据环境下用户信息隐私保护问题所涉及到各主体、社会要素、技术要素及其相互关系进行系统建模,整合3个隐私泄露点与4个机制,同时考虑系统目标与实现目标途径的研究。大数据环境下用户信息隐私保护可以采取多种机制,包括用户的自我保护、政府保护、行业自律,也可以采取向第三方购买服务或者是购买与安装用户隐私保护软件等手段来实现。所以需要对用户隐私保护各种机制进行优化研究,在政府立法等强制措施之外,鼓励采取行业自律与市场化解决方案。
332用户信息隐私保护政策对策研究
基于用户隐私保护的政策目标,进行相关对策研究。一是研究用户信息隐私保护的立法措施;二是研究推动行业自律或认证的相关政策措施;三是促进隐私信息保护的技术开发与使用的相关政策措施。
34研究方法
本文基于社会技术理论的视角,综合使用社会调研方法与信息技术方法进行研究,所使用的主要方法如下。如图2所示。图2大数据环境中用户信息隐私保护研究方法示意图
341典型案例研究
研究将从根据用户信息隐私问题的社会影响程度、隐私泄露点、所涉及的技术与社会因素的复杂程度等,选择4~6个具有典型意义的大数据环境下用户信息隐私问题的典型案例,对用户信息隐私泄露的关键环节、技术社会因素、隐私泄露的扩散、对受害人的伤害、隐私泄露的发现以及后续的情况等进行全面分析与剖析。这些典型案例研究,将为大数据环境下用户信息隐私问题的发生机制与发现机制的建立提供依据。
342统计分析与识别
样本主要从两个方面搜集:(1)从各种媒体包括网络媒体上所报道的用户信息隐私泄露问题中搜集样本,同时借助社会关系网络从政府机构、法院、企业搜集能够公开的数据,进行统计分析;(2)采取实验室研究,建立虚拟的大数据环境,然后采取各种方法进行模拟攻击,从而生成大量的样本数据,从中进行统计分析,寻找关键环节与要素,以及建立相应的问题识别模型。
343系统建模与优化
基于系统论的思想,在案例分析与统计分析的基础上,对大数据环境下的用户信息隐私问题的发生机制、发现机制、预防机制与救济机制进行系统建模,描述用户信息隐私问题在以上4个机制中的主要因素、环节及其相互关系。由于这4个机制之间具有相互联系性,因此还可以建构用户信息隐私问题的系统过程模型。另一方面,由于大数据是一把双刃剑,既带来巨大的社会经济利益与可能的各种机会,同时也带来用户信息隐私保护等问题,所以必须建立社会技术的系统优化模型。这种优化模型的目标是大数据用户信息隐私保护的利弊平衡以及经济社会方法的效益效率双重目标。
344政策可行性分析
隐私保护立法、行业自律与认证虽然在欧盟以及美国都已经有相应的应用,但在大数据环境下,每个国家面临的问题仍然具有很强的特殊性质。社会文化、经济环境、政策法律基础、技术发展水平等都有差异,这些差异使得相同手段可能表现出不同的社会效果,也可能需要不同的社会经济成本的支持。因此在对隐私保护立法、行业自律与认证措施可行性分析基础上,提出可行的改善方案。
345加密算法与模拟攻击
对目前采用的各种加密算法进行评估,并运用全同态加密算法进行相对较为深入地研究。所以这些加密算法都将在大数据模拟环境下进行攻击试验,对其安全性与实际应用性进行评测,在此基础上,提出用户信息隐私保护的加密算法方案或者是组合方案。
4结语
无论半结构化、非结构化的大数据是来自普通用户、企业还是政府机构,是被动、主动还是自动式产生,伴随着互联网的新生态,已深度渗透到各行各业的时代背景中。我们在享受大数据带来便利的同时,也深深感受到在开放的互联网环境下,用户信息隐私保护的相关工作任重而又道远。本文从社会技术理论视角对此问题的相关研究,将为网络服务商开发基于匿名和加密技术的隐私保护方案提供思路,也为网络用户提高自我隐私保护提供技术支持和策略指导;为政府进行大数据环境下的隐私保护立法提供决策参考,同时也为相关行业开展行业自律或隐私保护认证提供研究支持,力求为推动相关领域构建强有力的保障体系,做出有益的尝试和探索。
参考文献
[1]孟小峰.大数据管理系统的发展与机遇[EB/OL].http:∥bigdata.chinabyte.com/322/13780322.shtml,2016-05-28.
[2]JGinsberg,MHMohebbi,RSPatel,LBrammer,MSSmolinski and LBrilliant.Detecting influenza epidemics using search engine query data[J].Nature 457,2009:1012-1014.
[3]POhm.Broken promises of privacy:responding to the surprising failure of anonymization[J].UCLA Law Review,2010,57:1701-1777.
[4]BLDaniels,Big Data,Big Trouble?Privacy and Legal Concerns with Big Data[EB/OL].http:∥www.sourcingspeak.com/2013/09/big-data-big-trouble-privacy-and-legal-concerns-with-big-data.html,2013-09-26.
[5]FBuytendijk and JHeiser,Confronting the privacy and ethical risks of Big Data[EB/OL].http:∥www.ft.com/intl/cms/s/0/105e30a4-2549-11e3-b349-00144feab7de.html#axzz49xNIFZAV,2013-09-24.
[6]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2013,37(1):246-257.
[7]郎庆斌,孙毅.个人信息安全——研究与实践[M].北京:人民出版社,2012.
[8]周汉华.个人信息保护法(专家建议稿)及立法研究报告[M].北京:法律出版社,2006.
[9]D Song,D Wagner,A Perrig.Practical techniques for searches on encrypted data[C].IEEE Symposium on Security and Privacy,2000:44-55.
[10]CGentry.fully-homomorphic encryption scheme using ideal lattices[C].STOC,2009:169-178.
[11]ZBrakerski and VVaikuntanathan.Efficient Fully Homomorphic Encryption from(Standard)LWE[C].FOCS,2011:97-106.
[12]蔡克,张敏,冯登国.基于单断言的安全的密文区间检索[J].计算机学报,2011,34(11):2093-2103.
[13]刘向宇,王斌,杨晓春.社会网络数据发布隐私保护技术综述[J].软件学报,2014,25(3):576-590.
[14]CDwork.Differential privacy.ICALP,2006:1-12.
[15]LSweeney,Simple Demographics Often Identify People Uniquely.Carnegie Mellon University,Data Privacy Working Paper 3.Pittsburgh 2000.
(本文责任编辑:孙国雷)