大数据环境下个人隐私保护机制
2017-03-31杨波
杨波
摘 要:互联网新型服务和物联网产业的发展,促进了大数据时代正式到来,带来巨大商业价值,但个人隐私泄露的风险也逐渐增大。大数据的价值不仅来源于数据本身,更多地来源于对数据进行二次挖掘与分析。因此个人隐私保护在大数据环境下面临许多新的挑战。分析大数据隐私保护的特点,从技术、法律和行业3个方面简述大数据隐私保护的有关机制,指出需多角度跨学科交叉研究以满足大数据隐私保护需要。
关键词关键词:大数据;隐私保护;隐私权;数据挖掘;数据预测
DOIDOI:10.11907/rjdk.161457
中图分类号:TP309
文献标识码:A 文章编号:1672-7800(2016)008-0168-03
0 引言
随着电子商务、社交网络、微博、微信等新兴服务和智慧城市、智慧医疗、智能家居等物联网产业的迅猛发展,人们的衣食住行等信息逐渐被数字化,信息数据量呈现裂变式增长。同时,移动互联网、移动通信网、传感网和云计算等传输技术和存储技术的发展,为数据发布和存储提供了基础平台。这一切都促成了大数据时代的真正到来。
大数据中的数据大部分来源于人和传感设备等,如网络注册信息、网络购物信息、门诊医疗信息、传感器监测信息等,这些数据没有统一格式,基本都是半结构化或非结构化的,但却蕴含着巨大的信息,致使各大企业都积极收集相关数据。大数据的价值除了数据的基本用途外,更多的是对数据的二次利用,为满足这种需要,新型数据处理技术如数据挖掘逐渐发展起来,通过对大量数据进行统计分析和推理,从中挖掘出潜在的有用信息,帮助企业作出正确的决策、减少风险。但是,对数据分析结果的应用存在着多面性:如果应用合理,则会更加满足用户需求,促进企业发展;如果应用不合理,则可能在用户不知不觉中暴露其隐私,并给用户的生活带来困扰。因此,随着数据量的不断增加和数据挖掘技术的不断发展,个人隐私保护问题如果不能很好解决则会造成对个人和社会的不良影响。目前,大数据环境下的个人隐私保护还没有成熟的技术、完整的法律和合理的社会机制,所以应积极研究各种有效措施以保证大数据隐私安全,这也是大数据技术的主要挑战之一。
1 大数据发展与隐私保护
2008年,“Big Data”一词出现,Nature杂志在当年推出了相关学术专刊[1],并得到有关计算机科学家的认可,由此开启了大数据时代。2011年,Science杂志也推出了大数据专刊[2]。随着数据挖掘与分析技术的发展,大数据的价值得到了更加充分利用,为世界经济带来了更多财富。大数据发展高度依赖对数据和信息挖掘,数据挖掘和二次利用很可能会使用户信息在不知情的情况下泄露出去,如何在享用大数据带来便利的同时不泄露用户信息,这是大数据发展与隐私保护面临的新问题[3]。文献[4]指出,在美国由于个人对隐私信息的保护意识较强,迅速发展的大数据应用经常会与个人隐私保护产生冲突。
隐私是每个公民的一项基本权利,从此角度探究,保护隐私的关键问题是拥有和控制自己有关信息的权利[5]。但是在大数据环境下,已经不同于传统的隐私保护,大数据隐私保护面临很多新的挑战[6]。一是数据挖掘,将会在数据二次利用时涉及个人隐私,这不仅仅是对传统问题的放大,而且是一种颠覆;二是数据预测,将会影响现实生活,预测的好与坏将会对个人名誉和信誉产生直接影响;三是数据监测,如信用卡使用记录、门诊看病记录、日常行程定位信息等,对于这些信息下,不论个人是否意识到,其生活习惯都会被窥探到,个人隐私都将会受到侵犯。
此外,大数据的隐私保护还有其它一些主要的热点研究问题[7]:侵犯个人隐私的行为难以认定;个人隐私保护的范围难以确定;信息和通信技术的快速普及使得管理用户隐私信息越来越困难;大数据个人隐私保护面临着很多技术挑战;普通研究者很难获得大数据研究所需要的海量原始数据;构建多维的灵活的个人隐私保护政策和大数据生态环境面临着极大的挑战等。
2 大数据隐私保护机制
为了在大数据发展和隐私保护之间寻找到合理的解决之道,学者从技术层面、法律层面、社会和行业规范层面等方面对大数据的隐私保护问题进行了探索。
2.1 大数据隐私保护的技术机制
大数据的生命周期通常包括数据的发布、存储、挖掘和使用,数据在各不同阶段会涉及不同的人群,用户的个人隐私信息都可能遭到泄露,需要在各个阶段都进行隐私保护。通常在具体实际操作中,对数据实施的是多级安全保护措施,即从数据层、应用层和数据展示层对数据进行保护[7]。
2.1.1 数据层个人隐私保护
数据层个人隐私保护主要包括数据加密的个人隐私保护、数据库的个人隐私保护和云存储环境下的个人隐私保护。具体如下:
(1) 数据加密方面,保护隐私的一项基本技术就是对数据进行加密,当前已经有很多经典的加密算法,在大数据时代,对数据加密的研究重点将集中在改进和完善已有加密算法、综合使用多种加密算法、以及结合大数据特点改进和创造一些新的算法,加密算法在很多资料中都有详细介绍,在此不再赘述。
(2) 数据库方面,虽然MapReduce技术发展非常快并广泛用于数据分析,与数据库形成了竞争,但它不能取代数据库,大数据时代仍然是以数据库作为信息系统的主体,数据库与MapReduce技术只能相互集成形成新的数据处理系统[8]。此外,数据库中的数据还面临着非法入侵、非法访问以及非法修改等威胁,因此保护数据库中的数据通常采用数据加密和访问控制的双重机制[9]。
(3) 云计算为大数据提供了基础存储平台,但是使用云服务的企业和个人也因此失去了对数据的完全控制。在云服务器中,由于云提供商不能提供完整的检测与审计技术,不能检测到所有的非法入侵和检测操作,因此内部人员和外部入侵者都可能会对数据造成威胁,个人隐私存在泄露的风险[10]。当前,很多学者对云计算的隐私问题进行了深入研究。文献[11]中,研究人员从数据产生、数据传送、数据使用、数据销毁等生命周期角度对隐私保护问题进行了分析。文献[12]中,针对根据个人需求推断用户隐私信息问题,提出了一种隐私保护策略,即噪声产生策略,该策略根据用户的历史需求产生噪声需求,使噪声需求与真实需求的发生概率达到相同,这样混淆提供商对真实需求的辨别,实现隐私保护。因此,在云计算这样的基础存储平台中,应该加密处理關键信息和敏感信息,制定细粒度的访问控制策略,并在云计算的各个阶段实施保护技术保障个人隐私安全[13]。
2.1.2 应用层个人隐私和保护
在应用层中,针对大数据的具体应用场景,研究相关的隐私保护技术将更加符合行业和应用的实际需求。在大数据时代,在线社交网络、移动定位和射频识别是当前比较流行的应用。具体如下:
(1) 在线社交网络中,当用户在网络中的交往越活跃,参与的活动越多,个人隐私信息也就会暴露的越多。在这种虚拟现实网络中,研究人员也提出了很多隐私保护方法,包括集中式的在线社交网络模型方案[14-15]和分散式的社交网络设计方案[16-17],集中社交模型信任在线社交网络提供商,允许提供商对用户数据进行相关分析;而分散社交模型不信任单个实体,对数据也不集中管理,数据由用户个人或用户信任的委托人存储。
(2) 针对如何提供定位服务的同时又保护好移动用户的隐私问题,有两种常用的度量标准,即匿名和干扰技术,如有学者提出采用位置匿名和隐私粒度作为隐私测量标准[18]。
(3) 射频识别(Radio Frequency Identification,RFID)技术中,当RFID标签序号与个人信息关联时,可能存在隐私泄露的情况。为保护个人隐私,也已经提出了很多关于RFID的隐私增强技术,如购物后去掉RFID标签、重命名标签等。
在数据展示层,提高发布数据效用的同时并保证个人信息不被泄露是数据发布当前面临的主要挑战,它也是个人隐私保护的热点,文献[19]、[20]中提出了匿名化方法,文献[21]、[22]提出了PPDM的数据发布方法,文献[23]提出了差分隐私保护以及数据访问控制的个人隐私保护。
2.2 大数据隐私保护的法律机制
1974年,美国通过了《隐私法案》及相关法规,是世界上最早提出隐私权和最早对隐私赋予法律保护的国家。2012年2月,奥巴马政府推动了与大数据密切相关法案的立法,即《消费者隐私权利法案》[24],明确规定了第三方在使用数据时必须对用户透明和并保证个人信息安全,规定数据的所有权完全属于用户,该法案的实施将对全球的大数据隐私保护产生极大影响。在欧洲,欧盟和美国商业部早在2000年就签订了一份有关数据收集和使用的协议,即“安全港”协议[25],该协议也明确规定了企业在收集个人数据时必须及时通知用户本人,并要告知用户数据的用途,只有在征得用户同意后才能转给第三方。欧美已经在法律层对数据进行了保护,这也有利于大数据时代个人隐私的保护。
我国有关法律对个人数据不能非法收集和利用有所规定,但是在隐私权方面的保护范围还比较模糊,并没有把隐私权当作特有的人格权进行保护,相比欧美对数据和隐私在法律层面的保护还有很大差距。在大数据时代,为保障公民权利和利益,我国在法律层面对个人数据的收集和使用进行立法保护也不容忽视。
2.3 大数据隐私保护的社会和行业机制
相比法律上的强制约束,社会自身对数据的使用也可以具有监管作用,有时还更加具有约束力。例如,在美国有一些第三方认证机构负责对某个行业内在用户隐私保护方面合格的公司提供认证,而拒绝对用户隐私保护不合格的公司,这样的现象在美国零售商业平台和电商平台上经常出现。像这样的第三方认证,并不是法律强制要求去做,但是社会和行业出于自身对隐私保护的认知,促使了相关企业必须在隐私保护方面进行自我约束,这不仅保护了个人的应有权利,也有利于企业的长远发展。在社会认知上,我国公民在隐私保护方面的意识薄弱得多,隐私保护方面的社会意识需要增强,监管力度还需要加大,因此探索合理的社会和行业保护机制也刻不容缓。
3 结语
大数据环境下的个人隐私保护是一个全新的问题,需要综合技术层面、法律层面和行业规范层面进行跨学科研究才能得到完整的解决之道,但是当前国内较关注技术层面而疏忽了法律和行业规范层面。在大数据发展中,需要权衡发展和隐私保护问题,对数据的使用进行有效监管和控制,特别是在有些情况下有必要从法律层面进行约束,如数据使用方对个人信息的使用需遵得个人允许等。
综上所述,今后需根据具体的大数据应用探索对应的隐私保护技术,如位置大数据隐私保护的新技术,因为基于移动通信和传感设备等位置感知技术的应用广泛,商业价值也大;其次,在法律保护机制方面,可以借鉴欧美地区的大数据法律保护机制,研究符合我国国情和大数据发展需要的大数据法律保护机制;再次,对于社会和行业保护机制,由于我国国民的隐私保护意识目前还相对偏低,因此可以研究合理的第三方监督策略,以监督相关企业和行业在自觉保护公民隐私的前提下使用大数据,保障公民的合理权益。
参考文献:
[1]NATURE.Big data[EB/OL].http://www.nature.com/news/specials/bigdata/index.html.
[2]SCIENCE.Dealing with data[EB/OL].http://www.sciencemag.org/site/special/.
[3]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[4]TENE O,POLONETSKY J.Privacy in the age of big data:a time for big decisions[J].Stan LRev,2012(15),64:63.
[5]理查德 A 斯皮内洛.世纪道德:信息技术的伦理方面[M].北京:中央编译出版社,1999.
[6]薛孚,陈红兵.大数据隐私伦理问题探究[J].自然辩证法研究,2015,31(2),44-48.
[7]刘雅辉,张铁赢,靳小龙,等.大數据时代的个人隐私保护[J].计算机研究与发展,2015,52(1) 229- 247.
[8]覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[9]BERTINO E,SANDHU R.Database security-concepts,approaches,and challenges[J].IEEE Trans on Dependables and Secure Computing,2005,2(1):2-19.
[10]JANSEN W,GRANCE T.Guidelines on security and privacy in public cloud computing[EB/OL].http:// csrc.nist.gov/publications/nistpubs/800-144/SP800-144.pdf.
[11]CHEN D,ZHAO H.Data security and privacy protection issues in cloud computing[C].Computer Science and Electronics Engineering(ICCSEE),Piscataway,2012:647-651.
[12]ZHANG G,YANG Y,CHEN J.A historical probability based noise generation strategy for privacy protection in cloud computing[J].Journal of Computer and System Sciences,2012,78(5):1374-1381.
[13]PEARSON S.Taking account of privacy when designing cloud computing services[C].Proc of the 31st ICSE Workshop on Software Engineering Challenges of Cloud Computing.Piscataway,2009:44-52.
[14]SINGH K,BHOLA S,LEE W.xBook:redesigning privacy control in social networking platforms[C].Proc.of the USENIX Sevurity Symp 2009.Berkeley,CA:USENIX Association,2009:249-266.
[15]DE CRISTOFARO E,SORIENTE C,TSUDIK G,et al.Hummingbird:privacy at the time of twitter[C].Proc of the 33rd IEEE Symp on Security and Privacy(SP) 2012.Piscataway NJ:IEEE,2012:285-299.
[16]CUTILLO L A,MOLVA R,STRUFE T.Safebook:a privacy-preserving online social network leveraging on real-life trust[J].IEEE Communications Magazine,2009,47(12):94-101.
[17]AIELLO L M,RUFFO G.LotusNet:tunable privacy for distributed online social network services[J].Computer Communications,2012,35(1):75-88.
[18]PAN X,XU J,MENG X.Protecting location privacy against location-dependent attacks in mobile services[J].IEEE Trans on Knowledge and Data Engineering(TKDE),2012,24(8):1506-1519.
[19]徐勇,秦小麟,杨一涛,等.一种考虑属性权重的隐私数据发布方法[J].计算机研究与发展,2012,49(5):913-924.
[20]CICEK A E,NERGIZ M E,SAYGIN Y.Ensuring location diversity in privacy-preserving spatio-temporal data publishing[J].The VLDB Journal,2013,11(1):1-17.
[21]AGRAWAL R,SRIKANT R.Privacy-preserving data mining[J].ACM Sigmod Recor,2000,29(2):439-450.
[22]ILAVARASI A,POORANI S.A Survey on privacy preserving data mining techniques[J].Int Journal of Computer Science and Business Informatics,2013,7(1):1-12.
[23]DWORK C.Differential privacy,automata,languages and programming[M].Berlin:Springer,2006:1-12.
[24]OBAMA B.Consumer data privacy in a networked world:a framework for protecting privacy and promoting innovation in the global digital economy[J].Priv Confidential,2012(4):95-142.
[25]THE U S.BBB EU safe harbor dispute resolution program[EB/OL].http://export.gov/safeharbor/eu/eg_main_018475.asp.
(責任编辑:陈福时)