大数据安全对策:自适应访问控制
2016-03-14韩伟力
江 雪,韩伟力,朱 磊
大数据安全对策:自适应访问控制
江雪,韩伟力,朱磊
摘 要:随着云计算、物联网、移动互联网、社交网络等新兴服务的发展,数据的种类和规模不断井喷增长,大数据时代已经到来。大数据逐渐应用于政治、经济、文化等重要领域,在带来巨大价值的同时也引入了安全问题和风险。介绍了大数据的基本特征,分析了大数据应用为传统访问控制方法带来的挑战,并且提出采用自适应访问控制方法作为安全对策。
关键词:大数据;信息安全;自适应访问控制
0 引言
随着云计算、物联网技术的兴起,以及微信、博客、社交网络等新型信息发布方式的不断涌现,人类社会的数据正以前所未有的速度呈现爆炸式地增长。据统计,Facebook用户每天共享信息超过40亿条,Twitter每天处理50亿次会话,平均每秒有200万用户在使用谷歌搜索,科学计算、医疗卫生、金融、零售业等各行业也有大量数据在不断产生。2015年全球信息总量已经达到8 ZB,预计2020年这一数值将达到35ZB。
大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,大数据挖掘和应用可创造出超万亿美元的价值,将是未来信息领域最大的市场机遇之一。大数据对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据时代,数据价值越来越大,面对海量数据的收集、存储、管理、分析和共享,信息安全问题成为重中之重。
1 大数据的定义和特征
百度百科的定义:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。
麦肯锡的定义[1]:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。
研究机构 Gartner 的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据具有以下4个特点[2],即4个“V”。
(1)数据体量(Volumes)巨大。大型数据集,从TB级别,跃升到PB级别。
(2)数据类别(Variety)繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,包括了半结构化和非结构化数据。
(3)价值(Value)密度低。以监控视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。
(4)处理速度(Velocity)快。包含大量在线或实时数据分析处理的需求。
2 大数据应用的安全挑战
人们可以从大数据中获取巨大的价值,一是获得知识和趋势预测,大数据可以帮助人们透过现象、更好地把握信息背后的规律,基于数据挖掘出的知识,可以更好地对自然或社会现象进行预测,比如对天气的预测、对流行性疾病的预测、对股票行情的预测等;二是分析掌握个性化特征,企业分析用户行为规律,可以为用户提供更好的个性化产品和服务、推广,例如Google通过其大数据产品对用户的喜好进行分析,可以帮助广告商提高效率。
大数据来源多且复杂,一是来源于人,人们在使用互联网、移动互联网过程中产生的各类数据,包括文字、图片、视频、音频等信息;二是来源于计算,各类信息系统产生的数据,包括文件、数据库、多媒体、日志等;三是来源于物,例如物联网中各种物产生的特征值、各类数字设备采集的信号等。随着数据爆炸性增长,保密数据、隐私数据也成倍增长,大量信息跨越组织边界传播,信息安全问题相伴而生,国家安全、知识产权、个人信息等等都面临着前所未有的安全挑战。
大数据的数据量巨大,通常采用云端存储,数据管理比较分散,对用户进行数据处理的场所无法控制,很难区分合法与非法用户,容易导致非法用户入侵,窃取或篡改重要数据信息。如何保证大数据的安全以及分析结果的可靠是信息安全领域需要解决的新课题。大数据中包含了大量的个人隐私,以及各种行为的细节记录。如何在大数据的应用中找到个人信息开放和保护的平衡点,是大数据提出的又一大难题。
访问控制是实现数据共享同时保证数据安全的有效手段。大数据由于数据量大、用户群复杂,可能被用于多种不同场景,其访问控制需求十分突出。大数据访问控制的特点与难点在于:
(1)角色比较难定义,更难于预先设置。由于大数据应用范围广泛,它通常要为来自不同组织或部门、不同身份与目的的用户所访问,实施访问控制是基本需求。然而,在大数据的场景下,有大量的用户需要实施权限管理,且用户具体的权限要求未知。面对未知的大量数据和用户,预先设置角色十分困难。
(2)角色的提前授权比较困难。由于大数据场景中包含海量数据,无法准确地为用户指定访问的数据范围。而且提前授权给用户缺少可扩展性、效率较低下。以研究领域应用为例,市场研究人员为了完成工作可能需要访问大量信息,但对于数据能否访问应该由工作需求来决定,如果提前做好了权限,后续可能因为权限不足而导致工作效率低下。但同时又应该能够提供对市场研究人员访问行为的检测与控制,限制其对企业或消费者数据的过度访问。
(3)定义数据重要性比较困难。大数据的价值在于针对大数据的挖掘和分析,随着数据分析、数据挖掘技术的发展,一些看似无关紧要的数据中可以分析出重要商业情报、个人隐私等,这使得定义数据的重要性变得越来越困难。
(4)感应式设备产生的数据难以用传统方式进行访问控制。大数据产生于各式各样的设备、软件收集和汇聚数据,而近年来新兴的移动式设备越来越依赖各种感应器收集数据从而运作,比如 Microsoft Kinect、Google glass、Apple watch等,都要持续不断采集感应数据才能发挥功能。这些感应设备持续工作会带来用户自身的数据泄漏问题,比如用户的车牌号;如果戴着Google glass进入浴室,则周围人的隐私也会遭到侵犯。传统访问控制方式无法保证这些感应设备在保持工作的同时,也能保护用户自身和用户周围人群的隐私数据。
3 自适应访问控制
JASON于2004年发布了一份权威战略咨询报告[3]引起了国际学术界和企业界对量化风险自适应的系统安全机制的关注。这份报告指出:“1.我们可以认为任何新系统必须满足以下基本标准„;2.它应该是基于风险的,而且其风险也应该是量化的;3.它应该在调节易变的风险接受程度和变换合作者方面是敏捷且可扩展的;4.它可以应对面向信息共享的刺激„。”JASON是专门为美国政府提供科学技术咨询的一个组织,所提供的报告在美国甚至全球科研领域具有非常重要的影响力。基于JASON报告,在美国AFOSR的支持下,UMBC、Purdue、UIUC等六所美国大学从2008 年起开展了为期5年的“A Framework for Managing the Assured Information Sharing Lifecycle”联合项目研究[4],为信息共享提供更为柔性的安全保障框架。其核心思想是在用户对信息发起访问请求时,实时地根据对访问时上下文的评估风险,并在评估相关条件的基础上做出是否允许访问的决策,使得信息共享在一些紧急的情况下可以方便地进行。实现该思路的关键在于访问时量化风险的计算以及计算的结果在访问决策形成时的运用。
Gartner在2009年的一篇技术报告中提到了自适应访问控制方法[5],并且在 2014年公布的年度十大信息安全技术中将自适应访问控制排在第二位,使该技术备受关注[6]。自适应访问控制是一种上下文敏感的动态系统安全访问技术[5][7],它的安全策略表达和实施围绕风险量化或收益量化来展开。与传统的强制访问控制(MAC)、自主访问控制(DAC)和基于角色的访问控制(RBAC)方法不同,自适应访问控制方法并不是简单设定允许访问、拒绝访问的固定条件,而是在风险和信任之间取一个平衡,根据访问行为发生时所处的上下文进行动态决策,在采取风险减轻措施同时有条件地允许或拒绝访问。相对于原有的访问控制方法,自适应访问控制可以在很大程度上提高访问控制策略的弹性,提高信息的可用性和流动性。
4 大数据应用的安全对策
由于在大数据场景中,数据种类和来源复杂,用户角色也十分复杂,往往无法准确地为用户预先指定其可以访问的数据,最好是在某个访问行为发生时针对具体上下文进行判断。因此,自适应的访问控制是针对大数据场景比较推荐一种访问控制方法。
自适应的访问控制是一种上下文敏感的动态系统安全访问与技术,区别于传统的自主访问控制、强制访问控制和基于角色的访问控制方法,自适应访问控制的安全策略表达和实施围绕风险量化展开。在访问行为发生的时刻,不是简单地允许或拒绝敏感访问,而是在风险量化基础上,采用动态风险消减、激励机制等方式,有条件地允许或者拒绝访问,平衡信任和风险。上下文敏感意味着访问控制决策反映出了当前的状况;动态风险消减意味着在当前消减风险条件下是允许访问的,而在其他情况下很可能因为无法消减风险而被阻塞;激励机制意味着当访问行为主体在当前的访问中安全利用敏感资源提升了组织的整体收益,该主体将受到激励有利于下一次访问。这说明自适应的访问控制方法兼具灵活性、实用性、安全性,可以大大提高访问控制策略执行的柔性,提高了系统的可用性,同时也考虑到了风险控制。
自适应访问控制方面的关键技术包括:风险度量方法、风险消减方法与激励机制、安全策略模型与表达、针对新兴设备特性创新访问控制机制。
(1)风险度量方法为敏感操作计算合理的数值化的风险或者风险向量[8]。当前主要存在着两类方法度量风险:一种是利用预设的计算模型,Cheng等人[9]提出了一个基于多级别安全模型的风险自适应访问控制解决方案,这个方案是基于贝叶斯公式的风险模型;Ni等人[10]提出了另一个解决方案,将信息的数目和用户以及信息的安全等级作为进行风险量化的主要参考参数,当用户访问的资源的风险数值高于某个预定的门限时,则限制用户继续访问,这个方案则是基于模糊逻辑的风险模型。还有一种是参考经济模型和市场机制实现风险的度量。Jason的报告[3]参考经济模型描述了风险量化和访问额度的概念。Ian Molloy等人[11]提出了参考市场机制的风险量化方法,为每次访问行为的风险进行定价,访问者持有支付风险价格的货币,足够支付者可以访问,否则不能访问。
(2)风险消减的目的是通过某种措施降低敏感操作的风险,比如通过细粒度记录敏感操作过程可以有效降低该操作风险,即便敏感操作造成损失,也可以及时发现决策失误并实施弥补方案;而激励机制则通过调控方式,刺激敏感操作的进行[12],这是因为在基于风险的控制过程中,安全策略往往会按照操作的最大风险设置门槛,这提高了系统的安全性但减低了系统整体的可用性。因此需要通过激励机制在风险可控的情况下提高敏感操作的执行频率。
(3)安全策略模型与表达,通过扩展现有模型[13]和策略语言[14]实现自适应访问控制控制的支持。
(4)针对感应式设备持续工作的情况,Franziska Roesner等人提出了一种新的访问控制机制[15],基于CA认证模型为现实中的对象设置passport,并且设置自适应敏感策略,感应设备自动过滤禁止访问的对象。
当然,大数据应用环境中,风险的定义和量化比以往更加困难,新的设备、新的数据采集、数据访问方式也会不断涌现。如何针对大数据具体应用场景设计合适的安全策略模型、设计新的访问控制机制,在充分运用大数据应用的同时保护个人或组织的重要信息,并在有效控制风险前提下提高数据价值,还需要进行更多的研究和探索。
5 总结
大数据时代已经来临,大数据应用逐渐渗入经济、政治、文化等各个重要领域,在为人们带来便利的同时也带来了信息安全的问题和挑战。如何做到既深入挖掘大数据给人类带来的价值,又充分保护数据安全性、防止非法访问,在大数据的应用中找到高效挖掘、高效共享数据的同时又能充分保护数据安全的平衡,本文提出以自适应访问控制方法作为大数据应用访问控制的解决方案。
参考文献
[1] 计算机行业—大数据(Big Data)专题报告[R]. 上海:光大证券股份有限公司研究所,2011.
[2] 大数据分析技术的发展[EB/ OL]. 2012-05-16. http://www.ccidnet.com/2012/0516/3859799.shtml.
[3] JASON Report. HORIZONTAL INTEGRATION: Broader Access Models for Realizing Information Dominance[J], MITRE Corporation, JSR-04-132, 2004, http://www.fas.org/irp/agency/dod/jason/classpol.pdf.
[4] Tim Finin, Anupam Joshi, Hillol Kargupta, et al. Assured Information Sharing Life Cycle[C], IEEE Conference on Intelligence and Security Informatics, 2009 (ISI’09).
[5] Gartner. Adaptive Access Control Emerges. 2009. https://www.gartner.com/doc/1124812/adaptive-access-co ntrol-emerges.
[6] Garter. Gartner Identifies the Top 10Technologies for Information Security in 2014, 2014, http://www.gartner. com/newsroom/id/2778417.
[7] Ching Lin and Vijay Varadharajan. Trust Based Risk Management for Distributed System Security - A New Approach. In Proceedings of the First International Conference on Availability[J], Reliability and Security (ARES’06), 2006, 8-15.
[8] Lei Zhang, Alexander Brodsky, Sushil Jajodia. Toward Information Sharing: Benefit and Risk Access Control (BARAC) [J]. In Proceedings of the 7th IEEE International Workshop on Policies for Distributed Systems and Networks (POLICY’06), 2006, 45-53.
[9] Pau-Chen Cheng, Pankaj Rohatigi, Claudia Keser, Paul A. Karger, Grant M. Wagner, Angela Schuett Reninger. Fuzzy Multi-Level Security: An Experiment on Quantified Risk-Adaptive Access Control[J]. In Proceeding of the 2007 IEEE Symposium on Security and Privacy (SP’07), 2007, Oakland, CA, USA: 222-230.
[10] Qun Ni, Elisa Bertino, Jorge Lobo. Risk-based Access Control Systems Built on Fuzzy Inferences[J]. In Proceedings of the 5th ACM Symposium on Information, Computer and Communications Security (ASIACCS 2010), April 13-16, 2010, Beijing, China.
[11] Ian Molloy, Pau-Chen Cheng, Pankaj Rohatgi. Trading in Risk: Using Markets to Improve Access Control[J], In Proceedings of New Security Paradigms Workshop (NSPW'08), 2008, Lake Tahoe, California, USA, 1-19.
[12] Debin Liu, XiaoFeng Wang, L. Jean Camp. Mitigating Inadvertent Insider Threats with Incentives[M], Thirteenth International Conference on Financial Cryptography and Data Security (FC’2009), 2009, Barbados.
[13] Nathan Dimmock, Andr Belokosztolszki, David Eyers, Jean Bacon, Ken Moody. Using trust and risk in role-based access control policies[J]. In Proceedings of the Ninth ACM Symposium on Access Control Models and Technologies, 2004, 156-162.
[14] Chen Chen, Weili Han, Jianming Yong. Specify and Enforce the Policies of Quantified Risk Adaptive Access Control[J], In Proceedings of the 14th International Conference on Computer Supported Cooperative Work in Design (CSCWD 2010), April, 2010, Shanghai China.
[15] Roesner, F., Molnar, D., Moshchuk, A., Kohno, T., and Wang, H. World-driven access control for continuous sensing[M]. Tech. rep., Microsoft Research, 2014.
中图分类号:TP393
文献标志码:A
文章编号:1007-757X(2016)07-0012-03
收稿日期:(2015.02.02)
基金项目:信息网络安全公安部重点实验室开放课题项目资助(C15612)
作者简介:江 雪(1983-),女,公安部第三研究所助理研究员,复旦大学,博士研究生,研究方向:信息安全,上海,200031韩伟力(1975-),男,复旦大学,副教授,研究方向:安全策略和信息安全,上海,201203 朱 磊(1988-),男,公安部第三研究所,信息网络安全公安部重点实验室,助理研究员,研究方向:信息安全,上海,200031
Adaptive Access Control: A security solution for Big Data
Jiang Xue1,2, Han Weili2, Zhu Lei3
(1.Training Center, The Third Research Institute of Ministry of Public Security, Shanghai 200031, China; 2.School of Computer Science, Fudan University, Shanghai 201203, China; 3. Network Security Research and Development Center, The Third Research Institute of Ministry of Public Security; Key Lab of Information Network Security, Ministry of Public Security ; Shanghai 200031, China)
Abstract:With the development of cloud computing, internet of things , mobile internet and social networks, it witnesses information explosion in many important fields such as politics, economy and culture. The era of big data is coming. It brings risks and threats as well as big fortune. This paper introduces basic concept of big data, it also analyzes the risks and challenges. It suggests using adaptive access control as a security solution for big data.
Key words:Big Data; Information Security; Adaptive Access Control