大数据时代面临安全挑战分析及应对策略研究
2018-03-22
陈 湉 中国信息通信研究院信息通信安全研究所高级工程师
1 引言
当前,大数据产业正值活跃发展期,大数据存储、计算和分析等关键技术快速演进,在各行业、各领域的创新应用也不断推进,为经济社会发展带来巨大价值与无限活力。与此同时,大数据安全问题逐渐暴露并日益突出。2017年1月,大数据基础软件陷入一场全球范围的大规模勒索攻击,Hadoop集群被黑客锁定为攻击对象。据Shodan互联网设备搜索引擎的分析显示,因Hadoop服务器配置不当导致5120TB数据暴露在公网上,涉及近4500台HDFS服务器。同时,近年来全球数据安全事件层出不穷,如何在大数据时代处理好数据安全问题成为全球普遍关注的热点。本文拟研究大数据技术应用面临的安全挑战,并提出我国强化大数据安全保障的应对策略。
2 大数据概念及发展现状
2.1 大数据的概念及特点
大数据的概念起源于2000年前后,伴随着互联网应用发展而诞生。当时,互联网网页爆发式增长,产生的数据量激增,为了提高用户检索信息效率,谷歌等公司开始建立索引库以提供搜索服务,成为大数据应用的起点。2012年之后,大数据技术方兴未艾,经过数年蓬勃发展,如今业界对大数据的认识已经基本趋于一致。Gartner提出,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡提出,大数据是指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。
同样,业界对于大数据的基本特性已达成共识,普遍认为大数据具有“5V”特性,即体量大(Volume)、结构多样(Variety)、产生和处理速度快(Velocity)、时效性强(Variability)、价值大(Value)等特征。中国信息通信研究院早前发布的《大数据白皮书》中提到,认识大数据,除了大数据自身特征外,还应了解大数据分析处理需采用新型计算架构和智能算法等新技术,大数据应用则强调以新理念应用于辅助决策、发现新知识和在线闭环的业务流程优化。因此,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
2.2 大数据发展现状
大数据时代,随着数据产生速度越来越快,数据量越来越多,对数据的处理速度和水平提出了更高的要求,对数据潜在价值的挖掘和利用需求更大,而传统的计算机技术已无法满足大数据时代的实际业务需求,这势必带来存储、计算和分析等关键技术的创新和变革。数据存储技术由传统关系型数据库向非关系型数据库(NoSQL)、新型关系数据库(NewSQL)和分布式文件系统演变,存储容量更大;数据分析技术由简单数据方法向机器学习、深度挖掘方向发展,分析功能更加强大;数据计算技术则由单机并行处理向分布式批处理、分布实时处理方向演进,计算速度更快,计算结果更准确。大数据技术的创新演进对网络安全技术的同步发展提出了更高的要求。
不断演进的大数据技术催生出新的大数据产业生态。如图1中NIST大数据技术参考架构所示,大数据产业链包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据使用者等角色。系统协调者负责配置和管理大数据平台与应用的各类安全功能组件及安全策略;数据提供者负责将各种数据或信息资源通过数据采集服务引入到大数据平台或应用中;大数据应用提供者负责开发和部署大数据应用,提供数据生命周期管理相关的数据服务;大数据框架提供者负责建立和运营大数据平台相关的基础设施、计算框架、存储框架和网络拓扑结构并执行大数据应用;数据使用者则使用大数据平台或应用的数据。
目前,大数据已进入应用发展阶段,技术创新和商业模式创新推动各行业应用逐步成熟,应用创造的价值占市场规模的比重日益增大,成为新的经济增长动力。中国信息通信研究院发布的《中国大数据发展调查报告(2017)》数据显示,2016年中国大数据核心产业的市场规模约为168亿元,较2015年增速达45%。伴随着国家政策激励以及大数据应用模式逐步成熟,未来几年中国大数据市场仍将保持快速增长,预计到2020年中国大数据市场规模将达到578亿元。
随着大数据产业规模不断壮大,大数据技术在改善社会生产生活的同时,其安全问题也逐渐显现出来。大数据安全将对国家安全、经济运行及社会稳定等方面产生重大影响,应当得到全社会的足够重视与积极应对。
图1 NIST大数据技术参考架构
3 大数据面临的安全挑战
大数据技术的创新发展赋予了大数据安全区别于传统数据安全的特殊性。在大数据新形势下,数据安全、隐私安全乃至大数据平台安全等均面临新威胁与新风险,做好大数据安全保障工作面临严峻挑战。
3.1 数据安全挑战
大数据时代下数据安全保护需求外延扩展,数据保护面临全新挑战。
(1)大数据时代,数据被众多联网设备、应用软件所采集,数据来源广泛,数据种类多样,如何保证所采集的数据真实可信以及对输入数据进行完整性校验,变得至关重要。若利用虚假数据进行分析处理,将影响结果的正确性,甚至造成重大决策失误。
(2)海量多源数据在大数据平台汇聚,来自多个用户的数据可能存储在同一个数据池中,并分别被不同用户使用,要在看不见他人数据内容的前提下对数据进行加工利用,即实现数据“可用不可见”,必须强化数据隔离和访问控制,否则将引发数据泄露风险。
(3)大数据技术促使数据生命周期由传统的单链条逐渐演变成为复杂多链条形态,增加了共享、交易等环节,同时数据的加工处理需求增加,产生数据血缘追踪等新的数据保护需求。数据应用场景和参与角色愈加多样化,也使得数据安全需求外延扩展。
(4)利用大数据技术对海量数据进行挖掘分析所得结果可能包含涉及国家安全、经济运行、社会治理等敏感信息,需要对分析结果的共享和披露加强安全管理,一旦泄露,将威胁国家安全与社会稳定。
3.2 隐私安全挑战
大数据技术应用使隐私保护和公民权益面临严重威胁。
(1)大数据场景下无所不在的数据收集技术、专业多样的数据处理技术,使用户很难确保自己的个人信息被合理收集、使用与清除,进而削弱了用户对其个人信息的自决权利,使用户个人信息面临安全风险。
(2)大数据资源开放和共享的诉求与个人隐私保护存在天然矛盾,为追求最大化数据价值,滥用个人信息几乎是不可避免的,使个人隐私处于危险境地。企业非法披露、共享、提供个人信息,导致个人信息非法交易买卖,使数据流转、交易形成链条,信息处理主体多元化,流转方式复杂,造成用户个人信息被滥用。
(3)利用大数据技术进行深度关联分析、挖掘,可能实现“去匿名化”,可以从看似与个人信息不相关的数据中获得个人身份信息和有价值的敏感信息,个人信息的概念就此泛化,保护难度直线上升。同时,多源数据汇聚使得恶意利用用户隐私的门槛降低,加剧了安全风险。
(4)大数据技术可能引发自动化决策带来的“数字歧视”等社会公平性问题,给个人带来负面影响,如生活干扰、精神压力、名誉或财产损害、不公平或歧视待遇,以及其他侵害个人权益的情况。例如,针对特定个人施加标签以划分等级或进行价格歧视等差别化待遇,侵害公民合法权益。
3.3 大数据平台安全挑战
大数据技术创新演进使传统网络安全技术面临严峻挑战。
(1)大数据存储、计算和分析等关键技术的创新演进带动信息系统软硬件架构的全新变革,可能在软件、硬件、协议等多方面引入未知的漏洞隐患,而现有的安全防护技术无法抵御未知漏洞带来的安全风险。
(2)现有大数据平台大多基于Hadoop开源框架进行二次开发,缺乏有效的安全机制,在身份认证、权限控制、安全审计等方面不健全,即使有些做了改进,其安全保障能力仍然比较薄弱。
(3)传统网络环境下,网络安全边界相对清晰,而由于大数据技术采用底层复杂、开放的分布式存储和计算架构,使得大数据环境下安全边界变模糊,传统基于边界的安全防护技术不再适用。
(4)大数据技术发展催生出新型高级的网络攻击手段,例如针对大数据平台的高级持续性威胁(APT)攻击和大规模分布式拒绝服务(DDoS)攻击时有发生,导致传统检测、防御技术无法有效抵御外界攻击。
4 大数据安全发展的应对策略
面对大数据时代严峻复杂的安全问题,亟需采取有针对性的手段措施,构建大数据安全保障体系,为大数据产业健康发展保驾护航。基于以上大数据安全挑战分析,提出以下应对策略:
(1)加快大数据安全立法进程,落实数据安全主体责任
立足大数据技术和业务发展现状,强化数据安全管理顶层设计,加紧制定出台相关政策文件,严格规范网络数据的收集、存储、使用和销毁等行为,针对数据生命周期各环节,明确并落实数据安全主体责任。结合大数据时代用户个人信息保护面临的安全风险,进一步细化完善用户个人信息保护规定,并加紧制定相关规范性文件,为开展大数据时代用户个人信息保护工作提供政策支撑。
(2)围绕数据利用和共享等关键环节,加强数据安全监管执法
定期开展数据安全监督检查,督促企业加强数据安全风险评估,对发现的问题及时整改,有效防范大数据时代数据安全风险。加强对大数据环境下企业利用和共享数据的安全监管,包括个人信息开发利用、数据外包服务的使用、数据共享合作等行为,推行合同范本明确相关主体安全义务和责任。加大对数据安全事件行政执法力度,依法依规对相关涉事企业进行严厉处罚。
(3)强化技术手段建设,构建大数据安全保障技术体系
基于大数据时代形势特点,加强数据防攻击、防泄露、防窃密等安全防护技术手段建设,强化数据安全监测、预警、控制和应急处置能力,构建大数据安全保障技术体系。鼓励企业、机构研发同态加密、多方安全计算等前沿大数据安全保护技术,推动数据脱敏、数据审计等技术手段在大数据环境下的增强应用,提升大数据安全保护水平。
5 结束语
本文阐述了大数据的概念和技术与产业发展现状,重点梳理分析了大数据时代数据安全、隐私安全和大数据自身平台安全面临的全新挑战;从大数据安全立法、监管执法和技术手段建设等方面,提出我国强化大数据安全保障的对策建议,为大数据产业健康、安全发展提供解决思路。