大数据安全保护策略研究
2018-12-07李璐焦程鹏
李璐 焦程鹏
摘 要:随着数据价值的体现,大数据技术得到了飞速发展,在海量数据资源为各行业提供可用信息、决策依据和高品质服务的同时,也给网络安全、个人隐私安全带来了新的挑战。论文通过剖析大数据技术特点和其引发的安全风险事件,结合我国网络信息安全管理现状,从管理策略和技术保障等方面完善并规范数据的分类分级管理,并针对大数据全生命周期涉及的各环节建立健全的流程规范提出建议,促进我国大数据技术良性循环发展。
关键词:大数据技术;信息安全;数据泄露;保护策略
中图分类号:TP393.08 文献标识码:A
1 引言
大数据作为信息化时代最具价值的无形资产和战略资源,已与人们生活密不可分,为国家战略规划、社会干预及金融、医疗、农业等不同行业的预测分析起到重大参考作用。由于大数据技术具备对分散数据进行汇聚、挖掘和分析的能力,易发生敏感信息的提取和泄露。同时,大数据面临安全监管难、技术滥用、存储和安全防护难度大等系列管理问题,直接影响到个人隐私、行业敏感信息乃至国家信息安全等保障工作。
本文针对大数据技术特点,对其发展所引发的相关问题和解决策略进行阐述和分析。
2 大数据技术
大数据,从一般意义上来说,是指无法在合理时间内用传统IT技术和软硬件工具对其进行收集、处理和分析的数据集合[1]。IBM对海量数据进行研究并总结出大数据的5V特性:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)[2]。
大数据技术是对海量数据及多样化的数据类型进行了提炼、整合及优化,进而加快分析能力和提高获取所需信息的效率。如图1所示,采集、存储、处理和输出四部分为大数据技术架构的基本单元。
2.1 数据采集
大数据来源一般可分为线上行为数据和内容数据。其中,线上数据包括页面数据、交互数据、会话数据等;内容数据包括应用日志、电子文档、机器数据等。大数据采集和传统数据采集在两个方面有所不同:其一,最初采集到的数据称为原始数据,其数量级一般可达到TB级、PB级及ZB级别;其二,由于所采集的数据来源广泛、复杂,形成了多样性的数据特点。按照数据类型一般可分为三种:一是結构化数据,如普通纯文本数据;二是非结构化数据,如图片、声音、视频等无法直接知其内容的数据;三是半结构化数据,其特点是结构变化较大,不能通过简单建立一个表和数据相对应。大数据采集与传统数据采集区别如表1所示。
2.2 数据存储和处理
面对井喷式增长的数据,为提高所采集数据质量,需对原始数据进行预处理。通过对海量数据进行分类、筛选和清洗,剔除重复或错误等污点数据,规范存储数据的种类及格式,以真实性、准确性为目的来提高对数据访问及使用的效率。由于采集的数据类型各异,存储方式也由最初的关系型数据库、文件服务器演变到更适合非结构化数据的NoSQL数据存储,提高了数据的可扩展性及可用性。
随着业务需求和针对性各异,已初步处理的原始数据会被进一步加工。利用集群高速运算能力,结合模糊逻辑、集合理论或是专家系统等优化算法对所存储的海量数据进行挖掘和分析处理,提取更具价值的元数据。由于元数据是将原始数据进行整合、提炼,可为用户提供更具针对性的信息,因此元数据较原始数据具有更高的存储和使用价值。原始处理与元数据关系如图2所示。
2.3 数据输出和使用
输出的数据根据用途的不同,最终以使用、共享、交易等方式,成为针对性产品或者服务提供给所需用户。
经聚合、分析后的数据更具决策价值,其结果应用在科学、医疗、商业、国家安全等各大领域。由于各领域存在相互影响关系,多元化数据再次聚合分析可输出更加准确的预测信息,如Google Flu Trends网站根据人们对流感相关词条搜索的频次,从而预测世界各地流感爆发情况[3]。因此,大数据正以独特的经济价值呈现并流转在数据生态圈中,形成密不可分的供应关系。
3 大数据形势和安全挑战
虽然大数据分析为企业发展、城市服务、国家战略等各个方面提供重要信息和决策依据,具有持续挖掘和分析价值,但随之带来一系列问题:数据的使用权和归属权变得模糊,个人隐私、企业内部数据乃至国家的敏感信息被挖掘曝光。因此,在借鉴传统IT(Information Technology)安全防护的基础上,DT(Data Technology)时代应针对大数据技术特点完善安全管理策略,围绕数据生命周期各个环节明确监管要求,减少并避免因大数据的野蛮发展对个人、企业甚至国家造成损失[4]。
大数据及其相关技术带来的风险主要有三个方面。
3.1 大数据技术风险
大数据技术是对数据处理、分析的一种操作方式,大数据技术具备对分散数据进行聚合、挖掘的能力,非敏感的数据片段关联在一起,加以推理分析处理,存在披露敏感信息的风险[5]。由于数据的掌握及应用情况已成为企业之间乃至国家之间的关键竞争力,众领域根据业务发展需要,采集并存储了大量原始数据,这些海量数据涉及到政治、军事、能源、金融、农业、公共卫生等各类关键基础信息,一旦放松对大数据技术的使用管理,将造成大量敏感数据泄露[6]。
在如今媒体开放时代,网络、期刊等公众平台在方便民众、企业了解新闻实事获取信息的同时,也对不法分子、敌对组织敞开了可用资源。如发生在我国军事论坛上,某军迷通过分析发动机声音的频谱进而得出歼-20战斗机发动机型号的“泄密”事件,而军迷仅从公开渠道获取数据和材料,并结合自身所掌握的知识,进行缜密的逻辑推导,总结每种航空发动机声音具备的不同特征,列出了包括歼20、苏-27、F-15等不同战机发动机的谐波图,最终得出中国歼-20战机所使用发动机型号,并将结论发布于网上。由于这类数据获取途径处于法律的灰色地带,说敏感却又不涉密,却易被公民以公开渠道获得并加以分析,进而导致敏感信息披露。
3.2 基础设施风险
目前,我国自主生产的软硬件基础产品在市场占有率较低,导致基础设施供应链国产化情况不容乐观,如HP、IBM占据了服务器的主流市场; Windows操作系统的PC市场占据国内不低于97.1%的份额;处理器市场份额也主要由Intel和AMD两大寡头占据。由于大数据平台作为运载海量数据生命周期的关键基础设施,对其可用性、可靠性要求较高,企业多采用国外高性能软硬件产品,因此其供应链的协调、优化、控制等管理过程存在较大风险,进而导致基础设施安全自主可控能力较弱,一旦国外在供应链环节对我方进行干扰,将影响以此为基础的系列生产与工作[7]。
在国防制造业上,基础设施存在的数据泄露风险较为突出。部分重点行业的高精端生产、加工环节多采用国外进口工控设备,其专有的软硬件和通信协议由国外厂家提供并专人运维。经调研,部分工控设备在保障期正常运行的前提下,其内置远程传输、无线设备、GPS定位系统等模块无法擅自拆除,存在重要数据流向不可控的风险,存在国外卖方收集工控设备的位置、工作时间和加工量等信息的风险,如被国外情报部门获取并对这些数据加以分析、推导,可掌握我方已购单位所从事加工制造等具体工作,对军事部署、武器装备、最新技术等国防安全保障方面造成威胁。
3.3 安全管理机制风险
目前,我国对大数据全生命周期仍缺少全面的管理制度,存在政策法规覆盖的盲区[8]。部分企业存在重视大数据带来的经济效益而忽略安全投入的现象,将数据换取最大利益的野蛮式生长,易造成数据随意买卖、甚至数据打包出境等恶劣事件。
而我国目前已颁布的数据使用标准、规范的实施效果方面也不容乐观,仍存在行为符合性监管空白。如2014年某行旅网站出现数据库被黑客脱库,导致大量用户隐私数据泄露。追其原因,一是技术防护手段不足,二是在用户敏感信息存储管理上违背了PCI DSS国际安全标准规定,最终导致了个人隐私数据泄露的重大事件。
4 大数据安全保护策略
以推进基础设施国产化为基础,实现各行业、领域自主可控的发展平台,通过行政管理策略和技术保障策略约束并规范大数据生命周期的运行,促进大数据供应链的良性循环。
4.1 构建大数据保护基本框架
针对大数据技术发展带来的安全风险,应尽快完善国内大数据安全防护框架,借鉴国外和企业已有的数據保护法律架构和先进的管理办法,成立大数据安全保障相关组织和部门,建立健全的法律法规及相关政策;针对不同领域特点和安全需求,各行业应尽快出台标准和实施指南,形成相关指导文件,以数据架构驱动并提高企业架构治理的成熟度,加强内控和监管,做好事前预防、事中监督和事后问责制等系列工作。完善并规范数据的分类分级管理,针对数据生命周期涉及的各环节建立健全的流程规范。大数据安全框架示意图如图3所示。
4.2 数据分类分级
虽然部分公司企业基于传统信息安全基础,针对其商业运营信息有相应使用规定,但所保护的数据类型的覆盖面较窄,仅关注与其利益密切相关的数据,而连带收集的其他信息,如与个人、政府相关的数据则管理松散。
因此,为统筹管理数据,方便提供有针对性的保护,可将数据按照政府数据、关键基础设施数据、个人信息等不同类型进行划分,结合所收集数据敏感程度,建立相关标准,细化数据分级标准的粒度;平衡公民知情权和敏感信息、隐私之间的关系,明确应公开、透明的数据,将与国家、个人、商业等敏感数据分别进行重点保护,以安全有效的管理方式促进数据良性循环并产生价值。
美国在大数据分类保护方面形成较为完善的规则,出台了系列法案值得我们参考。其中,《爱国者法案》对维护国防、政府连续性、经济繁荣等至关重要的网络和物理基础设施服务进行定义和分类,明确敏感数据出处和范围;《信息自由法》对是否应公开的政府信息数据进行了描述和说明,明确指出保密文件、个人隐私、政府内部组织、商业秘密、商业与财务信息、执法文件、金融监督材料、地质信息、机关内部人事规则及根据其他法律规定例外的信息因敏感而不可公开。
4.3 构建大数据生命周期管控措施
为减少大数据使用带来的安全风险,应加强对大数据生命周期各环节管控能力,针对大数据的收集、利用、管理等方面开展风险分析,及时填补安全治理漏洞,形成安全可控的数据产业链。数据生命周期包含如图4所示环节。
(1)数据收集。随着数据资产价值重视程度提高,数据收集技术和渠道呈纷杂野蛮的趋势发展。因此,数据收集作为生命周期的第一个环节,应投入相应的重视并加强管控力度,强调并规范数据获取中涉及的义务、方式与渠道,如企业在数据收集过程中,以足够引起用户注意的方式告知用户被采集信息及用途,并需获得用户的同意;通过法律法规及宣传加强个人及企业对数据的保护意识,整合现有数据收集工具和流程,通过合法渠道和技术手段收集所需数据,严惩并杜绝黑市交易与买卖数据现象。
(2)数据存储。随着云计算、大数据技术的快速发展,跨境存储在全球各地的数据中心已成为大规模数据发展趋势,同时也带来较大的安全风险[9]。面对国内行业因业务需要跨境存储、国外公司进入国内市场提供服务支持两种情况,在遵守服务器所在国(地)的相关法律的同时,急需完善我国数据落地存储相关法律法规,以公平的协议维护数据存储权利[10]。
在存储个人信息方面,应尊重个人隐私和个人财产安全。由于个人成长过程会在工作学习、生活消费等各方面各阶段持续留存个人相关信息,因此应对此类数据存储时间提出限制要求,如对不再活跃账号的相关信息不可永久性存储。
(3)数据处理和使用。大数据技术存在将不敏感数据片段汇聚、挖掘、推理得出敏感信息的风险,因此应严格规范对数据的挖掘、聚合等分析操作。加强基于数据内容的安全访问控制和上下文访问控制策略,对基于一组敏感信息的上下文分析行为进行记录和审计,防止数据聚合技术的滥用;明确数据在分享、交易、管理等过程中涉及的社会关系,以及数据之间的逻辑关系;对敏感数据的存储采取单元抑制、数据库分离、噪声和扰动等手段,通过加入干扰项来防止敏感数据推理事件发生;确定主体对客体的执行操作,明确访问授权原则,为使用和管理数据的人员分配相应权限和期限,通过技术和管理手段提高数据处理及使用的安全保障措施。
(4)数据传输。目前,数据跨境流动分为两种模式:一是数據过境传输;二是数据被境外访问。企业通过数据跨境流动扩展了业务范围,提高了服务水平,但也随之涉及敏感数据跨境问题。因此,需要进一步明确数据分类和限制要求,建立符合我国国情的数据跨境管理策略,规范可跨境流通的数据类型;限制数据共享及交易范围,追踪及管控数据出境行为;加强跨疆界数据保护和执法的合作力度,推进国际合作,邀请多方参与程序和行为准则的制定环节,以有效执法和企业问责制为前提,承认彼此的数据保护框架,在数据价值保护上达成一致,打破受制于人的局面。
(5)数据销毁。目前,数据销毁方式分为两种类型,逻辑销毁和物理销毁。针对不同存储方式的数据明确其销毁方式,结合已认证、认可的销毁工具产品,严格遵循国内、国际标准实施销毁流程,并评估此销毁方式后数据可恢复性,以达到可信销毁目的。
5 结束语
大数据技术带来了发展机遇也带来了安全风险和挑战,利用大数据技术加快经济发展的同时,应及时加强相应安全保障措施。通过建立大数据安全保护框架,加强约束力度和合理引导,完善相关政策法规,结合技术安全保障措施,提升国家大数据安全治理能力,形成大数据开发、利用的良性循环。以国家安全为前提,积极推动大数据发展战略,提供平稳、安全、高效的经济运行机制,多方面入手达到大数据技术自主可控的目标。
参考文献
[1] 齐爱民, 盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报: 哲学社会科学版,2015(1) : 65.
[2] 李清泉, 李德仁.大数据GIS[J].武汉大学学报(信息科学版),2014.6:39卷第六期.
[3] 李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012.27(6):647~657.
[4] 冯伟.大数据时代面临的信息安全机遇和挑战[J].中国科技投资, 2012(34): 49~53.
[5] 王文超, 石海明, 曾华锋.刍议大数据时代的国家信息安全[J].国防科技, 2013, 34(2): 1~5.
[6] 聂元铭. 大数据及其安全研究[J].信息安全与通信, 2013(5):15~16.
[7] 刘正伟,张华忠,文中领,等.海量数据持续数据保护技术研究 及实现[J].计算机研究与发展, 2012(s1): 37~41.
[8] 王珊,王会举,覃雄派,等.架构大数据:挑战、 现状与展望[J].计算机学报,2011,34(10):17411752.
[9] 肖新斌,史召臣.云计算引发的安全风险[J]. 信息安全与技术,2011,(06):13-14.
[10] 胡光永.基于云计算的数据安全存储策略研究[J].计算机测量与控制,2011,19(10):2539-2541.