APP下载

大数据应用中的数据安全保障技术分析研究

2022-04-18陈迎春

江苏科技信息 2022年4期
关键词:访问控制数据安全备份

陈迎春

(中共青海省委党校,青海 西宁 810001)

0 引言

大数据技术的快速发展带来了越来越多的机遇和挑战,社会发生了巨大的变化,日新月异的智能终端、无处不在的无线网络、各具特色的互动平台,让普通的企业和个人变得丰富而立体。大数据的挖掘和应用的深入不断推动新蓝海、新经济的成长。企业已经完全可以对个人消费习惯和倾向行为进行大规模、准确的研究,给企业带来巨大业务潜力和市场需求[1]。因此,在大数据时代,数据处理与分析已经成为新一代信息技术应用的支撑点,引领着大数据产业技术未来的发展方向,吸引着众多互联网巨头抢占布局,占领市场产业制高点。随着大数据在各个领域的应用逐渐深入渗透,大数据的商业价值愈发不可估量,在这种形势下数据安全显得尤为重要,这给信息安全技术带来了发展机遇和巨大挑战,必须从全局的角度分析、认识和处理整个大数据生命周期内的各种安全保障技术。本文以大数据的生命周期为连接线,分析了大数据在各个阶段面临的安全风险,并阐述了相应的大安全保障关键技术。

1 大数据的生命周期

随着大数据应用的快速发展,各类信息的开放度也不断加大,厂商不停发布新的信息搜索引擎,为庞大的数据分析和挖掘提供数据支撑。当数据的采集、存储和处理分析方式出现新的变化时,信息系统基础结构受到的影响可能极大,它将变得越来越一体化,并趋向于外向型。这个情况会对大数据安全构成极大风险,若不认真客观了解其大数据内涵,其风险成本将直线飙升,因此一定要全程关注大数据的完整生命周期[2]。

一般情况下数据的生命周期可以分为7个阶段:数据采集、数据传输、数据存储、数据处理、数据归档、数据销毁等。经过合并精简,根据大数据特征及应用特点,最终依据应用过程将大数据的生命周期划分为4个环节:数据采集、数据存储、数据分析和数据发布。大数据采集安全问题主要集中在数据的采集与汇聚过程中;数据存储安全是保证所采集数据的机密性、私密性、可靠性和可用性,数据挖掘安全是要保证数据挖掘者的可信任身份,严格控制数据分析处理的操作权限,重点是防止信息泄密。数据发布安全是执行严格的安全审计,用以保证可以追根溯源到可能的泄密泄露数据。

2 大数据应用中的数据安全保障技术

2.1 数据采集过程的安全保障技术

不同源不同类的大数据需求日益增长,损坏、丢失、泄密、被盗取等安全隐患也显现在各类数据采集过程中,必须利用技术手段来保证采集过程中的数据安全。

常用的VPN(虚拟专用网)技术完美解决了数据安全传输的要求,可充分保证被传输数据的机密性、完整性、真实性和防止重放攻击等。其主要原理是:将隧道技术、协议封装技术、密码技术和配置管理技术进行封装,在源头端和目的端采用虚拟的数据传输专用通道,将源头数据加密封装,嵌套入另一种协议的数据报文中,伪装成普通数据报文,在网络中进行传输,到达目的地后用户再解析还原通道中的嵌套信息。当前市场上比较主流和成熟的VPN技术采用的协议主要分为两种:Ipsec协议和SSL协议。

2.2 数据存储过程的安全保障技术

只有保障数据存储的安全,大数据的分析和利用才有可能。传统的数据具有生命周期长、使用频繁的特征,而在现有的大数据环境下,各类云服务的广泛应用增加了数据安全隐患,其中隐私数据的泄露概率、机密数据被窃取的风险大大增加;另外,由于大数据的身价逐日提升,国内外的黑客盯上关键数据并设法窃取,换取高额利益,关键数据的泄露将会对企业和用户造成巨大的损失。大数据的深度应用与快速发展必须建立在数据存储的安全保证上。大数据存储安全的关键技术主要包括隐私保护、数据加密、数据备份与恢复等。

2.2.1 隐私保护

在大数据存储过程中,隐私安全保护技术的终极目的是保证数据在快速传输和有效使用中不泄密、不丢失。目前隐私保护技术大致分为以下几种:一是基于数据变换的隐私保护技术,它的运算效率较高,但不能保证数据的完整性,存在一定的数据丢失率;二是基于数据加密的隐私保护技术,它的优势是能够保障数据的完整性、安全性,但计算占用资源巨大;三是基于匿名化的隐私保护技术,能保证发布信息的真实性,但发布的数据存在一定的数据丢失率。每种隐私保护技术各有优缺点,用户应当根据实际业务应用,选择合适的隐私保护技术。

2.2.2 数据加密

利用VPN通道可把数据安全传输到目的端,目的端存储系统收到后必须先进行数据解密,才能进入存储过程。当数据以明文形式进行存储,遭遇非法入侵者的攻击和破坏时,明文数据不堪一击,因此,数据存储时也要进行加密,为了平衡存储速度与安全,只对敏感核心数据采取存储加密技术手段。根据数据类型,数据加密机制可分为静态数据加密机制和动态数据加密机制。

2.2.3 备份与恢复

为防止发生灾难性事故,存储系统有必要提供数据备份和恢复机制。在数据存储完好时启用备份机制,当数据意外丢失或遭到破坏时,可以启用恢复机制来保障数据的可用性和完整性。常见的备份和恢复机制有异地备份、Raid备份、数据镜像和快照等。大数据环境下,数据的存储一般都使用Hadoop研发的HDFS备份与恢复机制,对于极其重要的数据,还应该建立远程容灾备份。

2.3 数据分析过程的安全保障技术

数据分析是通过分析海量数据提取有用信息的挖掘过程,是充分体现大数据价值的过程。在数据分析过程中,会引入多领域的专业理论和技术,例如人工智能、云计算模式、检索引擎、统计应用、生物识别等。复杂的交叉学科运用决定了拥有海量基础大数据的机构不可能是全能的专业分析挖掘者,必定会引入拥有综合能力的第三方数据分析机构,数据分析过程将面临安全问题,如何能保证第三方在使用数据时不植入恶意代码,同时保证提取数据后不泄密是需要关注的重点。因此,在数据分析处理过程中,数据安全保障技术重点是登录用户的身份认证和访问控制策略。

2.3.1 身份认证

身份认证是指应用系统中用户登录身份的确认过程,即用户的登录身份与其真实身份相认证的过程。根据用户的认证信息,身份认证技术一般可分为3种:基于机密数据的身份认证、基于特定信息的身份认证和基于人体生物特征的身份认证。

2.3.2 访问控制

访问控制是数据分析过程中安全保护的核心策略,原理是对每个用户制定特定控制策略,授予不同访问级别,保证合法用户获得相关数据,尤其针对关键重要的资源访问,一定要制定严格的访问控制策略,以保证用户的合法性。访问控制根据行为特征可以分为自主和非自主两种,目前常使用的访问控制模式大致包含3种:一是自主访问控制;二是强制访问控制;三是基于角色的访问控制。

2.4 数据发布过程的安全保障技术

大数据在经过分析处理过程后,进入数据发布过程,这是数据公开使用的环节,其安全性更为重要。必须在数据发布前对数据进行全方位审核,确定输出数据的保密性、合规性等。但是再严格的审核流程,也难免百密一疏,因此数据发布之后,如果出现数据机密外泄、隐私泄露等意外情况,要马上启用追溯机制,迅速定位到出现数据安全的环节,及时做出应急响应[3]。

2.4.1 安全审计

安全审计是指根据采集的安全大数据进行分析、评估和审查,查找安全隐患,并通过审核稽查和计算追查事故缘由,进而做出处理。在数据发布过程中选择安全审计技术方案时,一要考虑不对现有应用系统造成任何影响;二要考虑方案的稳定性、可靠性和可用性。审计技术包括日志审计、网络监听审计、网关审计、代理审计等[4]。网关审计技术部署如图1所示。

图1 网管审计技术部署

2.4.2 数据溯源

数据溯源的普遍定义是:对大数据应用周期的环节和操作进行标记和定位,发生数据安全故障时,可以快速准确定位到出现问题的环节和责任者,以便解决数据安全问题。目前数据溯源的主要方法是标注法和反向查询法,但是对于非法入侵者来说,溯源标记是很容易被破坏的,因此数据溯源应用目前处于研究阶段,还缺乏成熟的应用模式。目前,由于缺乏统一的业界标准,多数数据溯源管理系统只实现于一个封闭的系统内部,如何在分布式数据系统间进行溯源管理正成为研究热点。

2.5 防范APT攻击

APT攻击是指攻击者通过多种攻击途径(如物联网、欺骗等),窃取机密信息或破坏(阻碍)目标信息(组织)的关键系统,或驻留在组织的内部网络以待后续攻击。目前的检测和防范技术并不能完全有效应对所有APT攻击,事实上有些攻击潜伏很长时间后才被检测到,甚至有可能一直未被发现。表1对比了APT攻击与传统攻击方式的不同。

表1 APT攻击与传统攻击方式的不同

令人遗憾的是,目前的检测和防范技术并不能完全有效应对所有APT攻击,事实上有些攻击潜伏很长时间后才被检测到,甚至有可能一直未被发现。鉴于这种情况,需要转换保护所有数据的惯性安全思维,把安全重点放到关键资源保护上,在各个重点环节上部署检测和防护,全面记录采集行为,建立一种新的安全防护体系。当前检测APT攻击的常见方案有5种:一是沙箱方案;二是异常检测;三是全流量审计;四是基于深层协议解析的异常识别;五是攻击溯源。

3 结语

随着社会不同领域对大数据应用的重视,大数据安全保障问题凸显,关注度也日益提升。一方面,大数据应用技术的迅猛发展,为攻击者提供了更多的攻击途径,致使数据服务平台面临巨大安全威胁;另一方面,大数据应用的整个生命周期各个阶段都面临不同的安全风险威胁,必须改变固有的传统安全思维,建立全新的安全意识。本文围绕大数据应用的整个生命周期,重点论述了每个阶段的安全隐患和安全保障技术,希望大数据应用者能够了解相关安全保障技术,并在此基础上转换新的安全思维模式。

猜你喜欢

访问控制数据安全备份
一种跨策略域的林业资源访问控制模型设计
VSAT卫星通信备份技术研究
创建vSphere 备份任务
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
ONVIF的全新主张:一致性及最访问控制的Profile A
云环境中数据安全去重研究进展
动态自适应访问控制模型
旧瓶装新酒天宫二号从备份变实验室