APP下载

基于生命周期的大数据安全分析与探究

2023-11-07杨小漫

电脑知识与技术 2023年26期
关键词:访问控制数据安全传输

杨小漫

(武汉船舶职业技术学院,湖北武汉 430000)

0 引言

习近平总书记就推动大数据和数字经济相关战略部署、发展大数据产业多次做出重要指示。2021年工业和信息化部发布了《“十四五”大数据产业发展规划》,促进大数据产业从规模增长向结构优化、质量提升转型。大数据技术正加速人类社会各个方面的深刻变革,由数据驱动的应用在各个领域发挥重要作用,数据的重要性和潜在价值日益提升。也正因大数据的潜在价值,使其面临着攻击、泄露、滥用等风险,这些安全风险还将随着大数据技术的发展全面辐射到各行各业。因此,大数据安全是发展大数据的前提,也是被重点研究的课题。

1 大数据安全

1.1 数据安全背景

近年来,全球数据安全事件持续高频发生,2018年印度政府身份数据库Aadhaar 遭入侵;2020 年甲骨文公司泄露数十亿条网络数据记录;2022年国内西工大邮件系统遭境外组织攻击等,这些数据安全事件造成企业资产丢失、品牌信誉塌陷等重大损失,甚至让国家安全和社会稳定面临威胁。世界各国已出台数据安全相关政策,设立各层次、各领域的法律法规,例如,欧盟实施的关于个人隐私保护的通用数据保护条例、巴基斯坦的《2020 年个人数据保护法案》、美国的《美国数据隐私保护法》、俄罗斯的《个人数据保护法案》和英国的《开放数据白皮书》等。

我国“十四五”规划指出“加快推进数据安全、个人信息保护等领域基础性立法,强化数据资源全生命周期安全保护”。已实施的《网络安全法》《数据安全法》《个人信息保护法》《数据安全管理办法》等持续健全我国数据安全法律法规矩阵。各行业的数据安全标准规范也密集落地实施,腾讯构建以“科技为善、数据有度”为价值理念的数据安全管理体系;联通大数据坚持“数据安全是生命线、安全事件零容忍、敏感数据不出门”三大安全原则;阿里巴巴提出大数据安全能力成熟度模型。虽然国内各界加快推进数据外规内化、风险治理方面的步伐,但是大数据安全与隐私保护的基础性、原创性成果不足[1],且“定制化”攻击技术层出不穷,攻击形式隐蔽、多样,大数据安全将面临更多的新挑战。

1.2 大数据安全面临的挑战

大数据安全既可指大数据自身安全也可指大数据技术应用于安全,本文是对大数据自身安全进行探讨,即保障大数据的完整性、可靠性、可用性和机密性。大数据“5V”特性、开放性、动态性及分离性赋予了大数据安全区别于传统数据安全的特殊性。

挑战一:如何构建实时、高效的大数据安全保障体系。大数据平台是分布式系统部署,具有众多复杂的数据应用访问者,安全风险成因也瞬息万变。因此,大数据平台的安全措施不但要全节点、全流程覆盖,还要保证实时、高效。

挑战二:如何改善大数据安全技术的滞后性。大数据在处理方式、系统结构、应用理念等方面不断革新,迫使大数据平台安全需求和防护理念随之改变。随着批流一体、湖仓一体、HTAP(混合事务分析处理)等融合架构的研究与应用,框架自身的安全技术也需快速更新。另外,前沿大数据技术反被黑客用来实现更精准的攻击,若提升安全技术的更新速度则能在攻击与保护的博弈中赢得先机。

挑战三:如何解决大数据安全等级和高效处理之间的矛盾。安全是效率的基础,效率是安全的核心。大数据安全等级越高越会影响数据处理效率,而追求大数据处理效率也会调整安全等级。如何协调两者也是大数据安全面临的难题。

挑战四:如何权衡大数据安全和开放。大数据是在开放和流通中不断创造新价值的特殊资产,而数据频繁地跨界流动与共享将带来更严峻的安全风险。若处理好安全和开放,则能实现大数据“可用不可见”“可算不可识”。

挑战五:大数据平台的整套安全体系还不完善。目前,通过采用Hadoop 生态内的一系列组件实现大数据的采集、存储和处理功能,针对单个组件或单个环节的加密技术(如HDFS、HBase 等加密)较为成熟,但对组件间数据流转的安全保护较弱,整套安全体系还有待完善。

2 基于生命周期的大数据安全分析

大数据生命周期主要包括数据采集、传输、存储、处理与共享、销毁五个阶段,每个阶段都面临着数据丢失、泄露、被篡改等风险。

2.1 采集阶段大数据安全分析

大数据采集是指通过各种渠道汇聚复杂关联的基础源数据,是安全建设的第一道屏障。采集数据的质量决定数据的价值,采集安全又是采集质量的保障。大数据采集安全性主要表现在采集终端的接入、敏感和隐私数据采集、采集行为权限及异常采集识别等方面。

大数据采集方法有多种,依数据来源分为:数据库采集、系统日志采集和网络数据采集;依采集端分为:移动大数据采集、网上行为大数据采集、感知设备数据采集;依时效性分为离线和实时采集。目前较流行的采集技术主要有:离线采集ETL、实时采集Flume/Kafka、数据同步Sqoop/Datax、爬虫、日志收集Logstash、Filebeat等。

1)安全风险分析

采集时及采集后都可能出现数据安全风险,特别是采集后存在脱离数据所有者控制的情况。大数据采集的数据复杂、来源广,参与方多,面临的不安全因素也较多。

①采集行为权限越界

虽然数据安全相关法律法规已落地实施,但实际应用情况复杂多变,存在越权采集、超出目的使用、非法转让等异常行为。例如,恶意爬虫不遵守robots 协议、违反网站意愿强行突破反爬措施、采集法律保护的特定数据,而且爬虫与反爬虫持续博弈,爬虫技术不断升级。

②潜在安全风险突出

随着机器学习、智能算法的优化及应用,采集不敏感或非隐私数据也会隐藏着安全风险。若数据所有者对数据结构深入分析不够,缺少采集风险评估,那么采集者可通过群组特性、关联规则、聚合分析等方法,挖掘出涉密目标或形成更有价值的衍生数据。虽然可通过技术(如匿名化、去标识化等)对数据进行泛化或扰动来降低数据敏感度和被重识别的可能性,但是部分方法与背景知识密切相关,保护水平有限。

③异常采集行为识别技术有待提升

某些领域采集安全边界较模糊,异常采集行为较隐蔽,而且劣质信息源(如社交媒体上的水军,电商虚假评论等)普遍存在,导致异常采集行为的识别难度加大。

2)数据安全保护策略

大数据采集安全的目标是在提升采集效率和质量时保障采集安全、提高非法采集行为的识别能力。

①建立数据采集安全体系

目前,大数据采集技术的安全机制普遍不完善,不但要从技术、管理、法律等方面规范采集行为,还要升级数据脱敏、数据分级、采集权限管理等方面的技术,保证采集数据遵循最小化原则[2],逐步完善采集安全体系。

②做好数据安全分级

在熟知源数据结构基础上,按需细化数据粒度、数据权属、使用期限等管理规范,依数据敏感性或影响程度进行安全分级。做好数据层隔离和权限管理,降低由数据易复制特性带来的数据滥用风险。

③进行采集风险评估

对采集设备管理、采集行为、采集环境等做好安全风险评估,使用基于数据挖掘的入侵检测系统,提升潜在异常采集的识别。

④数据脱敏

脱敏让敏感数据既不被泄露又保证数据可用性的特性。随着脱敏算法、脱敏能力及脱敏性能的进步,脱敏技术在精确识别敏感数据时,还要提升数据脱敏的智能化。基于人工智能的敏感数据自动识别、异构大数据脱敏、智能自适应脱敏算法等都是数据脱敏研究的热门方向[3-4]。

⑤差分隐私

差分隐私保护是通过加噪来抵御差分攻击[5],既可用于数据收集阶段也可用于信息分享阶段。小米公司运用差分隐私保护用户的真实数据,Google 利用本地化差分隐私保护技术从浏览器每天采集千万用户行为统计数据。

图1 采集阶段大数据安全策略

2.2 传输阶段大数据安全分析

1)安全风险分析

大数据传输的数据量大、产生速度快,容易产生传输网络拥堵、节点故障等问题,导致传输安全性、实时性和稳定性较差,影响大数据分析处理的时效性和准确性。大数据传输安全体现在内部和外部安全:内部安全指在整个传输过程中传输介质的物理安全性和网络稳定性,保证数据完整、可用;外部安全要求能防御外来非法攻击(传输信道干扰、拦截攻击等)。

2)数据安全保护策略

已有从优化传输模型、数据加密、网络隔离等方面研究大数据安全传输的成果,如:基于同态哈希认证的大数据安全传输[6]。大数据安全传输应在优化响应时间、吞吐量等传输性能指标的同时升级安全传输策略。

①身份识别

传输层对接的客户端比较多,传输数据之前一定要做好身份识别。

②优化传输策略

针对已安全分级的数据,依级别采取不同的优先安全传输策略,达到既缓解传输压力又保障安全传输的目的。

③量子通信

量子有量子态不可克隆、不确定性、量子态测量坍塌的特点,通过量子密钥分发、量子密钥中继、经典量子波分复用等技术实现量子加密传输,保障传输的绝对安全。所以,量子通信的保密性强、鲁棒性高、速率快、容量大、远距离传输等优点助力大数据实现安全传输。

④边缘计算

它是将计算、存储、网络和应用服务功能分散到靠近数据源的边缘设备上,以便本地处理和分析数据,提供最近端服务。核心是为了产生更快的网络服务响应,满足实时业务、安全与隐私保护等方面的需求。利用边缘计算可一定程度上缓解大数据的传输负荷,提高大数据传输可靠性和安全性。

图2 传输阶段大数据安全策略

2.3 存储阶段大数据安全分析

1)安全风险分析

大数据存储的核心任务是存储和管理数据,保障数据不丢失、不泄露、不被篡改以及服务不中断,处于大数据生命周期中的核心位置。存储安全是大数据安全的重中之重。

①存储方式的安全机制不完善

大数据存储方式主要有分布式系统、NoSQL数据库和云存储。NoSQL 主要以提高海量数据的处理速度和扩展性为主,而内部安全机制尚不完善,诸如授权过程、身份验证和输入验证等[7]。云存储中因用户数据管理权和所有权分离,数据安全和隐私保护是云存储的难题。

②存储性能与安全间的矛盾

大数据存储系统不但要考虑数据的安全可靠、系统的备份和还原能力,还要优化检索效率、搜索响应时间等性能指标。加密技术可保障大数据存储数据安全,但也会带来计算负担,造成响应延迟。

③新存储架构中安全策略更新滞后

数据湖、湖仓一体等新型架构的研究为解决“数据孤岛”问题提供了新思路,但因处于发展阶段,其数据安全策略更新略显滞后。若能对数据湖进行访问控制优化,控制力度做到“库表列行”等不同级别,则可避免数据湖退化为“数据沼泽”。

④大数据加密算法的优化

大数据对加密算法要求较高,既要到达安全目标又要保持低耗能和存储效率。若在大数据分布式存储系统中加密信息和相关各类参数不同步更新,将导致数据形态的不对等,影响计算的准确性。

2)数据安全保护策略

存储阶段主要安全技术有设备系统安全、身份认证和访问控制、数据加密、完整性校验、容灾备份等[8],针对大数据存储特性的安全技术还需要更深入研究。

①访问控制

因存在量大、增速快的主客体和外包存储环境,大数据存储授权管理的难度和复杂度呈爆炸式增长,访问控制也在强制访问控制、自主访问控制、基于属性或角色访问控制等基础上不断升级。对于未预先定义的数据访问,既要有严格的访问控制策略又要有自适应调整权限的技术。

访问控制研究成果较多,特别在提高访问控制自动化和自适应性方面:基于区块链的大数据访问控制机制,实现大数据资源自动化的访问控制[9];基于智能合约的访问控制,实现静态和动态访问控制方法[10];基于用户属性的细粒度访问控制,实现用户属性级别的授权和基于可变属性的动态访问控制[11];还有基于大数据分析结果、世系数据、密码学及多技术融合[12]等访问控制。

②提升存储风险的智能识别能力

利用机器学习中聚类、分类优化算法提高数据存储安全等级识别的效率和准确率,建立敏感数据发现引擎。精准定位安全漏洞,提前做好应急保护措施。

③密态数据库

它是存储和管理密态数据的数据库管理系统,核心任务是保护数据全生命周期的安全,并支持密态数据的检索和计算,是数据库系统、加密技术及数学算法深度结合的产物。

④多安全技术融合的存储模型

区块链的可信用性、安全性让更多数据被释放出来,与其他安全技术结合的安全存储模型(基于区块链的安全存储模型[13]、结合区块链和边缘计算的安全存储方案[14]等)可极大降低大数据信用成本。

⑤大数据平台安全技术

大数据平台集成的众多开源技术有内置的安全保护机制。Hadoop开源社区增加了身份认证、访问控制、数据加密等安全机制,HDFS的副本策略保证了系统的高容错性和可靠性。在实际应用中要充分发挥大数据平台的内置安全机制,由内而外保护数据安全。

图3 存储阶段大数据安全策略

2.4 处理与共享阶段大数据安全分析

1)安全风险分析

大数据的价值在于融合与挖掘,只有通过处理和不断流动、共享才能充分释放数据要素价值。批处理、流处理和流批一体混合处理是大数据处理的主要方式,数据开放和数据交换实现大数据共享。该阶段的主要安全风险有:

①内部安全风险(如内部客户或工作人员违规处理数据)和外部攻击(如黑客攻击);

②为提升数据价值和数量进行数据交易和共享,造成数据被二次分析或非法使用,主要表现为数据滥用、数据不可控、隐私泄露等;

③攻击者通过深度挖掘方法对不敏感、隐匿数据进行关联攻击,或利用大数据技术发起高级可持续的威胁攻击;

④机器学习在训练和预测过程中存在隐私泄漏风险,机器学习中安全和隐私问题(如投毒攻击、模型安全、对抗样本攻击等)已引起各界的关注[15]。

2)数据安全保护策略

①隐私计算

它是人工智能、密码学、数据科学等众多学科交叉融合的技术体系,参与方在不泄露各自数据的前提下通过协作进行联合机器学习和分析。在分析处理过程中保持数据不透明、不被泄露,实现“可控可计量”的数据服务新范式,解决数据保密性和共享性间的矛盾。隐私计算主要包括多方安全计算、可信执行环境、联邦学习、机密计算、差分隐私及数据脱敏等。

②联邦学习

联邦学习是包含安全加密、隐私保护技术的分布式机器学习,在满足数据安全需求下帮助多个机构完成大数据的使用和建模,核心思想是“数据不动模型动”。它实现数据“价值”和“知识”的流动与共享,既解决“数据孤岛”“数据垄断”问题又保护数据安全,达到“可用不可见”。

③同态加密

同态加密解决了大数据应用与安全的矛盾,在不泄露敏感信息的前提下完成对密文的处理,即对密文进行特定形式的代数运算后,得到的结果解密后与对明文进行同样的运算结果一样。完全同态加密是不需要密钥就能够实现对密文进行任意操作的加密方案。

④机器学习隐私保护

在机器学习的各个阶段设计基于扰动、加密、安全多方计算[16]的隐私保护方案,形成机器学习的数据安全保护体系。对机器学习全过程中出现的数据投毒攻击、数据窃取攻击、对抗样本攻击和隐私询问攻击,制定相对应的安全防御机制,主要包括:正则化、对抗训练、防御精馏、隐私保护等。

⑤探索多技术融合的保护方案

大数据处理环节和技术较多,单一安全技术的保护偏好不同、保护能力有限,若整合适当安全技术实现功能互补,可提升整体数据保护能力。如:边缘计算提升用户身份验证;加密和区块链提升数据可信性;数据脱敏技术通过数据失真降低敏感度;差分隐私通过加噪抵抗差分攻击等。

图4 处理与共享阶段大数据安全策略

2.5 销毁阶段大数据安全分析

数据销毁是数据生命周期的最后环节,也是保护数据安全的关键部分,主要面临着数据刻意恢复、销毁不彻底、销毁流程不规范等风险。销毁时参与方也较多,应采取措施防范利用技术恢复数据,特别提防只删除索引而没有删除数据本身的情况。

1)数据安全保护策略

①在技术方面,采用多种大数据专业销毁技术、可信删除技术确保数据被彻底删除,通过专用的数据删除软件、数据清除、物理销毁等方式进行销毁;还可使用数字水印技术,使数据溯源追责有章可循。

②在管理方面,要有严格的删除管理制度、规范的删除审批流程,特别是对删除权限做好严格控制,确保各个节点数据销毁彻底、副本删除不可恢复。

3 基于生命周期的大数据安全架构

大数据应用环境复杂多变,构建基于大数据生命周期的智能安全防御架构,改变传统“发现-分析-处理”攻击威胁的处理模式,实现“难进、难取、难用、难改”的大数据安全保护目标。

1)多层面设计

从技术安全、管理安全、运营安全等方面设计安全措施,全方位确保生命周期每个阶段的数据安全。

2)多技术融入

在数据生命周期的适当环节中融入前沿安全技术,如:隐私计算、可信执行环境、区块链、量子通信、加密算法、访问控制等,提升整个大数据平台是数据安全保护能力。

3)全过程护航

在整个数据生命周期中检测大数据平台的数据流,从安全风险智能识别、预测预警、实时监测、追踪溯源的整个流程设计,做到“事前预测、事中监测、事后追踪”的全过程安全覆盖。

4)法律法规保障

国内有关大数据安全的法律法规虽然已基本形成体系,但还需要在监管对象、监管内容等具体规则方面进一步细化,特别是大数据保护对象、敏感数据定义、数据主体权利、交易要求、罚则等方面。

图5 基于生命周期的大数据安全架构

4 总结与展望

大数据安全保护是一个综合、复杂、不断完善的系统工程,需要技术、管理、制度、教育、标准等方面的协作,也需要数据主体、数据处理者、数据控制者和数据监管者等多方的参与,文章提出基于生命周期的大数据安全架构,不仅关注每个节点每个阶段的安全,还要确保整个大数据生态建设的全流程安全覆盖,达到“全面防护,智能分析,自动响应”的数据安全防护效果。

国内有关大数据安全的基础性、原创性的研究还在继续深入。在实际应用中,不同应用领域中的大数据安全保护体系还要结合具体业务来不断丰富,大数据安全技术的落地实施还要在实践中不断探索与验证。未来,复杂的高维大数据的普遍产生将给大数据安全带来更严峻的挑战。

猜你喜欢

访问控制数据安全传输
混合型随机微分方程的传输不等式
牵引8K超高清传输时代 FIBBR Pure38K
云计算中基于用户隐私的数据安全保护方法
关于无线电力传输的探究
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
ONVIF的全新主张:一致性及最访问控制的Profile A
支持长距离4K HDR传输 AudioQuest Pearl、 Forest、 Cinnamon HDMI线
动态自适应访问控制模型
浅析云计算环境下等级保护访问控制测评技术