面向动态防御的大数据安全技术研究
2021-12-14张锋军李庆华牛作元
许 杰,张锋军,陈 捷,李庆华,牛作元,石 凯
(中国电子科技集团公司第三十研究所,四川 成都 610041)
0 引言
随着信息技术的快速发展,人类的生产生活与信息技术交汇融合的程度也越来越深。在融合的过程中,各类数据呈现指数级增长的特点。这些海量数据在聚集的过程中,对经济发展、社会治理、人民生活都产生了重大而深刻的影响。与此同时,数据安全也成为事关国家安全和经济社会发展的重大课题。《中华人民共和国数据安全法》的正式发布标志着数据安全已经上升至国家战略高度,数据已经成为国家基础性战略资源,没有数据安全就没有国家安全。
当前,各类海量数据呈现出主体多样化、处理活动复杂化的特点。大数据环境下,数据除了面临传统的安全威胁外,还要面临诸多新型安全威胁。传统的安全手段及体系呈现出的单点、静态、被动防护的特点已不能有效应对大数据环境下的安全威胁。大数据的安全防御需要从大数据的流转复杂、关联融合、蕴含价值等特点入手[1],面向攻击手段多样、攻击程序不断更新迭代的新型安全威胁,围绕数据全生命周期提供动态防御能力。在这种背景下,安全防御技术及体系需要从单点、静态、被动防护向全面、动态、主动防护转变[2-4]。
1 大数据安全风险分析
大数据除了面临传统安全威胁以外,同时还要面临新型的安全威胁。
1.1 海量数据流转复杂化使得数据泄露风险增大
随着信息化建设持续推进和技术不断发展,数据呈现爆发式增长,同时各类应用系统也呈现出多样化特点,使得数据的流转更加错综复杂,导致数据暴露出更大的攻击面。此外,由于数据平台支撑的业务应用多种多样,对外提供的服务接口千差万别;因此,攻击者有机会通过服务接口攻击大数据系统,而如何保证多种服务接口的安全也成为大数据平台面临的极大挑战。
1.2 攻击手段多样化使得传统安全手段防护效果甚微
大数据在全生命周期过程中呈现出数据动态化、密级多样化、权属复杂化、使用实时化、价值最大化的特点,这些特点导致了大数据环境下的攻击手段多样化。攻击程序不断更新迭代,使得大数据在全生命周期过程中被窃取、被滥用、被篡改的风险不断增大。传统的安全手段及体系呈现出单点、静态防护的特点,在应对大数据环境下的安全威胁时会出现防护效果不佳,甚至失效的情况,也为数据安全威胁的追踪溯源带来了更大的挑战。
1.3 大数据价值高导致数据更易遭受攻击窃取
大数据经挖掘分析后能产生具有极高价值的数据产品,这些产品能够为经济、社会、国家战略等活动提供决策支撑;但与此同时,大数据产品极易吸引内部非法人员的攻击窃取。这类攻击呈现出长期潜伏、难以发现的特点,现有态势感知及应急处置等协同防御手段无法有效应对此类威胁,更无法有效发现未知威胁,使得高价值数据面临巨大的安全风险。
2 大数据安全需求分析
2.1 大数据体系化防护需求
大数据系统及平台的可靠、安全运行是信息系统运行的重要基本保障,但也往往成为对手首要攻击对象。数据对经济决策、社会治理、国家安全等活动具有重大意义,其安全的重要性不言而喻。近年来发生的由于内部管理不规范导致的斯诺登事件,美军士兵运动信息被收集导致美军事基地暴露,剑桥数据分析公司恶意影响美国总统大选等,证明网络空间对抗的日益常态化、高级化、复杂化,也暴露出单纯使用漏洞移除、打补丁、访问控制、边界防护等传统安全防护技术的网络空间静态防御难以预防动态的内外部复杂攻击,需要积极探索大数据安全动态化、体系化防御框架。
2.2 大数据安全综合治理需求
数据来源众多、密级不同,对不同级别数据的管理和防护要求也不相同,为了高效安全使用多来源、多种类、多密级海量数据,充分体现并发挥大数据在各领域价值,需要对大数据进行综合安全治理[5-7]。大数据综合安全治理需要在分级分类基础上,为数据添加属性标识,并根据数据属性进行细粒度全生命周期安全防护。在体系化安全防护中,首先,需制定数据安全防护基线,并对数据安全保密能力进行评估;其次,针对数据共享、数据应用等过程提供多层次安全保密服务,并制定针对不同密级数据的安全防护策略;最后,针对任何可疑数据行为,特别是内部行为提供追踪溯源能力。通过大数据综合安全治理,可为大数据在全生命周期过程中面临的安全威胁提供事前预防、事中发现、事后溯源的体系化安全保密防御能力。
2.3 大数据智能化及动态化体系防护需求
随着云计算、大数据、人工智能等新技术的发展,针对大数据的攻击手段呈现出多样化、自动化、智能化的特点。为有效应对新的攻击手段及新型安全威胁,迫使安全防护手段必须向智能化、动态化防护方向演进。数据在全生命周期流通过程中,访问用户的身份、数据的权属关系、数据的访问行为等都在动态发生变化;因此,安全防护系统需要对用户身份和权限进行动态评估和识别,同时对数据资产也要进行动态梳理,并对数据的访问行为进行动态监控,实现大数据的智能化、动态化、体系化安全防护。
3 大数据安全动态防御模型
基于以上对大数据安全风险的分析,面向大数据动态防御需求,围绕大数据全生命周期活动,通过数据分类分级,构建“梳—管—控—监—评—溯”的动态防御体系模型。在该模型中,通过密码保密、身份认证、数据安全标签、权限管控、日志审计、分级分类、行为分析、流量分析等数据安全支撑技术共同形成数据安全服务增强、数据分级分类保护、数据追踪溯源、数据安全防护能力评估等一系列安全防护能力,构建大数据动态防护体系,提供大数据动态防御能力。
图1 中的大数据动态防御模型是从大数据生命周期和大数据平台两个维度全方位考虑动态安全防护能力,其形成的动态防护流程如下文所述。
图1 大数据动态防御模型
(1)对数据生产者、数据消费者、数据提供者产生的数据进行梳理,重点是按照数据分类分级标准对各类敏感数据资产进行梳理,包括系统信息、人员信息、业务信息等,让数据拥有者或管理者了解自己数据的分布情况。
(2)在数据各类应用场景下,根据数据等级、用户防护需求,制定不同的数据安全防护策略,并将策略分发至各类安全防护设备,防护设备依据防护策略对数据各种流程进行管控,在对各类数据流程进行管控的过程中,应根据用户的权限和数据的属性实施细粒度权限管控,细粒度权限管控应涉及数据平台自身安全、数据源与数据平台间、数据平台与业务应用系统间、业务应用系统与终端用户(数据消费者)间等典型场景。
(3)对数据在生命周期各阶段的行为进行监控,重点对异常数据资产进行监控,并提供数据安全态势感知和态势展示。
(4)对数据行为监控过程中发现的异常行为或威胁进行追踪溯源,将溯源结果和各类安全设备反馈的安全策略执行情况进行综合分析,对数据安全防护效能进行动态评估,并根据评估结果对安全策略进行及时调整。
通过上述过程的循环执行,持续进行数据梳理、策略制定、流程管控、行为监控、溯源评估、态势展现的动态防护过程,能够形成对数据实时可感、可知、可视的动态防护能力。
4 大数据安全动态防御关键技术
近年来,越来越多的科技工作者开始了大数据安全技术的研究,涉及到大数据自身安全和大数据技术应用到安全两方面[8-10],本文提出的面向动态防御的大数据安全技术涉及大数据自身安全,主要包括以下5 个技术路线。
4.1 数据资产可视化分级分类保护技术
针对海量数据及属性难维护、异构数据模型不统一、安全威胁不直观、敏感数据资产可视能力不足等问题,数据资产可视化分级分类保护技术[11-12]根据数据分类分级标准,实现多来源、多种类、多密级、多种安全保密防护要求以及不同网络环境的数据资产的综合管理能力,支撑数据综合安全治理装备体系构建,满足数据在不同应用场景下多密级安全保密策略的动态化、体系化管控需求。数据资产可视化分级分类保护技术主要包括数据分级保护策略自动化生成技术、敏感资产自动化发现技术、多场景数据资产威胁可视化分析处理技术。
4.1.1 数据分级保护策略自动化生成技术
数据在多应用场景下,存在多密级的情况,不同业务的安全防护需求在不同密级情况下要求也不同。针对大数据的多源异构数据,利用数据安全标识,在数据安全基线的基础上,构建统一数据安全模型,自动生成安全防护策略,建立数据安全属性与安全保密能力的连接关系,提供多层次安全防护策略,实现自动化数据安全防护。
4.1.2 敏感资产自动化发现技术
基于数据分类分级标准,研究敏感数据属性分类机制,统一敏感数据结构描述方法,建立统一的敏感数据发现体系。此外,在统一发现体系基础上,实现敏感数据资产及其属性和数据关系的自动发现,全面盘点敏感数据资产,形成敏感数据地图。
4.1.3 多场景数据资产威胁可视化分析处理技术
研究海量异构数据信息在数据生命周期各阶段不同场景下的威胁可视化呈现方式和操作方式,并基于数据分类分级,将数据威胁与敏感数据自动关联,实现敏感数据威胁的高效可视化管控,提升综合安全治理决策效率。
4.2 数据安全风险感知与协同防御技术
面向大数据环境下的各类信息系统和业务系统,通过数据采集、传输、存储、处理、交换和销毁的各个环节存在的各种脆弱性和威胁,研究数据安全风险智能感知、风险评估和协同防御技术[13-15],为大数据动态防御体系提供用于智能化决策的预警信息并制定动态协同防御策略,有力支撑大数据动态防御体系构建。数据安全风险感知与协同防御技术主要包括全态化防御信息采集及行为分析技术、数据安全风险智能识别技术、数据安全态势预测模型和评估指标体系、攻击评估与协同防御技术。
4.2.1 全态化防御信息采集及行为分析技术
从多维度、全方位进行全态化数据收集,研究大数据系统中软硬件、网络、业务多种类信息精准、高效、可动态调整采集方法;并基于采集的数据,构建数据及网络流量的行为特征模型,通过数据通信协议特征、访问行为与访问接口之间的关系,构建流量分析模型和内容分析模型,通过特征学习、关系学习等流量分析和内容识别手段发现隐藏在数据流量中的安全威胁。
4.2.2 数据安全风险智能识别技术
首先,研究并建立一种形式化数据安全风险描述模型,构建大数据环境下数据流经的环境安全风险集;其次,基于粗糙集理论研究数据安全风险筛选规则技术,从安全事件中学习规则,使获得的各安全域的数据安全风险更加贴近真实情况,从而能够准确实时地识别出数据安全风险。
4.2.3 数据安全态势预测模型和评估指标体系
研究大数据环境下安全态势数据采集和统一的信息交互表示协议和标准、系统配置漏洞、运行环境漏洞、目标代码漏洞及其关联环境漏洞,提出对漏洞、违规操作、攻击行为的多维度监测识别手段。研究态势量化评估和预测模型,利用机器深度学习态势评估算法实现安全态势综合评估,基于攻击意图推演实现态势趋势预测和预警。
4.2.4 攻击评估与协同防御技术
针对大数据环境下的恶意行为的攻击阶段、影响范围、威胁程度进行智能化评估,并结合实际情况制定相应的防御措施,分级别、分层次、分范围地对大数据系统进行协同防御策略制定和分发,形成围绕“网络—应用—平台—数据”的协同防御系统,提供大数据系统网络“一处发现威胁,全网协同防御”的能力。
4.3 数据安全服务增强技术
数据安全服务增强技术针对大数据场景下数据安全服务面临的身份仿冒、越权访问、数据监听、恶意攻击等问题,提升大数据服务的身份安全验证能力和数据共享使用时的细粒度访问控制能力,提供数据服务系统配置自动化处理、动态编排、动态调整、快速集成等数据安全增强服务,保证各类敏感数据的合理、安全、保密等共享使用。数据安全服务增强技术主要包括数据服务Web 服务透明加固和细粒度参数保护技术,安全配置自动生成、动态部署及监控技术,安全服务能力在线编排与重构、调整调度、快速集成技术。
4.3.1 数据服务Web 服务透明加固和细粒度参数保护技术
针对数据服务缺乏细粒度管控,数据服务缺乏保护等问题,研究大数据服务场景下的Web 服务透明化加固和参数级管控技术,实现对业务透明的数据加密和参数粒度的数据安全管控。
4.3.2 安全配置自动生成、动态部署及监控技术
研究安全配置自动生成并将目标系统模型自动转化为机器可识读的配置剧本以及安全配置的形式化验证方法,确保配置高层语义满足一致性条件和正确性、安全性要求。研究在编排器和控制器上将高层安全配置剧本按照全局一致性和过渡一致性的约束下执行配置指令及以及系统运行状态与抽象描述一致性监控方法。
4.3.3 安全服务能力在线编排与重构、调整调度、快速集成技术
面向服务节点应用场景的特定需要,通过对基础安全服务按照一定模式流程的顺序关联调用,抑或针对基础安全保密服务的模式化扩展,实现安全服务节点安全服务能力在线编排、重构、调整调度和快速集成。
4.4 数据安全能力综合评估技术
数据安全能力综合评估技术针对大数据环境下的各类数据安全设备和大数据平台等对象实体,按照数据安全动态防护的思路,以数据安全能力动态评估与持续提升为目标,通过对各数据安全设备的数据安全策略执行效果、大数据平台自身安全脆弱性情况,以及数据生命周期重要环节过程控制情况等进行稽查和评估,核实数据安全策略以及过程控制等执行情况,判断各数据安全能力是否充分和有效发挥,达到对各数据安全设备、大数据平台内生的数据安全能力的“可视、可查、可审”的目的,以及优化数据安全防护策略,为数据安全能力持续改进、迭代提升提供支撑。数据安全能力综合评估技术主要包括数据安全能力智能稽查技术、数据安全风险智能评估技术。
4.4.1 数据安全能力智能稽查技术
研究数据安全设备的策略配置、安全配置等数据安全配置基线的智能构建以及实时监控技术,并构建数据安全综合监控模型。
4.4.2 数据安全风险智能评估技术
通过对大数据平台自身安全配置和安全漏洞进行扫描,基于人工智能和机器学习对数据行为综合关联分析,构建大数据安全能力智能评估模型,构建智能评估体系。
4.5 数据安全风险追踪溯源技术
数据安全风险追踪溯源技术针对大数据环境下的数据安全风险存在动态变化的新情况,对数据访问行为监控、全路径追踪溯源以及安全风险根因分析等技术开展研究,实现数据的风险追踪溯源,为安全防御策略制定提供支撑,确保数据全生命周期安全、可控。主要包括多源异构数据行为监控与全路径追踪溯源技术、数据安全风险根因分析技术。
4.5.1 多源异构数据行为监控与全路径追踪溯源技术
研究各类数据形态的数据实体,及数据流转过程中实体之间的依赖关系提取技术,构建数据分布情况信息库、数据等级分布情况信息库、数据使用情况信息库以及数据血缘关系库。以数据标签为基础,将数据标签与数据结合并贯穿于数据整个生命周期,利用大数据综合关联分析及机器学习对数据行为进行分析并实行监管。数据追踪溯源是实现权责分离、数据安全管控的重要基础,基于标识实现数据全生命周期的唯一性,通过对结构化、非结构化、半结构化的数据按照内容属性、安全属性、签名属性等不同视角进行标注,对每个数据的跨域访问进行全路径追踪溯源。
4.5.2 数据安全风险根因分析技术
根据数据流转、调用链等信息流勾勒数据流动画像;利用强化学习、逆强化学习等算法建立根因追溯模型;基于图搜索等根因追溯算法,进行根因定位;构建安全风险根因追溯评估指标,对根因追溯模型及算法准确性进行有效评估;研究基于数据安全风险根因的主动防御系统联动机制,在发生安全风险时能够及时采取对系统影响最小的应对措施进行阻断。
5 结语
本文在分析了大数据的安全风险和动态防御方面安全需求的基础上,围绕数据全生命周期,给出了面向动态防御的“梳—管—控—监—评—溯”大数据安全防御模型,对模型的动态防护流程进行了说明并对模型中涉及的数据资产可视化分级分类保护技术、数据安全风险感知与协同防御技术、数据安全服务增强技术、数据安全能力综合评估技术以及数据安全风险追踪溯源技术进行了讨论和研究。本文提出的思路和方法体现了大数据安全体系化动态防御的先进性和实用性,能够为相关的研究提供指导和借鉴。