面向大数据环境下的数据安全治理技术*
2022-01-25张锋军曾梦岐李庆华牛作元
许 杰,张锋军,陈 捷,曾梦岐,李庆华,牛作元
(中国电子科技集团公司第三十研究所,四川 成都 610041)
0 引言
《中华人民共和国数据安全法》(下文简称:数据安全法)的正式发布标志着数据安全已经上升至国家战略高度,数据已经成为国家基础性战略资源,没有数据安全就没有国家安全。数据安全法指出:“维护数据安全,应当坚持总体国家安全观,建立健全数据安全治理体系,提高数据安全保障能力。”
数据安全治理[1-3]是以“让数据使用更安全”为目的,在中国易于落地的数据安全建设的体系化方法论。数据安全治理的核心内容如下文所述。
3 个需求目标:数据安全保护(Protection)、合规性(Compliance)、敏感数据管理(Sensitive)。
(2)核心理念:分类分级(Classifying)、角色授权(Privilege)、场景化(Scene)。
(3)数据安全治理的建设步骤:组织构建、资产梳理、策略制定、过程控制、行为稽核和持续改善。
(4)核心实现框架:数据安全人员组织(Person)、数据安全使用的策略和流程(Policy&Process)、数据安全技术支撑(Technology)。
随着信息化和数字化的发展,以及数据安全法的推动下,越来越多的政府部门、企事业单位、金融机构、能源集团、运营商等各行各业,对数据安全合规的需求急剧增加,纷纷开始了数据安全治理体系的建设和探索之路。本文结合数据在实际应用中数据面临的安全风险[4-5]和用户的安全需求给出了一种面向大数据环境下动态防御的数据安全治理架构,并对该架构下的关键技术[6]进行了研究,以满足数据的合规使用以及数据在使用中的安全防护需求。
1 数据安全风险
1.1 数据滥用风险
在大数据环境下包含了不同等级的数据,特别是敏感数据的分类分级。如果普通数据和敏感数据界定不清晰,将无法实现数据安全保护的精细化管控。数据的粗管粗放,将会出现“一管就严、一松就乱”的局面,如各类数据存在越权使用的情况,部分用户操作和使用超过自身权限的数据,还存在数据接口开发不规范的情况,交互行为未进行严格控制,部分非业务需求的敏感数据可以跨系统访问和交互。
1.2 数据泄露风险
数据使用者安全意识不足,违规或不当操作会泄露敏感数据,如存储介质滥用、违规传输、违规共享等。数据使用者还可能被引诱或收买,在日常工作任务中主动收集、隐藏和转移敏感数据。
1.3 数据窃取风险
外部间谍组织或其他国家网络空间部队,长期潜伏在网络空间中,使用高级持续性威胁(Advanced Persistent Threat,APT)攻击、间谍软件、监听等技术窃取国家重要战略数据和关键技术信息,以及黑客组织或个人出于技术炫耀和利益窃取重要敏感数据。
1.4 数据伪造风险
数据在使用和传输过程中被非法篡改,导致数据失真,如果涉及重要技术指标或控制指令可能会造成非常严重后果。
1.5 数据破坏风险
使用数据破坏性恶意软件或工具,对数据进行加密、删除、覆盖、粉碎等操作,破坏敏感数据完整性和可用性。
2 数据安全治理架构
2.1 数据安全治理架构设计原则
根据数据安全治理的概念,数据安全治理核心理念可以理解为在数据生命周期过程中,以数据为中心,以分类分级为基础,以安全策略为驱动,通过权限管控,确保数据在各类场景下使用的安全。在该理念下,数据安全治理架构设计原则[7-8]应包含以下几点。
2.1.1 数据分类分级
数据分类分级[9-10]是数据保护的核心基础,只有对数据进行有效分类,才能够避免一刀切的控制方式。在数据的安全管理上采用更加精细的措施,使数据在共享使用和安全使用之间获得平衡,并对数据全面摸底,进行数据资产梳理、敏感数据发现及梳理、数据资产分级、用户及敏感资产权限梳理。
2.1.2 细粒度权限管控
数据在分类分级后,应明确数据的访问角色和使用方式,针对不同的角色赋予不同的访问权限。数据细粒度权限管控是一种精细化的访问控制行为,目的是限制主体对于客体的访问,防止主体对客体的任何资源进行未授权的访问。对大数据而言,访问控制不仅要防止非法用户对数据资源的恶意获取访问及篡改,而且要控制合法用户的越权访问和越权操作。
2.1.3 场景化安全策略
大数据环境下,不同的业务有不同的需求,各类业务根据业务特点、使用需求适应不同的使用场景。应根据不同的场景进行针对性地制定数据安全防护策略,即应将业务人员分为不同等级以及不同的角色,按照“数据访问最小化原则”,在不影响业务正常开展的前提下,从时间和空间维度对用户和数据行为进行约束。
2.2 数据安全治理架构设计
遵循上述的数据安全治理架构设计原则,在该原则的基础上结合用户实际需求设计数据安全治理架构,如图1 所示。
图1 数据安全治理架构
图1 中的数据安全治理架构以数据分级分类、授权管理、数据安全策略、统一审计、统一身份认证、人工智能等技术为基础,构建包括数据梳理、行为分析、威胁分析、态势感知、追踪溯源、评估优化等主要能力的大数据安全治理体系。该体系体现了动态防护的理念,能够作为大数据动态防御体系[11-15]的重要组成部分,为实现动态防御能力提供支撑。
3 数据安全治理关键技术
本文基于上述的大数据安全治理架构,梳理出了大数据环境下数据安全治理的5 个关键技术,如图2 所示。
图2 大数据安全治理技术
3.1 数据安全风险主动感知技术
数据安全风险主动感知技术是从多维度、全方位进行数据收集,并利用数据行为分析、内容分析、全流量分析技术对安全风险进行主动发现和感知。
数据安全风险分析技术架构包含两个层次,分别是数据层和算法分析层,如图3 所示。其中,算法分析层一般运行在实时流处理、近线增量处理、离线批量处理的大数据计算平台上。
图3 数据安全风险主动感知技术架构
数据层负责对各类分析所需数据进行采集和预处理。采集数据包括:安全类数据(防火墙、入侵检测、病毒查杀、前置机、数据库防火墙等)、用户类数据(用户权限、用户行为等)、数据资产类数据(数据属性、数据分级分类、数据共享等)、流量行为类数据(网络流量、数据流量),采集后的数据经过抽取-转换-加载(Extract-Transform-Load,ETL)处理后,按照算法分析层的要求为各类算法提供分析数据包,形成的算法包主要为数据实体和用户提供安全风险监测。
算法分析层主要包括在线分析处理(实时流处理)、分析建模(近线增量处理)和离线分析(离线批量处理)3 类时效分析。分析算法主要包括特征统计学习、动态行为策略、时序前后分析3 类。其关键技术包括基线及群组分析、异常检测、安全知识图谱和强化学习,具体如下文所述。
(1)基线及群组分析。通过历史策略,构建群组分析,可以跨越单个用户或实体的局限,发现更大的事实,易于进行异常检测;通过概率评估可以降低误报,提升信噪比;通过组合基线分析、群组分析,可以构成全时空的上下文环境。
(2)异常检测。该技术专注于发现统计指标异常、时序异常、序列异常、模式异常等异常信号。采用的技术包括孤立森林、K 均值聚类、时序分析、异常检测、变点检测等传统机器学习算法;也可以利用深度学习技术,包括基于变分自编码器(Variational Auto Encoder,VAE)的深度表征重建异常检测、基于循环神经网络(Recurrent Neural Network,RNN)和长短时记忆网络(Long Short-Term Memory,LSTM)的序列深度网络异常检测、图神经网络(Graph Neural Network,GNN)的模式异常检测等。
(3)安全知识图谱。知识图谱已经成为人工智能领域的热点方向,在网络安全中同样也有巨大的应用潜力。知识图谱可以从事件、告警、异常、访问中抽取出实体及实体间关系,并构建成一张网络图谱,任何一个事件、告警、异常,都可以集成到网络图谱中,从而直观、明晰地呈现多层关系,能够让安全分析师近似真实地复现攻击全过程,了解攻击的路径与脆弱点,评估潜在的受影响资产,从而更好地进行应急响应与处置。
(4)强化学习。不同客户的环境数据源具有多元性及差异性,以及用户对异常行为的定义各有不同,因此,数据行为分析需要具有一定的自适应性,做到“入乡随俗”输出更精准的异常风险。强化学习能够根据排查结果自适应地调整正负权重反馈给系统,让整体效果持续优化改进,进而得到更符合客户期望的风险评分。
3.2 统一访问控制与数据安全策略管理技术
如图4 所示,统一访问控制与数据安全策略管理技术包括服务端与客户端。服务端通过资源发现功能实现资源的管理和生成,并依据基于属性的访问控制安全策略进行判决,从而对数据进行管理,并基于资源和访问控制实现数据安全策略的定制和下发,客户端从服务端获取数据安全策略。
图4 统一访问控制与数据安全策略管理技术架构
数据安全策略采用3 级结构模式,将组织中非常复杂的技术性数据安全策略由粗到细进行实现。第一级是权限控制策略,第二级是分级分类保护策略,第三级是数据防泄漏策略。
统一访问控制与数据安全策略管理技术进行访问权限的统一管理和下发,业务系统和数据库防火墙通过调用应用程序接口(Application Programming Interface,API)接口,实现访问判决功能。统一访问控制与数据安全策略管理技术将访问权限推送至对应的业务系统进行本地缓存,实现高效的本地权限查询、匹配和判决功能。
3.3 业务行为分析与安全监控技术
如图5 所示,业务行为分析与安全监控技术在业务系统关键数据访问和处理点位上,采集系统行为上下文日志与数据流转信息。经过数据采集、数据清理、数据集成、数据转换、数据规约、数据存储和结果展示等步骤,实现业务系统操作日志的采集、存储、查询、审计、可视化和聚合分析等功能。同时,使用状态机建模技术、频繁序列挖掘技术和异常检测技术等关键技术对业务应用过程中行为活动上所表现出来的规律进行归纳和总结,建立正常业务行为基线,实现基于行为基线的异常行为分析、监控和异常上报等功能。最终达到对各个业务系统的提供安全保障,发现潜在安全威胁和预警的目的。
图5 业务行为分析与安全监控技术架构
在数据采集层方面,以数据采集、数据清洗、数据集成、数据转换和数据规约等技术为支撑,形成数据采集技术,完成底层数据来源的引接与采集。在数据存储层方面,以数据管道、热存储和冷存储等技术为支撑,并融合分布式队列、分发网络、检索引擎、关系型数据库、文件存储和对象存储等关键技术,确保采集数据的安全存储。在数据计算层方面,主要运用了数据查询技术、数据聚合技术和并行计算技术,确保分析数据的时效性和准确性。最后在状态机建模技术、频繁序列挖掘技术和异常检测技术的支撑下,实现业务系统行为分析智能判断,并融合数据可视化技术,对分析告警结果进行有效展示。
3.4 数据安全风险评估与策略调整技术
如图6 所示,数据安全风险评估与策略调整技术在数据风险分析感知的基础上,对风险感知信息进行综合评估,将评估后的结果、应用场景、策略执行反馈信息等多维度信息作为输入,通过环境(environment,E)、风险(risk,R)、主体(subject,S)、客体(object,O)、行为(act,A)五维度防御策略调整模型给出策略调整建议。
图6 数据安全风险评估与策略调整技术架构
3.4.1 综合风险评估引擎
由于多维风险检测往往是异常检测类型的弱指示器,在实际部署过程中,会出现误告警事件,而真正的检出问题往往淹没在大量无关的告警中。为了解决这个问题,可以使用打分技术,针对每个用户,给出综合的风险评判分数或等级,直观地呈现给管理者,从而可以更好地聚焦发现真正的安全风险,提升风险预警的实用价值。
风险综合打分机制通常主要由算法、优化策略和阈值设定3 部分组成。
(1)算法
基于机器学习的方法主要是使用贝叶斯网络、高斯核分布等方法,对直接带权累加的方案进行优化。深度学习的方案则需要先针对预先设置的时间段对时间做编码(encoding),然后使用长短时记忆网络(Long Short-Term Memory,LSTM)模型进行分数预测。
(2)优化策略
优化策略包括对于数值的归一化处理,以及从计量策略上的优化,比如历史分数按照时间的推移,对风险等级的影响程度逐渐变小,总体分数按照事件数量有一定的衰减吗,利用贝叶斯网络根据事件实际分布动态调整权重等。
(3)阈值设定
风险综合打分引擎的输出是针对每个用户/账号的风险分数,需要结合相应的阈值,来判断用户的风险等级。通常,阈值的设定有人工设定、按环境变量动态变化或者根据历史分数的预测值进行判断3 种方法。
3.4.2 策略调整模型
策略调整模型以风险综合分析评估后的结果、应用场景、策略执行反馈信息等多维度信息作为输入,通过五维度防御策略调整模型给出策略调整建议。五维度具体为:环境(environment,E)、风险(risk,R)、主体(subject,S)、客体(object,O)、行为(act,A)。集合(E,R,S,O,A)是一个基本要素集,在实际的评估过程中,可根据需要对维度要素进行扩展。
模型将风险综合分析评估后的结果作为模型中的风险信息(R),应用场景信息作为环境信息(E),策略执行反馈信息作为行为信息(A),主体(S)为用户或数据,客体(O)为用户或数据,构建五维调整判断向量,按照设定的权值得出最终策略部调整建议,权值设定主要有人工设定、风险评定结果动态变化或者根据历史分数的预测值3 种方法进行设定。
3.5 数据安全风险追踪溯源技术
数据安全风险追踪溯源技术通过采集数据全生命周期的行为日志,构建数据数量分布情况信息库、数据等级分布情况信息库、数据使用情况信息库以及数据血缘关系库;以数据标签为基础,将数据标签与数据结合并贯穿于数据整个生命周期;利用大数据综合关联分析及机器学习对数据行为进行分析并实行监管;提供对已知和未知的数据安全威胁事件在事前、事中、事后的规避、发现和解决以及追踪溯源等功能,为大数据安全提供动态闭环的智能化治理能力。数据安全风险追踪溯源技术架构如图7 所示。
图7 数据安全风险追踪溯源技术架构
如图7,数据安全风险追踪溯源技术首先通过数据资产的自动识别与发现和数据资产血缘分析,实现对数据资产全体系、全谱系的统一梳理。其次,基于数据资产构建以任务为中心的数据物理拓扑和逻辑拓扑,并基于任务、用户、数据资产的上下文数据,利用机器学习和人工智能,动态构建面向任务和用户的数据行为基线,通过数据行为基线可进行异常行为检测。最后,通过基于人工智能的追踪标识和内容标识学习和标记,以及通过基于机器学习的追踪标识跨域更新技术对多源异构数据(结构化、半结构化、非结构化)进行追踪标识和内容标识,实现全路径数据追踪溯源。
4 结语
数据安全治理是数据安全保护的一种思路或体系,是一种将数据安全技术与数据安全管理融合在一起,并综合业务、安全、网络等多部门多角色的诉求,系统化总结归纳的方法。本文从技术的角度,围绕数据安全治理的核心理念,给出了数据安全治理体系的架构,并对该架构下的关键技术进行了梳理和研究。本文提出架构和方法体现了数据安全治理的先进性和实用性,能够为相关的研究提供指导和借鉴。