基于安全标签的自动分级数据安全防护方案
2022-01-12刘冬兰张方哲王小亮
刘冬兰,张 昊,张方哲,王 睿,王小亮
(1.国网山东省电力公司电力科学研究院,山东 济南 250003;2.国网山东省电力公司潍坊供电公司,山东 潍坊 261000)
0 引言
随着企业信息化的飞速发展,如今数据成为企业非常重要的资产,保护好企业的数据资产成为非常重要的一项工作。电力行业是国民经济的基础产业,是国民经济发展和人民生活极其重要的基础设施之一[1-3]。在实际生产应用场景中,数据面临着众多安全风险,数据泄露事件逐渐增多。仅以2020 年为例,1月电信超2亿条用户信息被卖、3月5.38亿新浪微博用户数据出现在暗网,5 月建设银行泄露5 万条客户信息,11 月圆通速递泄露40 万条公民信息,根据IBM 公布的《2020 年数据泄露成本报告》,企业平均以386万美元为数据泄露买单。诸如此类数据安全事件层出不穷,不难看出数据安全形势依然严峻,数据价值越高,受到的安全威胁越大,因此世界各国都在加强网络及数据安全合规监管,处罚力度也越来越大,欧盟的《通用数据保护条例》处罚额度更是可达企业全球营业额的4%,网络安全法及其司法解释从法律上明确了数据安全法律依据和后果,数据安全法和个人信息保护法也均已形成草案。
经过多年的信息化建设,国家电网有限公司信息系统已全面覆盖电网建设、电网检修运行、营销服务、安全生产等业务领域,有力支撑着公司的核心业务,但仍存在一些突出问题。其一,在能源互联网建设发展过程中,各业务系统数据逐渐向数据中台转移,数据中心模式下海量数据的集中存储带来的数据泄露风险随之加大,在缺乏有效数据安全管理工具的背景下,数据存储、传输、共享等各个环节都面临安全威胁,特别是新技术带来的风险尚不明确[4-6]。其二,网络安全形势严峻,信息系统不断出现了很多新型的oday 漏洞,挖掘分析过程中很容易造成隐私数据泄露,各业务系统面临的安全威胁也不断增多[7-10]。其三,业务系统数据未按照分类分级标准实施,缺乏针对电网的数据全生命周期差异化防护。因此,数据如何实现自动分级安全防护显得相当重要。
提出一种基于安全标签的自动分级数据安全防护方案。以数据为安全防护目标,依据国家电网公司数据安全分级保护要求,通过分级标签的形式对资产进行标识,制定电力数据“完全公开、内部公开、受限访问”三级管控原则,制定能源大数据分级模型,明确数据风险控制点和安全控制措施。围绕数据采集、传输、存储、处理、交换、销毁等全生命周期,根据数据的重要性制定细粒度、差异化的安全防护策略,并在国网山东省电力公司潍坊寿光能源大数据中心进行试点应用。通过设计实现数据安全智能管控平台和大数据安全防护系统,进行自动数据资产发现、数据分级管理和数据资产可视化,通过代理模式实现非介入式数据安全管控,对信息系统、设备和用户的数据访问进行身份鉴别、访问控制和脱敏脱密处理,实现数据全过程安全防护。
1 安全防护相关工作
随着公司各专业对数据共享应用需求不断增长,数据的应用范围和使用人员越来越多,面临的数据安全风险随之增长,数据安全防护措施的不健全、不完备逐渐成为制约数据共享、数据应用的短板。同时,国家近期出台多项数据安全的管理规定和技术标准,有必要进一步加强数据安全,促进数据开放共享、数据价值变现。为完善公司数据安全防护体系,国网山东省电力公司从2019 年开始研究数据安全分级防护机制,牵头编制国网公司技术标准《电力物联网数据安全分级保护要求》,编制《数据安全管理办法》、《数据安全分类分级保护指南》等规范。2020年国网山东省电力公司着手建设数据安全防护技术体系,加强数据分级管理,细化访问控制以及数据脱敏脱密等防护措施,在潍坊寿光能源大数据中心试点应用大数据安全防护平台,实现对能源大数据采集、存储、传输等全过程安全防护。
目前,业界的数据安全防护相关技术主要包括数据安全风险分析、数据脱敏技术及数据防泄露技术等[11-12],国内外网络安全防护及数据防泄露技术已有一定的发展[13-23]。陈驰等人[13]通过将加解密、防泄漏等不同安全工具集成联动,实现了对数据安全管控。赵勇等人[14]设计了一种信息泄露防御模型,通过构建虚拟涉密网络实现了内网敏感数据泄露。另外,很多行业结合企业数据安全防护需求,对数据安全防护体系开展了大量的研究[15-23]。综合国网山东省电力公司数据安全防护研究现状来看,在数据资产保护方面还存在以下问题。
在数据管理方面,缺乏适用于能源大数据的数据分级管理机制。国家电网有限公司制定了电力数据负面清单,明确了电网数据的共享分级原则。但是,能源大数据接入了大量政府数据、其他能源单位数据,无法照搬该标准进行分类分级,亟须参考电网数据分级原则,制定能源大数据的共享负面清单,明确安全防护策略。
在数据保护方面,一是缺乏统一的身份鉴别机制。能源大数据中心的数据来自多个源头,开放对象有多种主体,包括政府、企事业单位甚至个人等。需要建立统一的身份鉴别机制,对数据交换的不同系统、服务、设备等进行统一的认证和数据授权。二是缺乏细粒度访问控制。目前大数据平台安全访问控制主要分为网络层和应用层,网络层基于防火墙控制,应用层基于数据库账号控制,多个系统或者工具可能使用相同的账号访问数据库,缺少端到端的细粒度访问控制。三是缺少脱敏脱密防护措施。数据共享交换和使用过程的脱敏脱密需要人工介入,缺少公用的动态脱敏脱密措施,静态脱敏脱密措施不足以支持数据在线传输保密需求,加大了挖掘分析中隐私数据泄露风险。
在安全审计溯源方面,一是缺乏细粒度审计。数据交互审计依赖各系统的业务日志和数据库日志,缺少统一的管控系统记录数据存储、传输、使用等全过程日志,无法进行细粒度的关联分析和安全审计,不利于及时发现数据安全风险。二是无法对数据溯源。缺少统一的管控系统记录数据存储、传输、使用等全过程日志,无法完整追踪数据流转的各环节和责任人,无法支持数据安全事件的追踪溯源和隐患排查。
2 基于安全标签的自动分级数据安全防护方案
2.1 大数据安全防护系统设计
大数据安全防护系统实现对企业数据进行有效安全防护,实现企业敏感数据的加密、脱敏保护、行为审计、风险预警等能力。大数据安全防护系统部署于数据库与应用系统之间,在系统防护层面可实现数据脱敏、数据防泄露、访问控制、数据加密等保护措施,可通过查询数据的分类分级标签,并在表或字段上设定数据分级安全策略,进一步实现按数据分级保护。
大数据安全防护系统包括适配层、防护层、管理层,总体架构如图1所示,部署架构如图2所示。
图1 大数据安全防护系统功能架构
图2 大数据安全防护系统部署架构
适配层为大数据安全防护系统提供接入接口,支持HIVE、HDFS等典型Hadoop组件。
防护层是大数据安全防护平台的核心,实现对数据进行加密、脱敏、防泄露、审计等功能,实现对企业数据的安全防护。
2.2 数据安全智能管控平台设计
数据安全智能管控平台通过对敏感数据进行分类分级管控,有效监控敏感数据的流向。
数据安全智能管控平台包括数据采集层(数据管控层)、存储处理层、数据分析层、数据安全应用层,总体架构如图3所示。
图3 数据安全智能管理平台总体架构
数据采集层是提供数据安全智能管控平台的数据源,包括数据资产发现、数据风险监测、数据流量审计、第三方导入等功能。
存储处理层实现对采集层采集到的数据进行存储及预处理,包括对数据进行标准化处理,对重复数据进行去重,对确实数据进行补全等操作,为数据挖掘分析提供标准化的数据,从而为数据安全智能管控平台提供数据支撑。
数据分析层实现对数据全生命周期使用过程提供全面的数据支撑,包括数据安全事件分析、数据风险分析、用户行为分析等功能,可实时监控数据的流转过程,实现数据的全方位链路追踪。
数据安全应用是企业对数据的上层业务应用,包括数据资产态势、数据风险态势、数据安全管控、数据安全运营等功能。
2.3 数据分级方法及数据保护策略制定
在制定基于标签的分级策略前,需要定义实体标签,包括用户标签、数据标签、账号标签、应用标签、设施标签等。标签又可以包括多个属性字段,例如,用户标签又可以包括用户ID、工号、姓名、性别、邮箱、部门、职位等信息;数据标签可包括数据ID、数据名、数据大小、数据所有者、数据使用者、数据类型、数据密级、保密期限等。
基于安全标签的自动分级数据安全防护技术方案中,数据分级是很重要的首要基础步骤。首先通过梳理数据资产,摸清数据家底,明确存在的数据安全风险;然后结合电力数据分级规范以及数据共享负面清单,明确能源大数据中心数据安全分级(完全公开、内部公开、受限访问3 级),其中完全公开是指对内对外都可以公开是数据,内部公开是指对公司内部可以公开但是不能对外部公开,受限访问是指对内对外都不能公开需要申请才能访问的数据,图4是基于标签的数据安全分级示例。随后,根据每一级别数据的安全防护需求,制定相应的加密、脱敏、访问控制等安全防护策略;最后通过利用数据安全分级标签,落地数据全过程安全防护策略,实现对能源大数据中心数据的差异化安全防护。图5 是根据数据安全三级标签制定的数据保护策略,针对不同的数据级别,从数据加密、脱敏、防泄露、标识标签、备份容灾、鉴别授权、记录审计方面制定了相应的数据保护策略。
图4 数据安全分级示例
图5 数据保护策略制定方法
2.4 基于标签技术的数据安全防护
2.4.1 基于数据标签的授权控制过程
基于数据标签的授权控制过程如图6 所示,基于安全元数据信息,通过数据标签技术将数据与其分类、密级、共享范围等安全控制信息相结合。在数据的共享、发布、使用过程中,可基于标签属性进行细粒度的授权、控制,较传统的基于网络通信协议、接口及应用协议的方式能达到更符合数据中台需求的控制效果。
图6 基于数据标签技术的数据授权控制过程
2.4.2 基于数据安全标签的统一安全策略流程
基于数据安全标签的统一安全策略流程如图7所示,基于数据分类分级定义数据全生命周期的数据安全策略,实现特定类型、级别的数据只能被特定级别范围的组织(人员)、应用使用,只能在特定级别范围的设备上存储或流转。
图7 基于数据安全标签的统一安全策略流程
通过以成熟的标签技术为基础,对业务系统中的数据进行标签的生成及识别,以验证数据标签技术的应用可行性。
2.4.3 基于安全标签的自动分级数据安全防护架构设计
由于传统典型业务系统面临的风险主要包括未进行数据分类分级不满足合规性要求,缺乏细粒度的访问控制及全流程审计、数据溯源困难等。提出的基于安全标签的自动分级数据安全防护架构中,在传统业务应用服务器和数据平台之间增加部署了大数据安全防护系统及数据安全智能管控平台。系统采用的物理部署如图8所示。
图8 物理部署
基于安全标签的自动分级数据安全防护架构如图9 所示。数据安全智能管控平台通过下发标签策略至大数据安全防护系统,大数据安全防护系统通过扫描进行数据发现,并根据定义好的分级要求自动化为数据打上安全分级标签;对访问能源大数据的用户、应用提供统一账户管理、统一访问授权。针对系统中的敏感数据,大数据安全防护系统可对敏感数据进行加解密及脱敏防护,当敏感数据流出系统时,会自动对非法行为进行检测并阻止,防止重要数据信息泄露,实现了基于数据安全标准的分级数据防护。
图9 基于安全标签的自动分级数据安全防护架构图
3 实验及具体应用
考虑到电网数据应用的丰富性,深入研究了基于安全标签的自动数据分级数据安全防护技术,并将其技术应用到国网山东省电力公司潍坊寿光能源大数据中心进行数据安全防护试点验证。通过从数据访问控制、数据脱敏、数据加密等方面对能源大数据中心的业务系统数据进行了数据安全防护验证,实现数据全过程全方位的安全防护。
3.1 寿光能源大数据中心数据安全防护平台总体部署架构
在国网山东省电力公司潍坊寿光能源大数据中心进行数据安全分级防护验证实验中,通过在能源大数据中心Hive 数据分级和管控功能展示基础上,将针对寿光的全量MySQL/Hive 数据进行分级梳理,引入数据指纹识别,并收集相应数据,达到全面的方案化落地。数据安全防护平台总体部署架构如图10所示。
图10 数据安全防护平台总体部署架构
实验通过针对潍坊寿光能源大数据中心各级数据制定加密、数据脱敏、追踪溯源、防泄露等安全策略,在寿光能源大数据中心开展数据安全分级防护落地应用,实现对外部能源数据、本地数字产品结果数据和电网数据的全面安全防护,确保在数据分析、共享交换时严格落实数据分级保护要求,数据安全可控、能控和在控。
3.2 数据访问控制验证情况
大数据安全防护系统对传统数据库和大数据平台组件的访问行为,主要从账号管理、认证管理、授权管理、日志审计4 个维度进行相应的访问控制。通过在安全管控平台中对账号、授权关系和审计日志等进行集中管理,采用Kerberos 认证方式,大数据安全防护系统负责进行账号创建,同步至Kerberos 认证服务器用于进行访问认证。
系统能够实现数据访问的单点认证服务,用户通过业务系统、管理人员对大数据系统的所有操作均由大数据安全防护系统转发给实际大数据系统。通过定义数据标签制定分级策略,设定访问控制分级策略。大数据安全防护系统结合数据访问策略对用户的请求进行分析,并选择放行、阻断、审计等操作。实验中,图11 展示的是合法授权用户可以正常访问明文数据,图12 展示的是平台执行访问控制策略后,未授权用户不允许访问“受限访问和内部公开数据”级别数据。
图11 合法用户正常访问受限数据
图12 非法用户无法访问受限数据
3.3 数据脱敏实验验证情况
能源大数据中心主要业务是通过对大量数据进行挖掘、分析之后形成有价值的、敏感度较高的数据,再通过协议或接口提供给其他组件、用户、应用调用。从敏感数据安全保护的视角分析,首先对敏感数据访问进行用户鉴权才能提供访问,另外还需对敏感数据进行细粒度脱敏,最小粒度应为字段级别。从而可保证用户按需、按权限访问到特定数据。
大数据安全防护系统具有动态和静态脱敏两种方式。动态脱敏功能根据不太的访问用户及权限,在线返回不同的数据。动态脱敏功能通过系统设定的负面清单自动发现需要脱敏的数据。针对不同来源的敏感数据可采用不同的访问策略,利用系统设定的脱敏算法和脱敏规则,可灵活实现差异化的脱敏。图13 展示的是数据脱敏之前授权用户可以查看原始内容,均是真实数据。图14 展示的是执行脱敏策略后,显示的都是仿真数据。
图13 脱敏前数据
图14 脱敏后数据
3.4 数据加解密验证情况
能源大数据中心接入多个外部单位数据,针对敏感数据或者根据数据所属单位要求进行加密存储,保证数据被安全存储,只有合法用户才能访问到明文数据。大数据安全防护平台具备数据透明加密功能,通过利用SM4等国密算法,对各种非结构化和结构化的数据进行加解密。图15 展示的是加密前数据都是明文数据;图16 展示的是制定数据分级加解密策略后,数据显示了一串加密字符。
图15 加密前数据
图16 加密后数据
4 结语
针对电网企业数据安全防护问题,基于数据安全标签设计并实现了一套数据安全自动分级防护工具,包括数据安全智能管控平台和大数据防护系统两个子系统。该工具具备数据资产视图、自动数据资产发现、数据分级分类管理、数据标签管理等多种功能,提供自动化的分类分级服务,实现了对电网企业数据进行自动打标签及分类分级安全管理。目前,基于安全标签的自动分级数据安全防护平台已经国网山东省电力公司潍坊寿光供电公司能源大数据中心实施运行,取得了良好的应用效果。平台实现了对潍坊寿光能源大数据中心导出的各类测试业务数据进行自动分级和标注,通过人工对300 多张表中的14张表进行核对抽查,分级标注准确率达到90%,再调整系统匹配参数后,准确率达到100%。在安全可控的情况下,实现各应用系统数据在数据中心内部与外部的安全流转和共享,实现数据全生命周期的可信、可管、可控、可追溯的目标。