基于大数据业务场景的数据安全分析及防泄露技术研究

2020-09-29刘冬兰

山东电力技术 2020年9期

刘冬兰，刘新，张昊，王睿，高通

（1.国网山东省电力公司电力科学研究院，山东济南 250003；2.山东大学，山东济南 250061）

0 引言

随着信息化的快速发展，数据是政府和企业的核心资产的观念已被普遍认可。随之而来，如何保护数据资产成为数据安全的重中之重。电力行业是国民经济的基础产业，是国民经济发展和人民生活极其重要的基础设施之一［1-2］。随着国家电网有限公司电力物联网建设的不断深入，传统的业务应用模式也在发生巨大的变革，数据成为国家电网完成业务使命的重要基础性战略资产［3］。近年来，在智能电网和全球能源互联网背景下，电网信息技术不断发展，各类智能电网业务系统数据集中存储越来越多［4-5］。数据的不断集中，增加了很多的潜在风险，如：攻击目标的集中、数据集中造成的价值集中等，数据安全风险将成为国家电网有限公司未来长期面临的主要问题之一［6］。业务系统数据是组织的重要资产，不仅对智能电网发、输、变、配、用电各环节业务具有价值，同时对电网公司的决策、战略规划都具有重要意义。与此同时，我国信息系统的安全漏洞不断涌现，网络安全形势十分严峻，信息安全事件层出不穷，电力行业的业务系统也面临着严峻的安全威胁［7-10］。电网建设运行过程中产生海量的数据信息，这些数据信息一旦泄露，将泄露电力用户个人信息安全，对电力用户和电力公司造成巨大的经济损失。因此，将数据防泄露技术应用在电网信息化建设运行过程中，可以有效防止数据信息的外泄，确保电网运行数据信息的安全性。

数据安全与传统网络安全最大的区别是，数据安全更贴近于业务应用，其管理建立在数据分类分级的基础上，根据数据的安全级别建立差异化的全生命周期管控措施，以内容管控为主，较传统网络安全管理粒度更细。目前，数据安全相关技术主要包括业务建模分析技术、数据安全风险分析技术、数据标签识别技术、个人隐私保护技术及数据防泄露技术等［11-12］。当前，国家电网公司在数据安全建设方面已经全面开展了体系化建设工作。在传统的网络安全领域，目前已经形成了明确的安全管理规范及方法，可以有效发现网络中存在的潜在风险，但在数据安全方面却缺乏必要的理论依据及方法论，在数据资产管理、数据流转追踪控制、数据风险分析及展示等方面缺乏有效的手段。

为了保障电力物联网的安全可靠运行，必须找到一种通用性方法用于提高网络及数据安全分析的效能。通过对业务系统进行持续的风险评估，找出安全所面临的主要问题，其前提是能够深刻理解业务及其周围环境交互的过程，以及安全防护的效果。目前，国内外网络安全防护及数据防泄露技术已有一定的发展［13-22］。陈驰等人［13］设计了基于分类分级的数据资产安全管控平台，通过将加解密、防泄露、跟踪取证等不同安全工具集成联动、统一配置，实现了对数据资产全生命周期的无缝保护。赵勇等人［14］提出了一种企业内网安全中的信息泄露防御模型，该模型基于密码隔离，利用访问控制和密码技术在企业内网中构建虚拟涉密网络防止内网敏感数据泄露。同时，各个行业结合企业敏感数据防泄露的需求，进行了数据防泄露及信息安全防护体系的探究和构建［15-22］。

为了应对新型网络威胁下的敏感数据泄露，通过研究基于大业务数据场景的数据安全分析及数据防泄露技术，通过对业务系统数据安全建模，将业务的目标、过程、资源和所面临的威胁、脆弱性、安全策略进行结合，设计数据资产防泄露系统原型，以应对当前复杂多变的网络威胁形势。

1 数据安全分析方法研究

1.1 数据资产编目

数据资产是指对国家电网公司有价值的数据，基于国家电网公司数据分类分级规范，建立数据资产编目。数据资产发现、识别、分析及编目过程如图1 所示。

图1 数据资产发现、识别、分析及编目过程

提出的数据资产编目基于主动发现和被动发现过程，通过数据库扫描、服务器扫描、终端扫描、终端监控、网络监控、数据库访问监控等手段，识别各种文件及数据库的元数据信息、内容及格式，并深入分析业务系统的关联性，组织的关联性、数据分布情况及数据分级，最终建立完善的数据资产编目。在当前的技术背景下，数据资产编目，需要通过人工方式进行确认，以确保编目的准确性。

1.2 威胁建模及威胁树技术

本文使用的威胁分析技术是“STRIDE 安全威胁模型”。STRIDE 是被广泛应用的系统安全设计、分析技术，其具备系统化、抽象化的特征，非常适于和统一建模语言（Unified Modeling Language，UML）业务系统建模相结合［23-24］。STRIDE 充分考虑了威胁源（攻击者）在进行威胁行为（攻击活动）时所可能采用的方式。STRIDE 覆盖了假冒、篡改、否认、泄露、拒绝服务和特权提升等多种安全威胁，对应了业务系统所需具备的可靠性、保密性、抗抵赖性、完整性、可用性以及授权等多种安全需要［25-26］。虽然STRIDE 已经覆盖了可能遇到的各种安全威胁，但是由于攻击行为的多样性，需要在STRIDE 的基础上，以威胁树的形式系统地描述数据安全攻击场景。

图2 是存储数据泄露STRIDE 威胁树示例，STRIDE 威胁树的每个树都以实现一种威胁行为为根节点，关注的是第一阶威胁，一旦攻击者通过各种方式达到了威胁树的根节点，即表示攻击行为会实时造成对应的威胁。任何一种通过威胁树的一个或多个叶子节点，最终达到根节点的过程，可以视为一种攻击路径。以威胁树的形式进行安全风险分析，较攻击路径建模具备更高的概括性，可以降低建模难度、提高分析效率。

图2 STRIDE 威胁树示例——存储数据泄露威胁树

但是，并不是所有的威胁都要包含到威胁树中，否则将导致威胁树出现大量的小分支。常见的做法是，对常见的威胁加以展现，非主要威胁则统一归类为“其他”。基于攻击的不可预测的本质，“其他”可以代表未知的所有攻击可能性，这样在技术层面上保证每个树都是“完整的”。通过深入分析系统所面临的可能威胁，通过威胁树的形式将数据安全所面临的各种威胁加以建模，最终形成完善的威胁库，作为数据安全风险分析的基础之一。

1.3 数据安全风险分析及量化

在数据资产编目及威胁建模的基础之上，通过综合判断业务系统所面临的威胁以及系统自身具备的脆弱性及资产价值，通过公式计算数据安全风险R。数据安全分析及量化模型如图3 所示，其中，D 为全网业务系统数据安全风险总和，Di为i 个业务系统的数据安全风险。

图3 数据安全风险分析及量化模型

数据安全风险分析的具体计算方式及公式，需要基于大数据业务系统的实际情况进行研究确定。数据安全风险分析与量化参照了信息安全风险评估模型，对应到数据风险则是数据的重要性、脆弱性和威胁性三要素。根据数据是否涉敏、所在业务系统重要性等评估其价值，按数据在使用、存储及传输等环节的保护或防护措施与程度，是否存在违规操作等因素来评估其脆弱性和威胁性；而数据依附于业务系统，则业务系统的风险就随之而出，全网业务安全风险总值由各业务系统风险分值加权平均。

2 数据标签识别技术研究

数据安全标签基于密码学技术，可以实现非结构化及结构化数据的安全标签能力。可广泛用于数据访问控制、数据血缘分析、数据行为跟踪、泄露数据水印溯源等多种业务场景。

2.1 非结构化数据标签技术应用场景

图4 是一种非结构化数据标签应用场景，采用基于文件指纹的特征识别技术，无须使用密码技术对文件本身进行修改，性能得到大幅提升。而且避免了密码技术对内容修改的敏感问题，在数据内容小幅修改的情况下仍可有效识别。数据安全标签管控中心基于文件指纹、数据资产信息及安全元数据为文档构建唯一的跟踪标签，并通过技术手段与文件绑定。当文件经过数据安全控制措施时，比如：数据防泄露系统，文件标签会被检测、识别，确定其控制规则。合法的传输可根据应用场景的不同，选择采取数据脱敏、加密、访问限制等控制动作。而非法的使用行为会被阻断，并可通过水印溯源、事件告警供管理人员追责。

2.2 结构化数据标签技术应用场景

结构化数据一直以来都是数据价值较高的数据源，如何针对结构化数据进行标签管理也是一直在讨论的问题。图5 是结构化数据标签的应用场景，结构化数据标签可以以数据集、数据记录为单位进行标签绑定。在数据的访问过程中，可基于标签实现数据加解密、数据脱敏、数据访问行为控制等操作。对于非法的数据操作行为可实现阻断、告警，对异常泄露的数据可实现水印溯源。针对结构化数据进行标签管理，通常按照数据源类别的重要性分为文本列和数字列。文本列采用指纹提取的方式对文本列进行内容转换，形成文本数据；再依据自然语言处理的方式对文本列进行归类识别。在数字列的识别过程则采用信息论的方式度量信息的重要度，主要运用概率论与数据统计的方法，从数字符号和数据属性进行标签归类。

2.3 数据自动标注和关联分析

通过采取主动采集和被动采集方式抽取元数据，用自然语言处理和机器学习技术来抽取标签间的语义关系并进行处理。通过业务关联分析、组织关联分析、数据分布分析、数据分类分级等分析能力生成自动标签。数据自动标注和关联分析过程如图6 所示。

图4 非结构化数据标签的应用

图5 结构化数据标签的应用

图6 数据自动标注和关联分析

数据自动标注和关联分析采用了一种面向海量网络资源的启发式集成学习自动语义标注策略，通过研究异构网络中概念性内容及关系在知识表示中的语义映射、加载机理以及深层复杂多元关系的本体自动生成机制，并设计和实现自动语义标注算法及模型。

3 数据防泄露技术研究

3.1 现有数据防泄露技术的缺陷

现有敏感数据防泄露技术方案，通常是使用预定义的安全策略，比如设定重要数据的关键字，敏感信息的正则表达式，甚至数据指纹，基于分类的机器学习方法等，这些规则需要预制规则。现有技术的缺陷主要如下。

第一，安全策略需要预制，在大多数情况下，企业并不能清楚地知道所有重要和敏感的数据，因此，大多数预制策略是不完整的。

第二，安全策略更新不及时，即使是采用了比较充分的预制安全策略，随着企业的业务发展，每天都会有新的数据产生，安全策略并不能完全覆盖新产生的数据。而随着时间的推移，有些陈旧的数据已不再重要和敏感，也就不需要保护。

第三，安全策略需要有安全人员来构建，安全策略需要有安全人员在充分了解数据的分布情况下才能构建完善的安全策略。有些数据基本上不会被使用，而有些数据会经常被使用，安全人员并不能知道哪些数据应该重点保护，安全人员的工作繁重。

第四，预制的安全策略在实际应用过程中会对数据产生误判（将非重要数据判定为重要数据），增加了数据防泄露工作的难度。如果对安全策略进行调整，会导致漏判（将重要数据判定为非重要数据）。

3.2 基于AI 的敏感数据防泄露技术原理

基于人工智能AI 技术的敏感数据防泄露技术通过预制简单的安全策略，将对数据的检测结果和数据一起提交给安全管理人员。安全管理人员依据实际业务情况和数据出现的场景，给出检测结果是否正确的判分。如果检测结果正确，则给予正向判分，如果检测结果错误，则给予负向判分。依据安全检测人员的判分，使用人工智能算法进行自学习，并将学习结果设置为安全策略，对后续检测生效。

通过构建文档的重要性（也称敏感度）度量模型，建立统一的文档重要度度量方法，对文档进行重要度度量，给管理人员以清晰地展示数据，促进安全策略的更新。

基于AI 技术的敏感数据防泄露实现过程：

1）启动预制的安全策略。

2）初始化检测模型，检测模型不局限于神经网络，也包括机器学习等智能算法。

3）使用上述预制的安全策略对数据进行检测，获得检测结果。

4）将检测结果和数据上报，输出反馈评分结果。

5）接收对检测结果和数据的判分。

6）检测模型根据检测结果、数据、判分，采用批量梯度下降算法，得出检测模型的最优解，进而生成新的安全检测策略。

7）将新的安全检测策略应用于数据防泄露系统中，对后续数据进行检测。

8）重复第3）步到第7）步，安全策略可以持续更新。

文档比对算法：

1）对经过网络数据防泄露系统中的文档进行内容提取。

2）对文档内容进行词法分析和句法分析，比如是以隐马尔可夫进行词法分析，使用依存树分析句法，剔除停用词，比如“的”“了”。

3）采用最大似然估计算法计算词的概率。

4）对每篇文档采用信息熵算法获得熵值。

5）对熵值进行归一化。

6）以归一化的熵值作为文档的重要度度量值。

根据上述文档重要度度量值生成安全策略，比如对敏感度较高的数据构建指纹，用于安全策略，或者从敏感度比较高的数据中抽取出重要的关键词作为安全策略。

3.3 数据资产防泄露系统设计

数据资产防泄露系统是针对大数据环境下多样性、异构性、应用复杂性的数据资产泄露进行防范与安全检测。现有的数据存储与管理方式单一，难以对数据泄露行为进行有效防范。数据防泄露系统及其安全检测工具，是根据数据分类分级索引，提取数据指纹等特征，依据公司数据外泄防护策略，对企业统一建设互联网出口外发数据进行内容审计，对公司的重要数据或信息资产以违反安全策略规定的形式流出公司的行为进行安全检测，从而有效降低公司重要数据资产的外泄。

本文设计的数据资产防泄露系统原型，能够全视角展示数据资产目录，验证风险分析技术在数据资产进行集中编目、数据风险分布可视化展示、基于分类分级属性的数据安全标签技术等多功能场景下的应用效果。

如图7 所示，原型系统中将实现数据资产风险评估的主要能力，将从人、数据、应用、网络及设备等多个角度采集必要的数据、信息，进行综合化分析。具体采集的要素信息如图8、图9 所示。

图7 原型系统数据资产风险评估关键要素

图8 原型系统数据资产脆弱性评估关键要素

数据资产防泄露原型系统实现能力如图10、图11 所示。

通过设计的数据资产防泄露系统能够全视角展示数据资产目录。系统将实现安全元数据管理、数据资产集中编目、数据分布视图的展示、数据的分类分级属性以及安全标签的设定能力，并实现基于数据标签的控制技术，自动识别数据的敏感性。在实际应用中，可将标签控制技术与其他数据安全技术相结合。例如以安全元数据为基础，对不同类型、格式、分类及安全等级的数据采取不同级别的数据动静态脱敏方法。

图9 原型系统数据威胁评估关键要素

图10 原型系统数据资产视图能力内容

图11 原型系统数据资产风险视图能力内容

4 结语

将业务系统建模与威胁建模技术相融合，针对数据安全面临的问题进行建模分析。一方面，通过业务系统建模技术理清数据所依赖的运行环境依存关系；另一方面，以业务建模为基础将威胁建模元素加入业务系统建模之中，以分析数据应用过程中所面临的威胁，再结合数据资产价值因素、业务系统脆弱性暴露因素，通过计算得出数据安全所面临的风险状态。通过将人工智能技术创新的应用于敏感数据防泄露领域，实现对用户业务系统核心和敏感数据的采集挖掘、精准识别，以及内容特性实时分析和数据可视化展现，并把定位到的敏感信息样本生成防护策略，形成准确的数据安全模型，当出现敏感信息违规外发行为时，能够及时进行记录、告警和阻断，最大化保证敏感信息存储和使用过程的安全，降低数据的泄露风险。