数据安全监控解决方案研究

2019-10-31任兴

电脑知识与技术 2019年22期

任兴

摘要：信息时代进入数据时代，数据的价值正在进一步的凸显和被挖掘。同时，数据已经成为企业的核心资产。相应的以数据为目标的网络攻击已经成为数据时代新的安全威胁。企业的信息安全需求已经从基本的网络安全防护升级为对数据的安全防护，就要了解数据资产分布、数据流动状况、数据风险的预警以及能够对数据安全事件的溯源。

关键词：数据安全;数据资产;风险预警;溯源

中图分类号：TP393 文献标识码：A

文章编号：1009-3044（2019）22-0025-04

开放科学（资源服务）标识码（OSID）：

1 前言

数据作为生产资料的属性，在流动和融合创造新价值。兼顾数据流动增值需求的数据安全体系，绝对不是对数据进行笼子式的静态保护体系能解决的，一定是一个动态对风险感知，必要时才对数据使用和流动做出保护干预的动态风险感知分析和风险控制的体系。

通过感知数据安全整体态势、将风险点可视化、对风险量化，从而形成数据安全的全局视野。进一步的，根据态势指导数据安全建设和风险响应，实现资源最大化利用、跟进紧急优先程度调度任务、安全效果的可量化比较、新风险的及时发现与处置以及系统不断回馈与改进进化。

2 数据安全监控需求分析

目前，大部分的数据安全监控手段是通过局部的日志筛选和分析，如数据库的操作日志匹配方式。这种方式只能记录对数据库的访问请求，不能记录访问请求的详细结果，更不能掌握敏感数据分布、流动状况、数据风险、对数据安全事件的溯源。

2.1 数据安全风险可视化

（1）了解数据资产的分布

需要自动发现数据库服务器、敏感数据的分布情况，为后续安全加固明确目标。

（2）实时掌握数据库系统的可用性

要求能对数据库运行状态进行实时监控，在状态异常时进行预警，提前防止业务瘫痪，保障业务系统的连续可用性。

（3）实时掌握数据库存在的风险状况

能通过扫描的方式，静态的评估企业数据库系统的风险，扫描内容包括：弱口令检测、系统漏洞、配置风险等。

（4）需要进行数据活动监控

实时监控数据活动情况，记录数据访问行为，尤其是对敏感数据的访问行为。要求能实现对数据库的直接访问和通过Web和应用对数据库的间接访问进行全面监控。

2.2 数据安全风险可控化

（1）需要进行数据活动保护

在数据活动监控的基础上，提供访问控制规则，对违规的数据访问进行阻止。要求系统能够自动学习应用系统对数据的访问行为模式，并生成不同粒度的访问规则。

（2）需要进行数据库攻击检测和保护

在系统内置攻击检测规则，能够实时检测和阻止针对数据库协议、SQL注入和缓冲区溢出等多种攻击，同时详细地记录攻击的详细信息。

2.3 数据安全管理合规化

国家和各行业的监管机构越来越重视数据的安全管理，相继出台了《加强网络信息保护的决定》《信息安全等级保护管理办法》等几十项法规和标准，并开展以数据安全管理为重点的安全评测和检查。数据安全监控需要能够帮助企业经济快速地满足合规审计要求。

3 数据安全监控方案设计

3.1 数据安全监控流程设计

（1）摸清数据资产分布

当数据在存储状态时，数据是一种资产，我们希望全面了解自己的资产分布，尤其是高价值资产，以便于做出统一的分类分级以及相关的安全保护措施，避免未知的数据安全风险。通过数据资产地图的构建，帮助企业管理者对数据现状有全方位的了解。同时为基于数据分类分级的数据管理提供基础服务，为更加精准用户行为分析和异常检测提供基础能力。

（2）掌握数据流动情况

当数据被使用和流动时，我们要了解它在什么时候以什么方式流出到什么地方。应用数据安全网关，可以从流量中分析出敏感数据在流动过程中的时间，路径，流动方向，流向环境等多个数据流动中核心要素，帮助企业管理者看清数据如何流动和被使用。基于这些信息，数据安全审计系统可以进一步提供内部数据使用合规审计、案件的溯源分析能力。

（3）掌控数据安全风险

當数据在流动过程中产生了数据安全风险时，我们要有灵活的控制能力，给谁，给哪些字段，字段用什么脱敏手段，给多少量级，是否增加一些噪声和指纹数据等。应用数据安全网关提供了灵活的账号，IP粒度的动态脱敏和风险数据流动阻断控制能力。

（4）数据态势监控

以数据地图、数据的使用和流动信息为基础，整合更多内部系统日志、人员数据、外部数据安全情报，通过数据安全风险分析系统，可以形成更大维度的数据风险分析和感知体系，利用机器学习算法，快速发现各类数据安全风险，提供及时处置的能力。

3.2 数据安全监控设计原则

3.2.1 科学规划原则

方案设计符合相关政策和标准规范要求。以实际业务需求为导向，对数据安全监控方案进行科学规划、有效指导，保证数据安全监控方案设计进的有效性和规范性。

3.2.2 先进性原则

方案设计中所有的组成要素均充分地考虑其先进性，满足不断提升的信息化建设与应用的要求，保证其在相当长的时间内具有技术优势。

3.2.3 扩展性原则

系统预留相应的接口以便扩充之用，控制部件（软、硬件）采用模块式结构，可以方便灵活进行扩充，保证未来的适应性;为以后的升级预留空间，充分考虑结构设计的合理、规范对系统的维护可以在短时间内完成。

4 数据安全监控解决方案

4.1 数据安全监控逻辑框架

第一步：通过交换机旁路，或者在数据库上服务器上部署软件探针的方式，获取到数据访问的通信内容，经过IP/登录名/应用程序名等过滤，区别出机器访问行为和用户访问行为，将所需要的流量数据进行转发。

第二步：对通信内容解析后，并匹配黑名单、白名单等规则，并将结果写入到存储日志库中。

第三步：统计分析工作站对日志进行统计分析，生成报表，并将报表写入到报表结果库中。

第四步：检索工作站接受查询和人机交互请求，输出结果。

4.2 数据清洗及全面日志分析

4.2.1 全面日志数据采集

通过敏感表识别，通过解析通信流量中的访问指令的返回结果，并将其与预置的敏感信息策略相匹配，从而实时判断识别敏感信息操作，并结合上行访问指令的解析，识别敏感信息表。

除自身审计日志外，采用了多审计源校验，查漏补缺。使用包括网络流量日志、堡垒采集日志、绕行日志相结合，相互交叉检验，确保数据访问日志更加全面、准确、可靠。

（1）安全监控系统支持的日志收集协议包括：

Syslog （UDP and TCP）

JDBC/ODBC

SNMP Version 1，2，3

Log File copy （SCP，SFTP，FTP）

SDEE

OPSEC/LEA

（2）日志采集方式包括：

l 软件探针：运行与数据库主机，将访问数据库的行为和结果过滤后，发送给审计系统。

l 端口镜像：配置交换机，将访问数据库的行为和结果镜像转发给审计系统。

l 接收或获取已有日志数据。

（3）采集日志的信息包括：

? 主体信息：数据库用户、客户端IP、客户端端口、客户端MAC、主机名、系统用户名、源程序名

? 对象信息：数据库IP、数据库端口、数据库MAC、数据库名、数据库对象

? 命令信息：操作类型、操作语句

? 其他信息：发起时间、执行时间

（4）数据库运维日志

数据库运维日志包括上行的SQL操作命令和下行的数据查询结果。通过旁路或者软件探针的方式，采集到运维人员对数据库的操作日志。对发起访问主体的信息和被访问对象的信息，以及访问命令执行结果均可完整详细记录。

在数据库所在服务器上，以一种基于主机的嗅探模式，获取对数据库的访问，并对数据进行初步解析，从而实现根据数据访问来源的过滤，例如根据IP地址、DB用户名、程序名、操作系统名等等的过滤。

（5）日志甄别分类

现有系统只能识别人员操作命令，审计工作量大，审计效果差。此方案从访问操作结果数据为角度，通过建立模型进行分析，自动识别机器操作和用户合规操作，建立操作行为模型，有效甄别用户操作合规性，减少审计日志量。

对现有日志进行甄别，自动识别并分类出人为或机器的访问行为，并可以有选择的只保留人为或者机器的访问行为日志。可大大减缓大量数据下的分析压力，提高实时分析效率。

4.2.2 日志数据处理存储

安全监控系统中日志数据处理与存储建立日志数据库，存储系统收集到的数据库访问日志，以及数据库返回的结果。分析平台底层的存储系统除了支撑起大数据分析平台的实时、近线、离线计算之外，还具备数据备份和归档的功能。自动对非活跃数据进行压缩归档，以提升整体资源利用率;同时具备对归档数据的快速恢复的能力，方便用户对历史数据进行分析和事件回溯。

分为三个层次，包括数据接口层、数据汇集层、数据ETL层。每个层次各执其能，松度耦合，为上层平台和下层防护提供数据功能，每个层的描述如下：

数据接口层，主要承担数据的传递接口，支持对中类型的数据接口类型，满足不同平台的对接。

数据汇集层，主要承担数据存储，在数据传递、计算、存储过程中都有可能用到此层，保证对数据的有效利用;针对不同的数据使用场景，提供不同的存储方式。

数据ETL层，主要承担对数据清洗＼过滤、标准化、信息补全和标签化等工作。

对采集到的日志数据进行存储，并对数据分析模块提供数据检索展示。数据存储分为两个部分，一部分仍然需要继续进行分析的数据，称为热数据，存储于实时分析数据库中。一部分已经超过审计规则最大时间周期要求，但又没有超过6个月的强制保存要求的数据，称为冷数据，归档到系统存储空间。

4.3 敏感数据分类管理

人工方式无法完整梳理敏感信息表，新业务不断涌现，新模型新功能的上线，不断增加敏感信息表，但无法及时更新审计策略，造成审计策略及时性问题，原有的审计策略容易出现漏洞。基于堡垒机记录而非流量的日志易出现缺漏。本安全防控体系的技术实现通过对敏感数据的识别和标记，能够完整跟踪记录敏感数据行为，为行为分析、操作合规性数据建模、数据溯源等功能提供基础

（1）敏感数据的分类

依据2017年6月1日正式实施的《网络安全法》第21条第四款之规定：采取数据分类，重要数据备份和加密等措施。可以根据数据属性、个人信息、用户信息、业务信息等维度来将数据进行分类。同时也可以采取属性+数据量的方式来对业务进行分级。

一般可由公司总部制定《敏感数据定级标准》，根据数据的属性和数據总量，以独立的数据库或者文件集合为单位进行敏感性单独定级。

定级的标准可参考《网络安全等级保护制度》《个人信息安全规范》的有关标准，更能量化。

参考等保可将数据的敏感性分为三级：一般敏感、敏感、非常敏感，对应等保二、三、四级。

（2）敏感数据识别

从日志结果中，自动识别出敏感数据信息，在不需要数据库口令的情况下，掌握敏感数据的流动情况。

敏感数据识别算法对所有字段级的数据进行机器学习智能分析，自动发现包含指定敏感数据。支持企业自定义敏感数据，通过用户定义的规则来识别敏感数据，也可以通过用户提交学习样本到学习引擎中，形成新的敏感数据识别模型。具体而言，通过人工和规则手段标记和分类大量的样本数据。然后对于构建的样本数据，利用传统NLP技术，进行一系列的文本数据清理。最后采用前沿的深度学习模型对样本数据进行训练得到敏感数据识别模型。

（3）敏感数据标记

在防控系统中标记出敏感数据，并进一步地设置溯源规则。

对于个人信息，《个人信息安全规范》定义了个人信息的范畴和分类，但对个人数据的分级还没有统一的定义。结合中国移动行业具体数据分级分类要求，系统将内置个人信息的分级建议作为参照，帮助数据安全管理人员对个人信息字段进行标记。

4.4 建模自动分析操作行为

从访问操作结果数据为角度，可以从更多维度建立模型进行分析。这类以数据行为为基础的审计监控，可以抛开依赖现有平台技术的缺陷，应对今后的大数据、nosql、云等新技术更加有效。由于现有系统只能识别人员操作命令，很难识别操作是否异常，无法建立模型自动识别。导致审计工作量大，审计效果差。本方案从访问操作结果数据为角度，可以从更多维度建立模型进行分析，通过人工智能分析自动识别用户合规操作，建立操作行为模型，有效甄别用户操作合规性，减少審计日志量。

（1）用户行为自动分析

为了精准的识别数据流动过程中的风险，采用UEBA的方法来对数据流动日志进行深入分析。自动分析访问数据类型分布、访问行为类型分布、访问行为趋势、访问数据趋势等有用数据。

围绕用户主体（包括账号，IP等）的数据访问行为，从访问的数据类型，访问的数据量，访问数据时间，访问数据方式，访问数据频次，访问数据的环境等多个维度，利用傅立叶变化，统计分位数等数据量化方式来描述用户主体的数据访问画像。

基于分布式实时流计算，细粒度、多维度行为基线建模，基于机器学习算法的行为预测，插件式行为检测模板。

（2）数据被访问情况分析

自动分析数据流动情况总览、流动数据类型分布、数据流向TOP IP/TOP 用户等有用数据。围绕数据访问行为，从被访问数据应用系统，用户信息，数据量，访问时间，访问数据方式等多个维度来描述数据被访问情况分析。

根据数据之间的关联分析规则，基于源，目标，协议，事件类型的特征以及预定义的关联规则等进行分析。

（3）甄别运维行为合规性

基于访问规则（如：黑白名单）识别运维操作的合规性。自动筛选异常访问行为和违规操作。

（4）操作行为白名单识别

通过多维度模型分析，自动识别和发现用户对数据的操作类型的白名单。

（5）黑名单、白名单管理