APP下载

数据防泄漏技术模型的发展方向分析*

2019-08-19

网络安全与数据管理 2019年8期
关键词:敏感数据数据安全分类

万 淼

(北京启明星辰信息安全技术有限公司,北京 100193)

0 引言

信息系统中最核心的资产是数据,数据资产需要具备机密性、完整性和可用性,以保证数据不会被非法外泄,不会被非法篡改,同时不影响数据使用者的使用方式和习惯。同时随着互联网、大数据应用的爆发,人们越来越多地享受到数据带来的红利和价值,数据的属性也同时开始变化,成为可以产生价值的资源。数据的高价值资源属性使数据泄漏带来的损失升级,同时也带来了恶性的社会影响,数据丢失和个人信息泄漏事件频发,地下数据交易(黑灰产)造成内部恶意数据泄漏事件频出,社会热点事件层出不穷,甚至危害国家安全。

企业在数据泄漏防护方面,往往认为内网相对安全,而将重点都落在了对黑客和外部攻击的威胁防护上,殊不知内部威胁已经成为数据泄漏的主要元凶。据《财经》杂志报道显示[1],有80%的数据泄漏是企业内鬼所为,黑客和其他方式仅占20%。如何有效地防范内部人员威胁,降低机密数据、知识产权、个人信息的泄漏风险,已经成为政府、企业和大众共同关注的问题。

1 现有技术路线分析

1.1 主流技术路线介绍

当前可以实现数据防泄漏的技术路线主要有三种:

(1)数据加密技术

数据加密是过去十年国内数据泄漏防护的基本技术之一,包含磁盘加密、文件加密、透明文档加解密等技术路线,目前以透明文档加解密最为常见。透明文档加解密技术通过过滤驱动对受保护的敏感数据内容进行相应参数的设置,从而对特定进程产生的特定文件进行选择性保护,写入时加密存储,读取文件时自动解密,整个过程不影响其他受保护的内容[2]。

加密技术从数据泄漏的源头对数据进行保护,在数据离开企业内部之后也能防止数据泄漏。但加密技术的秘钥管理十分复杂,一旦秘钥丢失或加密后的数据损坏将造成原始数据无法恢复的后果。对于透明文档加解密来说,如果数据不是以文档形式出现,将无法进行管控。

(2)权限管控技术

数字权限管理(Digital Right Management,DRM)是通过设置特定的安全策略,在敏感数据文件生成、存储、传输的瞬态实现自动化保护,以及通过条件访问控制策略防止敏感数据非法复制、泄漏和扩散等操作[2]。

DRM技术通常不对数据进行加解密操作,只是通过细粒度的操作控制和身份控制策略来实现数据的权限控制。权限管控策略与业务结合较紧密,对用户现有业务流程有影响。

(3)基于内容深度识别的通道防护技术

基于内容的数据防泄漏(Data Loss Prevention,DLP)概念最早源自国外,是一种以不影响用户正常业务为目的,对企业内部敏感数据外发进行综合防护的技术手段。DLP以深层内容识别为核心,基于敏感数据内容策略定义,监控数据的外传通道,对敏感数据外传进行审计或控制。DLP不改变正常的业务流程,具备丰富的审计能力,便于对数据泄漏事件进行事后定位和及时溯源。

1.2 现有技术路线对比分析

前文所述的三种技术路线各有优劣势,对比分析结果如表1所示。

表1

2 困难与挑战

数据防泄漏产品在国外属于合规产品,主要面向企业用户,经过多年的发展,数据防泄漏的合规性技术已经发展十分完善,较好地解决了合规数据的识别和泄漏行为的实时监控问题。但随着数据泄漏事件的不断出现,DLP产品在解决降低实际数据泄漏风险方面仍有盲区,其实施和落地的一些问题也逐渐暴露出来。同时由于国内外企业管理和技术水平趋于成熟,用户的真实需求和应用场景开始驱动数据防泄漏产品在脱离合规的基础上向更完善更有效的解决方案发展。新的监控要求和实际的用户场景都对数据防泄漏提出了更高、更实际的需求,也使现有数据泄漏防护技术面临着新的困难与挑战。

(1)合规监管

数据安全已经不仅仅是企业自身所面临的风险,个人信息泄漏事件同样需要行之有效的技术手段进行防护。在国家层面的法律法规中同样也有明确规定,近几年,《网络安全法》、《个人信息安全规范》、《欧盟通用数据保护规范(GDPR)》陆续出台,从法律法规层面对数据防泄漏产品提出了更多的合规监管要求,也为数据防泄漏技术发展提供了更可靠的参考和依据。

(2)策略定义困难

数据防泄漏产品严格依赖策略定义来执行工作流程,DLP策略的制定需要有数据拥有者(业务人员)参与,而往往实施DLP产品的技术部门对敏感数据接触较少,不清楚哪些是敏感信息,对其泄漏产生的后果也无法评估,因此不容易定义出有效的策略。

(3)误报率高

DLP产品由于策略定义困难的原因,经常会在上线初期通过定义宽松的策略,运行一段时间观察效果,并根据检测结果对策略进行调优,以达到比较好的效果。但由于缺少业务部门对数据风险类型和等级的输入,策略定义宽松会造成大量的误报告警事件,尤其是在关键词策略定义过于简单或正则表达式策略的命中次数限定过少时。

(4)预警滞后

DLP产品要保护的对象是在企业内部以非结构化形式存储或流动的数据,其使用场景是防止内部人员有意或无意识地造成数据泄漏,希望达到的效果是发现泄漏能够快速响应和追责,更好的效果是能够实时阻止甚至提前防止此类事件的发生。传统的DLP产品解决了快速响应和实时阻止的问题,却没有能够很好地达到准确溯源和提前预防的效果。

3 发展方向分析

为解决DLP面临的实际困难和问题,并更好地应对国家、行业的监管要求,数据防泄漏产品开始跳出固有框架,寻找新的技术路线。通过对国内外主流DLP和数据安全厂商的调研,本文总结了目前数据防泄漏技术模型的两个最主要的发展方向。

3.1 数据安全治理

3.1.1 数据安全治理框架

Gartner在2017年提出“持续自适应安全风险和信任评估”(Continuous Adaptive Risk and Trust Assessment,CARTA)的安全理念,是一种全新的战略架构。在数据安全领域实施该架构时,将该架构分为发现、监测、分析和防护四个象限,对用户、设备、应用、行为和数据进行持续可视化和评估[3]。该架构很容易和DLP的实施过程对应起来,可以发现持续的可视性和评估对于此架构应用于数据保护至关重要。

对于DLP产品来说,一般从CARTA架构的Monitor象限开始,先使用审计方式,采用比较宽松的策略,且只检测一小部分非结构化数据,然后陆续进行Analyze和Protect象限。但由于一开始跳过了Discover象限,DLP产品往往很难进入到Protect象限,或更好地发挥作用,需要对数据(内容、途通道)有更直观、系统的了解。由此引出“数据安全治理(Data Security Governance)”的概念[4],如图1所示。从架构图中可以看出,数据安全治理框架是自上而下的。在部署具体安全产品之前,需要企业对内部的数据资产进行一个系统的梳理,解决如下问题:

①数据在哪里

②敏感数据是什么,敏感程度如何

③谁拥有敏感数据、谁使用敏感数据

④敏感数据将被发送给谁

⑤数据通过什么方式流转、共享、传输

从而对企业的数据安全风险进行整体和系统的评估,为选择合适的安全防护技术和产品提供有力依据。

3.1.2 数据发现与分类

数据安全治理的第一步就是数据发现与分类,基于数据分类的结果,可以解决很多实际数据安全问题,并对现有数据安全产品形成有效补充。

(1)数据发现

要确定数据安全防护的目标,首先要了解要保护的数据有哪些,分布在什么位置。Gartner在2017年提出暗数据(dark data)[5]的概念,指出企业内部存在大量位置未知、未合理利用的非结构化数据,使企业存在潜在的数据安全风险。数据发现技术可以很好地解决这个问题,能够对各个数据存储仓库中的数据进行自动遍历,发现敏感数据的存储位置,检查敏感数据的用户者和使用者是否符合安全制度要求,并可以监控敏感数据的用户权限和流转过程。

图1 数据安全治理框架[4]

(2)数据分类

为了便于制定数据安全保护策略,在发现了全部敏感数据分布位置之后,需要对数据资产进行分级分类,并根据分类结果,筛选出重点要保护的数据资产,进而进行数据敏感性标识。

数据分类主要分为两类:基于内容的分类和基于用户的分类。

(1) 基于内容的分类

一般利用DLP的内容匹配策略和算法,依据行业标准、企业内部规范等将数据划分为公开数据、用户信息、知识产权、商业机密、内部核心数据等。

(2) 基于用户的分类

在没有明确合规性依据指导时,可以为用户提供分类工具,让用户根据实际情况对数据做单独分类,如分为公开数据和仅限内部使用数据,或分为源代码、技术文档、财务数据等。

3.1.3 数据标记

分类结果需要标记到对应的数据中,基于分类标记可以实现对数据生命周期的流转追踪和数据资产的可视化展示,如图2所示。

图2 数据标记-鼠标右键选择标记

根据不同的数据标记,可以为不同安全级别的数据制定有针对性的安全保护策略,如对数据进行权限分配或修改,或执行对应的防护动作(加密、脱敏、移动、隔离、删除),从而提炼出可实施的策略方案。

3.1.4 数据生命周期安全防护

传统的DLP技术路线主要覆盖数据生命周期中的存储、使用、传输、共享几个部分,通过数据安全治理框架,解决了数据发现与分类标记之后,配合不同部署方式和技术路线,DLP可以覆盖整个数据生命周期的全部环节,如图3所示。

图3 数据生命周期安全防护

国外已经出现一批做数据分类和数据标记的厂商[6-8],这些厂商只提供独立的数据发现和分类标记功能,可以通过模块或API形式与DLP产品进行结合。一些DLP企业也已经在自己的产品中引入了数据发现与分类技术,形成完整的数据安全治理技术模型[9-11],从而对数据生命周期安全进行整体防护。

3.2 以人为中心的内部威胁检测

现有的威胁防护手段主要针对抵抗外部攻击,但却忽略了内部人员的潜在威胁。内部员工已成为保护企业重要数据的薄弱环节,尤其是对内部员工的社交攻击往往无法被安全网关检测到。Gartner[6]认为要改变安全现状,需要以人为中心的安全策略,将企业的安全防护重心倾向于强化人的责任和信任,弱化控制型、阻止型防护手段。

内部威胁防护是一种新的安全防护模型,它以“人”为中心,以数据为目标,通过数据内容分类和用户行为分析,很好地解决了传统DLP技术误报率高,预警滞后的问题。

3.2.1 用户行为建模

传统的DLP只关注数据内容和数据外传的通道,而数据本身是不会自己移动的,是人移动的数据,因此更应该关注人的行为,特别是人对数据的操作行为。近两年来,传统DLP开始于用户实体行为分析(UEBA)技术相结合,在敏感数据内容监控的基础上,对内部用户的操作行为进行基线建模,并根据异常行为分析和风险变化动态调整数据安全策略,达到用户、数据之间综合分析,发现未知数据泄漏渠道,提前感知数据泄漏风险的效果。

以数据为中心的用户行为分析模型实现流程如下:

(1)利用DLP技术对敏感数据进行追踪。

(2)为用户建立行为基线,采集用户行为信息,并依据策略对用户行为进行加权打分,给出行为基线。用户行为信息采集目前主要分为终端侧采集和网络侧采集:

①终端侧:在终端上部署agent,进行行为监控和信息收集,以用户为中心建模,记录用户的数据下载、修改文件后缀、U盘拷贝敏感内容、大量外发或打印文件等行为信息。

②网络侧:多以旁路镜像方式部署网络设备解析网络流量,以IP为中心建模,记录点滴式泄漏、修改文件后缀、加密外发、嵌套文件、多层压缩、密送、大量外发未知类型文件、外发超大文件等行为信息。

(3)异常行为检测:分析引擎对用户行为仅限上下文关联分析,对用户风险等级进行打分。

(4)威胁预警:结合数据风险等级,利用机器学习等算法对威胁等级进行综合计算。

3.2.2 数据检测与响应DDR

对内容的理解和对通道的覆盖决定了DLP仍然是解决内部威胁、数据泄漏风险管控的主要技术。传统的企业DLP技术在结合了用户行为建模与分析后,由于缺少对内部威胁行为的快速响应,仍不足以防止内部威胁,数据检测与响应(Data Detection and Response,DDR)技术应运而生。

DDR只关注与数据相关的检测与响应,通过网络和终端两个层面对数据内容和数据操作行为的信息收集和建模,对异常用户行为进行自动感知并按照策略执行对应的防护动作,可以提前阻止数据泄漏行为的发生。同样的操作,由于人员风险等级不同,执行的管控策略也可能不同,并在终端执行自动响应动作[12]。DDR的整体流程如图4所示。

图4 基于内部威胁防护的DDR模型

DDR技术将传统DLP的防护范围向内推进,起到了提前预警的作用,同时降低误报率,便于溯源取证。与传统DLP模型相比,DDR模型综合了数据风险和行为分析,并具有很好的终端感知与联动能力,可以有效防止特权账户滥用、被盗账户等带来的数据泄漏风险,防护效果更佳。

4 结论

数据根据其用途、存放位置、归属关系的不同,种类也不同,其安全防护的场景和技术路线也有所不同,本文分析的数据防泄漏技术只是数据安全中一个细分领域,从技术发展角度讨论如何更有效地解决内部人员有意或无意识的数据泄漏问题。

国外的产业界已经对数据防泄漏技术进行了很多的创新和探索,主要包括提出数据安全治理框架和以人为中心的内部威胁检测模型。在国内,基于深度内容识别的数据防泄漏技术已经日渐成熟,并发展出一些适应国内市场的特色方向(如DLP与加密的整合,防窃照技术等),但与国外产品在概念和模型设计还存在一定差距,并需要加强在终端侧的安全防护投入。

猜你喜欢

敏感数据数据安全分类
干扰条件下可检索数字版权管理环境敏感数据的加密方法
分类算一算
实现虚拟机敏感数据识别
基于透明加密的水下通信网络敏感数据防泄露方法
云计算中基于用户隐私的数据安全保护方法
分类讨论求坐标
基于4A平台的数据安全管控体系的设计与实现
建立激励相容机制保护数据安全
数据分析中的分类讨论
教你一招:数的分类