一种基于机器学习的安全威胁分析系统
2019-04-24司德睿杨红光陈彦伟
司德睿,华 程,杨红光,陈彦伟
(北京启明星辰信息安全技术有限公司,北京 100193)
0 引言
随着IT技术飞速发展和网络空间环境的不断变化,复杂攻击快速兴起,网络安全呈现后果严重、影响广泛化的趋势,现有网络安全体系面临挑战,主要有几个方面。
(1)内部威胁危害大、难检测
内部威胁是内部人利用合法获得的访问权对组织信息系统中信息的机密性、完整性以及可用性造成负面影响的行为。内部威胁攻击者一般是企业或组织的员工(在职或离职)、承包商以及商业伙伴等,具有系统、网络以及数据的访问权。
CERT把内部威胁行为模式分为恶意活动、非恶意的失误活动两大类。恶意活动包含IT蓄意破坏、知识产权盗窃、欺诈(无授权增删改查组织数据、与身份信息相关的盗取或犯罪)、其他。失误活动包含被成功钓鱼(外部攻击者获得内部人员凭证、恶意软件获得访问权限)、敏感信息无意泄漏、通过移动设备和物理记录的数据泄漏。
通常来说内部威胁具有以下特征:
①透明性:攻击者来自安全边界内部,因此攻击者可以躲避防火墙等外部安全设备的检测,导致多数内部攻击对于外部安全设备具有透明性。
②隐蔽性:内部攻击者的恶意行为往往发生在正常工作的间隙,导致恶意行为嵌入在大量的正常行为数据中,提高了数据挖掘分析的难度;同时内部攻击者具有组织安全防御的相关知识,因此可以采取措施逃避安全检测。所以内部攻击者对于内部安全检测具有一定的隐蔽性。
③高危性:内部威胁往往比外部威胁造成更严重的后果,主要原因是攻击者自身具有组织的相关知识,可以接触到组织的核心资产(如知识产权等),从而对组织的经济资产、业务运行以及组织信誉进行破坏,对组织造成巨大损失。如2014年的美国CERT发布的网络安全调查显示仅占28%的内部攻击却造成了46%的损失。
在大数据时代,内部威胁往往带来数据泄漏等危害,并因其隐蔽性、透明性而难以检测。
(2)新型攻击复杂攻击难检测
长期以来,依赖于特征码样本库、已知规则来做检测,检测引擎里内置了无数个专家制定的规则,规则阈值是人为设定的。
随着网络攻防对抗加剧,攻击者会采用变形、多态、混淆、加密等方式有效对抗样本特征码匹配检测机制。在网络攻击武器库源代码泄漏、黑客分享攻击源代码等新形势下,攻击者在这些代码基础上可快速演化出新变种。而一些复杂攻击具有针对高价值目标、长期潜伏、集中爆发、造成不可逆损失等特点,它的攻击向量通常不会反复使用。对这些网络攻击无论事前还是事后,基于样本或规则都难以检测。
针对恶意软件的行为进行检测分析成为一种有效方式,但目前沙箱检测是在选定怀疑对象后再观察其行为进行检测,而如何在大量数据中筛选出怀疑对象、获得第一线索是很困难的。
(3)安全设备告警过多,企业运维难
当前企业购买的各种安全设备每天产生上万条告警,大量的告警让人无从下手、无法实际处理,有价值的威胁线索容易被忽略,告警日志中包含大量误报等。客户实际需要的是能采取行动的告警,即对事件进行关联合并、按风险高低排序,每个事件涉及哪些主机和人员,给出每个事件的证据和相关背景信息等。这样运维人员能较为容易地关注到重点事件,并快速研判和采取措施。
1 UEBA用户实体行为分析
用户实体行为分析(User Entity Behavior Analytics,UEBA)是一种面向用户和实体的行为,采用高级数据分析方法刻画正常行为、发现异常行为的技术。围绕用户发现异常行为、将风险定位到用户是UEBA区别于传统安全设备的一个特点。用户实体行为分析图如图1所示。
图1 用户实体行为分析图
U为用户(User),UEBA以分析用户为首要任务和目的;E为实体(Entity),UEBA不仅仅分析用户行为,还分析主机、设备、应用等实体对象的行为。
B为行为(Behavior),UEBA重点聚焦于行为,面向行为分析更易于推测操作或活动的意图,更贴近真实情况。UEBA收集多种数据包括LDAP和Windows域控等用户信息、设备资产信息、网络流数据、主机日志数据、应用日志、数据库日志等数据,从数据中提取用户和实体的各种行为。
A为分析(Analytics),高级分析能力是UEBA的核心,分析原理是基于统计、机器学习、深度学习等人工智能技术构建用户和关联实体的画像和行为正常基线,将偏离了正常基线的可疑活动视为异常,并对异常进行多维度分析来发现安全威胁。UEBA分析无需特征码,是另一种分析方法。
2014年Gartner认为UBA用户行为分析是智能安全分析的突破口,随后将UBA改为UEBA,增加面向Entity实体(含网络、终端、应用、数据存储)的行为分析。近年来,国外UEBA技术发展迅速,2018年RSA大会上展示的系统也都不谋而合地采用了UEBA技术。
UEBA与传统的安全手段区别在于,传统的安全手段关注安全事件(比如病毒和木马),而UEBA是面向行为的分析,发现人和实体的可疑行为尤其是内部可疑行为,为安全人员的行动迅速指明方向。UEBA有两个优势:(1)更容易找到存在异常行为的人或者异常活动的实体。UEBA长时间、持续性地对用户和实体的行为进行记录和分析,通过历史行为分析来检测当前的一些操作是否存在异常,这样就能大大削减告警的数量,能够迅速地关注到存在的风险点。(2)基于“人”的视角判定,可以更直接地让审计人员、安全人员快速地定位到这个“人”的恶意操作行为。
2 UEBA解决典型问题
UEBA解决典型问题包括以下类型:
(1)发现员工泄露数据等恶意行为
数据泄密无小事,根据调研机构波洛蒙研究所的调查显示,可能导致严重数据泄露的5种内部威胁分别为安全要求非响应者、内部人士疏忽行为、组织员工内外串谋、持久的恶意行为、心怀不满的员工,员工恶意行为等是所有数据泄露事件中代价最高昂且最难检测到的事件。
(2)发现账号行为异常
账号异常包括账号被盗用、账号和密码被其他人获知,账号被滥用、人员利用账号所做的操作与正常业务范围不符。
企业内部账号通常有相对稳定的行为模式,与正常偏离较大时候需监测确定账号是否被盗用、被滥用。
图2 用户实体行为智能安全分析系统框架图
图3 V-UEBA流程示意图
(3)发现APT高级持续威胁
隐藏在企业正常运行中的那些已被攻陷、被外部远程控制的潜伏主机,可接收外部恶意指令,进行内网嗅探、横向移动、数据收集、数据隐蔽外传。这种威胁隐蔽性强难发现,损失难估量。
针对上述网络安全威胁和用户实际需求,启明星辰自主研发V-UEBA系统对用户和实体进行细粒度异常行为检测和分析,场景涵盖上述领域。
3 V-UEBA用户实体行为智能安全分析系统
用户实体行为智能安全分析系统(简称V-UEBA)由流量深度解析引擎和网络用户实体行为智能安全分析平台组成,其中分析平台包含数据接入、数据管理、分析引擎、检测分析模型、分析与可视化、系统管理六个部分。分析平台提供高扩展的插装机制,支持新算法模型快速部署、已有算法模型更新后动态部署。系统框架如图2所示。
V-UEBA提供了从识别异常到确认事件的全过程优化,包含数据采集、数据加工、检测、分析、事件调查几个环节,每个环节主要功能如图3所示。
3.1 系统功能特点
V-UEBA系统功能特点:
(1)多元异构海量安全数据处理
基于大数据计算和存储技术,支持DIKI(D-Data网络流数据、设备日志、应用服务器日志等数据;I-Information企业关联信息例如用户数据、资产数据、漏洞扫描数据;K-Knowledge安全知识;I-Threat Intelligence威胁情报)数据采集接入,并基于安全分析需要进行数据范式化、归一化、过滤清洗、丰富化和标签等加工处理,对部分安全设备告警数据提供语义自动理解识别能力,保证数据质量。
(2)高效智能发现能力,准确提供第一线索
V-UEBA利用深度学习等技术,对用户和实体对象行为建立正常基线,监测对基线的偏离,自动让异常行为浮出水面。
提供丰富的检测算法,高级威胁类模型涵盖攻击链Kill-chain各种场景;异常用户类模型涵盖登录异常、文件资源访问异常、账号异常、数据泄漏等多种场景。
V-UEBA分析引擎涵盖基于实时流式批式、机器学习的算法分析引擎、规则分析与关联分析引擎、全文检索与统计可视化的交互分析引擎、图分析引擎等,对告警提供自动合并和关联,并可持续监测,告警少量精准。
(3)更快速的安全事件研判
V-UEBA自动为安全事件提供证据,这些证据经常是一段时间持续监测结果汇总,呈现方式能让分析人员看清随时间流逝此事件相关各种异常行为的发展变化,方便诊断。还提供用户画像、实体对象画像,集成威胁情报数据,这些背景和上下文信息加速安全事件研判。
此外,提供面向专题的自动化分析功能,能自动关联相关告警和绘制攻击图,一目了然地可视化呈现高危人员和设备、攻击源、攻击路径。
(4)高级安全分析能力
V-UEBA提供高级人机交互分析工具——GQIM模型(Goal目标、Question问题、Indicator指征、Metrics度量),让安全分析人员在干净数据上探索数据规律、验证猜测,直觉和经验得到充分发挥。
3.2 行为提取
UEBA是面向用户和实体的行为进行分析,而流数据、日志数据是基于IP的通常以访问-应答或会话为单位的机器数据,而面向IP是无法进行用户和实体的行为分析。
V-UEBA能从机器数据中提取行为特征,为后续的用户行为异常建模分析、实体行为异常建模分析提供输入。
值得注意的是,通常情况下由于人员工位的不固定、会议室等公共区域的存在,特别是DHCP动态IP分配的环境下,IP与用户、IP与实体的对应关系并不是一成不变的。V-UEBA能为每一条机器数据找到当时对应的用户和实体。
3.3 用户异常分析模型
V-UEBA系统用户异常分析模型主要针对人员、账号等行为进行分析,发现异常登录和访问、可疑账号、数据泄漏等风险。
用户行为分析参考了5W1H(Who人员、When时间、What对象、Where地点、Why原因、How方法)分析法,从多个维度自学习正常行为基线、发现与正常行为基线的偏离。
异常用户行为类模型涵盖多种场景,例如登录行为异常,文件资源下载、拷贝、访问等行为异常,账号被盗用、账号被滥用等行为异常,离职倾向员工可疑数据收集和外传,点滴式数据泄漏、持续尝试外传等数据泄露行为。
这些用户行为异常分析模型利用统计与机器学习技术,对用户行为建立正常基线和监测对基线的偏离。
基线偏离包含用户与自身历史行为基线的偏离检测、用户行为与同组人员行为基线的偏离检测。
人员组包含基于企业部门、岗位角色而构建的静态组,以及基于一段时期内用户密切联系行为而构建的动态组。
3.4 设备实体异常分析模型
V-UEBA系统实体异常分析模型主要针对设备活动进行分析,发现异常特别是失陷主机类风险。
由于攻击者行为模式相对而言更不易改变,新一代高级威胁检测分析方法更多面向攻击者的技战术TTP(Tactics战术,Techniques技术,Procedures过程)进行检测分析。非盈利组织MITRE的ATT&CK(Adversarial Tactics,Techniques,and Common Knowledge对抗战术、技术和常识)是一个经过专家们精选的面向cybersecurity敌手行为而构建的kill-chain攻击链领域知识框架模型。而著名的威胁情报标准STIX也来自MITRE组织,这使得参考了ATT&CK的检测结果后续在威胁情报输出共享等方面也更方便。
V-UEBA参考MITRE ATT&CK的攻击链框架模型,基于行为模式分析来发现高级威胁关键环节的异常行为和识别攻击。典型检测模型包含DGA域名访问异常发现、命令和控制类行为检测(Command & Control,简称C&C检测)、横向移动类检测、扫描类检测、DDoS分布式拒绝服务攻击类、反射型DDoS类检测、0day Webshell检测等恶意活动类检测。
上述检测模型算法也是利用机器学习、深度学习等技术,对实体对象行为建立正常基线和监测对基线的偏离,自动让异常行为浮出水面。
3.5 异常分析算法
异常分析需构建行为基线以及计算某次行为与其基线的偏离,算法有多种,常用算法例如基于密度的算法假设异常行为的某些特征的取值相对来说其分布是很稀疏的,通过计算其密度来表示偏离。比如最简单的k近邻,一个样本和它第k个近邻的距离就可以当做其与基线的偏离值,偏离值越大越异常。类似的还有孤立森林iForest算法通过划分超平面来计算“孤立”一个样本所需的超平面数量,此数量也可作为与基线的偏离值,不过此时偏离值越小表示越异常。
以基于流数据的端口扫描检测为例,对流数据做端口扫描行为的特征(feature)提取,然后使用iForest孤立森林算法来进行异常检测。它是一个基于Ensemble集成学习的快速异常检测算法,对全局稀疏点敏感,由于每棵树都是互相独立生成的,因此可以部署在大规模分布式系统上并行处理来加速运算,是符合大数据处理要求的新式先进异常检测算法。端口扫描检测的iForest算法中选择树数量为100,树高度为10,IP数量为2 000时,检测率为96%。
4 结论
面对大数据时代内部威胁、隐蔽复杂攻击,利用统计与机器学习等技术面向用户和实体行为进行异常分析优势明显。V-UEBA利用这些技术能清楚分辨出行为异常的用户与实体,精准迅速找出威胁,对于安全分析的效果和效率都有较大提升。