APP下载

基于用户行为日志的内部威胁检测综述

2020-10-09张有王开云张春瑞邓妙然

计算机时代 2020年9期
关键词:异常检测信息安全

张有 王开云 张春瑞 邓妙然

摘要:内部人员威胁会对企业和组织造成重大损失,内部威胁检测对于维护企业信息安全是必要的。概述了基于用户行为日志的内部威胁检测的一般思路和难点,介绍了常见的用户行为日志数据集和预处理方法,分析了内部威胁检测机制的评估指标和常见的内部威胁检测技术,最后给出未来的内部威胁检测研究的发展方向。

关键词:内部威胁检测;行为日志;信息安全;异常检测

中图分类号:TP309.2

文献标识码:A

文章编号:1006-8228(2020)09-45-05

A survey of insider threat detection based on user behavior log

Zhang You, Wang Kaiyun, Zhang Chunrun, Deng Miaoran

(Institude of Computer Application, Chinese Academy of Engineering Physics, Mianyang, Sichuan 621900. China )

Abstract: Insider threat will cause great losses to enterprises and organizations, and the detection of insider threat is necessary tomaintain the information security of enterprises. This paper summarizes the general ideas and difficulties of insider threat detectionbased on user behavior log, introduces the common data sets and preprocessing methods of user behavior log, analyzes theevaluation indicators of insider threat detection mechanism and common insider threat detection technologies, and finally gives thefuture development direction of internal threat detection research.

Key words: insider threat detection; behavior log; information security; anomaly detection

0引言

對于许多的公司和政府机构来说,内部威胁是一个重大问题[1]。内部威胁包括内部用户故意的恶意活动,例如信息系统破坏、知识产权盗窃、欺诈和国家安全犯罪,以及由于不小心使用计算资源而导致的无意威胁等[2]。相比外部攻击,内部人员更容易对组织造成重大损失,因为内部人员有使用组织资源的权限,且了解组织的结构和安全程序。

恶意的内部人员会利用特权谋取私利,并可能损害组织的完整性[3]。根据2017年网络安全观察的调查,虽然在针对美国组织的网络犯罪中内部威胁只占13%,但其中29%是代价最高的事件[4]。我国某涉密科研单位职员黄某在10年间将多项国家机密出卖给境外间谍,严重威胁国家安全,最终因间谍罪被判处死刑。内部人员威胁会对企业和组织造成重大损失,内部威胁检测对于维护企业信息安全是十分必要的。

1概述

1.1内部威胁检测的一般思路

内部威胁检测可以通过对内部用户行为进行异常检测实现。内部威胁用户通常不是一开始就做出危害企业或组织的事,他们会有相对稳定的行为习惯,如加班频率、使用可移动设备的频率等,之后由于一些原因,如不满上司、被裁员,这些用户就会做出损害企业利益的行为,而这些行为相比于他们以往的行为会有明显异常。企业通过持续采集用户的各种行为记录,生成大规模异构日志数据,从这些日志数据里可以挖掘出用户的行为模式以及行为模式的改变,检测到用户异于以往的行为特征,从而达到内部威胁检测的目的。

1.2内部威胁检测的难点

(1)多种用户行为日志的协同处理。企业通常会将所有用户的行为按照行为类别分别记录在不同的日志文件中,每个日志文件都针对所记录的行为定义多个字段,这样内部威胁检测工作面临的就是几个规模庞大的异构日志文件,如何从这些日志文件中提取出既能准确刻画用户行为、又能便于使用威胁检测算法的特征是一项值得研究的工作。

(2)内部威胁行为可能是单个危害性极大的恶意行为,也可能由复杂的上下文组合而成。前者较容易检测出来,比如某恶意用户将公司重要文件上传至文件共享网站;后者由一系列不同种类、不同时段的行为构成,比如某恶意用户前期盗取部门领导的客户端登录密码,后期利用密码伪装成领导群发恶意邮件,这就加大了内部威胁检测的难度。

(3)内部威胁行为一般异于该用户的正常行为特征,但是异常的行为不一定就是内部威胁行为,用户的行为会随着时间变化。比如某用户突然加大了可移动设备的使用频率,他可能是在频繁窃取公司数据,也可能是新加入了一个项目的工作所需,这时需要结合用户的其他行为和背景数据判断该用户是否为内部威胁用户。

(4)正常、威胁用户比例极其不平衡。在真实的企业环境中,内部威胁用户和威胁行为只占正常情况的很小一部分;在Senator等[5]的内部威胁检测实验环境下,威胁用户只占到用户比例的0.2%。由于内部威胁行为的高危害性,我们不想错过任何一例内部威胁,这就往往会导致内部威胁检测结果有较高的误报率。

2用户行为日志数据集及预处理

2.1常见的用户行为日志数据集

Cert数据集是典型的用户行为日志数据集。Cert数据集来源于卡耐基梅隆大学的CERT内部威胁中心,模拟大型企业或政府组织中分布在4400台计算机上的基于主机的传感器在500天左右收集的日志[6]。Cert数据集提供了用户全面的行为观测数据以刻画用户行为模型,涉及多个维度的用户行为数据,包括文件访问、邮件收发、设备使用、HTTP访问以及登录系统。同时,Cert数据集模拟了恶意参与者的行为数据以及背景数据,模拟了系统破坏、知识产权窃取、欺诈等主要内部威胁类型,从关系图模型、资产图模型、行为模型、通讯模型、话题模型、心理学模型、诱饵模型以及威胁场景来关联构造攻击数据,以达到最佳的真实度[7]。

2.2用户行为日志的预处理

企业的日志通常根据不同行为储存在不同的日志文件中,每个日志文件按时间顺序记录所有用户的该类行为日志。这种形式不能直接用来对单个用户进行行为特征建模,这就需要对单个用户进行行为日志的预处理,即将该用户单位时间内的所有行为处理成便于进行内部威胁检测的形式。

用户行为特征定义是用户行为日志预处理很重要的一步。用户行为特征定义时需要考虑威胁场景中用户的威胁行为,再对用户行为进行适当粒度的划分,例如,记录登录行为的日志文件会采集用户在任意时段的登录行为,很明显,“在非上班时间登录其他用户的客户端”比“上班时间登录本人的客户端”的威胁性更高,所以将登录行为按时间、是否是本人的客户端定义更细粒度的行为是合理的。

用户行为日志的预处理方法受内部威胁检测方法的限制,用户行为日志可以被预处理为数值型数据、序列数据和关系图。

2.2.1数值型数据

将不同日志中用户的行为按单位时间统计为数值型数据是最常见的用户行为日志的预处理方法,经预处理得到的数值型数据可以用于基于高斯混合模型、神经网络等异常检测方法。

Tuor等[8]的特征提取系统将系统日志行转换为适合输入神经网络的数字特征。特征提取系统为每个用户每天累积了408个在某个固定时间窗口内执行的“活动”的计数,比如从l2:OOp.m.到6:OOp.m.之间的可移动媒体中不常见的非诱饵文件拷贝的数量。图1直观地列举了计数特征集:只需沿着从右到左的路径,沿途在每组中选择一个项,所有这些遍历的集合就是计数特征的集合。

Senator等[5]除了对邮件、文件、打印等日志进行用户行为特征计数产生共83个数值型特征外,还定义了28个比率特征,如可移动驱动器上的文件事件与所有文件事件的比率、URL上传与URL下载的比率等。

2.2.2序列数据

虽然数值型数据在机器学习中应用更加广泛,但具有排序结构的序列数据也许能揭示更有价值的信息,因为序列数据考虑了用户在相关上下文中的行为[1]。序列数据可以用于基于隐马尔可夫模型的异常检测方法。

Rashid等[9]考虑了两个基于Cert数据集的特征集:简单特征集和综合特征集。简单特征集有7个用户行为特征,包括登录、注销、文件(将文件复制到USB设备)、邮件、网站、连接USB、断开USB;综合特征集有16个用户行为特征,是两简单特征集的细分。每项行为特征被指定为一个数字序号。对于每一个用户,将所有日志中该用户的行为写成数字序号并按时间戳排序,可以得到该用户的操作序列及时间;再将这些操作以周为单位分组,这样就得到了每个用户每周内执行的一系列操作序列。

2.2.3关系图

企业的用户之间、用户与设备之间有繁杂的关系,这些关系可以映射生成多种关系图,以辅助内部威胁检测。关系图可以用于基于图聚类等异常检测方法。

Gamachchi等[10]以属性图的形式表现企业组织层次结构和用户间电子邮件通信关系,用户及行为的相关信息作为对应顶点和边的属性存储,这种方法同时考虑了图的拓扑结构和图的属性。用户关系被映射到一个无向无加权的图g(v,e,a)中,其中v是顶点集,每个顶点代表一个用户;e是边集,包括用户间“主管一下属”关系和邮件收发行为;a是属性集,每个顶点有一个125维的数值型用户行为特征向量。Senator等[5]从用户的计算机使用记录中导出关系图,包括用户间的电子邮件网络、电子邮件地址、计算机和消息图,用户、计算机、域和單个URL之间的web网络图等。

3内部威胁检测

3.1内部威胁检测机制的评估

在内部威胁检测时,正常、威胁用户和日志的比例悬殊,此时检测的准确率指标意义不大,因为就算将全部样本检测为正常,得到的准确率也很高。内部威胁的危害性极大,所以在内部威胁检测问题中,希望尽可能将内部威胁行为全部检测出来,可以容许有少量正常行为被误检为威胁行为。常用的内部威胁检测指标包括召回率、误报率、F1分数、ROC(接收器工作特性,receiver operating characteristic)曲线和AUC(ROC曲线下的面积,area under the roc curve)。

3.2内部威胁检测方法

本文将调研到的内部威胁检测方法分为以下几类:基于统计模型的方法,基于图聚类的方法,基于机器学习的方法和其他方法。

3.2.1基于统计模型的方法

HMM(隐马尔可夫模型,hidden markov model)提供了从一组观测序列中学习参数以及预测给定观测序列的概率的算法。Rashid等[9]用隐马尔可夫模型分别模拟每个用户每周的正常行为,然后用它们来检测异常行为与正常行为的显著偏差。在训练阶段,假设所有用户前五周的行为都是正常行为,采用BaumWelch算法最大化用户观测序列的可能性,求得该用户正常行为的HMM的参数(转移矩阵、发射矩阵和启动状态概率等)。在测试阶段,用户观测序列先被该用户的HMM预测计算出该序列的可能性,再与阈值进行比较,进而判别序列是否异常。Le等[1]也使用HMM对Cert数据集进行内部威胁检测,使用最近两周的用户数据来训练新的HMM,这似乎足以模拟用户的行为,并且能更好地适应用户行为随时间的变化和漂移。

GMM(高斯混合模型,gaussian mixture model)提供了对复杂概率分布的数据集建模的能力。在基于用户行为日志的威胁检测中,由于用户的行为随时间变化,并且每个用户都有一个典型的正常行为,因此可以使用概率分布的混合来模拟每个用户的行为[11,12]。Happa等[13]在训练阶段使用EM算法为每个用户第一个月的行为洲练一个GMM以模拟该用户的正常行为;在测试阶段,利用训练好的GMM计算输入观测的似然性表示该输入的可能性大小。如果似然性小于阈值,则将该观测检测为异常。

3.2.2基于图聚类的方法

Gamachchi等[10]应用了基于子空间和子图聚类的属性图异常检测方法进行内部威胁检测。论文将Cert数据集高维异构的日志数据处理成无向无加权的属性图g后,采用“edcar”和“gamer”算法对图g进行子空间聚类,产生一组子图和子空间,再利用“GOutRank”方法的评分函数在子空间中进行异常值计算,得分较高的用户被视为正常用户,因为他们对应于一组属性的密集连通子图;而得分较低的用户被认为是可疑用户,他们与大多数用户存在偏差。Senator等[5]也对用户关系图使用社区发现、静态社区发现等技术辅助内部威胁检测。

3.2.3基于机器学习的方法

Tuor等[9]提出了一个在线无监督深度学习系统来过滤系统日志数据,以供分析人员审查。全连接神经网络和递归神经网络的新变体LSTM(长短期记忆网络,long short-term memory)被训练来识别网络中每个用户的行为,并同时实时评估用户行为是正常还是异常。

神经网络模型将给定用户的一系列特征向量映射到用户序列中下一个向量的概率分布,计算概率值的负对数为异常分数,并将每日异常得分最高的k个用户特征向量提供给人工分析师,由他们判断异常行为是否表示内部威胁。

Legg等[14]采用PCA(主成分分析,principal com-ponent analysis)来识别在衍生特征集合中表现出不规则方差的用户。Jeong等[15]在可视化分析仪表板中引入了交互式PCA,这项技术允许分析员清楚地了解每个特征对PCA度量输出的贡献。Le等[1]分别采用SOM(自组织映射,self organizmg map)和DT(决策树,decision tree)对数值型行为特征进行学习和建模。

3.2.4其他方法

除了上述几种方法,Senator等[5]的PRODIGAL项目综合应用了关系伪异常检测、关系密度估计、高斯混合模型等十余种异常检测算法进行内部威胁检测,并开发了一种可视化语言来综合使用这些检测方法。

部分方法性能對比如表1。

由表1可以看到,基于统计模型的方法和基于神经网络的方法误报率偏高,PRODIGAL[5]的性能很好,但是应用起来很复杂,其他方法的召回率偏低,这些方法在总体性能上尚未达到理想的效果,未来可以研究如何在保证内部威胁检测方法召回率的同时降低误报率。

4结束语

内部人员威胁会对企业和组织造成重大损失,内部威胁检测对于维护企业信息安全是十分必要的。企业通过持续采集用户的各种行为记录,生成大规模异构日志数据,从这些日志数据里可以挖掘出用户的行为模式以及行为模式的改变,检测到用户异于以往的行为特征,以达到内部威胁检测的目的。

总体来说,目前基于用户行为日志的内部威胁检测可以有以下发展方向。

(1)内部威胁检测方法尚存在误报率过高的问题,整体的威胁检测性能还有提高的空间和需求。除此以外,检测结果一般只能给出内部威胁用户有异常行为的日期,不能给出判断该用户该天异常的原因,这不利于人工分析师审核结果。因此,研究人员可以考虑将检测结果的可解释性作为未来发展方向。

(2)公开可用的用户行为日志数据集较少,涉及的内部威胁场景种类不全面,这不利于内部威胁检测方法的研究。未来研究人员可以根据与时俱进的企业用户行为和内部威胁场景,生成更符合现代企业特征的日志数据集。

(3)近年来机器学习领域的高速发展为研究人员探索许多未经试验的机器学习算法留出了空间,如Brown等[16]将带注意机制的神经语言模型用于系统日志异常检测,取得了很好的效果,研究人员可以尝试将新兴的机器学习技术扩展应用于内部威胁检测。

参考文献(References):

[1]Le D C, Zincir-Heywood A N. Evaluating insider threatdetection workflow using supervised and unsupervisedlearning[C]//2018 IEEE Security and Privacy Workshops(SPW).IEEE,2018:270-275

[2]Bettadapura V, Schindler G, Plotz T, et al. Augmentingbag-of-words: Data-driven discovey of temporal andstructural information for activity recognition[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2013: 2619-2626

[3]Ko L L , Divakaran D M , Liau Y S , et al. Insider threatdetection and its future directions[J]. InternationalJournal of Security and Networks, 2017.12(3):168

[4]CSO, U.S. Secret Service. CERT Division of SRI-CMU,ForcePoint. "The 2017 U. S. State of CybercrimeSurvey," IDG, Tech. Rep.,2017.

[5]Senator T E, Goldberg H G, Memory A, et al. Detectinginsider threats in a real corporate database ofcomputer usage activity[C]//Proceedings of the 19thACM SIGKDD international conference on Knowledgediscovery and data mining,2013: 1393-1401

[6]Glasser J, Lindauer B. Bridging the gap: A pragmaticapproach to generating insider threat data[C]//2013IEEE Security and Privacy Workshops.IEEE,2013:98-104

[7]楊光,马建刚,于爱民等.内部威胁检测研究[J].信息安全学报, 2016.1(3): 21-36

[8]Tuor A, Kaplan S, Hutchinson B, et al. Deep learning forunsupervised insider threat detection in structuredcybersecurity data streams[C]//Workshops at theThirty-First AAAI Conference on Artificial Intelligence,2017.

[9]Rashid T, Agrafiotis I. Nurse J R C. A new take ondetecting insider threats: exploring the use of hiddenmarkov models[C]//Proceedings of the 8th ACM CCSInternational workshop on managing insider securitythreats,2016:47-56

[10]Gamachchi A, Boztas S. Insider threat detection throughattributed graph clustering[C]//2017 IEEE Trustcom/BigDataSE/ICESS.IEEE,2017:112-119

[11]Legg P A, Moffat N, Nurse J R C, et al. Towards aconceptual model and reasoning structure for insiderthreat detection[J]. Journal of Wireless MobileNetworks, Ubiquitous Computing, and DependableApplications, 2013.4:20-37

[12]Legg P A, Buckley O, Goldsmith M, et al. Automatedinsider threat detection system using user and role-based profile assessment[J]. IEEE Systems Journal.2015.11(2):503-512

[13] Happa J. Insider-threat detection using gaussian mixturemodels and sensitivity profiles[J]. Computers &Security,2018.77:838-859

[14]Legg P A. Visualizing the insider threat: challenges andtools for identifying malicious user activity[C]//2015IEEE Symposium on Visualization for Cyber Security(VizSec). IEEE,2015:1-7

[15]Jeong D H, Ziemkiewicz C, Fisher B, et al. ipca: Aninteractive system for pca-based visual anallrtics[C]//Computer Graphics Forum. Oxford, UK: BlackwellPublishing Ltd,2009.28(3):767-774

[16]Brown A, Tuor A, Hutchinson B. et al. Recurrent NeuralNetwork Attention Mechanisms for InterpretableSystem Log Anomaly Detection[J].2018.

收稿日期:2020-04-27

作者简介:张有(1997-),女,山西省祁县人,硕士研究生在读,主要研究方向:网络与信息安全。

通讯作者:王开云(1964-),男,甘肃张掖人,研究员,主要研究方向:网络与信息安全。

猜你喜欢

异常检测信息安全
《信息安全与通信保密》征稿函
信息安全专业人才培养探索与实践
保护信息安全要滴水不漏
高校信息安全防护
基于LMD模糊熵的遥测振动信号异常检测方法
基于度分布的流量异常在线检测方法研究
无线Mesh网络安全性研究
无线Mesh网络基础知识
保护个人信息安全刻不容缓
基于鼠标行为的电子商务中用户异常行为检测