试析基于大数据机器学习的进程行为异常检测方法
2018-12-13陈兵兵
陈兵兵
中化能源科技有限公司,上海 200336
互联网技术的不断更新和发展,导致很多问题逐渐显现,对于计算机系统的入侵也成为当前计算机应用过程中的重要问题,而且入侵方式越来越快,计算机的安全是大众比较关注的问题,通过检测出入侵程序的进程来识别入侵的程序,从而解决计算机中存在的各种安全问题。针对进程行为存在的异常,基于机器学习思维,提出对进程行为异常检测的方法,该种方法能够通过对进程行为的特征向量进行异常分类和训练,达到检测的目的。入侵检测技术是计算机系统安全技术中的重要组成部分,注重操作系统的研究,提高对异常行为的识别能力,可减少失误。
1 研究的意义
互联网技术的快速发展,世界正逐步融为一个整体,计算机网络已经成为整个国家经济发展的基础和命脉,社会的生产生活对计算机网络的依赖程度也是越来越强,而且计算机网络已经被广泛应用到各个行业中,行业通过建立自己内部的网络体系,实现对网络资源信息的分享和有效利用,但是随着网络技术的广泛应用,各种安全问题逐渐显现。对于计算机系统的进程行为异常检测也是计算机信息安全研究中的重点领域,计算机行为异常检测系统主要是对计算机网络系统被攻击的过程和行为进行检测,仅依靠计算机自身的检测系统是往往不够的,需要采用深一步的检测方式进行检测,在一定程度上也会保证计算机网络系统的安全。对进程行为异常检测的方式主要是通过采集进程行为的相关数据,对数据进行有效处理,从中获得相应的信息,也就能够获得对进程行为异常检测的准确率。
2 对进程行为异常检测的方法概述
针对计算机进程行为异常的检测,主要是通过对进程行为的过程进行监测,从中获取一些信息数据,对进程行为的特征向量进行计算,通常采用的检测方法是贝叶斯网络和KNN的机器学习检测方法,这2种方法能够提高对异常检测的准确率。
(1)贝叶斯网络检测属于一种概率网络,是一种基于概率推理的图形化网络,其中应用的贝叶斯公式是对该网络应用的基础,该种网络是一种数字化模型,注重通过推理获得一些变量信息,该种推理计算方式已经在很多领域被广泛应用。贝叶斯结构网络注重对设备故障的诊断,获取从多个渠道的信息数据,通过对各个故障建立对应的贝叶斯网络模型,建立相应的网络节点。
贝叶斯网络算法的异常检测系统是一种统计学方法,利用概率统计方法进行分类计算,对各种类别样本的可能属性进行预测,将可能性最大的类别进行分类归属,从划分的每一个程序中检测出异常的特征向量,将相关的进程行为确定为异常行为进行分类,对这些异常行为进行处理,也就能够解决系统中存在的各种异常。
(2)KNN是邻近算法的简称,是数据挖掘分类技术中的一种最简单方法,在实际的应用计算过程中,每一个样本数据都可以用最邻近的K个邻居来代表,KNN方法在进行类别决策时,可以通过对邻近样本的计算和确定,分析其所属的类别领域,这种方法比较适用于计算机进程行为的异常检测。
计算机网络进程行为包含时间因素和顺序因素,依据调用的序列准确描述一些行为特征,其中系统行为发生的前后也就作为衡量的重要指标,然后利用时间顺序进行训练,建立相对应的检测模型,从而实现对序列进程行为的检测。通常对于系统调用的时间特征向量,对不同向量出现的时间特征和间隔方差,来计算各个向量之间的方差属性特征,计算的公式如下:
该计算公式为机器学习模型中最常使用的方法。
3 对进程行为异常检测的方法分析
对计算机网络进程行为的异常检测主要是通过对事件和检测行为进行分析,通常的检测方式有误用检测和异常检测2种方法。
(1)误用检测注重的是特征检测,如果将入侵的进程行为用相关的计算模式表示出来,能够检测出相关的活动是否符合一些模式,该种误用检测的方式只能够对已经成为入侵行为进行检测,对本应不存在的入侵行为不能进行检测,而且需要对其模式库进行不断更新,能够从中检测出很多新的攻击,系统自身的灵活性比较差。
(2)异常检测注重的是对主体活动存在的不同之处进行检测,给正常的活动用户建立一种授权轮廓,如果系统出现违反轮廓的行为时,可以判定为有入侵现象发生,而且在实际应用的过程中,也会发现一些新的攻击现象,异常检测的优势是能够有效检测一些未发生的新攻击方式。
4 基于大数据机器学习的进程行为异常检测分析
机器学习属于大数据时代的一个核心研究领域,也成为整个计算机领域中最有潜力的方面,对于网络系统进程行为异常的检测,需要从机器学习的角度进行分析,从机器学习中的一些理论和技术方面获得信息,其中主要的技术有数据挖掘、神经网络和免疫原理等。目前的机器学习相关理论知识被广泛应用到网络数据的监测和分析中,而且智能化的监测系统已经成为当前最主要的发展趋势。
4.1 机器学习检测体系的构建
以机器学习为基础的异常检测分析主要是通过监控、分析系统中的日志进行入侵检测,而且检测的方式主要包括数据采集、数据分析和数据处理等模块;由于网络的应用越来越复杂,其中某种单一的检测方式已经不能适应当前网络的发展情况。通过将机器学习理论应用于模型的构建方面,其中模型体系的构建包括:
(1)数据信息采集。根据系统的性质,能够从中获取反映状态变化的特征信号,从机器学习中获得理论知识应用注重对数据信息的收集,将收集到的数据信息系统进行数据分布,实时做好监控调用,将其整理成一个时间序列数据模式。
(2)主要数据特征的提取。对于采集到的原始数据进行分类,从中提取与状态相关的特征量,对系统的状态情况进行分析,以便于进行有效识别和诊断。
(3)对系统的整体状态趋势进行预测,同时做出相应的决策,从中选择出有关的数据源信息进行深入的分析。
4.2 对进程行为异常数据源的选择
对网络系统进程行为异常的检测中,已经有各种各样的数据源被应用,最初的检测系统主要是为了获得系统中的网络数据和资源利用情况,为了辅助系统管理员对日志信息的分析,也就能够相应提高系统管理的效率。对进程行为异常的检测主要是衡量和判断某一行为是否有攻击性,需要将原始数据与标准数据进行比较,因此,需要对原始数据信息进行收集,在实际应用过程中,对原始数据的收集和选取是相对比较困难的,往往需要进行深入分析,才能够达到一定的效果,需要掌握对一些异常行为的特点,研究出对异常进行检测和解决的方法。
4.2.1 对进程行为序列的影响
对计算机系统的攻击,需要通过改变目标进程的执行流程,利用超级用户权限对恶意代码进行解决,在改变程序执行流程的同时,会改变系统的序列,也会增加一些陌生的系统调用序列。
4.2.2 注重对数据信息的采集
数据收集和度量的难度较大,对数据信息的采集也是实现对异常行为检测的前提,数据的采集主要从2个方面进行考察:一是技术方面,对目标不需要进行任何修改,能够帮助检测系统进行部署和应用;二是对数据搜集的效率要求高,对入侵检测系统的要求越来越高,要注重检测中的实时性,对检测的方法不断进行改进,要保证获得数据的效率,这也是检测中的一个重点。
4.2.3 对网络系统进程中异常行为进行区分
对计算机网络系统异常行为的检测,注重区分正常行为和异常行为,而检测的依据就是两者之间存在的各种差异,通过对系统进程中各种数据信息的采集,然后对数据信息进行分析,提供相应的数据信息基础,数据样本的充分性也是进行智能化检测中的一个重点,如果正常行为和异常行为系统没有任何区别,检测系统也不能有效区分。例如,在一些数据的检测中,将CPU的利用率作为检测数据源,病毒主要是消耗目标资源,如果有部分临时任务增加,会使CPU的利用率升高。出于对检测数据的实时性考虑,如果能够尽早发现入侵情况,也就可以将损失降到最低,数据源的产生与行为间的时间发生延迟,导致检测的结果出现问题,也就会影响对数据检测的准确性。
5 结语
综上所述,对于提高系统中进程行为的异常检测,需要根据实际情况,对影响检测结果的正常行为建立相对应的模型,通过借鉴机器学习中的相关理论和技术,通过采取计算提取进程行为的特征向量,利用算法对特征向量进行分类分析,可以保证检测结果的准确性,而且在对系统中各种异常的检测过程中,需要对检测结果进行分析,保证对异常检测的准确性。