APP下载

基于轻量化关联规则挖掘的安全日志审计技术研究

2019-08-12郭涛敏

现代电子技术 2019年15期
关键词:Apriori算法关联规则数据挖掘

郭涛敏

摘  要: 为了对云计算平台中日志审计数据进行安全分析,提出一种采用改进的关联规则的日志信息挖掘方法,以便有效识别事故类型或者预防可能出现的各种恶意入侵。该方法采用典型的关联规则Apriori算法对比挖掘系统日志和用户行为模式的异常信息,并通过删除稀疏矩阵集合中的弱相关项目集和可调节最小置信度的策略,对Apriori算法进行轻量化改进。在多次迭代运算得到最大项目集后运用于日志审计。仿真实验结果表明,改进的Apriori算法可以有效减少对数据库的扫描次数,提高挖掘效率,具有一定的推广价值。

关键词: 关联规则; Apriori算法; 日志审计; 最小置信度; 安全日志; 数据挖掘

中图分类号: TN915.08?34; TP393                   文献标识码: A                  文章编号: 1004?373X(2019)15?0083?03

Research on security log audit technology based on lightweight association rules mining

GUO Taomin

(Rongzhi College of Chongqing Technology and Business University, Chongqing 401320, China)

Abstract: In order to carry out the security analysis on log audit data in cloud computing platform, a log information mining method based on improved association rules is proposed to effectively identify the type of accident or prevent the possible malicious intrusions. The typical association rule Apriori algorithm is used to compare the abnormal information of the system log and user behavior mode. The Apriori algorithm is lightly improved by deleting the weakly related item sets in the sparse matrix set and adjusting the minimum confidence. The maximum item set is obtained after multiple iterations, and applied to log audit. The simulation results show that the improved Apriori algorithm can effectively reduce the scan number of the database, and improve the efficiency of mining, and has a certain promotion value.

Keywords: association rule; Apriori algorithm; log audit; minimum confidence; security log; data mining

0  引  言

云计算作为当前网络资源服务模式的一种类型,接入云计算服务器的终端用户,借助服务器强大的数据处理能力和存储能力,较好地解决了终端设备数据处理和存储能力低下的问题。作为云计算服务器平台,如何较好地管理接入该平台的终端用户是必须解决的关键问题[1]。为了检测接入平台的终端用户的合法性和安全性,對终端用户的审计工作就显得尤为重要。安全审计作为计算机安全研究领域的一个方向,近年来引起研究者们的关注[2],当前的安全审计主要结合日志完成审计工作,对接入平台终端用户的登录情况、操作行为等情况进行记录并检测,根据检测情况及时提出报警,为云计算服务器管理员提供审计辅助。

目前,基于关联规则原理的数据库日志安全问题逐渐得到越来越多的关注。文献[3]提出一种基于模糊关联规则的危险Web信息挖掘技术,通过引入Takens定理降低数据模型的复杂度,实现了危险Web信息的准确挖掘。文献[4]采用基于相似性的关联分析算法获得用户行为模式,以指导节点的分裂或合并,从而完成数据库日志挖掘的业务流程优化。

但是,随着云计算平台中用户量的增加,审计日志记录将逐渐增多,根据审计日志,较明显的非法行为系统可以自动检测并预警,但是大规模数据中深层次较隐蔽的非法登录及访问却不容易察觉。因此,为了进一步提高Apriori算法在日志审计挖掘方面的适用性,提高审计精度和执行效率,本文通过Apriori挖掘算法对审计日志进行数据挖掘,以检测云计算平台受到的各种攻击,并对Apriori算法进行适当改进,以便更好地完成日志审计。

1  日志审计系统中的数据挖掘技术分析

当前,云计算平台常见的攻击类型有4种:分布式拒绝访问攻击(DDoS)、未授权访问攻击(R2L)、获取权限攻击(U2R)及收集信息攻击(Probe)[5]。根据终端用户在云计算平台的登录、访问及操作情况,系统生成审计日志。以上4种入侵均可能影响日志审计。

日志审计系统中的数据挖掘任务,就是利用关联规则方法发现隐藏在日志记录之间的相互联系,例如,挖掘数据中的异常孤立记录,从而发现入侵攻击现象。本文采用Apriori关联规则算法对系统日志数据进行挖掘处理,得出关联频繁项集模式集合。安全日志记录示例如表1所示,描述所需属性模式的规则就是所需审计关联规则。

表1  安全日志记录

2  轻量化改进Apriori算法

云计算平台的日志记录了所有用户在云平台停留的重要痕迹,将访问云平台用户的所有关键操作一一记录,并根据用户的操作情况采用Apriori算法进行数据挖掘,判断该用户是否属于正常访问,若不属于,根据用户的实际操作情况进行分类,分别归于不同的攻击类型。本文通过Apriori挖掘算法对安全审计日志进行数据挖掘,以检测云计算平台受到的各种攻击,并对Apriori算法进行轻量化改进,以便解决审计日志数据处理中的增量更新问题。

2.1  删除稀疏矩阵集合中的弱相关项目集

Apriori算法的遍历过程,实际就是一个寻找最大项目集的过程。通过不断遍历,将项目集与最小支持度比较,得到[K]维最大项目集[3?4]。设集合[D]为所有待挖掘数据集合,与目标集相关的最小支持数目为[minCount],最小支持度[minSupCount]的计算方法分别为[6]:

2.2  可调节最小置信度

在日志审计的过程中,Apriori算法需要对日志中所有用户的关键操作做迭代计算,这将大大降低算法的执行效率,算法适用性降低,而且在计算过程中,为了充分展现算法的柔性及可操作性,需要对最小置信度[minConf]进行动态调整,否则会导致算法的迁移性差,对不同规模的云平台适用性差,降低了算法的通用性。

3  实例仿真

为了验证本文算法在日志审计方面的性能,采用Snort进行实例仿真[11],对60份审计日志进行实例仿真,在200 h周期内4种不同类型攻击的情况如图1所示。

首先检测算法对4种不同类型攻击的识别能力,分别采用Apriori算法及改进的轻量化Apriori算法对审计日志进行数据挖掘,通过算法检测的攻击数与实际攻击数的误差对比,检验算法能力。其中,DDos仿真结果如图2所示。

图1  200 h周期内4种不同类型攻击的情况

图2  DDos安全检测算法的误差对比

其他3种类型的结果与图2一致,可以看出,采用Apriori算法和轻量化的Apriori算法均能通过审计日志检测出接入云计算平台的攻击,相比于Apriori算法,本文算法的检测优势明显,更接近于实际攻击数目。特别是DDos和Probe类型的攻击,本文算法检测结果更接近于实际攻击数目。

从图2也可以看出,两种算法均不能全部检测出访问云计算平台的攻击数,这个与迭代次数、最小置信度的设置、算法时间等均有关系,为了达到平衡,暂时不能保证100%检测出攻击记录。

下面对算法的执行效率进行Matlab仿真,检验算法的计算时间是否能够满足云计算平台攻击检测的需求。分别选取包含记录条数为5 000,10 000,15 000,20 000的日志作为仿真对象,检测算法的执行时间,仿真结果如表2所示。

从表2可以看出,随着日志中记录条数的增加,执行时间也随之增加,当日志记录小于10 000条时, Apriori算法和改进的Apriori算法的日志挖掘执行时间相差不大,但随着记录条数的增加,两者之间的差距逐渐变大,本文算法优势明显。

表2  执行时间对比

在实际运用过程中,为了提高算法对云计算平台日志审计的效率,以便及时根据日志审计结果做出相应的决策,可以考虑将日志文件进行有效分割,保证每个日志文件所包含的记录条数设置合理,防止出现算法执行时间长,审计效率降低,攻击决策不及时的问题。

4  结  语

本文采用轻量化改进的Apriori算法完成云计算平台的安全日志审计,用來挖掘接入云计算平台的各种不同类型的攻击,根据攻击情况从而采取相应的决策来保证云计算平台的安全,提高云计算平台的稳定性。仿真结果验证了提出算法的可行性和先进性。但是,数据挖掘的精确度和适用性仍不能满足需求,后续将对更多类型入侵的适用性开展进一步研究。

参考文献

[1] ABBAS H, MAENNEL O, ASSAR S. Security and privacy issues in cloud computing [J]. Annals of telecommunications, 2017, 72(5/6): 233?235.

[2] AMINSOOFI A, IRFAN KHAN M, FAZALEAMIN F A. A review on data security in cloud computing [J]. International journal of computer applications, 2017, 96(2): 95?96.

[3] 黄宏本.基于改进关联规则的危险Web信息挖掘技术研究[J].现代电子技术,2016,39(6):14?17.

HUANG Hongben. Research on hazardous Web information mining technology based on improved association rules [J]. Modern electronics technique, 2016, 39(6): 14?17.

[4] 肖宗水,孟令童,孔兰菊,等.基于数据库日志关联规则挖掘的业务流程优化[J].计算机集成制造系统,2017(5):993?999.

XIAO Zongshui, MENG Lingtong, KONG Lanju, et al. Business process optimization based on database log association rule mining [J]. Computer integrated manufacturing system, 2017(5): 993?999.

[5] GAI K, QIU L, CHEN M, et al. SA?EAST: security?aware efficient data transmission for ITS in mobile heterogeneous cloud computing [J]. ACM transactions on embedded computing systems, 2017, 16(2): 1?22.

[6] LIU A X, ZHAO Y, SUNB M. An improved Apriori algorithm based on an evolution?communication tissue?like P system with promoters and inhibitors [J]. Discrete dynamics in nature and society, 2017(1): 1?11.

[7] PARK S H, SYNN J, KWON O H, et al. Apriori?based text mining method for the advancement of the transportation ma?nagement plan in expressway work zones [J]. Journal of supercomputing, 2017, 74(3): 1?16.

[8] 陆江东,郑奋,戴卓臣.基于改进Apriori的网络安全感知方法[J].计算机测量与控制,2017,25(10):244?246.

LU Jiangdong, ZHENG Fen, DAI Zhuochen. Network security perception method based on improved Apriori [J]. Computer measurement and control, 2017, 25(10): 244?246.

[9] DANGELO G, RAMPONE S, PALMIERI F. Developing a trust model for pervasive computing based on Apriori association rules learning and Bayesian classification [J]. Soft computing, 2017, 21(21): 6297?6315.

[10] YIN Y. A study on the behavior description of learners under berlitz pedagogy based on the Apriori all algorithm [J]. Wireless personal communications, 2018(3): 1?10.

[11] ZHU S. Research on data mining of education technical ability training for physical education students based on Apriori algorithm [J]. Cluster computing, 2018(4): 1?8.

猜你喜欢

Apriori算法关联规则数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究