APP下载

基于时序分析的工控异常检测算法研究

2020-07-18李俊张格兰海燕朱小东

网络空间安全 2020年4期

李俊 张格 兰海燕 朱小东

摘   要:随着信息化及工业化的不断融合发展、开放通信协议的引入、智能终端设备的发展,工控系统网络环境由最初的封闭隔离环境变得与外部的连通性不断增强,导致工控系统的安全风险变得更加复杂多变。异常检测技术作为信息安全防护中重要的组成部分,可有效地发现在工控网络中不符合预期行为模式的异常事件。考虑到时间作为工业流量中的本质特性,文章开展了基于时序分析的异常检测算法研究,提出了一种基于Top-k的矩阵分布评估算法,实验结果证实此评估算法可有效地检测工控网络环境下的异常事件。

关键词:工业控制系统;异常检测;时序分析;流量分析

中图分类号: TP391          文献标识码:A

Abstract: With the continuous integration and development of informatization and industrialization, the introduction of open communication protocols, and the development of intelligent terminal equipment, the industrial control system has changed from closed and isolated environment to a continuous enhancing external connectivity environment. And it causes safety issues in industrial control systems more complex and changeable. As an important part of information security protection, anomaly detection technology can effectively find abnormal events that do not meet expected behavior patterns in industrial control networks. Considering time as an essential characteristic in industrial traffic, research on anomaly detection algorithms based on time series analysis was carried out, and a matrix distribution evaluation algorithm based on Top-k algorithms was proposed. Experimental results confirm that proposed algorithm can effectively detect abnormal event in industrial control network.

Key words: industrial control system; anomaly detection; time-series analysis; traffic analysis.

1 引言

工業控制系统(ICS)是指用于操作、控制、辅助自动化工业生产过程的设备、系统、网络以及控制器的集合,包括数据监控与采集系统(SCADA)、分布式控制系统(DCS)、可编程逻辑控制器(PLC)、人机交互接口(HMI)等系统。ICS作为工业控制领域的神经中枢,被广泛应用于自动化生产、能源、交通、航天航空等关键行业中,一旦其遭到恶意攻击,将造成严重的安全事故。

随着自动化控制技术的发展,工控系统的网络环境由相对封闭变得不断开放,使得作为工业领域神经中枢的工控系统面临着更严峻的安全形势。近年来,针对ICS的安全事件层出不穷,给全球的工控安全造成严重威胁。Chen[1]等人分析了2010年Stuxnet蠕虫病毒感染伊朗核电站工业厂房内的PLC的过程。2011年至2012年间,Duqu木马、Flame病毒先后攻击了中东能源行业。2015年12月,乌克兰电力系统遭受黑客攻击,导致伊万诺-弗兰科夫斯克地区大约一半的家庭停电6小时,此次攻击事件是由黑客通过钓鱼邮件等社会工程学方式将可远程访问并控制工控系统的黑暗力量(BlackEnergy)恶意软件植入了乌克兰电力部门,向电力系统主机释放了硬盘数据擦除(Killdisk)组件,导致电网SCADA系统崩溃,造成电网故障[2]。由此可见,保障工业控制系统的安全不仅关乎企业的生存发展,同时也影响着社会稳定和国家安全。

在工业环境下,不同组件的通信是基于特定的工业协议进行数据的交换。而工业协议在设计之初未充分考虑安全因素,缺乏认证、加密等防护手段。攻击者可通过对协议数据包进行篡改的方式,针对工业控制设备进行起停、更改控制逻辑、下载梯形图等危险操作,造成严重的安全事故。

异常检测技术作为信息安全防护中重要的组成部分,可有效地发现在工控网络中不符合预期行为模式的异常事件,帮助企业管理人员高效、准确的定位工控网络中存在的威胁,确保ICS安全稳定的运行。结合工业流量具备高度周期性、异常数据少和安全需求高等特点,本文开展了基于时序分析异常检测算法的研究,提出了一种基于Top-k的矩阵分布评估算法。实验结果证实此评估算法可有效地检测工控网络环境下的异常事件。本文的组织结构为:第二部分介绍了在工业领域中的异常检测算法的相关工作;第三部分分析了工业流量具备平稳性的原因,并介绍了所提出的矩阵分布评估算法;第四部分介绍了开展相关实验验证;第五部分为结束语。

在评估算法中,生成并集S1并与不同矩阵分布结果的最大前三位进行比较,其原因是防止特定特征的矩阵分布结果存在着较大的误差而导致异常时间点的遗漏。考虑到ICS安全需求高的特点,本文在矩阵评估算法的第四步选择相差较大的不同特征矩阵分布最大值发生的时间加入结果集。

4 实验分析

4.1 数据集介绍

本文实验采用Lemay[14]提供的数据集。此数据集包括完整的流量包捕获和包含恶意流量标签的文件,可用于提取网络流量特征和通信逻辑特征,并提供有关数据集生成的详细信息。

在SCADA沙箱中模拟了一个小型的SCADA网络,实验中选用Modbus/TCP协议的变体,此变体在每次请求后关闭TCP连接,而不是长时间的维持连接。同时,实验使用ScadaBR实现不同数量MTU和Modbus_tk的控制器。实例网络如图2所示,其中包含2个MTU和3个控制器。

Lemay[14]提供的数据集如表1所示,本文选择表1中的数据集作为实验数据集,并分别表示为DS1至DS3。

4.2 实验结果分析

基于Mantere[15]针对ICS网络流量的分析,本文选择的时序分析特征为:“packets_sec”,每秒的数据包数量;“ip_pairs_sec”,每秒的IP对数量;“port_pairs_sec”,每秒的端口对数量。同时,针对数据集DS1至DS5进行数据的预处理,其每秒的流量被聚类为一个数据点。在DS5数据集中,仅针对四个异常子数据集进行预处理的操作。值得注意的是,本文选择的时间序列子查询的长度为10,其与五个数据集中的轮询时间均相同。本文以matrixprofile为基础库文件,实验设备的处理器为3.1 GHz Intel Core i5,内存大小为8G,显卡型号为Intel Iris Plus Graphics 650。

本文结合ICS网络的异常数据少、高度安全需求的特点,设计此矩阵分布评估算法。由于不同特征的矩阵分布均产生于同一數据集,因此标志其最可能发生异常的最大值所发生的时间在不同特征的矩阵分布中应相同,设置可信时间范围D解决检测时间的延后性问题。在实验中设置算法的最大值范围K为10,可信范围D为3秒。针对DS1至DS5的实验结果如图3至图5所示,并分别对其进行结果分析。

在DS1数据集的评估分析结果中,其描述异常发生的时间分别为第1秒、第4秒、第5秒、第14秒和第24秒。而数据集的标记时间结果区间为第1秒、第3至12秒和第14至18秒。通过对比可发现评估分析结果包含于标记结果的三次攻击的时间区间内,但两者间的结果仍然有所差距。例如,无法有效定位第二次攻击的开始时间、攻击时间区间的检测完整性不足、存在着第24秒的误报,其中第24秒在数据集中并无实际流量包。但值得注意的是,三次攻击的成功检测表明了所提出评估算法的有效性,同时也证实了矩阵分布类算法在ICS异常检测中具备优异的性能。

在DS2数据集的评估分析结果中,其标记异常发生的时间为第10秒和第11秒。而数据集的标记时间结果区间为第10至11秒、第33秒、第72秒和第93至96秒。通过对比可发现评估分析结果完整覆盖四次攻击中的第一次异常,未有效地识别之后的三次异常事件。此数据集与DS1数据集的评估分析结果相类似,均可有效地检测异常攻击时间点,但存在着部分异常时间结点漏报的可能性。值得注意的是,在DS1与DS2数据集中,异常评估算法均成功检测首次攻击所发生的时间区间。

在DS3数据集的分析结果中,评估算法标记的时间为第98秒和第289秒,其中数据集的标记时间结果为第289秒。通过对比可发现评估分析结果可有效地标识攻击发生的时间,但存在着第98秒的误报结果。由于DS3数据集中仅只有一个异常攻击时间点,此异常评估算法仍可认为具备标识首次攻击发生时间点的能力。同时,此数据集与DS1数据集的评估结果相类似,在评估结果中均存在误报的情况,而且误报时间结点在对应数据集中均无实际流量包。

综合分析,本文提出的评估算法可有效地发现数据集中的第一次攻击,这在ICS网络中是至关重要的,但针对多次的攻击存在着未全部标记的现象。同时,评估结果中可能出现误报,但误报的时间点在原始数据集中并无实际流量包。相比较于阈值法,所提出的评估算法可有效地减少假阳性事件,降低了攻击发生时间的搜索范围。但其中算法参数的设置仍然需要人为参与。在后续的工作中可进一步优化算法,例如定位攻击持续的时间、时间尺度对算法的影响等。此实验结果也证实了矩阵分布在ICS网络流量异常检测中的优异性能。

5 结束语

随着自动化控制技术的发展,ICS面临着更严峻的安全形势。考虑到时间作为工业流量的本质特性,基于工业流量异常数据少、安全需求高和高度周期性等特点,本文提出的矩阵评估算法可有效地检测工业流量中的异常事件。但仍有很多问题需要完善和解决,本节列出了下一阶段的研究方向。

(1)评估算法的参数优化

评估算法的输入K和置信度应进行多参数取值的横向比较,可进一步探索评估算法输入的最优参数值。

(2)基于混合模型的异常检测算法研究

基于机器学习的异常检测算法一直是研究的热门方向,下一步考虑构建混合模型,通过结合基于机器学习和基于时序分析两者优势特性的方式提高检测率。

参考文献

[1] Chen T, Abunimeh S. Lessons from Stuxnet[J]. 2011, 44(4):91-93.

[2] Whitehead D E, Owens K, Gammel D, et al. Ukraine cyber-induced power outage: Analysis and practical mitigation strategies[C]//2017 70th Annual Conference for Protective Relay Engineers (CPRE). IEEE, 2017: 1-8.

[3] 陶耀东,李宁,曾广圣.工业控制系统安全综述[J].计算机工程与应用, 2016(52):18.

[4] 卫薇,龙玉江,钟掖.基于概率统计模型的电力IT监控对象特征异常检测[J].山东农业大学学报(自然科学版), 2019,50(04):612-618.

[5] Fillatre L, Nikiforov I. A statistical method for detecting cyber/physical attacks on SCADA systems[C]//2014 IEEE Conference on Control Applications (CCA). IEEE, 2014: 364-369.

[6] Lin C T, Wu S L, Lee M L. Cyber attack and defense on industry control systems[C]//2017 IEEE Conference on Dependable and Secure Computing. IEEE, 2017: 524-526.

[7] 陈万志,徐东升,张静.工业控制网络入侵检测的BP神经网络优化方法[J].辽宁工程技术大学学报(自然科学版), 2019 (1): 14.

[8] Zhou C, Huang S, Xiong N, et al. Design and analysis of multimodel-based anomaly intrusion detection systems in industrial process automation[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2015, 45(10): 1345-1360.

[9] 王展鵬. 基于Modbus TCP协议的工控网络入侵检测技术研究[D].北京:北京化工大学,2018.

[10] Markman C, Wool A, Cardenas A A. A new burst-dfa model for scada anomaly detection[C]//Proceedings of the 2017 Workshop on Cyber-Physical Systems Security and PrivaCy. ACM, 2017: 1-12.

[11] Yingxu L, Jiao J, Jing L. Analysis of Industrial Control Systems Traffic Based on Time Series[C]//2015 IEEE Twelfth International Symposium on Autonomous Decentralized Systems. IEEE, 2015: 123-129.

[12] Yeh C C M, Zhu Y, Ulanova L, et al. Matrix profile I: all pairs similarity joins for time series: a unifying view that includes motifs, discords and shapelets[C]//2016 IEEE 16th international conference on data mining (ICDM). IEEE, 2016: 1317-1322.

[13] Anton S D, Ahrens L, Fraunholz D, et al. Time is of the essence: Machine learning-based intrusion detection in industrial time series data[C]//2018 IEEE International Conference on Data Mining Workshops (ICDMW). IEEE, 2018: 1-6.

[14] Lemay A, Fernandez J M. Providing {SCADA} Network Data Sets for Intrusion Detection Research[C]//9th Workshop on Cyber Security Experimentation and Test ({CSET} 16). 2016.

[15] Mantere M, Sailio M, Noponen S. Network traffic features for anomaly detection in specific industrial control system network[J]. Future Internet, 2013, 5(4): 460-473.