APP下载

基于数据挖掘的城市轨道交通信息安全检测

2022-02-25王玮庞婷婷

微型电脑应用 2022年2期
关键词:超平面数据挖掘轨道交通

王玮, 庞婷婷

(西安交通工程学院,交通运输学院, 陕西,西安 710000)

0 引言

随着计算机、通信网络、控制技术的发展,列车运行控制系统(communications based train control system, CBTC)融入了更多的外围设备,自动化和信息化水平提高的同时,其网络安全防护系统面临着更高的挑战[1]。由于城市轨道交通的数据通信系统(data communication system, DCS)与传统网络系统的应用特性存在差异,传统IT网络入侵检测方案无法完全满足轨道交通信息安全要求,目前对CBTC系统的网络入侵检测问题的研究仍不够成熟。文中结合轨道交通信息系统中异常数据占比少的特点,提出了一种基于单分类支持向量机(one class support vector machines, OCSVM)的分类模型,可有效实现正常数据和入侵数据的准确分离识别。

1 数据通信网络结构

DCS是列车运行自动控制系统的重要子系统之一,保障DCS系统的信息安全对轨道交通系统安全运行具有重要意义。DCS系统主要由骨干网络和无线网络2部分构成,其网络结构[2]如图1所示。其中,骨干网络主要负责为地面设备提供信息数据传输的通道,一般可采取同步序列组网,或者利用交换技术构成环形网络。无线网络利用空间媒介进行信息传输,一般使用WLAN设备实现无线网络接入,通信协议采用IEEE 802.11,实现数据的高速双向实时传输。为了保证通信的稳定性和安全性,DCS通信网络多采取冗余环形结构,若一个子网络发生数据传输故障时,数据仍可以利用其它子网络进行传输,以保证网络系统的正常运行。地面设备的骨干网络同样分为多个不同类型的子网络,其中包括2个信号网络,2个ATS网,1个维护网,信号网络和ATS网络均进行了冗余设计。DCS网络安全隐患主要来源于网络设备、操作系统和通信协议等,主要受到的网络攻击可分为DOS攻击和数据欺骗,DOS攻击主要是指对服务器进行攻击,致使其无法正常运行,例如语义攻击和暴力攻击。数据欺骗主要是利于系统和通信协议的漏洞,通过信息欺骗的方式窃取数据信息,或者进行恶意的信息篡改。

图1 轨道交通数据通信系统结构图

2 基于数据挖掘的信息检测

数据挖掘主要是指利用数据处理算法从大量数据中发掘隐含信息,其在特征提取方面表现出良好的性能,在信息安全检测方面得到广泛应用。通过数据挖掘检测方法对大量的网络数据和访问记录进行训练,实现检测模型的建模和参数整定,利用训练获得的检测模型对实时数据进行检测筛选,挖掘出隐藏的网络入侵行为[3]。数据挖掘是以数据流量为研究对象,通过对正常数据和异常数据的分析,提取出隐藏在数据中的规律,从而实现对入侵行为的辨别,网络入侵检测流程如图2所示。常用的检测算法包括分类、关联分析、聚类等。其中,分类算法主要原理是利用分类模型对数据进行预测,将数据分割判定为正常或者异常两类,其关键问题在于分类模型的构建和参数整定,常用的分类方法包括最近邻分类、决策树分类、人工神经网络、支持向量机等[4]。由于轨道交通网络通信中,正常数据占有的比例非常大,入侵数据仅占有极少的比例,训练样本具有数据量小的特点,而基于支持向量机的分类模型无需大容量的训练数据,更适用于轨道交通网络的通信数据特点。

图2 信息检测流程

3 基于OCSVM算法的分类模型

DCS信息网络系统的数据流和通信周期比较稳定,并且具备一定的规律性,采集到的数据大多为正常的数据,仅有非常小的数据量为异常的数据,这一特点为异常检测提供了比较好的检测环境,如果能够对正常数据量构建准确的模型,即可实现对异常行为的检测。单分类支持向量机(OCSVM)算法是一种基于支持向量机的特殊二分类模型,主要通过寻找一个超平面实现精准分类,只需具备一类样本即可实现模型训练[5]。超平面法是利用核函数将输入数据空间映射到高斯空间中,在映射的高斯空间中寻找超平面,较理想的超平面应最大限度将样本点和原点进行分开,超平面示意图[6-7]见图3。

超平面的求解式为式(1),

(1)

设输入的训练样本为x1,…,xl∈X,其中X→H表示输入空间向高斯空间进行映射,ω表示超平面的法向量,ρ表示

图3 超平面法

超平面的偏移量,ξ表示松弛系数,反应样本符合约束条件的程度。v为权衡系数,取值范围为(0,1],用于对支持向量的比例进行调节。

另外加入Lagrange算子实现对超平面的求解[6],Lagrange算子[8]见式(2),

(2)

选用的高斯核函数为式(3):

(3)

通过计算得到最终的决策函数为式(4),

(4)

将采集到的数据作为样本输入到上述检测模型,训练流程如图4所示。其中,数据预处理环节主要是对原始数据进行特征提取和归一化处理,使得数据格式符合算法数据格式要求。其次是对数据降维处理,提取出具备统计意义的特征,降低数据冗余性,从而提升训练速度[9-10]。然后是对模型参数进行优化调整,特别是v和ρ2个最为重要的参数,其对模型准确性的影响非常大。最后,利用测试数据集对训练所得到的模型进行验证。

图4 检测模型训练流程

4 仿真结果

由于轨道交通客流量分早晚高峰期和平峰期,列车的发车时间间隔也随客流量变化而发生变化,不同客流量期间的数据通信流量也是动态变化的。为了模拟不同发车时间的间隔中对数据流量的检测,模拟了3组不同发车时间间隔的数据样本,并在样本中加入了洪水攻击型数据,数据样本如表1所示。

表1 实验样本

将3组数据综合在一起构成数据输入集合,将综合后的数据一部分用于训练,另一部分作为测试集合,按照异常检测模型流程对模型进行训练并验证。将3组数据输入训练获得的检测模型,测试仿真结果见表2。由仿真结果可见,在不同数据流量情况下,检测模型均能表现出较强的检测能力,对攻击数据无漏检情况,对正常数据的平均误报率仅为1.01%,平均检测时间为4.61 ms,满足网络信息安全检测指标要求,验证了模型的可靠性和高效性。

表2 仿真检测结果统计

5 总结

城市轨道交通信息安全是列车正常安全运行和信息数据安全的有力保障,其中网络入侵行为检测是信息安全系统中最为重要的问题之一,目前对其检测方法的研究仍不够完善。基于数据挖掘的检测方案可作为传统网络安全防护的补充,以提升网络信息系统抵御网络入侵能力,通过优化OCSVM模型参数可进一步降低其误报率,可对该问题作进一步深入研究,以提升检测性能。

猜你喜欢

超平面数据挖掘轨道交通
改进支持向量机在特征数据挖掘中的智能应用
一种改进的多分类孪生支持向量机
城市轨道交通投融资模式分析
基于非线性核的SVM模型可视化策略
城市轨道交通投融资模式分析
有限维Banach空间中完备集的构造
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
PPP模式在我国轨道交通建设中的应用
轨道交通快慢车越行问题研究