APP下载

非负矩阵分解对城轨跨域网络安全降维分析

2022-02-21王子渊

铁道建筑技术 2022年1期
关键词:跨域城轨降维

王子渊

(中铁第五勘察设计院集团有限公司 北京 102600)

1 引言

智慧城轨具有如下特征:一是具有实时控制特性,涉及行车安全;二是具有大数据共享;三是需要通过跨域访问和移动互联[1]。轨道交通网络规模的不断扩大,对数据共享和大容量数据通信的迫切需求,使系统对外界具有了前所未有的开放性、互联性,导致被入侵概率增加[2],一旦出现网络安全事故将直接影响人民的正常生活,造成的损失不可估量。

作为城市综合运输体系,安全生产面临着前所未有的挑战[3]。王宇嘉等人[4-5]提出应用层次分析法的模糊综合评价模型评价轨道集团行车组织和安全的影响,并从目标、原则、方法及步骤等方面对客运专业的技术规章进行优化。本文利用非负矩阵算法对跨域网络降维分析解决智慧城轨入侵检测,可达到国家对关键信息基础设施的高安全等级保护的要求。

2 现状问题

欧盟信息安全局(ENISA)2020年11月发布了《铁路网络空间安全—铁路运输行业的安全度量》,美国政府总审计署2020年4月发布GAO-20-404审计报告-《铁路空运网络安全》,英国政府运输部于2016年发布了《铁路网络空间安全—行业指南》等,均发布了相应的行业网络安全战略或规范,但解决网络安全问题的技术路径依然坚持了威胁对抗的思路。

我国互联网应急中心(CNCERT)最新发布的“城市轨道交通行业网络安全态势分析报告”指出,城市轨道交通WEB系统暴露情况全国共发现联网的城轨相关系统99个,涉及运行管理类88个,其中47个暴露系统存在漏洞,涉及保护机制故障、敏感信息的明文传输、跨站请求伪造等14种不同漏洞类型。城轨行业主要供应商的工控产品共计发布漏洞539个,中高危漏洞数量占93.69%。整个城轨行业面临的安全态势日益严峻,主要存在安全体系建设离散化、用户业务行为保护弱相关、协同性安全保护不足等问题。需深刻认识智慧城轨的丰富内涵,构建安全、便捷、高效、绿色、经济的新一代中国式智慧型城市轨道交通[6]。针对不同的安全威胁部署了相应安全功能的安全部件,却难以抵抗多样化攻击带来的安全问题。

3 城轨跨域网络安全要素

智能城轨以云平台为承载,支撑智能建造、智能装备和智能运营三大板块的智能化应用。云平台以城市轨道交通数据全生命周期为目标,实现设计、建造阶段的BIM一体化、运维专业数据共享化、设备感知物联化和线路管理网络化,见图1。

图1 智慧城轨系统网络

3.1 数据集成

将各个层来源不同、格式不同的数据在物理或逻辑上进行集成的过程,非结构化数据产生于城轨系统工程包括勘测、设计、施工、运维、IOT数据及生产调度等在内的各个环节。将这些非结构化的数据通过Hadoop MapReduce处理[7],生成计算机可识别数据供计算机处理,然后使用 Streamsets采集工具并通过FTP、SFTP等方式进行交换处理。

3.2 数据存储

轨道交通建设、运营生产等过程中已产生出海量数据信息,如BIM数据、PMS系统资产数据、应急处置、票务数据、清分数据、POI数据、手机信令数据、视频数据、IOT数据等大量高维数据(10 or 10 000 dimensions),且在高维空间中点间的距离看起来都是近似的,处理起来比较复杂。故存储方案采用HDFS分布式文件系统[8],以流式数据访问模式存储大数据文件。

3.3 跨域请求

上文提到的存储工点设备历史行为数据,一个最重要的问题是计算请求域中用户在服务域中信任度,且必须考虑其时间复杂度[9]。一般来说,城轨云各业务系统间访问协议名、域名、端口名均一样的情况下,才允许访问相同的 COOKIE、LOCALSTORAGE或是发起AJAX请求等。若在不同源的情况下访问,跨域的访问会带来许多安全性的问题。跨域问题就是同源策略所导致的,同源策略是一个重要的安全策略,它用于限制一个origin的文档或者它加载的脚本如何能与另外一个源的资源进行交互,它能减少可能被攻击的媒介。在日常的运维时会不可避免地需要进行跨域操作,而在实际进行跨域请求时CORS验证机制需要客户端和服务端协同处理,产生非法跨域导致CSRF攻击安全问题。

4 降维分析

大数据的人工智能神经网络算法逐渐发展成熟[10]。机器学习训练模型适合对入侵检测进行分类应用[11]。但网络结构日益复杂化,攻击手段日益多样化,特征趋向高维化,数量也日益增多,严重影响了入侵检测系统的性能。数据存在分布不均,维度大以及入侵检测处理时间消耗大等缺陷,需采用矩阵的方式来存储,然后对数据进行维数约减。

NMF能够挖掘数据集合特征并进行特征提取和降维[12],在汇聚节点完成对分类规则和属性约简规则的学习,分别在簇头和汇聚节点做聚类分析,减小数据传输时的通信开销,提高分类器分类性能。其算法相较于传统的一些算法而言,具有实现上的简便性、分解形式和分解结果上的可解释性,它能将多维的数据矩阵降维处理,适合处理大规模数据。

令待处理数据n个m维度集合,即:m×n大小的非负矩阵V,待分解矩阵V不能为负,则有V[i][j]≥0。排除负值无效性,NMF算法目的是将原始矩阵Vm×n进行降维处理近似分解,获得数据特征的低秩矩阵:m×k的基矩阵U和k×n投影矩阵F。

通过设定k≪n,一般地,令k为数据聚类的类数,则矩阵U和F的乘积近似等于矩阵V中的值,如式(1):

将原矩阵Vm×n降维,如式(2):

式(2)中,原矩阵V与重构矩阵之间同时加入混淆矩阵W。原矩阵进行降维分解后仍包含原样本矩阵信息,故节省了数据存储的空间,聚类过程中减少计算时间和内存开销。研究提出非负矩阵U、F的距离度量两种方法欧氏距离、Kullback-Liebler(KL)散度。

(1)矩阵分解优化目标。最小化U矩阵F矩阵的乘积和原始矩阵V之间的差别,目标函数见式(3):

(2)KL散度的优化目标,损失函数见式(4):

根据函数式(4)找区间最优。(1)梯度下降:每次选取当前点的梯度方向,极小值不确定、函数收敛慢。(2)共轭梯度:N维方向极小值不冲突,两两共轭、函数收敛快。如上第一种目标更新规则可得式(5):

其中,a、u指矩阵第a行第u列元素,充分条件为分母为零,对应位置元素不变。充要条件为基矩阵U和投影矩阵F在静态点时,欧氏距离|V-UF|在更新规则中非上升。如上第二种目标更新规则可得式(6):

充要条件V=UF,V和欧式距离为零,散度D(V‖UF)在更新规则中非上升,损失函数越小,模型的性能越好。

本文数据进行迭代处理中函数相应的伪代码如下:

5 验证过程

5.1 准备训练数据集

轨道交通作为积累工程数据的典型行业,积累了大量的BIM数据、PMS系统资产数据、应急处置、票务数据、清分数据、POI数据、手机信令数据、视频数据、IOT数据等。一方面这些数据可以被用来研究轨道交通站台站厅实时客流量监控;轨道交通站内换乘客流量分析;轨道交通精准清分清算。另一方面,由于这些行为数据具有地理上下文,因此也可以基于网络理论来研究轨道交通TOD地产、商业物业竞合关系与功能。

本文实验提取铁建工程设计一体化平台与轨道交通运维海量数据作为基础数据进行NMF降维分析。

5.2 划分数据集

通过不断的迭代优化将一个项目矩阵分解为两个矩阵,那么需要将数据集分为训练集和测试集来对预处理后构建的监督模型进行评估。将训练集数据进行划分为 TRAIN、VAL、TEST和 TRAINVAL集。代码保存为 TRAIN_VAL_TEST.PY,并将放置在云机Worker节点下执行迭代。

数据集包含569个数据点,每个数据点由30个测量值表示。我们将数据集分成包含426个样本的训练集与包含143个样本的测试集。模型代码片段如下:

然后,使用FIT方法拟合缩放器Scaler,并将其应用于训练数据。对于MinMaxScaler来说FIT方法计算训练集中每个特征的最大值和最小值,与梯度下降分类器和回归器Regressor不同,在对缩放器调用FIT时只提供X_TRAIN,而不用Y_TRAIN。

5.3 降维、特征提取

本过程目的就是压缩数据,NMF通常用于特征提取,将数据分解成非负加权求和的这个过程,对由多个独立源叠加创建而成的数据特别有用,NMF可以识别出组成合成数据的原始分量,因为负的分量和系数可能会导致难以解释的抵消效应(Cancellation effect)。我们可以用NMF来还原这三个信号:

本过程目的算法步骤如图2所示。

图2 算法步骤

步骤1:特征提取。

步骤2:判断属于训练数据集进一步的处理,结合修正后的入侵检测标签交给向量机,否则直接将为数据交给向量机。

步骤3:生成训练模型,跳转到步骤1。

步骤4:基于训练模型进行入侵检测。

步骤5:检测值满足,发出警告。

6 结论

本文提出的非负矩阵分解更新规则算法,基于轨道交通大规模工程数据网络跨域安全降维分析,其对传统聚类算法进行了改进:(1)利用梯度下降法计算函数最小值并将每次梯度向量模长列出,从而对目标进行更新,使得更容易寻找区间最优解;(2)提出工程数据相似性度量方法,得出损失函数越小,模型的性能越好。为了算法验证效果,提取了铁建工程设计一体化平台和城轨运维海量数据,详细介绍了实验步骤,测试证明使用NMF进行跨域网络安全降维可以很好地完成入侵检测。

猜你喜欢

跨域城轨降维
基于多标签协同学习的跨域行人重识别
混动成为降维打击的实力 东风风神皓极
为群众办实事,崂山区打出“跨域通办”组合拳
混合跨域神经网络的草图检索算法
G-SRv6 Policy在跨域端到端组网中的应用
城轨CBTC系统改进方案的分析探讨
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
城轨车辆基地行车进路自动控制系统的研制
降维打击
基于可靠性的城轨车辆维修模式及应用