APP下载

结合离线计算与迁移学习的机务大数据闭环整合算法

2024-01-12王俊宇邢国栋李海涛付革民

微型电脑应用 2023年12期
关键词:机务离线闭环

王俊宇, 邢国栋, 李海涛, 付革民*

(1.国能包神铁路集团有限责任公司机务分公司, 内蒙古, 鄂尔多斯 017000;2.安徽安为科技有限公司, 安徽, 合肥 230000)

0 引言

机务大数据闭环整合算法集合了互联网和大数据技术,对铁路运行的全部过程实行数据管理,挖掘与机务管理相关的数据信息,形成闭合的数据链。在此基础上,实现数据的快速分析、整理、编辑等,获取数据中有价值的数据,提升机务大数据的利用率。离线计算和迁移学习则分别属于大数据技术和互联网技术:前者属于大数据技术中的大数据计算,其指的是在计算开始前[1-4],所有输入数据为已知的计算,并能够立刻得出计算结果;后者则是在网络应用不断发展下,将已有领域中的数据迁移至新的领域,提升数据的应用性。

为实现大数据的整合,邱保志等[5]和张巧灵[6]分别研究基于残差分析的混合属性数据聚类算法和基于时间序列的数据融合算法,但是仅能够完成同领域内的数据融合,对于跨领域数据的融合仍需进一步验证。

因此,本文针对机务大数据的应用需求和现状,在分析离线计算和迁移学习的优势后,将两者结合用于机务大数据闭环整合中,提出结合离线计算与迁移学习的机务大数据闭环整合算法,解决机务大数据信息孤岛、利用率较低以及数据查找耗时等问题,为机务管理提供有效、可靠的数据管理。

1 机务大数据闭环整合

1.1 整合方法框架

本文提出的结合离线计算和迁移学习的机务大数据闭环整合算法,主要以机务大数据的高效实时采集以及各类数据的整合、统一化为主要目标,实现机务管理过程中各项机务业务之间的协调性[7]、部门和区域之间的数据共享性、数据格式的统一性;并且整合后的数据可通过Web技术实现数据可视化。该方法整体划分为3个部分:一是机务大数据采集;二是机务大数据管理;三是决策支持,如图1所示。

图1 机务大数据闭环整合算法框架

该算法能够与机务段数个应用系统之间集成,可实现用户的统一管理、认证以及权限管理,通过数据的可视化完成机务宣传三维动画的展示,提升机务管理的相关工作效率,为管理决策、机务安全运输生产等提供综合的数据支持。

1.2 机务大数据的应用

机务大数据包含的数据类别较多,其整体可划分成3类:人员大数据、设备大数据、辅助大数据。本文算法通过闭环数据链的形成,实现机务数据的信息化,3类大数据可用于机车安全分析、机车检修、人员安全分析、司乘管理、辅助决策等应用场景。各个应用场景之间的关联关系如图2所示。

图2 机务大数据的应用场景

1.3 机务大数据聚类

机务大数据聚类是实现机务大数据在闭环整合的基础,机务大数据采集部分采用离线计算的基于人工蜂群(ABC)算法的并行划分聚类算法,完成机务大数据的聚类。该算法结合ABC和相对熵策略(RES)、数据均衡策略以及MapReduce计算模型形成。三者分别实现机务数据预处理、数据均衡以及并行划分聚类。其中,ABC算法用于完成机务大数据的预处理,RES则实现机务大数据的均衡处理,MapReduce计算模型实现最终机务大数据的并行化分聚类。

(1) 机务大数据预处理

依据数据聚类特性,引入聚类准则函数CCF,保证获取的最优解满足聚类特性,聚类准则函数CCF的公式为

(1)

式中,P(Xi,Oj)和P(Xi,Xj)分别表示簇内和簇间相似度,前者的值越大表示聚类效果越佳,后者的值越小表示聚类效果越佳。

(2)

(2) 大数据的均衡处理

在上一步骤中,获取初始簇中心后,为了防止各个节点中机务数据发生倾斜现象,引入数据均衡策略。该策略能够依据动态方式完成节点的负载收集,同时完成节点之间的负载分配,有效抑制数据倾斜现象,即使发生机务数据大量调动时,依据能够较好地保证大数据的稳定。

i表示节点,当其发生过载没有及时处理时的机务数量用L(i)m表示,则在Reduce阶段中,悬挂和恢复所需的和时间分别用Ts和Tr表示;在执行机务数据时的通信开销用Tc表示,则机务数据的均衡策略公式为

(3)

T(i)m>2Ci

(4)

Ci=Ts+Tc+Tr

(5)

式(3)~式(5)中,i节点发生过载时,其时间开销用T(i)m表示,在该过载下,执行机务大数据调度时所需的总时间开销用Ci表示。式(4)表示机务数据调度过程中所需的时间开销小于过载节点的时间开销,满足机务数据调度标准,避免数据倾斜,实现数据均衡。

(3) 机务大数据的并行划分聚类

完成机务大数据均衡处理后,采用MapReduce计算模型获取簇中心,实现机务大数据的聚类。MapReduce计算模型是一种分布式编程模型以及任务调度模型,可完成大规模数据集的并行运算,其核心包含2个阶段,分别为Map(映射)和Reduce(化简),前者能够完成输入数据块的转化,后者则是完成整合以及输出。MapReduce计算模型结构如图3所示。

图3 MapReduce计算模型结构

在机务大数据的并行划分聚类过程中,主要利用Map和Reduce对数据实行相关处理,Map实现步骤(1)和步骤(2)的结果读取后,采用欧氏距离计算公式确定初始簇中心距离和数据之间的距离,并向各个簇中分配对应的机务数据,获取并存储局部机务数据的聚类结果;Reduce依据Map的局部聚类结果完成局部簇的合并;以代价函数为E判断依据,衡量合并结果是否为最优解。代价函数结果为Emin时,表示为最优解,即获取机务大数据的聚类结果;反之则重新采用MapReduce计算模型进行迭代计算,达到Emin时停止,输出机务数据的并行划分聚类结果,形成机务大数据的闭环数据链。

1.4 基于迁移学习的机务大数据序列迁移

设聚类形成机务大数据的闭环数据链中,机务管理所需的机务数据符号集合用V={V1,…,VM}表示,该符号的序列则用Vt表示,其中t表示变量,属于一个代表序列长度;Vt的某个依赖子集用O表示,其观察值序列用O=o1,oi,…,ot表示。机务数据的隐含状态集合用S={S1,…,SN}表示,其状态序列集合用St表示;其子集用Q表示,其状态序列为Q=q1,qi,…,qt,且qi和oi相对应。

如果抽取的机务大数据的序列域用D表示,其中包含2种机务数据域,分别为已标注和未标注,用Dt和Du表示,前者由O和其边界概率P(O)组成,后者由Q和其边界概率P(Q)组成。

D的识别任务用G表示,该识别的主要目的是为O∈ξ找到Q∈ζ,以此保证数据最大化利用指标的实现;O和Q之间的序列关联参数用λ={A,B,π},其中A表示机务数据状态迁移矩阵,B表示机务数据符号发射矩阵,π表示机务数据的初始状态分布。

矩阵A={aij},其中aij=(qt+1=Sj|qt=Si),A表示机务数据抽取过程中不同属性之间的相互转换概率。

矩阵B={bj(k)},其中bj(k)=P(ot=Vk|qt=Sj),B表示机务数据中检索获取的数据生成概率。

由于机务数据符号和数据状态之间的分布不满足独立同等标准,因此,采用式(6)的最佳路径指标保证机务数据抽取以及检索的完成概率最大化,其公式为

(6)

依据粒度马尔科夫模型完成不同机务数据域中抽取和检索数据的识别,将识别后的数据用于机务管理中。

2 实验结果分析

为测试本文算法对于机务大数据闭环整合的效果,抽取某铁路局运行管理中心连续6个月的数据作为实验对象,采用本文方法对其实行闭环整合测试,获取测试结果。

由于机务数据在实际应用过程中,具有逐渐增加的特点,因此,本文算法在对其实行整合过程中需保证算法在数据不断增加情况下的扩展性,测试在机务数据量逐渐增加的情况下以加速度(用于衡量数据的处理效率,期望标准达到0.9)作为衡量标准,获取本文算法在不同节点数量下随着数据量的不断增加,加速度的结果,如图4所示。

图4 扩展性能测试结果

对图4的结果进行分析后得出:在不同的数据节点下,随着数据量的逐渐增加,加速度的结果均在0.9以上,表示本文算法的扩展性较好,能够满足机务数据在不断增加的情况下,完成数据的整合。

为测试本文算法在进行机务数据查询时的查询性能,获取本文方法在源域中未标注数据比例逐渐增加的情况下,随着查询数据量的逐渐增加,对源域数据实行查询时的空间复杂度结果(期望结果低于0.35),如图5所示。

图5 机务数据查询空间复杂度测试结果

对图5的结果实行分析后得出:在不同的未标注数据比例下,随着查询数据量的逐渐增加,本文方法机务数据检索过程中的空间复杂度均低于期望结果,复杂度结果均在0.3以下,因此,即使数据量在5 TB时,空间复杂度结果约在0.32左右,因此,本文方法具备良好的数据应用性能,能够为机务管理快速提供所需的相关机务数据。

为测试本文算法的应用性能,采用智能系数(有效范围值大于120,值越大表示算法的聚类性能越佳)和数据访问载荷(有效范围值大于20,值越大表示算法在数据整合过程中的协同处理性能越佳)作为评价指标,测试本文方法的应用性能,结果如表1所示。

表1 数据整合性能

对表1的结果进行分析后得出:在不用的节点数量下,本文方法的智能系数和数据访问载荷两种指标的结果均明显高于标准的结果,最高结果分别达到155.7和74.6,因此,本文方法具备良好的数据整合性能,并且对数据实行协同处理能力较好。

3 总结

铁路信息化管理议程成为当下铁路机务管控中心的重要内容,信息化的管理能够实现机务管理全面、可靠掌握铁路安全运行状况,实现铁路管理过程中各个路段管理处之间的数据共享,实现统一化管理、调控。基于此,结合离线计算和迁移学习,提出机务大数据闭环整合算法,保证算法扩展性较好,可满足增长式机务数据的应用,可靠完成机务大数据聚类,并且数据在应用过程中的空间复杂度较低,整合效果理想,能够为铁路机务管控中心提供全面、可靠的数据依据,进而保证铁路安全运行的全面管控。

猜你喜欢

机务离线闭环
异步电机离线参数辨识方法
呼吸阀离线检验工艺与评定探讨
浅谈ATC离线基础数据的准备
机务联系电路设计实例分析
机务管理模式下提高货车列尾装置作业效率的研究与实践
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
单周期控制下双输入Buck变换器闭环系统设计
双闭环模糊控制在石化废水处理中的研究
机务检修质量管理研究
最优价格与回收努力激励的闭环供应链协调