APP下载

铁路局集团公司数据分析能力体系建设的实践与思考

2020-06-02刘其韬

铁路计算机应用 2020年5期
关键词:轮缘数据挖掘体系

刘其韬

(中国铁路哈尔滨局集团有限公司 数据分析中心,哈尔滨150001)

数据分析是企业生产经营活动的重要环节,随着大数据技术不断发展和普及,数据分析被赋予了更深刻的内涵和更宽广的外延。在现代企业中,数据挖掘正在推动着企业资源的深度开发,使其价值更充分地得以发掘。近年来,国电、中移动、京东等大型国企和物流电商先后组建了数据分析专业机构,大数据分析技术在精准营销定位[1]、设备运维监测[2]、运输路径优化[3]等方面的应用取得明显效益。

目前,铁路大数据应用已经起步,但由于铁路系统作业规律复杂,设备技术密集多样,建立数据分析体系的难度较大。在当前条件下,如何建立具有铁路企业特点的数据分析能力体系,是现阶段的一个重要课题。

1 数据分析能力体系构成

1.1 企业数据分析体系典型模式

大数据技术发展至今,无论是理论模型还是实际解决方案,基本上形成了一种数据分析体系的典型模式[4],如图1所示。

1.2 数据分析能力体系构成

1.2.1 数据处理能力

包括数据存储、计算、传输所必需的硬件软件资源,例如存储设备、计算设备、网络设备,以及支持大数据应用所必需的虚拟化、云计算等相关技术。

图1 数据分析体系典型模式

1.2.2 分析工具能力

包含两方面内容:(1)工具本身,如基本统计工具、数据处理组件、建模评估及可视化工具,应有可靠性能和完善功能,并形成组合;(2)应用工具的能力,主体是人,能够根据数据或业务需要,敏锐、灵活地选择适用的工具和方案,避免在工具选择上走弯路。

1.2.3 业务融合能力

(1)专业与信息技术的融合:在数据分析领域,业务的驱动和主导格外重要,数据分析的结果也一定要作用到业务事件上才有意义和价值。分析人员不仅要具备丰富的专业知识和经验,而且还要长于数据观察,具备运用数据发现问题、解决问题的能力;(2)专业与专业之间的关联:在铁路局集团公司层面,高度垂直分工的管理机制造成专业分工过细,客观上造成专业之间数据交流融合不足,在融合不同专业数据的基础上做好数据挖掘,可为铁路生产经营管理发掘出更多价值的信息资源;(3)不同专业的目标趋同:实现局部与整体的协调,如何把专业间博弈转化为合作来破除壁垒是实现跨专业数据分析的前提,涉及深层次问题,也触及环境文化氛围[5]。

1.2.4 数据治理能力

数据治理包含数据管理运用相关的制度、标准、管理、监控等内容,以及支持数据共享的相关标准和提供共享渠道的数据服务平台,可提供完善的数据安全、隐私保护体系的数据安全保障能力,具备数据管理机制的执行落实能力。

1.2.5 数据思维能力

数据思维的概念比较宽泛,对企业而言包括如下主要内容:(1)对数据具敏锐的洞察能力,善于从数据变化中总结发现规律[6];(2)能运用数据和逻辑来描述现象;(3)善于建立数据关联;(4)善于从业务需求出发来收集和使用数据,或依据业务判断进行数据运用。

数据思维能力是对人的素质要求,是对从事相关工作的人员的业务素质与数据素养的综合考量。

2 数据分析能力体系建设的要点、保障及路径

2.1 团队素质

作为人的要素,应该把主体扩至团队,数据分析大多都是合作活动,团队素质包括业务素质、技术能力、创新能力、数据思维意识及团队合作能力。

2.2 机制体系

(1)标准体系,作为数据分析的基础,决定着未来数据共享难易程度,各专业不仅要建立自身的标准体系,还要服从于企业整体的标准体系;(2)数据管理制度体系,逐步建立并不断完善覆盖数据生命周期的相关法规和流程;(3)数据安全保障,包括保障机制和管理及技术手段,以及网络安全防控体系、应急处理机制等;(4)数据共享机制,包括相关的规定与规范、共享渠道和特定规则,如数据共享方式和标准。

2.3 技术保障

(1)业务知识及经验,作为数据挖掘的驱动力,业务知识储备和实践经验是寻找发现规律的前提条件,让团队不断地掌握运输现场实际情况,保持知识结构的先进性,以适应铁路生产需要;(2)技术工具运用能力,灵活而有效地运用各种工具进行数据处理和分析,达到理想的应用效果;(3)业务与技术的有效结合,本文中两个分析案例将体现这种结合;根据选定的业务课题,选择恰当的工具进行研究,开展初步规律探究之后,通过进一步学习和修正,形成完整的技术路径;(4)设备保障,除了基础存储、计算资源之外,应形成企业级设备平台保障体系,数据分析平台只是其基础与核心,随着业务拓展,与ERP、物联网、地理信息平台、各类业务应用系统的衔接都是必然选择;此外,还必须具备保证数据安全的技术手段。

2.4 组织体系

在开展一些跨领域、跨专业、跨部门的数据分析时,最好由一个机构负责组织,以统筹数据、算力、人力等资源,有利于消除本位因素,保证客观公正和目标集中。此外,根据业务需要和企业管理现实,也可对该机构赋予数据管理职能,将其作为信息化专业管理的有机组成部分。

2.5 环境文化

环境文化是软实力的一个重要内容,针对铁路局数据分析体系的建设,这种文化主要有3个要点:(1)尊重规律,避免先入为主形成结论,应以数据分析结果为导向;(2)要有大局观,企业内部组织能够围绕整体目标去组织资源、采取行动,而不是仅围绕小团体和局部领域的目标开展行动;(3)崇尚创新,在开展数据挖掘、探索规律的初期,往往没有既定目标,结论也多是未知的,数据挖掘活动离不开手段方法的创新,形成鼓励创新、容忍失败的氛围十分必要。

2.6 方法路径

(1)确立并遵循自下而上的基本建设路径,做好顶层设计;(2)根据现实需要,开展具体项目进行检验和示范应用;(3)采取递进方式投入配套基础设施,并根据需要适度进行超前建设;(4)统筹推进,把各种能力和要素按各自的规律做好建设和培育,以期在特定的阶段发挥作用,促进良性发展。

3 能力体系建设实践

3.1 平台部署

中国铁路哈尔滨局集团有限公司(简称:哈局)于2018年部署了铁路数据服务平台(RDSP),利用既有的虚拟化资源作为基础软件平台,包括应用门户管理、数据采集、数据资产、数据安全、数据治理、脚本开发、数据分析套件、数据仓库、可视化套件等,具备批处理、内存计算、流计算等多种计算引擎,提供内置的数据挖掘组件及可视化报表,供用户开展自助数据分析[7]。

3.2 机构组建

经过近半年的筹备,哈局数据分析中心于2019年4 月成立,以检测监测数据为切入点,机构组建整合了轨道、信号、接触网动态检测业务,并对机务、车辆、工务、电务、供电行车设备的数据开展分析调研,服务安全生产的同时,打造数据分析能力,致力于发现各领域数据的内在规律。在开展既有动态检测工作的同时,在数据分析利用方面进行了探索。目前已编制检测月报辅助工具,开展了一些数据分析实验。

3.3 实践案例

以下两个实践案例,分别在铁路运输生产的不同领域采用不同的思路和方法,其分析过程和结果体现铁路系统的生产特点,具有一定代表性。

3.3.1 铁路固定设备动态检测数据的常规分析

常规分析要满足不同视角对既有数据的观察。鉴于铁路系统业务分析需求的复杂性,二维视角无法满足多方面需要,因此结合基本的数据分析业务,运用数据立方体来处理数据,不仅适用于当前的动态检测,也可以在各业务领域应用。简而言之,就是在数据库上建立数据立方体的逻辑结构,用以加工和存储数据,不同的切片形成报表;在此基础上,实现基本的查询与处理平台,支持上卷和下卷,提供交互式查询和自助报表,结合合理的安全策略设置,还可以将其推送至移动终端。

铁路固定设备的动态检测数据一般包括优良率、缺陷数量、扣分情况、综合评价指标等,这些数据具有时间和空间属性,可构成包含时间度量、空间度量、内容度量的三维数据立方体。在把握维度需求的基础上,编写程序导入检测数据切片,提供图形化分析结果。

以铁路工务系统轨道检测数据为例:(1)按照内容度量(优良率、缺陷数量、平均公里超限、平均扣分、TQI等),运用工具进行切分;(2)在每个维度下,再按空间度量(段别、线别、车间别)进行钻取和卷取;(3)按检测时间排列,进行趋势分析和规律分析。展示界面见图2及图3,细节缺陷数据的多维度切片分析见图4。

分析工具投入使用后,一次性导入数据,在不同维度上对数据进行切片,便于专业部门从不同维度上进行数据分析,发现问题。同时,报告生成时间由过去近半个月缩短到2~3个工作日,效率和时效性明显改善。随着体系建设的不断深入,此类报表最终将演化为互动式的数据交换平台。

图2 工务轨道质量检测数据按空间及管理维度的分析切片

图3 工务轨道质量检测数据按时间、空间及管理维度的分析切片

图4 工务轨道质量检测细节缺陷数据多维度综合分析

3.3.2 机车轮缘磨耗的数据挖掘探索

数据、业务需要、平台是数据挖掘不可缺少的三个要素。模型训练、关联能力是数据分析的核心能力和竞争力,也最有挑战性和探索性[8]。依托既有的数据资源,从业务需求入手,形成假设,利用平台计算资源,开展建模、训练、纠正和验证,从而找出内在规律,这也可视为一种简单的模型训练或者机器学习,对专业化分工的企业而言,是一种很好的训练方式,能够形成具有普遍适用性的工具和方法[9]。

在铁路机务专业开展了基于机车轮缘磨耗情况的数据挖掘实验。以轮对自动检测棚记录的轮缘磨耗数据为对象,对轮缘磨耗的影响因素进行分析,以期找出潜在规律,辅助机务段优化车轮镟修时机,在确保安全的前提下,为节约成本提供依据。

从机务专业角度判断,轮缘磨耗主要在机车通过曲线运行时发生,一般认为与曲线的长度和半径均有关系,但其中的内在规律一直未能量化。为此,提取三棵树机务段管内哈尔滨地区机车轮对检测棚在2019年4月10日—7月10日期间的轮缘数据作为分析对象。(1)依据轮缘力公式和LKJ 数据,编写曲线当量计算器,对各机车牵引区段的曲线进行当量化处理;(2)将各区段曲线当量与在此期间各机车担当车次的走行路径相结合,形成各车次曲线当量;(3)将各车次曲线当量加权平均,对统计期间各机车每两次入库之间的轮缘磨耗量进行切分,得到各车次轮缘磨耗数据9792条,作为训练数据;(4)运用多元线性回归方法,建立客运内燃机车轮缘水平磨耗的数学模型如下:

式中:Wf为轮缘水平磨耗量(mm),R为线路曲线半径(m),L为曲线长度(m)。

经数学方法检验,检验结果见图5,该模型拟合优度为0.89,具有较高的可信度。

图5 轮缘水平磨耗预测模型拟合度检验结果

为进一步验证模型有效性,提取哈尔滨地区在7月11—31日期间的入库机车轮缘数据进行验证。由于统计时间段较短、数据量少,对检测设备误差影响较大。为此,选取其中5台担当本务且记录在10条以上的机车,对各机车在统计期间所担当各车次的途径曲线进行当量化处理,而后代入模型,再将所得数据与实际磨耗量做对比,得到结果见表1。

从分析结果看,五台机车累计磨耗值与模型预测值的差异分布在-0.07mm 至0.05mm 之间,在轮缘检测精度按0.1mm 掌握的情况下,模型基本可满足使用要求。以上分析虽与精准分析尚有差距,并且由于数据量不足,没有进行模型的继续优化,但从实验角度,完成了一个典型的数据挖掘研究过程。

表1 机车实际磨耗与模型预测值的差异对比

4 结束语

在铁路局集团公司当前条件下,对数据分析的理论和方法进行初步探讨。数据分析方法的应用能够为铁路企业带来切实的安全收益和经济效益;同时,数据分析体系在建设过程中也面临着一些无法回避的难题,诸如数据来源困难、数据质量不理想、政策支持不足、跨专业融合困难、专业人员缺乏等。这些问题的根源可能触及铁路企业的组织、管理、文化等深层次内容。在大数据应用推广的道路上,这些问题是必须面对的矛盾,将随着发展的深入得到解决,解决这些问题的理想途径是,在推进能力体系建设的过程中同步做好统筹规划。

随着信息技术的不断发展,以及管理方式的不断改进,数据分析的前景将日益广阔,必将在科学管理与决策支持上释放出巨大威力。

猜你喜欢

轮缘数据挖掘体系
改进支持向量机在特征数据挖掘中的智能应用
TODGA-TBP-OK体系对Sr、Ba、Eu的萃取/反萃行为研究
地铁车辆车轮轮缘厚度预警区间研究
地铁车辆轮缘厚度偏磨问题研究
探讨人工智能与数据挖掘发展趋势
“三个体系”助力交通安全百日攻坚战
基于事故数据挖掘的AEB路口测试场景
地铁车辆轮缘润滑装置选型分析
软件工程领域中的异常数据挖掘算法
“曲线运动”知识体系和方法指导