接触网动检数据分析方法探讨
2022-10-31孔令坤中国铁路上海局集团有限公司海高铁基础设施段
孔令坤 中国铁路上海局集团有限公司海高铁基础设施段
1 引言
上海高铁基础设施段地处长三角地区,管内供电管辖接触网延展里程2 000.32条公里,是全路第一批践行综合养修模式的设备管理单位。随着管内沪宁、沪杭高铁先后迈过首个“十年周期”,接触网设备老化问题日趋凸显、动态监测缺陷日益增多。为了不断发掘检测数据潜力,提高设备质量,我们立足自身养修经验,引进大数据分析算法,在实践中摸索出一套动检数据的分析方法,帮助我们从庞大的检测数据中找到薄弱设备,提高接触网的运行质量和可靠性。
2 单次动检结果评价
2.1 不同检测装置对比
接触网动态监测装备包括高铁综合检测车(简称1C)和运营动车组车载检测装置(简称3C),用于测量升弓条件下的接触线几何参数、接触压力、燃弧量等参数。1C和3C装置的测量原理不同,因此其测量值和下发缺陷也有很大不同,数据分析时要综合考虑。
(1)1C装置和3C装置的几何参数测量模块不同,前者采用双线阵相机和视觉三角测量法,后者采用图像深度学习技术进行识别,但都满足±10 mm以内的测量精度。但由于不同车型在同一曲线轨道下的的横滚、横摆幅度不同,拉出值参数测量值存在较大差别。
(2)1C装置和3C装置的检测受电弓型号不同,前者采用DSA380或SS400型双滑板受电弓,后者普遍采用CX-PG型单滑板受电弓,其接触力和燃弧特性都有很大区别。
(3)1C装置和3C装置的燃弧量测量原理不同,前者采用紫外相机,对一跨内燃弧像素出现时间进行累加,后者采用对铜金属燃烧光线波段敏感的红外热成像相机对接触网进行测温并计算单次燃弧的持续时间。
2.2 单次检测结果的准确性
由于不同检测车受电弓的型号、开闭口、初始压力不同,检测车通过时的车速、环境温度、湿度、电磁干扰因素也不相同,所以每次检测的接触力、燃弧值存在显著差异。此外检测系统采用的机车GYK里程,与实际里程存在随机误差,因此我们在大数据分析前要对单次检车情况进行评估,剔除无效数据。
我们通过pyqt5界面开发库和pandas数据处理库开发数据批量导入分析工具,对每次检测下发的数据进行筛选与统计分析,分别计算每次检测的缺陷数量占比、达速率(包括统计得分长度、不得分长度、不评价长度、未检测长度等)、得分与非得分区段的CDI分量分析(统计CDI各分量的平均值、中位值、标准差等)、锚段CDI分量的得分分布情况,并进行可视化,分析各测量传感器的工作状态是否良好。单次检测数据分析结果如图1所示。
图1 单次动检数据分析界面
如图1所示,本次检测CDI管理评分仅为64.5%,且CDI不得分锚段较多。从CDIA的平均分和频数分布可以看出,绝大多数锚段的燃弧得分接近满分,说明燃弧传感器工作状态异常。缺陷中占比最大的是接触力缺陷,共有17个,但从接触力均值和频数分布看,全线的接触力得分主要集中在较小的范围,接触力传感器工作正常。
3 动检数据的统计学分析
动检数据具有以下几个特点:数据量庞大、多次检测一致性不强、里程上存在随机误差。因此我们需要根据动检数据的特点,运用大数据分析方法,筛选经常存在检测大值的薄弱区段,并分析其发生发展过程。
3.1 CDI数据的特点
图2是某高铁1-5月整条线路各单元CDI得分随里程变化情况,虽然单个锚段的CDI曲线在不同月份略有不同,但其整体变化趋势呈现出明显的规律,在K81、K148处存在明显高于附近的大值。
图2 某高铁1-5月锚段CDI曲线
通过pygraph库生成多次CDI数据曲线对比图,通过同步平移里程坐标,对比同一锚段不同日期的CDI得分变化。图3是某高铁线路K60-K80范围内四次检测的CDI曲线,为排除车型不同的干扰,均采用CRH2C-2150的检测数据。可以看出检测速度对CDI得分影响较大,相同速度下得分变化趋势一致性较强。通过对比多次检测曲线的CDI大值的一致性,可以进一步确认CDI超标锚段。
图3 同一线路多次CDI检测曲线对比界面
3.2 CDI锚段数据的聚类
CDI原始数据是按锚段逐行排列的,分析某个锚段的历史变化情况,首先需要将同一锚段的不同次检测的数据划分到一组。因此我们引入了聚类算法,按照起止公里标相近的原则将锚段数据进行分组。
常用的聚类算法有K-Means、均值偏移、DBSCAN和层次聚类等。由于在聚类前不确定簇的个数,原始数据包含离群点(例如某一次检测的里程误差过大),且需同时考虑锚段公里标和锚段长度两个量的相近程度,拟选用基于密度空间的无监督学习算法DBSCAN进行聚类。
对我段两年来共计85 242条CDI锚段数据进行聚类试验,密度函数选用起、止公里标差值的欧式距离,最小邻近距离设为100 m,最小簇大小设置为3,本次聚类成功的数据条数为83 817,占比98.3%,满足要求。
3.3 CDI锚段数据的分类分析
通过聚类计算,每组聚类成功的CDI锚段数据都获得了一个簇编号,簇编号相同的锚段即为同一锚段。然后按照FRM算法依次对每一簇数据进行统计,即计算F(近度:最近一次不达标时间)、R(频度:不达标次数÷达速次数)、M(额度:CDI超标最大值)、不达标时间分布(每季度不达标次数)。最后编写用户界面,对分类结果分线别、行别进行展示,如图4所示:点击左表中某一锚段,右侧显示每次检测结果并绘制柱形图,分析该锚段CDI各分量的历史变化情况。
图4 不得分CDI锚段历史分析
3.4 动检缺陷的聚类分析
接触网的动检缺陷数据是指1C或3C装置下发的缺陷及报警数据,其特点是一级缺陷数量较少,二级缺陷数量庞大且偶发性强。缺陷分析中我们最关注的缺陷有两种:固定处所频繁检出的、首次检出的。前者表示某处接触网经常处于一种不良的运行工况中,后着则表示设备状态可能发生了突变。因此我们首先需要分析缺陷发生的频繁程度。
动检缺陷数据的聚类同样根据缺陷里程参数的分布密度,缺陷里程数据跟CDI数据中的里程数据类似,同样存在50 m左右的误差,但使用DBSCAN进行聚类的效果并不好。因为缺陷数据的里程只有1维,且没有明显间隔,导致DBSCAN聚类后的簇宽度会达到2 km或更长。为了缩小簇宽度,我们选用里程窗滑动求频次的方法进行聚类,具体方法是:选用固定公里标窗口按10 m步进平移,依次求窗口范围内的缺陷数量,得到全线的频数曲线,然后利用finkpeak算法找到频率峰值所在的位置。图5是某线K50-K75内接触线接触力缺陷频数曲线(100 m窗),叉号表示用finkpeak算法找到的频数曲线波峰。
图5 某线K50-K75范围内接触力缺陷频数分布情况
3.5 动检缺陷数据的聚类分析
把计算得到的某个峰值里程数据代入动检缺陷库查询,得到一个缺陷信息分组,分组内的缺陷视为同一接触网设备产生。对每个信息簇统计P(近度:最近一次产生缺陷时间)、F(频度:最近两年每季度的缺陷个数)、M(幅度:缺陷最大值),得到该组缺陷的分类统计信息。最后利用pygraph可视化工具实时输出每组缺陷关于日期、里程的散点分布图,进一步确认缺陷的集中程度,具体界面如图6。
图6 动检缺陷聚类分组分析界面
4 检测数据综合分析
前文介绍了从庞大的数据中筛选高频缺陷和突发缺陷的方法,实现了对缺陷库的动态分组管理,大大减少了需要关注数据的个数。为了更有效地指导检修,还需要对缺陷数据进行深度分析,判断缺陷产生的原因和危险程度。
接触网是一个系统性工程,因此我们要充分利用各种数据,通过横向关联对比、纵向历史追溯等方法,全面掌握缺陷设备的状态变化。同样,对同类型缺陷进行专项综合分析,找出各种可能原因中的共性因素,不仅可以帮我们找到快速识别该类型缺陷的方法,也可以指导现场对同类设备进行补强,是一种灵活、有效地提高设备可靠性的方法。
我们编制程序,自动将缺陷信息根据里程关联线路基础数据、检测数据、生产数据等,分类汇总生成树形数据结构,以便分析人员根据需要进行查询。
4.1 线路基础数据查询
主要包括缺陷里程附近的轨道环境信息和接触网设备信息。轨道环境信息主要包括钢轨的曲线、竖曲线、坡度、桥梁、隧道、区间、通道门等。设备特征主要包括在关节、线岔、分相内的具体位置、附近是否有电连接、硬横梁等。
为了便于分析人员查看,将匹配到的每个信息条进行计算,按照固定格式生成一个新字段。例如,曲线信息可以缩写为:“曲线半径”-“外轨超高”-“距起点长度”-“距终点长度”-“是否属于缓和曲线”-“缓和曲线长度”。
4.2 历史动静态波形查询
主要包括对缺陷地点检测的1C、4C的弓网波形数据的查询。受制于1C、4C数据解析方法不开放,无法直接使用,所以我们利用python-win32工具调用波形查看软件的操作系统接口,自动对缺陷位置的每次检测曲线进行截图,并附上本次检测的车型、速度、检测弓开口、所属锚段CDI均值等信息。针对1C波形公里标误差较大的问题,我们根据CDI锚段数据库中锚段的起始里程对缺陷里程进行重定位,取得良好的对齐效果。
4.3 缺陷查询
主要包括1C、2C、3C缺陷库和检修问题库中与弓网关系相关的缺陷的查询。并对查询到的每类缺陷信息进行梳理统计,合并生成一个字段,并链接到查询到的各类数据表。合并字段包括缺陷频次和缺陷类型两个部分。缺陷频度为当前日期往前每三个月缺陷发生的次数,缺陷类型信息为缺陷类型和发生次数。例如,某缺陷的3C查询结果为:“0-4-6-8-6_疑似中锚线夹燃弧:3_疑似燃弧:3-疑似吊弦松_2”。
5 总结与展望
动检数据分析方法是一个不断发展的过程。我们在数据获取广度、分析深度上还有很大提升空间。我们将以近些年来多发的接触网故障为问题导向,分析故障设备的典型特征,不断改进分析方法。对现有检测设备无法覆盖的风险,要加强技术攻关,改进检测设备,不断缩小接触网检测与设备安全、现场维修之间的鸿沟。
此外,接触网检测管理正朝着大数据管理、智能分析方向不断发展。通过建立局级、站级别的6c数据中心,实现不同检测设备、不同类型检测数据之间的互联互通和多用户实时操作,旨在解决数据孤岛和信息传递效率低下的弊病。