基于网格的铁路轨道状态大数据可视化模型

2018-07-17刘仍奎王福田陈云峰

铁道科学与工程学报 2018年7期

李　擎，刘仍奎，白　磊, ，王福田，陈云峰

(1. 北京交通大学交通运输学院，北京 100044；2. 北京易华录信息技术股份有限公司，北京 100043；3. 北京交通大学轨道交通控制与安全国家重点实验室，北京 100044；4. 兰州铁路局工务处，甘肃兰州 730000)

轨道[1]是多种设备的集合体，是铁路行车的基础，其作用是引导机车车辆运行。如有砟轨道由钢轨、轨枕、道床、联结零件及防爬设备构成。全面直观地把握铁路轨道健康状态是科学编制养护维修计划的基础，对确保铁路行车安全具有重要意义。铁路现场主要以病害等级、病害数量、病害扣分及轨道质量指数 TQI等指标评定轨道设备状态[2−6]。Sadeghi等[7−11]提出利用轨道结构指数 TSI、轨道质量等级TQR、轨道不平顺功率谱、病害重复度、失效率等评定轨道设备状态。随着铁路工务信息化工作的不断推进，以及更多检查检测方式的广泛使用，轨道状态数据日益丰富。但是，目前铁路管理者主要利用折线图、柱状图等简单图形对分析结果进行直观化展示，难以深度挖掘数据中潜在的规律，无法直观、清晰地展示海量数据中的相关信息。数据可视化分析是大数据分析的一类重要研究方向。数据可视化分析的基本思想是，借助计算机图形学以及图像处理技术，对数据进行组织融合，从不同的维度观察数据，对数据进行更深入的分析，实现对 3类知识的获取[12−13]：1) 异常：判断数据集中是否存在“问题”数据；2) 关系：分析不同数据间的相关性；3) 模式：分析数据中存在的某种规律。本文研究提出一种基于网格的铁路轨道状态大数据可视化模型(Grid-based Visualization Model for Big Data of Railway Track Condition,GVM-BDRTC)，直观展现不同轨道设备健康状态的相似性或差异性，让管理者可以在较小的空间范围内全面直观把握轨道设备健康状态分布，为轨道养护维修管理提供决策支持。

1　铁路轨道网格

基于铁路基础设施设备网格化管理理论[14]，作者把线性、连续的铁路轨道按照200 m的长度，划分成若干相邻等长的“小区段”。“小区段”是钢轨、轨枕、道床、联结零件等设备组成的综合体。每个“小区段”称为一个轨道网格。轨道网格的长度理论上应充分小，便于管理者更精确地把握轨道健康状态，但应与铁路现有的管理水平与能力相匹配。

某一轨道网格状态是由该网格里程范围内各设备状态共同确定的，其状态评定指标包括高低、轨向、轨距、水平、三角坑等轨道局部不平顺性指标，轨道质量指数TQI，病害数量，病害扣分，平均病害率，病害变化率，平均维修时间等。因此，管理者难以直接利用上述多维状态指标把握轨道网格健康。

2　基于网格的铁路轨道状态大数据可视化模型

2.1　模型构成

本文提出的基于网格的铁路轨道状态大数据可视化模型(GVM-BDRTC)，可在较好地保持轨道网格在原高维状态空间中健康状态相似关系的前提下，可视化展现轨道网格健康状态特征的相似性或差异性。模型GVM-BDRTC由3部分构成，其计算流程见图1。

图1　模型GVM-BDRTC计算流程图Fig.1　Algorithm flowchart of the GVM-BDRTC model

1) 以铁路轨道网格作为研究对象，使轨道健康状态在较小的空间范围内被管理者掌握；

2) 轨道网格多状态评定指标降维。在由多状态评定指标构成的多维空间中，采用各轨道网格的相互距离，定义各轨道网格健康状态的相似程度，利用多维尺度分析算法(Multidimensional Scaling，简称MDS)[15]，在较好地保持各轨道网格健康状态相似程度的前提下，对轨道网格多维状态评定指标进行降维；

3) 轨道网格健康特征聚类。利用混合层次 K均值聚类算法(Hybrid Hierarchical K-means Clustering，HHKMC)，在第2) 步计算结果基础上，对轨道网格的健康状态特征进行聚类分析。同时，在低维状态空间可视化地展现轨道网格状态的空间分布，分析原高维状态空间各轨道网格状态的相似性或差异性。

2.2　多维尺度分析算法

假设 Δ =[δij] 表示轨道网格在由原多状态评定指标构成的多维空间内的距离矩阵，空间维度用m表示，依据状态评定指标个数确定。矩阵Δ中的元素δij表示轨道网格Gi与轨道网格Gj的空间距离，用于表示健康状态的相似度，采用欧式距离定义。δij越小表明轨道网格样本间的健康特征越相似。D = [ dij]表示轨道网格在新生成的低维状态空间内的距离矩阵，空间维度用n表示，n＜m。矩阵D中的元素dij表示轨道网格轨道网格Gi与轨道网格Gj在低维状态空间的距离，采用欧式距离定义。dij反映了上述2个轨道网格在低维空间上健康状态的相似度。

多维尺度分析MDS算法的目的是使轨道网格在低维空间内的距离 dij尽可能与轨道网格健康相似度δij接近，见式(1)。用轨道网格在低维状态空间内的距离dij，近似表示各轨道网格健康状态的相似度。通过分析dij即可研究轨道网格健康状态间的相似性与差异性。

采用Shepard-Kruskal[16−17]算法，求解上述最优化问题，其算法流程如下。

Step 1：任意选取低维状态空间中轨道网格Gp的初始坐标，

Step 2：依据轨道网格在低维状态空间坐标，计算对应的距离矩阵，k=0。

Step 4：更新轨道网格 Gp在低维空间的坐标)，见式(2)。其中，n表示轨道网格数，θ表示迭代的步长。

Step 5：根据步骤4计算的结果，更新轨道网格点的距离矩阵。

Step 6：计算压力系数 S，见式(3)。若压力系数 s小于预先设定残差ε，计算结束；否则，返回步骤3。

2.3　混合层次K均值聚类算法

假设轨道网格样本有U个，聚类的簇数有S个。论文利用第 1.2节 MDS算法输出的轨道网格 z1,z2,…,zn状态数据，采用混合层次 K均值聚类算法HHKMC对U个轨道网格样本进行聚类分析，划分为S个簇，属于同一簇的轨道网格样本的健康状态具有极大的相似性，属于不同的簇的轨道网格样本的健康状态差异较大，具体算法如下。

Step 1：在属性变量z1, z2,…,zn构成的多维空间中，U个轨道网格样本各自作为一簇(或类)，即假定 U个轨道网格的健康特征各不相同。

Step 2：计算所有轨道网格簇两两之间的距离，判断两两轨道网格簇健康特征相似性。采用欧式距离定义轨道网格样本Gi与Gj之间的距离dij，见式(4)。轨道网格样本间的距离 dij用于衡量轨道网格样本间健康特征的相似性。其中，Zi是轨道网格Gi的状态属性变量， Zi= ( zi1,zi2,…,zin)T。Zj是Gj的状态属性变量，。

采用Average Linkage策略定义轨道网格簇Cv与Ce的距离Dve，见式(5)，即轨道网格簇间的距离是簇中所有样本对之间的平均距离。轨道网格簇间的距离Dve用于衡量轨道网格簇间健康特征的相似性，Dve越小表明轨道网格簇间的健康特征越相似。其中，tv表示轨道网格簇Cv中的样本个数。te表示簇Ce中的样本个数。

Step 3：将距离最短的2个簇合并为1个新的簇，即将健康特征最相似的2个轨道网格簇合为1个新的簇。

Step 4：重复步骤2，3，直到将U个轨道网格分为S个簇。

Step 6：分别计算每个轨道网格样本Gi与S个簇中心的距离，将这些轨道网格样本分别划归到距离最小的簇，即将轨道网格样本分别划归到与其健康状态最相似的轨道网格簇，如式(7)所示。

Step 7：根据聚类的结果，更新S个簇各自的中心，同步骤5。

Step 8：重复步骤6、7，直到S个簇中心不发生改变，得到轨道网格健康特征聚类的最终结果。

3　实例分析

3.1　背景介绍

兰新铁路是东起兰州西至乌鲁木齐的有砟轨道铁路。本节以兰新线上下行K548+000～K985+600里程范围内的1 447个轨道网格为研究对象，选用这些轨道网格2016年3月份的10 129条状态评定指标数据，验证论文提出模型 GVM-BDRTC的有效性。作者利用R编程语言[19−20]实现对模型GVMBDRTC的构建和求解。基于实际收集到的数据情况，本实例选用7个状态评定指标(见表1)衡量轨道网格状态，记为。表2为兰新线2016年3月份部分轨道网格的状态评定指标数据。

表1　选取的轨道网格状态评定指标Table1　Selected condition indexes of tracks grids

表 1中的“轨道质量等级 TQR”是依据轨道TQI及各类轨道几何局部超限病害个数确定的，该指标目前用于在兰州铁路局评定轨道线路健康状态。TQR划分为4个状态等级，TQR等级越高，轨道网格质量越差，表3是兰新线TQR的判定依据。

3.2　降维结果分析

作者采用模型GVM-BDRTC中的MDS算法，把轨道网格的多状态评定指标维度由 7维降到 2维。经过迭代23次后，Stress的改变量小于1×10−6，停止迭代。Stress=0.109 8＜0.2，这说明模型GVMBDRTC的降维效果良好，新构造出的轨道网格 2维状态空间，能较好地保持轨道网格在原7维状态空间中健康状态的相似关系。降维得到的2维状态指标，没有明确的物理含义，采用其计算出的欧式距离，衡量轨道网格间健康状态的相似程度。这些轨道网格新构造出的 2维状态指标值(部分)如表 4所示。

表2　兰新线2016年3月份轨道网格状态评定指标数据(部分)Table2　Condition indexes data of tracks grids in the Lanzhou-Xinjiang railway (partial)

表3　兰新线TQR判定依据Table3　Standards and definitions for TQR in the Lanxin Railway

表4　兰新线2016年3月份轨道网格新构造出的状态评定指标数据(部分)Table4　Reconstructed condition indexes data of tracks grids in the Lanzhou-Xinjiang railway (partial)

144 7个轨道网格在2维状态空间的状态分布图，见图2。图中的横坐标表示模型GVM-BDRTC新构造出的状态属性变量y1，纵坐标表示新构造出的状态属性变量y2。图中的圆点表示轨道网格。图中两个轨道网格的空间距离越近，说明这2个轨道网格健康状态越类似。从图2可明显看出大部分轨道网格处于图中左下角。

3.3　聚类结果分析

作者采用模型GVM-BDRTC中的HHKMC算法，对1 447个轨道网格的健康状态特征进行了聚类分析。这些轨道网格健康状态特征划分为了三大类(或簇)，如图 3所示。属于不同簇的轨道网格用不用颜色和形状的点表示。红色圆点表示属于第一簇(用Cluster=1表示)的轨道网格，绿色三角点表示属于第二簇(用Cluster=2表示)的轨道网格，蓝色方框点表示属于第三簇(用 Cluster=3表示)的轨道网格。通过分析图3可知，这些轨道网格分布在图中的3个区域：1) Cluster=1的轨道网格处于图中左下角，其y1，y2值较小；2) Cluster=2的轨道网格处于图中右上角，其 y1的值较小、y2的值较大；3) Cluster=3的轨道网格处于图中右下角，其y1的值较大、y2的值较小。

图2　轨道网格2维状态空间分布图Fig.2　2-dimensional spatial distribution map for track grids condition

图3　轨道网格健康状态聚类结果图Fig.3　Clustering map for health features of track grids

3.4　与TQR对比分析

作者将模型 GVM-BDRTC分析结果与轨道质量等级TQR进行了叠合分析，见图4。属于不同簇的轨道网格用不同的颜色表示，红色表示Cluster=1的轨道网格，绿色表示 Cluster=2轨道网格，蓝色表示Cluster=3的轨道网格。不同等级的TQR用不同的数字表示，TQR=1的轨道网格用“1”表示，TQR=2的轨道网格用“2”表示，TQR=3的轨道网格用“3”表示，TQR=4的轨道网格用“4”表示。

从图4可分析出，1) Cluster=3的轨道网格，主要对应 TQR=4、TQR=3的轨道网格，这些轨道网格的健康状态较差；2) Cluster=1轨道网格，主要对应 TQR=1的轨道网格，这些轨道网格的健康状态较好；3) Cluster=2的网格，主要对应TQR=2，TQR=1的轨道网格。由此可知，轨道网格的模型 GVMBDRTC分析结果与相应轨道质量等级TQR评定结果基本一致，这反映了模型 GVM-BDRTC的有效性。但上述分析结果也存在一定的差异性，部分健康状态相似的轨道网格却对应不同的 TQR值，这说明了模型GVM-BDRTC分析结果与TQR判定方法相比更科学。

图4　模型GVM-BDRTC分析结果与TQR叠合分析Fig.4　Overlaying results of GVM-BDRTC and TQR

综上分析，模型 GVM-BDRTC能实现对状态差异较大的轨道网格进行不同程度的区分，对状态类似的轨道网格进行很好的聚类分辨，同时对轨道网格健康状态分布进行直观清晰的展现。

4　结论

1) 基于铁路基础设施设备网格化管理理论，将铁路线路划分为连续的200 m的轨道网格，以轨道网格为基本单元，提出了基于网格的铁路轨道状态大数据可视化模型GVM-BDRTC，直观展现了各轨道网格健康状态的相似性或差异性，提升了管理者对数据的分析挖掘能力，提高了管理者对轨道网格健康状态分布的整体把握。作者采用兰新线的实际数据验证了模型 GVM-BDRTC的有效性，并将模型的计算结果与兰州铁路局现场常用的指标 TQR进行了叠合分析。

2) 如何将本文提出的可视化模型与 GIS技术相结合，实现更丰富的轨道状态数据可视化效果，是下一步研究的重点。