电力机车牵引能耗数据挖掘及 分析框架研究
2022-03-17蔺红生
蔺红生,王 烈
(中国铁道科学研究院集团有限公司 科学技术信息研究所,北京 100081)
铁路是典型的节能环保绿色交通工具,但同时也是能源消耗大户,铁路节能减排无论是对于经济效益还是对于生态环境保护都显得尤为重要。根据中国国家铁路集团有限公司2021年统计公报,国家铁路营业里程13.1万km,其中电化率75.4%;国家铁路机车拥有量为2.09万台,其中内燃机车0.74万台,占比35.4%,电力机车1.35万台,占比64.6%;国家铁路能源消耗折算标准煤1 580.74万t。在铁路运输总能耗中,机车牵引能耗占比最大,约为全国铁路总能耗的60% ~ 70%[1],特别是高速铁路,机车牵引能耗占到总能耗的70% ~ 85%以上[2]。因此,研究分析电力机车牵引能耗信息,对于提高机车能耗管理水平具有重要现实意义。
1 电力机车能耗采集现状及存在问题
目前,铁路机车能源消耗原始数据来源于机车乘务员出勤时填记的“司机报单”。“司机报单”是统计机车、车辆运用效率和机车能源消耗情况,考核机车乘务员工作量的原始单据,是编制各种机车统计报表的主要依据[3]。
我国铁路机车能耗统计是基于人工抄表(或电子报单)的事后统计,缺乏分机车、线路、牵引质量等运输特征的能耗信息分析,存在数据时效性不强、精细化程度较低、统计结果误差较大等问题[4],造成统计报表无法直接反映机车担当交路的能源消耗情况和日常机车消耗出现的异常情况,不利于机车能耗的精细化管理。
随着电气化铁路的高速发展,特别是车载智能电表的普及和使用,从信息源点着手,由人工采集(司机报单)转变为车载设备的自动连续采集,利用大数据分析手段实现机车能耗的精细化应用与管理已经具备条件。车载设备采集和记录了海量的机车运行数据、状态数据、安全数据及能耗数据,对这些海量数据进行关联和深入分析,深度挖掘数据背后的价值,提供按照机车、线路(区段)、牵引质量等更加细化的能耗信息,是管理决策所必需的。
2 电力机车牵引能耗数据挖掘分析框架
机车牵引能耗不仅受牵引机型、交路任务(列车种类与运行路径)、牵引质量、运输组织及气候条件等客观因素的影响,同时司机操纵水平和操作技能对能耗也存在较大影响,同列车、同区段、同机型牵引,不同的司机操纵,能耗也有很大差别,因此通过优化司机操纵是一种有效的节能降耗手段。机车牵引能耗是实时动态变化的,是各种因素共同作用的结果,对机车能耗信息进行深度挖掘,分析不同运输条件下能耗变化成因,是促进节支降耗、精细化管理的重要措施。
针对上述问题,结合机车能耗分析应用需求,从机车能耗信息采集源点着手,利用现有车载监测设备对能耗信息进行采集和传输,融合并关联智能电表数据、列车运行数据、线路基础信息等多源异构数据,运用专业的数据挖掘技术,构建面向运输生产过程和运输产品的电力机车牵引能耗分析框架。系统总体架构设计遵循分层设计的思想[5],按照功能划分成不同的层次,由数据预处理层、数据存储层、数据挖掘分析层、用户交互层4部分组成。电力机车牵引能耗数据挖掘分析框架如图1所示。
图1 电力机车牵引能耗数据挖掘分析框架Fig.1 Data mining and analysis framework for traction energy consumption of electric locomotives
(1)数据预处理层。根据数据挖掘分析需求,制定数据采集标准和流程,对来源不同的智能电表数据(正向有功和反向有功等),列车运行监控装置(LKJ)的列车运行数据(运行速度、机车号、车次、司机号、车站号、公里标、进出站、编组、牵引质量等),列车控制与监视系统(TCMS)的车载微机数据(司机操纵、手柄级位等)及线路基础数据(线路号、坡度、区间等)等进行统一采集,通过车载4G/5G设备进行数据实时传输或在机车入库之后以无线局域网(WLAN)的方式进行数据转储。由于车载装备采集数据存在数据不完整、缺失、不一致等问题,需要基于大数据的预处理技术进行数据清洗、数据筛选和数据归并,对不同来源的数据进行关联和匹配。对于不同的数据包括异常值、重复值、缺失值等需要采用相对应的预处理方法。异常值通常是由车载设备损坏或者记录错误造成的,在数据预处理过程中需要尽可能剔除这种异常的数据。重复值是由于列车处于静止状态,机车能耗、速度、里程等重复记录,按照记录时间、列车进出站等进行数据辨析和筛选。缺失值通常由于部分车载记录设备故障或传输问题导致,可使用平均值、中位数、众数等填充缺失值,或者使用预测值、线性插值等方法进行填充。通过数据预处理,达到数据的一致性、准确性和完整性,提高机车能耗数据分析的精确度。
(2)数据存储层。数据仓库是前端查询和数据分析的基础,关键在于机车能耗数据的存储和管理。针对现有各业务系统的数据,进行数据抽取、清洗、转换,并有效集成装载到数据仓库中,按照业务主题进行组织,对海量机车能耗数据进行存储和快速检索,为能耗数据挖掘分析提供支撑。
(3)数据挖掘分析层。数据挖掘分析是针对不同的分析需求,建立不同的模型算法进行数据挖掘。根据数据挖掘主题和目标,从海量机车能耗数据中通过建立合适的挖掘模型算法(数理统计、机器学习、深度学习、专家系统等),挖掘出数据之间的内在联系和潜在规律,生成数据多维分析表,揭示出数据之间隐藏的关系、模式或趋势。
(4)用户交互层。根据用户输入,返回分析挖掘结果,生成不同角度、不同形式的报告或图表,以简单明了、图形化的方式呈现给终端用户,提供分时间、线路、区间、司机、机型等不同指标维度的机车能耗和单耗数据测算和分析结果展现,为机车操纵提供数据支撑和参考依据,同时还可以实时监测机车能耗数据并对异常状态进行预警和提醒。
电力机车牵引能耗数据挖掘分析框架重点解决了能耗统计信息采集源点与生产运营过程联系不够紧密、不及时等问题,将能耗数据与运输生产信息进行关联整合,提出系统解决方案和方法手段,构建能耗动态变化与影响因素间完整的逻辑链条,可以实现分线路、车次、站间、司机等多维度单耗区间分布测算,以及单耗、总能耗预测,为能耗精细化分析奠定了基础。在电力机车牵引能耗数据挖掘分析框架的基础上,进一步可以创建具有能耗数据导入、处理、分析、查询、预警等功能的机车能耗大数据分析挖掘平台,涵盖数据采集、预处理、建模、查询分析到数据可视化的全过程,实现分机型、车次、区段、线路、司机等的机车能耗查询对比分析,进一步提升能耗科学管理水平,促进节支降耗、降本增效。
3 案例分析
以京沪线(北京—上海) HXD1D型电力机车担当的旅客列车作为实例,对机车牵引能耗进行分析测算。列车自北京站始发,经停天津、沧州、德州、徐州等站,终到上海站,研究区段范围为北京—徐州段,线路全长814 km;时间范围从2020年1月到2020年6月,合计118趟列车的运营数据。北京—徐州段分站间机车单耗数据情况如表1所示。实例测算将机车能耗数据分析细化到任意停站之间,并与司机操纵、牵引质量、列车速度等进行关联分析,从平均值、极差、标准差、离散系数等角度对能耗数据进行深度挖掘,便于发现问题及时预警纠偏,进一步提高能耗分析精度,为司机操纵和节支降耗提供数据参考。
3.1 机车能耗数据总体情况分析
根据表1,北京—徐州段机车平均单耗163.39 kW·h/ (万t·km),最小值146.57 kW·h/ (万t·km),最大值198.70 kW·h/ (万t·km),极差52.13 kW·h/ (万t·km),相对极差达到31.9%。机车单耗在均值以上列车趟数占比44.92%,其中单耗在均值5%以上列车趟数占比14.41%,单耗在均值0 ~ 5%之间列车趟数占比30.51%。北京—天津区间的离散系数最大,为8.34%,极差也最大,为70.27 kW·h/ (万t·km),波动幅度最大,具有较大的节支降耗空间。北京—徐州机车单耗分布图如图2所示。机车单耗离散系数、极差对比图如图3所示。
表1 北京—徐州段分站间机车单耗数据情况 kW · h / (万t · km)Tab.1 Locomotive energy consumption for intervals between Beijing and Xuzhou
图3 机车单耗离散系数、极差对比图Fig.3 Comparison of coefficients of variation and ranges of locomotive energy consumption
通过上述分析可以得出京沪线北京—徐州段的机车单耗分布区间、机车单耗超出平均值的占比以及机车单耗在线路区段的波动幅度大小,对该线路区间机车单耗指标和重点降耗区段的目标设定有重要参考意义,可以为能耗管理工作精细化奠定基础。
3.2 机车能耗按月、分编组、分司机均值分析
机车单耗按月均值对比如图4所示,机车单耗按编组均值对比如图5所示,机车单耗分司机均值对比如图6所示。从图4—图6可知,2020年5月机车单耗均值均高于其他月份,其中北京—徐州区间2020年5月均值最大,单耗均值174.14 kW·h/ (万t·km),2020年2月均值最小,单耗均值158.05 kW·h/ (万t·km),极差16.09 kW·h/ (万t·km)。12辆编组单耗均值明显高于14辆、16辆及18辆编组的单耗均值。其中北京—徐州区间12辆编组均值最大,单耗均值177.88 kW·h/ (万t·km),16辆编组均值最小,单耗均值158.23 kW·h/ (万t·km),极差19.65 kW·h/ (万t·km)。司机05单耗均值均高于其他司机均值,其中北京—徐州区间司机05均值最大,单耗均值172.39 kW·h/ (万t·km),司机01均值最小,单耗均值157.60 kW·h/ (万t·km),极差14.79 kW·h/ (万t·km)。
图4 机车单耗按月均值对比Fig.4 Comparison of monthly average locomotive energy consumption
图5 机车单耗按编组均值对比Fig.5 Comparison of average locomotive energy consumption by marshaling
图6 机车单耗分司机均值对比Fig.6 Comparison of average locomotive energy consumption by drivers
通过机车单耗按月历史均值、分编组均值及分司机均值的对比分析,使机车能耗管理精确到各个运行区间、编组和不同司机,对机车单耗在该线路区段的季节性变化、运输生产过程中的编组计划及司机的考核评价、规范操纵提供重要的参考依据。
3.3 司机操纵对机车能耗的影响分析
机车单耗分司机离散系数对比如图7所示,机车单耗分司机箱线图如图8所示。从图7、图8可知,司机05离散系数明显高于其他司机,波动幅度最大。机车单耗与司机操纵关系密切,单耗影响在3% ~ 5%,最大可达8%左右。我国铁路规模大、里程长,不同地区或线路之间的运输情况各异,列车司机操纵水平不一,并且在进行操纵时存在一定的自主空间,牵引能耗存在很大的节省空间[6]。筛选出优秀司机节能、平稳的记录数据,建立深度学习模型,固化手柄级位和优化操纵曲线,在满足安全、准点、舒适等多目标条件的约束下,使列车能耗最低。通过线下培训和线上实时提醒的方式规范司机操纵,并可在辅助驾驶、自动驾驶方面进行深入探索和研究。
图7 机车单耗分司机离散系数对比Fig.7 Comparison of coefficients of variation of locomotive energy consumption by drivers
图8 机车单耗分司机箱线图Fig.8 Boxplot of locomotive energy consumption by drivers
3.4 牵引质量对机车能耗的影响分析
机车能耗与牵引质量曲线拟合图如图9所示,北京—徐州段机车能耗预测情况如表2所示。将北京—徐州段的12辆、14辆、16辆、18辆编组的机车能耗与牵引质量进行曲线拟合,得到拟合式:y = 0.019 6 x2- 23.017 x + 16 439,R2达到0.999 8, R2是趋势线拟合程度的指标,它的数值大小直接反映趋势线的估计值与对应的实际数据之间的拟合程度,拟合程度越高,趋势线的可靠性就越高。同时利用趋势线对13辆、15辆、17辆、19辆编组的机车能耗进行数据预测,与实际值进行比较,误差均在±4%以内,取得较好的预测结果。
图9 机车能耗与牵引质量曲线拟合图Fig.9 Curve fitting diagram of locomotive energy consumption and traction weight
表2 北京—徐州段机车能耗预测情况Tab.2 Prediction of locomotive energy consumption between Beijing to Xuzhou
3.5 列车速度对机车能耗的影响分析
机车瞬时能耗速度曲线图如图10所示。选取机车单耗波动幅度最大的司机05,对同一线路、同一区间、同一车次不同日期的能耗速度曲线进行对比,其中2020年5月3日北京—徐州区间的单耗为198.70 kW·h/ (万t·km),2020年5月28日 北京—徐州区间的单耗156.72 kW·h/ (万t·km),前者比后者高出27%,可见列车的频繁加速/制动对能耗影响较大,并且列车在加速段的瞬时能耗明显高于匀速段的能耗[7]。机车运行能耗影响因素由大到小依次为起停次数、牵引质量和编组数量[8],因此应尽量避免列车在运行过程中不必要的起停,按限速、达速、恒速运行。
图10 机车瞬时能耗速度曲线图Fig.10 Speed curve of instantaneous locomotive energy consumption
4 结束语
从机车能耗信息采集源点着手,利用车载监测设备对能耗信息进行采集和传输,结合机车能耗分析应用需求,构建电力机车牵引能耗数据挖掘分析框架,通过对京沪线旅客列车机车能耗数据的整理、统计和分析,完成分线路、车次、站间、编组、司机等多维度单耗区间分布特征研究和测算,实现了对能耗数据的深度挖掘,满足了机车能耗管理和运营的信息需求。随着车载智能装备的不断完善,实时监测机车能耗数据状态,基于机车能耗分析框架,研发机车能耗大数据分析平台,引入深度学习、专家系统等技术,通过大数据计算分机型、分线路、分区间机车能耗标准值区间,依托计算结果开展司机操纵评价、列车平稳操纵、辅助/自动驾驶等方面的应用,为机车能耗总量预测、单耗分析、规范操纵、预算编制、清算结算等提供数据和平台支撑,为机车能耗管理提供更加精细化的服务,不断提高机车运用效率和运输服务质量。