APP下载

基于司机操纵模式学习的列车节能自动驾驶研究

2019-06-08李国华刘尧黄晋刘炎

湖南大学学报·自然科学版 2019年4期
关键词:节能优化机器学习

李国华 刘尧 黄晋 刘炎

摘   要:基于优秀司机运行记录数据,提出一种基于机器学习技术的列车节能优化驾驶方法架构,利用层次分解的思想结合集成机器学习方法从优秀司机的驾驶日志数据中挖掘出隐藏的优秀司机驾驶模式,分别对速度信息和档位信息进行学习预测,以实现列车节能优化自动驾驶决策,并选用实际铁路线路和机车数据进行了试验验证.试验结果表明,在保证列车安全、准点、平稳等约束条件下,本文列车节能优化驾驶方案相比司机平均水平可节能约7%.

关键词:列车操纵;节能优化;司机操纵模式;机器学习

中图分类号:U29-39               文献标志码:A

Study on Train Energy-efficient Automatic Driving

from Learning Human Driver Patterns

LI Guohua1,2,LIU Yao3,HUANG Jin3,LIU Yan3

(1. School of Transportation and Logistics, Southwest Jiaotong University, Chengdu 610031,China;

2. China Academy of Railway Sciences Co Ltd, Beijing 100081, China;

3. School of Software, Tsinghua University, Beijing 100084, China)

Abstract: Based on the data of excellent driver's operation records,a framework of energy-saving driving optimization was proposed using machine learning technology. Hierarchical decomposition was applied to integrated machine learning method to excavate the hidden driving patterns from the driving log data of excellent drivers. The learning and forecasting of speed information and gear information were separately carried out to realize the automatic driving decision for energy-saving optimization of a train,and the actual railway lines and locomotive data were used for experimental verification. The test results show that under the constraints of ensuring the safety, punctuality and stability of the train, the energy-saving driving program of the train can save about 7% energy when compared with the average level drivers.

Key words: train operation;energy-saving optimization;driver patterns;machine learning

到2015年底,中國铁路的总营业运行里程已经达到12.1万公里,居世界第一位.与此同时铁路交通的能源消耗量大,仅2015年铁路的能源消耗折算成标准煤就高达1 569.47万吨,铁路运输已经成为我国交通运输中耗能最大的部门之一.在能源消耗方面,以内燃列车为例,目前在我国运营的内燃列车总量达到1.1万台以上,如果列车能够节能3%,预计全国可以节约燃油15.6万吨/年,节约资金约12.8亿元/年[1],同时也可以减少大量的碳排放.

由于铁路列车运行的特殊性,影响列车节能的因素众多,但当列车的运行交路、列车编组、运行图、限速、列车基本参数等因素确定之后,优化列车的操纵方式就是列车降低能耗的最有效方式.司机是列车的直接操纵者,司机的驾驶水平良莠不齐,在同一条线路同样列车参数情况下不同司机驾驶的能耗有很大的差别.将能耗最低排名前20%的驾驶数据对应的司机称为优秀司机.结合优秀司机的驾驶经验,基于主动节能的列车控制优化系统,来指导甚至替代司机操作,可以普遍提高司机水平、显著节能,同时列车节能优化驾驶对于解放人力、减小污染、提高列车准点率和安全性等方面有着重要的作用和意义.

铁路列车节能优化驾驶问题需要考虑众多复杂的约束条件,而且数据常常是高度非线性的,操纵档位在任意时刻的组合变化情况多,是一个非线性有复杂约束的动态最优化问题.线路数据和列车数据是高维度的自然数据,这也意味着整个优化的搜索空间巨大,并且有必要对特征进行降维处理.另一方面操纵序列节点间的关联性比较大(不满足无后效性),计算当前操纵档位需要全面考虑前后操纵档位,因此列车节能优化驾驶问题在规定的较短时间内难以求得优化档位序列的最优解.同时对于列车操纵控制系统的实时性要求较高,很多优化方法无法直接应用来求解,对其进行研究有较大的现实意义,并且对于其他类似系统也有参考意义.

针对列车节能优化驾驶问题,从Ichikawa[2]于

1968年首次提出列车节能优化控制问题以来,国内外学者提出了诸多理论研究和解决问题的方案.Khmelnitsky[3]使用最大化原理构建一个可以获得分析最优解的数值算法,来开发决定列车牵引或制动的系统使得能够最大限度的减少列车在给定时间给定线路上的能量消耗;Phil[4]通过Pontryagin原理,进行了关键方程的推导,结合Kuhn-Tucker公式找到列车最佳驾驶策略条件和最佳的切换次数,并应用于列车节能优化驾驶;Howlett等[5]在2001年利用Euler-Lagrange和Kuhn-Tucker代数方程来构建列车节能优化最佳控制场景,并取得了较好的效果;Vu[6]通过研究列车最优化控制条件,提出列车节能优化驾驶的必要条件,然后通过列车模型进行解析求解,获得节能操纵档位;Chang等[7]将遗传算法引入到列车节能优化控制的研究中,在保障列车准时性、平稳性、安全性的情况下,以最小化总能耗为优化目标,并实验证明遗传算法为这种多约束多优化目标的问题提供了良好、可靠和快速的解决方案;Lechelle等[8]使用遗传算法解决了多约束条件下的列车节能优化驾驶,开发出来的OptiDrive计算仿真工具可以实现7%以上的节能效果;国内学者Su

等[9]综合考虑在连续车站的时刻表和列车能耗,通过提出的数学模型计算在连续车站间的约束时间内的最优速度运行曲线;Feng 等[10]在研究城市地铁节能优化操纵问题中通过最大值原理分析出列车在各种不同类型坡道上的速度曲线以及档位操作模式的变换次数,然后提出节能驾驶速度曲线的分析方法,最后使用序列化二项式规划的方法进行求解;Li等[11]使用“坡段三分法”将列车节能优化驾驶问题转换为传统的优化问题,使用遗传算法进行寻优,同时对方案进行模拟仿真,验证了其有效性;Yang等[12]结合时刻表和列车的牵引和制动操作,研究列车的最优驾驶方式,并提出这种求解方式将成为以后的新趋势.本文针对现有研究方法的不足之处,利用集成学习的优秀泛化能力,提出一种基于集成学习与分层结构的列车节能优化驾驶解决方案.利用集成学习方法,结合数据不均衡处理与特征选择技术,同时在预测过程中加入安全调控策略,在满足列车安全、平稳、准点等约束条件下,有较好的优化效果和较高的计算效率,达到了列车节能优化驾驶的目的.

1   列车节能优化驾驶问题

列车的节能优化驾驶问题往往具有高维度、非线性、求解组合复杂多变的特点,同时在列车运行过程中,也会有诸多因素影响列车的能耗.如图1所示,其中人为因素和附加因素一般是不可控的,运行线路、列车属性、列车状态、列车编组是可确定因素.列车节能优化驾驶的目标就是在上述因素的约束下计算出最节能的列车驾驶方式.

由于列车的操作档位是控制列车运行的唯一方式,同时列车能量消耗也是操作档位的直接体现,所以要分析列车的节能优化驾驶就需要研究列车的档位能耗.不同列车的不同档位对应的能量消耗一般不相同,图2和图3分别表示HXN3列车的牵引档位能耗曲线和制动档位能耗曲线,图中横坐标为档位,纵坐标为能耗,能耗单位kg/s代表某一档位持续一秒所消耗的燃油(能量).由图中曲线可以看出,对于列车的牵引档位,档位越高能耗越高,对于列车的制动档位,不同的制动档位能耗相同.了解列车的档位能耗对应关系有助于分析和理解优秀司机的操作方式,同时可以计算出档位操作序列的能耗,为后续的试验评估提供方法和依據.

为简化问题,仅考虑沿列车运行轨道方向上列车所受到的力,列车的运动受力方程如下:

式中:v是列车的运行速度;s为列车所处的位置(一般使用公里标来代表);ds为列车运行的距离;t为列车的运行时刻时间;dt为列车运行ds所花的时间;F表示列车沿轨道方向上所受的力;m为列车质量;ρ为质量的影响因子;dv为列车的速度变化;

f(s)代表列车在s处受到的牵引力或制动力;Rb(v)代表列车在运行过程中与铁轨摩擦产生的阻力;

Rl(v)代表列车运行过程中影响因素最大的三个线路环境因素(坡段、隧道、弯道)的合力.

列车的节能优化驾驶问题就是在特定条件下计算出控制列车运行的尽可能节能的控制序列,依据列车动力学式(1),提出列车节能优化驾驶的优化目标如式(2)所示,约束条件如式(3)与式(4)所示:

式(2)中:f(s)为列车操纵档位控制的牵引力或制动力;列车所处位置s(公里标)和速度v作为列车运行的实时状态变量;OE为列车总能耗;φ(f)为列车的控制档位;λ为常量系数.约束式(3)中:f(s)表示列车的牵引力或制动力;v(s)表示列车在s处的速度,vlimit(s)由线路限速信息决定,列车在任何时刻都不允许超限速运行.约束式(4)中:OT表示列车实际运行时间T和预定时刻表时间T的差值, T一般由线路的时刻表信息确定,需要小于预定的时间偏差参数Tdeviation(一般为3 min);sstart为列车的运行开始位置;send为运行结束位置;vstart为起始运行速度;vend为终止运行速度,sstart、send、vstart和vend需要在优化计算前预先设定,作为列车运行过程中的边界条件.

本文将时间因素OT作为优化问题的约束条件之一,而没有作为优化目标,由此降低问题的复杂度,使得优化的目标只有一个,即求出在各种约束条件下使列车的能耗尽可能低的档位操作序列.

2   基于集成学习的列车节能优化驾驶方案

针对列车节能优化驾驶问题中高维、多约束、非线性、实时性要求高等难点,本文提出一种基于集成学习和分层结构的列车节能优化驾驶解决方案,使用离线训练到在线预测的思想,最终得到的可以控制列车运行的档位操作序列是具有时间属性的离散档位的集合.

2.1   问题分析与设计思路

为研究优秀司机的驾驶方式,分析了大量司机的驾驶日志数据(从列车行驶记录仪中获得),发现在司机的驾驶行为中有许多共同之处,如图4所示,图中横轴为公里标,左侧纵轴为档位,右侧纵轴为速度,曲线①为列车档位,曲线②为列车运行速度,曲线③为线路加算坡度.从图中可以看出,在相同的线路上列车的运行方式和司机驾驶机车的方式类似的模式,并且多数情况下这些相似的驾驶模式易于识别.因此从大量优秀司机(驾驶数据能耗最低排名前20%的司机为优秀司机,其余为普通司机)的驾驶日志数据中发现优秀司机共有的驾驶方式,对于解决机车节能驾驶非常有价值.

2.2   分层思想

在本文解决方案分层的思路中,首先从优秀司机的驾驶日志数据中挖掘出“粗粒度”的不同分段下列车运行速度信息,进而将分段继续细分,再挖掘被细化的分段中“细粒度”的档位信息.列车节能优化驾驶解决方案分层思路如图5所示,预测阶段分为速度层和档位层,在速度层首先使用分类模型预测列车应该有的速度变化模式,然后利用上一步结果根据回归模型去预测速度变化模式中每一个速度变化应该运行的距离长度,在档位层同样使用分类模型预测列车应该有的档位变化模式,利用上一步结果根据回归模型去预测档位变化模式中每一个档位应该运行的距离长度,最终得到的档位信息集合,经过简单的牵引计算转换即可得到有时间属性、可以控制列车运行的节能优化档位操纵序列.

2.3   总体设计

依据上述分析,提出基于集成学习的列车节能优化驾驶框架,采用离线模型训练和在线预测相结合的手段,离线模型训练阶段从优秀司机的驾驶历史数据中使用集成学习方法学习到优秀司机的驾驶方式;在线预测阶段使用离线训练好的模型以分层组织的方式对新数据进行预测,首先预测列车的运行速度信息,然后通过速度信息预测列车的档位操作序列,解决方案中分层思想很好地解决了操作档位难以直接预测的问题.

为了保证速度信息预测和档位信息预测的效果,采取集成学习的方法,通过多种集成学习算法的试验对比选择随机森林和Bagging(Bootstrap aggregating)[15]集成学习算法集成REPTree(Decision Tree with Reduced Error Pruning)[16]作为分类器和回归器(随机森林和Bagging算法均为优秀的集成学习算法).最后在预测过程中加入安全保障策略和档位处理方法,得到可以控制机车运行、具有时间属性的离散档位序列,这些档位序列中包含了优秀司机的驾驶方式,从而达到节能优化驾驶的目的.基于集成学习的列车节能优化驾驶框架如图6所示,整个框架分为离线模型训练阶段和在线预测阶段,具体介绍如下.

2.3.1   离线模型训练阶段

1)数据预处理.首先处理获得的优秀司机驾驶日志数据和对应的线路数据,其中线路数据将按照不同的坡段类型被分段处理,司机的驾驶日志数据根据线路分段和模型训练需求被切割为不同的样本训练数据.然后针对数据特点使用数据不均衡处理算法,对数据进行上采样操作,一定程度上解决了数据不均衡问题.最后对训练数据集进行特征选择操作,只选取最有用的特征,这样可以排除部分特征的干扰,同时加快模型的训练和计算速度.

2)速度信息预测模型训练.该阶段利用训练数据集中相应的训练数据进行机器学习模型的训练.将速度信息的预测分为速度变化模式預测和速度趋势运行长度预测两部分,集成学习算法分别为随机森林(用于分类预测)和Bagging算法(用于回归预测).本阶段的主要产物为速度变化模式预测模型和速度趋势运行长度模型.

3)档位信息预测模型训练.该阶段与速度信息预测模型训练相同,也是使用随机森林(用于分类预测)和Bagging算法(用于回归预测)训练档位信息预测模型,在训练数据集中需要考虑更多的特征属性,包括列车速度的相关信息等.本阶段主要产物为档位变化模式预测模型和档位运行长度模型.

2.3.2   在线预测阶段

1)数据预处理.预测阶段的数据预处理,首先从列车上的相关设备获取列车相关参数和线路相关参数,并进行预处理,按照训练数据集的特征准备数据,数据格式应同训练阶段数据格式一致.

2)速度信息预测.首先使用速度变化模式预测模型预测速度的变化模式,然后将速度变化模式信息作为一部分输入特征,利用速度趋势运行长度模型预测速度趋势运行长度,由此可知道列车在某一区段的运行速度模式和以某一速度趋势运行的

距离.

3)档位信息预测.该阶段将速度信息作为部分特征输入,使用档位变化模式预测模型预测档位变化信息,将档位信息作为特征输入使用档位运行长度预测模型预测档位运行的距离,由此得到列车的操作档位和应用该档位行驶的距离.

4)安全策略调控及档位后处理.在预测的过程中,我们会加入安全策略对速度信息预测和档位信息预测进行调控,防止出现速度过高和速度过低的情况.同时将预测得到的档位和档位应行驶的距离通过计算转换为可以控制机车运行的带有时间属性的离散操纵档位序列,同时对这些档位做一些后处理操作,保证档位的平稳切换.

分层组织的第一层速度信息预测和第二层档位信息预测是基于集成学习的列车节能优化驾驶框架核心的部分,利用集成学习分类算法预测速度或档位的操作模式,集成学习回归算法预测每种模式中某种速度或者档位的运行距离.

在铁路系统中,交通调度等因素主要体现在列车前方信号灯的组合变化上,如双黄灯表示将要进入侧线行驶,则需要按侧线道岔限速规划行车曲线.如果不能反映在信号灯变化上的调度信息,如临时电话调度指令等,则可通过交互单元屏幕交互输入站间时刻的增减,进而影响曲线规划中的时刻表和平均速度等特征.

3   数据预处理与特征选择

3.1   列车运行线路数据预处理

从列车运行控制记录装置LKJ设备中获取到原始线路数据,需要对线路数据进行预处理操作,主要包含线路加算坡度计算、根据加算坡度的线路预分段操作、线路短分段合并三部分.

在2.1节中介绍了列车运行线路环境和加算坡度的概念,通过对线路信息加算,可以得到以10 m为单元的能够代表整条线路环境因素的加算坡度实值序列,线路加算坡度示意信息如表1所示.

根据加算坡度对线路进行预分段,将整条线路拆分为不同坡段类型的路段集合.通过研究加算坡度值的分布范围,确定了6种坡段类型,如表2所示,包含陡上坡、缓上坡、平坡、缓下坡、陡下坡和超陡下坡.

除了要考虑每一个坡段的坡度信息还需要考虑它们的长度信息.本文定义的短分段标准为分段长度小于等于列车长度的一半.对于连续的短分段合并,将多个连续长度小于等于列车长度一半的分段进行合并,合并后分段的加算坡度值为短分段的加算坡度值求平均值,同时根据新的坡度值得到新的坡段类型;对于两个长分段夹短分段情况的合并,当短分段左侧的分段长度小于右侧的分段长度时短分段合并到右侧分段,当短分段左侧的分段长度大于右侧的分段长度时短分段合并到左侧分段,合并后分段的加算坡度值为短分段与长分段加算坡度值求平均值,同時根据新的坡度值得到新的坡段类型.

图7为模拟仿真试验线路上一小段的线路分段示意图,图中虚线为分段的加算坡度,实线为线路的分段,加算坡度值和线路分段的类型相对应,这些线路分段基本代表了整个线路的环境因素影响.

列车日志数据包括列车基本参数和列车运行数据,可以从列车上的列车运行监控装置LKJ和列车控制与管理系统TCMS设备上获得,LKJ中主要记录了运行线路、列车调度、列车所处位置和对应的速度等信息,TCMS中主要记录司机操作机车的档位等数据.为方便后续计算和分析,将列车的运行数据以速度的持续时间进行切割,速度的持续时间设置为0.5 s.将线路分段数据与机车运行数据进行映射,列车运行数据按照分段分割.

3.2   基于SMOTE的数据不均衡处理

SMOTE (Synthetic Minority Oversampling Technique)[13]合成少数过采样技术,相对于简单随机复制样本数据的随机过采样,SMOTE可以合成小样本的数据,构造原始数据集中没有的新数据,这样一定程度上可以避免训练模型的过度拟合问题,可以加大训练模型的泛化能力.

通过分析基于集成学习的列车节能优化驾驶问题的训练数据集,发现这些数据存在较大的数据不均衡问题,代表性低的小样本数据可能被机器学习算法当成噪声数据处理掉.为解决上述问题,针对这两类分类问题都做了SMOTE算法的上采样操作.

针对训练预测速度变化模式模型训练数据集和训练预测档位变化模式模型训练数据集,处理样本数最少的30个类别,用于生成合成数据样本的最近邻数目为5,上采样倍率为0.5(上采样到最多样本数类别样本数的0.5倍).以训练速度变化模式的数据集为例,SMOTE算法上采样前后的数据分布对比如图8所示,从图中可以看出过采样后基本没有特别不均衡的数据,将采样倍率设置为0.5以防止模型出现过拟合问题,以及避免类别之间的样本重叠和边界过于模糊加大分类算法进行分类的难度.

3.3   基于CFS的特征选择

在训练预测模型过程中综合考虑了影响列车运行和能耗的因素,这样也导致冗余和无效的特征被加入.因此利用CFS(Correlation-based Feature Selection)[14]对训练数据集进行特征选择操作.

影响列车驾驶能耗的因素众多,在初步分析中这些因素都应被考虑为机器学习中的特征,同时基于集成学习的列车节能优化驾驶解决方案的分层结构,将每个步骤的输出类别都加入到后续阶段数据集的特征数据.图9所示为基础特征集,分为列车属性特征和线路属性特征,线路属性不仅考虑列车当前所处的坡段,由于前后坡段也会影响列车的节能运行及司机的操纵,所以将前后坡段也考虑在内.

使用基于CFS的特征选择算法,结合Best-first搜索,对用于机器学习模型预测的训练数据进行特征选择操作.特征选择处理主要应用在速度变化模式中速度变化运行距离和档位变化模式中档位运行距离的回归预测任务上,经过CFS特征选择,维数分别降低到19维和23维.

4   基于集成学习的模型训练及预测分析

4.1  基于随机森林的速度模式和档位模式预测

速度变化模式和档位变化模式的分类预测是基于集成学习的列车节能优化驾驶的速度层、档位层第一阶段的步骤.对于这两部分的分类预测,本文中选择随机森林算法进行实现,随机森林算法如算法1所示.其中Vote代表多数投票,整个随机森林的泛化能力由单棵决策树的分类能力和随机森林中决策树与决策树之间的相关度来决定.

算法1:随机森林算法

Input:数据集D=(xi,yi),i=1,…,n,特征集M,随机森林子树个数k

1     for i ← to n do

2     对D进行bcotstrap抽样,生成训练数据集Di

3     利用Di训练决策树Ti

4      a.从M中选择子特征集m

5      b.在决策树每个节点上使用Gini指数来确定最佳分裂点

6      c.决策树自由生长,不进行剪枝

Output:决策树集合Ti,i = 1,…,k

7      对于测试数据d,根据决策树集合T,预测分数h(d): h(d)

=vote{Ti(d)}k   i=1

return h(d)

对于随机森林中多棵决策树的训练,如果对每棵决策树赋予相同的权重,一定程度会降低整个分类模型的分类效果.因此使用加权随机森林(Weighted Random Forest, WRF)进行分类预测.WRF是使随机森林从不平衡数据集中能够很好地学习的一种方法,使用代价敏感学习的思路.由于随机森林的预测结果往往倾向于样本数多的类别,所以将小样本数据类别分类错误设置更大的惩罚,WRF会将小样本数据集分配更大的权重(即更大的分错代价),大样本数据集分配小的权重.

4.2   基于Bagging和REPTree的速度模式长度和

档位长度预测

经过试验对比选择Bagging集成学习算法集成REPTree来进行速度变化模式中速度变化运行距离和档位变化模式中档位的运行距离的回归预测.

同随机森林一样,Bagging算法也是使用自主法(bootstrap sampling)來进行随机有放回抽样.Bagging算法与随机森林的不同之处在于Bagging算法在决策树生成的过程中没有使用随机的特征选择.在预测阶段Bagging算法与随机森林算法相同,使用多数投票法或求均值得到分类或回归的最终结果.

本文使用Bagging集成学习算法来集成REPTree基分类器,作为速度变化模式中某速度变化运行长度和档位变化模式中某档位运行长度的回归预测算法.这两部分的回归预测是基于集成学习的列车节能优化驾驶方案中速度层、档位层的第二阶段步骤.对于速度变化模式中速度变化的运行距离和档位变化模式中档位的运行距离,为方便计算与分析,没有使用真实的距离实值进行回归预测,而是使用其所在区段中距离所占百分比进行回归预测,有效避免了不同坡度的长度相差过大造成的预测误差.在回归预测中预测结果不能保证绝对准确,针对这种情况在该阶段会对预测的距离百分占比做微调,将区段内的百分比预测值按照数值比例进行放大或缩小,使得区段内所有预测比例之和达到100%.

在最后进行档位序列预测与计算时,由于线路坡段长度固定且已知,通过速度变化所占区段百分比和档位变化所占区段的百分比即可计算出相应档位的运行距离,这样通过简单的计算就可获得最终有时间属性的离散档位序列.

4.3   安全保障策略设计

为防止列车运行过程中超限速,设计超限速的安全保障策略,如图10所示,具体过程如下:

1)从限速减阈值(8 km/h)的C点(坡段或限速结束点的分界点)通过原始档位增加2档与原始曲线相交于D点.

2)从C点通过原始档位增加2档通过反求操

作(使用列车的牵引计算模型,从后往前计算)计算到此限速段的开始位置B点,该过程中列车速度保持在限速减去阈值以下.

3)从B点通过档位寻找,找到使列车加速度大于0的档位,使用这个档位反求直到与原始曲线相交于A点.

为防止列车速度过低而停车,设计速度过低安全保障策略,如图11所示,具体过程如下:

1)在分界点低速限制值加上阈值(8 km/h)的C点处,通过C点之后速度曲线的变化趋势(加速或减速)选择合适的档位,使得新速度曲线与原始速度曲线相交于D点.

2)从C点通过原始档位减少2档的档位通

过反求操作计算得到低于低速阈值的起始点位置B点.

3)从B点通过档位寻找,找到加速度小于0的档位,使用该档位反求直到与原始曲线相交于A点.

5   试验设计与分析

5.1   试验设计

本文借助于本课题组研究的货运机车节能优化驾驶半实物仿真平台进行模拟仿真,模拟列车在真实情况下的运行环境,主要结构如图12所示,图中右上角的机箱为车载优化器,在仿真过程中会从LKJ与TCMS设备中获得列车的基本参数与线路信息,在试验环境中使用这些数据计算列车的节能优化操纵序列,然后将节能优化操纵序列输入到车载优化器中,最后在半实物仿真平台中进行列车的模拟运行.整个半实物仿真平台形成一个闭环,可完全模拟出列车在线路上可能出现的各种情况.

本文进行模拟仿真与试验的列车为HXN3型内燃机车,试验线路是沈阳铁路局苏家屯车站到本溪车站路段,总长度为65.4 km.在此线路上选取633条优秀司机的驾驶数据作为预测模型的训练数据集,通过分段切割,训练预测列车速度变化模式模型的训练集样本有14 841个,训练预测列车速度变化模式中速度变化距离模型的训练集样本有28 765个,训练预测列车档位变化模式模型的训练集样本有27 624个,训练预测列车档位变化模式中档位运行距离模型的训练集样本有36 748个.同时选取了若干优秀司机的驾驶数据作为对比分析与测试数据集.

5.2   试验结果与分析

5.2.1   集成学习模型训练试验分析

本文使用分类的精确率(Precision)、召回率(Recall)、F度量(F-measure)3个指标来评估分类器的分类效果,这3个指标越高表示模型的分类效果越好.其中,Precision代表模型在某一类别上分类正确样本数占模型预测所有这类样本数的比例;Recall代表模型在某一类别上分类正确样本数占此类别所有的样本数,可用于评估模型预测某类别的可信度;F-measure是将精确率和回归率合并考虑的一种评估方法,如式(5)所示:

F-measure =             (5)

对于回归模型的评估,使用机器学习领域常用的相关系数(Correlation Coefficient,CC)、平均绝对误差(Mean Absolute Error,MAE)、根平均平方误差(Root Mean Squared Error,RMSE)、相对绝对误差(Relative Absolute Error,RAE)和根相对平方误差(Root Relative Squared Error,RRSE)进行评估.其中,CC用于衡量真实值与预测值之间的相关度;MAE用于衡量预测值与最终真实结果之间的接近程度;RMSE是一种用于数值预测的通用误差度量方式,与MAE相比RMSE放大了大误差;RAE可以在不同单位测量误差的模型之间比较误差;RRSE用于在不同单位测量误差的模型之间比较相对平方误差.对于上述评估指标,CC值越高回归预测模型越好,MAE、RMSE、RAE、RRSE均表示误差,值越低模型预测效果越好

为了方便表述,在以下的试验分析中用M1表示预测列车速度变化模式模型,M2表示预测列车速度变化模式中速度变化距离模型,M3表示预测列车档位变化模式模型,M4表示预测列车档位变化模式中档位运行距离模型.

對于模型M1和M3,选取随机森林作为分类算法,将随机森林与分类效果较好的REPTree、Bagging(REPTree)、Adaboost(REPTree)、FURIA(Fuzzy Unordered Rule Induction Algorithm)、BayesNet五种算法进行对比.其中Adaboost(REPTree)为基于Boosting的自适应增强集成学习算法,基分类器为REPTree;FURIA为基于模糊归纳的规则学习算法;BayesNet为基于Bayes公式构建概率化推理图形化网络的机器学习算法.

模型M1与M3的训练结果数据对比如表3和表4所示.从表中可以看出随机森林算法在M1、M3两种分类情景中均有更好的表现.

在试验中对随机森林和加权随机森林这两种模式进行对比分析,基于模型M1进行对比试验,通过修改随机森林的子树个数来对比WRF与RF的训练效果,共进行子树个数从10到200的数据对比,如图13所示.由图可知WRF在子树个数大于50之后模型的训练效果小范围内明显优于RF.

对于模型M2和M4,选取Bagging(REPTree)作为回归算法,与REPTree、随机森林、线性回归、Bagging(LR)四种回归算法进行对比.其中线性回归(Linear Regression,LR)为利用线性回归方程的最小二乘函数进行建模的一种回归分析方式;Bagging (LR)为使用Bagging对LR集成的集成学习方法.

模型M2和M4的训练结果数据对比如图14和图15所示,其中左侧纵坐标为CC指标,右侧纵坐标为MAE指标.可以看出Bagging(REPTree)集成学习算法在M2、M4回归应用场景中都有较好的

通过以上的模型算法对比分析可以发现随机森林和回归算法Bagging(REPTree)在预测上表现较好,这对后续列车节能优化驾驶操纵序列的预测有着非常重要的作用,四个模型最终训练结果如表5所示.

5.2.2   列车节能优化驾驶档位操作序列预测试验分析

在列车的节能优化驾驶操纵序列分析过程中将对比优秀司机的驾驶档位序列与基于集成学习的列车节能优化驾驶模型预测的档位操纵序列,同时分析在这两种不同的档位操纵序列情况下列车的速度运行情况.在相同的试验线路(苏家屯-本溪)下,选取多组不同列车参数的试验数据进行对比分析.多数情况下驾驶效果基本和优秀司机相同,如图16与图17所示,其中图16(a)、17(a)为速度对比曲线,图16(b)、17(b)为档位对比曲线,曲线②为优秀司机驾驶的档位序列和列车运行速度曲线,曲线③为列车节能优化驾驶模型预测的档位序列和列车运行速度曲线,曲线①为线路限速,从图中可以看出本文的解决方案基本达到优秀司机的驾驶水平.

在一些极特殊情况下模型会出现错误的预测,这些错误的预测会导致列车的速度过高或过低出现行驶安全风险,如图18和图20所示,通过在4.3节中超限速安全保障策略和速度过低保障策略的调整,可以完全杜绝这类情况,保障列车的安全运行,策略调整后的列车运行曲线图如图19和图21所示.

5.2.3   列车节能优化驾驶能耗与时间试验分析

通过半实物仿真平台以及档位和单位能耗的对应关系计算列车驾驶能耗,列车操纵档位序列中档位单元为每档位0.5 s,这样根据档位操纵序列即可得到整个档位序列的能耗值.在列车驾驶能耗分析阶段将列车优化能耗与普通司机驾驶列车能耗进行对比,并计算所能达到的节能百分比,如式(6)所示.

式中:Em为基于集成学习的列车节能优化驾驶能耗;Eh为普通司机的驾驶平均能耗;p为节能百分比,若值为正则表示节能,若值为负数则表示更加耗能.选取10组对比数据,最终方案能够达到平均节能7.156%的水平.

对于列车的运行时间,一般要求列车到站时间与时刻表时间不能超过正负3 min,需要重点考虑.将优化模型预测产生的档位序列运行时间与列车运行线路上的时刻表进行对比,计算两者的时间偏差,时间偏差计算如公式(7)所示.

ΔT = Tm - Ts                (7)

式中:Tm为优化模型预测产生的档位序列运行时间;Ts为时刻表时间,当ΔT小于0,表示列车提前到站,当ΔT大于0,表示列车晚点到站.同样使用油耗对比中的10组数据进行试验,从试验对比数据中可以看出基于集成学习的列车节能优化驾驶时间与标准时刻表时间的时间偏差没有超过3 min的,能够达到列车节能优化驾驶的时间约束条件要求.

6   结   论

本文基于列车的动力学模型,通过运行线路环境因素和司机的驾驶日志数据分析了可能影响列车运行能耗的因素,提出一種基于集成学习的列车节能优化驾驶方法.其中,基于SMOTE算法和CFS算法的列车节能优化驾驶训练数据集的处理方法解决了数据中存在的不均衡问题;基于分层结构的集成学习组织方法通过分层的方式组织随机森林和Bagging(REPTree)集成学习算法,形成速度层与档位层两层结构,分别进行分类预测和回归预测.以HXN3型机车在沈阳铁路局苏家屯到本溪线路为例进行了试验设计与分析,从模型训练评估、优化档位操作序列仿真、能耗与时间表现3个方面对试验结果进行对比与分析,论证了方案的可行性.

参考文献

[1]    HUANG J,DENG Y,YANG Q,et al. An energy-efficient train control framework for smart railway transportation [J]. IEEE Transactions on Computers,2016,65(5):1407—1417.

[2]    ICHIKAWA K. Application of optimization theory for bounded state variable problems to the operation of train [J]. Bulletin of JSME,1968,11(47):857—865.

[3]    KHMELNITSKY E. On an optimal control problem of train operation [J]. IEEE Transactions on Automatic Control,2000,45(7): 1257—1266.

[4]    PHIL H. The optimal control of a train [J]. Annals of Operations Research,2000,98(1/4):65—87.

[5]    HOWLETT P G,LEIZAROWITZ A . Optimal strategies for vehicle control problems with finite control sets [J]. Dynamics of Continuous Discrete & Impulsive Systems,2001,8(1):41—69.

[6]    VU X. Analysis of necessary conditions for the optimal control of a train: new necessary conditions for energy-efficient train control [M]. VDM Publishing,2009:16—28.

[7]    CHANG C S,SIM S S. Optimising train movements through coast control using genetic algorithms [J]. IEE Proceedings-Electric Power Applications,1997,144(1): 65—73.

[8]    LECHELLE S A,MOUNEIMNE Z S. OptiDrive:a practical approach for the calculation of energy-optimised operating speed profiles[C]//Proceedings of IET Conference on Railway Traction Systems (RTS 2010). Birmingham: IET,2010:22—23.

[9]    SU S,LI X,TANG T,et al. A subway train timetable optimization approach based on energy-efficient operation strategy [J]. IEEE Transactions on Intelligent Transportation Systems,2013,14(2): 883—893.

[10]  FENG Q,HU J,LI H. Design of experimental platform for urban rail vahicle braking system[C]//2010 Chinese Control and Decision Conference.Singapore:IEEE,2010: 4430—4434.

[11]  LI Y S,HOU Z S. Study on energy-saving control for train based on genetic algorithm [J]. Journal of System Simulation,2007,19(2):384—387.

[12]  YANG X,LI X,NING B,et al. A survey on energy-efficient train operation for urban rail transit [J]. IEEE Transactions on Intelligent Transportation Systems,2016,17(1): 2—13.

[13]  CHAWLA N V,BOWYER K W,HALL L O,et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research,2002,16(1):321—357.

[14]  HALL M A. Correlation-based feature selection for machine learning[D]. Hamilton:Department of Computer Science,Waikato University,1998:19—27.

[15]  BREIMAN L. Bagging predictors [J]. Machine Learning,1996,24(2):123—140.

[16]  QUINLAN J R. Simplifying decision trees [J]. International Journal of Man-Machine Studies,1987,27(3):221—234.

猜你喜欢

节能优化机器学习
火力发电厂热动系统节能优化措施探究
论现代建筑电气照明节能的优化设计
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
关于空调制冷系统的节能优化
机器学习理论在高中自主学习中的应用
大数据技术在凝结水变频节能优化中的应用