基于数据挖掘的高速铁路负荷分布特性研究
2018-05-14孔令奇
孔令奇
摘要:
为获得高速铁路负荷的概率分布特征,将数据挖掘技术应用于高速铁路负荷实测数据的分析。首先对实测数据进行规范化处理,然后进行数字特征量的统计及概率分布直方图的研究,最终提出用瑞利分布拟合高速铁路负荷的概率密度函數。均方根误差分析结果基本在0.1以内。
关键词:数据挖掘;瑞利分布;概率密度
中图分类号:TN311 文献标志码:A
文章编号:2095-5383(2018)02-0046-05
Research on Load Distribution Characteristics of
High Speed Railway based on Data Mining Technology
KONG Lingqi
(Department of Architectural and Environmental Engineering, Chengdu Technological University, Chengdu 611730,China)
Abstract:
In order to obtain the load probability distribution characteristics of highspeed railway, data mining technology was applied to analy the measured data of highspeed railway in this paper. First, the measured data was standardized. Then the statistics of the digital features and the study of histograms of probability distributions were carried out. Finally, the Rayleigh distribution was used to fit the probability density function of highspeed railway load.The root mean square error analysis results were basically within 0.1. This method can simply and effectively construct a probability model for highspeed railway loads. It can be used for load forecasting of new highspeed railways and analysis and calculation of relevant quantities.
Keywords:
data mining; rayleigh distribution; probability density
大数据分析与挖掘技术已渗透到各行各业[1-2]。随着高速铁路的快速发展,铁路行业的数据也在不断增长。为了更好地掌握铁路负荷特征,工程技术人员对高速铁路负荷进行了大量的测试。面对众多的测试数据,如何从中总结出高速铁路负荷特性也成为技术人员需要首先解决的问题。随着大数据处理技术的发展,将数据挖掘技术应用于高速铁路负荷的分析,国内外鲜有报道。国内外众多文献提出用各种概率密度拟合方法拟合高速铁路负荷的概率分布,如GramCharlier级数法、Pearson法和Johnson法[3]、 Laguerre多项式法[4-5]。本文将采用数据挖掘技术,并结合概率论与数理统计的方法对测试数据进行分析处理,获得简单有效的高速铁路负荷的概率分布。
1 数据挖掘建模过程
面对海量数据,明确挖掘过程、逐步推进是实现挖掘目标的关键[6]。由于机车司机的操作及线路情况等因素的影响,高速铁路牵引负荷属于随机波动负荷,可视为一维随机变量。
对随机信息的处理过程可用图1来描述。
2 数据探索
铁路机车运行过程中,因为机车的操作、道路运行情况、天气情况、机车类型及载重的不同等因素的影响,使测得的每个牵引所的负荷值千差万别。为了保证挖掘模型的质量,首先应对数据进行预处理[7-8]。为了消除高速铁路各个牵引变电所牵引负荷的数值差别,将实测数据进行归一化处理,对牵引负荷实测数据,采用即时值/测量的最大值,使测试数据映射在[0,1]内。
2.1 统计量分析
众所周知,一个随机变量可用数字特征量来近似的描述随机变量的概率分布[9-10]。
对随机变量概率分布特征的描述,可以通过如下几个指标来进行,如用均值描述中心测度,标准差或方差来描述分散的测度,不对称性用偏度来描述,随机变量的平坦性用峰度表示等。
2.2 分布特征分析
随机变量的概率分布可通过直方图获得。牵引负荷统计分布直方图如图2所示。
由表1和图2可以看出,高速铁路负荷具有如下特点:1)非负性:负荷的概率密度大于0。2)单峰性:负荷的概率密度在平均值附近取得了最大,整个概率分布呈凸型单峰性。3)偏态:概率分布不满足正态分布,关于平均值是不对称的。
3 挖掘建模
构建模型是数据挖掘的核心环节[11]。将牵引负荷视为随机过程后,获得其概率分布是必要的。由上述分析可知,牵引负荷的概率分布是偏态的、不对称的分布形式。通过对比分析,可用瑞利分布对其进行拟合。
3.1 实例分析
利用瑞利分布拟合牵引负荷的概率密度函数如图3所示。
3.2 模型评价
模型评价可以反映出有没有从数据样本中挖掘出符合实际的规律性,常用的方法有均方误差和均方根误差[12-13]。
4 结语
本文将大数据挖掘技术应用于高速铁路牵引负荷的分布特征的分析,归纳总结了高速铁路负荷特征值的基础上,提出了用瑞利分分拟合负荷概率密度函数的方法,通过均方根误差分析,误差在工程允许范围之内,证明了模型的有效性。参考文献: