APP下载

基于随机森林的路面结冰预测研究

2020-12-21宋淑慧刘文江时浩婷

科学与信息化 2020年28期
关键词:随机森林交通安全

宋淑慧 刘文江 时浩婷

摘 要 冬季的北方城市,降雪、霜冻、结冰现象时有发生,已成为影响市内交通安全、造成交通事故的一个重要因素。本论文基于传感器采集到的冬季济南某地区的路面、气象等数据,使用随机森林对数据样本进行训练,构建结冰状态预测模型,并与svm模型做对比,使用准确率、f1_score、ROC曲线等分类算法评估指标对模型进行评价以验证算法的有效性。结果表明,基于随机森林训练得到的模型可以实现道路结冰状态的有效预测。

关键词 随机森林;路面结冰预测;交通安全

前言

道路结冰是造成城市交通事故的一个重要原因之一。冬季发生降雪、结冰等气象情况时容易造成车辆打滑、行人行走困难,路面结冰也会降低轮胎的摩擦系数,容易对交通运输和人民安全造成危害[1]。因此,对道路的结冰情况进行及时的监测能够减少交通事故的发生。顾婷婷[2]等根据杭州高速公路上的交通事故数据和气象数据,研究了杭州路面上的结冰情况并建立了结冰预测模型。刘小高[3]等分析气象因子和其他影响因素,基于气象相关数据建立了道路结冰预警模型,通过验证集的检验证明了模型的有效性。郑斌[4]通过研究影响路面结冰的因素,使用采集到的数据建立了神经网络结冰预测模型。

本文基于济南某地区路面凝冰数据样本,使用随机森林对凝冰数据进行训练得到结冰预测模型,最后使用算法评估指标对模型进行评价,并与文献[2]使用的svm方法做对比,证明本文算法的有效性。

1路面、气象数据分析

道路结冰是多个因素共同影响所引起的,主要影响因素有路面水膜厚度、大气温度、路面温度、路面冰点温度、风速等。基于此,我们使用路面传感器采集济南某地区12月份的水膜厚度、路面温度、冰点温度数据来对结冰状态进行预测。三参数数据样本的散点图如图1所示。为了防止出现正负样本不平衡以及过拟合问题,我们对数据进行下采样得到未结冰数据331条,并将其标记为0;得到结冰数据263条,将其标记为1。

从以上三幅图可以看出,不同状态时数据分布存在差异,结冰时水膜厚度明显大于未结冰时水膜厚度,而冰点温度和路面温度受到外界因素的干扰,比如,路面温度在零下3℃,但因为撒盐,冰点可能在零下8℃,就不结冰,路面温度和冰点温度来共同影响路面的结冰状态。本文使用路面温度、冰点温度、水膜厚度作为特征数据用于结冰预测模型的输入,将结冰状态作为标签数据用于结冰预测模型的输出。用于模型训练的部分数据样本如图2所示。

2随机森林训练模型

随机森林算法介绍:随机森林是基于Bagging算法并将其改动之后演化过来的。它是以决策树[5-6]为基学习器,多个决策树结合起来的一种集成学习[7-8]算法,属于有监督的学习。对于分类问题,数据的抽样方法选用bootstrap方式,对训练数据进行随机有放回的选择,构成随机森林的每一个决策树都是一个分类器,在进行模型训练时,每一个决策树都要给出一個分类结果,随机森林来集成所有决策树的分类结果,对所有的分类结果取平均值,并将分类类别最多的结果作为模型的输出值,有效防止了过拟合现象的出现。

随机森林训练结冰预测模型的步骤为:①将数据集进行划分,70%的数据用于训练,30%的数据用于测试。②参数选择。使用网络搜索法选择最优参数为决策树数目为40,决策树最大深度为4,叶子结点中最少样本数量为10。③将训练集送入模型进行训练。④模型在测试集上测试效果,得到各个算法评估指标值。

3模型评价

3.1 混淆矩阵

混淆矩阵又被称为误差矩阵,用来评价分类算法精度。通常以m行n列的矩阵来表示,每一列代表模型的预测值,每一行代表数据的真实类别,混淆矩阵的结构如表1所示:

本文以道路结冰情况为研究对象,道路未结冰时标记为0,道路结冰时标记为1,因此,上表中的P代表结冰的类别“1”,N代表未结冰的类别“0”。其中,TP代表道路实际结冰被预测成结冰的样本数量,FP代表道路实际结冰被预测成未结冰的样本数量,FN代表道路实际未结冰并预测成结冰的样本数量,TN代表道路实际未结冰并预测成未结冰的样本数量。本文训练结冰预测模型时,将数据集以7:3的比例划分,测试集共179条数据,程序输出的混淆矩阵如表2表示:

从上表可看出,结冰数据共82条,模型预测正确的结冰数据共80条;未结冰数据共97条,模型预测正确的未结冰数据共96条,说明该模型预测效果良好。

3.2 f1_score与ROC曲线

f1_score是召回率和精确率的调和平均值,是两者的综合衡量,f1_score越高,说明模型越稳健。其中,精确率直观地反映模型对负样本的区分能力,精确度越高,表明模型的区分能力越强;召回率直观地反映模型对正样本的识别能力,召回率越高,表明模型对正样本的识别能力越强。精确率、召回率以及f1_score的计算公式如表3所示。本文研究得到的f1_score=0.981,表明结冰预测模型较稳健。

ROC曲线能反映模型在选取不同阈值的时候其敏感性和其精确性的趋势走向,该评估指标能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。AUC为ROC曲线下的面积,是衡量二分类模型优劣的一个重要指标。本文研究得到的ROC曲线及AUC值如图3所示,从图3可看出AUC=0.99,验证了结冰预测模型的有效性。

使用基于随机森林训练得到的结冰预测模型对测试集进行预测,测试集上准确率为0.983,得到的结果如图4所示(在文末)。

3.3 模型效果对比

本文研究得到的结冰预测模型与文献[2]中所使用的svm方法进行效果对比,对比结果如表4所示。从表4可以看出,本文得到的模型在各个评价指标上都具有一定的优势,能够实现道路结冰状态的有效预测。

4结束语

本文基于传感器采集到的路面温度、冰点温度、水膜厚度数据,使用随机森林算法建立结冰预测模型,使用多种算法评估指标对模型的精度和稳健性进行评估。最后实验结果表明,基于随机森林训练得到的模型能够进行结冰状态的有效预测,这将为道路结冰预测研究提供一个较好的方法思路,具有很好的应用价值。

参考文献

[1] 舒斯,熊守权,陈英英,等.湖北省高速公路道路结冰预警模型[J].气象,2019,45(11):1589-1599.

[2] 顾婷婷,骆月珍,梁卓然.杭州地区路面结冰天气特征及其预测[J].科技通报,2015,31(11):48-51.

[3] 刘小高,许书红,潘凌峰,等.冰雪天气高速公路行车安全预警等级标定[J].黑龙江交通科技,2018,41(11):165-166,169.

[4] 郑斌.路面结冰影响因素研究及预测模型的构建[D].哈尔滨:哈尔滨工业大学,2019.

[5] Wang Y,Shen T,Yuan G,et al. Appearance-based gaze estimation using deep features and random forest regression[J]. Knowledge-Based Systems,2016(110):293-301.

[6] 刘承启,黄学坚,徐健锋,等.基于决策树和粗糙集的高分辨率短时临近雷电预报模型[J].南昌大学学报(理科版),2014,38(6):559-563,568.

[7] Lindner C,Bromiley P,Ionita M,et al. Robust and Accurate Shape Model Matching Using Random Forest Regression-Voting[J].IEEE transactions on pattern analysis and machine intelligence,2015,37(9):1862-1874.

[8] 王鑫,汪晋宽,刘志刚,等.基于随机森林的认知网络频谱感知算法[J].儀器仪表学报,2013,34(11):2471-2477.

作者简介

宋淑慧,现就读学校:山东交通学院交通与物流工程学院,硕士研究生在读,研究方向:智能交通。

刘文江,职称:硕士生导师,现就职单位:山东交通学院道路安全应急与减灾技术研究中心。

猜你喜欢

随机森林交通安全
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
试论如何加强企业交通安全管理工作
拱坝变形监测预报的随机森林模型及应用
探析道路因素对城市交通安全的影响
乡镇道路交通安全
农村道路交通安全问题
基于交通安全的高速公路路线平纵组合设计
基于随机森林算法的飞机发动机故障诊断方法的研究
基于随机森林算法的B2B客户分级系统的设计