融合异构交通态势的事故预测模型

2023-11-29杨博段宗涛左鹏飞肖媛媛王艺霖

计算机应用 2023年11期

杨博，段宗涛，左鹏飞，肖媛媛，王艺霖

融合异构交通态势的事故预测模型

杨博，段宗涛*，左鹏飞，肖媛媛，王艺霖

（长安大学信息工程学院，西安 710064）（ ∗ 通信作者电子邮箱ztduan@chd.edu.cn）

针对事故数据信息表达有限、数据不平衡以及数据中存在动态时空特性的问题，提出一种融合异构交通态势的事故预测模型。其中：时空状态聚合模块通过代表动态交通态势的交通事件和天气特征完成语义增强，并聚合四种区域（单一区域、邻近区域、相似区域和全局区域）的历史多时段时空状态；时空关系捕获模块从微观和宏观角度捕获事故数据局部与全局的动态时空特性；时空数据融合模块进一步融合多区域、多角度的时空状态，并完成下一时段的事故状况预测任务。在US-Accident的5个城市数据集上进行实验，结果表明所提模型的正样本、负样本、加权正负样本的平均F1分数分别为85.6%、86.4%和86.6%，与传统的前馈神经网络（FNN）模型相比，在三个指标上分别提升了14.4%、5.6%和9.3%，能有效抑制事故数据不平衡对实验结果的影响。构建高效的事故预测模型有助于分析道路交通安全形势，减少交通事故的发生，提高交通安全。

交通事故预测模型；交通事故数据；时空特性；深度学习；交通安全

0 引言

道路交通事故不仅会造成大量的财产损失，而且会对人们的生命安全造成极大威胁［1］。为有效预防道路交通事故的发生，需要对城市道路交通安全形势进行分析研判。交通事故预测是道路交通安全形势分析研判的主要部分，旨在利用历史交通事故数据，构建交通事故预测模型，预测某个区域未来一段时期的事故发生状况。

为提高交通事故预测模型的准确性，需要充分考虑事故数据的自身特性。在确定一起交通事故时，需要在时间和空间维度上描述，显然事故数据具备时间特性和空间特性。在时间上，事故数量随着时间的变化而变化，如高峰期更容易发生交通事故［2］；在空间上，由于邻近地区的相互影响以及各个地区的物理空间差异，事故数据表现出空间依赖性和空间异构性［3-4］。事故数据在时间和空间上的特性并不是相互独立的，存在时空依赖性［5］。采集的交通事故数据一般包括事故基本信息、驾驶人员信息和车辆基本信息，其中事故基本信息用于交通事故预测模型的构建，另外两类信息还可用于事故成因分析［6-8］。但是，事故基本信息本身表达的信息有限。因此在构建交通事故预测模型时，如何在事故数据信息表达有限的前提下，从事故数据中捕获它们的时空特性，并提高交通事故预测模型的准确性是一个难点。

早期研究通常使用传统机器学习方法构建交通事故预测模型，如文献［9］中使用负二项回归模型和决策树模型建立交通事故发生频率预测模型，文献［10］中通过近邻方法构建实时公路交通事故预测模型；但这类交通事故预测模型往往忽略了交通事故数据的时空特性。随着深度学习的发展，一些研究开始使用可以捕获邻域信息的卷积神经网络和善于处理时序数据的循环神经网络来捕获交通事故数据的时空特性［11］。文献［12］中提出的DAP（Deep Accident Prediction）模型包含多个组件，其中循环网络组件处理与时间相关的特征，全连接网络组件处理与时间无关的特征，嵌入组件捕获空间异构性。文献［13］中在研究区域上设置滑动窗口并利用循环神经网络分别对农村区域、城市区域和混合区域建模。上述研究处理了局部区域的时空特性，但忽略了全局时空特性。图卷积网络（Graph Convolutional Network， GCN）通过聚合邻域信息来迭代更新节点信息，随着迭代的进行，每个节点会聚合图上更大范围的信息［14］，可捕获全局空间特性。文献［15］中提出差分时变图卷积网络捕获实时全局交通状态和研究子区域的互相关性。但这些研究未能从多角度、多尺度捕获事故数据的动态时空特性。

为弥补事故基本信息表达力有限的缺陷，各种不同的语义信息也被作为事故预测模型的输入数据，如天气特征［9，12-13，15-16］、道路特征［9，13，15-16］、兴趣点（Point Of Interest， POI）数据［12，16］、交通流［9，11，13，15］、GPS轨迹［15-17］、人口数据［18］等。不同研究通常将不同的语义信息作为事故基本信息的补充输入给交通事故预测模型，而大多数语义信息都难以获取，建立的模型难以应用在其他区域。此外，静态语义信息无法反映道路交通态势，如道路特征、POI特征等。而动态语义信息可以反映真实路况，如天气特征、交通事件等。在恶劣的天气和道路环境状况下，更易发生道路交通事故［19-20］。

现存研究构建的交通事故预测模型分为分类预测模型和回归预测模型。根据是否划分事故严重等级，分类预测模型被划分为二分类预测模型［12，16，18，21］和多分类模型［6-8］。根据是否为不同的事故严重程度赋予不同的风险值，回归预测模型被划分为事故发生数量预测模型［2，13，15］和事故风险等级预测模型［17］。其中，二分类预测模型预测未来一段时期某个区域是否会发生道路交通事故。由于事故基本信息只会在发生事故时被采集，因此二分类模型缺乏负样本。文献［18，21］通过随机修改事故基本信息中的字段来生成负样本。这种通过随机生成的负样本无法反映真实路况。

为解决上述问题，本文提出了一种融合异构交通态势的二分类事故预测模型（binary Accident Prediction model Fusing Heterogeneous Traffic Situation， AP-FHTS）。本文主要工作如下：

1）考虑了可反映真实路况的动态语义信息，包括交通事件信息、天气特征、时间特征等交通态势数据；

2）设计时空状态聚合模块和时空关系捕获模块，以研究子区域为中心，聚合四种异构地理区域历史多时段时空状态，捕获交通事故数据存在的动态时空特性；

3）在5个城市数据集上进行了充分实验，实验结果表明动态捕获多角度、多尺度的道路交通态势可有效提高事故预测模型性能。

1 事故预测问题定义

1.1　研究区域划分

1.2　时间范围划分

1.3　数据集定义

1.4　风险值定义

1.5　标签定义

2）多分类模型通常将道路交通事故按照事故严重程度划分为多个类别，对交通事故严重程度建模，通常使用具备可解释性的机器学习方法，如决策树和随机森林，或使用敏感性分析法探索交通事故严重程度的主要影响因素。由于研究目标不同，因此无法对多分类模型的标签进行定义。

2 AP‑FHTS

本文提出的模型包括时空状态聚合模块、时空关系捕获模块和时空数据融合模块。AP-FHTS的模型框架如图1所示，其中包括：长短期记忆（Long Short-Term Memory， LSTM）网络、批量归一化（Batch Normalization， BN）和前馈神经网络（Feedforward Neural Network， FNN）；AF为激活函数（Activation Function）；Time代表交通事故数据的时间特征；Loss代表预测值和真实值之间的误差。

图1　AP-FHTS的模型框架

2.1　时空状态聚合模块

时空状态聚合模块由四部分组成，分别针对单一区域（Sin）、邻近区域（Adj）、相似区域（Sim）和全局区域（SG）完成历史交通事故时空状态在局部与全局的空间依赖特性和空间异构特性捕获任务。单一区域、邻近区域和相似区域部分以研究子区域为中心，分别获取该区域、该区域邻域和与该区域相似区域的历史多时段交通事故时空状态，在微观层面聚合研究子区域历史时空状态的局部空间特性。全局区域以整体研究区域为中心，获取其历史多时段总体交通事故时空状态，并将总体时空状态映射到利用POI数据建立的空间相似图上，在宏观层面聚合研究子区域历史时空状态的全局空间特性。

2.2　时空关系捕获模块

时空关系捕获模块试图从历史多时段时空状态和总体时空状态中分别捕获局部与全局的时空依赖性。针对历史多时段时空状态，该模块从历史时段中逐步获取研究子区域的时空状态发展趋势，对下一时段的时空状态作出预测；针对总体时空状态，该模块通过在空间相似图上进行多次信息传递，使各个研究子区域聚合相似区域的时空状态，利用更新后的研究子区域时空状态预测下一时段的时空状态。

2.3　时空数据融合模块

3 实验与结果分析

3.1　实验数据及其特性分析

3.1.1实验数据

实验数据源于US-Accident中5个城市在2018年6月1日—9月1日内的所有交通事件数据和天气数据，以及5个城市的POI数据。实验中的时间段间隔为1 h，每个研究子区域的大小为5 km×5 km。通过事故相关数据的经纬度属性将每条数据映射到对应的研究子区域中。同一时间段内存在多条数据时，二值属性取并操作，连续属性取平均值。交通事件数据Traffic_Event的基本信息包括交通事件的类型、发生时间和发生地点。天气数据Weather包含气象站的经纬度、数据记录时间和温度、湿度、气压、可见度等6种类型的天气数据，以及雨天、雪天、雾天和冰雹4种天气状况，由4个二值属性构成。POI数据包括POI的类型、位置及数量。时间特征Hour，包含是/非节假日、日出/日落和所属时段三种类型。是/非节假日由1个二值属性构成；日出/日落由1个二值属性构成；所属时段将一天24 h分为5个时段［12］，由5个二值属性构成。US-Accident数据集包含7种类型的交通事件和15种类型的POI，其中交通事故是交通事件的一种。具体实验数据如表1所示。

表1　数据集详情

3.1.2时间特性

实验数据中，Houston在一天内各个时段的周累积道路交通事故数量，体现出事故数据的时间特性，如图2所示。

图2　事故数据的时间特性

3.1.3空间特性

空间依赖性指邻近区域会呈现出相似的交通事故状况。空间异构性侧面反映地理空间相似区域会呈现出相似的交通事故状况。各城市研究子区域在实验研究范围内的道路交通事故数量，体现出事故数据的空间特性，如图3所示。道路交通事故数量呈现出从中心向外扩散的特点，表现出空间依赖性。地理空间相似区域（图3中标记点）的交通事故状况也表现出空间异构性。

图3　事故数据的空间特性

3.1.4时空特性

事故数据在呈现出周期性的时间特性基础上，邻近区域和地理空间相似区域（图4中标记点）也分别呈现出空间上的依赖性和异构性。实验数据中，Houston前5周道路交通事故数量，体现出事故数据的时空特性，如图4所示。

3.2　实验设置

在交通事故预测问题中，非事故时段数量远大于事故时段数量。Atlanta城市数据在完成研究区域划分和时间范围划分后，事故时段数量和非事故时段数量之比高达1∶60（如表1），因此该问题是一种典型的不平衡类问题。解决不平衡类问题的方式之一是对非事故数据进行不充分抽样，以改变数据集中事故数据和非事故数据的分布比例，使模型在训练过程中对事故数据得到更好的表示，提高模型在事故数据上的预测准确度［22］。本研究对非事故数据进行不充分抽样，随机抽取2%的非事故数据作为数据集的负样本，而所有的事故数据作为数据集的正样本。

在不充分抽样完成后，将数据集划分为训练集和测试集，比例为5∶1。此外，为了防止过拟合，采取提前停止方式，随机抽取10%的训练集作为验证集。在训练次数迭代超过40次以后，每5次迭代计算一次验证集的损失，当验证集的损失连续3次不再降低，则停止训练。

图4　事故数据的时空特性

本文模型中3个模块的具体结构如下：

3）时空数据融合模块：该模块将单一区域、邻近区域、相似区域和全局区域的32维表示向量，以及7维的时间特征向量进行拼接，构成135维的表示向量，输入FNN模块。FNN模块包含2个隐含层，神经元个数分别为256和64，输出层神经元个数为2，每层的激活函数为Tanh函数，每两层之间使用批量归一化方法。

由于不同模型使用的数据存在差异等原因，很难将本文模型与其他事故预测模型进行直接比较，所以选取下述4种模型与本文提出的模型进行比较，如下所示：

1）Logistic回归（Logistic Regression， LR）［23］。

2）随机森林（Random Forest， RF）［24］。

3）前馈神经网络：该模型包括3层神经网络，神经元个数分别为256、64和2，激活函数为ReLU。

4）Sin+Sim+Adj+G（SSAG）：将本文提出的模型中的SG部分的输出结果替换为图卷积后所有研究子区域的状态均值，并使用G代替。

LR、RF和FNN的输入向量是单一区域、邻近区域和相似区域的时空状态向量和时间特征拼接生成的415维向量。LR、RF和FNN通过Scikit-learn机器学习库［25］搭建，超参数优化由Scikit-learn完成。SSAG模型的输入向量和超参数优化与本文提出的模型一致。

选取适合评价不平衡类问题的F1指标作为模型的评价指标，分别计算正样本F1分数（Acc）、负样本F1分数（Non‑Acc）及考虑正负样本比例的加权平均F1分数（Avg‑Acc）。

3.3　实验结果与分析

为每个城市单独训练一个事故预测模型，不同模型在不同城市数据集上的性能比较如表2所示。与所有的基准方法相比，本文提出的AP-FHTS在三个指标上均表现出最优的性能，在5个城市数据集上的平均Acc、Non-Acc、Avg-Acc分别为85.6%、86.4%、86.6%，与FNN模型相比，在三个指标上分别提升了 14.4%、5.6%和9.3%。与使用所有研究子区域状态均值的SSAG模型相比，进行节点选择的模型（AP-FHTS）在三种指标上均有明显提升，表明使用所有研究子区域状态均值未能考虑交通事故数据表现出的空间特性，而AP-FHTS可以捕捉到空间特性，提升模型在所有城市的Acc和Non‑Acc，尤其是Dallas的Acc。与基准方法相比，AP-FHTS在不同城市数据集上的指标提升有所差异。例如，虽然AP‑FHTS在Dallas的Acc低于其他4个城市，但相较于基准方法Acc的提升却大于其他4个城市，而且Noc-Acc也高于其余4个城市，再次证明AP‑FHTS充分考虑了交通事故数据表现出的空间特性。AP‑FHTS在Atlanta和Charlotte的Acc高于Non-Acc，在Austin的两种指标持平，在Dallas和Houston的Acc低于Non-Acc。这是因为Dallas和Houston原始数据集中的事故时段与非事故时段比值远小于其他城市数据集，因此负采样后的数据集仍保留此现象，符合各个城市的现实情况。与基准方法相比，AP-FHTS可有效提高各城市的Acc和Non-Acc，并减少二者之间的差异。

虽然本文使用的数据源于文献［12］的公开数据集，但本文未将静态语义信息作为特征输入模型，如POI特征、事故文本描述信息等，因此使用的数据与文献［12］存在差异，所以本文模型也无法直接与它进行比较。但与DAP模型［12］相比，使用更少类型数据的AP-FHTS在不同城市的Acc均大幅提升，高效解决了事故数据中存在的不平衡性问题。

3.4　消融实验

通过组件选择方式分析AP-FHTS中各组件对不同城市预测模型性能的影响，如图5所示。共设置5组实验，构建5种模型，记作A、B、C、D、E，其中：A仅使用单一区域组件（Sin）；B使用单一区域和相似区域组件（Sin+Sim）；C使用单一区域和邻近区域组件（Sin+Adj）；D使用单一区域、邻近区域和相似区域组件（Sin+Sim+Adj）；E使用单一区域、邻近区域、相似区域和全局区域组件（AP-FHTS）。从A和B的结果看，Sim可提高4个城市的Acc，但降低了Austin的Acc指标；Sim在Charlotte和Dallas的Non-Acc有提升，在Atlanta的Non-Acc指标下降，对其他城市的指标无影响。从A和C的结果看，Adj可提高4个城市的Acc，对Austin指标无影响；Adj在4个城市的Non-Acc有提升，在Atlanta则指标下降。上述三组实验的对比说明Sim和Adj组件对大部分城市预测模型性能的提升均有积极作用。从B、C和D的结果看，Sim和Adj组件在部分城市具有相容性。这种现象是正常的，因为邻近区域的物理结构往往很相似（如图3所示）。最后，从D和E的结果看，全局区域组件可提高所有城市的Acc和Non-Acc。

3.5　特征分析

通过特征选择方式分析天气数据（WE）、时间特征（H）和交通事件（TE）对不同城市预测模型性能的影响，如图6所示。在原有5个城市模型的基础上，构建一个包含所有城市训练数据的模型（All），以探索是否有必要为每一个城市单独训练一个事故预测模型。由于各个城市在物理结构上不存在相邻关系，因此选择Sin+Sim+Adj模型探索特征的重要性。从结果上看，三种特征对模型性能均有提升作用，不同特征在不同城市对模型性能提升有差异。例如，仅使用天气数据时，Austin的Acc低于Atlanta，在添加时间特征后，二者的Acc持平；仅使用天气数据时，Austin的Non-Acc低于所有城市，在添加时间特征后，不仅Austin的Non-Acc大幅提升，仅低于Houston，而且Atlanta和Charlotte的Non-Acc也大幅提升。其次，交通事件有助于平衡Acc和Non-Acc，减少预测模型在各城市的性能差异。此外，为不同城市训练不同模型是必要的。虽然在使用全部特征时，All的Avg-Acc仅比Houston低，但为每个城市单独训练模型仍是必要的，因为在集成所有城市训练数据后，负样本比例过大，导致平均性能向负样本性能倾斜；然而，对事故数据正确预测的意义远大于非事故数据。实际在使用全部特征时，All的Acc低于4个城市，Non-Acc低于2个城市。

表2　不同模型在5个城市数据集的性能比较

图5　不同组件对不同城市的模型性能的影响

图6　不同特征对不同城市的模型性能的影响

4 结语

基于事故数据存在的时间周期性、空间依赖性和空间异构性，本文提出了一种融合异构交通态势的事故预测模型AP-FHTS。与基准方法相比，动态捕获多角度、多尺度时空状态的AP-FHTS可有效完成对事故数据动态时空特性的捕获；而且AP-FHTS在同时提高Acc和Non-Acc的基础上，能缩小二者的差距，抑制事故数据不平衡性对实验结果的影响。事故预测模型性能的提高不仅可完成城市道路交通安全形势分析研判任务，还可根据模型的输入特征及其使用的方法完成事故成因分析。消融实验中，由于事故数据的空间依赖性，导致邻近区域组件和相似区域组件在部分城市预测性能上表现出相容性。未来，将会研究邻近区域和相似区域之间的事故状况联系，以及各个研究子区域的事故状况演变趋势，以进一步提高事故预测模型性能。

[1] SILVA P B， ANDRADE M， FERREIRA S. Machine learning applied to road safety modeling： a systematic literature review［J］. Journal of Traffic and Transportation Engineering （English Edition）， 2020， 7（6）： 775-790.

[2] REN H， SONG Y， WANG J， et al. A deep learning approach to the citywide traffic accident risk prediction［C］// Proceedings of the 21st International Conference on Intelligent Transportation Systems. Piscataway： IEEE， 2018：3346-3351.

[3] ZIAKOPOULOS A， YANNIS G. A review of spatial approaches in road safety［J］. Accident Analysis and Prevention， 2020， 135： No.105323.

[4] JIANG W， LUO J. Graph neural network for traffic forecasting： a survey［J］. Expert Systems with Applications， 2022， 207： No.117921.

[5] AL HAMAMI M， MATISZIW T C. Measuring the spatiotemporal evolution of accident hot spots［J］. Accident Analysis and Prevention， 2021， 157： No.106133.

[6] YU H， YUAN R， LI Z， et al. Identifying heterogeneous factors for driver injury severity variations in snow-related rural single-vehicle crashes［J］. Accident Analysis and Prevention， 2020， 144： No.105587.

[7] ABELLÁN J， LÓPEZ G， DE OÑA J. Analysis of traffic accident severity using Decision Rules via Decision Trees［J］. Expert Systems with Applications， 2013， 40（15）： 6047-6054.

[8] ALOGAILI A， MANNERING F. Unobserved heterogeneity and the effects of driver nationality on crash injury severities in Saudi Arabia［J］. Accident Analysis and Prevention， 2020， 144： No.105618.

[9] CHANG L Y， CHEN W C. Data mining of tree-based models to analyze freeway accident frequency［J］. Journal of Safety Research， 2005， 36（4）： 365-375.

[10] LV Y， TANG S， ZHAO H. Real-Time highway traffic accident prediction based on the k-nearest neighbor method［C］// Proceedings of the 2009 International Conference on Measuring Technology and Mechatronics Automation. Piscataway： IEEE， 2009： 547-550.

[11] TEDJOPURNOMO D A， BAO Z， ZHENG B， et al. A survey on modern deep neural network for traffic prediction： trends， methods and challenges［J］. IEEE Transactions on Knowledge and Data Engineering， 2022， 34（4）： 1544-1561.

[12] MOOSAVI S， SAMAVATIAN M H， PARTHASARATHY S， et al. Accident risk prediction based on heterogeneous sparse data： new dataset and insights［C］// Proceedings of the 27th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York： ACM， 2019：33-42.

[13] YUAN Z， ZHOU X， YANG T. Hetero-ConvLSTM： a deep learning approach to traffic accident prediction on heterogeneous spatio-temporal data［C］// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM， 2018： 984-992.

[14] HAMILTON W. 图表示学习［M］. AI TIME，译. 北京：电子工业出版社， 2021： 72-113.（HAMILTON W. Graph Representation Learning［M］. AI TIME， translated. Beijing： Publishing House of Electronics Industry， 2021： 72-113.）

[15] ZHOU Z， WANG Y， XIE X， et al. RiskOracle： a minute-level citywide traffic accident forecasting framework［C］// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 1258-1265.

[16] YU L， DU B， HU X， et al. Deep spatio-temporal graph convolutional network for traffic accident prediction［J］. Neurocomputing， 2021， 423： 135-147.

[17] CHEN Q， SONG X， YAMADA H S， et al. Learning deep representation from big and heterogeneous data for traffic accident inference［C］// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2016：338-344.

[18] YUAN Z， ZHOU X， YANG T， et al. Predicting traffic accidents through heterogeneous urban data： a case study［C］// Proceedings of the 6th International Workshop on Urban Computing. New York： ACM， 2017：1-9.

[19] LOBO A， FERREIRA S， IGLESIAS I， et al. Urban road crashes and weather conditions： untangling the effects［J］. Sustainability， 2019， 11（11）： No.3176.

[20] MALIN F， NORROS I， INNAMAA S. Accident risk of road and weather conditions on different road types［J］. Accident Analysis and Prevention， 2019， 122： 181-188.

[21] ROLAND J， WAY P D， FIRAT C， et al. Modeling and predicting vehicle accident occurrence in Chattanooga， Tennessee［J］. Accident Analysis and Prevention， 2021， 149： No.105860.

[22] TAN P N， STEINBACH M， KUMAR V. 数据挖掘导论（完整版）［M］. 范明，范宏建，译.北京：人民邮电出版社， 2011： 180-186.（TAN P N， STEINBACH M， KUMAR V. Introduction to Data Mining［M］. FAN M， FAN H J， translated. Beijing： Posts and Telecom Press， 2011： 180-186.）

[23] WALKER S H， DUNCAN D B. Estimation of the probability of an event as a function of several independent variables［J］. Biometrika， 1967， 54（1/2）： 167-179.

[24] BREIMAN L. Random forests［J］. Machine Learning， 2001， 45（1）： 5-32.

[25] PEDREGOSA F， VAROQUAUX G， GRAMFORT A， et al.： machine learning in Python［J］. Journal of Machine Learning Research， 2011， 12： 2825-2830.

Accident prediction model fusing heterogeneous traffic situations

YANG Bo， DUAN Zongtao*， ZUO Pengfei， XIAO Yuanyuan， WANG Yilin

（，’，’710064，）

To address the problems of limited information expression， imbalance， and dynamic spatio-temporal characteristics of accident data， an accident prediction model fusing heterogeneous traffic situations was proposed. In which， the semantic enhancement was completed by the spatio-temporal state aggregation module through traffic events and weather features representing dynamic traffic situations， and the historical multi-period spatio-temporal states of four types of regions （single region， adjacent region， similar region， and global region） were aggregated； the dynamic local and global spatio-temporal characteristics of accident data were captured by the spatio-temporal relation capture module from both micro- and macro-perspectives； and the multi-region and multi-angle spatio-temporal states were further fused by the spatio-temporal data fusion module， and the accident prediction task in the next period was realized. Experimental results on five city datasets of US-Accident demonstrate that the average F1-scores of the proposed model for accident， non-accident， and weighted average samples are 85.6%， 86.4%， and 86.6% respectively， which are improved by 14.4%， 5.6%， and 9.3% in the three metrics compared to the traditional Feedforward Neural Network （FNN）， indicating that the proposed model can effectively suppresses the influence of accident data imbalance on experimental results. Constructing an efficient accident prediction model helps to analyze the safety situation of road traffic， reduce the occurrence of traffic accidents and improve the traffic safety.

traffic accident prediction model; traffic accident data; spatio-temporal characteristic; deep learning; traffic safety

1001-9081（2023）11-3625-07

10.11772/j.issn.1001-9081.2022101619

2022⁃10⁃28；

2023⁃04⁃05；

陕西省重点研发计划项目（2019ZDLGY17‑08， 2019ZDLGY03‑09‑01）；陕西省“特支计划”科技创新领军人才项目（TZ0336）。

杨博（1999—），男，山西运城人，硕士研究生，CCF会员，主要研究方向：大数据、深度学习；段宗涛（1977—），男，陕西凤翔人，教授，博士，CCF会员，主要研究方向：大数据智能、交通大数据分析；左鹏飞（1997—），女，山西大同人，硕士研究生，主要研究方向：机器学习、交通大数据分析；肖媛媛（1997—），女，陕西西安人，博士研究生，主要研究方向：机器学习、数据挖掘；王艺霖（1999—），女，山西太原人，硕士研究生，主要研究方向：数据聚类、用户画像。

TP391； U491.31

2023⁃08⁃07。

This work is partially supported by Key Research and Development Program of Shaanxi Province （2019ZDLGY17-08， 2019ZDLGY03-09-01）， Project of “Special Support Plan” Science and Technology Innovation Leading Talents of Shaanxi Province （TZ0336）.

YANG Bo， born in 1999， M. S. candidate. His research interests include big data， deep learning.

DUAN Zongtao， born in 1977， Ph. D.， professor. His research interests include big data intelligence， analysis of big traffic data.

ZUO Pengfei， born in 1997， M. S. candidate. Her research interests include machine learning， analysis of big traffic data.

XIAO Yuanyuan， born in 1997， Ph. D. candidate. Her research interests include machine learning， data mining.

WANG Yilin， born in 1999， M. S. candidate. Her research interests include data clustering， user portrait.