考虑网联汽车信息安全的交通流短时预测方法

2023-01-08王庞伟王天任李振华孙玉兰

同济大学学报（自然科学版） 2022年12期

王庞伟，王天任，李振华，刘虓，孙玉兰

（1.北方工业大学智能交通技术交通运输行业重点实验室，北京 100144；2.北方工业大学城市道路交通智能控制技术北京市重点实验室，北京 100144；3.中信科智联科技有限公司，北京 100029）

随着V2X（vehicle to everything，V2X）通信技术不断发展，智能网联汽车在网络安全、数据安全等方面面临众多挑战。各项研究成果表明［1］，基于智能网联汽车V2X数据与多种交通传感器建立交通数据集来短时预测交通运行状态，可以大幅提高交叉口的通行效率，提高道路安全性，为智能网联汽车提供信息安全保障。

目前的城市路网系统存在复杂的通信网络，智能网联汽车通信与任务卸载过程极易受到网络干扰或攻击导致数据缺失。利用边缘计算技术来解决智能网联汽车网络传输安全与缺失数据补全问题成为发展趋势。利用V2V（vehicle to vehicle，V2V）与V2I（vehicle to infrastructure，V2I）通信技术实时获取的智能网联汽车数据判断城市路网的交通事件，并通过对智能网联汽车任务卸载数据采样加密［2］、安全信道决策［3］、异常数据剔除［4］与动态传输耦合［5］等方式提高智能网联汽车信息安全及道路通行效率。同时，在处理智能网联汽车异常数据与缺失数据的问题上，Grover等人［6］提出叠加长短期记忆（LSTM）模型来补全智能网联汽车异常通信数据。Wu等人［7］提出处理缺失数据的链方程多元补全（MICE）方法，利用缺失数据和观测数据之间的相关性补全原始数据。Cui等人［8］通过在神经网络中设计插补单元来处理卸载缺失值并辅助交通预测。除上述方法外，生成对抗网络（GAN）数据插补模型［9］、张量补全模型［10］等方法都达到了补全缺失交通数据的效果，改善了智能交通系统运行。

在获得完整交通数据集的基础上，交通状态预测方法对交通流预测精度的影响也至关重要。传统的交通状态预测方法主要是基于交通流的模型以及统计学模型，如自适应回归综合移动平均模型［11］、卡尔曼滤波模型［12］及其各种变种模型等［13-15］，此类模型通常依赖于固定的假设，不能预测交通流数据的动态变化。与传统方法相比，基于变种K最邻近（K-nearest neighbors，KNN）的时空相关性预测［16］、基于张量分解的图嵌入预测模型［17］、综合卷积神经网络与图嵌入方法［18-19］等混合交通预测模型的仅需一定数量的交通流原始数据与智能网联汽车数据，即可自行提取并学习其时空特征，从而对交通状态进行短时预测。Wei等人［20］提出了一种根据相邻路段信息来预测道路交通状态的预测模型，该模型首先基于图嵌入实现路网表示，然后再根据生成式对抗神经网络实时产生交通信息预测交通状态，取得了较好的预测精度。Xie等人［21］使用图神经网络（graph neural network，GNN）将路段连通性建模为一个图，将输入和输出表示为图序列，对城市区域路网道路中的交通流进行预测。Xu等人［22］根据城市道路网中SCATS系统下的交通流数据时空特性，将交通路网表示为图，以交叉口为路网节点，基于图嵌入网络学习此系统下路网的时空特征，从而实时预测区域路网的整体交通状态。

综上所述，现有理论方法已取得一定研究成果，但仍存在以下问题：一方面，目前对V2X通信获取的智能网联汽车卸载缺失数据集的补全问题还有待进一步研究，另一方面，交通状态预测的研究大多采用于历史交通数据或开源数据集对交通状态进行预测，存在一定的滞后和冗余，导致预测结果实时性差、预测精度不高。

针对以上问题，通过建立基于智能网联汽车V2X数据的交通流短时预测系统获取智能网联汽车任务卸载数据、动态辨识任务卸载异常数据和感知城市路网的交通状态。同时提出考虑智能网联汽车数据异常的交通状态短时预测方法，应用带有数据补全机制的长短期记忆神经网络模型补全智能网联汽车卸载缺失数据，最终实现对城市交叉口交通流状态的短时动态预测。

1 基于智能网联汽车V2X数据的交通流短时预测系统

针对城市交叉口场景，交通状态通常指交通环境中交通流各种车辆的运行状况，具有动态性、周期性、随机性等特性［23］。随着V2X技术的发展，智能网联汽车V2X数据与多源传感器感知的交通状态数据可上传给交通管理系统或智能交通系统的其他子系统［24-26］，以此建立较完整的城市路交通状态数据集。

为提高交通检测数据精度及实时性，设计了基于智能网联汽车V2X数据的交通状态感知系统。系统主要包括智能路侧传感器与边缘计算设备（mobile edge computing，MEC）、配备车载单元（on board unit，OBU）的智能网联汽车，如图1所示。系统首先对交叉口中所有车辆的状态和路侧环境状态的信息进行实时感知，然后发送信息至部署路侧的智能路侧单元（road side unit，RSU），通过V2X通信发送数据至边缘计算单元进行多源信息融合。针对复杂交通网络环境下智能网联汽车V2X数据卸载过程，系统对缺失数据或异常数据进行动态辨识，根据历史平均值和观察值插补智能网联汽车任务卸载的数据缺失值，从而得到完整的交通状态数据集。再基于构建的神经网络预测下个时间步的交通状态，最终选择以交通流量和平均速度容量作为交通状态的预测与评价的特征值，实现对交通流的综合分析。本系统中各数据的类型及来源见表1。

表1 交通状态数据集的类型及来源Tab.1 Types and sources of traffic perception data sets

图1 基于智能网联汽车V2X数据的交通状态感知系统总体框架Fig.1 Framework of traffic state perception system based on V2X information for ICVs

2 考虑智能网联汽车数据异常的交通状态短时预测方法

根据建立的基于智能网联汽车V2X数据的交通状态感知系统，提出一种带有数据补全机制的图嵌入长短期记忆神经网络（graph embedding-long shortterm memory，GE-LSTM）模型用来补全智能网联汽车卸载缺失数据并短时预测交叉口的交通状态。该模型结合了复杂网络的特性，通过网络表征学习和神经网络来学习交通路网数据的时空特征，如图2所示为预测模型结构。

图2 交通状态预测模型结构Fig.2 Structure of traffic state prediction model

2.1 智能网联汽车任务卸载异常数据动态辨识

在数据任务卸载过程中，通信网络处在复杂交通网络环境下极易受到干扰，存在缺失数据或者异常数据的情况，如图3所示。首先采用马尔可夫链对智能网联汽车任务卸载过程建模，进一步确定任务卸载数据在通道阈值内的概率，通过V2I瑞利衰落信道模型得到任务卸载数据的信息安全概率，再由经验模态分解法去除噪声干扰，最后利用均值法剔除异常数据后得到缺失数据集，实现智能网联汽车任务卸载异常数据的动态辨识。

采用马尔可夫链对智能网联汽车V2I 信道进行建模［27］，设SNRk为时隙k中传输信道的SNR 水平。马尔可夫卸载模型如图3 所示。假设V2I 信道的衰落系数为IV2I，相应的衰落方差为σ2，CV2I表示车辆和基础设施无线接入点之间的信道容量：

图3 智能网联汽车任务卸载场景Fig.3 Task offloading scenario for ICVs

同时考虑基于阈值的卸载策略，智能网联汽车选择具有最高信道传输增益的最佳信道来进行任务卸载，可以得到智能网联汽车数据在信道阈值内的概率：

式中：fV2I为智能网联汽车当前卸载频率；fmax为信道阈值；mV2I，wV2I分别表示信道的衰落参数和平均接收功率；Γ(mV2I)为伽玛函数。

采用瑞利衰落信道模型进行V2I 通信，其中|IV2I|2是一个随机变量，遵循参数σ-2的指数分布、因此，智能网联汽车通过V2I信道在时隙k中卸载αk位数据的信息安全概率为

通过经验模态分解有效降低卸载过程中产生的噪声干扰，减少数据异常。经验模态分解法变化描述如下：

式中：将智能网联汽车卸载信号x(t)分解为信号主体分量Ci(t)与剩余分量rn(t)。经滤波处理，最后对各处理后的信号主体分量和残余分量重构，得到去除噪声的卸载信号。进一步采用均值法剔除数据集中的显著异常数据后得到系统中的RSU覆盖范围内的智能网联汽车的缺失数据集合T，表示为T={T1，T2，…，Tn}。

2.2 基于智能网联汽车V2X 数据的城市区域路网图建模

在城市区域路网图中，节点通常可以承载一系列交通特征，这些特征通常包括智能网联汽车的速度、加速度、经纬度位置等信息。根据第3 节实验环境的设置，对道路网络进行建模，如图4所示，其中阴影区域为V2X路侧传感器所感知的范围。然后再将其表示为加权有向图，描述如下：

图4 城市交叉口路网图Fig.4 Graph of urban intersection network

式中：V={v1，v2，...，vn}表示路段网络上的节点的集合，n为节点的个数；E={eij}表示各个顶点vi和vj之间相互连通的一组边；x表示基于V2X路侧感知范围内的交通状态。

在时间t时，用图信号Xt∈Rn×c来表示图G的交通状态，其中c表示交通状态特征的数量（例如交通流量、交通密度以及交通速度等）。在给定的p个历史时间步长中，图G中n个节点的交通状态观测值表示为X，X=，对于所有节点的下q个时间步长的交通状态预测值表示为Y，Y=。将交叉口的平均速度容量Mv和实时交通流量Qt作为描述交通状态的特征值，其中平均速度容量也可以用来评价交叉口的通行效率情况。对于平均速度容量的定义如下：

时间段k中，交叉口处的平均交通流车速为

则时间k内交叉口的平均速度容量表示为

式中：vmax为交叉口处的最大通行车速。

2.3 基于数据补全与时空特征分析的交通流短时预测模型

在建立智能网联汽车V2X数据集与交通传感器感知数据集的基础上，交通状态预测不仅依赖于交通数据集的完整准确性，同样也会随着交叉口的空间特性和时间维度的变化而实时改变，因此对交通数据集的补全与道路时空的相关性分析可以提高预测的精度。

如图5 所示为GE-LSTM 模型的算法流程。模型首先基于DeepWalk 从交叉口道路网络获得特征函数φ(v)来提取交叉口的空间特征。然后，提取多源传感器融合数据集Et与智能网联汽车缺失数据集T，将数据的时间特征与空间特征进行融合，构造输入Xt，并将其输入至LSTM 中的插补单元补全缺失数据并预测下一个时间步长t的交通状态，最终输出的结果为Yt。

图5 预测模型的算法流程图Fig.5 Algorithm flow chart of prediction model

2.3.1基于图嵌入提取空间特征

在实际城市交叉口的网络空间中，交通流具有一定的方向性，且下游的交通流速度受到上游交通流的影响，因此采用图嵌入DeepWalk算法来学习节点之间的相互作用以提取空间特征，其原理如图6所示。

图6 DeepWalk算法流程Fig.6 Flow chart of DeepWalk algorithm

DeepWalk 在对学习网络的空间表示时，首先会从中心节点开始，通过随机游走（RandomWalk）而生成一系列的随机游走序列，其次基于Skip-Gram算法对产生的节点序列进行空间表征学习，最后将每个节点序列嵌入到d维向量（d＜n）表示中。

其次，在完成对网络中的每个节点的随机游走后，采用Skip-Gram 算法来更新这些表示，引入映射函数φ：V→Rd（其中d是嵌入空间的维数，且d≤n）。目的是找出与节点vi相关性最大的节点，对于随机游走序列W，该优化问题可以表示为

式中：P(W|φ())表示在一个随机游走序列W中，当给定一个节点的时，在长度为l的窗口范围内，下一个节点出现的概率。由于交通流的方向是单向的，因此只考虑右侧窗口内的节点，则优化问题表示为

然后，根据独立假设可以对式中的条件概率进行因式分解：

因此，这样就表示每个节点vi将映射到其当前的特征函数φ中。通过softmax 函数来近似概率分布，以减少计算资源的消耗，可得到概率的表示为

2.3.2基于插补单元补全缺失数据

如果卸载到路侧端的智能网联汽车数据包含缺失值，则将使用具有处理缺失值功能的插补单元进行处理，目的是基于历史平均值和具有可学习衰减率的最后观察值推断智能网联汽车任务卸载的数据缺失值。此外，从插补值补全出的值可进一步提高交通流预测的精确度。

该插补单元由前向单元输出状态Ct-1和前向输出值ht-1作为输入，以推断后续观察值，如图5 所示。由屏蔽向量mt确定缺失值的位置，缺失的输入值可以通过插补单元进行插补。

式中：WI和UI是权重；bI是插补单元中的偏差；σ(x)表示在等式中定义的sigmoid函数。

然后，输入向量的每个缺失元素由推断元素更新：

2.3.3基于神经网络捕获时间特征

原始的V2X 多源信息融合数据经过DeepWalk算法的空间特征提取，得到了一个具有更高阶特征的网络嵌入，然后再将其作为LSTM 神经网络模型的输入，可以实现动态预测下一m个时间步长的交通状态{yt+1，yt+2，...，yt+m}。在路网图G中，指定的滑动窗口l内其交通状态表示为Xt={xt-l+1，xt-l+2，...，xt}。令Xt作为LSTM神经网络模型的输入，其维度为d。

图5 右侧的LSTM 单元中，对于三个输入来说，分别设有输入门、遗忘门和输出门作为约束控制来对这些输入进行选择性处理。

在时间t，LSTM单元有3个输入：当前交通状态Xt，前一隐藏层输出值ht-1以及输出状态ct-1；同时包含3 个输出分别是此时隐藏层输出值ht以及输出状态ct，产生的预测结果为Yt。3 个门的状态分别为it、ft、ot，为0到1之间的数值。其中，在此网络单元中，ct和ht会传递到下一个网络，其运算过程如下：

式中：用Wxc、Wxi、Wxf、Wxo分别表示交通状态的输入Xt的权重矩阵；Whc、Whi、Whf、Who表示隐藏层ht的权重矩阵；Wci、Wcf、Wco分别表示输出状态ct的权重矩阵；bi、bc、bf、bo表示偏置向量；其中激活函数tanh可将变量一一映射在［0，1］的范围中。σ(x)表示在等式中定义的sigmoid 函数，如式（19）；tanh(x)表示等式中定义的双曲正切函数，如式（20）。

通过上述LSTM 计算，得到ct和ht，此时网络预测输出可计算为

式中：Wy表示交通预测值隐藏层ht的权重矩阵；by表示预测值的偏置向量。

3 实验验证与结果分析

为了验证提出的交通状态预测模型，针对典型的城市交叉口场景，搭建了智能路侧设备与智能网联汽车联合实验平台。实验以智能网联汽车V2X数据与多源交通传感器融合数据作为模型输入，对数据补全与预测模型进行验证。

3.1 实验环境及实验平台

实验选取了北京市石景山区阜石路一处典型交叉口作为实验路段。该交叉口为由东向西的单向行驶4车道，其中最右侧车道为专用的右转车道。如图7所示，实验自主搭建了智能路侧设备与智能网联汽车联合实验平台，用于智能网联汽车V2X 任务卸载数据与交通状态数据的采集及实时处理，平台主要包括智能路侧设备RSU、智能网联汽车及通信设备。配备有车载单元OBU的智能网联汽车通过V2I通信将车辆数据与任务数据卸载至智能路侧设备，智能路侧设备搭载的边缘计算平台对智能网联汽车的任务卸载数据、道路的实时交通状态与路侧多源传感器的数据融合处理，最终生成实际交叉口场景下带有缺失数据的交通状态数据集。实验平台参数如表2所示。

图7 智能路侧设备与智能网联汽车联合实验平台Fig.7 Experimental platform of intelligent roadside devices and ICVs

表2 实验平台参数Tab.2 Parameters of experimental platform

实验数据采集的过程为30min，获取到整个交叉口智能网联汽车以及其他交通状态的实时数据，共约60 000 条，数据集包含的具体内容如表3、表4 所示。数据集包含的多源交通传感器能获得的车流量等信息，再结合V2I任务卸载数据可大幅提高对整个路段或交叉口的交通状态的实时感知能力，提高短时预测精度。由于V2X 通信环境中网络状态复杂，极易因干扰或攻击导致任务卸载过程出现数据丢包或异常的情况。因此，智能网联汽车任务卸载数据集中包含一定数量的异常与缺失数据。

表3 智能网联汽车任务卸载数据集Tab.3 Task offloading data sets for ICVs

表4 交通状态数据集Tab.4 Data sets of traffic state

3.2 模型参数设置

实验使用了两种常用的预测评价指标均方根误差（RMSE）和平均绝对误差（MAE）分析所提出的模型和对比模型的性能［28］。RMSE 和MAE 能反映真实观测值和预测值之间差异，其取值在［0，+∞］之间。评价结果与预测效果呈负相关，当数值越大，说明模型的预测效果越远离真实情况，反之则说明越接近真实情况。

式中：yt为真实观测值为预测值。

实验根据时间序列把实验数据集分成了两组：第一组将70%作为训练组（train data），用于模型的训练；第二组将30%作为测试组（test data），用于模型的测试。此外，手动调整和设置模型的最优参数，结果如表5所示。

表5 模型参数设置Tab.5 Model parameters

3.3 异常数据动态辨识与数据补全结果分析

从实验采集的数据集中选取10min 包含智能网联汽车任务卸载异常值与缺失值的车速数据进行异常数据动态辨识与补全效果实验。如图8a 所示，数据集中存在显著异常值，并在相应时段内存在一定缺失数据。图8b 为经动态辨识与数据补全后的效果，异常值被有效剔除且相应时段的车速数据得到补全。图8c为去除异常值与补全数据前后的对比结果，证明智能网联汽车动态辨识与数据补全效果良好。

图8 异常数据动态辨识与数据补全结果Fig.8 Results of abnormal data dynamic identification and data imputation

3.4 交通状态短时预测结果分析

实验基于路侧感知平台采集的实时交通状态数据，通过GE-LSTM预测模型对城市交叉口的交通流量以及平均速度容量分别进行不同时段的短时预测，主要包含10min、15min 和30min 的交通预测，其中各预测对象的误差值如表6所示，具体的分析结果如下。

将10min、15min、30min 时长的实验数据按7：3比例划分为420s、720s、1 530s 时长的训练集数据与180s、270s、540s 时长的测试集数据。其中图9a、9b、9c分别为3个时段交通流量测试集的真实值、数据补全后预测值与数据异常时预测值的对比结果，并得到数据补全后预测值与真实观测值之间的误差。

由图9可知，模型的预测结果能够准确的反映并预测出交通流量随交叉口信号灯进行周期性变化的趋势。同时，预测结果表明当智能网联汽车任务卸载数据存在缺失异常时，预测值曲线出现明显误差。依据表6 可知，在交通流量的10min、15min 和30min预测中，其数据补全后预测误差RMSE和MAE值稳定在1和0.8上下，且浮动不超过0.1，证明数据补全后预测效果良好［29］。

图9 不同时段下交通流量预测结果Fig.9 Prediction results of average traffic flow in different time

表6 预测模型的误差值Tab.6 Error values of predicted model

如图10所示，图10a、10b、10c分别为预测3个时段平均速度容量测试集的真实值、数据补全后预测值与数据异常时预测值的对比结果，并得到数据补全后预测值与真实观测值之间的误差。

平均速度容量（Mv）通常被用来评价和分析道路交通状态的表现情况，Mv越大，则说明当前交叉口的表现良好，反之则说明当前交叉口的交通状态表现越差，发生交通事故的概率会大幅增加。实验根据通过交叉口的最大行程时间［30］将Mv的阈值设置为0.6，即Mv大于0.6则说明交通状态表现良好。如图10 所示，在平均速度容量未来时间步长平均速度容量超过阈值0.6所对应的时间点，由此可实时感知并判断交叉口的交通运行状况，也为交通管理者对交叉口进行交通实时诱导及疏解交叉口排队压力提供了数据支持。

图10 不同时段下平均速度容量预测结果Fig.10 Prediction results of mean speed capacity in different time

3.5 对比实验结果分析

为了直观体现所提预测模型（GE-LSTM）的准确性，在实验结果中引入其他神经网络预测模型进行对比［20-22］，主要包括SVM、LSTM、KNN、CNN 和RNN模型，参数设置方面，上述模型与所提预测模型具有相同的隐藏单元的数量、训练批次大小、训练周期以及学习率，如表5所示。

在对比实验中，将上述模型分别对交通流量和平均速度容量进行分时段预测，最终各模型对比结果如图11、12所示。

图11 交通流量的对比结果Fig.11 Comparison results of average traffic flow

图12 平均速度容量的对比结果Fig.12 Comparison results of mean speed capacity

在10min、15min和30min的3个时段的交通流量和平均速度容量预测中，各模型预测误差RMSE 和MAE值随预测时间的增大而减小。相比其他5类模型，GE-LSTM 模型RMSE 和MAE 值最小，其中交通流量的预测误差RMSE 和MAE 值分别减少了74.6%、71.7%，平均速度容量分别减少了86.5%、87.4%。此外，根据GE-LSTM 与LSTM 模型对比可知，GE-LSTM 模型的预测误差值最小，证明在交通状态预测的过程中，通过引入图嵌入（GE）模型学习道路交通网络中的空间特征，对于基于LSTM 进行时间上的动态预测有促进作用，进一步证明了GELSTM模型预测的准确性。