基于强化学习的车联网隐私保护和资源优化策略*

2022-10-25章航嘉谢志军

传感技术学报 2022年8期

章航嘉，谢志军

(宁波大学信息科学与工程学院，浙江宁波 315211)

物联网(internet of things，IoT)和无线通信技术的飞速发展不断推动传统车载自组网向车联网(Internet of Vehicles，IoV)转变[1]。在IoV 中，智能汽车(Intelligent Vehicle，IV)使用各类传感器、摄像头和导航系统等车载设备从周围环境收集信息并与服务器或附近车辆共享，提高交通效率，降低事故发生率[2]。与此同时，IoV 的快速发展加速了智能交通系统(Intelligent Transportation Systems，ITS)的建设和实际应用[3]。 ITS 通过路边单元(Road Side Unit，RSU)收集IVs 的各类传感信息，利用无线通信技术上传到服务器并对数据进行分析，做出有利IVs 的决策，以减少交通拥堵，降低车辆油耗和事故发生率，提高电动汽车能源利用率和电网能源有效使用率[4-6]。虽然ITS 利用共享数据训练全局模型实现了对IoV 更全面、更广泛和更智能的实时、准确管理，但是IVs 和ITS 的信息交互存在严重的通信开销和数据隐私问题，这严重阻碍了ITS 的未来发展。传统的ITS 系统交互信息是车载设备收集到的原始数据。在无线通信模式中，恶意用户有可能拦截无线通信信号以窃听，删除，编辑和重播消息[7]。因此，传统交互方式对原始数据不加密的传输方式在数据安全性和隐私性方面存在严重隐患，极大降低了驾驶员加入ITS 共享信息的意愿。同时，随着数据隐私问题逐渐列入司法保护范畴，隐私保护技术的研发和应用刻不容缓。

联邦学习(Federated Learning，FL)作为一种新兴机器学习领域的数据隐私保护训练范式，有效地解决了传统ITS 通过收集IVs 原始数据训练一个高精度共享模型的问题，进而降低数据泄露引发的危害，同时减轻原始数据传输造成的骨干网络拥堵压力[8-9]。文献[10]首次提出将FL 应用到电动汽车充电器的电网能源预分配策略，通过训练全局模型降低电网能源的转移成本和提供实时稳定的能源供给。文献[11]提出了一个基于FL 和区块链的IoV数据隐私保护框架，通过异步聚合方式得到全局模型。文献[12]建立了基于区块链和FL 的数据加密全局模型训练框架。但是，这些研究并没有考虑IVs 本地资源的有限性。

传统的全局模型要求所有IVs 参与全局模型更新。由于IVs 本地资源的异构性，不加规划地选择IVs 会导致全局模型训练时延和系统能量过度损耗，同时存在数据隐私泄露问题。为了降低骨干网传输压力和保护数据隐私，提出了基于强化学习的客户选择策略，在无需任何先验知识下，采取具有最长远效益的策略以优化系统资源[13-15]。为了解决多IVs 参与全局模型更新带来的维度灾难问题，提出基于评分机制降低客户选择维度，并最后通过仿真对提出的算法进行性能评估和分析。

1 整体框架

本文系统框架分为由IVs 构成的环境层，RSU构成的隐私保护模块以及服务器端的资源优化模块，如图1 所示。 ITS 与m个RSU 通过无线通信技术建立连接。第i个RSU 与无线通信范围内的ni辆IVs 建立联系，其中i∈M={1，…，m}，ni∈N={n1，…，nm}。在环境层中，IVs 通过传感器等车载设备收集附近的道路信息和视频信息，然后根据ITS 发布的训练任务，选择合适的数据和程序参与本次模型更新，最后将更新后的本地模型和下一任务可用资源状态上传。隐私保护模块由RSU 集合构成，每个RSU 接收无线通信范围内IVs 上传的本地模型并进行中间聚合。资源优化模块分为全局模型聚合和双层深度Q 网络(Double Deep Q Network，DDQN)决策两部分[16]。全局模型聚合将RSU 上传的中间模型进行聚合，得到新的全局模型，作为下一通信回合的初始模型。 DDQN 决策部分通过收集IVs 的资源状态并计算奖励，通过Q 网络和目标Q网络计算损失函数，更新决策模型，同时选择具有最长远效益的IVs 参与下次ITS 任务。

图1 系统框架

2 隐私保护算法

本文采用FL 范式作为数据隐私保护策略。传统深度学习模型训练范式，通常采用集中式云计算，需要将IVs 上的所有数据经过骨干网络上传到数据中心，再由云计算中心对数据进行处理。 IVs 私有数据脱离本地设备，会增大数据泄露的风险。为解决IVs 隐私保护问题，FL 训练范式保留IVs 数据在本地，通过多客户协作式训练下发的全局模型，间接利用客户丰富的数据资源，来达到全局模型训练的目的。

在FL 训练范式中，每次ITS 发布全局任务，第i个RSU 将与ni个IVs 建立通信联系。 FL 范式通过ITS 下发全局模型wrG到所有IVs，其中r表示当前通信回合。第k个IV 利用本地资源，包括电量ek、CPU 周期频率fk和私有数据资源，通过随机梯度下降算法更新全局模型，得到新一轮的本地模型wkL[17]。同时，由于IVs 行驶路况、行驶路线和地理位置等的差异，IVs 本地存储的数据具有极强的异构性σ，也就是非独立同分布属性，其中σ表示IVs本地数据的异构程度。也就是说，当σ=0.5 时，表示IV 本地数据中有50%数据具有同一标签，其余50%数据具有其他标签。 IVs 对全局模型更新结束后，将本地模型通过无线网络上传到建立通信连接的RSU，RSU 接收IVs 上传的本地模型wkL，进行中间聚合

RSU 得到中间模型后，上传到ITS。 ITS 接收到所有中间模型后，进行全局模型聚合

上述过程不断重复，直到全局模型达到目标精度Ω或者预定通信回合数。

3 资源优化算法

该部分首先建立系统模型，进而针对传统深度学习训练范式在资源优化方面的不足提出了基于DDQN 的IVs 选择算法。

3.1 系统模型

FL 训练范式中，ITS 选择符合任务要求的所有IVs 参与全局模型的更新。 IVs 拥有独立存储能力和计算能力，并能够独立提供完成ITS 发布任务的能源。在IVs 本地计算过程中，第k辆IV 完成ITS任务需要的CPU 总周期为:

式中:N为IVs 计算1 bit 数据需要的CPU 周期。

第k辆IV 完成ITS 下发的任务，即本地模型更新，时延为:

第k辆IV 完成本地模型更新任务后，通过无线通信技术上传到已建立通信关系的RSU，传输时延为:

RSU 得到IVs 的本地模型后，需要中间聚合和模型传输两个步骤。模型聚合消耗的时间和能量相对总时间可忽略不计。因此，RSU 传输时间为:

式中:rRSU-i为第i个RSU 与ITS 间的无线通信可用带宽。

本文假设模型下发过程没有丢失且同时到达IVs，所以忽略模型下发需要的耗时。同时，所有IVs通过同步更新算法完成任务，总时延即为最大时延。因此，系统完成一个任务周期需要的总时延为:

第k辆IV 通过本地资源更新全局模型，需要消耗的电量为:

式中:δ为IVs 芯片架构的有效开关电容[18]。

第i个RSU 无线通信范围内的IVs 需要消耗的电量为:

由于传输需要消耗的电量相对计算耗能可忽略不计。 FL 交互算法选择所有符合要求的IVs 参与。因此，系统完成一个任务周期总耗能为:

3.2 基于DDQN 选择算法

传统的云计算深度学习训练范式选择RSU 无线通信范围内的所有IVs 参与任务，不但导致系统能源的过度消耗，而且不能加速全局模型的收敛，造成了系统资源的严重浪费。为了降低算法的波动，同时对资源更好利用，本文提出了由经验驱动的智能化IVs 选择算法DDQN，并针对性地提出评分机制解决动作空间的维度灾难问题。

3.2.1 状态空间

假设对IVs 的选择策略满足马尔可夫性，将其构造为无模型马尔可夫决策过程(Markov Decision Processes，MDP)，即MDP(S，A，P，R)。若同时将所有参与的IVs 状态信息作为输入，并同时输出所有IVs 的选择策略，将导致状态空间和动作空间的维度灾难。这不仅难以训练智能体，更会导致无法达到生成最优决策以优化ITS 系统资源的目的。为了解决随着IVs 数量增长造成的状态空间S和动作空间A的维度灾难问题，本文重新定义了状态空间和动作空间。在每个RSU 通信范围内，状态空间S定义为:

式中:

式中:E为最大电量状态；F为最大CPU 频率周期；R为最大无线通信带宽。

3.2.2 基于评分的动作空间

式中:

对IVs 的初步动作进行全局分析，选择得分最高的K辆IVs。最后IVs 动作定义为:

式中:ak=1 表示该IV 参与任务；ak=0 表示不参与任务。

3.2.3 转移概率

IVs 的资源状态和RSU 所处环境的无线通信信道状态都处于实时变化中。同时，智能体只对上传的IVs 资源状态进行分析。因此，IVs 不断行驶造成的地理位置移动并不会影响智能体的决策。所以，仅需定义资源状态，IVs 资源状态转移概率定义为fk～U(0，F)，rk～U(0，R)，rRSU～U(0，R)。

3.2.4 奖励函数

奖励函数对于优化智能体的策略探索至关重要。本文主要使用基于DDQN 的算法对系统的资源进行优化，宏观层面体现在降低达到目标精度Ω需要的总时延和系统总能耗，即与总时延和系统总能耗成反比。因此，奖励函数定义为:

式中:αT为时延的比例因子；αE为电量的比例因子。

3.2.5 基于DDQN 的IVs 选择算法

ITS 根据IVs 的当前状态s∈S，计算得到a∈A，然后根据RSU 范围内的IVs 动作空间，得到最后的IVs 状态，以最大化整个系统的长期累积奖励π*:S→A。传统的Q 学习(Q-Learning，QL)算法经常被用来寻找最优决策[19]。 QL 算法通过构造称为Q-Table 的Q(s，a)，记录状态、动作和相应的奖励并不断更新，通过对经验的回顾找到最优策略。 ITS通过经验回放更新Q(s，a):

式中:Q′(s，a)为更新后的Q-Table；R(s，a)为当前状态和动作下的奖励；s′为下一状态；a′为下一动作；β为学习率；γ为折扣因子。

但是，QL 构造的Q-Table 随着状态空间和动作空间的维度升高需要极大的存储空间，同时决策需要更长的查表时延。深度Q 网络(Deep Q Network，DQN)通过将Q-Table 映射为一个神经网络(Neural Network，NN)，解决了存储空间和查找时延问题[20]。但是，DQN 采用单NN 进行策略选择和评估会造成Q-value 的过估计。因此，本文提出使用带有Q 网络和目标Q 网络的DDQN 对策略进行选择和评估，避免对Q-value 过估计。 DDQN 更新时损失函数为

式中:L( )为损失函数；E[ ]为数学期望；θ为Q 网络的模型参数；y为目标Q 网络根据Q 网络具有最大奖励值的动作评估值。

y定义为:

算法流程如图2 所示。首先，初始化经验回放、学习率β、折扣因子γ和Q 网络参数θ，并使目标Q网络参数θ′=θ。每次全局模型更新，ITS 通过IVs上一状态s、选择的动作a以及现今状态s′，通过奖励函数得到奖励R，并将(s，a，R，s′)存入经验回放区。每次训练Q 网络时，从经验回放中选择最小批更新。随后通过概率(ε×η)选择最大得分，或者按概率(1-ε×η)随机选择得分，其中ε为策略概率，η为概率衰减因子。然后，根据RSU 范围内的总体得分，选择具有最高得分的K辆IVs 参与该通信回合并通过RSU 发放最新全局模型。

图2 基于DDQN 的IVs 选择算法流程

4 仿真与分析

4.1 设置

本文采用Ubuntu 18.04 操作系统，keras2.2.4 开发环境，Intel E5 系列8 核处理器，16G 内存，RTX 2080Ti 图形处理器。采用MNIST 作为数据集，设置数据异构属性σ=0.7，即每辆IV 拥有600 张图片参与每次本地模型更新，其中主要类占比为70%。 Q 网络隐含层为256×256。本文的基线算法为传统交互算法、FL 交互算法、随机选择算法和K-中心选择算法。传统交互算法仅传输数据，FL 交互算法选择所有IVs 参与，随机选择算法随机选择K辆IVs 参与，K-中心选择算法根据IVs 资源状况聚类后再在每个类中选择一辆IV 参与。其余仿真参数设置见表1。

表1 参数设定

4.2 系统能源评估

ITS 消耗的能源主要由处于终端的IVs 消耗。由于IVs 不断地从其他客户端或者服务器接受任务，任务队列一直处于活动状态，有效地对任务进行安排能够提高能源利用率，避免额外消耗。

传统交互算法将本地数据上传，并不消耗本地计算资源，本文忽略数据传输的能耗。如图3 和表2 所示，随机选择算法、K-中心选择算法和基于DDQN 选择算法需要的能源都少于FL 交互算法。而且随机选择算法、K-中心选择算法和基于DDQN 选择算法相较于FL 交互算法，系统总能源消耗降低了77%以上，最优的基于DDQN 的选择算法系统总能源消耗降低了82.02%。原因在于，FL 交互算法需要所有IVs 参与每次迭代，造成了本地资源的浪费。同时，本地模型的目的是最小化本地数据的损失，而ITS 需要最小化全局的损失。由于全局模型需要对所有本地模型进行聚合，本地模型权重之间的差异将被累积。因此，选择所有IVs 参与并没有大幅度降低需要的通信回合，进而节约系统能源。

图3 ITS 总能源消耗

系统总消耗能源体现了系统完成ITS 任务需要的总能源，每通信回合消耗能源表现了每次交互需要的能源。每通信回合需要的能源越少，IVs 需要付出的资源越少，从而增强ITS 的系统伸缩性和持续性。如图4 和表2 所示，本文算法每通信回合消耗能源相较于FL 交互算法，减少了90.56%。

表2 系统能源消耗

图4 ITS 每通信回合能源消耗

由于FL 交互算法每个通信回合需要所有IVs参与，所以需要消耗大量的本地计算资源。随机选择算法、K-中心选择算法和基于DDQN 选择算法每次选择10 辆IVs 参与，有效降低了每个通信回合的能源损耗，同时并没有大幅度降低模型收敛速度，也有利于IVs 处理其他任务。

4.3 通信时延评估

时延决定了ITS 全局模型的迭代速度和收敛速度。系统时延表示每次全局模型达到目标精度需要的时间，每通信回合时延表示每次全局模型更新需要的时延。

如图5 和表3 所示，传统交互算法和FL 交互算法总时延相对较小。原因在于，每个通信回合IVs模型更新和上传是同步进行的，只计算当前回合最大传输时延。而每个通信回合要求所有IVs 参与模型更新有助于全局模型收敛，相应地降低了总时延。另外，基于DDQN 选择算法的总时延明显优于随机选择算法和K-中心选择算法。

图5 ITS 总时延

表3 系统时延

如图6 和表3 所示，基于DDQN 选择算法每个通信回合的时延相较于传统交互算法降低了10.00%。原因在于，基于DDQN 选择算法能够选择模型更新及传输时延较小的IVs 参与，降低了时延上限。

图6 ITS 每通信回合时延

4.4 传输数据评估

大量数据的传输会导致骨干网络的堵塞。降低数据交互量可以有效地缓解骨干网的压力，同时减少IVs 的传输能耗。

如图7 所示，FL 交互算法将原始数据传输转换为本地模型传输，传输数据量减少了92.06%。本文算法不但有效地保护了数据隐私，同时极大降低传输数据量，缓解骨干网压力。本文算法相较于FL 交互算法传输数据量减少了80.95%，相较于传统交互算法减少了98.49%。原因在于，基于DDQN 选择算法可以均衡能源消耗和传输时延，选择具有长远效益的IVs 参与全局模型更新，从整体上降低传输数据量。

图7 ITS 总传输数据

5 结论

现有研究大多忽视车联网隐私保护的情况，同时车联网应用的开发受限于有限的无线通信资源和计算资源。在此前提下，本文提出了K-中心选择算法和基于DDQN 选择算法。 K-中心选择算法针对传统算法无法对隐私进行保护和无法对资源进行有效优化的问题，通过聚类有效地优化了系统资源，同时有效降低了算法的时间复杂度。基于DDQN 选择算法通过深度强化学习进行决策，进一步提高了系统资源利用率。仿真结果表明，基于DDQN 选择算法相比传统方法，每个通信回合时延降低了10.00%，传输数据量降低了98.49%。

本文研究中，基于DDQN 选择算法根据系统资源状况进行决策，无法准确地判断IVs 本地数据对全局模型的影响，造成部分通信回合全局模型没有提升，以致资源浪费。后续研究将考虑如何根据本地数据加速全局模型收敛，进一步优化系统资源。另外，如何在IVs 真实应用上利用本文设计的隐私保护和资源优化策略也将是后续研究的重点内容。