基于强化学习的铁路通信基站天线覆盖自优化方法研究

2024-05-28景腊梅

大科技 2024年20期

景腊梅

（中铁二十一局集团电务电化工程有限公司，甘肃兰州 730030）

0 引言

随着铁路运输业的快速发展，人们对于高效、可靠的铁路通信系统的需求日益增加，铁路通信基站承载着保障列车安全行驶和有效调度的重要任务，其通信天线覆盖的优化成为确保信息传递无缝衔接的关键，而自优化网络作为一种解决方案，旨在通过自动化过程减少人工干预，提升网络性能与管理效率，近年来随着机器学习技术发展，使得强化学习技术得到兴起，在众多领域显示出了巨大的潜力，强化学习适合处理具有明显回馈且环境不断演变的问题，使之成为优化铁路通信基站天线覆盖的理想选择，借助强化学习的模型，在没有先验知识的情况下，基站可以通过与环境的交互学习到最优的天线配置策略。

1 铁路通信基站天线覆盖现状及问题

铁路通信基站的天线覆盖对于保障列车运行的安全性和时效性至关重要，目前这一领域面临着多重挑战，首先铁路沿线地形多变，从平坦的农田到崎岖的山地，都极大影响了信号的传播，其次由于铁路线路延伸数百甚至数千公里，确保端到端的无缝覆盖需要大量的基站，不仅增加了建设成本，同时也带来了维护的复杂性，再者高速移动的列车对通信信号的稳定性提出了更高要求，特别是在隧道、桥梁等特殊区域，信号衰减和多径干扰更为显著[1]。另外现有铁路通信系统大多采用固定配置的天线系统，其覆盖范围和信号强度往往无法自适应环境变化，例如在恶劣天气或特殊地理条件下信号可能会突然变弱，导致通信中断，或者铁路沿线的城镇发展和新的障碍物出现，也会对原有天线布局造成影响，进而需要调整天线配置以保持服务质量，然而现行体系下的调整通常需人工介入，效率低下且反应迟缓，因此高效智能的天线覆盖优化策略已成为铁路通信领域亟待解决的问题[2]。

2 基于强化学习的铁路通信基站天线覆盖自优化模型

2.1 基站天线辐射模型搭建

2.1.1 天线辐射模式选择

首先选择一个方向性辐射模式，并且是能够调整主瓣宽度的天线设计，以八木天线（Yagi-Uda）为主，这种天线相较于全向天线有更好的方向性，并且可以通过改变阵元数量、间距和馈电方式来调节其辐射模式，基站天线辐射模式示意图如图1 所示。

图1 基站天线辐射模式示意图

选定完模式后需要进行参数设定，可以设置一个具体的Yagi-Uda 天线模型，例如，使用8 个阵元，其中一个为激活馈电元，其余7 个作为被动反射或导向元素，假设天线设计工作在900MHz GSM 铁路通信频段，天线增益定为12dBi，同时利用3D 电磁场仿真软件进行辐射模式仿真，通过调整各阵元间的间隔和驱动电流的分布获取天线的方向图，阵元间距可设为0.3λ，其中λ 为工作波长，即大约33.3cm，且不同角度下的理论与实测信号强度存在一定差异性，具体内容如表1 所示。

表1 不同角度下理论与实测信号强度

在仿真后，技术人员需在实验环境中测量天线的实际辐射模式，可在铁路旁设置测量装置，记录不同角度下的信号强度，以天线为中心，每10°测量一次，在水平方向上获得180°的辐射模式数据，而在数据应用方面，将采集到的实验数据反馈给强化学习算法，使其能够基于实际环境中天线的辐射表现进行学习和优化。

2.1.2 模型传播

在铁路通信中考虑到特定的地理和环境因素，传播模型对于准确预测信号覆盖至关重要，而计算移动通信中信号传播距离的模型（Hata 模型）及其衍生版本是广泛应用于城市、郊区和农村环境的经典传播损耗模型，对于铁路环境，由于其独特的线性结构以及可能的地形变化，需要进一步调整和优化这些模型[3]。

而在应用扩展Hata 模型以适应铁路环境的过程中，首先需考虑多个方面因素，第一轨道高度与周围地形：由于铁路线路往往沿着特定地形建设，会比周围地面高出或低入，影响信号传播，第二直线距离：铁路通信中天线与移动接收器之间的相对位置较为固定且多沿直线移动，对传播模型参数化有特别影响，第三铁路两侧环境：铁路两侧一般是开阔地带、森林、居民区或其他基础设施，这些环境的不同对信号损耗有显著影响。

考虑完相关因素，在调整Hata 模型时可以引入特定的修正项来考虑这些独特的环境因素，可根据铁路相对于周围地形的高度差引入一个修正项，如果铁路位于高地，则需要降低损耗预测值，反之若处于低地，则需要继续增加损耗，而针对铁路通信的直线特性，需要调整模型中距离的算法，同时通过实地测试获取准确的系数[4]。

2.2 基站天线覆盖问题描述

在进行问题描述的过程中，需要定义一个明确的环境状态空间，在铁路通信场景中，将基站的每个可调参数（发射功率、下倾角、方位角等）和环境因素（列车位置、周边建筑物高度、天气状况等）组合定义为状态，然后在此基础上设计动作空间，动作即基站可以进行的调整，如增加或减少发射功率、调整下倾角和方位角等，假设动作集合包含的操作有5 种，每种操作都能微调当前的参数，如增加发射功率5%，减少发射功率5%等，接下来构建奖励函数，奖励函数能够反映当前动作导致的状态变化对通信质量的影响。

最后通过强化学习算法进行训练，使用强化学习交易（Q-learning）算法，可以迭代更新Q 值Q（St，At），根据Q（S，A）来选择最优动作，并调整天线参数以最大化长期收益，在仿真实验中设定初始参数，其发射功率为20W，下倾角为6°，方位角为30°，在100 个不同的列车位置和环境设置下进行测试，使用状态价值函数（DQN）作为优化算法，将过去的经验存入一个回放缓冲区，通过mini-batch 方式进行网络训练，以此来模拟出更加精确的动作价值函数[5]。

2.3 天线覆盖自优化模型搭建

在铁路通信基站天线覆盖自优化领域，强化学习提供了一套有效的解决方案，具体方法原理如图2 所示。

图2 天线覆盖自优化模型原理

首先需要定义强化学习环境中的状态空间、动作空间和奖励函数，状态空间包括天线的功率水平、倾角、方位角以及当前网络用户分布和流量需求等，动作空间由天线参数调整组成，如增加或减少功率输出、调整倾角和方位角等，奖励函数以覆盖范围和信号质量为依据，设计为对应于每一步动作后网络性能的评价，例如，覆盖范围提升和用户满意度增加会带来正奖励，而覆盖区域内的信号强度低于阈值或者用户服务中断则会引发负奖励。

在模型构建阶段，采用深度Q 网络结合卷积神经网络，使得模型能够处理高维输入数据，并有效地学习到从原始状态到最优动作的映射策略，DQN 通过使用经验回放（Experience Replay）和目标网络（Target Network）来解决训练过程中的稳定性和收敛问题，具体仿真数据设定如下：①考虑一个5km×5km 的铁路区段，其中部署了4 个基站天线。②每个天线的初始功率设为500W，倾角范围为0°～15°，方位角范围为0°～360°。③用户分布和需求根据实际铁路客运量数据生成，峰值时段每平方公里约50 名用户，非峰值时段约20 名用户。

通过连续多轮的训练，在每一轮结束时模型都会使用当前的网络状态信息来更新其权重，逐渐学会如何改变天线参数以提高覆盖率和满足通信需求，假设在训练初期，当天线功率减小5%、倾角增加0.5°和方位角顺时针旋转5°的动作被执行时，模型观察到覆盖范围从初始的3.8km 增加到了3.9km，因此这一系列动作获得正奖励，在经过10000 个训练周期后，模型表现出明显的学习成果，对于相同的用户分布情况，天线参数的调整可以在不超过10s 内完成，提高覆盖率至95%以上，并保持了99.5%的通信成功率，这表明该模型在实际铁路环境下具有很高的应用潜力。

3 基于强化学习的铁路通信基站天线覆盖自优化实验论证

3.1 实验过程

实验过程分为两个部分，分别为仿真实验设计和现场测试设计，仿真实验设计中仿真环境使用MATLAB/Simulink 构建，模拟具有不同地形、障碍物和铁路轨道布局的场景，每个场景中部署多个基站，其天线参数可以通过强化学习算法调整。定义状态空间为铁路通信网络的当前覆盖效率、用户分布和通信需求，动作空间为天线参数的调整选项，奖励函数基于覆盖效率的提升和用户满意度评价，要求每个仿真场景运行10次以获取平均结果，强化学习算法的超参数，如学习率和折扣因子，根据预实验结果设定，然后记录每次实验前后的网络覆盖率、服务质量（QoS）指标（延迟、吞吐量）和算法收敛速度并与传统的非自优化天线配置相比较，以及与其他最新的自优化方法进行对比分析。

而现场测试设计中，一般在实际铁路沿线选择具有代表性的区域进行现场测试，使用具备可调节天线参数的通信基站，搭载预先训练好的强化学习模型进行实时优化，在确保安全的条件下，调整天线参数以开始测试，记录测试过程中的天线参数调整情况、网络覆盖范围变化和通信质量变化数据，主要关注天线覆盖范围的变化、通信链路的稳定性以及响应时间等指标。

3.2 实验结果

本此研究通过实验验证了基于强化学习的铁路通信基站天线覆盖自优化方法的有效性，分别采用改进后的强化学习算法（RL-Improved）和传统的静态天线调整方法（Static）进行实验对比，实验在模拟的铁路通信环境下进行，主要评估指标包括覆盖率、平均通信延迟和能耗。具体实验结果内容如表2 所示。

表2 强化学习算法与静态天线调整方法的性能对比

从表2 可以看出，强化学习算法在各项评估指标上均优于静态天线调整方法，特别是在覆盖率方面，强化学习算法达到了95%的高覆盖率，而静态天线调整方法方法的覆盖率仅为85%，这说明强化学习算法能更有效地适应环境变化，提高天线的覆盖能力，在平均通信延迟方面，强化学习算法将延迟降低了20%，显示出更高的通信效率，而在能耗方面，尽管强化学习算法相较于静态天线调整方法有轻微增加，但鉴于其在其他两项指标上的显著提升，该部分增加的能耗可以视为对性能优化的合理投资，由此可见通过持续学习和自我调整，强化学习算法方法能够有效应对复杂多变的通信环境，进而提高铁路通信网络的整体性能，值得注意的是，尽管能耗略有增加，但考虑到覆盖率和通信效率的显著提升，该方法仍然是铁路通信基站优化的有力候选方案。