基于双向门控循环单元的通信基站流量预测研究

2022-06-28高跃衡石尚轩罗吉祥

软件导刊 2022年6期

高跃衡，张艳，石尚轩，罗吉祥

（上海理工大学光电信息与计算机工程学院，上海 200093）

0 引言

2021 年是我国“十四五”规划开局之年，“加快数字化发展”“完善基础设施网络”已成为“十四五”规划的重中之重［1］。随着现代通信科学技术的飞速更迭，目前已经发展出5G 乃至6G 的高速通信技术［2］，让生活变得更加便捷。但在通信技术发展过程中，也衍生出了移动通信基站潮汐效应问题，即网络流量在一天的不同时段具有某种周期性的变化特征［3］。在流量使用高峰时段，通信基站［4-5］往往会处于超负荷运转状态，无线网络较为拥堵，用户上网体验变差［6-7］，此时运营商需要扩充基站的载频数量以缓解拥堵，从而造成高能耗。相反，在流量使用低谷时段，如果仍按照高峰时段的标准配置基站载频，通信基站的资源利用率就会变得很低，从而造成不必要的资源浪费。

为了避免网络拥堵和资源浪费，采用合理的智能化算法以实现基站载频数量配置的自动化、智能化、精准化、快速化，成为当前亟待解决的问题。

1 相关工作

为了科学配置资源，对于通信基站流量配置常采用机器学习模型预测方法。目前，科研工作者已经从不同角度提出了以下几类解决方案：

（1）利用线性模型进行预测。如：文献［8-10］基于线性模型分别提出利用自回归滑动平均模型（Autoregressive Moving Average Model，ARMA）、Switching 差分整合移动平均自回归模型（Autoregressive Integrated Moving Average model，ARIMA）、模糊自回归模型进行预测的方法。然而，通信基站流量往往不是线性的，并且较为复杂，利用线性模型预测不但精度不高，而且只能做短期预测。

（2）利用递归神经网络进行预测。递归神经网络可以用来模拟流量非线性变化。如：刘渊等［11］提出一种基于小波分析、自回归网络（Autoregressive Model，AR）和Elman 网络的组合预测方法。Li 等［12］采用萤火虫算法优化网络的初始权值和阈值，再结合误差反向传播算法（Error Back Propagation Training，BP）对流量进行预测，预测结果相对更精确，但仍未达到理想效果。

（3）利用循环神经网络（Recurrent Neural Network，RNN）进行预测。虽然递归神经网络可以模拟实际流量的非线性变化状态，但是由于递归神经网络的形式是树状展开，因此捕获时序特征的能力较弱。而对于通信基站流量，其最密切关联的变量就是时间，因此有学者提出利用RNN，一种递归神经网络的变体，它对时序特征的捕获能力很强，且对时序信息具有记忆能力。长短期记忆网络（Long Short-term Memory，LSTM）是RNN 的一种变体，其结构较RNN 更为复杂，有效地解决了RNN 梯度爆炸或梯度消失问题，且对于长期预测更为精确。Vinayakumar 等［13］在相同的误差评价指标上对比RNN 和LSTM，分别对网络流量作出预测，LSTM 明显优于RNN。有学者将LSTM 与其他网络或方法结合，提出改良LSTM，如：文献［14-16］分别结合多通道方式和LSTM、自动编码器和LSTM、改进粒子滤波算法（Particle Filter，PF）和LSTM。门控循环单元（Gate Recurrent Unit，GRU）是RNN 的另一种变体，其在LSTM 的基础上简化了部分结构，并保持精确的预测能力，使预测更加高效，且GRU 在通信基站流量预测问题上表现要略微优于LSTM。Ramakrishnan 等［17］对比GRU 和LSTM 发现，GRU 较LSTM 预测更准确、速度更快，也更高效。Cao 等［18］结合CNN 和门控循环单元（Gate Recurrent Unit，GRU），使CNN 将流量学习为图像预测交互式流量，GRU 预测纯业务流量，其精确度及效率要高于LSTM。

但是，上述通信基站流量预测方法，大多是按照数据时序进行单向预测，只考虑了前一时刻和当前时刻的关联，并没有考虑到前一时刻、当前时刻和后一时刻之间的关联，预测精度不够高。因此，必须从提高精度着手进行深入研究。根据通信基站流量预测本质上是时间序列预测这一特征，再利用GRU 对于时间序列的敏感性特点，及其在长期预测较RNN 更精确且相对于LSTM 效率更高两方面的优势，进行流量预测算法研究。提出一种基于双向门控循环单元（Bi-directional Gate Recurrent Unit，BGRU），对于通信基站流量具有良好记忆功能和更高精确度的预测模型。该模型在训练时，将输入序列从正反两个方向同时进行训练，将每个细胞的状态值进行拼接，以保留双向的边缘信息。

2 算法原理

算法整体流程如下：

（1）数据处理。对数据进行分组打乱和标准化处理。

（2）选取网络。对比线性网络、递归神经网络、RNN、LSTM 以及GRU，综合考量预测精度和实际情况发现，GRU在基站流量预测问题上的表现最好，但仍有提升空间。再考虑到时间序列的前后关联性，提出基于BGRU 的基站流量预测网络。

（3）训练过程。训练时采取Adam 算法，该算法使得梯度更新平稳并能处理稀疏梯度，更容易得到全局最优解。

（4）实验验证。设计参数调整实验和对比实验，参数调整实验反映调整过程，对比实验引入4 个网络：LSTM、GRU、双向长短期记忆网络（Bi-directional Long Short-term Memory，BLSTM）和BGRU。采取GRU 和BGRU、LSTM 和BLSTM 作对比，反映双向网络在处理时序问题上精确度优于单向网络。采取LSTM 和GRU、BLSTM 和BGRU 作对比，反映在基站流量预测问题上GRU 要优于LSTM。

2.1 GRU神经网络

2014 年，Chung 等［19］提出门控循环单元GRU 网络，它在性能上与LSTM 不相上下，都能有效地对RNN 所产生的梯度爆炸或梯度消失现象进行抑制，两者在不同的问题上会有不同的效果，需具体分析。但是相较于LSTM 的“三门”设计，GRU 比LSTM 的结构更为简洁，计算效率要高于LSTM，GRU 在LSTM 的结构上进行简化，GRU 只有两个门控单元，分别是更新门与重置门。如图1 所示，即GRU 结构图。

Fig.1 Structure of GRU图1 GRU结构

“更新门”与“重置门”的数学公式分别如式（1）、式（2）所示。

GRU 网络将上个时刻的状态信息ht-1和当前时刻的输入信息xt各自通过权重Wz后，再拼接通过σ即Sigmoid函数得到这两个门控单元的状态，并记更新后的信息为zt，而重置后的信息为rt。

“重置过程”与“更新过程”的数学公式分别如式（3）、式（4）所示。

由式（3）可知，将重置后的信息rt与上个时刻的状态信息ht-1相乘后，与xt各自通过权重W后进行拼接。随后通过tanh 激活函数，将其范围缩放在［-1，1］区间，得到候选值，包含对当前时刻信息的记忆情况，这就是“重置过程”。由式（4）可知，(1 -zt)代表遗忘程度，而其与上个时刻的状态信息ht-1相乘后，则表示对上个时刻的信息相应程度上的遗忘，更新后的信息zt与候选值相乘，则代表了对当前信息相应程度上的记忆，最后将两者拼接为当前时刻的输出，即ht，这便为“更新过程”。

2.2 BGRU神经网络结构

如图2 所示，即单BGRU 的结构图。BGRU 结构采用两层GRU 在同一组数据上并行预测，两层GRU 相互独立，互不干扰。输入X={X1，X2，X3，…，Xt}和状态信息h={h0，h1，h2，…，ht}将依次输入GRU 和GRU’，其中GRU 为前向层，GRU’为后向层，两层的传播方向相反，每个时刻各自都有输出，分别包含前向信息和后向信息，最终拼接在一起作为该时刻的输出Y={Y1，Y2，Y3，…，Yt}。因此，该输出便保留了边缘信息。

2.3 BGRU神经网络设计

Fig.2 Single layer BGRU structure图2 单层BGRU结构

尽管LSTM 或是GRU 都针对无法进行长时序记忆作出了修正方案，但随着时序的延长，或多或少会遗忘一部分边缘信息。因此，为了提升模型精度、尽量不遗漏边缘信息，将采用三层双向门控循环单元BGRU，结合一层全连接层Dense 进行基站流量信息预测。考虑到Tanh 函数区间在［-1，1］，而上行流量并没有负值出现，于是采取计算量更小且导数性质更优的ReLU 函数作为激活函数，式（5）为ReLU 函数的数学表达式。

损失函数采用均方误差（Mean Squared Error，MSE），用来衡量预测值与真实值之间的偏差程度。每层选取32个神经元，且每层的合并方式选择拼接concat。

2.4 BGRU预测流程

BGRU 预测流程：

（1）数据处理。将数据按照一定时间长度划分为各序列，将序列随机打乱，保证训练时的可靠性，随后进行标准化操作，使训练更高效且精度更高。

（2）数据输入。将处理好的上行流量数据按照三维向量的形状输入到第一层BGRU 网络内，其中第一维是所有数据的数量总和，第二维是按照一定时间间隔划分好的所有时间序列的数量总和，第三维则是数据特征量，在此仅为上行流量。

（3）单层BGRU 处理。根据式（1）、式（2），正向GRU 通过1 时刻的输入X1及0 时刻的状态h0经过Sigmoid 函数得到“更新门”和“重置门”的状态z1、r1。根据式（3），r1*h0和x1拼接，通过ReLU 函数得到状态候选值。再根据式（4），时刻信息遗忘后的信息(1 -z1)*h0和1 时刻信息要记忆的信息拼接得到1 时刻的输出h1。循环上述过程，直到得到所有时刻的输出h={h0，h1，h2，…，ht}。同样地，反向GRU 也与上述过程相类似，只是从序列的反向计算得到所有时刻的输出。随后将各时刻的正反向输出进行concat 拼接，得到第一层BGRU 各时刻的输出Y={Y1，Y2，Y3，…，Yt}。

（4）多层BGRU 处理。多层BGRU，即将步骤（3）重复多遍，得到更深层网络，提取更本质的特征，采取3 层BGRU，即将步骤（3）重复3 遍。将第1 层BGRU 的输出作为第2 层BGRU 的输入，循环上述过程，最终第3 层BGRU的输出只取其中正向GRU 的最后时刻输出以及反向GRU最后时刻的输出，进行concat 拼接。输入进入Dense 层，整合后得到最终输出。如图3所示，即具体网络结构。

Fig.3 3-layer BGRU network structure图3 3层BGRU网络结构

2.5 Adam优化算法

模型采取Adam 算法［20］进行训练模型。对Adam 算法过程进行描述如式（6）——式（8）所示。

由式（6）可知，β1为指数衰减率，g为t时刻梯度，mt为梯度一阶矩，此式可以看作是对历史梯度求加权平均。根据式（7），β2为指数衰减率，g为t时刻梯度，vt为梯度二阶矩，此式可以看作是对历史梯度的平方求加权平均。而式（8）则是对变量进行更新，其中为lrt学习率，ϵ是为了避免除数等于0以致出现数学错误而设定的一个常数。

Adam 算法引入了两个关键变量，即梯度一阶矩与梯度二阶矩。梯度一阶矩参照Momentum 算法，结合动量的概念，可以实现梯度更新时的稳定和平滑。梯度二阶矩参照Rmsprop 算法，用来处理稀疏梯度。Adam 算法训练时所需内存小，且需调整的参数较少，其在更新步长时会作出自适应调节，可以有效地让梯度下降到全局最优解。

若不使用Adam 算法进行训练，则不论是Momentum 算法、Rmsprop 算法抑或是Sgd 算法，都会有各自的缺点，带来诸如收敛到局部最优或是收敛太慢等问题，而Adam 算法则综合了诸多梯度下降算法的优点。

3 实验与分析

3.1 数据集与数据预处理

本文数据集来自于北京国测星绘信息技术有限公司http：//www.satimage.cn/，其中包括众多小区每小时的上行及下行流量数据，从2018 年3 月1 日至2018 年4 月19 日，共计50 天。取其中第186 号小区的上行流量作为研究数据，并按照4∶1 的比例将其划分为训练集和测试集，其中训练集共有960 条数据，测试集有240 条数据。最后用2018 年4 月20 日至2018 年4 月24 日，共计5 天的数据作为未来数据，进行结果验证。

首先将数据集中所有时间的上行流量总量N按一定的时间步长Timestep提取为一个长度为Timestep的时间序列Time(t)1，随后重复此提取步骤得到一个数据序列Data{Time(t)1，Time(t)2，Time(t)3，...，Time(t)N-Timestep}，然后将此数据序列随机打乱得到新的数据序列Data'{Time(t)p，Time(t)q，Time(t)r，...，Time(t)w}，p≠q≠r≠w且皆为常数，且皆小于等于(N-Timestep)。

将所得新数据序列Data'按4∶1 的比例划分为训练集Train{Time(t)1，Time(t)2，Time(t)3，...，Time(t)N*0.8} 和测试集Test{Time(t)1，Time(t)2，Time(t)3，...，Time(t)N*0.2}，将Train和Test按照式（9）进行标准化，可得标准化后的训练集Train'和测试集Test'，此时它们均值为0，方差为1。

其中，式（10）为均值表达式，式（11）为标准差表达式。

3.2 超参数选择

用R2评估模型预测正确率，L2 正则化参数选取0.01，训练次数为600 次。在此基础上，分别对学习率、时间步长及批次大小进行实验分析和选取。

3.2.1 学习率调整分析

学习率是非常重要的超参数，它的选取决定着神经网络的收敛速度和准确程度。若选取过大，会导致梯度徘徊在最优点附近并产生震荡导致无法收敛；若选取过小，则会导致梯度收敛速度极慢且容易收敛到局部最优解。在时间步长为24、批次大小为256 的条件下，对学习率的选取展开实验，学习率的选取通常以10 为倍数进行调节，选取0.1、0.01、0.001、0.000 1这4组数据进行实验分析。学习率变化时，在训练集和测试集上的损失值及R2的变化情况如表1所示。

Table 1 Experiment of learning rate adjustment表1 学习率调整实验

可以看出，在学习率0.001 时，模型的预测性能最佳，因此选择学习率为0.001。

3.2.2 时间步长调整分析

选取时间步长分别为2、6、12、24、36、48，在学习率确定为0.001、批次大小为256 的条件下进行训练。时间步长变化时，在训练集和测试集上的损失值及R2的变化情况如表2所示。

Table 2 Experiment of time step adjustment表2 时间步长调整实验

可以看出，在时间步长为12 或24 时，模型性能达到最佳，综合考虑训练时间，选择时间步长为12。

3.2.3 批次大小调整分析

选取训练批次分别为16、32、64、128、256，在学习率为0.001 和时间步长为12 的条件下进行训练。批次大小变化时，在训练集和测试集上的损失值及R2的变化情况和单轮迭代所需时间变化情况如表3所示。

Table 3 Experiment of batch size adjustment表3 批次大小调整实验

同批次大小的损失函数如图4 所示，其中（a）、（b）、（c）、（d）、（e）图依次为训练批次为16、32、64、128、256时的损失函数。

Fig.4 Loss function for different batch size图4 不同批次大小的损失函数

3.3 模型评价标准

本文将以4 个评价指标对模型进行定量评估，分别是MSE、平均绝对误差（Mean Absolute Error，MAE）、可决系数（Coefficient of Determination，R²）以及中值绝对误差（Medi⁃an Absolute Error，MedAE）。

MSE 为预测数据和真实数据对应时刻数据误差平方和的均值，MSE 越小说明预测效果越好，若MSE=0，则说明完全预测准确。其公式如式（12）所示，其中n为测试集总样本数,为预测值，yi为真实值。

MAE 为预测数据和真实数据绝对差值之和的均值，其范围是［0，+∞），同样地，MAE 越小，说明模型具有越完美的预测效果。其公式如式（13）所示，其中n为测试集总样本数为预测值，yi为真实值。

R²是解释模型拟合程度的一个数值，其范围为［0，1］，越接近1，说明模型拟合程度越高，越接近0，则说明模型拟合程度越低，若R²=0，则说明完全预测准确。其公式如式（14）所示，其中n为测试集总样本数为预测值为真实值的平均值，yi为真实值。

MedAE 为预测值与真实值绝对差值的中位数，MedAE越小，代表模型预测越准确，由于采用中位数的方式，因而此评价指标不易受个别跳跃点的影响，更具稳定性。其公式如式（15）所示，其中n为测试集的总样本数,为预测值，yi为真实值。

3.4 模型比较选择

为了验证所提BGRU 算法相对于其他常见模型在基站流量预测问题上的有效性，将在相同超参数的前提下，选取GRU、LSTM、BLSTM 分别与BGRU 作比较。BGRU、GRU、BLSTM、LSTM 的预测值和真实值分别在MSE、MAE、R2、MedAE 上的评估结果如表4所示。

BGRU、GRU、BLSTM、LSTM 在测试集中随机抽取连续100 小时的预测值和真实值的比较结果如图5 所示，其中（a）、（b）、（c）、（d）图分别为BGRU、GRU、BLSTM、LSTM。

Table 4 Comparison of model prediction effect on test set表4 模型在测试集上的预测效果比较

从表4 和图5 不难发现，对于基站流量预测问题，BGRU 和GRU 的各项参数都分别优于BLSTM 和LSTM，这表明GRU 模型的整体表现要优于LSTM 模型。同时可以得出，BGRU 和BLSTM 的各项参数都分别优于GRU 和LSTM，这表明双向网络的整体表现要优于单向网络。

Fig.5 Prediction of different models on test set图5 不同模型在测试集上的预测情况

3.5 未来数据预测及比较

对BGRU、GRU、BLSTM、LSTM 这4 种模型，分别在未来5 天，共120 小时的数据上进行预测，如表5 所示，分别在MSE、MAE、R2、MedAE 作出评估结果。

Table 5 Comparison of model prediction effect in the future data表5 模型对未来数据的预测效果比较

BGRU、GRU、BLSTM、LSTM 在未来5 天数据上的预测值和真实值的比较结果如图6所示，其中（a）、（b）、（c）、（d）图分别为BGRU、GRU、BLSTM、LSTM。

综合考量表4、表5 和图5、图6，虽然在未来数据上，模型精度较测试集略低。但是发现无论是在测试集还是在未来数据上，相较于对照的3 个模型，BGRU 不仅具有更高的精度，而且更具稳定性，因此最终选择BGRU 作为流量预测网络。

4 结语

Fig.6 Prediction of different models in the future data图6 不同模型在未来数据上的预测情况

本文针对通信基站流量调配不合理问题，提出了一种基于双向门控循环单元BGRU 的预测方法。该方法首先将数据按12 小时的时间长度分组并打乱，再作标准化处理；然后输入网络的数据将进入第一层BGRU，数据分别经过正向时序GRU 与反向时序GRU 并进行独立处理，在每个时间点得到来自于两个方向GRU 的不同输出，而后进行拼接操作，再作为输入，送入下一层BGRU。经过3 层的BGRU 处理后，取最后一层网络的两个方向各自最后时刻的输出，进行拼接操作后作为预测结果。从北京国测星绘采集了约8GB 的小区上行流量数据，选取适当的超参数以使损失函数收敛到最优状态，选取GRU、BLSTM、LSTM 3个神经网络进行实验比较，在测试集上验证该方法在通信基站流量预测问题上的优越性。基于“网络自身结构特点”和“单、双向网络”两个不同角度进行综合比较分析发现，在“网络自身结构特点”方向，GRU 网络整体优于LSTM网络，其中BGRU 的R²比BLSTM 高0.087、GRU 的R²比LSTM 高0.117，而在“单、双向网络”方向，双向网络整体优于单向网络，其中BGRU 的R²比GRU 高0.049，BLSTM 的R²比LSTM 高0.079。再通过5 天的未来数据进行验证，整体精度较测试集有所下降，但BGRU 仍为最优。综合考量后，选择表现最优的BGRU 作为预测模型。相对于传统的RNN、LSTM 等预测方法，此方法具有更高效、更准确的特点。

此方法可以针对不同小区个性化地提出不同的流量预测模型，在兼顾准确性的同时，可以实现一定程度上的流量配置自动化，节省人力成本。如此，资源将得到更合理的分配，并不会过多配置造成浪费，也不会过少配置造成网络堵塞。此算法也能够推广至与时间序列相关的预测问题，例如对城市交通流量、心电图、水文流量等的预测。但是，该算法仍有改进空间，未来工作会将注意力机制与BGRU 相结合，对周期性的尖峰和低谷数据配置更高的权重，令其得到更多关注，从而进一步减小预测误差。