APP下载

基于图卷积网络的基站用户数量预测

2023-10-11黄警明

无线电通信技术 2023年5期
关键词:用户数量时空基站

黄警明,陈 翔

(1.中山大学 电子与信息工程学院,广东 广州 510006;2.香港中文大学(深圳) 广东省大数据计算基础理论与方法重点实验室,广东 深圳 518172)

0 引言

随着我国经济建设的高速发展,城市化建设进程不断加快,朝着信息化、智能化方向发展。“智慧城市”建设是实现城市可持续发展、提高综合竞争力的重要举措,其应用领域十分广泛,如“智慧交通”“智慧医疗”“智慧农业”等。利用移动信息化技术对城市流量模式进行建模也是“智慧城市”建设的重要组成部分[1]。随着移动通信网络的发展普及,移动用户数量急剧增加,移动设备与移动基站之间产生了大量的交互信令数据,这些数据蕴含了丰富的用户位置信令,对这些数据进行时空建模分析,能够准确获取基站用户接入情况,帮助政府部门研究城市人群的流动模式,合理评估人群聚集情况,有助于应对突发安全事件,提高预警能力。同时,对基站用户数量的建模,能够协助电信运营商进行合理资源调度[2],实现基站智能化功率控制,达到节能减排的目的,助力绿色城市建设,提高居民生活质量。

对于基站用户数量的预测建模研究,大量学者从城市区域流量出发,建模为时序预测问题。在早期的时序建模研究中,学者们常采用机器学习或者统计信号处理的等基础分析方法进行研究,如卡尔曼滤波(Kalman Filtering,KF)[3]、差分整合移动平均自回归模型[4](Auto-Regressive Integrated Moving Average,ARIMA)等。文献[5]在对城市人流进行研究时,发现人流分布在时空上存在明显规律性。文献[6]在进行人口密度研究时,使用空间自相关和统计分位数等研究方法,发现人流分布在空间上具有聚集趋势。文献[7]使用了数千个矩阵的流量信息和近100万条用户的时空信息,分析表明基站通信流量和用户在时空活动模式上具有明显相关性。

随着深度学习技术的广泛应用,神经网络由于具有较好的特征提取能力,逐渐被应用于城市人口流量预测建模研究。文献[8]利用卷积神经网络(Convolutional Neural Network,CNN)获取不同时刻的空间交通需求表征后,结合长短期记忆(Long Short-Term Memory,LSTM)网络预测城市不同区域的交通流需求。由于城市区域流量数据更多是不规则空间结构,为了更好解决非欧结构的数据建模,有学者提出使用图卷积网络(Graph Convolutional Network,GCN)进行时空建模。文献[9]提出一种时空图卷积网络(Spatio-Temporal Graph Convolutional Network,STGCN)交通流预测模型,采用一维CNN结构提取时间维度交通流特征,并以频域图卷积ChebyNet结构提取空间特征,二者交替迭代实现对交通流建模。有学者在该模型结构上,将历史序列分辨粒度划分为小时、天、周三种,并引入注意力机制增强对时空相关性的捕获[10]。文献[11]利用手机信息数据,采用一种改进型的STGCN模型对OD(Original-Destination)流进行预测建模。文献[12]提出一种扩散卷积递归神经网络(Diffusion Convolutional Recurrent Neural Network,DCRNN)深度学习框架,利用双向扩散卷积捕获交通节点的空间相关性,并将扩散卷积嵌入门控循环单元(Gated Recurrent Unit, GRU)模型中提取交通流信息的时空特征。

1 基站用户数量预测建模

1.1 基站用户数量预测问题描述

基站用户数量预测问题本质上是一个城市网络拓扑约束下的时间序列建模预测问题。一个城市的基站网络结构可以表示为一个带权有向图G(V,E,A),其中,V={v1,v2,…,vN}表示所有基站的集合,共有N个基站,E表示基站之间边的集合,A∈RN×N表示基站之间的带权邻接矩阵。基站用户数量可以看作是由多个时间序列组成的多维向量,如式(1)所示:

(1)

基站用户数量预测问题可以建模描述为,在图G(V,E,A)的条件下,给定历史P个时刻的输入信号,建模学习一个关系f,预测估计未来Q个时刻的输出信号,具体表示如下:

(2)

1.2 GCN

GCN[13]是一种应用于图结构数据的GCN,与传统的CNN[14]相比,GCN能够有效提取非欧结构数据的空间特征,在城市流量预测、推荐系统等领域得到了广泛应用。在GCN中,每一层节点的信息都由上一层节点自身的信息和相邻节点的信息加权求和,再进行非线性变换得到,每一层的前向传播公式可定义为:

(3)

1.3 LSTM网络

LSTM网络[15]是一种改进的循环神经网络(Recurrent Neural Network,RNN)[16],能够捕获时间序列长期依赖特性,并且能够有效解决长序列训练过程中的梯度消失和梯度爆炸问题,在长时间序列应用上具有更优的表现。

LSTM网络结构如图1所示,由3个门控单元组成:遗忘门、输入门和输出门。遗忘门决定了上一时刻细胞状态Ct-1的保留信息,输入门决定了当前时刻输入xt和细胞状态Ct的输入更新,输出门决定了当前时刻细胞状态Ct的输出结果,具体计算结果如式(4)~(9)所示:

图1 LSTM网络结构Fig.1 Structure of LSTM

ft=σ(Wf[xt,yt-1]+bf),

(4)

it=σ(Wi[xt,yt-1]+bi),

(5)

Cnt=tanh(Wc[xt,yt-1]+bc),

(6)

Ct=ftCt-1+itCnt,

(7)

ot=σ(Wo[xt,yt-1]+bo),

(8)

yt=ottanh(Ct),

(9)

式中:ft、it、ot分别表示遗忘门、输入门和输出门信息,Cnt、Ct分别表示候选细胞状态和当前细胞状态,Wf、Wi、Wc、Wo表示网络权重矩阵,bf、bi、bc、bo表示网络偏置系数。

1.4 基于图卷积的基站用户数量预测模型

基站用户数量预测主要是对其进行时空建模。本文基于GCN提出一种GCN-LSTM模型,模型主要由GCN Block单元和LSTM单元组成。GCN Block单元通过图生成和图卷积计算,提取基站用户数量的空间维度的隐含特征。LSTM单元对GCN Block单元提取的高维特征进行建模,学习序列的时空特征,最后经过全连接层输出基站用户数量的预测值,模型结构如图2所示。

图2 GCN-LSTM模型结构Fig.2 Structure of GCN-LSTM

1.5 图生成层

图生成层负责生成图卷积层使用的邻接图,为了更好地提取基站节点之间的空间关系,捕获高阶隐含的空间特性,同时使用基于基站空间距离的静态邻接图和基站节点之间随时间变化的用户转移数量动态邻接图,并且引入PoI信息作为空间地理特征补充。

1.5.1 距离邻接图

城市基站之间具有一定的地理关系,构造距离邻接图,能够捕获基站之间的局部区域特性。参考已有工作,使用带门限的高斯核函数[17]进行构建距离邻接图As,具体表示为:

(10)

1.5.2 转移邻接图

实际生活中,用户的位置往往不是固定不变的,在移动过程中,容易在邻近基站之间进行切换接入。因此,对于一个基站的用户数量而言,可能与邻近基站之间存在一个此消彼长的数量关系。通过构造转移邻接图,能够描述基站用户数量的动态变化特性,捕获其时变特征。转移邻接图计算方法如算法1所示。

算法1 转移邻接图计算方法 输入:m条数据样本输出:每个时刻基站的转移邻接图1.初始化:每个时间段基站之间的转移邻接图yj,ki=0,j,k为基站编号,i为时刻编号2.对于所有数据样本进行3. 提取每个用户的所有移动轨迹

1.5.3 PoI邻接图

PoI信息的分布特征能够一定程度上反映该区域的功能特性,具有相似PoI分布的基站区域可能存在相似的用户数量分布。本文通过高德地图开放平台提供的API接口,获取了研究城市范围的PoI数据,并根据平台的分类参考,将PoI兴趣点划分为23类,将PoI根据地理位置映射到各个基站的覆盖区域,分别统计各基站区域下各类PoI兴趣点的数量。为了进一步获取其场景分布特点,采用词频-逆文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)方法[18]计算每个基站PoI信息的TD-IDF值,评价其场景服务功能的重要性,具体计算方法如式(11)所示:

(11)

此时,得到了各个基站区域下的PoI信息TD-IDF分布向量,组成得到PoI邻接图,并使用Node2Vec模型[19]进行图嵌入表征,得到PoI邻接图表征。

以上,图生成层生成得到了距离邻接图As、转移邻接图At和PoI邻接图Ap。

1.6 图卷积层

(12)

式中:α1、α2和α3为权重系数。再将加权后输出H′t经过Softmax函数进行归一化操作后得到图卷积层每个时刻的输出Ht。

1.7 时序预测层

时序预测层是对图卷积层提取空间特征后的输出结果进行时序特征建模,捕获基站用户数量的时间特征。模型经过多个LSTM网络进行堆叠连接后,再经过全连接层进行组成,输出模型的预测结果。

2 实验结果与分析

2.1 数据集与预处理

本文使用的移动性管理数据集由国内某运营商提供,时间范围为2018年5月14日—5月27日,时间跨度共计两周,包含广州市3 000多个基站下数十亿条记录。该数据集已经过脱敏处理,用户身份信息均已替换为匿名ID。在开始建模之前,需要先对数据集中的异常数据进行清洗剔除:

① 数据中字段缺失或者格式错误的数据样本;

② 乒乓切换数据样本。

数据样本时间跨度为14 d,在进行基站用户数量提取时,如以1 h为时间粒度进行统计,每个基站可以得到一个长度为336的时间序列样本,基站用户数量具体计算方法如算法2所示。

算法2 基站用户数量统计算法 输入:m条基站移动性管理数据样本输出:每个时刻基站的用户数量1.初始化:所有基站各时刻的用户数量yki=0,k为基站编号,i为时刻编号2.对于所有数据样本进行3. 提取每个用户的所有移动轨迹4. 对于每个用户轨迹进行5. 初始化用户上一时刻t^=-1,上一时刻所在基站p^=-1

2.2 评价指标

为了评价模型的预测性能,采用平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Squared Error,RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)来评价模型的预测性能,具体计算方法如式(13)~式(15)所示:

(13)

(14)

(15)

2.3 预测结果分析

为了验证所提的预测模型性能,将本文模型与ARIMA、XGBoost、LSTM、STGCN和DCRNN五种模型进行比较。

将历史序列时间粒度划分为15、30、60 min,以体现短期、中期和长期预测性能。本文模型与对比模型的预测性能结果如表1所示,可以看出,本文提出的预测模型能够达到较好的预测性能。通过比较可以看出,基于图卷积模型的几类预测方法,其性能较ARIMA、XGBoost等经典时间序列方法具有明显提升。这在一定程度上反映了在时空预测任务中,空间关联信息对预测任务的重要性,引入空间维度的信息,能够有效获取更加全面的时空信息。与STGCN和DCRNN等模型比较,本文提出模型的预测精度更高,这是因为STGCN和DCRNN等预测模型在进行预测时,仅使用了基于基站距离的距离邻接图,只能获取静态不变的空间维度信息,对于其随着时间演化的特征未能获取。本文提出的模型引入转移邻接图,能够获取各个时间段之间用户的转移关系,进一步提取随着时间演化的空间特征,学习基站节点间存在的隐含时空关系,能够更有效地提高预测准确性。

表1 不同预测模型性能比较Tab.1 Forecasting results of different models

通过对不同时间间隔的比较分析可以看出,在时间间隔较小时预测效果更好。这是因为以15 min间隔时,时间粒度较小,用户数量的统计和转移数量的描述较为准确,能够一定程度上降低长时间粒度下产生的误差,从而提高预测的准确性。

2.4 消融实验分析

为了验证不同的空间邻接图在提取基站用户数量的空间关联模式上的有效性,本文对预测模型进行消融分析,在图卷积模块中分别采用不同的空间邻接图进行比较分析。第一个仅使用距离邻接图进行提取空间特征关系,记为“仅距离图”;第二个仅使用转移邻接图提取随时间演化的空间特征,记为“仅转移图”。对于这些模型的预测所得结果如表2所示,可以看出,仅使用距离邻接图的预测准确度最低,这是因为在引入转移邻接图后,图卷积模块能够获取相邻基站节点之间的流量转移特征,在全局视角下获取空间特征,获得更好的预测结果。在此基础上,本文提出的模型通过动态图和静态图的相结合,能够在时间和空间上相互补充,获取更为全面的时间、空间流量模式的演化特征,进一步提高模型的准确性。

表2 消融实验结果Tab.2 Results of ablation experiments

3 结论

本文围绕基站用户数据预测问题,提出一种基于GCN的时空预测模型。模型基于基站距离构建静态距离邻接图,各时刻基站间用户转移数量构建动态邻接图,并引入PoI信息作为空间地理信息补充,构建PoI邻接图,通过GCN提取各时刻的空间隐含特征,最后经过LSTM网络学习得到用户数量。实验表明,该模型具有更优的预测效果。并且,消融模型证明了采用静态和动态结合的邻接图能够更有效地获取空间特征,提高预测准确性。

猜你喜欢

用户数量时空基站
跨越时空的相遇
镜中的时空穿梭
胶片相机的维修 当胶片机出现问题了该怎么办
玩一次时空大“穿越”
可恶的“伪基站”
基于GSM基站ID的高速公路路径识别系统
时空之门
小基站助力“提速降费”
基站辐射之争亟待科学家发声
印媒:中国微博用户2013年减少2780万