基于大数据的移动信号传播损耗建模仿真
2021-12-10朱金荣邓小颖
朱金荣,李 扬,邓小颖,孙 灿
(扬州大学物理科学与技术学院,江苏 扬州225002)
1 引言
随着5G网络逐步发展,随之而来的网络规划和基站铺设问题逐渐被重视。为得到城市各小区内网络干扰和通信速率等重要指标,需要采集大量的工程数据模型及实际平均信号接收功率(Reference Signal Receiving Power,RSRP)拟合出无线传播模型。传统经验模型都是基于经验数据同时结合不同的场景,修正公式中的环境因子获得特定的拟合公式,其典型代表是Cost 231-Hata模型[1]。这类模型的参数易得,模型操作难度低,但未考虑城区中的建筑物阻挡、地貌环境以及街道分布等因素的影响,因而精确度并不十分理想。
近年来,机器学习驱动的数据挖掘技术获得了长足的进步,其高实时性以及低复杂度使得其与无线通信的结合成为了可能。针对存在的问题,提出基于大数据的移动信号传播模型。数据包括基站的工程参数数据,地图数据以及真实测得的信号功率值。数据覆盖面广,因素考虑全面。对数据进行充分挖掘,研究影响标签的重要因素,模型采用16层的神经网络进行仿真计算,深度足够满足数据内在的复杂映射关系。实验结果表明,建立的模型能有效适应各种场景环境,精确度优于传统经验模型。
2 建模原理与数据集
2.1 建模原理
移动基站发射的信号是以电磁波的形式在空间中传播的,发射机发射的无线信号,经信道传输后到达接收机的天线信号功率表达式如式(1)所示[2]
(1)
其中,r(t)为接收机接收到的信号,Pr为接收端的功率(dBm)。接收端的信号功率值与传播损耗的关系如式(2)所示。
PL=Pt-Pr
(2)
式中PL为信号在传播过程中产生的损耗(dBm),Pt为基站发射功率,Pr是接收端的信号功率值(RSRP)。因而研究信号的传播模型的实质是计算不同场景下的信号传播过程中产生的损耗值。
信号在传播时受多种因素的影响,使得电磁波在从发射机到达接收机的过程中不是沿单一的路径传播,而存在多重信号衰减称为信号的传播损耗:由阴影效应引起的损耗,由传输距离引起的路径损耗,由多径传播引起的损耗等[3]。每条信号的传播过程具有唯一性,原则上说,一个地区对应一个特定的传播模型。
2.2 样本大数据
总数据集共包含4000个小区的csv文件,每个文件代表一个小区的数据,每个小区有其对应的基站。为了便于处理,将小区的平面图划分为5m*5m的栅格,每个栅格的数据就生成一个样本。每个单个样本用17个属性和一个标签值来描述。属性包括:小区编号,基站所在位置坐标,基站所在位置海拔高度,基站天线的有效高度,基站周围建筑物类型,接收点栅格所在位置坐标,栅格周围建筑群高度以及地物类型。样本的标签值为每个栅格实际测得的平均信号功率值。
将数据集分为训练集和测试集两部分,将训练集数据进行特征构建,采用机器学习方法搭建模型,基于训练数据计算得到RSRP的预测值,利用梯度下降法迭代参数更新网络参数和权重。最后将训练集数据输入,得到模型的精度评估。因此整个建模过程是基于大数据的回归预测分析。系统的全部流程如图1所示。
图1 系统流程图
3 数据预处理
数据的精细程度会直接影响模型的好坏,因此对4000个小区的共1200万条大数据进行预处理。
3.1 对文本信息编码
样本中多处属性是由文本文字描述,且不可丢弃,如地物类型属性中海洋、湖泊、湿地等属于非结构化数据,后期难以进行数据挖取特征的工作[4]。此类地形特征数共19个,选用5位二进制对其进行编码,如表1所示。
表1 地貌类型数据编码
3.2 数据清洗
数据清洗包括删除错误值,剔除重复值,填补缺失值。删除错误值主要针对逻辑上有
错误的数据,减少不必要的干扰[5]。剔除重复值可以减少模型的计算量,降低成本。填补缺失值的方法包括均值填补和中值填补,实验证明,采用中值填补的方式更利于最终模型的性能。
方差过滤,同一列属性的数据中,如果方差为0,则认为这组数据的波动幅度为0,即该属性对最终模型没有意义,可以舍去。
数据的无量纲化,构建数据的特征前,需要对其进行无量纲化处理,主要是解决不同量纲属性对后期输入模型的过程中产生的差异性。实验证明,在机器学习中,数据的无量纲化会使得神经网络中的代价函数会以球形轮廓的方式呈现,更便于求得最小值,提升模型的运算速度[6]。
4 特征工程
特征工程主要是将原始样本的属性整合或删除,找到最能代表标签值的一个或多个特征,避免将所有17个属性都输入模型进行训练的情况。
4.1 特征构建
在自由空间中,即传播过程无环境因素影响,产生的损耗如式(3)所示[7]
PL=32.44+20logd+20logf
(3)
可知信号传播的损耗PL与发射频率f以及传播距离d的对应log值成线性关系。
图2是小区的三维场景在二维平面的投影,根据电磁波传播理论,发射机与接收机的相对高度在很大程度上决定了信号的传播路径。
图2 发射机与接收机的几何图形
由图2计算得Δhv的公式如(4)式所示
tan(θMD+θED+h0)
(4)
其中:hb为发射机高度(m),hc为发射机站点所在海拔高度(m),h0为接收位置海拔高度(m)。
此外根据无线通信理论总结出以下皆为影响信号衰减因素:发射机的有效高度(hb)、接收机天线的有效高度(hr)、发射与接收天线所在地的地物类型、发射机周围建筑物的高度(hd)以及栅格所在建筑物的高度(he)。
4.2 特征选择
特征选择是从原始数据中挑选出对模型搭建有益处的属性,一方面为了消除冗余,避免最初的17个属性全部输入网络的结果;另一方面挑选出能够代表标签值的特征,优化模型训练过程[8]。
针对单个小区具体分析数据特征与RSRP值的关系,4000个小区共1200万条数据,采用Person相关法两两计算相关性,计算公式如式(5)所示
(5)
其中x和y是需要求其相关性的两个变量,n为样本数。运用以上公式将特征进行相关性分析降序排列得出的结果如表2所示。
表2 特征的相关性排序
表中数值大小表明相关程度的高度,数值正负表明正负相关。链路距离(d)与信号线相对高度Δhv.的相关性接近于1,因此选择舍去其一,保留链路距离d的特征。最终选择相关性最大的前7个特征,包括栅格海拔高度,栅格建筑物高度,栅格所在地物类型,基站载波频率,发射机所在栅格地物类型以及基站的海拔高度作为模型的输入。
5 机器学习建模
考虑到模型输入的数据量大,且自变量与因变量之间的映射关系复杂,选择了深度神经网络(Deep Neural Network,DNN)建立有监督的回归模型。
DNN也称多层感知机,比单层感知机具有更多的参数,更强的刻画能力,可以用于描述更加复杂的问题。网络总共包括输入层、隐藏层和输出层。输入层为上文总结出的7个特征:链路距离,接收信号位置海拔高度,栅格建筑物高度,栅格所在地物类型等,因此神经网络的输入层节点数为7。隐藏层是每个特征所占的权重(w)加上偏置(b),增加隐藏层数可以优化网络训练,但也极易出现“过拟合”的情形,综合网络性能考虑,采用了16层结构的神经网络[9]。隐藏层的节点数,要在具备处理信息能力的同时降低计算量,在此采用经验公式来确定数目。
(6)
其中a表示输入层的节点数,n表示当前输入层的节点数,n表示输入层的节点数,c为置于1-10之间的常数。因为输入节点即为上文构造的特征数,则式(0)中的a即为特征工程中的维度m,式(6)演变为式(7)。
(7)
输出层节点数为1,即为待测数据输入网络求解出的预测RSRP值。完整的深度神经网络结构如图3所示。
图3 深度神经网络结构图
DNN网络的每一层都是全连接的,其每层的原理都是线性的,如式(8)所示。为了增加网非线性,使得每次的计算结果得以保留加上一个激活函数σ(z)如式(9)所示。
z=∑wixi+b
(8)
(9)
5.1 参数设置与网络训练
在Linux系统下运用Python语言,搭建DNN网络,参数设置为:隐含层节点数25,学习率(learning rate)0.001,迭代次数10000,训练集参数(training set)设置为100,批处理参数(batch size)设置200。在完成数据清洗和特征工程的步骤以及神经网络的初步构建以后,将样本数据集划分为8:2训练集与测试集的比例输入模型进行训练。
训练过程中通过梯度下降算法实现对权重(w)、偏置(b)的调整,可以加快模型收敛速度,提高算法的准确度[10]。原理如式(10)所示。
(10)
其中w是当前权重,∂为学习率,loss成本函数,wnew是通过梯度下降法更新后的权重。loss函数不断收敛到达一个阈值时表明神经网络训练完成。
5.2 模型测试评估
在移动通信的领域内,良好的弱覆盖率(Poor coverage recognition rate,PCRR)是保障网络质量的前提。在本模型中的弱覆盖判决门限定义为RSRP值低于-103dBm。当前LTE的覆盖考核指标的公式如式(11)所示。
(11)
定义学习函数为预测值与实际值之间的均方误差根函数(Root Mean Square Error,MSE),具体计算公式如式(12)所示。
(12)
其中P(i)为样本数据的实测值,(i)为经模型计算所得预测值,N为样本个数。将20%数据即800个小区用于检测模型,以小区为数据输入单位进行模型测试。选取某小区200个样本数据进行预测值与真实值的对比如图4所示。
图4 200组数据的真实值与预测值拟合情况
6 结论
本文将特征构建、皮尔森相关性分析和深度神经网络相结合对移动信号的传播损耗进行建模仿真,得出以下结论:
1)将各个特征进行相关性分析,得到发射点与接收点的链路距离,接收点海拔高度以及建筑物高度三个因素为影响信号传播的主要因素,接收点所在地物类型,发射机载波频率,发射机所在栅格地物类型以及基站的海拔高度等为次要因素。
2)由5.2节可以看出,模型计算出的RSRP预测值表现出与真实值相似的跟随性,测试集输入的最终均方根得分为9.87,相比于传统cost-231Hata模型误差在12左右有了一定的提高;每个小区的网络覆盖率都达到阈值标准,小区平均覆盖率为98.24%,表明该神经网络模型的准确度较高,预测效果相对较好。
但本文将所有的特征类型笼统地输入网络拟合,没有针对性地深入处理,下一步计划融合其它算法采用集成学习的方式建立更高精度的模型。