APP下载

基于机器学习的阔叶林场景微蜂窝模型构建

2020-01-081313

测控技术 2019年12期
关键词:蜂窝决策树残差

1313

(1.兰州交通大学 电子与信息工程学院,甘肃 兰州 730070;2.甘肃省高精度北斗定位技术工程实验室,甘肃 兰州 730070;3.甘肃省无线电监测及定位行业技术中心,甘肃 兰州 730070)

微蜂窝技术作为用来指导预测通信信号在无线信道中传播衰减的重要技术手段之一[1-3],对于移动通信的应用研究有着巨大的指导意义。典型的微蜂窝预测模型基于视距损耗模型,预测半径在1.6 km左右,主流的微蜂窝模型在视距条件下均可取得良好的预测效果。但由于通常条件下,无线信道不满足视距要求,因此对于非视距条件的研究就显得尤为重要。而传统的非视距微蜂窝模型,主要应用于研究建筑物遮挡的情况[4],而对应用于特殊场景(如密林遮挡、雨雪天气、雾霾风沙等)的微蜂窝模型的预测影响研究较少。因此,如果在微蜂窝模型中加入对这些特定场景参数的建模,对于微蜂窝预测模型有非常重大的意义。

本文所采集的信号数据频段在1~3 GHz,传播路径穿过梧桐树密林,信号波长在10~30 cm,与障碍物(梧桐树叶尺寸约为15 cm)尺寸相当,由基尔霍夫衍射公式,此时信号衍射现象明显,同时伴有叶面上的反射,会对经由此信道的信号传播造成很大影响[5]。因此,在确定阔叶为单一影响因素的条件下,本文通过机器学习算法,利用在阔叶密林中收集到的大量信号衰减数据,最终拟合出信号在有阔叶的信道中传播时的衰减预测模型。

针对电磁波的复杂传播环境,以及难以量化的场景参数,机器学习算法可以在省去对复杂无线环境的分析的同时,准确、高效地拟合数据[6-10],并且通过不同的机器学习模型,来横向比较各模型的不同预测精度,最终确定最优模型。

1 微蜂窝模型原理

本文用于特定场景下衰减预测的基础模型为Lee微蜂窝模型,信道总长142 m,在近中心距离范围内,选择的接收和发射天线均为0 dB增益天线。在计算时省去了对天线增益和近中心距离范围外的考量,仅仅计算路径损耗,大大减少了因复杂的计算而带来的误差。文献[1]和文献[3]中给出了Lee微模型对于信号衰减的预测原理,如式(1)所示[1]。

(1)

式中,d为传播距离;λ为信号波长。由式(1)计算出在没有阔叶林遮挡时的信号衰减,即视距损耗,然后在实验中测量在阔叶林遮挡条件下的信号衰减。取两者之差,即可得到单由阔叶密林的场景因素而造成的衰减。数据采集示意图如图1所示。

图1 数据采集场景示意图

2 基于机器学习的数据拟合算法

机器学习是使用归纳的数学方法,计算目标与特征之间的映射。假设在阔叶密林场景下的衰减为L,在视距条件下的衰减为LLOS,则单由场景造成的衰减LSa由式(2)计算。

LSa=LLOS-L

(2)

信号的波长会影响信号在叶间的衍射和绕射。根据式(3)中鲁比诺维茨的衍射积分公式[11]可得,信号经过与波长尺寸相当的叶片时,包围叶片的闭合曲面上,会因次波叠加而产生振幅,即光波发生了衍射。而随着传播距离的增加,信号会经过更多的叶片。因此确定将波长和距离作为待拟合的特征值。

(3)

由于实验设备调整参数时是对频率进行调整,因此将特征中的波长转变为频率f。本文拟采用Ridge回归,决策树,XGBoost及支持向量机4种算法对数据进行拟合,以均方残差作为算法之间的衡量标准。虽然不同的算法对误差函数的计算有所不同,但都是通过梯度下降的方法,迭代更新参数以取得全局最优解。选择出最优算法之后,通过测试集上的预测结果与测量结果的误差累积分布,来评定最终的预测模型是否具有实用价值[12]。

2.1 Ridge回归模型

Ridge回归算法是通过建立系数的线性模型,用来解释特征变量和观测值之间映射的算法。与传统的线性回归相似,Ridge回归算法采用梯度下降的方法计算损失函数的最小值。它在传统线性回归算法的基础上,引入了正则惩罚项,如式(4)所示[7]。

(4)

式中,hθ(x)为预测值;θ为系数向量;x为特征向量;J(θ)为损失函数;λ为正则系数。由于正则项将系数大小限定在了一定范围内(如图2所示),该算法在保证预测结果精确度的同时,有效地减小了过拟合的影响。

图2 梯度下降

2.2 决策树

决策树是一种通过信息熵为决策条件,将数据集划分为树结构的算法。该算法遍历节点的每一种划分方法,计算出使得到的节点中观测值均方残差最小的划分方法,按此方法继续划分得到的节点。当得到的叶子节点上的数据所对应的观测值的均方残差足够小时,认为该叶子节点的预测值的误差足够小,划分结束,以当前叶子节点上数据观测值的均值,作为该节点的预测值[8]。

决策树决策机制原理如图3所示。其中,d表示按距离划分,f表示按频率划分,mse表示当前节点的均方残差,样本数表示划分入当前节点的样本数,样本均值表示当前节点的预测值(取当前叶子节点内的样本均值)。因受图片尺寸的限制,限制最大叶子节点数为5。因此而造成左下角叶子节点的均方残差过大,在实际的模型训练中,可不限制最大叶子节点数,以期取得较为精确的预测结果。

图3 决策树决策机制原理图

2.3 XGBoost

XGBoost是一种决策树的集成机器学习算法。该算法以每一颗决策树作为一个基预测器,将决策树集成一个决策树森林,每一棵子树的目标值采用上一棵子树的预测值与观测值的残差。该算法的决策机制原理如图4所示,该算法首先对每一棵子树赋予相同的权重,计算子树加权后的预测残差在总的加权残差中的权重并归一化,作为新的权重,直到得到的预测误差达到要求。最终将每棵子树的预测结果加权,得到最终的预测值[7]。

2.4 支持向量机(SVM)

SVM通过核函数将低维特征数据映射到高维,从而实现数据集在高维特征空间的线性可分。在本文中使用的高斯核函数如式(5)所示[6]。

K(x,z)=e-γ‖x-z‖2

(5)

式中,x,z为特征变量,取其欧氏距离作为核函数映射的目标特征;γ为超参数,在模型训练过程中自行调整。SVM原理如图5所示。在特征空间中找到支持向量(如图5中加粗的数据点),取到支持向量的欧氏距离为1的超平面为分界面,计算每一个超平面内观测值的均值,作为落入该超平面内特征点的预测值。

图5 SVM原理图

3 数据拟合及结果分析

3.1 数据拟合流程

3.1.1 数据采集

本文数据来源是收集自兰州市植物园的实测数据。使用的信号发射设备和采集所用设备购自中国电子科技第四十一研究所和罗德施瓦茨公司,设备的精度和灵敏度良好,能保证数据的有效性。测试设备的具体型号如表1所示。

表1 测试设备

发射天线和接收天线均为军工级别0 dB增益全向天线,如此就免去了对天线增益的考量,减少了因实验设备精度而带来的误差,使结果更加精确;功率放大器频带覆盖范围为50 MHz~3 GHz,饱和输出为33 dBm,工作电压为24 V;扫频信号发生器的频带覆盖范围为250 kHz~20 GHz;频谱仪的频带覆盖范围为9 kHz~8 GHz。

数据采集过程中,在900 MHz~3 GHz的频段范围内,以80 MHz为步进,采集了26组数据;在50~142 m的距离范围内,以4 m为步进,采集了24组数据。综上所述,数据采集过程中共采集624条数据,数据频段覆盖了当前4G移动网络下的主要频段。

3.1.2 模型构建流程

将采集到的数据以1:4的比例划分为测试集和训练集,根据训练集和选定的4种算法构建阔叶林影响下的微蜂窝模型,再根据4种模型在测试集上表现出的预测精度,选择出最优模型。最后通过最优模型的预测误差,来评定模型是否有效。模型的构建流程图如图6所示。

3.2 拟合结果分析

对于算法,综合模型运行时间、预测精度(均方残差)两个方面进行考量。预测精度是最重要的考量指标,在预测精度相当的条件下,选择运行时间最短的模型。

为保证模型达到最高的精度,在保证不发生过拟合的情况下,尽量提高拟合程度。

图7为Ridge回归模型算法将特征依次从1阶扩展到3阶时在测试集上的拟合结果。图中红色点为样本点,蓝色实线为拟合曲线。如图7所示,当样本特征由1阶扩展为2阶时,精确度由72.6%下降为69.6%,这说明此时发生了拟合。造成过拟合的原因是因为在训练模型时,过分考虑了实验误差而造成了在测试集上预测结果偏差较大。因此对于Ridge回归算法,最佳的拟合结果为1阶特征扩展时的拟合结果,此时精确度为72.6%。

图7 Ridge回归拟合结果

对于决策树算法,在不限制最大树深和最大叶子节点数的情况下,可以达到很好的拟合效果。决策树算法的拟合结果如图8所示,其中红色点为样本点,蓝色实线为拟合曲线。图中拟合曲线和样本几乎完美拟合,最终的拟合精确度为98.1%。

图8 决策树回归拟合结果

对于XGBoost算法,由于是集成了若干由决策树构建的弱回归器,因此对单棵子树的精确度要求不需太高,并且为了兼顾算法的执行效率,限制子树最大树深为3层,最终构建由100棵子树组成的决策森林,最终的预测结果如图9所示。XGBoost算法的拟合精确度为90.7%,预测结果并没有决策树高,但由于集成了多棵决策树,其执行效率反而比决策树低。

图9 XGBoost拟合结果

SVM算法的参数设置为:核函数取3阶高斯核函数,惩罚系数取100(对误差的容许成度),学习率取10-5。最终的拟合结果如图10所示。该算法的精确度可以达到97.3%。

图10 SVM拟合结果

通过4种算法的对比,决策树算法与支持向量机算法的预测结果准确度相当,分别为98.1%和97.3%。对这两种模型的执行效率(即两种算法代码的运行时间)进行对比:决策树算法为3.37 ms,SVM为80.11 ms,差别较大。综上所述,决策树算法对信号衰减的预测最为精确,执行效率最高,因此选择决策树算法来构建最终阔叶林场景下的微蜂窝预测模型。

3.3 模型最终评估

综合以上分析,最终由决策树算法构建预测模型。在测试集上,预测结果与测量结果的误差累积分布如图11所示。从图中可以看出,预测误差不超过4.5 dB,误差在允许范围之内。由决策树构建的预测模型可有效预测信号在通过阔叶林时产生的衰减。

图11 误差累积分布

本文中构建的决策树模型,通过遍历每一种频率和距离的决策机制,计算出其中叶子节点中信号衰减的均方残差,选择出其中均方残差最小的决策方法作为模型的构建结果。

4 结束语

在信号穿过阔叶林的特定场景下,由于电磁波的衍射和绕射等原因产生了额外的衰减。基于决策树模型构建的微蜂窝模型,对于场景因素而造成的衰减,预测误差不超过4.5 dB,可以有效、精准地应用于微蜂窝模型的构建。针对不同场景而产生的额外损耗,频率和距离的影响是不同的,需要对比于不同的机器学习算法来得到最优模型。在自由空间损耗模型的基础上,加入对其它场景参数(如雨天的降水量、传播路径中的人流密度、野外的不同地形等)的考量,将是下一阶段的研究重点。

猜你喜欢

蜂窝决策树残差
蜂窝结构X射线成像仿真研究
基于双向GRU与残差拟合的车辆跟驰建模
蜂窝住宅
基于残差学习的自适应无人机目标跟踪算法
一种针对不均衡数据集的SVM决策树算法
基于递归残差网络的图像超分辨率重建
决策树和随机森林方法在管理决策中的应用
“蜂窝”住进轮胎里
基于决策树的出租车乘客出行目的识别
综合电离层残差和超宽巷探测和修复北斗周跳