旅游城市5G容量预测及组网方法研究
2022-07-12钱权智
文 凯 陈 浩 钱权智 莫 勇
(重庆邮电大学通信与信息工程学院 重庆 400065) (重庆邮电大学通信新技术应用研究中心 重庆 400065) (重庆信科设计有限公司 重庆 401121)
0 引 言
2019年以来,5G网络建设在全国各地如火如荼的展开,相比与4G网络,5G网络的频段更多、站点更密、组网更加复杂,如何科学谋划5G布局、加强5G站址统筹将是5G规划的重点与难点。
旅游城市一般为以景区景点为核心、以旅游产业为主体、旅游业产值超过城市GDP的7%的一类城市,与一般城市相比,旅游城市人流量随季节变化明显,有着显著的淡旺季特征。在传统规划中,容量预测一般采用趋势外推法与人口普及率法、类比法相结合的方法,综合预测规划期内5G业务用户数量,但趋势外推法通常预测对象的发展规律是呈渐进式的变化,而不是跳跃式的变化,无法反映出旅游城市随着淡旺季而产生的人流量变化情况。为了更好地体现旅游城市人口的季节及发展趋势,本文将SARIMA模型引入到5G规划中,代替趋势外推法预测用户数量,其对周期性的时间序列预测效果很好,是对ARIMA模型在季节性数据方面的局限性改进而得到的,可以在单变量数据中显式地模拟季节性元素,展示数据的季节性特点,以对未来作出准确预测[1],为5G组网方案的制定提供数据支持。
截至2019年底,全国共有旅游城市337座,占全国所有地级市的51.1%,因此,针对旅游城市的人口特点进行针对性的5G规划方法研究是很有必要的。
1 容量预测方法研究
1.1 传统容量预测方法
趋势推断法是网络规划中常用的预测用户数量的方法,属于时间序列预测方法的一种[2]。当预测对象的变化显示出一定的上升或下降趋势且没有明显的波动时,可以找到一条合适的函数曲线来反映该变化,通常使用线性函数、二次函数、指数函数等函数进行拟合,并选择拟合度最高的函数构建趋势模型,定量估计事物的未来发展趋势。
1.2 SARIMA模型容量预测研究
ARIMA模型是时间序列预测中最受欢迎的模型之一。该模型源自自回归模型(AR)与移动平均模型(MA)的组合,差分(I)可以将非平稳数据序列差分后使数据更加稳定。
SARIMA模型即季节性ARIMA,考虑季节性因素而改进了ARIMA模型,它明确支持具有季节性成分的单变量时间序列数据[3]。相比于ARIMA,它添加了四个新的参数,指定序列的季节性分量自回归(AR),差分(I)和移动平均值(MA),以及一个季节性周期的附加参数,也就是说以ARIMA基础加上周期性和季节性,适用于时间序列中带有明显周期性和季节性特征的数据[4]。其模型一般表示为:
SARIMA(p,d,q)x(P,D,Q)S
(1)
式中:p为自回归项数;d为非季节差分数;q为移动平均项数;P为季节性自回归项数;D为季节差分数;Q为季节性移动平均项数;S为周期数,例如将S取为12,代表1年中的12个月。其中p、d、q为三个非季节性参数,P、D、Q、S为四个季节性部分参数。
SARIMA模型用数学公式表示:
(2)
φ(B)为p阶非季节性自回归运算符,其定义为:
φ(B)=1-Φ1B-Φ2B-…-ΦPBp
(3)
θ(B)为q阶非季节性移动平均运算符,其定义为:
θ(B)=1-Φ1B-Φ2B-…-ΦqBq
(4)
Φ(BS)是S为周期的时间序列的P阶季节性自回归运算符,其定义为:
Φ(BS)=1-Φ1BS-Φ2B2S-…-ΦPBPS
(5)
Θ(BS)是S为周期的时间序列的Q阶季节性移动平均运算符,其定义为:
Θ(BS)=1-Θ1BS-Θ2B2S-…-ΘQBQS
(6)
1.3 SARIMA模型建模过程
为了正确地识别模型以进行预测和解释,SARIMA建模过程包括六个步骤:数据预处理、平稳性检验、模型定阶、模型诊断、模型预测、模型验证。如图1所示。
图1 SARIMA模型建模过程
(1) 数据预处理。对于收集好的数据,首先进行缺失值处理,可以采用平均法提取前后数据的平均值填充缺失值,调整数据格式,如日期格式等,并对异常值进行处理,使数据更加合理。
同时将处理好的数据按7 ∶3分成两份,时间靠前的部分称为训练集,靠后的部分称为测试集,如图2所示。拿训练集代入模型进行预测,然后将预测结果和测试集进行对比,以验证模型的准确性。
图2 训练集与测试集划分图
(2) 平稳性检验。为了测试时间序列的平稳性,即确定d和D的大小,最直观的识别方法是自相关图。如果自相关系数迅速接近零,即自相关系数被截断,则时间序列是稳定的。也可以通过ADF检测的方法。我们需要检查序列是否已通过ADF(增强的Dickey-Fuller)测试,通常p值小于0.05[5],ADF值小于显著性水平为1%的临界值,则可以判断序列稳定。
(3) 模型定阶。数据平稳后,需要对模型定阶,即确定p、q的阶数。通过AIC方法来确定最优参数,确定最合适的SARIMA模型。AIC函数如下:
AIC=-2log(L)+2(p+q+k+1)
(7)
式中:L为数据的极大似然度,k为独立参数个数。最终模型得到的AIC值越小,则阶数越合适[6]。
(4) 模型诊断。对建立的SARIMA模型进行适应性检验,即对模型残差序列进行独立性检验。通过对残差序列的Q-Q图和自相关图判断分析,确定SARIMA模型的可用性,保证预测结果的准确。
(5) 模型预测。使用确定好的SARIMA模型,以训练集数据作为已知时间序列进行实际预测。
(6) 模型验证。对比验证集与预测结果,计算预测的相对误差绝对值大小,判断模型的准确性。
(8)
2 容量预测实际案例分析
以丽江古镇2010年-2019年人流量数据为例,进行仿真。
首先,绘制丽江古镇2010年-2019年人流量数据,如图3所示。
图3 丽江古镇人流量图
丽江是典型的旅游城市,可以看到其季节性特征非常显著,将人流量数据进行拆分,如图4所示。
图4 丽江古镇人流量分解图
图4中Trend数据具有明显的趋势性,Seasonal数据具有明显的周期性,Residual可以认为是去除了趋势和季节性数据剩余的部分,即残差。Residual数据保持稳定是必要的。
季节性(Seasonal)数据指在特定的时间段内变动,比如说节假日或者活动等导致数据的周期性变化,可以看到,丽江古镇很好地符合了旅游城市人流量随淡旺季变化的特点。
丽江古镇人流量数据的趋势性和季节性都非常明显,但是残差波动较大。为了使数据更加平稳,首先对数据进行差分处理,差分处理主要是为了减小数据的振动幅度,使其线性规律更加明显,同时保留其他信息。从表1可以看到,差分前p值明显大于0.05,对残差进行ADF平稳性检验(表1),其ADF检验值大于显著水平10%下的临界值,可见序列并不平稳,在差分后,再次检查序列是否已通过ADF测试(表2),可以看到此时p值已经远远小于0.05,且ADF值远小于显著性水平为1%的临界值,因此序列可以判定为稳定。
表1 差分前ADF结果
表2 差分后ADF结果
为了确定模型的阶数,可以使用“网格搜索”来迭代地探索不同的组合。对于每个组合,将其代入SARIMA模型,通过AIC方法来评估最优模型,以此确定模型阶数。
表3是丽江古镇人流量的SARIMA模型的AIC值。
表3 丽江古镇人流量SARIMA模型匹配表
可以看出,SARIMA(0, 1, 1)×(0, 1, 1)12为AIC最小的模型,拟合度最优。
图5模型诊断表明,模型残差正常分布如下:左边的Q-Q图显示,残差(圆点)的有序分布遵循采用N(0,1)的标准正态分布采样的线性趋势,这是残留物正常分布的指示[7]。随着时间的推移残差不会显示任何明显的季节性,通过右边的相关图可以证实,这表明时间序列残差与自身的滞后值具有低相关性[8]。这些观察结果得出结论:我们的模型选择令人满意,可以很好地对时间序列数据进行预测。
图5 模型诊断图
验证模型的可用性后,对丽江古镇人流量进行预测,使用训练集数据(2010年-2017年)预测到2022年,如图6所示。
图6 丽江古镇人流量预测图
使用同样的方法,对重庆和昆明的游客人流量进行预测,选取时间范围为2015年-2019年,其中2015年-2018年作为训练集数据,2019年作为测试集数据,数据来源于重庆市文化和旅游局与昆明市文化和旅游局官网数据。结果如图7-图8所示。
图7 重庆游客人流量预测图
图8 昆明游客人流量预测图
以2019年为例,分别计算丽江古镇、重庆、昆明游客人流量预测值与测试集实际值的相对预测误差绝对值,如表4所示。
表4 测试集实际值与预测值的相对误差绝对值表
由表4可计算得出,丽江古镇的相对误差绝对值仅为2.9%,而重庆与昆明的相对误差绝对值分别为6.3%、5.9%,均在10%误差范围以内,因此可以证明模型的预测结果非常准确,同时具有很好的适应性。
3 旅游城市5G景区与居民区融合组网
3.1 景区与居民区人流量分析
正常情况下,数据流量会在一天的某一时刻达到峰值。而其他时间,如午夜时通信设备的利用率相对较低,而对于旅游城市来说,因为有淡旺季之分,在淡季的时候,基站利用率则很低。为了保证用户体验,运营商又必须按照峰值速率来部署设备,也因此,网络设备利用率低下成为一个急需解决的问题。
图9 景区与居民区人流量对比图
观察景区与其周边居民区的人流量数据,可以发现两者达到峰值的时间并不相同,如果将两者融合组网,共用一部分网络资源的话,可以在一定程度上节省网络资源,做到从规划上减少能源损耗。
3.2 景区与居民区融合组网方案
实际上,3GPP在5G标准中已经提出了解决方案,即C-RAN架构,C-RAN架构通过将设备集中化放置,并利用虚拟化技术,实现资源共享和动态调度,以达到低成本、高带宽和高灵活度运营的效果[9-10]。其实质就是将核心网虚拟化,通过资源的集中化实现节省能源和网络资源的效果。在规划中设计良好的C-RAN架构,可以实现降低运营成本的同时保持良好的性能水平。
5G规划中,要根据实际的场景需求来确定部署方案,即根据所属区域环境条件来建设5G网络[11]。对于景区来说,对时延与移动性要求并不高,因此景区可以采用CU-DU分离形式,CU集中在汇聚机房,形成云化池,中传距离满足小于40 km即可。前传在情况允许的情况下,对于高容量业务,在密集部署的情况下,DU也可以集中放置,实现聚合的调配资源,优化网络资源的利用率,节省能源,同时也能缓解景区机房位置短缺的问题[12]。
如图10所示,在面向景区组网时,可以将景区基站和居民区的基站融合组网,统一由一个DU云集中管理[13],这样的话,在计算该区域容量峰值时不需要将两者峰值的最大值相加计算,因此DU设备在一定程度上可以得到节省。
图10 景区与居民区融合组网图
这样的组网方式,对一些突发事件也有一定的承受能力。假设发生一种极端情况,如恶劣天气等,这时所有的居民大概率都在家中,但与此同时,景区的游客也会迅速减少,这样,虽然居民区达到网络使用的峰值,但是因为景区人流量的减少,总体网络占用并未达到峰值,因此DU/CU设备仍可以满足网络需求。
3.3 景区与居民区融合组网方案验证
景区与居民区组网融合组网节省能源的计算公式如下:
节省能源
(9)
通过计算,本文发现这个融合组网方案相对于之前分别组网的方式,节约了5.76%的能源损耗,具有较强的应用价值。
4 结 语
在5G时代,能源消耗已经成了一个大问题[14],未来5G基站电费花费将是4G的数倍,这将成为运营商的沉重负担,本文引入一种在5G规划中新的容量预测方法,并通过旅游城市景区与居民区人流量峰值时间不同的特点,提出一种景区与居民区融合组网的方法,以统筹规划5G站点与网络资源,满足运营商的节能需求。