2019年度“嘉环杯”获奖论文三等奖面向5G现网网络性能管理系统设计与实践
2020-04-12钮远
钮 远
中国移动通信集团江苏有限公司
0 引言
5G(the 5th generation mobile communication technology, 第五代移动通信技术)建网初期采用了NSA(Non Standalone,非独立组网)方案,控制面由 4G(the 4th generation mobile communication technology, 第四代移动通信技术) 网络承载,保证移动性。用户面在4G网络和5G网络建立双连接,数据存在多条转发路径。那么,面对复杂的组网,如何实现4G/5G的关联分析和快速隔离?如何识别VR(Virtual Reality,虚拟现实)/AR(Augmented Reality,增强现实技术)等新业务并开展主动式业务质量分析?这就要求我们在网络建设的同时探索5G业务体验管理方案。
1 整体思路和系统架构
针对NSA 组网方案,基于信令大数据,本文探索“1+4”项关键能力,以弥补5G建网初期传统网管系统的不足,系统架构见图1。“1”项基础能力,即“NSA组网采集能力”;“4”项性能管理能力包括:面向新网络,具备“NSA关键性能指标监控分析能力”;面向新用户,具备“双连接下单用户感知溯源能力”;面向新业务,具备“eMBB(Enhanced Mobile Broadband,增强移动宽带)业务场景体验评估能力”;面向新终端,具备“5G终端库自构建和在网评估能力”。
图1 系统框架
2 NSA组网基础采集能力
5G网络部署架构分为独立组网和非独立组网,现网组网架构采用非独立组网NSA Option3x。NSA 3x组网对于eNodeB(Evolved Node B,4G基站)影响较小,综合利用了5G初期LTE的广度覆盖和5G新技术提供的大带宽。信令面连接由eNodeB与EPC(Evolved Packet Core,演进的分组核心网)建立,EPC与gNodeB(next generation NodeB,5G基站)间的信令面消息通过eNodeB转发;用户面连接由gNodeB与EPC建立,EPC与UE间的部分5G流量可以通过gNodeB分流给eNodeB。
采集点分析:现网信令监测探针可以采集到eNodeB与EPC间的S1-MME信令面和S1-U用户面流量以及gNodeB与EPC间的S1-U用户面流量。需要考虑5G用户面流量识别方案,通过静态配置gNodeB地址识别。
解析协议扩展:对于信令监测系统来说,没有新增的采集点和新的协议解析,只是原有协议面向5G做了扩展,对应的字典表新增字段用于5G相应的上层分析,如表1所示。
表1 DPI协议变更汇总
3 NSA性能管理能力
3.1 NSA关键性能指标监控能力
3.3.1 NSA关键性能指标监控
通过分析NSA控制面关键流程以及新增流程,从接入性、保持性、完整性三个维度构建NSA关键性能指标体系。通过梳理控制面信令失败码定界规则以及网元/用户/小区多维聚类,总结8大问题场景,进行劣化指标的自动定界,如图2所示。
图2 业务逻辑
系统视图见图3,主界面GIS(Geographic Information System,地理信息系统)呈现市级、小区级等关键性能指标,可针对关键性能指标设置预警;针对劣化的指标进行明细下钻以及失败场景初步定界。
图3 系统视图
性能告警案例:无线侧原因导致E-RAB修改指示成功率低。
问题描述:E-RAB修改指示成功率平均在99.5%以上,6月17日和6月19日指标劣化超1pp告警。
问题定位:下钻分析劣化时间点的明细,发现E-RAB修改指示失败84%集中在无线侧超时。典型超时失败流程基站发送ERAB修改指示,20s无响应后重发或者发送释放消息,携带原因值tS1relocoverall-expiry。通过聚类定位,发现劣化小区集中在邓府山社区四期LF-1、邓府山社区四期LF,优化后指标恢复正常。
3.1.2 劣化站点主动挖掘
非独立组网,5G基站没有S1-C,信令面承载在LTE,用户面分流走4G或者5G。基于信令开展劣化站点的主动优化,如图4所示。针对NSA 4G锚点站,通过控制面Attach附着、E-RAB (Evolved Radio Access Bearer,演进的无线接入承载)修改流程中无线侧失败进行TOP质差锚点站聚类;针对NSA 5G站日流量超过10GB的站点,通过下行峰值速率、TCP重传率聚类TOP质差5G站,周粒度开展主动优化。
图4 NSA周劣化站点聚类
3.2 双连接下单用户感知溯源能力
通过单用户多接口关联,完整回溯投诉用户指定时间段全量信令流程。在NSA 3x架构下,单用户感知溯源需要考虑如下特性:
(1)双连接下用户面多路径一体化呈现。用户面新增分流场景,5G终端和4G无线网、5G无线网之间建立双连接,数据在终端与EPC之间可通过三条路径传输(终端--gNB—EPC、终端--eNB—EPC、终端--eNB--gNB--EPC)。为有效定位业务异常,用户面流程回溯时需进行多数据转发路径整合,按唯一的用户号码将全部业务单据关联,单据中填写每时间段对应网元信息。
(2)控制面新增承载迁移流程的前序关联。针对Option3X组网方案,5G基站没有S1-C,LTE承载控制面,保证移动性。接入流程相较LTE附着后面增加承载迁移流程。由于现网信令采集没有包含X2接口,通过增加对E-RAB修改指示的前序流程的标记和分析,间接反映UE双连接建立情况。
诉溯源案例:配置错误导致附着失败。
问题描述:用户投诉5G终端无法注册5G网络。
问题定位:通过回溯信令(图5),发现该用户存在多次附着失败,附着失败原因均为MME返回#15(No Suitable Cells In tracking area,本位置区无合适小区)。针对历史单据进行分析发现,现网由于#15原因值导致的Attach失败全部发生在PLMN(Public Land Mobile Network,公共陆地移动网)为46001的小区,同时这些小区的Attach Request附着请求也全部都是失败,失败原因均为#15。进行问题定位后发现,上述发生附着失败的站点属于新建站点。新建站点由于PLMN配置错误导致5G 终端在附着过程中MME返回Attach Reject,同时携带#15原因值,修改站点配置之后,5G终端附着成功。
图5 单用户投诉溯源案例
3.3 eMBB场景新业务体验评估能力
NSA组网方案主要为了满足5G eMBB业务场景需求,针对eMBB典型VR视频、云游戏进行业务特征分析和体验建模。
3.3.1 VR视频业务特征分析及体验建模
以优酷VR业务特征为例(图6),VR视频播放是HTTP(hypertext transport protocol,超文本传输协议)多流,为TS(Transport Stream,传输流)复用机制。业务交互首先通过HTTP获取目录文件,后续根据目录信息获取TS视频切片数据。对于TS视频,典型做法通过解码目录文件获取视频各切片基本信息,然后跟踪每个视频切片的下载情况,基于当前时间与下载切片的累计播放时长判断卡顿发生。该算法适用在没有拖拽/暂停等理想视频顺序播放场景。通过测试发现实际卡顿发生期间,TS的重传特性更能表征卡顿。实际发生卡顿时间点,有明显的同一切片发生连续多次下载请求的信令特征。基于上述特征识别卡顿分片数,即相同编号的视频切片文件重复请求下载,超过设定阈值则认为卡顿切片,将该片记为卡顿。
图6 VR视频业务特征
3.3.2 云游戏业务特征分析及体验建模
目前VR游戏多为本地游戏,主要数据都是在游戏安装时下载到本地,在本地渲染。未来游戏发展方向为云游戏,渲染在云端完成,节省本地GPU(Graphics Processing Unit,图形处理器)资源,但是对带宽需求很大。针对格来云游戏开展业务特征研究,如图7所示。格来云游戏类似于网页游戏,游戏运营方在服务器端进行画面渲染并通过网络传输到玩家手机。云游戏过程是TCP(Transmission Control Protocol, 议。从传输波形图可以看出,传输行为为持续不断地下行数传,同时上行和服务交互频繁,其中部分流体现为周期性探测行为。通过机器学习云游戏心跳流数传特征,在此基础上计算上下游的时延指标。
图7 云游戏业务特征
3.4 5G终端库自构建及在网表现评估能力
现网5G终端较少,能掌握到的5G终端数据更少。表现在5G终端库没有有效维护起来,5G终端的能力集没有全面获取的途径,5G终端在网表现主要依赖于人工拨测。
3.4.1 基于信令数据自学习5G终端库
通过DPI深度解析信令,提取各关键信元的取值,识别5G终端并获取终端所支持的能力(见图8)。
步骤1:通过终端上报的双连接能力识别5G终端;
步骤2:通过解码Attach request附着请求的UE network capability终端网络能力等信元获取5G终端能力;
步骤3:通过S1-U UserAgent(用户代理)字段提取终端机型信息回填。
图8 5G终端库自学习
3.4.2 5G终端在网表现评估
基于信令,对现网活跃5G终端从控制面和用户面两个维度开展质量评估(见表2)。目前NSA 5G终端数量较少,终端网络性能指标差异不明显。随着商用后5G终端增多,将持续开展跟踪分析。
表2 5G终端在网表现
4 总结
面对5G建网初期复杂的组网方案,基于信令大数据,本文探索了“1”项基础能力和“4”项性能管理能力,弥补了5G建网初期传统网管系统的不足。目前系统已在江苏南京、苏州、无锡三个NSA商用市应用,有效支撑了日常运维。