LTE网络RRC重建性能提升三板斧
2021-11-01陈向东江西省专用通信局南昌市330038
陈向东 江西省专用通信局 南昌市 330038
程科 江西省通信管理局 南昌市 330038
关键字:RRC重建 三板斧 性能提升
0 概述
UE 在发生无线链路问题后会尝试通过 RRC 重建进行自恢复。该过程会影响到用户的实际使用感知,特别是对Volte 等实时敏感型业务的影响较大。
VoLTE呼叫中RRC重建和数据业务触发机制以及对RRC层影响完全相同,在LTE常规优化和投诉处理中因为影响较小而经常被忽略。但RTCP协议对底层链路失败引起的re-cover机制支持不好,所以RRC重建过程很容易被用户感知到;另外RRC重建更有可能造成VoLTE掉话和接入事变。所以VoLTE优化和商用保障过程中,需要仔细梳理现网存在RRC重建的原因,并有针对性的采取优化措施。
1 RRC重建流程
重建是UE在连接状态下,空口异常时重新恢复空口的过程。重建成功的前提是收到重建请求的小区有UE的上下文。重建的意义在于快速恢复空口业务,提高业务的连续性。
当处于RRC连接状态时,如果出现切换失败、无线链路失败、完整性保护失败、RRC重配置失败等情况,将会触发RRC连接重建过程。该过程旨在重建RRC连接,包括SRB1操作的恢复,以及安全的重新激活。处于RRC_CONNECTED状态的UE,安全已被激活,可发起该过程继续RRC连接。仅当相关小区是具有UE上下文的小区时,连接重建才会成功。假使E-UTRAN认可重建,SRB1的操作会恢复,而其它RB将继续保持挂起。如果AS安全没有被激活,UE不会发起该过程,而直接转到RRC_IDLE状态。
总体信令流程图如下:
2 重建性能提升思路—四板斧
通过不断实践改进,针对影响重建问题的常见因素、重建触发原因、重建失败原因,总结出LTE重建性能提升三板斧基本套路。
2.1 一板斧:重建问题确认和范围确定
2.1.1 KPI趋势分析
思路介绍:确认问题场景,量化问题描述,搞清楚时间、对象和目标值。
问题场景:
◎ 场景一:KPI趋势恶化或者搬迁场景。此类场景需要找到指标变化前后网络差异,并确认差异的原因。如果现网某一时间出现KPI指标的突然恶化,需要重点排查恶化时间点,排查是否存在操作记录、故障告警、突发事件等;如果现网出现KPI指标缓慢恶化,需要分析是否存在话务模型变化、季节因素、外部事件等;如果搬迁后指标无法达到原网,需要确认KPI映射、参数映射(包括特性)、功率映射是否实施。
◎ 场景二:存量优化或者新建场景。此类场景主要定位当前网络的影响因素。通过现网数据分解出导致失败的限制因素,是否存在覆盖或者干扰等空口受限问题,是否存在参数配置、规划不合理等问题,是否存在容量资源受限等问题。
分析方法:
(1)对场景一,获取恶化或者搬迁前后可对比时段(话务模型尽可能相近)的数据,对比分析,确认问题发生时间点(粒度尽可能小)、恶化持续时间;确认KPI指标及其包含Counter的变化趋势、恶化幅度等;
(2)对场景二,获取数据分析KPI指标的及其包含Counter的变化情况,判断是否存在规律。
2.1.2 问题范围确定
思路介绍:整网问题还是TOP小区问题的区分是为了明确后续规定动作的入口条件,减少不必要动作的执行。
Top小区问题和整网问题的定义:
◎“Top小区”问题:分别去除Top10%的”KPI Top差小区”和”失败次数Top小区”后,如果整网KPI指标明显改善,达到目标值或者优于恶化前的KPI指标,则定义为Top小区问题。对于场景一KPI指标恶化或者搬迁场景,按照KPI指标和失败次数的前后差值排序,取相对TOP小区;对于场景二存量优化或者新建场景,按照KPI指标和失败次数的绝对值排序,取绝对TOP小区。
◎“整网”问题:分别去除Top10%的,如果整网KPI指标没有明显改善,未达到目标值或者仍差于恶化前的KPI指标,则定义为整网问题。
分析方法:取KPI指标计算时所使用的话统数据,按照KPI指标和失败次数排序,排除绝对或者相对Top10的问题小区后,观察KPI指标是否有提升或优于目标值,以此来判断问题是“Top小区问题”还是“整网问题”。
2.1.3 话统原因分解
思路介绍:根据话统失败原因对问题初步分类,不同失败原因后续采用动作及顺序有差别;另外还会参考相关话统指标,优化后续规定动作顺序。
分析方法:使用FMA的“KPI分析”功能,分别将重建触发原因和重建失败原因细分。
(1)重建触发原因问题分类:根据话统分析重建原因,切换失败重建,重配失败重建,还是Other重建。非源小区重建次数和占比分析是小区内重建还是重建到其他小区;不同重建原因指向的问题方向不一样,决定了后面基本因素排查和推理分析的不同动作顺序,即优先分析什么,什么动作可以不用分析。
(2)重建失败原因问题分类:根据话统分析重建失败原因,包括:资源分配失败,重建拒绝,空口无响应;
资源分配失败重建容量排查;
站内重建拒绝主要为RRC REL收不到,站间重建拒绝排查X2、邻区,以及是否厂商间重建;
空口无响应主要排查上下行空口信号质量。
2.2 二板斧:推理分析
分析内容:根据标口跟踪、CHR、CellDT等数据源作进一步分析,找出问题的根因。
排查思路:通过LOG的分析推导出问题的根因。
2.2.1 关联指标分析
思路介绍:判断KPI指标恶化与其他关联KPI变化是否存在耦合关系。
◎ 重建比和重建成功率指标的影响因素存在差异或者发生变化时,同时会表现在一些关联的KPI指标上,如话务模型、空口质量、资源负荷等。KPI关联分析能够从正面或者侧面证明网络的变化和差异。通过不同网络的关联KPI对比,确定网络的限制因素。通过对象指标和关联指标的耦合性分析,快速的定位问题根因或者完成初步隔离。
◎ 关联指标及话统counter:小区平均用户数、掉话率、切换出成功率、切换入成功率、平均TA 、上行干扰(IN)平均值、单板CPU最大/平均占用率(主控板与基带板均需要查看)、上行误码率、下行误码率、平均CQI等。
分析方法:分析关联KPI变化趋势,如TA平均值、上行干扰电平、小区用户数等。分析KPI指标异常或者恶化是否与关联KPI指标的变化时间上具有耦合性,进而确认关联KPI指标变化的原因。
2.2.2 重建原因分析
思路介绍:通过FMA工具对UU标口跟踪分析重建原因和PCI。
分析方法:打开UU信令->右键选择“Diagnosis”->Scenario选择“Reestablishment”
?
2.3 三板斧:参数核查
?
?
3 现状分析
3.1 原因分析
3.1.1重建触发原因问题分类:
Other类失败导致重建占比为最高(74.5%),其次是切换失败(25%),重配置失败占比极少(0.5%)。
从重建UE目标小区分析,存在74.5%的重建次数为重建到非源小区上。通常UE在移动的状态下发生重建时,容易重建到非源小区。
3.1.2重建失败原因问题分类:无上下文RRC重建拒绝占比最高(87.5%),切换失败触发RRC重建拒绝占比12%,其余占比0.5%。
4 实际优化方案
4.1 切换优化
切换过早或切换过晚或乒乓切换等情况,将大大提升UE触发RRC重建的机会,从现网统计的指标来看,切换失败导致的RRC重建比例较高。通过邻区漏配核查、冗余邻区核查等方式,减少切换过早过晚及乒乓切换次数,从而改善RRC重建指标。
选取TOP 10个小区验证,优化后切换成功率和RRC重建比例均有改善。
4.2 接入优化
小区半径优化:小区半径设置过小,在存在超小区半径切换入的场景下小区无法接入或接入至不合理小区后无线链路失败导致重建。
非竞争随机接入优化开关:该参数用于控制终端处于超过小区半径的场景下的接入(非竞争)功能。如果开关为开,eNodeB针对超过小区半径接入的终端进行优化处理,保证终端的接入;如果开关为关,非竞争随机接入优化功能关闭。该开关对基带板为LBBPc板时不生效。当eMTC功能生效时,非竞争随机接入优化仅对LTE终端生效,对eMTC终端不生效。
现网通过对比小区半径与小区用户随机接入TA均值发现,现网存在188个小区小区半径设置过小。(以下是TOP小区举例说明)
?
优化后TOP小区RRC重建比例改善0.60%。
4.3 覆盖优化
弱覆盖,重叠、越区覆盖严重,会导致覆盖区域接入、切换、重选等均出现问题;重叠覆盖还会导致较为严重的模三干扰,对区域内的用户感知等产生严重的影响。
通过MR可以看出,RRC重建高的小区很多都存在重叠覆盖和越区覆盖,需要进行RF优化。
4.4 RRC重建保护定时器优化
该参数表示重复RRC重建保护定时器。当同一个RRC接入用户重复发起RRC重建请求时间间隔小于保护定时器门限,则不统计重复的RRC重建请求以及成功的性能指标。该参数设置为0时,表示该功能不生效。参数单位为秒。
该定时器设置越小,越不容易满足保护门限,统计的RRC重建次数越多;该参数设置越大,越容易满足保护门限,统计的RRC重建次数越少。
4.5 基于QCI的UE不活动定时器优化
该参数用来指示eNodeB对于UE存在某个QCI承载时是否发送和接收数据进行监测,如果UE存在的所有承载一直都没有接收和发送数据,并且持续时间超过该定时器时长,则释放该UE的RRC连接。参数单位为秒。
因此,适当调小UE不活动定时器时长,可以增加RRC请求次数,并减少可能发生的RRC重建次数,对RRC重建比例指标来说,减小了分子,增大了分母,对RRC重建指标改善较大。
4.6 控制eNodeB支持增强场景下重建开关优化
(1)PCI混淆场景重建开关:该开关表示eNodeB是否支持UE在PCI混淆场景下发生重建。如果打开,则eNodeB支持相同PCI邻区场景重建,如果网络中存在PCI混淆时的重建场景,则重建成功率提升;如果关闭,则不支持该场景重建,对网络无影响。
(2)S1切换场景重建开关:该开关表示eNodeB是否支持UE在S1切换场景下发生重建。如果打开,则eNodeB支持S1切换场景重建,如果网络中存在S1切换后发生重建场景,则重建成功率提升;如果关闭,则不支持该场景重建,对网络无影响。
(3)标准无上下文重建开关:该开关表示eNodeB是否使用协议标准的无上下文重建。如果打开,则eNodeB使用协议标准的无上下文重建,如果网络中存在和其他厂商间进行无上下文重建,则重建成功率提升;如果关闭,则使用普通的无上下文重建,对网络无影响。
(4)安全模式建立时重建开关:该开关表示eNodeB是否支持安全模式建立时响应该UE重建请求。如果打开,则响应UE重建请求,如果网络中存在该场景下重建,则重建成功率提升,eRAB建立成功率提升;如果关闭,则拒绝UE重建请求,对网络无影响。
5 优化效果
通过多轮的攻坚优化, RRC重建占比改善0.4%,RRC重建成功率改善12%,差距大大缩短,已达到预期目标。
6 经验总结
RRC重建指标是保障用户感知的重要指标,频繁的RRC重建对用户的体验会产生较为严重的影响,对保障用户感知,提升网络质量有非常重要的意义。
引起RRC重建的原因有很多,从目前发现的情况看,主要是参数、覆盖、切换问题等原因导致,优化过程中,要结合不同地市的不同问题,对症下药,进行有针对性的优化,发现问题的根源,并进行相应的推广,把点扩大到面,发现一类问题解决一类问题。