基于大数据分析的无线网络优化识别隐性故障探讨
2018-03-11朱伟石霄飞马传项
朱伟 石霄飞 马传项
中邮建技术有限公司
0 引言
对于无线网络优化,利用网管中的性能指标,结合大数据分析,精确定位由于天线问题导致的隐性故障,能够快速有效地发现问题,降低人力成本,提高优化效率,提升网络服务质量。
1 概述
空分复用是LTE(Long Term Evolution,长期演进)网络关键技术之一。它是指让同一个频段在不同的空间内得到重复利用,在移动通信中,其基本技术就是采用自适应阵列天线实现空间分割,在不同的用户方向上形成不同的波束,每个波束可提供一个无其他用户干扰的唯一信道,以此达到提高速率的目的。
1.1 原理介绍
依据MIMO(Multiple-Input Multiple-Output,多路输入多路输出)技术原理,UE(用户设备)测量的秩是主要影响因素。Rank(秩)即天线传输矩阵的秩,无线信号经过多径衰落,表示能够传送独立数据流的数量。当衰落增加,多径信号相关性变大,接收端无法通过相干检测分离出不同的信号,此时Rank将发生降阶,相反的,则可以升阶。RI(Rank Indicator)为1,则表示多条传输通路完全相关,所传送信号之间互相干扰概率较大,使得接收端难以准确解码。如果RI大于1,则表示有多条独立不相关信道,UE可以接收多个不同通路上的信号,并根据预编码规则独立或者联合解码,从而增加传输可靠性,提高信道容量。
1.1.1 秩的自适应性
在发射分集模式下,采用单码字进行发送,秩固定为1,层数与天线端口数相等。在空间复用模式下,信道的秩与层数相等,秩数不能超过收发侧最大天线端口数。例如4T2R(4 transmit 2 receive)系统中,发射端天线端口数为4个,接收端天线端口数为2个,则秩和层数最大只能为2。
3GPP(3rd Generation Partnerships Project) R8规范中定义的最大天线端口数为4,意味着层数不能大于4,因此2个码字可以映射到1~4个层上进行传输。R9规范中定义最大天线端口数为8,则层数不能大于8,因此2个码字可以映射到1~8个层上传输。
1.1.2 RI在下行调度中的应用
UE对下行传输信道进行测量,确定传输信道的秩,并上报给基站,用以辅助基站进行下行调度。同时,在任何传输模式下,UE都要上报CQI(信道质量指示),闭环空间分集模式下,UE还需要发送预编码矩阵索引(PMI)信息。
通常,空间复用模式下,基站根据UE上报的RI数来决定下行码字的数目,从而触发模式内转换过程。以2T2R为例,收发天线端口数都是2,则传输信道的最大秩不超过2。开环空间复用模式下,如果UE上报的RI为1,则表示信道相关性强,无法采用双流传输,因此只能使用发射分集方式,采用单码字进行发送。如果UE上报的RI为2,则表示信道相关性弱,可以采用双流传输,可以使用空间复用方式,提高系统容量。
1.1.3 RI的限制条件
UE上报的RI表示信道的秩,但是RI的上报和使用受一些条件的限制。某些条件下,信道间相关度低,UE测量到的RI为2,但是UE仍然只能上报1。
(1)UE类别为1时,UE上报的RI只能为1。
UE class 1所支持的最大层数为1,也即UE上报的RI只能为1,因此基站也只能发送一个码字,这意味着class1终端只能使用空间分集,无法使用空间复用。
(2)天线数小于2时,UE上报的RI只能为1。
如果物理天线损坏,导致可用天线数为1,则意味着只能采用单天线发送,此时相当于1T1R或者1T2R模式,因此传输信道的秩只能为1,UE上报的RI也只能为1。
(3)受码数限制而无法使用RI=2时,则只能使用RI=1。
对于传输模式TM3(传输模式3)、TM4、TM5与TM6,系统通过高层参数来限定UE所能使用的码数,通过比特位标定特定传输模式下的预编码码数是否能够使用。
4G网络除部分滴灌和室分外打,宏站均采用双流及以上天线,在无线环境良好的情况下,下行能够实现双流传输。广覆盖场景大都使用2T2R天线,部分农村场景使用2T4R天线。在无线环境良好的情况下,若天线存在问题,无法实现双流,则用户业务速率较双流传输时会有明显下降。
1.2 算法设计
UE根据测量下行信号上报不同的Rank值,上报Rank 1说明下行只能为单流传输,上报Rank 2说明可以使用双流传输。一个配置2T2R/2T4R的小区,如果收到的Rank2比例过低,可能存在两种情况:一是天线存在发射性能下降、鸳鸯接反、正负45°线序接错等问题,导致2路Tx(发射)无法同时发挥效能;二是小区边缘用户较多,大部分用户处于无线环境较差的区域,可能是弱覆盖或者重叠覆盖导致;三是基站参数配置错误,导致无法使用双流。
Tx分析方法的主要思路,是通过大数据分析,定义合理的算法和判决门限,精确筛选出可能存在问题天线的小区。需要说明的是2T2R的天线配置,每路Tx和Rx在物理上是合一的,定位出Tx存在问题,往往在排查过程中也能顺利发现Rx的问题。
(1)关键指标
提取某地市4G网络天级连续一周的RANK上报指标,如下表所示:
表1 某地市RANK指标统计
每天UE上报RANK1的上报次数达到110亿次,每天UE上报RANK2的上报次数达到440亿次,信息采集量非常大,更能准确地反映出网络的工作状态。如该指标出现异常,则网络存在问题的概率将会较高,但是也不排除是特殊无线环境导致该指标异常。
统计某地市连续半个月UE上报RANK2占比情况,如下表所示:
表2 某地市连续半月RANK占比统计
全网UE上报RANK2占比的平均值在80%左右,如低于该值需分析是否存在性能下降问题,进而制定优化方案。
(2)RANK2占比过低判定规则
RANK2占比=RANK2的上报次数÷(RANK1的上报次数+ RANK2的上报次数)
全网RANK2占比基本保持在80%以内,RANK2占比劣化门限暂定为80%,当连续7天RANK2占比小于80%,即定义为RANK劣化小区,需展开优化工作,提升RANK2占比。
统计分析大量的DT数据,RSRP(参考信号接收功率)以5db分段,SINR(信号干扰噪声比)以3db分段,参考统计结果制定出RANK2占比门限值。
RSRP各分段对应TM2(传输分集模式)和TM3(开环空分复用模式)占比情况如下表:
表3 RSRP分段TM2/3占比统计情况
由于采用的是DT数据,小于-105dbm的采样点数较少,所以可能会影响分析结果的准确性,建议剔除。通过上表可知,当RSRP小于-95dbm时,TM3的占比明显下降,也即会导致RANK2的占比明显下降。根据MR中考核大于-110dbm的占比,以大于-110dbm为参考点,此时TM3的占比为44.6%,也即RANK2的占比也是44.6%,故建议把RANK2占比门限设置为45%。
SINR各分段对应TM2和TM3占比情况如下表:
表4 SINR分段TM2/3占比统计情况
24~27 503 10889 4.42% 95.58%21~24 1256 16367 7.13% 92.87%18~21 2564 20045 11.34% 88.66%15~18 4817 19530 19.78% 80.22%12~15 5594 15804 26.14% 73.86%9~12 5309 10945 32.66% 67.34%6~9 4327 6770 38.99% 61.01%3~6 2923 3428 46.02% 53.98%0~3 1533 1472 51.01% 48.99%-3~,0 620 496 55.56% 44.44%-6~-3 188 145 56.46% 43.54%-9~-6 69 49 58.47% 41.53%-12~-9 12 15 44.44% 55.56%-15~-12 1 1 50.00% 50.00%
由于采用的是路测数据,小于-6db的采样点数较少,所以可能会影响分析结果的准确性,建议剔除。通过上表可知,当SINR小于6db时,TM3的占比明显下降,也即会导致RANK2的占比明显下降。日常优化中一般要求SINR大于-3db,此时TM3的占比为44.44%,也即RANK2的占比也是44.44%,故建议把RANK2占比门限设置为45%。
综合以上分析,RANK2占比的门限建议设置为45%,同时为防止采样数较少导致误判,需同时也满足每天的采样数大于10000。即满足硬件至少是2T2R,每天采样点数大于10000,且RANK2占比小于45%的小区定义为RANK2占比较低,建议进行隐性故障排查,同时提升RANK2占比。
2 效果验证
测试验证问题139个,主要分为6大类:驻波告警、鸳鸯接反、极化接错、电子下倾角不一致、天线接反、参数配置错误。
统计结果如下表:
表5 问题分类统计情况
2.1 驻波告警实例
分析发现“湖山路_50”小区的RANK2占比明显较低,仅1.8%,而且该小区支持两发两收,也即支持双流。分析话务量等指标,发现该小区用户数较少,且全天流量仅200MB,明显也较少。
分析周边无线,该小区位于城郊结合部,用户相对较少,结合周边站点分布情况,发现该小区主覆盖方向存在一片水面,推断可能存在水面反射,导致覆盖过远。提取MR(测量报告)指标分析,未发现覆盖过远问题,总体覆盖率也比较正常。
(1)告警分析
查询当前告警,发现从2017年6月20日开始,出现驻波告警。但是通过分析流量和用户数,发现虽然存在驻波告警,但是该小区还是能做业务,只是覆盖性能有所下降,推断是由于驻波告警导致该小区2个通道出现不平衡,进而导致UE无法上报RANK2。
(2)现场测试
现场测试,在无线环境(RSRP=-81dbm,SINR=18)较好的情况下,占用的却是TM2。此时UE上报的RANK为2,那么传输模式应为TM3。
统计2个天线之间的电平差值,如下表:
表6 手机2天线接收电平平均差值
两个天线之间电平的平均差值达到2.84db,根据经验判断2个通道RSRP相差3db以上,会导致占用的TM3的比例下降,相差5db以上基本上就无法占用TM3。
对差值进行分段统计,如下表:
表7 手机2天线接收电平分段差值
两个天线接收到的信号强度相差在5db以上的比例在26.76%以上,根据以往经验,双通道相差5db以上会导致无法占用双流。
图1 通道0/通道1覆盖能力对比
综合以上分析,建议排查两个通道的平衡性。
该小区当前配置为2T2R,计划轮流闭塞2个通道,对比在同一地点收到的2个通道的电平差值,以确定是否真的存在双通道不平衡问题。
分析发现在相同地点UE接收到2个通道的电平相差6db,基本可以确定该小区存在双通道不平衡问题,导致RANK2占比较低。
(3)问题解决
通过监控告警信息,发现7月24日出现驻波告警,驻波告警在7月24日当天恢复。向维护人员询问,被告知当天进行了更换天线的操作。同时观察RANK2占比指标,7月24日后该指标基本恢复正常,由之前的2.8%提升到80%以上。
表8 告警恢复前后指标对比
2.2 鸳鸯接反实例
鸳鸯接反多见于RRU(射频拉远单元)安装在机房的站点,由于与天线距离较远,在跳线的布放过程中,施工人员容易操作失误,将某一小区的两路Tx跳线接在不同的天线上,导致在同一个覆盖方向,UE只能接收到一路Tx信号。
分析RANK2占比低小区,“御马汽车的2、3”小区的RANK2占比仅有23%,“御马汽车的1”小区的RANK2占比89%,明显优于其他2个小区。核查告警和常见参数等,未发现异常,推断存在鸳鸯接反问题。
图2 鸳鸯接反影响速率的示意图
鸳鸯接反影响速率的原因如下图所示:
在“御马汽车的2、3”扇区主瓣方向分别测试,能同时接收到2、3扇区的信号,并且RSRP相近,下行传输存在单流,因此判断该小区的2、3扇区天线鸳鸯接反。
2.3 极化接错实例
现网中正负45°线序接错的情况可能会较多,这一类问题出现在2T4R天线上,需要上塔解决。
图3 2T4R天线端口
两副发射天线,必须一路接+45°接口,一路接-45°接口,才能最大程度减少2路TX的相关性,避免互相干扰。施工过程中如果误将2副发射天线接在相同极化的端口,会导致单流问题。
2.4 电子下倾角不一致实例
2T4R天线内置2副天线,因此需要配置2副电调,如果2副电调的下倾角设置不一致,使2副天线覆盖范围不一致,那么在小区的覆盖边缘区域就容易出现单流的情况。导致电子下倾角不一致的,除了人工操作的因素之外,2副电调中的1副电调出现故障,对应天线的电子下倾角将会自动设置到最大值,也会造成单流。
此外,2T4R天线的电调配置错误或配置不完整,也会导致单流。2副电调设备只有1副接线,另外一副闲置,造成两幅天线的电子下倾角出现差异。
对“大丰电信支局”进行现场测试,该站的3个扇区在CQT(定点测试)测试时正常,但在DT(路测)测试时发现随着距离的增加,开始逐渐出现单流问题。
登录网管查看,发现“大丰电信支局_1”扇区配置2副电调天线,但电子下倾角设置不一致。电子下倾角调整为一致,现场测试正常,跟踪观察RANK2占比情况也恢复正常。
图4 近距离测试正常
图5 远距离测试异常
2.5 天线接反实例
天线接反是指两个扇区间的RRU,两个T/R共用口与相邻扇区天线全部错接。
分析发现“通州正场农校北2、3”小区的RANK2占比仅为35%,明显存在问题。对“通州正场农校北2、3”扇区测试发现,在该站2扇区的主覆盖方向收到的信号为3扇区信号,而3扇区的主覆盖方向收到的信号为2扇区信号。
导致这种情况的原因主要有两个:(1)天线接反;(2)PCI实际配置与工参不一致。登录基站网管进行确认,发现PCI的实际配置与工参吻合,因此可推断原因较大可能为天线接反。
上塔排查,发现确实为天线接反。整改后复测,扇区覆盖方向已修正。
2.6 参数配置错误实例
分析发现“无锡中医医院(中南路)_52”小区的RANK2占比为零,明显存在问题。分析用户数和流量等指标,未发现异常。同时对比同站其他小区,其他小区RANK2占比指标正常。而且该小区配置为两发两收,可以支持RANK2。查询历史告警和当前告警,未发现异常。
(1)发射通道状态核查
通过核查该小区2个通道的状态,发现发射通道1的“发射通道物理开关”处于关闭状态,也即该小区虽然配置了双通道,但是目前只能正常使用1个通道。
(2)现场测试验证
8月11日现场测试情况,在无线环境极好(RSRP=-79dbm,SINR=28dbm)的情况下,UE只上报RANK1,传输模式只能使用TM1,说明确实只有一个通道可以正常使用,下载速率仅41Mbps。
现场联系维护工程师打开发射通道2,UE可以正常上报RANK2,占用TM3模式,下载速率达到85Mbps。
3 总结
本方法直接采集现网性能数据,无需增加额外成本。利用大数据分析精确定位低速率小区,现场验证准确率86.73%。天线隐患如无告警,原先只能通过用户申告或DT/CQT被动发现,此方法可主动发现天线隐患,改善用户感知,提升运营商品牌形象。能够缩短优化流程及隐患发现周期,减少人力成本,提升优化效率。