朔黄铁路专用LTE系统升级实施及问题探索
2018-07-05岳彩青
岳彩青
(朔黄铁路发展有限责任公司,河北沧州 062350)
朔黄铁路公司(简称公司)宽带移动通信LTE系统于2014年上线,由于铁路用户分布、业务对系统稳定性要求等多方面因素制约,现网基站设备版本是针对公司实际情况定制开发的专用版本,与运营商的公共版本存在较大差异,不利于版本的向后演进。考虑到今后系统维护的方便,结合现网版本运行中存在的问题,公司尝试对全网基站进行版本升级。
1 公司LTE系统概况
公司LTE系统采用TD-LTE制式,由无线承载网络、业务应用系统、运行与支持系统和终端设备等4部分组成。
1.1 无线承载网
无线承载网采用双网负荷分担组网方式,分为无线核心网络和无线接入网络部分。其中无线核心网络是由部署在中心机房的两套核心网EPC设备组成,它们相互独立,分别负责处理A、B两张网络数据。
无线接入网络由沿铁路线按链状结构敷设的eNodeB基站组成,eNodeB采用分布式基带处理单元(BBU)+射频拉远单元(RRU)组网方式,考虑到安全性能,A网和B网BBU基站采用位置交错部署,每个基站都设置A网的RRU和B网RRU各一套,分别接入不同核心网EPC,实现共站址双网覆盖。BBU设备至RRU设备采用双光纤链路连接,每台RRU利用敷设在铁路上下行两侧光缆中的2对光纤与所归属的BBU连接,如图1所示。
图1 LTE系统无线接入部分组网Fig.1 Wireless access networking of LTE system
1.2 业务应用系统
朔黄铁路LTE系统目前承载的业务主要有机车同步操控无线重联业务、列车调度语音通信业务、列车调度命令和无线车次号校核业务。这些业务在应用层面主要由无线重联应用服务器、列车调度集群语音服务器、车地通用数据通信接口服务器来提供。其中无线重联应用服务器负责提供列车同步操控和可控列尾等数据业务[1];集群语音服务器负责提供列车行车调度指挥语音业务;车地通用数据通信接口服务器主要实现调度命令下发到机车、无线车次号校核等业务。
1.3 运行与支撑子系统
运行与支撑子系统在中心机房设置网管系统及用户管理系统,用于网络运营的维护及管理。
1.4 设备终端
设备终端主要包括重载无线重联车载通信设备、列尾车载通信设备、列车调度通信机车台,移动人员配置手持终端。
2 升级的背景
2.1 公司LTE系统版本与公共版本的区别
1)硬件方面
公司LTE系统BBU基站设备主控板型号为UMPTa6和UMPTb2两种,上联核心网的接口只有一个电口和一个光口。为提高可靠性,利用一光一电两个口配置Trunk功能,对端传输设备采用FE电口,速率为100 M,因此需在主控板上的光口插接光转电模块,与传输侧速率和接口类型匹配。为减少转换模块带来的故障风险,主控板需要更换为带有两个电口(实现Trunk功能)的UMPTe型。
2)软件方面
公司LTE系统BBU基站使用的主控板版本是厂家根据公司LTE系统组网实际情况定制开发,与运营商在用的公共版本不同,不利于版本的向后演进。
2.2 目前版本运行中存在问题
公司LTE系统运行3年以来,无线子系统多次上报不同基站基带板“单板硬件故障告警”和“基站同步帧号异常告警” 两类,通过现场掉电复位此基带板后,告警恢复。通过对站点的故障日志分析来看,是由于FPGA内存芯片软失效导致单板硬件故障,进而导致基带的BFN功能模块异常引起基站同步帧号异常告警。如图2所示。
图2 故障基站日志Fig.2 Log of failure base station
目前业界公认芯片软失效的发生存在一定概率,是集成电路由于外部粒子辐射等原因导致芯片的bit反转,从而触发软失效[2]。一般来说,FPGA的重要功能模块影响FPGA局部功能运行,如果该模块发生功能错误,将对FPGA某区域的功能模块造成长时间的故障[3]。根据FPGA供应商给出的数据,1万块单板每年会出现80次软失效(SEU)问题。目前发生该问题时,系统默认自动进行设备自愈重启,网管上不提示重启原因,只上报重启时引起的“单板硬件故障告警”和“基站同步帧号异常告警”。只有调用基站日志做进一步分析,才能判定故障原因,不利于维护人员对问题的快速定位。
鉴于以上情况,与厂家沟通在新版本中增加软失效自愈开关、可调节的自愈延时设置、软失效自愈告警提示功能。一旦设备发生软失效,网管上报告警提示,技术人员根据提示决定是否重启并且可手动调整自愈重启的延时。
3 升级方案
3.1 系统升级基本步骤
本次升级在更换基站主控板的同时,对新更换单板做先进性版本升级,然后加载转换后的现网LICENSE文件和配置数据。
由于此次升级是在线对既有网络进行操作,涉及到行车业务,本着尽量减少对现网业务影响的原则,经过反复讨论,确定以下实施步骤。
1)在模拟实验室备用设备上对所有待换的新主控板进行软件版本、License文件和配置数据加载,加载后确认单板状态正常,并初步验证业务正常。
2)为验证此次升级的版本在现网中的运行状态,在沿线192个BBU基站中选定两个具有代表意义的基站进行天窗点模拟升级试验。
3)对试验中存在的问题进行整改,整改后再次利用天窗点进行模拟升级试验,直至试验结果正常,符合现网指标要求。
4)利用天窗点分段错开A/B网对全网进行批量升级,并安排专门的测试小组进行同步测试。
3.2 变更版本描述
现网基站主控板软件由BTS3900 V100R008 C10SPC350升级到BTS3900 V100R012C10SPC120版本;
现网基站主控板硬件由UMPTa6和UMPTb2更换成UMPTe单板。
3.3 升级前重点区域测试
由于LTE系统的稳定运行直接关系到行车安全,所以升级前的测试工作要做到位、试验要彻底。
3.3.1 测试区域选取
此次试验选取两个具有代表意义的基站,分别是4006-BUA(A网基站)与SNB-BUB(B网基站),原因为:
1)两个基站下小区配置情况复杂,有3种情况:均为合并小区、分裂小区、合并小区和分裂小区同时存在;
2)由于是在天窗点进行升级试验,在时间紧、测试项目多的情况下,选取便道宽阔,便于测试车辆通行的基站更合适;
3)测试基站离中心机房近,升级测试出现问题,便于技术支持人员迅速到场处理。
3.3.2 测试方案
测试阶段需详细对升级后小区的接入性能、端到端传输性能、移动性能、吞吐率及用户感知等内容进行全面验证测试[4]。
此次升级重点区域测试以验证升级后小区性能为目的,主要包括定点测试部分(接入测试、PING测试、吞吐率测试、通话感知测试)和路测部分(切换测试)。其中定点测试在升级后小区覆盖范围内进行;路测在升级单个基站覆盖范围内、升级基站间(同网、异网)、升级站点与未升级站点间(同网、异网)的切换带区域进行[5],具体测试方法如表1所示。
4 升级测试发现问题
经过周密安排,升级测试采用四个天窗点时间段,分别对选定的4006-BUA(A网基站)与SNBBUB(B网基站)两个基站的业务性能,按计划内容进行试验。试验中发现两类主要问题:第一类为基站主控板升级后,设备运行正常,但个别小区无法正常建立;第二类为基站升级后,设备状态、小区状态均正常,但个别小区终端用户无法正常接入。结合现场试验结果,采集相应的系统日志对问题进行详细分析。
表1 升级测试方法Tab.1 Update testing methods
4.1 问题一:升级后部分小区无法正常建立
4.1.1 问题描述
对两个测试站点进行基站主控板更换升级操作,网管查看升级后的基站单板运行状态、版本状态均为正常,查看小区状态发现4006-BUA(A网基站)基站下标识为2号的小区状态为“未建立”,提示原因为“基带资源分配失效,建议核查小区规格和基带板规格是否匹配”,如图3所示。
图3 基带资源不足导致个别小区未建立Fig.3 Fail to establish a cell due to deficient baseband recourses
4.1.2 问题详细分析
针对4006-BUA基站2号小区无法激活问题进行如下分析。
1)基站配置排查
4006-BUA基站的小区资源配置情况为:基带板LBBPd4两块,下挂3个RRU拉远单元,每个RRU配置两个定向天线,分别覆盖铁路线上下行方向区域。该基站总共配置6扇区、3小区,其中0#和1#、2#和3#、4#和5#扇区两两进行了小区合并,以上配置符合现网需求,如图4所示。
图4 基站配置情况Fig.4 Base station configuration
2)基带板日志分析
分析基带板日志发现,小区未激活就是由于基带资源不足导致,对基带板进行多次复位,发现每次都有一个小区不能正常建立,原因均为基带资源不足。
3)问题原因分析
结合日志分析,与厂家研发人员进行详细沟通,了解到新版本的基带板LBBPd4具有以下特点:在扇区与基带资源不绑定的情况下,每板只支持3个基带资源,一个基带资源支持一个扇区;且同一个小区的基带资源不能跨单板重建。
问题基站下3个小区均为合并小区,每小区对应两个扇区会占用1块基带板的两个基带资源,当前两个小区建立后,两块基带板每块只剩一个基带资源,而同一个小区的基带资源不能跨板重建,导致基带资源不足,最后一个小区无法激活[6]。
4.1.3 解决办法
如果对扇区与基带资源进行绑定,可以使基带资源翻倍,即每基带板的基带资源由3个变为6个,具体操作命令如下。
1)激活所有小区
DEA CELL: LocalCellId=0(1、2);
2)增加基带设备
ADD BASEBANDEQM: BASEBANDEQMID=0,BASEBANDEQMTYPE=ULDL, UMTSDEMMODE=NULL, SN1=3, SN2=2;
3)修改小区扇区设备
MOD EUCELLSECTOREQM: LocalCellId=0,SectorEqmId=0(1-5), BaseBandEqmId=0;
4)激活小区
ACT CELL: LocalCellId=0(1、2)。
4.1.4 实验室验证
实验室按照现网数据配置进行镜像验证,未进行扇区和基带资源绑定前现象和现网问题一致,存在小区激活失败问题,原因为基带资源不足。使用解决方案进行配置之后,小区激活成功,基带资源占用正常。
4.2 问题二:基站版本升级后终端业务异常
4.2.1 问题描述
进行基站主控板更换升级操作后,SNB-BUB基站下263、264小区出现接入失败问题,分别进行上下电复位RRU、BBU机框后,问题未解决;依次MML命令复位UMPT主控板、LBBP基带板和RRU后问题解决。
4.2.2 问题分析
1)从现象方面分析
问题与上下电复位BBU框和MML命令依次掉电复位UMPT主控板、LBBP基带板两个复位方式的差异点相关。
2)从组网方面分析
经现场调查发现,公司LTE系统基站BBU与RRU连接采用的是热环配置,即双CPRI光链路连接,两条链路为热备工作模式,且普遍存在光口0和光口1 CPRI光纤长度相差较大场景,本次问题场景两条光链路长度相差900 m左右。
3)从热环原理分析
现网版本机制为:当业务在光口0上运行时取光口0的时延TN值,业务在光口1上时会取光口1的TN值,以便实现BBU和RRU的数据同步。
4)日志分析
在升级后的问题小区进行测试发现,UE总是发生重建立,重建立的原因是上行消息达到最大重传。查看对应的基站侧日志,发现在问题时段,基站侧检测到终端上行的RSRP陡降。
5)问题原因分析
由于公网LTE系统组网基本为单链型组网,每个RRU只接一个光口,所以新版本设计时默认按照两个CPRI光链路等长设计,固定取光口1的TN值[7],但实际朔黄普遍存在两个光链路长度差异较大的场景(大于100 m),当业务在光口0运行时,会取光口1的TN值,造成光链路时延偏差过大,配置给终端的TA值偏移严重,BBU和RRU数据不同步,出现终端接入失败的情况。
6)解决方法
按照现网光链路不等长的实际场景,调整新版本的TN值,并且选择部分基站进行测试,确保后续该问题不再复现。
7)实验室复现
实验室配置的镜像环境,热环配置下光纤不等长,问题可以稳定复现,日志分析表现为相同现象,此时长光纤光口0实际配置TN值为90,理论上应配置280。将版本中TN值按照实际情况配置为280,问题排除,终端能正常接入,查看日志各项指标正常。
4.3 问题三:软失效问题
对于部分基站出现FPGA软失效的问题,由于没有办法彻底解决,为了便于今后维护,采取在新基站版本上打冷补丁的措施来增加以下功能。
4.3.1 增加自愈复位开关
若开关为开,在FPGA软失效且业务异常时,复位RRU自愈,自愈后仍无法恢复,则上报硬件故障告警。若开关为关,同时FPGA软失效且业务异常时,只上报“单板软件运行异常告警”和“射频单元软件运行异常告警”,不进行复位自愈,此时需人工干预。
4.3.2 增加自愈延迟开关,在自愈开关为开时生效
若延迟开关为开,在FPGA软失效且业务异常时,为了减少单板上承载的其他小区的业务影响,系统在凌晨2点左右发起复位自愈。若开关为关,在FPGA软失效且业务异常时,系统立即复位自愈,减少业务影响的时长。
4.3.3 增加业务检测时长可配置功能
检测业务异常时,按配置的时长进行判决,若业务异常持续到配置的时长后,则认为业务异常,即触发自愈功能,避免系统误判断进而频繁自愈重启,影响在线业务。
5 结束语
随着技术的不断进步,软硬件版本的不断更新,LTE系统在运行中需要不断进行升级优化,为保证系统正常运行,尤其是保证铁路LTE系统控车业务的可靠性,升级前需要进行全面反复试验,并制定详细周密的实施计划,将可能发生的问题提前暴露出来,寻找出解决方案,才能使升级工作顺利推进。
[1]高媛.基于LTE技术的无线重联数据传输地面应用系统的设计与研究[J].铁道通信信号,2016,52(12):55-57.Gao Yuan.Design and research of ground application system for wireless reconnection data transmission based on LTE Technology[J].Railway Signalling & Communication,2016,52(12):55-57.
[2]冯军宏,简维廷,张荣哲,等.超深亚微米IC的宇宙射线辐射软失效研究[J].半导体技术 ,2010,35(6):555-559.Feng Junhong,Jian Weiting,Zhang Rongzhe,et al.Research on soft failure of cosmic ray radiation from ultra deep submicron IC[J].Semiconductor Technology,2010,35(6):555-559.
[3]周国昌,朱启,巨艇,等.一种FPGA单粒子软错误检测电路设计[J].电子工程设计,2015,23(20):1-4.Zhou Guochang,Zhu Qi,Ju Ting,et al. A design of FPGA single particle soft error detection circuit [J].Electronic engineering design,2015,23(20):1-4.
[4]卢卓君,彭陈发,岑曙炜.TD-LTE网络优化探讨[J].电信技术,2012(7):51-53.Lu Zhuojun,Peng Chenfa,Cen Shuwe.Optimization of TD-LTE network[J].Telecommunication technology,2012(7):51-53.
[5]李莉.铁路下一代移动通信系统LTE-E技术指标体系研究[J].铁路通信信号工程技术,2013,10(s1):233-237.Li Li.Research on the LTE-R technical index system of the next generation railway mobile communication system[J].Railway Communication Signal Engineering Technology,2013,10 (s1):233-237.
[6]李德伟.华为小区服务能力下降告警排查方法及解决思路[J].电子世界,2016(11):186-187.Li Dewei.The method and solution of service capability decline in HUAWEI District [J].Electronic world,2016(11):186-187.
[7]霍晓莉,荆瑞泉.BBU集中部署时CPRI链路承载方案[J].电信科学,2015,31(8):161-165.Huo Xiaoli, Jing ruiquan.CPRI link bearing scheme for BBU centralized deployment[J].Telecommunications Science,2015,31(8):161-165.
[8]马健康.神朔铁路机车同步操控LTE系统规划方案[J].铁路通信信号工程技术,2016,13(5):32-37.Ma Jiankang.LTE Networking Solution in Locomotive Synchronous Operation and Control Technology for Shenshuo Railway[J].Railway Signalling & Communication Engineering,2016,13(5):32-37.