LTE无线网基站自启动工作原理及故障处理研究
2017-05-02答嘉曦
答嘉曦
【摘 要】基站自启动开通已成为LTE无线网建设、维护及优化中不可或缺的方式,在提升开站效率、降低开站成本、减少人员投入方面的作用明显。为增强基站自启动相关故障的处理技能,切实满足LTE无线网大规模建设的进度要求,通过对自启动的原理、关键技术、端到端分析与定位手段进行研究,结合相关典型问题的分析解决,总结了现场处理自启动问题的一些方法和经验,从而有效提升类似问题的处理效率。
【关键词】LTE基站 自启动 端到端 故障处理
1 引言
传统无线网的基站建设和开通模式无论采用TDM(Time Division Multiplexing,时分复用)组网还是IP(Internet Protocol,网间互连协议)组网,都需要在基站开启环节进行相关的调测及参数配置工作,主要包括设备的软硬件架构、模块及板件的联接模式、小区/扇区与天馈线的映射关系、网络参数、传输参数(包括物理层、链路层、网络层)的配置等。这部分的配置工作对人员的技术水平有较高要求,无法依赖建站的现场施工人员来操作,而只能通过专门的开站技术人员逐一上站并现场完成,工作量大且极易出错。特别是在IP组网的情况下,网络结构由点到点的资源独占变为多点间扁平化的资源共享,网元关系由相互间强耦合变为弱耦合,传输资源及传输参数的配置由于IP化的引入变得更加灵活、难度更大,对开站人员的素质水平和技能要求也就有了更高的要求。
自配置过程是网络中新增节点的自动操作环节,它是指通过自动配置的方式完成无线网的eNodeB(Evolved Node B,演进型Node B)加电、网络连接、射频发射机开启乃至可承载业务的全过程,包括自启动和无线配置两大环节。其中,自启动包括IP地址配置与OMC-R(Operations and Maintenance Center for Radio,无线接入网网管)的检测及鉴权、与核心网建立连接、eNodeB软件与运行参数下载等;无线配置包括物理小区lD分配、邻小区列表建立、覆盖与容量参数配置等。自启动功能可以在相当大的程度上提升开站效率、降低开站成本、减少人员投入,其已成为无线网建设、维护及优化中不可或缺的手段。
2 基站自启动关键技术及工作原理
2.1 关键技术
(1)VLAN
VLAN(Virtual Local Area Network,虚拟局域网)技术使得网络管理员可以根据不同实际情况,将同一物理LAN(Local Area Network,局域网)网内的不同用户按照特定逻辑分成若干个独立的广播域,与物理上形成的LAN有着相同的属性。一个VLAN内部的广播或者单播流量是无法传播到其他VLAN中的,使流量的控制、网络的管理、设备的维护、网络安全保证都得到了有效优化。
(2)DHCP
DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)是一个应用于局域网的网络协议,基于UDP(User Datagram Protocol,用户数据报协议)协议工作,用途是给内部网络或者网络服务供应商自动分配IP地址并对IP进行管理,其可以显著提升IP地址的使用率。DHCP协议采用客户端/服务器模型,主机地址的动态分配任务由网络主机驱动。当DHCP服务器接收到来自网络主机申请地址的信息时,才会向网络主机发送相关的地址配置等信息,以实现网络主机地址信息的动态配置。
新建基站采用自启动模式开通时,相应的DHCP消息流程如图1所示。
具体如下:
◆由于基站没有配置,使用“0.0.0.0”为源地址,发送DHCP广播包(DHCP Discover)。
◆DHCP Relay Agent收到廣播包后,使用单播的方式向DHCP服务器转发。
◆DHCP服务器向DHCP Relay Agent下发配置。
◆DHCP Relay Agent将收到的配置向客户端转发。
无论是否存在Relay,都要4条消息完成一个DHCP过程。
2.2 工作原理
基站自启动技术涉及的网元主要包括eNodeB与OMC-R。在OMC-R侧,远程管理人员将所需开站的基站规划数据通过批量生成工具导入OMC-R;在eNodeB侧,现场施工人员在完成机房、动力配套、天馈线及主设备安装,并与传输专业确认接入层传输设备已调通之后,只需要将eNodeB所带的传输功能板卡与接入层传输设备通过网线连接并上电,eNodeB经上电自检后如运行无误则通过指示灯显示正常。eNodeB在自检通过后,根据其设备内自带的缺省配置信息,自动依据网络的具体类型获取相应参数并与相应的OMC-R完成连接。OMC-R提供操作维护(OM)通道,使eNodeB能够完成配置及版本下载,并进行资产更新和自测试,最终完成启动。在无需人工干预的条件下,eNodeB能够自动按配置建立S1连接,小区和公共信道达到可服务的状态。OMC-R支持相关信息以综合报告的形式在友好的人机交互界面上进行显示,同时支持远程管理人员针对特别关注项进行实时查询。
3 自启动问题的端到端分析手段、定位方法与核查问题点
为了提升LTE基站自启动工作的效率,从端到端网络结构入手,结合开站实施过程及自启动流程,总结了基站自启动的关键问题点及处理方法。
3.1 自启动工作流程及核查问题点
(1)准备工作
基站自启动前需要在无线侧、PTN(Packet Transport Network,分组传送网)侧及OMC-R侧做一定的准备,具体准备工作如下:
◆无线侧:完成制作目标站点的开站列表和配置文件。
◆PTN侧:L2/L3设备完成调测。
◆OMC-R侧:完成软件调测,具备挂接站点能力,与各地市路由打通。
(2)自启动开站
阶段一:上站完成站点硬件安装、与天馈线及传输接入层设备的联接并上电。
阶段二:开站列表、配置文件、网元版本等文件导入OMC-R的即插即用模块。
阶段三:ESN(Electronic Serial Number,电子序列号)上报后在开站列表中绑定ESN号。
阶段四:在DHCP消息打印中确认目标站点的4条DHCP握手消息。
阶段五:OMC-R开始下发并激活配置、软件版本、License等文件。
(3)各阶段常见问题及核查关键点
阶段一:
◆常见问题:主控板与PTN连接光口指示灯异常。
◆eNodeB核查点:主控板指示灯闪烁是否正常;光模块是否是1.25 G/10 km;光纤收发是否反接,光路是否正常;基站上电49天未开通不会上报带VLAN的报文。
◆PTN核查点:传输设备是否存在告警;PTN的物理端口配置是否均是光口千兆全双工;光模块是否是1.25 G/10 km。
阶段二:
◆常见问题:无DHCP Discover上报。
◆eNodeB核查点:PTN端口是否插错;基站侧DHCP开关是否打开。
◆PTN核查点:检查PTN盒子和LTE基站直接对接的GE(Gigabit Ethernet,千兆以太网)端口基本配置,要求为TAG模式,检查PW配置数据,确认VLAN是否正确;执行LB测试,确定L2/L3到基站的L2 PW是否是通的;L2/L3 PTN上是否开启DHCP Relay功能;L2/L3 PTN配置的DHCP Relay目的IP地址是否跟無线OMC-R网管IP一致,L2/L3 PTN带网关IP地址是否可以PING通OMC-R服务器IP;传输的L2/L3设备是否正确配置数据,包括IP地址、路由等;确认L3 PTN与本地网管网已正常对接,物理上已连通。
◆网管网核查点:网管网是否做了路由策略的约束;防火墙是否做了安全加固策略,导致DHCP报文无法透传;防火墙来回路径不一致检测功能是否关闭。
◆OMC-R核查点:网管上是否创建了开站列表并启动侦测;目标站点是否已在其他网管上开启。
阶段三:
◆常见问题:ESN号未绑定。
◆eNodeB核查点:站点ESN号是否正确填写。
阶段四:
◆常见问题:开站仍停留在OM通道检测阶段。
◆eNodeB核查点:开站列表中ESN是否绑定了错误的站点;开站列表中的IP、VLAN是否正确;维护通道割接失败场景下,业务正常的站点发起自启动会失败。
◆PTN核查点:是否数据配置与传输调单不一致,如IP、VLAN等;是否漏配置虚接口;核查传输接入环到核心环的数据制作。
阶段五:
◆常见问题:加载过程中超时。
◆eNodeB核查点:配置文件中的IP、VLAN是否正确;配置文件的版本与实际网元版本是否一致;网元与PTN的物理端口配置是否均是光口千兆全双工。
3.2 端到端分析手段与定位方法
LTE的OMC-R一般采用集中建设模式,不同地市的基站通过本地L3 PTN传输接入本地市的网管网,再连接至省网管网,最终接入LTE的OMC-R所在地市的网管网。其端到端组成需要经历以下环节:
(1)本地网传输(PTN,主要是华为、中兴设备)。
(2)本地网管网(交换机、路由器、防火墙,主要是思科、华为设备)。
(3)省网管网(路由器、防火墙,主要是思科设备)。
(4)OMC-R所在地市的网管网(交换机、路由器、防火墙,主要是华为、思科设备)。
对于基站自启动问题的定位,分段抓包、逐点定位是比较有效的方法。由于涉及跨地市、跨专业,因此一定要先分析清楚整个网络端到端的组网结构,找出网络中的关键节点,这样才能提高抓包的效率,具体如图2所示:
抓包方法定位思路如下:
(1)在位置①处eNodeB侧抓包,确认eNodeB是否成功将DHCP报文发送出来。如果未发,则直接定位为eNodeB问题,否则进入步骤(2)。
(2)在位置②处抓包,确认PTN主用L3设备DHCP报文收发情况。如果抓包显示没有DHCP报文发送,则说明中间PTN网络问题导致DHCP报文丢失;如果只有DHCP发送而没有DHCP回应,则进入步骤(3)。
(3)在位置③处抓包,确认OMC-R是否接收和响应DHCP报文。如果只有发送而没有响应,则定位为OMC-R服务器问题,否则进入步骤(4)。
(4)在位置④处抓包,确认该处是否可以收到OMC-R响应的DHCP报文。如果没有收到,则说明PTN和OMC-R中间网络丢弃了DHCP回应报文;如果有收到,则继续深入检查PTN L3数据配置是否正确,否则备用L3设备应该将该DHCP回应报文送给主用L2/L3。
4 故障案例分析
案例1:采用中兴PTN的基站能正常上报ESN,采用华为PTN的基站无法上报ESN
(1)故障现象
某地市LTE基站开通过程中,采用中兴PTN的基站能正常上报ESN,而采用华为PTN的基站无法上报ESN,经核查相关路由均已添加。
(2)问题分析
站点ESN通过本地PTN(故障站点使用华为PTN,而中兴PTN站点不存在此问题)及网管网发送到OMC-R,在华为PTN进入路由器的端口镜像抓包,发现携带基站ESN号的DHCP Discover的报文已经PTN送出;在本地网管网连接位于深圳的省网管网端口进行抓包,同时抓到了华为和中兴的PTN送往深圳网管的带有基站ESN号DHCP报文;在抓到的信令中分别选取两个中兴PTN和华为PTN上报的DHCP报文,根据报文中的ESN号与无线OMC-R核对,结果显示华为PTN下基站的ESN号仅能上报至东莞本地网管,而中兴PTN下的基站ESN号可以在东莞和深圳的4套网管上报。
选取两个典型站点东莞塘边村F-LH(华为PTN)、东莞岭厦公园F-LH(中兴PTN),拉通整网进行抓包,在本地L3 PTN的出口处、本地网管网出口处、省管到深圳网管网入口处、OMC-R近端交换机这几个点同时进行抓包比对,看到现象如下:
◆在深圳网管网入口处、OMC-R近端交换机这2个抓包点只能抓到中兴PTN下站点上报的ESN。
◆在东莞本地网管网出口处可以抓到基站上报的ESN,既有中兴PTN下的基站,也有华为PTN下的基站。
◆从东莞本地网管网出口处抓到的报文分析,华为PTN下基站的中继报文都是从业务网段送往OMC-R的,即100.65.X.X;而中兴PTN下基站的中继报文都是从维护网段送往OMC-R的。
东莞站点采用双IP方案:一个业务IP,一个维护IP。正常情况下基站自启动时,相关报文应该由维护网段送出。经过PTN分析,发现PTN网关在发送DHCP Relay报文时选择机制上不合理,选择了通过业务网段VLAN带上来的信息,因此需要修改选择机制。
LTE eNodeB与OMC-R之间的路由架构如图3所示。
(3)故障处理
由于省网管网及深圳网管网只放通了各地市基站的维护网段,而华为PTN下的DHCP报文是由业务网段送出的,无法传送至OMC-R,因此协调深圳网管网将东莞本地业务网段放通之后,问题得到解决,ESN号正常上报。
案例2:激活数据98%时网元连接超时问题
(1)故障现象
某地市开通LTE站点,多个站点正常绑定ESN,相关流程都正常的情况下,到激活数据98%时出现网元连接超时现象,导致站点无法正常开通,OMC-R显示基站图标是打叉的(连接不上),但从另一个相邻基站通过X2口可以PING通此故障基站的业务IP地址,尝试在OMC-R重连无作用。
(2)问题分析
由以上操作可知,业务IP地址已在基站侧生效,但OM维护通道一直无法建立,通过采集故障基站的主控板的一键式日志分析,原因为开站列表中分配的OM IP与配置文件中分配的OM IP不同所致。
(3)故障處理
修改配置文件中分配的OM IP,待基站重新进行自启动后正常完成站点开通。
案例3:PTN业务上下行路径不一致,导致基站无法正常建立OM通道
(1)故障现象
某地市LTE开站时,部分站点ESN号可以上报,但是配置文件无法正常下发,OMC-R提示基站处于正在检测OM通道状态。
(2)问题分析
◆如图4所示,在基站侧抓取基站MAC报文,根据抓包的内容来看,基站已经生效了OM IP(100.65.193.225),并且已经给PTN回了ARP(Address Resolution Protocol,地址解析协议)响应。但PTN还是一直在发送ARP请求,从现象来看一直没学到基站的MAC地址。
◆在PTN侧进行抓包,在PTN侧进行报文的统计分析时发现:其主传输链路的L2/L3节点网元7996的V-UNI(User Networks interface,用户网络接口)统计只有发送流量而无接收流量,在备传输链路的L2/L3节点网元7997的V-UNI统计则相反,只有接收流量。这说明业务的上下行流量在L2/L3节点与L3节点之间走的路径不同,具体如图5所示。
◆通过以上分析定位,确定该站点OM通道无法正常建立的原因是上下行流量经过的路径不一致导致ARP学习异常。
(3)故障处理
由传输专业将备L3的VPN FRR(Fast ReRoute,快速重路由)配置倒换到备用路径,使得流量直接路由转发到主L2/L3设备,ARP信息可以被正常学习到,基站业务下发配置正常。
对VPN FRR功能的说明:FRR是一种实现网络局部的、临时性保护措施的技术。该协议通过为主路由(或路径)建立备份路由的方式,当主路由出现故障时能够迅速切换到备份路由上,而当主路由恢复正常时又可以快速切换回来。目前该技术可以支持IP FRR、VPN FRR和TE FRR。VPN FRR主要应用在CE双归属的VPN网络环境中,其利用网络中的备份隧道为主用隧道做备份,并结合BFD等快速探测技术来检测主用隧道的连通性。当主用隧道故障时,部署VPN FRR功能的PE设备在VPN路由收敛完成之前就可以将VPN流量切换到备份路径上,从而提高了公网数据转发的可靠性。
5 结束语
作为SON(Self-Organized Network,自组织网络)在网络建设与部署中的典型应用模式,基站自启动功能在现阶段大规模的网络建设及运营期间,已成为LTE无线网快速开通和承载业务的必要手段。有针对性地处理好基站自启动环节中出现的各种故障,是网络建设过程中亟需解决的关键问题。本文通过分析LTE基站自启动功能的关键技术、工作原理以及常用的端到端故障分析方法和处理手段,总结了在省内既有的网管网及PTN承载网络架构现状下,各类LTE基站自启动问题的存在问题及处理经验,从而有效提高了相关故障问题的端到端解决效率,切实满足了LTE无线网大规模建设及开通的进度要求。
随着LTE/LTE-A时代网络技术的不断发展演进、网络结构的巨大转变以及用户对无线通信需求的不断增加,未来网络维护和优化的难度及复杂度将越来越大。以基站自启动为代表的SON技术可显著减少常规的手工配置和优化工作的人力需要,从而提高了网络运维人员的工作效率,增强了网络的可维护性,并间接提升了网络性能,最终达到改善终端用户的业务感知质量的目的。因此,深入研究SON技术并大规模应用于现网运营,是解决在未来网络维护和优化工作量剧增背景下提升网络服务质量并降低网络运营成本的一条有效途径。
参考文献:
[1] 张威. GSM交换网络维护与优化[M]. 北京: 人民邮电出版社, 2005.
[2] 张威. GSM网络优化——原理与工程[M]. 北京: 人民邮电出版社, 2003.
[3] Seppo Hamalainen, Henning Sanneck, Cinzia Sartori. LTE自组织网络(SON):网络管理自动化提升运维效率[M]. 王健全,乌云宵,王波,等译. 北京: 机械工业出版社, 2013.
[4] Harri Holma, Antti Toskala, Jussi Reunanen. LTE小基站优化:3GPP演进到R13[M]. 堵久辉,洪伟,译. 北京: 机械工业出版社, 2016.
[5] 张长青. TD-LTE自组织网络SON技术分析和建议[J]. 移动通信, 2012,36(22): 54-59.
[6] 朱亚威,马赛,郝建钢. 基站自启动技术的原理与设计[J]. 电子设计工程, 2016(12): 118-120.
[7] 朱晓光,江华. LTE基站系统的PCI自配置技术研究[J]. 电信科学, 2014(7): 130-134.
[8] 王映民,孙韶辉. TD-LTE-Advanced移动通信系统设计[M]. 北京: 人民邮电出版社, 2012.
[9] 沈嘉,索士强,全海洋,等. 3GPP长期演进(LTE)技术原理与系统设计[M]. 北京: 人民邮电出版社, 2008.
[10] 丁丁,江鹏,王小奇. TD-LTE网络自组织功能引入研究[A]. 2011 TD-LTE网络创新研讨会论文集[C]. 2011: 30-39.