APP下载

数据包解析在LTE网络复杂故障中的应用研究

2016-09-12中国移动通信集团上海有限公司网络运行管理中心助理工程师

信息通信技术与政策 2016年8期
关键词:偶联信令数据包

宋 悦 中国移动通信集团上海有限公司网络运行管理中心助理工程师



数据包解析在LTE网络复杂故障中的应用研究

宋悦中国移动通信集团上海有限公司网络运行管理中心助理工程师

E-RAB连接作为用户与EPC之间的连接,直接决定了LTE业务的有效性。LTE网络中,信令交互与用户数据共同由IP网络传输,并封装于不同的协议中,不同协议的数据包共用物理链路。由于网络中同时存在大量分布于不同层级的数据包,而不同层级的数据又会各自分别对业务产生影响,提高了网络故障定位的困难程度。数据包捕捉分析这一手段,可以同时排查多个网络层级的业务故障。本文通过抓取LTE业务数据包,分析了E-RAB连接建立的过程,并对一个实际的E-RAB连接故障做出了分析判断。

LTE;E-RAB;协议;抓包

1 引言

作为全IP化的新一代通信技术,LTE网络的控制信令与用户数据均完全由IP包进行传输。在网络层面,控制信令与用户数据均作为OSI模型中应用层的数据进行传输,区别仅在于底层封装的传输层协议不同。LTE网络的协议栈与传统的TCP/IP网络协议栈具有高度的相似性,因此用于分析传统TCP/IP网络故障的手段也可以用于分析LTE网络的故障。

延续3GPP的一贯定义,RAB(Radio Access Bearer)为用户提供从核心网到UE的数据连接能力,但是在LTE中RAB更名为E-RAB。E-RAB连接建立作为信令交互到用户数据正常传输之间的最后一个步骤,直接决定了用户能否正常使用LTE网络,同时又会受到之前每一步信令交互的影响。E-RAB连接建立之前的信令交互步骤,均可以由分析传统IP网络故障的手段——抓包,进行捕捉和解析,同时定位故障点。

2 传输侧LTE网络协议栈

由于传统的数据包捕捉工具仅适用于有线网络,因此本文着重于分析LTE网络在传输侧的数据。在经过BBU处理后,在传输侧运行的LTE网络的协议栈如图1所示。

由图1可知,传输侧的网络中,LTE业务在3层以下是共用IP协议进行数据传输的,在3层以下,网络并不区分具体的网络信令及用户数据。在网络第4层中,LTE利用不同的传输协议封装网络信令与用户数据,对于信令面,使用可靠的数据报传输协议SCTP (Stream Control Transmission Protocol)进行传输,对于用户数据,则使用高效率的UDP协议进行传输。

图1 LTE传输侧协议栈

在应用层以上,eNodeB与MME之间信令交互使用S1-AP协议,eNodeB之间的信令交互使用X2-AP协议,用于确认E-RAB连接建立的NAS信令封装于S1-AP协议中。对于用户数据,在应用层以上由GTP-U协议封装,因现有的LTE业务为全IP化业务,GTP协议的净荷通常为一个完整的3层IP包。

3 正常E-RAB连接过程的信令数据包分析

用户于LTE网络进行通信时,需要在UE与EPC之间建立一条虚拟的连接,建立连接的基础包括两方面,即UE与eNodeB之间稳定的连接(Uu接口实现),以及eNodeB与EPC之间稳定的连接(S1接口实现),eNodeB与EPC之间的稳定连接使用SCTP偶联建立。通过在传输侧全量抓取数据包,并进行过滤后,根据协议内规定的流程,本文再现了SCTP偶联建立的流程及E-RAB连接建立的流程。

3.1SCTP偶联建立流程

SCTP协议中规定的偶联建立流程见图2,其中每个流程所包含的内容如下:

图2 SCTP信令流程

图3 SCTP偶联建立中的INIT数据包

(1)基站eNodeB(端点A)创建一个INIT数据块来描述即将发起的这个偶联,然后向MME(端点B)发送。INIT数据块中主要包括的参数有启动标签(Initiate Tag)、本站的滑动窗口大小(Rwnd)、输出流数量(OS)和输入流数量(IS),INIT数据块的抓包实例见图3。

(2)MME收到INIT数据包后,用INIT_ACK数据包作为响应,INIT_ACK数据包中携带的参数有启动标签(Initiate Tag)、通告窗口(Advertised Window)、输出流数量(OS)和输入流数量(IS),此外还包含了本站的状态COOKIE(STATE COOKIE),具体实例的数据包如图4所示。

(3)eNodeB收到INIT_ACK后,回送COOKIE_ECHO数据块,将收到INIT_ACK数据块中的STATECOOKIE回送至MME进行验证。

(4)MME收到COOKIE_ECHO数据块后,进行COOKIE验证,验证通过后发出COOKIE_ACK数据包,具体如图5所示。

(5)eNodeB收到COOKIE_ACK包后,偶联正式建立,开始向MME发送DATA数据包,DATA数据包中所带参数有传输队列号(TSN)、流标识符(SID)和流顺序码(SSN)。

(6)MME收到DATA数据包后,回复SACK数据包。SACK数据块中所带的参数有累积证实TSN标签(Cumulative TSN)和间隔块(Gaps),具体参见图6。TSN用于验证数据的有效性,SSN用于确保数据传输的连续性,两者互相独立。

图4 SCTP偶联建立中的INIT_ACK数据包

(7)MME向eNodeB发送第一个DATA数据包。

(8)MME向eNodeB发送第二个DATA数据报。

(9)eNodeB收到两个DATA数据包后,回复SACK数据包。

3.2E-RAB连接建立流程

eNodeB与MME之间的SCTP偶联建立后,其间的S1信令交互就作为SCTP协议的净荷在设备间传输。S1信令交互的建立由eNodeB发起,eNodeB发出S1 Setup Request请求,MME回应S1 SetupResponse,信令连接建立后,id-Paging由MME发起(见图7)。

在S1信令交互正常后,若有用户接入,则在S1信令中产生E-RAB连接建立请求。E-RAB连接通过NAS信令实现,NAS信令交互流程如表1所示,其传输侧实际抓包展示如图8所示。信令交互至第9步时,E-RAB连接建立完成。

4 E-RAB连接受阻对无线业务的影响及数据包分析

当E-RAB连接受阻时,通常表现为用户无法正常使用LTE网络。E-RAB连接位于网络内的高层,其下任意一层网络故障时,均可能导致E-RAB连接失效。若故障发生于网络层级的高层(传输层或应用层之上),此时承载LTE业务的无线及传输设备可能并不会上报任何告警信息,从而使传统的运营商维护方法,即告警→监控→派单→处理这一流程失效。

在这种情况下,需要分析连接中断的故障点,可以利用在传输侧抓取数据包并分析的手段,将故障点定位精确至信令层面。在抓包分析的过程中,可将故障定位根据网络内的协议层级由低到高分为4个层面。其中前两个层面的网络发生故障时,通常会伴随设备告警,抓包分析可以作为辅助说明手段。

图5 SCTP偶联建立中的COOKIE_ECHO及COOKIE_ACK包

图6 SCTP信令中的DATA及SACK包

(1)于传输侧抓取数据包,若能正常抓取到eNodeB与二层核心交换机(亦或网关网元)之间来往的数据包,则可以说明eNodeB与核心网之间的物理路由正常,同时所经的二层传输网络正常。

(2)若能抓取到eNodeB与MME之间来往的数据包,则可以说明eNodeB与核心网之间的三层路由正常。反之若二层网络正常,但抓不到至MME的数据包,则故障应发生于二三层转接处。

(3)当eNodeB与MME之间通信正常,则需关注四层信令部分,SCTP协议提供了丰富的验证手段,确保数据的有效传输,从中可以分析的故障点有:通道误码导致COOKIE验证失败、传输延时过大导致COOKIE失效、设备缓存溢出导致滑动窗口Rwnd为0、软件进程故障导致发送与接收的TSN号不一致,以及SACK包不能正常发送等。排查以上部分可将故障定位至网络第四层。

(4)若前四层网络正常,则继续分析应用层协议(见图9),通过查询NAS信令所携带的信息,如ENB-UE-S1AP-ID、MME-UE-S1AP-ID、CGI、TAI等,可以将故障定位至单条ERAB连接上,从而分析是否因为用户设备故障以及鉴权失败等原因导致E-RAB连接失效。

前两层面的故障通常导致批量的基站业务故障,第三个层面即SCTP协议故障通常导致单独的基站业务故障,第四个层面即单独E-RAB连接失效通常导致单个用户业务故障。图10为一个实际故障中抓取的数据包,在该故障发生时,故障基站内所有用户均无法使用LTE上网,但4G信号强度正常,所有网元均无告警,通过抓包分析,发现eNodeB与MME进行S1信令交互时,基站发送的SACK包内a_rwnd值为0,意为基站缓存满,无法接受新的数据,导致MME不会响应基站发出的NAS Initial UE Message,此后基站持续重传该数据,无法建立E-RAB连接。

定位故障在SCTP协议层后,分析故障为eNodeB缓存非正常溢出导致,人工将基站进行缓存清空并复位重启后,故障恢复。

图7 S1信令建立过程

表1 E-RAB连接建立过程中的信令过程

图8 E-RAB连接建立过程中的信令交互

图9 NAS信令包内携带的信息

5 结束语

在以往的2G及3G时代,设备层面的网络结构复杂多样,但电路业务涉及的网络层级较简单,无线、传输、核心网等部门往往各自为政,将自身网络内的问题排除即可。而在LTE正式商用后,因设备层面的网络结构扁平化及网络的全面IP化,业务所包含的网络层级越发复杂,各个部门所负责的区域边界趋于模糊,故障发生时跨部门协查的情况将会越来越普遍。E-RAB连接受阻这一表面现象,背后可能发生的故障可能涉及网络的各个层面,排查时要深入分析每一层协议的有效性,才能将故障清晰定位,针对处理。

图10 SCTP协议故障的数据包实例

[1]3GPP.Non-Access-Stratum(NAS)protocol for Evolved Packet System(EPS),Stage3[EB/OL].www.3gpp.org.

[2]3GPP.Evolved Universal Terrestrial Radio Access(E-UTRA)and Evolved Universal Terrestrial Radio Access Network (E-UTRAN);Overall description Stage 2[EB/OL].www.3gpp. org.

[3]Sesia S.Toufik M.Baker I.LTE-The UMTS Long Term Evolution:From Theory to Practice(The Second Edition)[M].北京:人民邮电出版社,2012,11.

[4]Sanders C.Wireshark数据包分析实战(第2版)[M].北京:人民邮电出版社,2013,3.

[5]王令侃,林晓轩,陈炜,等.TD-LTE技术发展及其应用[J].移动通信,2011,6:56-58.

[4]谢希仁.计算机网络(第6版)[M].北京:电子工业出版社,2013,6.

Analysis of the LTE failure by packet capture

SONG Yue

The LTE transmission effect is determined by E-RAB communication. The signal and user data are simultaneously transferred on the same physical network, and they are separately packaged in individual protocols. The cost of LTE network failure location is increased because of the complex data on the network. By packet capture, network failure in multiple layers will be analyzed simultaneously. In this paper, the packets of a practical LTE network failure are captured and analyzed.

LTE;E-RAB;protocol;packet capture

2016-07-10)

猜你喜欢

偶联信令数据包
二维隐蔽时间信道构建的研究*
姜黄素-二氯乙酸偶联物的合成及抗肿瘤活性研究
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
SLS字段在七号信令中的运用
解偶联蛋白2在低氧性肺动脉高压小鼠肺组织的动态表达
移动信令在交通大数据分析中的应用探索
C#串口高效可靠的接收方案设计
基于信令分析的TD-LTE无线网络应用研究
LTE网络信令采集数据的分析及探讨
环氧树脂偶联纳米颗粒制备超疏水表面