VoLTE语音端到端问题自动定位方法研究
2018-02-28刘克清周俊李世光戴鹏程
刘克清,周俊,李世光,戴鹏程
(中国移动通信集团设计院有限公司,北京 100080)
VoLTE语音业务由LTE网络负责语音多媒体业务的承载,IMS网络负责业务控制,网元众多结构复杂。网络建设涉及到电路域、分组域、IMS域多个网元的设备改造升级。用于实现VoLTE呼叫建立、控制、终止的流程复杂网元多,仅通过分析空口信令很难定位VoLTE语音业务出现的掉话未接通等问题。随着核心网大数据处理能力的提升,我们有了获取规范化核心网关键信息的途径,具备了进行端到端数据分析的终端、核心网数据来源。本文主要阐述了将空口信令与EPC核心网、IMS核心网多接口信令关联分析的方法,并列举了通过端到端数据关联定位问题的案例。
1 终端核心网数据的合成
1.1 终端数据的XDR合成
目前《中国移动统一DPI设备技术规范》已经明确了将VoLTE呼叫所涉及的S1-MME、S6a、S11、Gm、Mw、ISC、Cx、Gx、Rx多接口海量信令进行关键信息提取并合成XDR数据要求,为了实现终端数据与核心网数据的关联,其前提条件是从终端侧记录的全量信令中提取关键信息合成为“UE XDR”。 “UE XDR”的格式以统一DPI规范中的字段定义为蓝本,增加与UE相关的特有信息,同时终端侧可以记录的数据囊括了统一DPI规范中Uu、S1-MME、Mw等多个接口涉及的过程,“UE XDR”数据具有多接口多协议类型的特点。为了能够更加详细的记录用于分析掉话未接通原因的关键信息,将VoLTE终端数据呼叫过程涉及的不同协议和信令过程进行细化,分别合成“UE_CALL”、“UE_LTE_UU_NAS”、“UE_LTE_UU_RRC”3个XDR;另外,终端还可以生成特有的“UE_LOCATION”XDR,合成终端的位置信息,并用于后续与其它业务XDR的关联,实现所有业务XDR的位置定位。“UE_CALL”主要记录呼叫过程的结果(包含正常挂机、掉话、未接通),出现该呼叫结果时的网络制式、服务小区ID、异常释放的原因值,这些信息可以为分析问题提供比较准确的指导;PROCEDURE_STATUS字段内容在中国移动统一DPI设备技术规范的基础上,专门为终端数据进行扩展设计,其进程状态中的“路测文件结束”以终端文件出现结束标签触发,此状态是针对终端数据的特点进行特殊标记,当出现该状态时会结束对核心网侧后续数据的关联;掉话状态是终端信令状态机的判断结果,对于呼叫掉话结果的判断终端信令比核心网信令会更加准确。“UE XDR”中还增加了“DT_LOG_NAME”字段,用于记录终端数据的文件名,每个呼叫的多接口关联XDR都属于一对主被叫log,以终端数据出发发现用户感知问题,结合核心网数据深度分析定界也是本研究的一个核心思想。主叫号码从上行SIP INVITE REQUEST消息 中 的 f: 终端与核心网数据同步分为两个层面,一个是以终端每呼叫为单位进行时间同步,用于判断掉话未接通的原因;一个是以XDR过程开始信令和XDR过程结束信令为单位进行时间同步,用于进行端到端XDR过程回放查看。 每呼叫同步是利用主叫号码、被叫号码和呼叫开始时间3个参数进行计算,如图1所示。终端测试中主被叫号码在每次呼叫基本相同,每次呼叫的间隔固定,测试终端与核心网系统都与NTP时钟同步,两者的时间差很小。通过将UE_CALL XDR中的主被叫号码与核心网XDR中的主被叫号码匹配找到相应数据,然后查找核心网起呼时间与终端呼叫起呼时间的前后固定时间范围内的记录,实现终端与核心网每呼叫的端到端数据关联。 图1 每呼叫同步算法示意 信令同步是利用下行SIP信令或NAS信令可以经过核心网透传到终端的特点,将其作为同步信令,再将核心网信令以同步信令时间为基础进行调整实现的,如表1所示。计算步骤有3个:由于同步信令均为下行信令,核心网信令时间应早于终端信令,因此调整核心网同步信令时间为终端同步信令时间减1 ms;计算核心网同步信令调整前后时间差;记录上述时间差,作为核心网后续所有信令时间调整偏移量,直到下一条下行SIP、NAS信令出现。 表1 信令同步时间调整举例 多数据源关联用于XDR中部分字段的回填。一类是同协议不同XDR过程参数回填,另外一类是跨协议的XDR过程参数回填。 根据中国移动统一DPI设备技术规范定义,NAS单协议生成的XDR中包含了MME_GROUP_ID、MME_CODE、TMSI等信息,但不是所有NAS层过程均包含上述参数。对于不包含这些参数的过程,根据过程的先后顺序,可将XDR过程信令中能够提取到的参数关联回填到其它XDR过程中,从而达到在同层XDR中实现参数回填的目的。 对于NAS协议生成的XDR中还包含CELL_ID等参数,而NAS中的所有信令均不包含任何服务小区信息。在RRC层相关过程中,包含了服务小区信息,例如系统消息1。根据NAS过程和RRC过程的先后顺序,将RRC层相关XDR中的服务小区信息关联回填到NAS层相关的XDR中,从而达到在NAS层XDR中实现参数回填的目的。 掉话未接通问题的结果由终端信令状态机判断,在UE_CALL XDR的PROCEDURE_STATUS字段中输出,而原因自动定位以终端测试数据的每呼叫关联数据为单位进行判断,主要过程包括4个步骤:判断UE_CALL XDR中的呼叫结果是否为正常;判断是否有核心网数据;遍历呼叫过程涉及的所有接口的XDR是否有异常结束;取得离起呼时间最近的异常结束对应的XDR进程、原因大类、原因小类作为本次呼叫的故障原因。判断流程图如图2所示。 原因大类的判断方法包括如下。 (1)S1-MME XDR中的cause_type字段取值(非默认值),取值为0时,原因大类为“无线网异常”;取值为1时,原因大类为“传输异常”;取值为2时,原因大类为“NAS异常”;取值为3时,原因大类为“协议异常”;取值为4时,原因大类为“其它异常”。 (2)S10 XDR异常时,原因大类为“核心网异常”。 (3)S11 XDR异常时,原因大类为“核心网异常”。 (4)S6a XDR异常时,原因大类为“核心网异常”。 (5)UE_MR、Uu_RRC XDR进程异常时,原因大类为“无线网异常”。 图2 判断流程图 图3 终端信令流程说明 (6)不满足上述条件时,原因大类为“原因未知”。 原因小类的判断主要根据各个接口XDR中异常进程的cause字段取值归类。 以终端侧发生的一次未接通为例,从VoLTE起呼、RRC连接建立进程UE完成SRB1、SRB2和DRB无线资源配置、TRACK区更新均正常情况下终端收到网络侧下发的SIP INVITE消息,SIP状态码是503 Service Unavailable。该未接通单纯从终端信令中无法挖掘其深层次原因。具体信令过程如图3所示。 但是当结合核心网S1-MME和S11口信令就可以发现,该问题的出现在IMS核心网下发SIP 503(Warning:Media Bearer Lost)给终端之前,就已经在S1-MME接口的E-RAB建立过程中有所体现,如图4所示。按照规范流程当IMS核心网收到INVITE REQUEST消息后会回复TRYING消息给终端,并向PCRF查询策略信息;由PCRF通知SGW创建专用承载,SGW会通过S11接口下发CREATE BEARER REQUEST消息到MME,MME再通过S1-MME接口的E-RAB SETUP REQUEST携带Activate Dedicated EPS bearer context request的NAS消息来通知终端建立专用承载并由eNode B分配无线承载信道。但此时终端刚好上报了A3测量报告,造成了eNode B几乎需要同时处理分配无线承载信道和切换两件事,在这种情况下,eNode B厂家将切换作为高优先级处理事件,而不分配无线承载信道、下发Activate Dedicated EPS bearer context request消息给终端,并对E-RAB SETUP REQUEST反馈携带Radio NetWork:X2 Handover triggered原因的E-RAB SETUP RESPONSE消息,说明此承载未建立。此次承载建立失败最终导致了IMS网络下发SIP 503(Warning:Media Bearer Lost)造成未接通。如图5所示,利用端到端自动定位方法可以直接发现问题所在。 图4 终端核心网关联信令说明 图5 端到端问题自动定位结果 大数据分析技术在网优工作中的应用是当今非常重要研究方向。海量核心网数据为我们提供宏观的网络质量指标的同时,对大数据中出现异常问题进行深入的分析挖掘进而定位原因并解决问题也是一个关键环节。随着统一DPI技术的不断完善,核心网XDR数据完整性准确性的提升,端到端问题自动定位方法的应用也会越来越广泛。本方法也开创了真正端到端数据分析的先河。 [1] 中国移动统一DPI设备技术规范-LTE信令采集解析服务器接口规范-v2.3. [2] 中国移动统一DPI设备技术规范-LTE数据合成服务器接口规范v2.2.4. [3] 刘克清. LTE软采信令标准化及无线网络优化方法[J]. 移动通信, 2015(8). [4] 周俊. 基于LTE信令大数据的网络质量评估体系研究[J]. 互联网天地, 2015(3).1.2 多数据源同步
1.3 多数据源关联
2 问题自动定位方法
3 案例分析
4 结束语