基于骨干网上行流量深度报文检测的网络质差评估方法
2021-01-11余雪芬
余雪芬
(中国电信股份有限公司福州分公司,福建 福州 350001)
0 引言
客户对业务的服务质量的感知是在业务生命周期中产生的。从产品角度来说,业务生命周期包含了产品销售和协商阶段、产品开通及实现阶段、产品体验及付费阶段、产品使用结束及销户阶段[1]。互联网产品体验及付费阶段占据全生命周期比例最大,且对客户QoE(Quality of Experience)最重要。互联网产品体验及付费阶段QoE指标包括“端到端业务可用性”以及“业务访问完成时间”两个指标。现网中,运营商“端到端业务可用性”通常为“接入段和IP网业务可用性”,通常通过网管告警、群障拦截系统进行可用性故障快速发现和通知。但对于“业务访问完成时间”,目前预检预修的手段多为通过部署探针实现QoE指标数据收集、分析,结果呈现和质差派单。这种方法存在若干问题,首先检测数据不是用户实际业务访问数据,其次拨测请求频繁度高与服务提供商防DDoS相悖,最后探针部署及维护都颇具难度。因此,本文提出基于骨干网上行流量深度报文检测的网速慢评估方法,目的在于提升网速慢发现精准性,实现网速慢预检预修。
1 骨干网上行流量深度报文检测技术概述
DPI是客户报文数据流的深度解析,能够记载所有业务访问产生流量的报文交互情况[2]。由于骨干网下行流量巨大,现网中通常不存储下行流量,仅存储上行HTTP端口流量。本网速慢评估方法都是基于上行HTTP端口流量分析基础之上。
根据DPI记录流量聚集数据,生成以下TCP会话传输质量特征的解析:
1.1 会话级别TCP建链确认时延
运营商接入用户作为客户端是TCP连接主动发起方,若客户端发SYN报文,远端服务端未响应或者SYN、ACK丢包,则TCP未建链成功,TCP建链确认时延为空,正常则有TCP建链确认时延能够表征端到端连接时延。
1.2 会话级别上行TCP报文重传
运营商接入用户作为客户端是TCP连接主动发起方,如果上行DPI流量汇聚点到远端出现数据请求丢包或者下行远端服务端到客户端出现丢包,这时,客户端会重新请求,产生duplicated ACK,则为重传报文。
客户端作为服务端为TCP连接响应方,如果上行DPI流量汇聚点到远端出现数据丢包或者下行远端客户端到本端服务端确认出现丢包。这时,本端服务端会重传数据包。
总之,由于固网DPI仅记录上行数据包,因此,重传报文只能代表上行DPI流量汇聚点到远端或者下行远端到本端用户之间网络存在丢包。
1.3 会话级别上行TCP报文乱序
乱序报文代表报文由DPI汇聚点收集后记录的SEQ出现位置错位的现象。原因可能为网络路径导致乱序、丢包重传导致乱序[3]。如果本端接入用户到DPI汇聚点上行报文出现丢包,则将出现TCP报文乱序。综上,仅上行报文无法判断乱序报文产生的原因,但是本端用户到DPI汇聚点上行报文出现丢包,则将出现TCP报文乱序。
1.4 会话级别TCP建链尝试次数
会话级别TCP建链尝试次数代表TCP建立握手连接尝试的次数。次数较多可能是服务端问题也可能是网络丢包导致。
2 骨干网上行流量数据预处理及特征概述
针对上述session级别流量特征因子,生成用户级别DPI流量汇总信息如表1所示。
表1 用户级别DPI流量信息汇总
限制目的IP位于运营商为与接入运营商相同的运营商,将用户申告网速慢的申告记录结合上行DPI HTTP数据进行分析。按照仿真分析结果,随着各类重传率、各类乱序率、TCP建链确认时延中值、TCP建链尝试次数中值提升,相较于目的IP不做筛选处理,对用户感知异常率发现有明显改善。因此,限制目的IP位于同网运营商,能够提高基于骨干网上行HTTP流量发现网速慢用户的准确性[4]。
3 上行流量特征与网速慢的关联关系研究
3.1 上行流量特征与网速慢的一元变化关系
增加网速慢申告样本量至约4 000例。通过仿真发现:
(1)随着上行重传率增加,异常感知用户率占比升高,上行重传率40%,异常感知用户率>80%。
(2)在上行乱序率<35%时,随着上行乱序率增加,异常感知用户率占比升高。
(3)在TCP建链确认时延中值<200ms时,随着时延中值的增加,异常感知用户率占比升高。特别是在130ms时,异常感知用户率激增。在200ms以后,异常感知用户率约稳定在70%。
(4)随着TCP建链尝试次数中值增加,异常感知用户率占比升高,上行重传率4,异常感知用户率≈100%。
3.2 上行流量特征与网速慢的二元变化关系
上行重传率、上行乱序率与用户感知异常率关联关系。(1)上行重传率40%,异常感知用户率占比>80%:按照前文分析,上行重传率特别高代表下行丢包高,指示业务使用感知裂化。(2)20%上行重传率<40%且20%上行乱序率<35%,异常感知用户率占比>80%:按照第二章分析,同时上行重传率和乱序率高可能代表用户家庭内网质差,指示业务感知裂化(见图1)。
图1 上行流量特征与网速慢的二元变化关系
4 结语
DPI数据相比于探针数据具备数据量持续、数据量真实的优势。用持续、真实的流量特征来观测用户感知,如果流量特征异常,则能够指示用户使用业务感知异常。但由于DPI数据量特别大,通常只有指定时间段的上行指定端口(HTTP/HTTPS)的流量,这又给监测用户感知带来很大的难度。本文通过提取用户DPI流量特征,研究用户申告网速慢与DPI流量特征的关联关系,提出了一种基于骨干网上行流量深度报文检测的网络质差评估方法,准确率可以达到80%,能够投入生产使用。