基于离群点算法的IPTV 分段隐患检测方法*
2021-08-30王勇辉廖伟全叶连响谭旺生
王勇辉,廖伟全,叶连响,江 圣,谭旺生
(中国移动通信集团广东有限公司韶关分公司,广东 韶关 512099)
0 引言
随着各电信运营商交互式网络电视(Internet Protocol Television,IPTV)业务的普及,IPTV 业务的业务质量要求越来越高。电信运营商IPTV 业务网络质量主要影响因素有内容源、内容分发网络(Content Delivery Network,CDN)、IP 城域网、GPON 网络和家庭网络。内容源、CDN 以及IP 城域网由于影响较大,且监控和保护机制完善,较容易判断问题并处理。但是,接入层故障则更贴近用户层级,现阶段运营商主要通过SQM 系统和机顶盒部署的软探针来获取电视卡顿时长占比来进行分析。电视卡顿时长指标可以获取单个用户是否发生卡顿,但并不知道引起电视业务花屏和卡顿的问题段落,导致处理故障或投诉处理时增加了处理时间,效率不高。
为保障IPTV 质量,出现根据视频包内I、B、P 帧重要性的IPTV 的QoS 保障措施[1],也有对接入层链路自动均衡的保障措施[2],有对用户软探针获取的电视卡顿数据进行分层聚类分析的方法[3],同时有在各层级进行监测并开展全局优化[4-5]。然而上述方法均较复杂,或聚焦单点不利于全面部署。现阶段离群点检测算法常用于数据挖掘和处理[6-7],但与网络质量相结合的应用较少。本文主要通过在运营商内网部署服务器主动探测到OLT、ONU、STB 各段落时延和丢包数据,利用单边离群点算法计算LOF 值并进行分层,精确判断问题段落点,以提高问题处理效率。
1 IPTV 业务承载情况
IPTV 是端到端业务,包含内容源、内容分发网络(CDN)、IP 城域网、GPON 网络和家庭网络,本文主要聚焦于BNG 以下的接入层网络。以广东某运营商为例(如图1 所示),IPTV 业务通过机顶盒(Set Top Box,STB)到ONU,然后经过分光器到达OLT,OLT 最后双上联到BNG 及上层网络。
图1 某运营商城域网BNG 到STB 流程示意
2 IPTV 业务质量优化研究与应用
2.1 IPTV 业务质量分析
有线家庭宽带业务主要有家宽上网和IPTV 业务,业务数据流如图2 所示。其中,IPTV 业务通过机顶盒(STB)到ONU,后经过分光到达OLT,最后上到BNG 及上层网络。任一段网络质量波动都会对电视质量产生影响,且较难判断问题段落。
图2 IPTV 业务流程
随着网络监控手段的逐渐优化,BNG 以上问题可以迅速被发现并予以处理,但从家庭网络到BNG问题仍有待挖掘。本文旨在先于投诉发现网络隐患,实现用户侧质差挖掘、质差网元识别等功能,达到提升网络满意度的目的。
2.2 基于离群点算法的IPTV/家宽分段隐患检测方法
为了更清楚地了解基于离群点算法的IPTV/家宽分段隐患检测技术方案,下面将对该方法进行简单介绍。
2.2.1 分段时延采集
通过运营商综资等系统收集用户归属的BNG、OLT、ONU、STB,但由于用户的ONU 和STB 的IP地址是自动分配(会变化)的,需要登录BNG 获取用户的实时ONU 和STB 地址,然后进行ping 测试。OLT 的IP 地址固定可实时ping。考虑用户量多,为减少采集时间,进一步提升程序执行效率,引入threading 模块将系统改为多线程。为进行聚类,对不在线用户的时延默认设为300,丢包设为100。部分采集结果如图3 所示。
图3 数据采集结果
2.2.2 离群点分析
离群点是一个数据对象,明显不同于其他数据对象,好像它是被不同的机制产生的一样。有时也称非离群点为“正常数据”,离群点为“异常数据”。本方案采用LOF(Local Outlier Factor)算法实现。
LOF 算法全称局部异常因子,是一种基于距离的异常点检测算法。用视觉直观的感受,如图4所示,C1和C2是两类,而O1和O2则是相对孤立的离群点。本算法的目标就是找到这类点。对本文而言,这类点就是时延和丢包率与平均值相关性小的点。
图4 LOF 算法异常检测效果
2.2.3 隐患段落判断
下面介绍局部离群因子(Local Outlier Factor)。p的局部离群因子可以表示为:
它表示点p的邻域点N°k°(p)°Nk(p)的局部可达密度与点p的局部可达密度之比的平均数。这个比值越接近t,说明p的邻域点密度差不多,p可能和邻域同属一簇;这个比值越小于t,说明p的密度高于其邻域点密度,p为密集点;这个比值越大于t,说明p的密度小于其邻域点密度,p越可能是异常点[6]。
2.2.4 现场处理
通过算法计算出BNG 到OLT、ONU、STB 之间的LOF 值。考虑到上层问题会产生叠加影响,本方法主要从上至下进行离群点判断,并分析和输出隐患核查表(如图5 所示)。它主要由客户服务人员核查相关设备情况,针对家庭网络问题安排人员上门处理,暂时无法上门则优先申请重启ONU 与STB 进行优化。
图5 隐患检测方法核查表
2.3 IPTV 业务隐患检测方案测试比较
为验证基于离群点算法的IPTV 分段隐患方法的有效性,本方法应用于广东某运营商现网,相关的应用情况总结如下。
选取一个OLT 进行测试,经系统检测有22 个用户存在质差,然后上门进行处理或重启,解决20个质差用户,处理命中率达91%。经分析和处理后(如图6 所示),该OLT 设备下带的故障用户占比(0.06%<卡顿时长占比<5%)下降了4.65%,严重故障用户(卡顿时长占比≥5%)占比下降0.5%,同时OLT 下带的所有用户卡顿时长占比下降了0.3%。对比前后处理结果,OLT 下带的故障用户与卡顿时长占比都得到了优化。
图6 处理前后质差指标比较
经过试用协同,广东某地市运营商的电视卡顿时长占比指标从0.07%下降到0.02%,整体忙时电视播放优良率指标从93.19%提升到97.87%,效果明显,分别如图7 和图8 所示。
图7 电视卡顿时长占比
图8 整体忙时电视播放优良率
3 结语
随着各运营商积极开展IPTV 业务,在这个过程中不可避免会遇到IPTV 业务卡屏、花屏和黑屏问题。本文从端到端角度对影响IPTV 业务质量的因素进行了分析,提出了基于离群点算法的IPTV分段隐患检测方法来提升IPTV 用户感知。在广东某地市运营商实践中,本方案可以迅速输出隐患段落,减少不必要的人力成本和重复劳动,提高运维效率。通过提前预判和发现隐患,提高网络健康度,同时提高用户感知。本方案应用效果良好,实现了IPTV 业务质量的改善,具有推广应用价值。