基于聚类算法的互联网电视业务性能劣化定界定位方法
2023-11-20刘艺蕾贾诗玮张小强田程军
刘艺蕾,贾诗玮,刘 斌,张小强,田程军,曾 强
(中国移动通信集团陕西有限公司,陕西 西安 710000)
0 引 言
近年来,随着互联网的快速发展,互联网电视服务越来越受欢迎。然而,与其他先进技术一样,互联网电视服务在运行过程中会遇到各种故障,如网络拥塞、服务器停机和终端故障等。故障定位是互联网电视业务服务提供商确保其服务稳定性和可靠性的重要任务。互联网电视业务性能劣化涉及互联网电视端到端整个流程环节。对互联网电视业务的分析及质量监测一方面为提高用户业务体验提供依据,另一方面,也可以作为“端-管-云”各个层级运维的有效手段。随着互联网电视业务的发展,运维部门需要考虑和研究如何实现自动化、智能化、快速、准确地识别业务性能劣化,及时进行故障定界定位,避免出现大面积故障问题,以免影响用户业务体验。为此,本文提出一种基于聚类算法的互联网电视业务故障定界定位方法,通过对业务感知的监测、分析、聚类,构建自智网络,利用自智网络的自适应性和学习能力,实现对业务故障的自动定位和定界[1]。
1 互联网电视业务感知质差存在的问题
互联网电视业务感知质差通常由于网络故障、应用故障、设备故障及传输链路故障等原因导致,需要通过判断和分析快速诊断问题并进行故障解决。
业界已经提出了很多关于互联网电视业务感知质差定位的方法。其中,基于网络流量分析的方法是比较常用的。该方法通过对网络流量进行分析,找出流量异常的地方,从而定位故障。然而,该方法需要大量的人工干预和时间,效率低下。另外还有一些基于机器学习的方法。这些方法通过对业务流量进行监测和分析,利用机器学习算法进行故障定位和解决,可以自动化地进行故障定位和解决,提高效率。但是,此类方法需要大量的数据进行训练,且对算法的选择和参数的设置要求较高。
自智网络是一种基于神经网络的自适应系统。它可以自动地学习和适应环境的变化,具有自我组织和自我调整的能力。自智网络可以用于模式识别、分类、聚类等任务。自智网络由神经元和连接权值组成。神经元接收输入信号,通过连接权值对输入信号进行加权、求和,然后将结果传递给下一层神经元。自智网络的训练是通过调整连接权值实现的,使得网络输出与期望输出之间的误差最小化。
通过聚类算法实现互联网电视业务感知质差的定界定位,主要是通过对业务感知的监测和分析,构建自智网络,利用自智网络的自适应性和学习能力,实现对业务故障的自动定位和定界。
2 互联网电视业务感知质差定界定位技术内容
互联网电视业务感知质差定界定位,通过对用户感知的互联网电视业务质量进行评估,以快速发现、定位和解决故障问题。本文利用聚类算法对业务质量指标、业务感知指标等进行数据训练,建立数据模型,从而实现互联网电视业务感知质差定界定位。
2.1 质差定界定位数据模型
数据模型采用层次聚类算法[2],是一种基于树形结构的聚类方法,常用的是自底向上的结合策略(AGNES算法)。假设有N个待聚类的样本,其基本步骤是:
(1)初始化,把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度;
(2)寻找各个类之间最近的两个类,把它们归为一类(这样类的总数就少了一个);
(3)重新计算新生成的这个类与各个旧类之间的相似度;
(4)重复步骤(2)和步骤(3),直到所有样本点都归为一类,结束。
算法以互联网电视软探针采集的用户观看视频质量数据为基础,以大数据驱动来实现业务感知质差定界定位的自智化。通过质差用户的业务质量感知,定位出质差终端、质差网元及质差信号源等。
2.1.1 数据采集
采集约600万互联网电视用户数据,平均每小时有播放操作的用户数约20%,即超过120万,每个互联网电视软探针每10 min上报一次数据,即每个小时平台可以收到超过720万用户的观看数据。软探针每次上报的数据内容包括了每10 min内用户播放过的视频业务质量指标数据,数据量非常庞大[3]。
2.1.2 数据清洗
质差定界定位是在互联网电视视频播放出现异常的基础上聚类的,需要先对数据样本进行清洗。与用户视频播放相关的特征指标有很多个,很多指标特征之间存在强关联性。根据实际指标间的特征关联性,选取相关绝对系数较大的指标。
2.1.3 数据关联
根据互联网电视软探针上报的用户观看质量数据,以终端媒体访问控制(Media Access Control,MAC)地址为关联关系,与综资数据进行关联匹配,由此得到互联网电视用户上联网络链路信息,包括上联网元光线路终端(Optical Line Terminal,OLT)、宽带远程接入服务器(Broadband Remote Access Server,BRAS)、播控平台等信息,为质差定界定位提供网元链路信息。
2.1.4 模型构建
根据互联网电视软探针的业务质量指标集构建数据逻辑模型[4],从而得到用户终端的业务质量聚类。通过对异常指标、故障类型、用户行为数据和反馈数据的关联,后台形成质差原因支持库,在每个异常指标产生的时候,自动计算和匹配故障原因数据,并将异常指标匹配上故障类型时长变量和故障原因信息。
2.1.5 质差网元处理
根据最终定位出的质差网元结合事件具体原因及质差原因支持库,分析具体影响要因,给出合理化优化整改建议。
2.2 质差定界定位判断规则
根据数据清洗流程,输出质差终端用户,以互联网电视业务质量指标为导向,进行质差用户分类[5]。
质差事件场景包括用户质量劣化、光分配网(Optical Distribution Network,ODN)中断、OLT中断和劣化、BRAS中断和劣化、内容分发网络(Content Delivery Network,CDN)服务器中断和劣化、播控平台中断和劣化、节目源中断和劣化。
(1)用户视频播放业务质量指标异常。用户视频播放优良率指标小于99%,定义为质差用户。
(2)网元聚类。结合综资数据匹配到的用户网元链路信息,进行层次聚类计算,根据层次聚类算法对故障进行定界定位。
(3)告警时间关联。根据用户层次聚类后定位到的网元信息进行告警数据关联,区分网元质差原因。
3 主要技术创新点
3.1 质差网元挖掘方式
本文所述方法由互联网电视用户业务感知切入,为解决影响用户业务体验的质差网元优化提供具体的数据支撑。传统的故障处理方式往往是通过网元的固定指标劣化或者批量用户的投诉而进行故障处理,故障处理延迟,影响到用户业务体验后才进行处理,属于事后行为。采用聚类算法的互联网电视业务故障定界定位方法是通过大数据采集进行层次聚类算法分析,提前感知用户业务质量劣化分析数据的变化趋势,关联相关网元信息,进行故障的提前定位。
3.2 用户业务感知数据模型构建
算法关联综合资源管理系统、业务平台媒体资源表等,生成网络、网元、地理、平台、节目源、终端厂家等多个维度的资源树和相关标签信息,按互联网电视用户劣化数据层次聚类,确保数据处理实时性、高效性的同时提高聚类的准确性,降低算力消耗,输出各层级设备和链路质量劣化及告警数据。通过不断的测试验证和模拟故障数据进行触发,最后总结出一套互联网电视业务故障定界定位体系,包括告警指标、阈值、聚类比例等;告警汇聚逻辑从下层节点逐步上升到上层节点,在故障排查时能从上层节点对下层节点及具体用户回溯。
4 方案成效
4.1 故障处理效率提升
互联网电视业务感知故障定界定位方案实施后,实现故障发现时长由5 min降至10 s内,告警处置由原来的30 min缩短至分钟级,解决了运维人员人工故障排查耗时长、准确率低、业务校验不标准的难题。互联网电视业务质量类投诉占比由方案实施前的60.3%下降到方案实施后的29.7%,陕西移动互联网电视业务社会认可度逐步增高,客户满意度不断提升。
4.2 运维能力提升
在运维能力和手段提升方面,本文方法改变故障监控手段由“被动”监测变“主动”,由原来的单纯依赖人工经验识别判断故障变为基于真实用户数据结合网元告警、日志等信息进行智能算法为主的智能化运维[6]。
在应用落地前,故障识别及时率只有30%,并且受测试过程及环境标准影响。应用落地后,故障识别及时率提升到90%以上,且均基于层次聚敛算法自动识别。
在应用落地前,故障判断准确率不足60%,并受限于环境和人工经验等因素制约。应用落地后,故障判断准确率提升到90%以上,并基于最近的网元告警及日志,结合机顶盒软探针上报的数据进行实时分析。
5 结 语
现有的故障分析技术主要都采用固定指标门限、固定故障类型、固定故障节点,部分有故障隐患但是达不到固定告警条件的数据可能会被遗漏,也无法进一步判断故障原因。基于聚类算法的互联网电视业务故障定界定位方法可以有效地提升故障监控告警数据的有效性和告警及时性,可在互联网电视批量用户故障投诉前提前通知运维人员处理故障,减少互联网电视用户投诉,提高互联网电视用户感知。