基于问题主动感知的家庭宽带质量智能运维研究与实践
2024-06-03吴威
吴威
摘要:文章针对传统家庭宽带网络运维过程中存在的自动化程度低、重复工作占比高、功能割裂等问题,提出如何采取家庭宽带全过程问题主动感知、自检查自治闭环体系,并融入IT化自执行手段,打造一站式质量自运维能力,实现对家宽问题的自识别、自定位、自处理、自执行,从被动等待客户投诉的被动运维转变为主动识别、发现、解决问题的主动运维,大幅增强家宽网络异常识别和分析能力,为家宽网络质量精细化智能运维提供参考。
关键词:家庭宽带;网络质量;主动感知;智能运维
doi:10.3969/J.ISSN.1672-7274.2024.04.020
中图分类号:TN 919.8 文献标志码:B 文章编码:1672-7274(2024)04-00-04
Research and Practice on Intelligent Operation and Maintenance of Home Broadband Quality Based on Problem Proactive Perception
WU Wei
(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou 510000, China)
Abstract: This article addresses the problems of low automation, high proportion of repetitive work, and functional fragmentation in the operation and maintenance process of traditional home broadband networks. It proposes how to adopt an active perception and self inspection autonomous closed-loop system for the entire process of home broadband problems, and integrate IT based self execution methods to create a one-stop quality self operation and maintenance capability, achieving self identification, self positioning, self processing, and self execution of home broadband problems, Transforming from passive operation and maintenance waiting for customer complaints to active operation and maintenance identifying, discovering, and solving problems, significantly enhancing the ability to identify and analyze anomalies in the home wide network, and providing reference for the refined and intelligent operation and maintenance of home wide network quality.
Keywords: home broadband; network quality; active perception; intelligent operation and maintenance
随着千兆宽带、高清/4K视频、云游戏等新业务应用越来越普及,家庭宽带装机量大幅提升[1],家庭宽带网络的运维及管理面临越来越大的挑战和压力,传统的家庭宽带网络运维主要依托專家经验进行人工操作[2],在提升网络质量保证用户感知体验及网络精细化运维方面存在以下痛点。
(1)用户感知体验管理主要基于投诉驱动,网络问题主要由用户发现,运维管理被动地依赖用户投诉及网管告警,缺乏提前预判网络瓶颈和潜在问题的手段。
(2)家宽网络有海量的网络数据,传统的运维方式未能充分挖掘数据价值,缺乏提前预测网络异常或隐患问题的能力,并且发现的问题未能及时提供根本原因分析结果,无法先于用户发现并解决问题。
(3)在日常的运维工作中,低效、重复性的操作占比高,主要依赖运维人员经验积累和对工作的熟悉程度,缺少自动化的处理能力,运维效率较低。同时运维人员主要工作置身于各类运维流程中,无暇聚焦更为关键的管理、流程和规则设计等工作,人员高阶价值未能有效体现。
(4)家宽流程长、专业多、用户终端杂、网元数量多、业务涉及面广,跨部门跨专业且各个数据的侧重点有所不同,系统或功能模块互相割裂,未能形成全流程的运维聚合,缺乏整体运维整合手段。
1 家宽全过程问题的主动感知体系
针对以上问题,可从底层CMNET网(IDC、CDN、Cache)、城域网(NRAS、SR、BNG)、接入网(ONU、分光器、OLT、SW)和用户侧(家庭网关、机顶盒、电脑)等全域多数据进行关联融合,构建全过程问题的主动感知体系,从过往的被动管理转变为主动识别、发现、解决问题的主动运维。同时上层融入IT化自执行手段,进行全流程聚合输出,提供自动化手段,全程无需人工干预,形成一站式质量自运维能力,如图1所示。
1.1 家宽全过程问题主动感知识别技术
从家庭侧网络、接入侧网络、城域网侧到业务云端共计构建了31个问题感知识别规则,其中家庭侧问题感知包含了网关/机顶盒性能、Wi-Fi干扰、弱信号、速率协商、质差路由器、STB性能及负荷、端口速率协商等9项问题感知能力,接入网问题感知包含了OLT/PON端口链路质差、分光不均、光功异常、掉线、小区聚合、告警分类聚类等8项问题感知能力,城域网问题识别包含了网元负荷、端口利用率、误码、质差用户网元聚合、端口链路负载、告警分类聚类等8項问题感知能力,业务端问题识别包含了网外流量、质差频道/CDN地址、质差出口、高投出口、业务感知、网速不稳定等6项问题感知能力,这31个问题感知识别规则涵盖用户端到端全流程感知问题主动识别,可大幅增强网络异常识别和分析能力。同时依托上述问题感知识别技术,建立如图2所示的质差性能管理流程,对质差问题进行二次聚合分析后通过工单派发输出至一线处理修复[3],并对处理情况进行最终的效果验证,实现了从感知评估—问题识别发现—处理闭环的全过程管理。
1.2 速率问题自定位技术
针对家庭侧影响速率高发问题,建立速率问题自发现自定位能力。基于家宽用户速率全过程节点,依托多数据深度关联分析,核查遍历所有影响环节(见图3),识别存在的问题并定位原因,直接输出问题结论,为一线运维提供精准处理指引,具体核查规则如下。
(1)检查用户AAA速率:通过与BOSS系统开通速率数据进行比对,检查下发的速率是否与签约速率一致,如不一致则可判定为数据配置错误。
(2)检查用户GPON通道速率:通过与BOSS系统开通速率数据进行比对,检查GPON通道速率是否与签约速率一致,如不一致则可判定为用户GPON通道数据错误。
(3)检查IHGU下连端口速率:运用软探针采集的端口速率及光猫设备信息数据,分步骤判断核查:一是核查光猫LAN1口支撑最大速率,如为百兆口,则判定光猫无千兆口;二是核查LAN1口是否在用,如无在用,则判定为错接光猫百兆口;三是核查下挂路由器WAN口支撑速率,通过爬虫技术爬取路由器产品信息进行WAN口速率核查,如路由器支持速率低,则判定为WAN口速率不支持。
通过全过程节点遍历,对识别出根因问题,制定输出对应处理指引,具体如表1如示。
1.3 质差终端性能问题自处理技术
从过往投诉、满意度分析发现,终端(光猫、机顶盒等)长期运行(超过14天)不重启,可能导致运行内存、CPU占用高等问题,进而引起用户使用异常。针对此问题,通过构建质差终端性能问题自发现远程自处理技术进行解决,具体业务流程见图4。该技术方案基于软探针每天采集终端质量信息[4],通过采集到的运行时长、CPU和内存等信息进行综合计算,标记质差终端,输出目标清单,在远程进行批量重启操作,并对重启后的终端进行最终的质量后评估,本技术提供远程低成本主动发现、优化手段,有效提升用户宽带业务质量。
1.4 自执行实现技术
基于以上对问题的自识别、自定位、自处理机制,在上层通过IT手段融入自执行技术,借助Chrome内核,基于Chrome Headless模式,通过爬虫进行自动化动作命令控制,实现全流程运维内容的整合并自动化输出。实现技术内容如下。
(1)定制:根据问题感知数据及实际运维需求,可灵活的定制运维内容。
(2)实现:借助Chrome内核,基于Chrome Headless模式,通过爬虫进行自动化动作命令控制,实现元素交互,控制Chrome自动加载。其主要技术特点为:在不打开浏览器GUI的情况,通过Chrome内核支持的性能,在Chrome Headless模式下完成运维内容渲染输出,同时借助Chrome Headless运行Web自动化,编写爬虫进行自动化动作命令控制,加快执行时间[5]。
(3)执行:通过爬虫发起请求至chrome后台加载页面,完成渲染,再通过爬虫模拟实现运维内容自动导出。其主要技术特点为:基于Selenium库,与页面元素进行交互,爬虫发起请求至chrome后台加载页面,完成渲染,再通过爬虫模拟实现运维内容自动输出,最终实现自执行。
(4)输出:调用API邮件接口实现分析内容自动发送至对应业务处理部门。
2 实践应用成效
(1)实现从投诉驱动的被动维护到可预测性的主动维护。建立了全过程问题主动感知—自检查自智闭环体系,从被动等待客户投诉的被动运维转变为主动识别、发现、解决问题的主动运维,大幅增强网络异常识别和分析能力。
(2)实现从人工操作到系统自动执行。通过建立家宽网络质量运维自动执行能力,实现质量分析自智闭环及作业的自动化,替代了传统工作任务中低效、重复性的人工操作部分,运维人员由过去“在流程中”(In the Loop)转变成“在流程之上”(On the Loop),释放运维专家精力,使其聚焦于更为关键的管理、流程和规则等更高价值的设计工作上。
(3)根据实际生产或业务发展需要可灵活配置调整,直观可视化规范化输出,直接赋能一线生产。一是运维内容模板化、任务化、自动化,运维内容能以规范化方式自动输出,避免人为方式固有的不严密性带来分析上的疏漏;二是高度贴合生产,根据业务区域日常分析作业、数据报表、报告等进行整合固化开发,减轻日常繁重的人工例行工作;三是成果输出报告实现内容数据及问题的直观呈现,运维人员无需二次分析,只需具备基础的专业知识即可执行问题的处理,高效解决问题。
(4)各类指标均有明显提升,如表2所示。基于问题主动感知能力,精准定位质差并整治问题隐患,整体质差用户画像评分提升2.57%,实际上网使用感知(以自动重启后TCP平均时延为例)提升22.92%,质差网元下带投诉下降53%。
3 结束语
基于问题主动感知的家宽质量智能运维体系,涵盖了用户运营数据分析、投诉及热点分析、网元告警分析、容量链路负荷分析、电视质量分析、质差用户派单修复跟踪等能力,强化了自智网络在家宽网络质量运维和客户满意度提升中的应用,丰富了家宽网络智能运维场景,有效地提升了家宽运维智能化水平,实现了“IT换人”降本增效的目的,为家宽网络质量精细化智能运维提供了较好的实践参考。■
参考文献
[1] 吴博,李连源,李建坤,等.家宽室内网络质量问题研究[J].通信世界,2023(6):39-41.
[2] 常铁一.家宽网络运维和优化手段探讨[J].通讯世界,2020,27(7):53-54.
[3] 王铖岑,何均均,王江舟.基于AI画像的家宽用户多维健康体系研究[J].江苏通信,2022,38(3):87-91.
[4] 笑杰,梁童,方波,等.基于用户感知的家宽端到端质量分析方案研究[J].电信工程技术与标准化,2023,36(4):35-39.
[5] 杨健,陈伟.基于Python的三种网络爬虫技术研究[J].软件工程,2023,26(2):24-27,19.