人工智能在网络运维中的应用

2021-07-05李朝霞刘金春邢鑫

电子技术与软件工程 2021年10期

李朝霞刘金春邢鑫

（联通云数据有限公司北京市 100084）

1 在网络运维中应用人工智能的优势

（1）人工智能的主要特点在于超强的学习能力，通过对大量的数据进行整理和分析，能够充分熟悉和了解相关数据的特点，进而将其应用到网络运维当中，进一步加强对于文本信息和相关数据流量的挖掘，并构建相应的知识库系统。在大数据技术的支持下能够进一步发挥人工智能学习功能的作用，结合网络实际运行情况建立诊断模型，实现对于故障的智能预测和处理。

（2）进一步提高工作效率。相较于人工检测运维而言，人工智能的应用能够有效模拟人工行为进行重复性的工作，而且相较于人工作业，智能技术还能够有效提高作业的效率以及准确性，降低了人为因素产生的不良影响。

（3）智能运维具备一定的全面性。相较于人工作业，智能运维能够更加全面的对通信网络进行检测和维护，有效处理人工作业过程中容易被忽视的数据信息和问题，进一步保障了网络运维的效果和质量，为用户提供更好的网络服务。

2 智能运维方案

人工智能在网络运维中的应用主要是对于基础层、技术层以及应用层三个层面的构建，其中基础层包括数据资源以及计算能力，需要对神经网络进行协同进化的计算；技术层主要包括特征库、知识库、模型的构建以及算法的应用，需要通过人工智能的学习功能不断实现对于参数的优化配置和模型训练；应用层主要指的就是对于资源以及相关业务的监控。在实际构建和落实智能化网络运维功能的过程中，会涉及到很多功能模块，不仅包括数据库、知识库，还需要经过数据处理、建模等流程，进而实现相应智能运维功能，智能运维框架结构如图1所示。

图1：智能运维框架

2.1 运维数据优化

在当前5G 网络逐渐覆盖的情况之下，对于网络运维有了更高的要求，传统运维模式已然难以满足当前网络运维的需求。在此情况之下，网络运维数据的数量也在不断攀升，网络故障点逐渐增多，为进一步提升网络运维水平，需要着重提升运维的效率和质量，因此，需要对海量运维告警数据以及相关信息进行优化和处理。在实际进行运维数据优化的过程中，需要借助多种算法提高运维过程中故障智能化识别的能力，并实现对于海量数据的批量处理，进一步提高运维的效率。

2.2 故障原因定位

相较于传统故障问题定位方式而言，智能化网络运维能够有效提高故障定位的效率，为后续故障的处理和解决留有一定时间，进一步提高故障修复效率。在网络运维中实际应用人工智能时，需要将运维专家系统以及智能化学习算法进行充分融合，通过对采集到的网络运维相关数据、经验知识库等进行分析和学习，并以特定途径将运维数据进行定义，构建相应神经网络模型，通过神经网络模型对相应数据的异常检测结果进行分析，实现根因识别，能够对故障原因进行精准定位。

2.3 故障预测决策

相较于传统后置运维方式而言，智能运维的主要特点在于能够实现对于故障的预测和告警，不仅能够通过对故障以及相应隐患的提前告警，进一步提高网络运维的可靠性，而且还能够借助其学习功能实现对于故障预测决策模型的构建，提升故障检测系统的智能化水平。在实际构建相应模型的过程中，需要结合实际故障数据以及相应故障场景，构建相应预测模型，实现预测分析，以此进一步提升智能运维系统的预测能力，通过对故障可能发生的时间以及故障点的预测，使得在故障真正发生之前，系统就能够进行告警，并采取有效的应对策略。

2.4 深度调优算法

想要让智能运维的功能和作用得到充分发挥，就必须要借助大数据技术，而大数据技术的有效应用必须要充分考虑到相应服务器的运算能力。究其根本，人工智能在网络运维中的应用需要进一步对算法进行深度调优，才能够满足智能运维的需求，缩短系统运行过程中数据运算的时间，解决延时问题。因此，在实际构建智能运维系统的过程中，需要结合实际场景，通过语法分析、信息检索等相应功能，结合运维知识库，对实际问题中的数据信息进行分析和识别，通过优化后的算法，达成提高数据分析和处理效率的目的。

2.5 系统工作流程

整个智能运维系统在实际运行的过程中，不仅需要进行故障诊断，还需要具备智能调度、业务规划、模型构建以及任务管理等多方面的功能，整个系统工作流程如图2所示。

图2：系统工作流程

（1）需要结合实际网络运行过程中的故障，收集海量数据信息，并结合神经网络技术对收集到的实例以及相关数据信息进行分析，并针对不同类型的故障和问题构建不同神经网络，进而输出深度优化后的神经网络模型。

（2）将专家系统与神经网络进行有机结合，在此工作模式之下，实现系统的训练和再学习。

（3）系统实际运行的过程中，在人接界面和调度规则库的共同作用之下，实现智能化运维。

3 网络运维中的常见故障

在网络运维过程中常见的故障包括以下几种类型：

（1）大量闪断告警以及频发告警。闪断告警的周期相对较短，但是在实际运维过程中，若出现大量闪断告警，极有可能掩盖掉重要告警，不仅会提高运维难度，而且还会降低运维的可靠性。频发告警通常与相关事件有着一定的关联性，在实际运维的过程中，需要消耗大量的时间进行故障确定。

（2）同网元内故障。该故障类型主要指的是同网元当中的某一模块发生告警，引起其他相关模块告警，这种故障的排除不仅需要相关运维人员具备一定的故障识别和处理能力，而且还需要具备一定的全局思维能力。

（3）同专业网故障。此类故障主要是由于根因问题引发的大量相关告警，其中有很多属于表象告警，要求运维人员能够及时排除干扰告警，明确告警根因，并采取相应处理措施，才能够有效解决故障问题。

（4）跨专业网故障。此类故障主要是多专业联合作用下产生的故障问题，因此在实际进行运维的过程中，需要运维人员综合考虑多个专业，通过综合诊断，对不同专业进行逐一排查，进而实现对于故障的准确定位。

4 人工智能在网络运维中的应用

4.1 预判告警

人工智能在网络运维中的应用其主要功能之一就是对于故障的预判，准确的故障预判告警不仅能够为相关运维人员提供充足的准备时间，而且还能够进一步提高运维工作的可靠性和效率。整个预判告警功能设计包括以下三个流程：

（1）采集网络特征数据，采集网络正常运行情况下的特征数据资源，例如告警量以及错帧率等，并结合相应业务属性对这些数据信息进行标识。

（2）对采集到的数据进行甄别，排除冗余数据，识别问题样本，为后续模型的建立奠定良好基础。

（3）结合上述甄别之后的数据，构建分布密度模型，从中选取异常数据，通过对实际网络运行过程中相关数据的监控，实现预判告警功能。

除此之外，通过对不同故障进行有效标识，进一步优化预判告警的智能化设计还能够明确故障具体位置和原因，提升实际网络运维的效率。

4.2 工单智能处理

工单分配是网络运维过程中的必要流程，为进一步提高工单处理和分配的智能化水平，保障工单分配以及处理的效率，需要建立相应工单分配模型。在实际构建工单处理模型的过程中，要先明确工单与实际故障之间的对应关系，然后还要通过海量数据，对模型进行训练，进而实现工单的自动识别和派发功能。首先，需要采集有效的工单数据，然后结合问题前后相关数据指标，明确指标差异、工单类型以及相应问题特征。其次，结合上述分析结果，对相关工单数据进行深度挖掘，并以此为依据建立工单模型，实现工单的智能处理功能。最后，通过循环迭代的方式，进一步对模型以及工单识别功能等进行优化，完善相应数据库以及经验库等，不断提升工单处理的智能化水平。

4.3 动态巡检

动态巡检是智能化网络运维的必备功能，通过动态巡检，不仅能够进一步完善经验库、数据库等信息资源，而且还有助于相关信息和数据的深度挖掘，进而实现相应模型的进一步优化，提高网络运维的可靠性以及智能化水平。首先，全方位收集站点正常运行状态下的相关数据信息，并结合实际情况对站点运行情况进行等级评价，建立相应评级标准。其次，借助神经网络以及大数据技术，将历史故障数据信息进行整合分类，并由此建立隐患特征数据库和故障预测模型。最后，在动态巡检的过程中对网络系统中的相应数据进行监测，并按照故障预测模型进行隐患的挖掘，进一步确定隐患位置和发生的成因，充分发挥动态巡检的作用。

4.4 其他智能化运维

（1）快速故障定位。在人工智能神经网络技术的应用之下，能够实现对于故障的精准定位，同时还能够有效提高定位的效率。在实际操作过程中，可以借助神经网络技术以及Adaboost 建立相应的分类器，实现对于故障模型的泛化，然后还可以借助业务类型、数据信息、故障特征等建立故障定位模型，实现对于故障的定位、诊断以及处理，能够有效节约故障诊断时间。

（2）预测业务发展情况。相比于人工预测在线用户数量、并行率等相应指标，人工智能无论是在数据采集还是数据分析方面都有着极大的优势，因此在对相关数据进行实时预测时，智能运维系统能够发挥更大的作用。在神经网络技术，以及LSTM 等相关算法的帮助之下，能够综合考虑到历史同期数据、时间以及节假日等相关影响因素，通过数据的深入挖掘和分析，进一步提升了业务发展预测的准确性。

（3）不良信息的识别和拦截。在网络运维管理过程中，垃圾信息和骚扰电话都是难以处理的问题，传统的信息识别和拦截需要由运维人员进行人工识别和判断，需要消耗大量的人力和时间成本，处理效率相对较低。目前，可以通过人工智能实现对于数据的分析和处理，借助信息特征、号码的呼叫频次等建立相应信息和号码的识别模型，再由海量数据进行训练，进一步提高模型的准确性，实现对于不良信息的拦截。