APP下载

5G网络自动化:从人工运维到全自治

2022-09-03詹勇吴枫

电信科学 2022年8期
关键词:发起者意图基站

詹勇,吴枫

(中兴通讯股份有限公司,广东 深圳 518055)

0 引言

为了削减运维成本,提升服务易用性、敏捷度和灵活性,网络自动化技术被广泛使用。利用网络功能虚拟化(network function virtualization,NFV)和软件定义网络(software defined network,SDN)技术,运营商可以灵活、高效地定制网络服务/功能和策略[1]。但是,5G 网络管理/运维仍面临以下问题和挑战。

• 网络规模带来的管理复杂度:根据GSMA Intelligence的报告[2],排除物联网(internet of things,IoT)设备,2021年全球移动连接用户数已达到82.8亿,其中5G移动用户数为6.4亿,GSMA Intelligence全球移动用户数预测如图1所示。海量的用户意味着巨大的网络规模,如何应对日益增长的网络规模带来的管理复杂度是运营商必须面对的挑战。

图1 GSMA Intelligence全球移动用户数预测[2]

• 网络形态带来的管理复杂度:5G时代,移动网络运营商往往需要同时提供2G、3G、4G和5G无线接入服务,同时管理室内和室外的宏基站、微基站和皮基站等站型。复杂的异构网络形态势必会带来指数增长的网络管理复杂度。

• 无线信道时变特性带来的管理复杂度;传统的网络通常采用静态配置,这种方式无法匹配时变的无线信道环境,从而会带来显著的性能下降或资源浪费。因此,网络策略/配置需要动态匹配实时无线信道环境,而这会带来显著的网络管理复杂度上升。

• 业务多样性带来的管理复杂度:3GPP定义了数百个5G QoS标识符(5G QoS indicator,5QI)取值,用于为不同服务质量(quality of service,QoS)需求的业务提供差异化保障[3]。以分组时延预算(packet delay budget,PDB)为例,5QI 85要求PDB 5 ms以内,而5QI 76 PDB则要求500 ms。一个5G网络如何以最小的资源代价同时满足不同业务的QoS需求是所有运营商必须解决的问题。

为解决上述问题,网络自动化应运而生。John Strassner定义了基于规则的自动化策略[4]。所谓基于规则的自动化策略指网络内置一系列由专家定义的规则,明确网络在什么场景下执行什么动作。这是一种最传统的网络自动化策略,往往需要人工配置一系列参数帮助网络划分场景以及决策对应场景下的动作。它存在以下问题:规则设计通常无法覆盖所有无线环境和用户业务组合,当遇到规则设计时没考虑的场景时,往往会产生意想不到的问题;基于规则的自动化策略引入的人工配置参数量如果过大,会产生巨大的运维成本,如果参数量过小,则无法匹配不同运营商在不同场景、不同经营目标所带来的不同规则需求;人工配置参数无法及时响应环境变化;人工配置易犯错;不同规则间的相互冲突需要专家识别和解决。比如策略1要求在小区负荷低时通过提升下行信号发送功率来增大小区覆盖半径,而策略2则要求在小区负荷低时降低基站下行发射功率从而节省功耗。

现今,5G网络基本采用了基于规则的自动化策略,上文所述的基于规则的自动化策略问题在商用网中被一一证实。如何有效解决上述问题从而真正实现 5G自治网络在行业和标准组织引发了热烈探讨[5-7]。最终,意图驱动的自治网络战胜了其他解决方案成为行业标准[8-9]。

1 意图的定义

2015年,SDN率先引入了意图概念。同时期,标准组织IETF将意图定义为“帮助网络选择最优规则的高层策略”[10]。2021年,IETF更新意图的定义为“一系列网络运行目标和期望产出(无须说明如何实现这些目标)”[11]。TM Forum 定义意图为“提供给系统的所有包含需求、目标和约束的明确说明”[9]。3GPP[8]则提供了更为详细的定义:意图通常是人类可以理解的,同时也可以无歧义地翻译给机器;意图专注于描述需要达成什么目标而无须关注如何做到,这样一方面可以让系统用户无须了解系统技术细节从而减轻负担,另一方面也可以给系统留下足够的空间和灵活度去探索和发现更优的策略;意图和底层系统和设备解耦,即意图可以在不同的系统和设备间灵活移植。

5G网络使用者或管理者通常会使用意图传递以下信息[9]。

• 需要开通的服务/功能列表:基于服务需求,5G网络使用者或管理者通过意图向系统传递需要开通的服务/功能列表,如为指定区域开通5G无线接入服务。

• 需要满足的服务等级协定(service level agreement,SLA):基于移动网络运营商和客户签订的SLA,5G网络使用者或管理者通过意图向系统传递特定服务/业务需要满足的SLA信息,如行业用户的可靠性要求。

• 需要遵守的政策/法规:基于政府和其他监管部门的政策/法规,5G网络管理者通过意图向系统传递需要遵守的政策/法规。例如,只能使用授权频段资源;当灾害发生时以最高优先级响应救灾相关任务,如最高优先级保障广播地震预警信息发送。

• 风险管理相关信息:考虑无线信道、移动用户等不可控性,系统任何动作(甚至不做动作)都可能造成SLA违约甚至服务中断。因此,系统需要具备风险管理相关信息帮助其平衡风险和收益。这类信息可以通过意图或人工干预获取。例如,通过意图向系统传递“确保无线通信服务99.999 9%可用率前提下关闭5G基站空调系统”;通过上升人工干预决策“是否激活关闭基站空调系统意图,因为激活该意图有0.000 1%可能造成无线通信服务中断”。

• 意图优先级相关信息:意图间可能存在冲突,即无法同时满足2个意图。当发生意图冲突时,系统需要明确优先满足哪个意图,这类信息同样可以通过意图也可以通过人工干预获取。例如,通过意图向系统传递“确保无线通信服务99.999 9%可用率前提下关闭5G基站空调系统”;通过上升人工干预决策“无线通信服务99.999 9%可用率”优先级高于“关闭5G基站空调系统”。

• 其他常识类目标/约束信息:机器不同于人类,没有常识,因此需要把所有希望系统达成的目标或者约束都通过意图传递给系统。如最小化5G网络能耗、最大化5G网络可再生能源消耗占比等。

意图驱动的 5G自治网络的意图来源如图2所示,本文将其分为“系统外”和“系统内”两大类。其中,“系统外”涵盖了终端和行业用户、移动网络运营商、网络运维工程师以及政府和监管部门,他们都可以通过自然语言或者领域定义语言(domain-specific language,DSL)向系统传达他们的意图。例如,终端和行业用户可以向移动网络运营商或系统传递“请为我开通基于5G的通话(voice over new radio,VoNR)服务”;移动网络运营商可以向网络运维工程师或系统传递“为××区域站点开通VoNR服务”;网络运维工程师可以向系统传递“为××区域所有5G站点开通VoNR服务,服务质量不差于××”;政府和监管部门可以向移动网络运营商或系统传递“全网开通地震预警服务,并最高优先级满足其 QoS需求”。“系统内”包含了系统内置意图以及相关领域拆分的子意图。其中,系统内置意图即系统设计时已经集成的意图,如来自监管部门的意图“只能使用授权频谱资源”。相关领域拆分的子意图指一个意图如果涉及多个系统子领域,可以为每个子领域拆解独立子需求。例如,运营商下达一个指定业务端到端时延保障意图,该意图可以被拆分成3个子意图,分别下发给核心网、传输网和无线接入网,分别明确该业务在这3个子域的时延目标。

图2 意图驱动的5G自治网络的意图来源

受益于人工智能算法如 BERT(bidirectional encoder representations from transformers)、GLUE(general language understanding evaluation)和ERNIE(enhanced representation through knowledge integration)等高速发展,来自系统外的意图,无论是自然语言还是DSL都可以高效转换为机器能够理解的结构化语言[12]。同时,标准组织如3GPP则正在讨论制定意图标准结构形式[8]。

2 网络自治分级

3GPP定义自治网络为在极少甚至无人工干预情况下,电信系统(包含管理系统和网络)实现自我治理。此外,3GPP也提供了标准的自治网络分级方法来帮助 5G网络运营商评估其网络自治水平[5],3GPP定义自治网络分级方法见表1,其中,“人工”表示该功能模块由人工完成,即系统按照人工指示逐步完成该功能流程或完全由人工完成而系统不参与;“人工&系统”表示该功能模块由人工和系统协作完成,即系统具备自动完成该功能的能力,但需要人工输入/更新关键指导信息以及必要的人工干预;“系统”表示该功能模块由系统独立完成,即系统具备自动完成该功能的能力,同时无须人工输入/更新指导信息或人工干预。需要注意,要评估一个5G网络的自治水平/等级,首先需要梳理 5G网络运维各项工作,然后按照表1所述方法对每项工作进行自治等级评估,最后加权平均后方能得到该5G网络的综合自治水平。也就是说,实现5G网络全自治,就是逐一完成 5G网络运维各项工作全自治的过程。本文所探讨的意图驱动的5G自治网络是面向L5级自治等级的整体解决方案。

自治网络处理工作流如图3所示,对表1中各个关键功能模块之间的关系做了一个说明。首先,意图处理模块获取来自“系统外”或“系统内”的意图,并将其转换为一个或多个子意图,每个子意图会明确波及的子领域、每个子领域需要达成的目标或者交付的服务及相关的约束和条件。之后,意图处理模块将子意图分别传递给波及的所有系统子领域。为了完成意图处理模块下达的任务,每个系统子领域可能需要调用感知、分析、决策和执行中的一个或多个功能模块。其中,感知模块通过对系统领域管理实体的监控完成意图相关数据/信息采集和预处理(如数据清洗、统计等)并传递给分析模块;分析模块完成意图相关数据分析(如趋势预测、网络状态分析、问题定位、解决方案建议等)并输出给决策模块;决策模块进行网络操作决策(如参数调整方法)并输出给执行模块;执行模块负责指导对应系统子领域管理实体完成操作[13]。在意图整个生命周期中,各个系统子领域会对子意图达成情况进行持续监控,如果子意图未达成会触发进一步的决策和执行,同时采用周期或者事件触发的方式向意图处理模块上报子意图达成情况。意图处理模块统一处理各个子意图的达成情况汇总成意图达成情况,同样采用周期或者事件触发的方式向“系统外”或“系统内”的意图发起者反馈。如果意图处理模块判断意图无法达成,则会向意图发起者反馈意图达成失败、失败的原因及建议(可选)。

图3 自治网络处理工作流[5]

表1 3GPP定义自治网络分级方法[5]

3 意图驱动的5G自治网络关键技术

3.1 意图全生命周期维护

意图驱动的 5G自治网络需要对意图进行全生命周期维护[14]。意图接口如图4所示,提供了意图生命周期中,意图发起者和意图处理模块交互的接口。本文将这些接口分成以下3类。

图4 意图接口

• 操作类(必备):由系统外或系统内的意图发起者发起,包含意图的创建、删除、修改、激活和去激活请求。意图处理模块收到上述请求后,都会通过操作响应向意图发起者反馈系统是否成功执行该请求,如果失败则会同步反馈执行失败的原因。对任意一个激活态的意图,意图处理模块都会采用周期或事件触发的方式向意图发起者反馈意图达成情况,如果未达成,则会同步反馈意图未达成的原因以及建议(可选)。

• 查询类(可选):由系统外意图发起者发起,包含意图查询、预期结果查询和意图咨询请求。意图处理模块收到意图查询请求后会向查询者反馈被查询意图的内容、状态(如激活或非激活)和达成情况。意图处理模块收到预期结果查询请求后会向查询者反馈被查询意图预期执行后的结果,采用意图达成情况报告的方式反馈。意图处理模块收到意图咨询请求后会向查询者反馈被查询意图修改建议,如降低意图目标或者调整意图约束条件。

• 人工协作类(可选):由意图处理模块发起,包括结果选择请求、意图冲突咨询和异常告警。当意图处理模块发现达成客户意图有多种策略且每种策略带来的结果有明显差异时,可向系统外意图发起者咨询选择执行哪套策略,系统外意图发起者通过结果选择响应接口响应。当意图处理模块在执行意图过程中发现多意图冲突时,可以向系统外意图发起者咨询需要优先满足哪个意图(在意图创建、修改或激活过程中,意图处理模块会进行冲突检测,此时如果发现冲突,意图处理模块会通过“操作类”接口“操作响应”与意图发起者交互),系统外意图发起者通过意图冲突响应接口响应。当意图处理模块在执行意图过程中发现小区异常导致大量意图无法达成或执行某些意图会对系统造成极大风险,如网络失效或关键用户/业务 SLA违约,可以向系统外意图发起者告警(在意图创建、修改或激活过程中,意图处理模块会进行风险评估,如果发现执行该意图会对系统造成极大风险,意图处理模块会通过“操作类”接口“操作响应”与意图发起者交互),系统外意图发起者收到告警信息后通过“操作类”接口或传统接口处理。

利用上述接口可以完成意图全生命周期的维护,意图创建流程示例如图5所示。首先,意图发起者利用“操作类”接口发起意图创建请求。此后,意图处理模块对该意图进行评估,包括意图达成情况预估、意图冲突检测和风险评估。如果意图处理模块预计该意图无法达成,或和已激活意图存在冲突,或执行该意图会带来系统重大风险,意图处理模块均会通过“操作类”接口反馈意图创建失败及相应失败原因和建议(可选)。反之,意图处理模块会将该意图转换为所波及各个子领域的子意图和各个子领域为满足该意图需要执行的服务或网络管理任务,同时通过“操作类”接口反馈意图执行成功。在意图执行过程中,意图处理模块联合各个系统子领域持续监控该意图达成情况,如果未达成,则进一步调整策略,直至意图达成。意图全生命周期中,意图处理模块会采用周期或者事件触发的方式通过“操作类”接口反馈意图达成情况报告。

图5 意图创建流程示例[8]

在意图全生命周期维护中,关键一环即如何实现系统策略自动闭环,其中的关键技术是系统在发现意图未达成时如何找到适合的改进策略。按照自治水平由低到高排序,有以下方法。第一种,专家定义好策略调整规则,即通过规则明确什么场景采取什么改进策略;第二种,专家定义好可选的改进策略,由系统利用人工智能算法自主选择什么场景选用什么改进策略,如DQN(deep Q network)[15]算法;第三种,系统利用人工智能算法自主探索和决策什么场景采用什么改进策略。为了减少策略探索阶段造成严重的系统风险,第三种方法通常需要依赖数字孪生平台[16],即在数字孪生平台上完成前期策略探索,消除严重系统风险且模型收敛后方在物理系统上使用。

3.2 意图冲突管理

考虑到5G网络是一个高度耦合的系统,意图使用者对5G系统内部细节可能知之甚少,同时意图可能来源于不同的人,因此意图间冲突无可避免。意图处理模块主导的意图冲突管理流程如图6所示,其中,灰框流程涉及人工和系统的交互。图6提到的语义冲突、显式冲突、隐式冲突和遗漏冲突的定义如下文所述。需要注意的是,图6仅展示了意图冲突检测。一个意图要成功执行除了需要通过意图冲突检测,还需要通过系统风险检测,且系统预估该意图大概率可被达成。

图6 意图处理模块主导的意图冲突管理流程

• 语义冲突指当前意图和已激活某一个或多个意图作用对象(如基站/小区)有交集,且在意图语义上存在互斥、重复或被包含,且这些冲突意图无明确的高低优先级关系。例如,当前意图为“打开四川省成都市所有无线基站节能功能”和已激活意图“关闭成都市金牛区5G基站节能功能”冲突;意图“确保四川省成都市金牛区所有微信红包业务端到端时延99%在30 ms以内”被已激活意图“确保四川省成都市所有微信红包业务端到端时延 99%在25 ms以内”包含。语义冲突通常可以基于专家经验定义明确的规则来快速检测,即使检测语义冲突的规则定义不够全面,意图冲突通常也会在后续冲突检测中被发现。

• 显式冲突指当前意图和已激活某一个或多个意图作用对象以及作用关键参数有交集,且交集关键参数要求的取值互斥,且这些冲突意图无明确的高低优先级关系。例如,当前意图“关闭四川省成都市所有5G基站空调系统”要求去使能5G基站空调功能,但已激活意图“确保四川省成都市所有5G基站温度不超过60℃”要求使能5G基站空调功能。显式冲突检测关键在于明确每个意图的关键参数,即取值调整后必然导致意图无法达成的参数。只有关键参数取值存在冲突时才满足显式冲突条件,如下文隐式冲突和遗漏冲突例子中都存在部分参数取值冲突,但它们冲突的参数都非关键参数,因此只能在隐式冲突检测或遗漏冲突检测中被发现。

• 隐式冲突指通过技术手段预测执行当前意图超过指定概率会造成已激活某一个或多个意图无法达成,且这些冲突意图无明确的高低优先级关系。例如,意图“确保四川省成都市所有 5G基站质差用户占比不超过1%”和意图“确保四川省成都市5G驻留用户占总移动接入用户 30%以上”有一定概率无法同时达成。因为前者会将5G弱场用户导引到其他制式小区从而确保较低的5G质差用户占比,而后者则会竭尽所能地让5G用户一直驻留在5G小区。隐式冲突可以采用监督学习算法[17]以及数字孪生平台[16]协助分析发现。隐式冲突检测是意图创建/修改/激活阶段意图冲突管理的最后一环,如果有冲突未被检测出来,则需要依赖意图执行过程中的遗漏冲突检测流程结合人工干预解决。

• 所谓遗漏冲突即执行意图后通过结果分析发现系统超过一定概率无法同时达成当前意图和其他已激活某一个或多个意图;同时如果不需要达成当前意图,则其他意图达成概率可大幅提高;且这些冲突意图无明确的高低优先级关系。例如,意图“确保四川省成都市 5G基站日均功耗不超过××kW·h”通过了语义、显式和隐式冲突检测,但在执行过程中发现它和意图“确保四川省成都市所有 5G基站质差用户占比不超过1%”大概率无法同时满足;且如果不达成功耗意图,则质差意图大概率可以达成。遗漏冲突可能是语义、显式和隐式冲突检测技术不成熟所致,也可能是意图不够完善(即未明确可能冲突意图间的优先级)所致。发现遗漏冲突后通过上升人工协助解决,意图发起者可以修改当前意图,也可以指定优先满足某个意图消除冲突。

需要注意,所有的意图冲突都可以通过明确冲突意图间的优先级解决。该优先级信息可以在意图下发时通过“操作类”接口明确,也可以通过“人工协助类”接口明确。

4 意图驱动的业务体验保障

传统5G网络基于5QI和网络切片选择辅助信息(network slice selection assistance information,NSSAI)及关联静态人工配置参数实现不同业务差异化保障。但商用部署中,大部分QoS需求大相径庭的业务被分配了相同的5QI和NSSAI。同时,静态人工配置参数也无法适应时变的无线信道环境以及小区状态。因此,业务QoS需求不满足或SLA违约在5G通信网络中比比皆是。为了解决这些问题,在上文探讨的意图驱动的5G自治网络技术基础上,结合中兴通讯先进的业务识别技术,本文提出意图驱动的业务体验保障方案。

考虑现阶段体验质量(quality of experience,QoE)、DQN和数字孪生技术在商用通信网络中尚不成熟,因此本文提出的意图驱动的业务体验保障方案分为两个阶段实现。第一阶段,仅支持指定业务三级保障机制,一阶段意图驱动的业务体验保障如图7所示。系统外意图发起者通过自然语言或 DSL向 5G网络明确以下 4个关键信息:保障区域,即涉及哪些小区;保障应用清单;保障等级;意图激活时间段。类似于导航软件,如果意图发起者输入的意图有歧义或者未包含完整的关键信息,5G系统会通过和意图发起者的交互/引导直至获取完整无歧义关键信息。之后,意图处理模块进行意图达成情况预估、意图冲突检测和重大风险检测。通过上述检测后,意图处理模块将意图转换为系统子领域的子意图及对应任务,并基于感知、分析、决策、执行闭环流程保障意图的达成。

图7 一阶段意图驱动的业务体验保障

一阶段意图驱动的业务体验保障价值如图8所示,罗列了一阶段意图驱动的业务体验保障方案能够为运营商和客户带来的价值。其中涵盖了易用性的提升和保障业务性能的提升。其中,易用性提升包含了 5G网络和用户交互方式颠覆性的变革:从代码或参数配置交互转换为最为用户友好的自然语言交互。易用性提升也包含了对5G网络管理极简化的设计:5G网络用户或管理员不再需要了解技术细节或“怎么做”,仅须告诉系统自己“要什么”。易用性提升还包含了系统对用户意图响应周期的显著降低:从传统的明确意图、制定实现意图策略、通过代码或人工配置指导系统执行策略、基于KPI监控意图达成情况、调整策略以确保意图达成等全人工闭环冗长流程到1 min下达意图,3 min获得效果评估以及系统自闭环。另一个价值来自保障业务的性能提升。需要明确的是性能提升比例和保障业务所处信道环境和小区状态强相关,图8所示的性能提升值在实验室测试获得,仅代表一个典型系统拥塞场景的性能提升。此外,保障业务的性能提升依赖两项关键技术支撑。第一个是意图全生命周期保障,该方案实现了保障业务毫秒级性能监控:如果发现性能指标异常下降,及时启动根因诊断和对应策略调整;第二个是基于人工智能算法的业务精准识别、拥塞根因精准分析和小区负荷精准预测能力,帮助系统精准定位需要保障的业务/用户以及高效寻优/更新对应保障策略。

图8 一阶段意图驱动的业务体验保障价值

尽管一阶段意图驱动的业务体验保障已经能够为运营商和客户带来显著易用性和业务体验提升,但离行业追求的确定性体验还有显著距离。因此,本文二阶段将基于成熟的QoE监控技术,支持系统外意图发起者下达明确业务QoE需求的意图。此外,一阶段闭环保障策略大部分是基于人工定义规则设计的,二阶段将利用DQN和数字孪生技术实现系统自寻优保障策略。最后,一阶段仅关注了无线空口侧业务体验保障,二阶段将结合跨域的意图处理模块实现涵盖空口、传输和核心网的端到端业务体验保障。

5 结束语

为了提升5G网络运维效率,减少运维成本,国内外主要运营商及 3GPP等标准组织正紧锣密鼓地推进 5G通信系统从人工运维网络到自治网络的转型。其中,意图驱动的5G自治网络作为标准定义的最高等级自治系统也获得了广泛关注。本文回顾了意图的发展历程,分析了自治网络等级划分方法和其中关键功能模块,深入探讨了包含意图全生命周期维护和意图冲突管理等关键技术。最后,提出了分两阶段落地的意图驱动的业务体验保障方案,展示了意图驱动的5G自治网络能够为5G网络运维带来的颠覆式变革,以及易用性和网络性能上的提升。

面向未来大规模商用落地,意图驱动网络结合数字孪生平台[16]以实现意图达成策略自寻优、意图可达性精准预测、意图冲突高效管理是行业当前的研究热点和核心攻关方向。

猜你喜欢

发起者意图基站
原始意图、对抗主义和非解释主义
考虑发起者质量改进努力和平台增值服务的产品众筹最优决策与协调
陆游诗写意图(国画)
制定法解释与立法意图的反事实检验
5G IAB基站接入网络方案研究*
5G基站辐射对人体有害?
默契百分百
基于移动通信基站建设自动化探讨
可恶的“伪基站”
“路上的书”呼吁人们放下手机拿起书