端边协同保障时延确定性技术研究
2022-07-12宋光敏王群青黄占兵施迅韩高健
宋光敏,王群青,黄占兵,施迅,韩高健
(1. 联通(浙江)产业互联网有限公司,浙江 杭州 310051;2. 中国联合网络通信有限公司浙江省分公司,浙江 杭州 310051;3. 华为技术有限公司,浙江 杭州310051;4 华为技术有限公司,广东 东莞 523808)
0 引言
随着工业互联网、车联网、智能电网等领域数字化转型,各垂直行业对确定性时延诉求日益增加[1-4]。例如虚拟现实/增强现实(virtual reality/augmented reality,VR/AR)等应用一般要求时延低于50 ms,并且满足99.9%以上的时延可靠性要求。港口煤矿等远控场景要求传输时延低于50 ms,并且满足99.99%以上的时延可靠性要求,工业自动化控制要求传输时延低于4 ms,并且满足99.999%以上的时延可靠性要求。为了满足各行业差异化服务等级协定(service level agreement,SLA)需求,5G 确定性网络技术要求对无线、承载网、核心网各域实现资源隔离,确定性调度与转发,可以将端到端时延时、抖动和丢包率等指标控制在业务所需的上下界[5-7]。
传统数据转发网络基于“尽力而为”和“统计复用”,难以满足垂直行业超高可靠低时延的业务需求。虽然有一些基于以太网扩展的低时延方案,例如硬实时交换机体系结构(hard real time switch architecture,HaRTES),但以太网不具备网络带宽预留能力,无法绝对优先转发时延敏感业务流[2]。IEEE (Institute of Electrical and Electronics Engineers)协会和IETF(Internet Engineering Task Force)提出了一系列时间敏感网络(time-sensitive networking,TSN)技术,主要包括IEEE 时间同步(802.1AS)、IEEE 802.1Qav(流媒体优先级队列)、IEEE 802.1Qbv(时间窗调度)、IEEE 802.1Qcc(TSN 配置),以及其他扩展增强机制,例如流分类、整形与冗余传输机制。为了加快5G 赋能工业自动化升级的步伐,中国信息通信研究院、中国联通、中国移动、华为公司于2020年联合发布了《5G 确定性网络产业白皮书》和于2021 年发布了《5G 确定性网络架构产业白皮书》,详细调研了行业业务SLA 需求和探讨了确定性网络架构的演进路线。
虽然业界有大量的确定性技术研究,但仍无法满足垂直行业对网络可靠性的需求。因为无线传输信道存在多径效应、弱覆盖、突发干扰等时延抖动因素,空口时延抖动是保障5G 端到端时延可靠性的主要挑战。5G 预调度技术是一种典型可降低上行业务调度等待时延的技术。通过预先分配上行调度资源,终端用户可实时发送数据,无须上行调度申请(scheduling request,SR)。为了减少控制信令的资源开销,免授权技术可以在终端无线资源控制(radio resource control,RRC)实体配置固定资源进行数据传输,避免基站频繁发送上行调度授权(UL grant)消息。在多终端和混合流场景,基站无法准确感知业务周期与发包偏移时刻,这两种技术往往需要密集预留空口资源保障业务的可靠性,造成空口资源严重浪费。另外,在空口质差场景中,数据传输解码失败,会引入额外的重传时延,降低端到端时延可靠性。分组数据汇聚协议(packet data convergence protocol,PDCP)复制可以提升空口链路的可靠性。这种技术对终端的能力有依赖,并且通常对小区所有签约用户的报文(5QI 粒度)进行复制重传,无法针对某一个终端的单一业务流开启。为了解决上述问题,核心网可深入感知业务流特征、协同基站和应用,进行跨域调度,提升5G 端到端时延确定性能力。
本文聚焦于AGV 协同业务,AGV 之间通过5G 局域网(local area network,LAN)传输导航与定位指令,协同搬运货物。基于弧线业务模型,推导和分析主从AGV 间距误差(业务KQI)与网络时延可靠性之间的映射关系。为了应对空口上行调度等待时延、弱覆盖和同频信号干扰等时延抖动因素,本文提出了一种端边协同时延确定性保障技术方案,实现业务流级跨域时延保障。首先,核心网可基于业务IP 与端口号等特征,实现流分离,利用机器学习等算法推断单流业务的起始发包时刻与业务周期。这可以突破基站无法识别多流业务特征的瓶颈。
核心网可协同基站,进行空口资源预留,降低空口上行调度等待时延和资源开销。同时,用户面功能(user plane function,UPF)可向基站订阅空口信道状态数据,针对某一业务流,动态开启对应终端侧与UPF 侧的传输可靠性保障措施,提升空口质差场景的时延可靠性。
1 5G E2E 时延构成
从广义来看,5G 端到端(end-to-end,E2E)通信主要包含两类:终端到终端和终端到服务器。本文聚焦主从AGV 通信业务,针对终端到终端场景进行5G E2E 时延分析。E2E 时延指终端设备之间端到端通信的来回时延。 5G 端到端时延如图1所示,E2E 时延主要由节点处理时延与节点之间的传输时延构成,终端到服务器场景仅包含单次空口传输时延,但涉及UPF 转发到应用服务器的时延消耗。可以表示为:
图1 5G 端到端时延
各变量具体含义如下。
·tradio代表终端设备与基站之间的无线传输时延,主要由物理层通信引起。无线传输时延取决于无线传输的物理距离,以及无线环境的信道质量,例如射频信号被建筑表面反射,穿越丛林等,无线传输的物理距离。在空口弱覆盖或干扰场景,初传包丢包后,空口会进行HARQ 重传和RLC 重传。重传时延开销与基站配置的HARQ/RLC 重传间隔与最大重传次数相关。
·tgnb:代表基站的处理时延。基站在物理层处理涉及信道编解码、信道交织与去交织,循环冗余校验(cyclic redundancy check,CRC)、信号调制与解调、波束成形、正交频分复用(orthogonal frequency division multiplexing,OFDM)信号产生等。另外一方面,数据包会在任务缓存队列中产生排队等待时延,主要与物理层资源块(resource block,RB)的数目与RB 复用能力相关。特别地,在传统上行调度中,终端发送上行数据时,可能会从RRC_idle(空闲)或 RRC_inactive(休眠)状态进入RRC_connected(连接)状态,并向基站发起调度申请(scheduling request,SR),产生上行调度等待时延。
·transport:代表基站与核心网之间的光纤传输时延。时延的主要影响因素有基站到核心网的距离,接入、汇聚、核心的网络拓扑结构,以及传输设备的转发能力。一般来说,相比空口传输,光纤传输时延会低很多,时延的抖动范围也更小。
·tcore:代表核心网处理时延。时延的主要影响因素是UPF 转发策略、转发路径、IP 寻址以及报文过滤。
总体来说,E2E 时延包含上下行无线传输时延、上下行基站处理时延、往返光纤传输时延和核心网处理时延。为了便于描述,本文把无线传输时延与基站处理时延统称为空口时延。
2 多AGV 协同业务与时延可靠性需求
本节主要介绍5G 使能多AGV 协同业务、5G通信组网,并推导业务KQI 与网络时延可靠性之间的映射关系。
2.1 多AGV 业务协同业务
为了满足生产作业的复杂性,多AGV 可通过协作完成设定的任务,如协同搬运大型货物。本文考虑经典的“领航—跟随”协作模型[2]。这种模型把小车划分为主AGV 类型和从AGV 类型。
主AGV 承担领航任务,具备自主导航能力。通常来说,AGV 可以采用同步定位与地图构建(simultaneous localization and mapping,SLAM)技术进行导航规划。根据文献[2],主AGV 硬件架构如图2 所示。上位机主要包含Linux 开发板,运行SLAM 定位算法与导航控制系统。上层控制层包含激光雷达和视觉采集相机等传感器模块。仅依靠激光雷达或者相机扫描数据,很难在复杂环境准确构建地图。AGV 可以融合激光雷达、视觉特征等传感器数据,提升地图构建精度,消减导航累积误差。主AGV 在领航运行时,需要向从AGV 实时传输导航指令,包含运行的速度、加速度、角速度等信息。
图2 主AGV 硬件架构
从AGV 以跟随主AGV 运行,协同完成货物搬运任务为主。在“领航—跟随”关系绑定后,从AGV不会进行自主导航规划,按照主AGV 发送的导航指令巡航。同时,从AGV 会实时定位,将自身位置信息以一定的控制频率上报给主AGV,辅助主AGV 进行导航指令计算,以及监控主从AGV 距离信息。为了AGV 协作安全运行,当主从AGV 距离超过既定门限后,主AGV 会降低运行速度甚至停车,同时也会将降速指令发送给从AGV。生产作业时,主从AGV 可以灵活切换“领航—跟随”角色,故从AGV 采用与主AGV 同构的硬件架构。
2.2 基于5G LAN 的主从AGV 通信
5G LAN 可以为工业制造提供跨域连接和企业移动专网,允许设定用户组实现Ethernet 和IP通信。基于5G LAN 的主从AGV 组网如图3 所示,机器人控制系统(robot control system,RCS)、主从AGV 均通过CPE 接入5G LAN。RCS 机器人控制系统可以通过5G 网络向既定的主从AGV 发送协同搬运任务。主从AGV 收到RCS 指令后,完成“领航—跟随”模型绑定。主从AGV 业务初始化后,主AGV 以发包频率f向从AGV 发送导航指令,从AGV 同样以发包频率f向主AGV 发送位置信息。在主从AGV E2E 通信中,报文经历空口上下行传输时延、基站处理时延、传输时延以及核心网处理时延。
图3 基于5G LAN 的主从AGV 组网
2.3 业务KQI 与时延SLA 映射关系
主从AGV 距离误差是业务KQI 的关键指标。E2E 时延抖动导致从AGV 接收导航指令滞后,从而拉大主从AGV 间距,AGV 可能会减速降低货物搬运效率,甚至导致货物脱落。同时,主AGV 接收从AGV 位置信息也会滞后,不能精确计算从AGV 下一时间窗的导航指令。当主从AGV 距离超过告警门限后,AGV 会触发保护性停车机制。另一方面,连续多个时间窗未收到报文,会触发AGV“看门狗”机制,判决“主从通信失联”,主从AGV 业务均会重启。由此可见,AGV 协同业务对时延可靠性有较高需求。通常来说,元器件可靠性、定位算法误差也会影响主从AGV 的距离误差。本文重点分析5G 网络时延对距离误差的影响。下面推导业务KQI与时延SLA 的映射关系。
主从AGV 业务协作搬运货物涉及直线运动与弧线转弯。主从AGV 可以并排行驶,也可以共线行驶。主从AGV 协同作业示意图如图4 所示,本文考虑主从AGV 并排执行弧线作业,分析业务KQI 与时延SLA 的映射关系。主AGV 以半径r在内圈做弧线运动。设定主从AGV 额定车距为l,主从AGV 运行速度为v。主AGV 在A1 点执行转弯,同时向从AGV 发送转弯指令,从AGV 沿着切向直线运行。经历E2E 时延t后,从AGV 在B2 点收到指令。此时主AGV 沿着弧线运行到A2点。假设主从AGV 双向通信的E2E 时延均为t。从AGV 在B2 点发送位置信息给主AGV,经过E2E 时延t后,主AGV 在A3 点收到从AGV 的消息。AGV 日志统计距离为A3-B2,实际距离为A2-B2。为了简化分析,本文仅考虑单回合主从AGV 信息交互,不考虑多个回合的累计误差以及AGV 的纠偏策略。
图4 主从AGV 协同作业示意图
首先以圆心点为原点,建立极坐标系,主从AGV 位置的极坐标如图5 所示。则A2、A3 和B2 的坐标依次表示为(r,α/2)、(r, )α和(r', )β,其中:
图5 主从AGV 位置的极坐标
使用类似的方法,可以得到主从AGV 日志统计距离A3-B2:
根据主从AGV 距离公式,业务KQI 可以表示为p-l。上述推导方法可以应用于主从AGV共线弧线行驶、直线行驶,本文不展开分析。
综上,主从AGV 的距离误差不仅与E2E 时延t相关,也与额定距离l、转弯半径r和AGV运行速度v相关。例如设定AGV 最大速度为1 000 mm/s,额定主从AGV 距离1 200 mm,AGV转弯半径不小于50 mm。为了使业务KQI 误差小于10 mm,则根据业务KQI 公式,得出E2E 传输时延值为47.8 ms。AGV 业务通常对业务可靠性要求较高,如主从AGV 交互一万回合指令,最多有一次距离误差超出10 mm,则理论时延SLA 需求为47.8 ms@99.99%。
2.4 5G 满足AGV 时延需求的挑战
由于空口时频资源受限,链路易受干扰和调度机制复杂性,空口时延抖动是满足AGV 时延可靠性需求的主要挑战。5G 空口上行调度如图6 所示,本文重点对空口上行传输各个状态过程的时延抖动展开分析,主要包括状态切换、调度授权等待、数传等待和数据重传。
图6 5G 空口上行调度
(1)状态切换时延
终端状态切换流程如图7 所示,终端设备在处于非活动状态时,可能会释放无线资源控制(RRC)连接,节省电能。当UE 处于用户连接管理空闲态(CM-idle)时,首先需要和恢复RRC连接与PDU 会话承载,切换到RRC-connected 状态才能监听物理下行控制信道(physical downlink control channel,PDCCH),获取基站发送的上行调度授权(UL grant),随后在基站分配的时频资源进行上行数据传输。一般来说,上行传输时,终端主动发起协议数据单元(protocol data unit,PDU)会话建立或恢复请求,时延开销为50~70 ms。下行传输时,网络需要寻呼处于CM-idle 态的终端,需要100 ms 以上的时延开销。特别地,5G通信增加了RRC-inactive 态,仅释放终端到基站的RRC 连接,但保留终端到核心网的上下文,如用户接入状态,可以有效减少用户恢复与网络连接时的信令交互次数。用户处于RRC-inactive 状态时,需要10 ms 重新建立RRC 连接,就能进行数据传输。
图7 终端状态切换流程
(2)调度授权等待时延
由于空口时频资源有限,终端需要等待基站UL grant 才能发送数据。上行调度时延开销包括SR 发送等待时延开销和基站调度时延开销。在传统上行调度中,终端发送缓存区已经清空后,有新的数据到来,需要通过物理上行控制信道(physical uplink control channel,PUCCH)向基站发送SR,等待基站上行调度授权。根据协议,终端只能在SR 固定周期点发送请求,平均等待时延约为20 ms。收到用户SR 请求后,基站会让终端通过物理上行共享信道(physical uplink shared channel,PUSCH)发送缓存状态报告(buffer status report,BSR)。在多终端场景,基站根据可用RB数目、用户优先级、数据量等信息,进行RB 分配。业务并发量越大,用户等待基站调度的时延抖动越大。
(3)数传等待时延
终端收到UL grant 后,在指定时隙发送数据,平均等待时延约为2 ms,抖动较小。
(4)数据重传时延
由于无线信道衰落、小区边缘接入以及同频信号干扰等空口质差因素,无线链路接收端常常会解码失败,引发数据重传。5G 通信在介质访问控制(medium access control,MAC)层使用混合自动重传请求(hybrid automatic repeat request,HARQ)技术合并多次传输误码数据,提升解码成功率。基站通常配置最大4 次HARQ,每次重传时延开销为 5 ms。当基站采用非确认(unacknowledged mode,UM)模式,4 次HARQ重传均解码失败后,该数据包丢失。反之,基站采用确认(acknowledged mode,AM)模式,有可能触发无线链路控制无线链路控制(radio link control,RLC)层重传。通常RLC 重传周期40 ms,最大重传次数为32 次。在空口质差场景中,链路解码失败可能性变大,会引入多次HARQ/RLC 重传,常常导致大时延抖动。
3 端边协同时延确定性方案
为了应对上述时延抖动挑战,本节介绍一种端边时延确定性解决方案用于提升AGV 通信时延可靠性,满足AGV 业务可靠性需求。端边协同时延确定性组网方案如图8 所示,端边协同时延确定性方案架构主要包含端侧确定性Agent 模块和服务侧确定性Service 模块。确定性Agent 可植入AGV 上位机进行流量透明代理,与位于UPF的确定性Service 建立确定性时延保障管道。Agent代理AGV 应用流量,AGV 应用不需要做额外开发。确定性Service 对业务流量进行分析,识别主从AGV 交互指令的周期与起始发包时刻,利用预调度技术、协同基站进行空口资源预留、降低包调度等待时延。同时,确定性Service 会采集空口信道的实时测量数据,如参考接入功率(reference signal receiving power,RSRP)、信道质量指标(channel quality indication,CQI)等,在质差条件下,动态开启时延保障策略,提升包传输可靠性。
图8 端边协同时延确定性组网方案
端边协同时延保障技术的交互流程如图9 所示,端边协同时延保障技术的交互流程包含如下3 个阶段。
图9 端边协同时延保障技术的交互流程
(1)端边协同配置阶段
终端确定性Agent 置于AGV 上位机,向确定性Service 发起注册。Agent 成功注册后,确定性Service 可对Agent 进行生命周期管理,监控Agent运行状态,配置确定性时延保障参数。确定性Service 可根据业务特征,配置服务质量(quality of service,QoS),并且向基站发送调度策略配置。
(2)端边协同资源预留阶段
主从AGV 流量经过端侧Agent 代理后,由确定性管道转发至确定性UPF。确定性Service 采集业务流量来包信息,使用机器学习算法推断业务发包周期与起始时刻,以及感知业务包长。根据业务发包特征,UPF 协同基站,进行空口资源预留,降低状态切换和基站调度授权等待时延。特别地,该方案可以根据业务特征,精准配置所需RB 数目和预期调度时隙,避免了空口资源浪费,有效提升频率利用率。
(3)端边协同质差保障阶段
确定性Service 向基站订阅空口信道测量数据。基站周期性上报链路RSRP、CQI 等参数。当检测到上行信道质差,确定性Service 传递消息给端侧,开启端侧质差保障措施。端侧Agent 对上行业务流量进行可靠传输处理,确定性Service 进行对应的处理。当检测到下行信道质差,端侧Service 对下行业务流量进行可靠性处理,确定性Agent 进行对应的处理。当空口信道质量恢复到良好水平,可关闭质差保障,降低空口资源消耗。
本文的创新性主要在于构建端边协同机制,联动端侧和RAN 侧,协同优化传输时延与资源开销。该方案适用于终端混合流、视频背景流等典型toB 业务场景。核心网可以基于业务粒度(如利用业务收/发IP 地址、收/发端口号及协议信息过滤流量)感知时延敏感业务流的特征,例如包长、周期、发包时隙偏移等,开启业务级时延保障技术,以最优资源开销保障传输时延可靠性。
3.1 5G 端到端时延优化效果
实验基于杭州联通展厅进行测试。考虑两类空口环境:AGV 近点接入5G 网络,终端RSRP 约-71 dBm,平均RB 干扰功率-116.9 dBm,最高-105 dBm,有轻干扰;AGV 小区边缘接入5G 网络,有邻区同频用户作业务,终端RSRP 约-95 dBm,平均RB 干扰强度-116.2 dBm,最高-93 dBm,有突发强干扰。本文将端边协同技术与传统上行调度(上行需进行SR、等待基站调度授权)、预调度(基站逐TTI 预留资源、无质差保障措施)技术进行对比。AGV 每20 ms 发送一个指令,包长300 byte。
时延可靠性对比结果如图10 所示。基线数据使用传输上行调度,没有进行上行资源预留,平均时延相比预调度、端边协同技术抬升约10 ms。在近点场景,预调度与端边协同时延保障技术在99%~99.99%可靠性度量下,时延基本一致。但因为近点场景存在轻微干扰,当时延可靠性大于99.99%时,使用端边协同技术相比预调度机制可以减小时延抖动50.8 ms。在质差场景,相比预调度技术,采用端边协同方案,可以降低时延46.4%(99.9%可靠性度量)和70.9%(99.99%可靠性度量)。由此可见,端边协同技术方案可以在空口弱覆盖、干扰等质差场景极大降低时延抖动。此外,使用端边协同技术,可以达到20 ms@99%、30 ms@99.9%,有效消减99.99%可靠性及以上的时延抖动。
图10 端到端时延可靠性对比结果
呈现使用预调度技术和端边协同时延保障技术的AGV 实际收包序号与理论收包序号的差值分别如图11 和图12 所示。实验环境为空口质差场景,端到端时延会有较大抖动。可以看出,在无质差保障的测试场景中,AGV 接收指令序号出现了较大的波动。图11 有两次较大的序号抖动,序号范围超过了100 个包。追踪AGV 日志发现主从AGV 因大时延抖动,进入了“失联”状态,业务发生了重启。使用了端边协同时延保障技术,AGV 收包未观察到大时延抖动。上述结果有效验证了端边协同时延保障技术对5G 端到端时延优化效果。
图11 AGV 实际收包序号与理论收包序号差值(预调度)
图12 AGV 实际收包序号与理论收包序号差值(端边协同技术)
3.2 AGV 业务KQI 优化效果
考虑AGV 最大速度为1 000 mm/s,额定主从AGV距离1 200 mm,AGV转弯半径不小于50 mm,AGV 业务KQI 优化效果见表1,结合质差场景时延测试数据,计算业务KQI(基于AGV 日志统计主从距离误差)。使用预调度技术,在99.9%可靠性度量下,主从AGV 距离误差达到了10 mm。相比之下,使用端边协同技术,主从AGV 距离误差控制在10 mm 的可靠性为99.99%,可靠性提升了10 倍。此外,使用端边协同技术,主从AGV 最大距离误差为16.9 mm,相比于预调度技术的主从AGV 最大误差,业务KQI 提升了89.04%。
表1 AGV 业务KQI 优化效果
4 结束语
本文分析了AGV 协同搬运业务对网络时延可靠性的需求,推导了业务KQI 与时延可靠性的映射关系。现有5G 机制存在频谱浪费严重现象,并且难以解决空口突发干扰、弱覆盖等质差因素的问题。本文创新性地提出了一种端边协同保障时延确定性方案。基于业务特征进行网络资源预留,降低调度等待时延,并且感知空口状态,开启质差时延保障机制,实现5G 时延确定性传输。测试结果证明了该方案可以极大消减时延抖动与优化业务KQI。此外,端边协同时延保障方案对终端生态友好,不需要应用进行修改,适用于工业物联网等各垂直行业,可大规模商业部署。最后,5G 时延确定性传输还有很多挑战亟待解决,例如空口拥塞、混合流传输等,需要持续演进端边协同保障时延确定性方案、研究应用和网络跨域协同技术,加快工业数字化升级。