工业互联网算网一体技术研究
2023-02-09宋闻萱许方敏张恒升赵成林
杨 帆,宋闻萱,许方敏*,张恒升,赵成林
(1.北京邮电大学 信息与通信工程学院,北京 100876;2.中国信息通信研究院,北京 100191)
0 引言
随着工业互联网的不断发展,工业智能应用对计算机存储能力和算力的要求不断提高,业界相继提出了以分布式技术为基础的集中部署的云计算和以低时延、低能耗为特点的边缘计算。云计算在一定程度上满足了需要庞大计算量的密集型业务[1],但是传统的云计算不足以提供低时延、高算力的服务。而移动边缘计算距离移动终端更近,且能够提供更低时延、更高效率的计算能力[2]。云计算和边缘计算为工业互联网提供了匹配不同应用的算力和时延需求。
由于边缘计算服务器算力有限,为满足分布式工业智能应用的高效处理,越来越多的边缘服务器部署在工厂和园区中,因此数据的计算和存储逐渐从中心扩散到边缘和终端的趋势形成算力泛在部署,但是边缘计算单点的算力资源有限,且边缘节点之间不互相感知。为协同海量资源受限的边缘算力以提高算力利用率,业界提出算力感知网络(Computing-aware Networking,CAN)的思想[3],将计算与连接相结合利用算力协同形成算力组网。算力感知网络的提出标志着人类正在迈向万物感知、万物互联、万物智能的“算力时代”[4]。
虽然为满足海量工业应用的算力需求,算力在工业互联网中已呈现泛在部署形式,但是并未根据不同应用的不同需求优化算力的部署和分配利用方案。作为网络基础设施的一种,如何将算力网络引入工业互联网网络体系中,并探究算力网络在工业互联网中的部署和应用,是亟须研究解决的问题。
由于在工业互联网中不同任务对时延和算力的要求不同,一些轻量级、高延迟需求的任务可以在靠近现场级的内网计算设施进行计算,而部分大算力需求对延迟容忍程度高的任务更适合在外部超算中心进行处理,因此本文提出了以工业互联网为基础的内网+外网的算力部署架构和应用部署方案,以满足不同需求任务不同方面的需求,同时深入分析了算力网络在工厂内外网实现落地部署存在的算力度量和表征、标识、感知、路由和调度,以及安全等方面挑战。
1 算力网络的发展现状
云计算和边缘计算都是信息技术资源(计算资源、存储资源等)的载体[5],类比于电力系统中的电厂与电网,而算力网络做为算力的“网”将孤立的云计算和边缘计算的IT资源变成有效的IT资源,实现高效协同的利用云计算、边缘计算和智能终端的异构泛在计算资源[6]。
近6年来,随着人工智能(AI)技术的发展,数据分析与处理对算力的需求增长已超过30万倍[7],由于我国经济发展和应用需求“东密西疏”,但是自然资源“东贫西富”,这种应用和资源不匹配的情况影响了我国信息化进程[8]。因此,2022年3月第十三届全国人大提出“东数西算”工程战略,算力网络的实现将会更高效地利用西部的算力资源为东部的数据和应用需求服务,同时提供高保障性和高可靠性,实现东西部协同发展,提升国家总体算力资源的利用率,最终实现“网络无所不达,算力无所不在,智能无所不及”[9]。
目前产业化、标准化、学术界各方都在积极推进算力网络技术的发展和落地,业界对算力网络的标准化也逐步趋于完善。
1.1 标准化发展现状
1.1.1 国际标准化发展现状
国内运营商和华为在IETF开展了算力网络系列研究; ETSI启动了“NFV Support for Network Function Connectivity Extensions (NFV-EVE020)”项目,宽带论坛(BBF)启动了“Metro Computing Network(SD-466)”项目,各项研究都旨在解决算力网络在不同领域中的实际发展应用和功能扩展。
2019年2月,IETF成立了网内计算研究组(Computing in the Network Research Group,COINRG)。中国移动联合华为组织了计算优先网络(Computing First Network, CFN)技术研讨会,分别针对CFN场景和需求、CFN的架构以及CFN的实验部署提出了三项草案[10-12]。
2021年7月5日—16日,ITU-T SG13(国际电信联盟电信标准化部门第13研究组)发布了中国电信研究院第一个算力网络技术的国际标准“算力网络框架与架构标准Computing Power Network-framework and Architecture”(Y.2501)。ITU-T Y.2501标准提出了一种算力网络的新型架构体系;ITU-TSG13建议开启Y.2500系列编号,以Y.2501[13]为首个标准,形成算力网络系列标准。
同时三大运营商和华为等企业还分别牵头启动推进了Q.CPN(算力网络的信令要求)[14]、Y.ASA-CPN、Q.BNG-INC(算力网络边界网关的信令要求)与Y.CAN、Y.CPN-arch[15]等SG11和SG13组的相关标准制定。同期,中国电信研究院成功立项“Y.NGNe-O-CPN-reqts”标准;中国联通、中国电信成功立项Y.ASA-CPN标准,研究算力网络认证调度架构。
1.1.2 国内标准化发展现状
2019年9月,边缘计算产业联盟(Edge Computing Consortium,ECC)与网络5.0产业和技术创新联盟(Network 5.0 Industry and Technology Innovation Alliance,N5A)联合成立边缘计算网络基础设施联合工作组ECNI,致力于网络5.0的研究推动和标准化过程,其中算力网络被视为未来网络发展重要方向之一。2020年6月产业对算力网络的研究进入了一个新的阶段,中国通信网络技术标准委员会CCSA TC614正式成立了算力网络特别任务组。CCSA目前在TC1-WG5、TC3-WG1和TC1-WG2工作组分别对“泛在计算的需求与架构”“算力网络的需求与架构”“面向业务体验的算力需求量化与建模研究”进行了规范。2022年CCSA已经通过了行业标准《算力网络总体技术要求》,提出了算力网络的标准定义和发展目标,并制定了算力网络的总体技术架构和关键技术要求。同年CCSA算网融合产业及标准推进委员会(CCSA TC621)和多样性算力产业及标准推进委员会(CCSA TC622)分别围绕“计算网络化”“网络计算化”两个方向协同开展标准化工作。
1.2 产业发展现状
在产业层面,国内各大运营商牵头制定了一系列的标准,同时发布产业白皮书,主导业界在算力网络研究上的推进。2019年11月中国联通在业界率先发布了《中国联通算力网络白皮书》[16],首次提倡推动算力网络概念的发展,表明算力网络将是云网融合未来发展的新阶段。在2020年11月,中国联通联合多方成立了算力网络产业技术联盟,进一步完善算力网络生态,在“联接+计算”领域推动算力网络的落地和转型。
中国移动在2019年11月和华为在边缘计算产业峰会(ECIS2019)上联合发布了《算力感知网络技术白皮书》[17],2021年更新了《算力感知网络(CAN)技术白皮书(2021年版)》[3],提出算力感知网络(Computing-aware Networking, CAN)五层功能架构和算力网络的新架构、新协议、新度量。2021年11月和2022年2月中国移动分别发布了《中国移动算力网络白皮书》《算力网络安全白皮书》[9,18],以算力为中心、网络为根基全面揭示了算力网络的发展路径,掀开了布局算力网络的序幕。
作为国内数量最多、最大的数据中心服务提供商,中国电信率先提出“网是基础、云为核心、网随云动、云网一体”的云网融合方向,融合网络、算力和存储三大资源,规划了“核心+省+边缘+端”四级架构AI算力网络,超前部署AI算力,结合业务场景进行灵活部署,提供算网数智等多要素融合的AI服务。
华为、浪潮等厂商也先后发布了产业白皮书;华为在贵州贵安即将建成全球最大的云数据中心;阿里、华为在内蒙古乌兰察市建设了数据中心,为华北地区的算力、存储等业务提供服务,共同推进算力网络的发展;中国移动在第七届机器人峰会上展示了网络+计算双流跨省确定性同步方案,通过网络的灵活调整来适应差异化算力。2022年,我国开始布局建设八大算力网络国家枢纽节点:粤港澳大湾区、成渝地区、长三角地区、京津冀地区、宁夏、内蒙古、贵州、甘肃。
1.3 学术发展现状
虽然学术界对云计算和边缘计算的研究比较充分,但是目前算力网络发展仍处于初步阶段,学术界对算力网络尤其是工业互联网中的算力网络技术的研究内容较少。目前算力网络研究型论文和理论性论文聚焦于算力网络的架构和关键技术,相关学者研究了包括算力路由和算力资源分配在内的诸多算力功能。文献[19]研究了工业互联网-边缘-云模型的多跳计算卸载问题,文中利用博弈论提出了两种QoS感知分布式算法,并证明了算法的收敛性;模拟结果验证该算法不仅可以随着工业互联网设备群规模的增加而很好地扩展,而且在各种参数设置下比现有算法更稳定且性能更好。文献[20]利用Floyd算法提出算力感知路由分配策略,针对算力网络中的算力路由和算力资源进行协同调度,在任务处理时延和用户满意数上有比就近调度策略更优的性能。文献[21]提出了一种新型的算力网络架构,为算力网络中的用户提供了适应性,为组网算力资源调度提供了灵活性,为算力供应商提供了价值激励,并且通过使用案例清晰地描述了该新型算力网络架构。文献[22]首次提出了一种CFN-Watchdog的集中式故障检测协议,可以很好地满足根据计算负载和网络状态为边缘计算智能分配计算资源的算力网络要求,并及时回收故障占用的资源。
2 工业互联网智能应用对算力网络的需求
在工业互联网中,大部分工业智能任务例如控制类业务对时延要求极高,但是对算力要求不高;而一些工业智能任务对时延的要求不高,但是对算力的要求很高。因此,对不同业务有着不同的算力网络匹配部署方案,不同的业务可以根据自己的特点来选择部署在不同位置的算力网络来进行服务和计算,本文重点调研了工业智能应用对算网的需求,以优化应用和算力的匹配部署方案。
本文针对工业互联网中的应用场景将工业智能应用分为生产过程控制、设备实时监测与预测性维护、智能巡检、环境监测与安全防护、产品质量监控、远程操作与运维、生产辅助、自动引导运输车(Automated Guided Vehicle,AGV)导航和生产设计与方案检测九大类。
2.1 生产过程控制
2.1.1 过程自动化
过程自动化收集传感器反馈的数据,在分析处理这些数据后,调节优化及控制各种设备,以提高生产效率。双向、计算时延要求:≤1 s,典型的应用包括:温度检测、压力检测、时间不敏感的设备控制(如水泵、压缩机、搅拌机等)[23]。
2.1.2 工厂自动化
工厂自动化其本质是控制电机,实现其对角位移、转矩、转速等物理量。双向、计算时延要求:1~100 ms,典型的应用包括:金属材料抓取、灌装、打包、盖章、剪裁、产品分类等[23]。
2.1.3 运动控制
运动控制是对机械运动部件的位置、速度等进行实时的控制管理,使其按照预期的轨迹和规定的参数进行运动,因此运动控制对延迟要求极高。双向、计算时延要求:250 μs~1 ms,典型的应用场景包括:多轴同步、印刷、印制电路板、电子器件的抓取与放置等[23]。
2.2 设备实时监测与预测性维护
设备实时性预测、预测性维护不仅可以对设备实时监测,进行大数据分析,提前感知设备故障,而且可以远程服务和提前排查故障隐患,使维护变得更加智能,运营更加可靠,成本也更低。
2.3 智能巡检
智能巡检是指利用AI技术,对产品生产、制造过程中进行定期随机流动性的检验巡视。具体包括数据采集、隐患处理与分析等。智能巡检任务对时延要求:<20 ms。
2.4 环境监测与安全防护
环境监测与安全防护包括智能安防、视频监控。在环境检测过程中,要进行物理监测、生物监测、化学检测。时延要求:20~50 ms[24];存储需求:TByte级别;网络需求:50~100 Mbit/s。
2.5 产品质量检测
产品质量检测利用卷积神经网络等图像和视频处理技术对产品的质量进行检测,例如对产品表面划痕的长度、深度、划痕位置进行识别,以此分类良品和次品。闭环时延不超过10~100 ms;可靠性需求1×10-5;速率:单用户感知速率>100 Mbit/s。
2.6 远程控制
2.6.1 远程操作与运维
计算机远程运维技术将分散在工业互联网中的设备终端进行集中化管理,实现计算机终端的远程控制。时延要求:空口时延<10 ms;可靠性需求1×10-5;高传输率:体验速率Gbit/s。
2.6.2 虚拟现实/增强现实(AR/VR)
AR远程协助可以支持员工学习、培训、交流,提供操作示范、导引,提醒生产过程注意事项及操作细节;将工人看到的场景直接传递给工艺人员,工艺人员通过视频、语音、标记等交互手段对工人进行直观指导[24]。5G+AR/VR技术,构建产品展示、售后服务、技能培训等虚拟演示和体验环境,优化客户体验,提升服务品质和效率。
VR、AR的渲染,不同语言之间的实时和非实时翻译等,这种场合对算力要求极高[5]。时延:工业现场毫秒级的确定时延10 ms[16];存储需求:TByte级;算力分类:基于图像分析的AI推理能力、图像渲染需要的计算能力属于P级算力;网络速率需求:50~100 Mbit/s。
2.7 生产辅助
生产辅助是指不直接从事商品生产,而是直接或间接地为基本生产车间、厂部管理部门提供服务,而进行辅助性生产和劳务供应,如机械制造企业中的动力生产、工具制造、设备维修等。可靠性需求:1×10-5;数据率需求:Mbit/s~Gbit/s;包大小:>200 Byte。
2.8 AGV导航
AGV是一种装备有电磁或光学等自动引导装置,能够沿规定的导引路径行驶,具有安全保护以及各种移载功能的运输车。双向、计算时延要求:50~100 ms之间[24];发包周期:40~500 ms,数据包大小<1 500 Byte[25]。
2.9 生产设计与方案检测
工业互联网中的生产设计包含设计规格、模型、过程和工程数据等,将工业模块设计成符合用户需求的过程。生产设计是解决制造产品工艺流程的过程,根据施工工艺与生产管理一体化的要求和生产条件进行产品方案设计。方案检测例如汽车碰撞破坏试验,碰撞一次需要180多万个数据,数据量和算力需求较大。
3 工业互联网中的算力网络部署视图
根据工业互联网中业务需求和数据流向[25]以及算力网络的配给,工业互联网内网和外网中的算力网络部署如图1所示。其中算力配给网络与超算中心构成工厂外网,生产现场网络、生产办公网络和园区网络构成工厂内网。内外网均部署有连网的算力资源,工业智能任务可以根据对算力的需求和任务时延限制决策任务的处理位置。具体来说,任务时延限制指任务处理所能容忍的最大双向时延,包括任务数据上行传输时延、任务数据计算时延以及结果回传时延。由于工业外网算力网络由远距离超算中心组成,长距离数据传输导致延迟较大。据中国信通院估算,将数据任务卸载至远程的超算中心进行分析与处理,并将计算结果回传的双向延迟最低设置约为50 ms。因此,任务处理双向时延限制在50 ms以内的可在工厂内部进行处理,高于50 ms的应用可在工厂外网的超算中心处理。
图1 工业互联网中的算力网络部署视图
3.1 生产设计与方案检测
工厂内网是指在工厂或者园区内部,满足工厂内部生产、办公、管理、安防等连接需求,用于生产要素互联以及企业IT管理系统之间连接的网络[25]。工厂内网分为生产现场网络、生产办公网络和园区网络,其中算力网络分别部署在生产现场网和园区网中。
3.1.1 生产现场网络
生产现场网主要负责连接现场的生产设备,为现场生产提供实时的智能服务,可支持电机等控制类业务、传感器等采集类业务、AGV导航等连接类业务等多种业务类型。生产现场网络包括工业总线/工业以太网、工业无线、时间敏感网络(Time Sensitive Networking, TSN)/工业光网、5G/WiFi/低功耗广域( Low Power Wide Area,LPWA)网以及现场级算力网络。采用现场总线、工业以太网等有线方式和5G/WiFi等无线方式将自动光学检测(Automated Optical Inspection,AOI)、机器人、AGV、传感器、监控装置、电机和智能终端等生产要素接入工厂内网。由于生产现场不断产生海量的生产数据,而对数据的处理和分析需要大量算力,因此现场级网络泛在部署大量的计算资源,需将大量的算力资源组网形成算力网络,负责为现场级应用的运行提供算力和网络资源,现场级算力网络通过安全网关连接至生产办公网。
3.1.2 园区网络
企业生产办公网络是工厂内网中面向人与人、人与机器之间连接层级的网络[25]。生产办公网包括办公网、企业私有云数据中心,对外连接园区网络,对内通过工业以太网和光网络连接生产现场网络。企业私有云数据中心主要承载企业生产和日常办公所产生的各类生产相关数据,以及制造执行系统MES、企业资源计划系统ERP、客户关系管理系统CRM等企业正常运行所必须的各类管理和信息系统。生产办公网对算力需求较小,因此仅部署少量边缘计算服务器。
3.1.3 生产办公网络
园区网络是部署在工业互联网内网以实现园区企业设备互联和信息互通的网络基础设施[27]。园区网络配备有核心交换机,连接出口路由器和安全网关到工厂外网,连接集中式的内网编排控制器,通过园区网连接园区的小型云数据中心,通过网关连接园区公共服务算力网络,通过安全网关连接至生产办公网络。由于园区内存在大量监控、传感器、车辆等物联网设备,因此实时产生大量的数据,为实现大量园区数据的高效处理,园区网内部署大量的边缘计算服务器,并组网形成园区公共服务算力网络。内网编排控制器部署在园区网络中,对内网算网资源包括园区网、生产办公网以及生产现场网络资源进行统一管控。内网编排控制器具有算力服务、算力建模、算力通告、算力OAM和算力路由等算力关键能力,算力在内网由编排控制器分配。
3.2 工厂外网算力网络部署视图
工厂外网是指支撑工业全周期各项活动,满足工厂数据、应用、业务需要或者其他网络连接需求的网络[25]。工厂外算力网络部署包括算力配给网络和超算中心。为保证工厂内网和工厂外网之间的无缝衔接和融合,二者之间配备有出口路由器和安全网关,目的是在数据顺利流通的同时进行有效的安全隔离,实现敏感数据不出工厂,避免受到互联网中的恶意攻击。
3.2.1 算力配给网络
算力配给网连接多个超算中心,通过动态实时感知算力资源状态,将用户业务调度到最优的超算中心,实现算力的自由流动[26]。算力配给网负责东西部之间的数据传输,是东数西算的网络动脉。算力配给网通过一系列路由器连接外网编排控制器至西部的超算中心,同时通过出口路由器和安全网关与工厂内网进行连接。外网编排控制器对算力配给网的网络资源、超算中心的算力资源进行高效调度与分配。由于外网规模大,网络异构性强,因此外网编配控制器采用分布式部署,具有算力服务、算力建模、算力通告、算力OAM以及算力路由等算力关键能力。
3.2.2 超算中心
超算中心是部署在西部,例如乌兰察布市、甘肃庆阳市和山西阳泉市的算力生产网,具有强大的计算和存储能力,可以为延迟要求低、算力需求高的工业应用提供强大计算能力。超算中心通过优化异构算力之间的连接结构、增加内存容量、扩展存储容量、增加网络带宽、优化任务卸载策略以及计算资源分配来最大化提升超算资源的算力产出[26]。
3.2.3 内外网任务分配
根据上文中工业互联网智能应用对算力网络的需求,将上述智能应用分别分配到工厂内外网中计算,如表1所示。要求双向时延在50 ms以内的放在工厂内网,高于50 ms可以放在工厂外网。
表1 工业互联网智能应用对算力网络的需求
4 工业互联网中算力网络面临的技术挑战
4.1 算力度量和表征
算力度量是对计算资源能力和计算任务需求进行统一的抽象描述的技术,而对工业算力网络中异构的逻辑算力、并行算力和神经网络算力进行一体化度量中存在以下挑战:
① 传统网络度量仅需对网元的能力进行度量,而工业算力网络中需要一体化对网元、算力、存储能力进行一体化度量和建模;
② 考虑到工业异构算力中包括CPU、GPU、FPGA、ASIC、NPU以及TPU等不同类型的芯片,需要对不同类型的芯片算力进行统一的衡量;
③ 需结合算力路由、算力设备管理以及算力计费等需求对异构算力进行一体化表征。
4.2 算力标识
异构算力需要进行统一的标识,并结合网络标识和业务标识来建立对应的映射关系,而在海量异构的算力网络中如何进行标识依然存在以下问题:
① 工业外网算力资源由不同的算力服务商提供,标识符和标识体系可能存在差异,需对不同的标识体系进行对等解析;
② 新型工业内外网算力标识解析系统需与现有网络标识解析系统互联互通;
③ 算力标识不仅需要对算力资源提供标识服务,还需对算力服务,包括算法、智能模型提供标识服务。
④ 由于工业网络具有极高隐私性和安全性要求,海量的工业内网算力需要对身份及权限进行细粒度管理,在技术实施上存在较大困难。
4.3 算力感知
算力感知是网络对算力资源和算力服务的部署位置、实时状态、负载信息、业务需求的全面感知。在算网统一度量的基础上,构建融合用户需求、应用需求、网络资源和算力资源的多维度感知技术,目前工业算力资源感知依然面临以下问题:
① 工业互联网中海量业务的处理导致内外网算力是高动态变化的,现有算力感知技术很难实现大规模、高动态性算力资源的实时感知。
② 需针对大规模、泛在、异构的算力资源提供主动和被动的算力感知机制,包括算力通告技术和基于时空表征学习的算力发现技术。
4.4 算力智能
随着工业智能的发展,工业算力中越来越多地部署智能应用。然而智能应用在算力网络中训练、部署和推理的过程中都存在着以下挑战:
① 算力网络中边缘计算服务器算力受限,传统AI模型的训练和推理对算力需求高,因此如何实现轻量化的模型训练和推理是亟待解决的问题。
② 工业场景需要基于实时数据对模型不断进行训练和改进以提高模型的精确度,为保障训练过程的数据隐私性,提高训练过程的效率,可采用联邦学习技术进行模型训练。因此,异构且分布式部署的边缘计算服务器需协同训练以实现高效、可靠的模型训练。
4.5 算力路由与调度
算力路由和资源调度是基于对网络、计算、存储等多维资源以及服务的感知,通过对算力和网络等多方面资源进行协同优化,按需生成任务调度方案及任务卸载路径的技术,目前在实际应用中还存在以下问题:
① 工业算力网络包括内网和外网多层算力资源,因此如何进行多层路由,包括多层域内路由和域间路由是亟待解决的问题;
② 工业任务的处理需要联合调度异构的算力资源,如何针对多元业务的不同需求对异构算网资源进行一体式路由和调度存在困难;
③ 工业任务对处理时延要求极低,对可靠性要求极高,因此算力路由节点需要维护算力资源和网络的资源实时状态信息,同时根据业务需求生成高效可靠的路由和资源调度策略。
4.6 算力安全
工业互联网对生产过程和数据的安全性和隐私性要求极高。而利用算力网络中泛在、异构、海量的计算资源来为高可靠性要求的工业智能任务提供服务的过程中可能存在以下安全问题:
① 工业内网及外网的算力资源被恶意攻击导致计算错误、计算结果在回传过程中被恶意篡改导致生产事故;
② 工业数据在传输和计算过程中容易泄露和被篡改,尤其是将工业数据传输至外网算力网络时被窃取和篡改的可能性高;
③ 工业外网算力网络中,在多云供应商情况下,对分布式计算服务器的算力分配和算力交易进行审计和监管困难,算力资源在开放、管理与交易方面依然存在挑战。
5 结束语
随着工业互联网的智能化发展,业务应该在云端还是边端计算是需要考虑的问题;算力网络旨在更高效地利用西部的算力资源,实现东西部协同发展,共同创造产业数字化和数字产业化新局面。算力网络是将网络与计算有效连接的一体化方案,它的发展是顺时势而为,如何构建工业互联网中的算力网络平台是工业互联网智能应用发展的必然要求。目前,工业互联网中算力网络的研究仍处于初步阶段,存在许多待解决的问题。本文在调研算力网络发展现状和工业互联网中智能应用对算力网络的需求基础上,以工业内外网为基础构建工业互联网中算力网络的内外网部署模型,将智能业务按照算力和时延等需求安排在内外网进行计算,同时总结了工业互联网中算力网络面临的技术挑战,为相关领域的研究人员提供参考和帮助。