面向算网融合的全光算力底座构建与实践
2022-05-31李壮志吕文琳张立明
李壮志 吕文琳 陆 源 张立明
1 中国联合网络通信有限公司山东省分公司 济南 250002
2 山东省邮电规划设计院有限公司 济南 250031
引言
当前数字经济化转型大潮下,运营商一边面临着传统B2C业务的人口红利逐渐消失,收入增长放缓的现实,一边又迎来了千行百业上云和数字化转型带来的新的收入增长机会。海量的数字化应用需要差异化、内生安全的算网基础设施和使能平台,运营商逐步开始以网促云和以网促算路线打造差异化的云网、算网竞争力,赋能全行业数字化转型,在开拓新的收入增长点的同时进一步支撑数字经济高质量发展。面向数字化转型大潮,作为算网融合基础设施之一的品质光网则是数字化经济的基石,是推动各行各业数字化转型的重要推手。
2021年中国联通发布CUBE-Net3.0网络创新体系,作为中国联通未来5~10年网络转型的顶层架构设计,提出了算网一体、云光一体、确定性服务三大业务使命和一个基于AI和数据驱动的控管体系,构建“算网为基、数智为核、低碳集约、安全可控”的算网一体底座,将传统的联接服务升级到“联接+感知+计算+智能”的“智能融合”服务,在整个转型过程中全光网是使能算力即服务的关键能力[1]。某省联通始终坚持“创新,与智慧同行”的理念和CUBE-Net架构的指引,网络建设方面持续不断地探索创新,全力服务省内新旧动能转换及企业数字化转型的需要,提出了“三步走”战略,从智慧光网到智慧光云,再到迈向全光算力网络时代,不断夯实智慧光云城市底座,为企业和算力之间搭建数据高铁,探索F5G+X的新场景服务于千行百业。
1 算网时代对全光底座的架构挑战
算力网络是一种根据业务需求,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。算力是构建未来智能社会的基础,未来10年,面向智能世界,计算与网络将高速发展,未来会存在云、边、端三级算力,三者协同发展[2]。如图1,算力当前呈现的趋势是从通用计算走向超算/AI,架构从“端—云”走向“端—边—云”,云网时代的企业上云,云资源是企业IT必要的组成部分,大部分应用是联接1个企业,架构是少量业务上公有云(非核应用)。算网时代的特征是从“联接1个企业”到“联接N个机器”,从“部分上云/算”到“根据业务类型上不同云/ 算”,从“带宽”到“带宽+时延+安全可信”。
高效算力对网络的要求主要体现在“高速泛在”和“弹性协同”两个方面,前者需要网络能够有强劲的运力来保障算力的供给,后者需要网络能够保障算力供给的敏捷性,体现算力均衡和算力随选等能力。运营商层面,迫切需要打造一张面向未来算网融合的承载网络,包括基于增强IP属性的承载网(利用SRv6、算力信息感知技术等)和基于OTN技术的品质全光网(分组增强型技术、OSU切片技术等)[3]。OTN品质全光网作为入云/入算通道和云间通道的承载方式之一,将面临着业务的动态性和不可预见性,而传统的光网新增业务基本是采用滚动规划的方式预测和建设,并且基于固定速率的接口采取逐层分离式管控,其“过设计”和“静态化”等特性显得承载效率低下,算网时代需要建立一个灵活、开放的全光算网底座架构,构建智能动态的基础承载网络。
如图2所示,全光算力底座面临的架构挑战主要体现在以下四个方面。1)超宽互联:从传统的数字专线到云专线再到算网的发展过程中,点对点小带宽专线将转变成云间互联、DCI互联、边云协同/边边协同等大带宽电路,这就要求网络具备超宽互联的特性。2)确定体验:业务体验从传统网络的尽力转发、业务质量不可视,到确定性体验的转变,需要重点提升流量、时延、抖动、丢包率等指标的全网感知能力。3)算网融合:随着企业上云,算力变成一种资源,复杂的网络交互需要全部在云上完成,网络和算力需要互相感知并协同,例如OTN品质光网需要打通入云/入算通道,管理编排需要针对算力和网络资源进行协同。4)泛在接入:无论是个人还是行业用户均可以通过多种接入手段,包含OTN/PON/MSTP/ETH等一跳入算,高品质客户可通过分组增强型光传送网(PeOTN)实现弹性硬管道感知业务,动态调整保证安全和体验[4]。
2 全光算力底座的分步构建策略
以某省联通实践为例,提出了面向未来全光算力底座的三步走战略。第一步:从传统业务到智慧光网,此阶段主要聚焦超宽互联;第二步:从智慧光网到智慧光云,此阶段主要聚焦云网融合和泛在接入;第三步:打造全光算力底座,此阶段主要完成算网融合和确定性体验。某省联通2019年创新推出了“SD-FAST”智慧光网,通过先进的分组增强型OTN技术、云网协同器和智慧管控引擎,为党政军、金融、医疗、制造等各行业,提供高品质的政企专线联接方案。2020~2021年,率先开启从智慧光网到智慧光云的探索和建设,提出了智慧“光云十六城”的建设规划,通过强大的全光网与信创云、政务云、医疗云、金融云等融合,提供光云一体化的服务能力。2022年以来,某省联通面向算网融合,开始打造一张确定性时延、确定性带宽、确定性可用率的高品质全光算力底座网络,在光算协同、边端联接、可视化运力等方面持续创新。
2.1 智慧光网的构建
战略的第一阶段是从传统业务过渡到智慧光网。传统OTN网络各层基本背靠背连接,业务在不同层级分界点均上下调度,干线业务基本均为透传,由本地设备进行打散。本地OTN承载传统类型业务,基本是匹配业务网流向,为分段部署分段承载,OLT业务在县局大二层节点落地,城域网业务在地市核心CR点落地。不同层面的对通方式为UNI对接,针对政企客户专线等业务,缺乏端到端开通管理和业务调度能力,业务时延大,缺乏智控能力。
智慧光网目标是构建端到端一体化智控网络,网络层面技术手段主要解决背靠背上下业务效率低下、成本高和时延大的问题,跨域互联由传统小颗粒UNI对接转变为100G NNI对接;同时面向5G、政企、DC布局,通过部署PeOTN技术来构建适应灵活业务承载的智慧光网。端到端一体化网络的手段是通过三个一体化构筑端到端政企精品网全面领先,即国干省干一体化、省干本地一体化、市县乡穿通一体化。业务层面主要基于SDN技术部署单域控制器,同时部署网络协同器并打通B/O域流程,制定“双线”业务发展规划,推出SDN化产品,细分行业应用场景,提供差异化产品。以某省联通为例,打造了“SDFAST”智慧光网专线产品,具有快速响应(Flexible-provide),弹性带宽(Agile-bandwidth),自助服务(Self-manageable)和时延可视(Time-visible)四大特点,为政企客户提供了高品质的服务体验。通过SD-FAST产品,OTN专线上升趋势明显,MSTP专线逐步迁移到OTN,腾退老旧SDH设备,实现绿色节能[5]。
智慧光网阶段,通过双平面构筑全光立体骨干网,双节点双路由,与本地网双核心进行光电融合。某省联通提出的“智慧光立方网络”整体架构如图3所示,通过与原省干一平面异局址所在的本地网核心MESH互联建设省内骨干网二平面,并与原一平面进行ROADM光层对接打通,形成立体互联灯笼网络,打造出省内全光立体骨干网络,全程全网全光ROADM智能一体,路由更加丰富,可以实现资源互补和多路径保护,当某一段链路利用率较高时,可通过部分路径立体绕行,均衡整个网络资源利用率。
2.2 智慧光云的构建
战略的第二阶段是从智慧光网演进到智慧光云。智慧光云的目标是在智慧光网的基础上进行前后的延伸,融入云端和末端,实现云管端协同,让客户入网即入云。具体到建网方式上,首先是向下深度覆盖,末端建设就是要把全光锚点持续进行下沉,采用PeOTN-CO价值分级建网方法下沉节点深度覆盖用户热点,使任何企业在2km范围内都能接入智慧光云网络,实现用户便捷、高可靠接入,入网即入云[6]。第二是向上光云融合,实现光云一体,一跳入云,实现云池100%覆盖,即智慧光云网络覆盖所有的云池,OTN实现100%预覆盖,同时进行10GE预连接,随时能开通云接入[7]。智慧光云网络架构如图4所示。
此外,通过定义智慧光云城市的指标来衡量基础建设能力,从“连接密度”“确定体验”“计算密度”三个维度分别定义了智慧光云城市的关键指标,如表1所示。在连接密度方面,定义了城区至少0.5个OTN节点每平方公里和每个乡镇至少1个OTN节点的覆盖密度。在确定体验方面,定义了可用率、时延、丢包率等硬性指标,提升服务标准。在计算密度方面,要求OTN光节点和云池100%进行覆盖预连接配置,以实现快捷入云。
表1 智慧光云城市的关键指标
2.3 算网融合,打造确定性的全光算力网络
战略的第三阶段是持续加强算网融合,打造确定性的全光算力网络。算力已成为生产力,气象预报、航空航天、图像渲染、自动驾驶、智能制造等应用场景都需要海量的、实时的数据计算能力。算力网络是搭建一张可以连接算力的网络,让需求端可以快速、无损地享用所有的算力供给。全光算力底座需要进行持续优化网络,通过全光网络的持续延伸,打造一张确定性时延、确定性带宽、确定性可用率的高品质全光算力网络,为算力的需求端和供给端提供大带宽、高可靠、低时延、零丢包率、“0”抖动的超强运力“高铁”,让企业可以无时无刻都能享受到云端算力[8]。
如图5,全光算力底座架构主要特征是:1)骨干网基于OXC和集群技术,实现大容量高速互联和灵活调度,由当前单波100G/200G向单波400G/800G演进,满足大算力节点联接需求。2)城域层面引入OSU切片技术,满足业务灵活入算能力,实现弹性带宽运力应对算力洪峰。3)光算力锚点呈现多元化和差异化融合趋势,通过OLT和OTN组合为光算力锚点,面向边端联接提供差异化接入方式。4)持续优化确定性体验功能和网络可视,基于带宽、时延、距离、跳数等综合权重打造直观可视的运力地图,精细化管控,实现算网高效调度。
3 全光算力底座关键能力
3.1 光算协同
未来会存在云(中心算力)、边(边缘算力)、端(智能终端)三级算力,三者存在协同关系,部分数据云端处理,部分数据边缘处理,部分数据终端处理,同时会产生云边、边端、边边等协同数据。光算协同是针对上述算力资源的分步情况,通过OTN网络来构建确定性体验。网络为计算服务,价值在于释放算力,例如中心云与边缘云品质互联,构建边云协同算网;工业互联网、元宇宙等低时延业务在边缘云闭环等。
如图6,面向未来光算协同架构,需要在当前的云网架构基础上作如下演进:1)在策略控制层引入算网统一编排模块;在管控层引入算力感知模块。算力统一编排根据算力资源和网络资源进行业务协同编排并与云管平台进行算力通告,通过网络集中控制面分发各层级算力资源情况,由算力感知模块将云边端的算力进行管理协同。2)业务映射进全光网,需全光网具备业务切片功能(依托OSU技术实现),基于业务互联需求映射进OSU隧道,通过切片实现业务差异化隔离承载,OSU管道带宽弹性调整、OSU动态拆建,助力算力灵活使用[9]。
光算协同架构创新建议探索三类感知技术:1)地址感知,一点灵活连多云。算力节点动态调度,业务报文基于算力节点地址自动调度到目的节点。2)应用感知,网络按需服务。ONT/OLT应用感知,通告OTN(时延/带宽需求),OTN按需动态建/删/无损调整OSU带宽。3)算力感知,算力路由寻优。设备/SDN管控算力感知,并上报算网大脑,根据综合业务需求、网络信息、算力信息,计算最优算力路由,进行路由寻优调度。
3.2 边端联接
应用在哪里,算网的末梢就延伸到哪里。随着OTN下沉至综合业务接入点,边端联接能够提供差异化产品和服务能力。如图7所示,家宽和商务快线通过传统PON方式接入OLT,高端组网和入云专线通过末端增加OTN-A设备实现端到端的品质全光网联接。中端组网/入云专线(商务楼宇、智慧社区)建议采用OTN P2MP技术实现,通过OLT实现泛在接入,OLT内置P2MP支路板联接末端CPE,配置超级上行板卡接入政企OTN,将OTN的高品质和PON的广覆盖这两大优势进行完美融合,实现商务楼宇和园区内企业品质专线的快速开通。
OTN P2MP解决方案的技术特点和价值包含以下几点:1)基于时隙分配双波长CPE,稳定低时延。采用类SDH时隙分配技术,用户间时隙隔离。2)OLT切片,和家宽业务进行隔离,端到端硬管道,可以做到P2MP专线和ODN网络的物理隔离。3)传送和接入跨域管控,业务可端到端下发,SLA可视。
3.3 可视化运力
确定性体验中的关键指标包括可用率、时延、丢包率等,其中时延是释放算力潜能的核心指标之一。当前的时延测量技术局限于各个专业内,例如OTN网络通过下插PM/TCM层的开销实现时延测量,但从业务角度出发的端到端时延缺乏自动计算和可视化能力。
网络时延影响的大小与网络工作层级呈正比关系,即工作层级越低,时延约小。如表2所示,交换机和路由器的处理时延一般为1ms~10ms,而OTN网络工作在OSI七层协议模型的L0/L1层,节点时延可达μs级别,L0层的光器件则可达ns级别,光网络对比IP网络时延有较大优势。
表2 OSI对应网元时延
可视化运力作为全光算力网络的一项确定性体验指标,将支撑优质网络能力转化为领先市场竞争力,建议基于CO-DC进行时延圈层地图开发,结合城域网架构配置按需优化。如图8所示,全光算力网络的时延可以归纳为设备时延和光缆路径时延之和,光缆路径单向时延为5μs/km,OTN设备站内时延通过配置不同板卡参数纳入计算,采用SDN管控测量数据叠加路网模拟数据实现端到端时延测量。如果企业点所在位置没有OTN设备,则则虚拟该企业的入网连接,默认采用IP技术接入,采用路网长度乘以光缆系数模拟光缆长度,上下业务IP转发时延设置为0.2ms。传输网络按OCH寻路,导入SDN控制器时延数据,寻时延最低路径。
基于时延测量结果,可进行时延优化,建议如下:1)减少绕行:价值节点多路由。2)光层一跳直达:减少电层节点数。3)稳定低时延:忙闲时稳定,即OTN靠近用户,方便用户接入,减少IP转发。4)简化封装:降低电节点时延。采取OSU封装,简化业务映射封装层级(5层~3层)。
4 超算中心案例实践
如图9所示,某超算中心创建于2011年,主要提供海洋气象、生物医药、物理化学、工业领域等应用服务,已经服务400多家单位,大力支撑某省数字经济建设。超算中心全新装配的计算机系统采用万万亿次架构,峰位性能达到1.0706千万亿次浮点运算/秒,持续性能为0.796千万亿次浮点运算/秒,系统综合水平处于当今世界先进行列。为解决省内其余地市科研单位到超算中心的算力调度能力,需要全光算力底座发挥运力能力。
当算力不再是问题时,距离和带宽便成为限制大规模计算的障碍。某省联通为超算中心搭建OSN 1800/9600的端到端PeOTN组网,为各地市到超算中心搭建端到端硬管道,实现带宽零拥塞,零丢包;提供100G独享带宽和毫秒级超低时延,打破科研单位和超算中心之间的距离限制瓶颈,让算力得到充分释放。
5 结束语
打造面向算网融合的全光算力底座不可一蹴而就,需求的变化,架构的演进,技术的迭代,将共同驱动全光算网底座向开放、智能、集约化发展。在整个过程中,算力感知、算网编排、边端联接和确定性体验是关键要素。整体目标是通过算网基础设施层、算网统一编排层和运营服务层的不断突破,最终实现算力网络的目标架构。实现目标当前还存在问题和挑战,诸如跨领域架构的协同技术尚未突破,产业和生态面临挑战,业界各方需要通力合作,困知勉行,共同推动算网融合技术发展和生态繁荣。