数据中心互联开放光传输系统设计
2024-03-16鲁婉婕李升男百度在线网络技术有限公司北京100089
周 谞,王 娟,鲁婉婕,金 宇,李升男(百度在线网络技术有限公司,北京 100089)
0 引言
新型的云计算将多个物理分离的数据中心看成一个整体的云数据中心,所有计算节点虚拟成一个大型的计算资源池,云计算不仅可以跨服务器运行,也可以跨数据中心运行,而光传输网络是实现数据中心高质量互联的重要技术。
数据中心光互联网络从2010年左右逐步兴起,从最初的10G DWDM 80 波(50 GHz/grid)系统发展到当前的800G DWDM 40波系统(150 GHz/grid),单波速率经历10G 到800G 的升级,系统容量从800G 快速提升到32T,增长到原来的40 倍。伴随着速率和容量的快速增长,针对数据中心的应用场景,数据中心互联光传输系统在网络架构、系统设计[1-3]、设备硬件形态、软件接口定义[4-6]、系统保护、网络管理和自动化运维方面都有着持续的发展和创新。
1 数据中心光互联网络结构
1.1 云网络结构
云计算是由一个区域(Region)内多个不同的可用区(availability zone,AZ)共同提供服务,每个AZ 的物理位置不同。为了容灾备份的需求,不同的AZ之间的距离需要足够远,从而降低多个AZ同时受到地区停电或极端天气(如洪水等)影响的可能性。每个AZ 都具有独立的电源、制冷设备和网络基础架构,从而保证在一个AZ 数据中心出现故障时,其余的AZ 仍然可以支持该区域的云计算服务正常的工作,提供区域云服务的高可用性。
对于同一个区域,云计算需要支撑计算、存储和数据资源的高性能互访,因此同一个区域内的不同AZ需要通过高性能网络连接,往返延迟需要小于2 ms,对应光纤传输距离约为200 km。预留20%的时延冗余用于交换机转发和业务处理时延,一般最长传输距离控制在160 km 以内。综合考虑灾备需求和网络延迟的互访体验,典型的光纤传输距离为80 km,对应单跨段的光传输系统。
云网络在一个区域内,一般由3~4 个AZ 组成,每个AZ 之间采用点到点直连,相互之间形成Mesh 全连接结构,这样可以保证在不同AZ 之间的访问延迟最低。如果区域内的AZ 数量比较多,在传输时延不超过2 ms 的前提下,2个AZ的互联也可以通过第3个AZ进行中转。
1.2 数据中心光传输系统的演进
在传统的电信传输网络中,光传输网络需要覆盖从骨干网、城域网到接入网的全场景,网络结构包括骨干的点到点结构、城域的环形结构和接入网的星形结构。针对电信网络,光传输系统的光层和电层需要进行联合系统设计,追求端到端的最佳系统性能,因此更加注重光层性能的联合调优,包括光放大器、合分波、波长选择开关等,这导致光传输系统一般采用封闭系统设计。如图1(a)所示,即光层和电层采用同一厂商,这同时也利于实际工程的快速建设和业务部署。此外,在电信网络中OTN 设备需要支持多种上层业务或协议,如SDH、ATM、以太网等,业务粒度从1 Mbit/s 到100 Gbit/s,同时需要支撑从小粒度的多元化业务到大粒度的光通道传输单元(optical channel transport unit,OTU)的映射,这导致传输电层板卡的类型和结构更加复杂。
图1 开放光传输系统结构示意
如1.1 节中所述,数据中心互联的光网络一般以点到点的光传输系统为主,传输场景限定在160 km 以内,对于大容量相干光通信系统来说,系统有充足的光信噪比余量。由于数据中心光互联网络结构简单,可以独立地设计高性能的开放光层设备,即可保证不同的电层设备能够平滑地接入到系统中,不同厂商的电层信号可以在同一套系统的不同波道进行并行和高质量传输,如图1(b)所示。在业务承载方面,数据中心光互联主要承载的业务类型为单一的以太网业务,因此,电层传输设备的结构也更简单,在2.1 节设备硬件设计中会重点介绍。
1.3 光传输系统路线选择
如图2 所示,由于数据中心互联光传输系统的结构和业务简单,除了传统的OTN 传输设备,还可以采用IP over WDM 的方案承载业务。传统的OTN 传输设备互联具有业务接入速率灵活的特点,可以很好地解决传输系统单波长速率和IP 设备(交换机、路由器等)接口速率不匹配的问题。例如,当前数据中心互联光传输系统典型的单波速率为400 Gbit/s,下一代单波长速率800 Gbit/s的设备即将大规模商用,而数据中心互联的存量IP 网络设备接口大部分还在100GE,400GE 接口的占比较小,因此,采用OTN 电层板卡可以很好地完成从低速率的以太网业务到高速率的OTN 业务的汇聚和转换。同时,由于OTN 设备形态对电层板卡功耗、体积、散热等方面要求较为宽松,OTN 传输设备的系统性能一般可以覆盖DCI 全场景的应用。
图2 IP over WDM 互联方案示意
针对数据中心互联80 km 的场景,光互联网络论坛(optical Internetworking forum,OIF)还推出了基于100G ZR/400G ZR 标准的IP over WDM 方案[7],该方案利用硅光等光子集成技术的发展,可以实现低功耗、小体积的相干彩光光模块封装接口QSFP-DD 或OSFP,该封装功耗和体积都可以直接兼容交换机接口,典型功耗低于20 W。100G ZR/400G ZR 光模块可以直接插入交换机端口,接入开放光层设备,从而实现IP over WDM 的业务承载。但是对功耗的严格要求,限制了光模块的传输性能,因此该方案一般适用于单跨段、低损耗的点到点传输系统。例如,微软在2023 年OFC 上报道其400G ZR 的主要应用场景在40 km以内,跨段光纤衰减<12 dB[8]。
2 开放光传输系统的设备设计
2.1 硬件设计
数据中心开放光传输系统的创新包括硬件创新、标准的软件接口和统一的网络控制器等,其中硬件创新分为光层设计和电层设计2个方面。
光层设备的定义是指负责在光域内进行信号处理的设备,例如完成光信号合分波、光功率放大、光保护、光监控等功能。传统的框式电信设备,由于追求场景覆盖的多样性,一般以器件类型和参数为中心进行设计和开发光层板卡。典型的光层板卡如光放大板卡,根据光放大器的类型开发设计掺铒光纤放大器(EDFA)和拉曼放大器的光放板卡,又根据光放增益的范围设计不同型号的EDFA 放大板卡。根据不同应用场景的实际特点,使用不同的板卡组合从而达到最优的效果,导致板卡的种类和型号较多。
开放光传输系统多采用高集成的方案,如图3 所示,一套点到点的开放光传输系统,只有光保护板卡、合分波板卡和光放大板卡3种类型器件组成。光放板卡集成了可变增益(switched gain)的EDFA 模块(覆盖不同的增益范围)、光监控通道(OSC)模块和光频谱监控模块等。高集成化的设计,最大程度地减少光层板卡的类型,减少了系统内部连纤工作,从而提高工程人员施工便利性,同时也降低运维人员的学习门槛。
图3 开放光传输设备硬件设计
电层设备主要负责在电域内进行信号处理,主要将各种客户侧的业务信号转换成线路侧的标准OTN帧格式信号,从而在光纤中进行传输。同时,在接收端完成OTN 信号的接收,转换为各种业务信号。传统框式设备需要承载多类型、多速率的业务,在传输线路侧和业务客户侧往往需要一个电交叉板卡,完成业务的汇聚和交换等操作。
在数据中心互联中,盒式电层设备只需要完成简单的高速率线路侧到低速率客户侧的映射,承载业务为单一的以太网业务,业务映射简单,这导致盒式设备的电层板卡可以去除电交叉单元。如图3 所示,只需要将OTN 的高速率信号映射为多个低速以太网信号即可,由于结构简单,线路侧和支路侧常常可以在一块板卡上实现,被称为支线合一板卡。由于板卡结构和业务承载简单,盒式电层板卡的成本更具有优势,从而被广泛使用。
2.2 软件设计
在传统的电信传输网络中,设备软件对用户来说是一个黑盒,用户只能通过网管界面和有限功能的网管北向接口和设备进行交互,以实现对光传输系统的配置、管理和维护。不同厂商设备接口协议的私有属性和多样化,增加了光传输系统的运维复杂度和成本,也使得网络运维自动化的开发受限于厂商的研发投入和时间进度,不利于光传输系统的智能化发展。
针对上述传统设备软件存在的问题,由互联网及云服务提供商为主推动的开源项目OpenConfig定义实现了一套通用的、供应商中立的设备软件接口模型。该方案使用数据建模语言YANG为设备的配置数据和状态数据提供了一致的结构语义,结合以数据模型为驱动的网络设备管控协议如NETCONF、RESTCONF、gNMI 等,屏蔽不同厂商硬件的差异,给网络设备的管控提供标准化和一致的接口。除了同时涵盖了IP 网络设备与光网络设备的OpenConifg 项目,同样基于YANG 语言实现的、由北美运营商为主推动并开源的项目OpenROADM 定义的另一套标准化接口与数据模型则主要致力于推动网络设备、支持可重构光分插复用器(ROADM)设备的开放和互联标准。
OpenConfig 与OpenROADM 项目对设备数据模型和软件接口做出了标准化的定义与规范,降低了多供应商网络中设备管控的复杂度。但这种“灰盒”解决方案没有对设备的操作系统提出标准化的要求,设备软件功能的具体实现仍依赖于各个厂商各自封闭的操作系统与底层驱动。为进一步增强光传输系统软硬件解耦程度、提升光传输系统开放性,SONiC-OTN项目被提出。该项目定义了光传输抽象接口(OTAI)来对光传输网络特有的硬件操作进行抽象,使能了开源网络操作系统SONiC在光传输系统中的应用。
综上,从OpenConfig 和OpenROADM 定义的设备数据模型与软件接口形成的灰盒方案,到开源光传输操作系统SONiC-OTN 形成的白盒方案,随着开放光传输网络设备软件设计的不断深入,开放程度不断提升。
3 开放光传输系统的系统设计
3.1 统一网管
为了实现对开放光传输系统的管理和监控,传输网管仍然是运维人员与设备交互的主要界面。但是与传统网管不同的是,应用于开放光传输系统的网管必须实现多厂商设备的无差别纳管,即统一网管。
虽然开放光传输设备在硬件上白盒化和软件上标准化,屏蔽了各传输厂商带来的差异性,为统一网管采用标准的接口和协议管理各厂商设备奠定基础,但是统一网管对各厂商设备的软件适配和测试工作是必不可少的。
统一网管对设备的适配工作并不仅停留在设备软件模型的验收上,还需从运维人员的角度,对日常建设和运维过程中的全部应用场景进行模拟操作和测试。适配测试工作可以重点分为子网/网元维护、网元/板卡操作、告警/事件上报、系统功能优化4个方面。
子网/网元维护能够展示传输拓扑,协助管理者梳理并掌控传输设备的部署以及其系统级别的性能指标,并联动告警,比如光缆染色等,实现快速定位设备和光缆故障等;网元/板卡操作是统一网管通过标准软件接口对设备状态的配置和查询,比如光层光放、倒换保护板卡、电层OTU 板卡以及风扇、电源、主控等公共单元板卡;告警/事件上报是设备以订阅的方式将设备的重要行为事件(比如上/下电、重启等)和故障状态提交,除了日常运维关注的故障部件、发生时间、恢复时间以外,统一网管多采用当前告警、历史告警等形式来区分长期积累的大量告警,以保证管理者不遗漏现网故障。
统一网管的系统功能优化包含工程建设和运维2个方面,比如工程建设涉及到的设备上线、网管设备接入、软件升级、传输业务路径建立等。日常运维涉及到板卡/模块故障替换、故障环回定位、光缆故障业务倒换、当前/历史性能监控、设备下线/利旧等,针对这些工程运维操作,实现相应的自动化功能,设计友好的交互界面,是提升统一网管易用性的主要工作。
3.2 高速保护系统设计
数据中心互联传输系统的光纤敷设在户外开放环境中,户外的施工会导致光纤中断或裂化等故障,因此开放光传输系统通常采用光层保护技术,保证承载业务的不中断。在开放光传输系统中典型的系统保护方式包括光通道保护(OCH-P)和光复用段保护(OMS-P)2 种,OCH-P 的保护板卡位于电层板卡线路侧输出端,主要保护单个光波长通道的业务。OMS-P的保护板卡位于波分复用器后,用于保护所有波分复用信号。
相比传统的电信业务,云计算服务在同一个区域内的不同AZ 机房内进行分布式的计算和存储等操作,因此,区域内不同AZ 之间的互联传输系统对稳定性提出了更高的要求。几十年来,电信行业一直遵守着50 ms的ITU 标准保护倒换恢复时间[9],但近年来在DCI 互联高速光保护系统上出现了更多的创新[10-11]。依靠新型的高速光开关和更高效的相干数字信号处理(DSP)业务恢复算法,可以实现5 ms 的光层高速保护倒换和业务恢复,让业务层丢包数量减少90%。传统的光层保护板卡一般采用机械式或MEMS 光开关,光开关切换时间在1~10 ms,高速保护倒换系统一般需要光开关的切换时间在微秒级别,例如磁光开关的典型时间为30 μs。应用于长途光传输的DSP 模块在处理光层保护倒换时,一般需要考虑到几百或上千千米的主备路由传输长度差,这导致DSP 模块内部色散处理单元需要进行大范围的扫描和锁定,但是对于点到点单跨段为主的DCI 互联,DSP 可以针对性地进行色散优化处理,从而实现3~4 ms的业务恢复时间。
此外,为了防止传输保护倒换的中断引起IP 设备的端口震荡和协议收敛,传输电层设备一般采用电层告警延迟发送技术。在常规模式下,因为传输设备线路侧中断时,传输电层设备在客户侧会向IP 设备发送LF(local fault)信号,防止网络设备端口单向通信,造成数据黑洞现象。但是一般传输保护倒换时间极短(ms级别),远小于协议收敛的秒级别,因此,传输设备会采用LF告警延迟发送技术,在保护倒换的业务中断期间,持续向交换机发送净荷为空的以太网包,超出一定的设置时间,才认为业务是真正中断,再向IP 设备发送LF告警,防止IP层的协议收敛丢包。
3.3 故障定位和止损系统
光传输网络的可靠运行需要依赖故障发现、故障定位和及时的故障止损。由于开放光传输系统在底层设备软件层面实现了标准化,因此在自动化故障定位和自动止损上具有天然优势。
故障定位需要通过检测和分析设备的告警信号、采集设备的性能指标、检查设备的配置变化等方式来确定故障的具体位置和原因。光传输系统中最常见的故障类型包括光纤故障、设备故障、电力故障等。其中,设备故障和电力故障通常会在设备侧有明确的告警信号,因此定位相对容易;光纤故障伴随着线路侧收光丢失、倒换保护等告警信号以及收光功率抖动等性能指标的变化,因此在复杂的组网中需要结合时空信息关联进行故障定位。
自动止损作为一种高阶的运维功能在开放光传输系统中也得到了应用。在一个具备双路由保护的系统中,如果单个路由出现异常,可以通过光功率监测、电信号质量监测的方式触发倒换保护,从而实现故障止损;如果已有监测指标设置不合理导致倒换保护失效,则可以通过在软件层面监测特定告警的产生触发光路切换,避免信号完全中断;如果多个路由同时故障导致信号质量劣化,可以与IP 设备联动直接关闭对应网络端口,或者选择直接关闭光传输链路避免丢包率持续走高。自动止损的第2 个思路是配置调整:如果故障的产生是由于光链路衰耗异常增大或系统配置异常,则可以通过上层控制器进行全局配置优化,保证信号质量。
除了在故障发生后才做相应处理外,通过日常巡检来及时发现和解决潜在问题,降低故障发生的概率,也是保证系统稳定运行的一个重要方面。最常见的方法是做信号质量检测,主要包括光纤链路的输入输出光功率变化(评估链路衰耗变化)、pre-FEC 和post-FEC 误码率(评估系统的信号传输质量)、光谱信号分析(保证所有波道都处于可用状态)。
除此之外,常见的设备状态检查(温度变化、电力情况、风扇与冷却)在故障预防中也起到了关键作用。尽管日常巡检可以手动运行,但通常会选择自动化工具实现定期巡检,提高效率和准确性。
3.4 性能估计和风险预测
开放光传输系统实现光层与电层设备的解耦,可以充分考虑系统保有成本、技术路径选择,灵活地进行系统建设和扩容,波分系统也具有波长间异厂商、多速率混传的特点。在系统灵活度增加的同时,由于不同波长来自不同的供应商以及不同的线路侧速率对系统性能要求不同,为保证各波长的性能在开放光传输系统的全生命周期中处于最优水平,因此要求网络规划者具备精准传输性能估计(QoT-E)[12]的能力,用以指导系统中的波长新增与删减。
在光传输系统运行过程中,难以避免地会出现光纤中断、设备硬件失效等故障,为保证网络的整体高可用性,在做好系统冗余保护、故障快速止损的同时,更加需要对潜在的风险进行有效预警与解除,从而减少故障的发生。
精准性能估计与风险预测的统一手段是为光传输系统建立数字孪生体[13-14],在系统规划、建设、运行的全生命周期内对传输性能、健康度进行表征。光传输系统的数字孪生体一般由物理理论模型以及数据驱动的神经网络模型共同组成,在系统规划阶段,物理理论模型占主导作用,配合厂商测试的电层、光层特性数据以及预训练的光组件、端到端等通用神经网络模型形成孪生体的雏形;系统建设上线后,根据telemetry 实时采集的电层、光层数据,如各波长收发光功率、纠前误码率、色散、光链路中各节点光功率等,进行光链路的物理参数校准以及各类任务的神经网络模型的训练及微调。光传输系统的完整数字孪生体建立后,数字空间则存在与物理实体高度一致的镜像模型,可以方便地进行各类操作预演并评估操作结果,还可以对系统各部分的未来状态进行预测。下面举例说明数字孪生体在性能估计和风险预测方面的作用。
波道扩容过程中的入纤功率优化。相邻2次系统扩容建设间,随着技术的发展会涉及更高线路速率、多波段(例如L波段)的扩容。为保证扩容后各波长的接收仍处于最佳性能状态,需考虑SRS效应、克尔非线性效应后对各波长的入纤功率进行调优,此时可通过数字孪生模型并结合寻优算法为波长确定最佳的入纤功率。
OTU 故障预测。光传输系统中的设备故障率最高的部分为电层OTU,且电层部分故障后光层的所有冗余保护将失效。通过长周期监测OTU 各关键参数来训练故障预测神经网络,可主动发现电层故障,有效提高业务稳定性。
总的来看,开放光传输系统相较于传统封闭的光传输系统,更需要建立数字孪生体,以进行全生命周期的精准性能估计、风险预测及隐患处理。
4 结束语
数据中心互联开放光传输系统作为近年来的研究热点,从硬件、软件和系统层面均有了较大的技术创新,这些技术在国内外的云计算网络中得到了广泛的应用。随着以通用大模型为代表的人工智能技术的突破进展,当前开放光传输系统正在向高速率、高容量、自动化和智能化发展,更多的创新技术将被研究和应用。