基于FPGA的短距离传输信号实时均衡器

2022-07-06张天宇缪旻孙剑钟康平

北京信息科技大学学报(自然科学版) 2022年3期

张天宇，缪旻，孙剑，钟康平

(1.北京信息科技大学智能芯片与网络研究院，北京100192；2.北京信息科技大学光电测试技术及仪器教育部重点实验室，北京100192；3.波亿光电子深圳有限公司，深圳518057)

0 引言

随着云计算、物联网和虚拟现实等高带宽需求应用的高速发展和普及，数据中心内的短距离光通信系统已成为支撑网络容量增长的主要力量[1]。长距离传输系统中已成熟商用的100 Gbit/s系统并不适用于成本敏感的短距离光通信系统。为了实现400GE短距离光互连传输，迫切需要提升单波长的传输速率。研究表明，综合考虑系统性能和成本，4电平脉冲幅度调制(4-level pulse amplitude modulation,PAM4)是短距离光通信中一个更实用的选择,IEEE 400GE P802.3工作组已将PAM4用于数据中心互连[2]。高阶强度调制结合直接检测系统因其结构简单、实现成本低、易集成等优势，被视为短距离系统最实用的解决方案[3]。

为降低成本和提高光谱效率，短距离系统使用带宽小于符号速率的低成本光电器件，需要通过数字均衡技术补偿信号中因系统带宽受限导致的码间干扰[3]。众多离线的数字均衡算法研究表明，对于带宽受限系统，使用均衡器可以显著提高信号质量，减少前向纠错(forward error correction，FEC)算法负担，降低系统延时[1,4-5]。随着高级调制码型的使用、单波长速率和频谱效率的进一步提高，离线数字均衡算法变得愈发复杂，所需耗费的计算资源也愈发庞大。基于当前的硬件条件，如何在低时延和大吞吐量要求的实时系统中经济高效地实现高速信号数字均衡，成为影响短距离光通信技术发展的关键因素[6-7]。现场可编程门阵列(field-programmable gate array，FPGA)作为一种半定制电路，具有极强的灵活性和实时性，相较于传统CPU，FPGA的高度并行处理能力使其能以相对较低的工作频率实现巨大的吞吐量[8-9]。其可重构特性为系统设计提供了实时自适应能力，相较于专用集成电路(application specific integrated circuit，ASIC)，可快速响应场景变化调整解决方案，加快产品上市速度，降低开发成本。FPGA因其大吞吐量、高灵活度、低功耗的优势被视为实时数字均衡算法的理想计算平台。Mastropaolo[10]提出了一种基于流水线乘法器的自适应分数间隔实时前馈均衡器(feed-forward equalizer，FFE)结构，并在400 Gbit/s双偏振16QAM相干光通信系统中进行了实验验证。实时均衡系统的瓶颈在于训练和更新抽头系数会占用大量的FPGA内部资源，进而限制系统的吞吐量[11]。Spatharakis等[12]根据光信道响应慢变化特性提出了采用预先计算和存储抽头系数的可重构FFE结构，通过并行224个FFE单元，实现了35-45-56 Gbit/s不归零编码(non-return-to-zero line code，NRZ)和32-40 GBd PAM4信号实时均衡。

预先计算抽头系数可以大幅降低FPGA内部资源占用，提高吞吐量，但此类系统因采用固定的抽头系数，当信道发生变化时，系统性能会发生波动，无法自适应地更新参数。本文基于最小均方误差(least mean square，LMS)算法提出了一种共享抽头系数并行FFE结构，相比于预先计算抽头系数方法，训练抽头系数占用的FPGA资源不随并行FFE单元数目变化，自适应训练抽头系数的同时实现大吞吐量实时均衡。在基于L-PICTM单片集成硅基发射机400 Gbit/s CWDM PAM4传输系统[13]中，选用Xilinx XC7VH580T FPGA器件对所采用的均衡结构性能进行仿真分析，通过并行212路 FFE单元实现了对53 GBd PAM4 2 km传输信号(接收机带宽35 GHz)实时均衡。

1 基于LMS算法的自适应FFE原理

FFE是短距离光通信系统中最常用的均衡结构，可通过N个抽头的有限脉冲响应(finite impulse response，FIR)滤波器实现，可以有效消除或减弱因带宽限制引入的码间干扰，提升信号质量，降低误码率。相比于其他均衡结构，FFE的硬件实现结构简单，更适合用于高吞吐量实时均衡。在通信系统中，基于LMS算法[14]的FFE可根据信道情况自适应更新抽头系数，以实现最佳的均衡效果，其结构如图1所示[1]。

图1 基于LMS算法的FFE结构

FFE的输出y[k]可由下式表示：

(1)

w(n+1)=w(n)+με[k0+n]Er[k0+n]

(2)

2 并行FFE结构设计

由于离线LMS算法采用的是串行结构，而当前的硬件处理速度无法实现高速信号的实时均衡。本文对图1中的FFE结构进行并行化调整，通过提升并行单元数量提高均衡器的吞吐量，从而满足短距离光通信的实时处理需求。本文设计的并行FFE结构如图2所示，输入向量Er[k]，经拆分后进入并行度为M、抽头数为N的并行FFE单元进行均衡计算，其中第1路FFE单元的输入向量为Er1[k]=[x(k),x(k+1),x(k+2)，…，x(k+N-1)]，输出为y(k)，第2路FFE单元的输入向量为Er2[k]=[x(k+1)，x(k+2)，…，x(k+N)]，输出为y(k+1)，第M路FFE单元的输入向量ErM[k]=[x(k+M)，x(k+M+1)，…，x(k+N+M-1)]，输出为y(k+M-1)。基于LMS算法，根据FFE1单元的输出对抽头系数进行更新，其他并行的FFE单元共享FFE1相同的抽头系数。基于该结构，当增加并行FFE单元数时，可以在增加均衡器吞吐量的同时保持更新抽头系数占用资源稳定。

图2 共享抽头系数并行FFE结构

2.1 实验设置

本文实验用基于L-PICTM单片集成硅基发射机的400 Gbit/s CWDM PAM4传输系统实验结构如图3所示[13]。在发射端，将长度为216的德布莱英序列映射为PAM4符号，使用采样率和带宽分别为92 GSa/s和30 GHz的4通道任意波形发生器(arbitrary waveform generator，AWG)(Keysight M8196A)产生53 GBd PAM4电信号；之后对信号进行滚降系数为0.5的升余弦脉冲整形。通过带宽为55 GHz的线性射频驱动将电信号加载到硅光电子调制器上；再通过数字信号处理(digital signal processing，DSP)对发射端线缆、适配器、射频驱动、硅基调制器引入的带宽限制进行预补偿。发射机的4个通道的波长分别为1 270 nm、1 290 nm、1 310 nm和1 330 nm，每个通道的平均输出光功率为-3 dBm。光信号经过2 km光纤传输后首先进入可变光衰减器(variable optical attenuator，VOA)，之后进入CWDM解复用器。使用带宽为35 GHz的PIN-TIA光电探测器对解复用后的光信号进行接收。接收信号通过采样率和带宽分别为160 GSa/s和63 GHz的实时示波器(Keysight DSAZ 634)采集。

图3 基于L-PICTM单片集成硅基发射机的400 Gbit/s PAM4传输系统实验结构及DSP流程

发射机4个通道的信号质量相近。为测试采用的实时均衡结构性能，本文选用质量较差的1 290 nm通道[13]。首先在Matlab中对捕获的数据进行预处理，将离散后的信号通过插值算法进行时钟恢复并重采样为2倍符号速率。然后将每个符号周期的最佳采样点处产生的1个采样值送入FFE结构以估计信道响应，对信号进行均衡。

在实验中，对来自波长为1 290 nm、光功率为-7 dBm的5组不同时间段采集的电信号(每组199 219符号数)经过配置抽头数为21的并行FFE均衡器得到误码率，再将其取平均后，绘制了误码率随并行度的变化曲线，如图4所示。从图4可以看出，随着并行度的提高，误码率呈波动上升趋势。计算结果表明在并行度M小于700时，误码率小于3.8×10-3，采用的共享抽头系数的并行FFE结构具有较好的均衡效果。

图4 不同并行度的误码率

2.2 位宽评估

在FPGA中，数据通过有限二进制位表示，当位宽较小时，会因精度不足导致误差过大，发生有限字长效应，削弱均衡效果[15]；而当位宽较大时，均衡器会占用过多资源，影响吞吐量。为了评估在限制输入和输出信号以及均衡器抽头系数等参数的位宽对均衡器的性能影响，本文在Matlab中建立了针对并行FFE结构的位宽模型，对来自波长为1 290 nm、光功率为-7 dBm、2 km传输方式下53 GBd PAM4传输系统的接收数据进行处理。数据在经过重采样和时钟恢复后，用n位二进制数表示定点小数，其中前4位代表整数部分及符号位(最高位代表符号位，后3位为整数位)，后n-4位为小数部分。在并行度为212，均衡器抽头系数、判决误差及均衡结果的位宽等运算过程中位宽均按48 bit参与计算情况下，不同抽头数时有限位宽条件均衡情况下的误码率如图5所示。

图5 固定位宽的各抽头数的误码率曲线

从图5可以看出，不同抽头数的并行FEE的误码率变化趋势一致，抽头数较多时，均衡效果更好；当输入位宽固定时，误码率不随输出位宽变化，而当输出位宽固定时，误码率随输入位宽增加而降低，当输入位宽大于8 bit后，误码率趋于稳定，同时满足低于3.8×10-3的门限要求。在并行FFE结构中，运算过程需要的位宽长度(加法器、乘法器运算结果的位宽、抽头系数位宽、判决误差位宽等)也会影响均衡效果和资源占用。当输入位宽、输出位宽分别为8 bit、5 bit,抽头数为15时，误码率随运算过程位宽变化的曲线如图6所示，可以看出，当位宽大于24 bit后误码率曲线趋于平坦。

图6 输入、输出位宽分别为8 bit、5 bit，抽头数为15时，不同运算过程位宽的误码率曲线

图7为运算过程位宽为24 bit时，误码率与并行FFE抽头数的关系曲线。从图7中可以看出，不同抽头数时，输入位宽为8 bit情况下与全位宽情况下误码率相近，且随着抽头数增加误码率整体呈逐渐下降趋势，最终逼近一个极限的误码率；当均衡器抽头数大于7时，误码率均小于FEC判决门限。采用输入位宽为8 bit、输出位宽为5 bit的均衡器性能与无位宽限制输入输出时相近，硬件实现时可根据资源情况增加并行FFE单元抽头数提升均衡器性能，降低误码率。

图7 误码率与并行FFE抽头数的关系

3 硬件实现及性能分析

共享抽头系数的并行FFE硬件结构如图8所示，输入样本x(k)按时钟周期顺序逐个到达，当数据寄存器累计数据量为均衡器的抽头数与并行度之和(N+M-2)时，控制单元将数据寄存器内所有数据拼接后输入对应的FFE单元，输入的拼接规则与图2中一致，每一路拼接与抽头数相同的N个数据，作为每一路的FFE输入。每个时钟周期对FFE1输出值y[k]进行判决误差计算，并更新抽头系数，其他并行FFE单元共享统一的抽头系数。

图8 共享抽头系数的并行FFE硬件结构

本文采用Xilinx XC7VH580T FPGA器件在250 MHz工作频率下对共享抽头系数的并行FFE结构进行实时均衡测试，对固定输出位宽为5 bit、运算过程变量的位宽为32 bit时，不同输入输出位宽和抽头数的均衡器进行了仿真分析。本文设计的并行FFE结构在不同抽头数、输入位宽、并行度、吞吐量下在XC7VH580T上主要的资源占用情况如表1所示。

表1 不同配置并行FFE结构在XC7VH580T上主要的资源占用

由表1可知，当使用FPGA内部的DSP资源综合乘法器和加法器时(如表1中组1、3、8，DSP资源占用不为0)，增加输入输出位宽对DSP资源利用率无明显影响，只会分别增加和减少查找表(look up table，LUT)和D触发器(D-flip-flop，DFF)的资源占用。这是因为DSP综合乘法和加法需要进行扩位，补齐了截掉的位宽，而LUT和DFF两类资源在FPGA内部相对丰富，足够支持更高的并行度。随着抽头数增加，所需DSP资源因参与运算的乘法加法器数量增加而相应增加。在使用DSP资源综合的方式时，如表1中组1配置，DSP资源使用率为83.21%，而当采用15和31抽头均衡器时(对应表1中组3和组8)，FPGA内DSP资源能够支持的最高并行度分别为106和53，所能实现的吞吐量为53 GBd和26 GBd。而这种使用DSP资源综合的方式能够有效降低芯片功耗，但受限于DSP资源数量，高抽头数均衡器无法实现更高吞吐量。当使用FPGA的LUT和DFF资源综合乘法器和加法器时(表1中DSP资源占用为0的组)，抽头数为7、15、21、31的均衡器的吞吐量均可达到53 GBd，并且LUT和DFF资源剩余较多，能实现更高吞吐量。不同抽头数下的误码率曲线如图9所示。

图9 不同位宽配置下接收光功率与误码率曲线

当接收功率大于-8 dBm时，所有配置下的误码率均小于3.8×10-3，这表明所采用的基于FPGA的并行FFE结构具有良好均衡能力。其中当抽头数为7时，使用和不使用DSP资源综合的误码率一致，具有相近的均衡性能。在不使用DSP资源综合时，抽头数更高的均衡器可以获得更低误码率，均衡能力更强。因此在实际系统中可根据信号质量选择不同的综合方案：当信号质量较好时，采用使用DSP综合方式，使用较少抽头的均衡器，可以在保证吞吐量和均衡效果同时降低芯片功耗；当信号质量较差时，使用LUT和DFF资源综合的方式，提高均衡器的抽头数，在保证吞吐量的同时提升均衡效果。

4 结束语

本文设计并验证了一种应用在短距离53 GBd PAM4光传输系统并行的FFE结构，采用在单一FFE单元进行训练和更新抽头系数、其他并行FFE单元共享抽头系数的方式优化均衡器的资源占用规模，使均衡器在保证高吞吐量同时具备自适应信道变化的能力。分析了位宽、并行度以及综合方式对均衡性能的影响，并在基于L-PICTM单片集成硅基光发射机400 Gbit/s CWDM PAM4传输系统中，选用Xilinx XC7VH580T FPGA器件对所采用的并行FFE结构进行仿真分析，通过并行212个 FFE单元实现了对2 km传输的53 GBd PAM 4信号(接收机带宽35 GHz)实时均衡。研究结果表明所采用的并行FFE结构具有良好的均衡效果，为下一代数据中心实时均衡系统提供了有效的解决方案。