机器学习在光通信网络性能监测中的研究综述
2021-10-28张德聪
张德聪
(中国电子科技集团公司第二十九研究所,四川成都 610036)
0 引言
随着社会信息化程度的提高,3D 网络游戏、远程教育、视频会议等高带宽业务不断涌现,越来越多的用户与设备连接到网络中,网络带宽的需求持续快速增长。据思科公司发布的2018-2023 年度互联网报告数据显示,到2023 年全球互联网用户预计增长至53 亿,联网设备数预计增长至293 亿,全球平均宽带速度预计增长至110.4Mbps[1]。在可预见的将来,通信系统传输容量加速增长的趋势不会放缓,光通信网络正朝着高带宽、低延迟、高可靠性的方向发展。为此,许多先进的网络传输方案、调制格式以及新型复用技术被引入到光通信网络中,但这些技术在提升网络性能的同时极大地增加了网络复杂度,对网络的运行与管理带来巨大挑战。光学性能监测(Optical Performance Monitoring,OPM)是针对光网络的物理状态和光信号的传输质量进行的物理监测,其实质是对光信号进行测量并从中提取评价光通信系统性能的相关参数,可有效反映网络传输性能、识别损伤类型并采取有效措施改善网络性能[2]。此外,智能光通信网络需要具有自适应功能,即能根据不同的链路条件和服务需求灵活改变调制格式、符号率、编码类型等,这也要求接收机具有OPM 的功能。因此,OPM 将成为未来光通信网络的重要使能技术。
传统的OPM 技术主要借助数理统计和信号特征实现性能监测与格式识别。数理统计方法可有效实现最佳参数估计,但需要知晓信道参数或描述信道的数学模型。信号特征的选取需要较长的试错过程,以决定哪些特征最适合描述不同的信道损伤或调制格式。传统的OPM 技术很难同时独立监控多种传输损伤,不同损伤的影响亦很难单独分析。随着网络复杂度的增加,传统的OPM 技术已难以准确描述信道模型,监测精度有限。
近年来,机器学习(含深度学习)技术凭借其强大的认知能力获得各领域的关注。机器学习模拟生物的认知过程,通过感知反馈信息分析行为结果,利用经验调整行为活动并重新组织己有的知识结构,使之能不断改善自身性能。机器学习被认为是极具潜力的提升光网络智能的方法,在OPM 中使用机器学习技术可以实现网络状态信息的实时利用。基于机器学习的OPM 通过不断调整的模型构建主动网络,这些模型可以预测故障发生的概率,并在运行参数不断变化时推荐合适的解决方案,因此可以保证网络稳定可靠地运行。基于机器学习的OPM 还可以处理大量可调参数,如调制格式、信号功率、符号速率、自适应编码率、自适应信道带宽等,更好地实现资源利用,为光通信网络提供卓越的传输效率、灵活性和可重构性。与其他数据传输网络一样,光网络也很容易受到不可预测因素的影响以及针对性的有害攻击,或未经授权获取传输数据,但OPM 可以提供关于光参数的连续信息,任何攻击都会引起这些参数之间的关系发生变化,机器学习可有效识别和检测这些变化,进而提高网络安全性。
基于以上优势,机器学习受到光通信和光网络领域研究人员的广泛关注,并逐渐被应用到OPM 中,取得了一些研究成果。本文首先简单介绍传统的OPM 方案,然后综述机器学习技术在OPM 中的应用,最后对未来的研究方向提出建议。
1 传统OPM 技术
常见的光网络性能参数包括自发辐射放大器噪声(Amplifier Spontaneous Emission Noise,ASE)、色度色散(Chromatic Dispersion,CD)、偏振模色散(Polarization Mode Dispersion,PMD)、差分群时延(Differential Group Delay,DGD)、光纤非线性效应、时间啁啾、滤波器失真、线性串扰等[3]。在过去几十年中,OPM 技术主要用于ASE 噪声(通常用光信噪比(Optical Signal-to-Noise Ratio,OSNR)定义)和CD 的监测。
1.1 传统OSNR 监测方案
OSNR 是应用最多的用于表征信号传输质量的参数,其定义为信道内信号光功率与特定带宽内噪声功率的比值。早期的OSNR 监控主要采用带外噪声功率测量方法,操作简单且传输业务不受影响。随着波分复用(Wavelength Division Multiplexing,WDM)网络的普及,单信道速率提高,信道间隔变窄,使得信号光谱展宽重叠,噪声光谱被破坏,在这种情况下带外测量方案难以准确测量OSNR。因此,带内测试被提出,常用方案包括偏振相干法、干涉技术、异步采样技术、统计矩法等。偏振相干法主要利用激光信号高度偏振而噪声非偏振的特性,两个偏振中仅有一个偏振携带信号,另一个用于噪声测量,接收到的信号被分成两个正交的部分以测量OSNR[4-6]。但当链路中存在PMD 时,携带噪声的偏振会与信号混合而导致OSNR 测量不准确。干涉技术[7-9]主要使用延迟干涉仪监测OSNR,其基本原理为接收信号中的信号和噪声具有不同的相干特性,接收到的光信号(包括信号和噪声)是通过相长干涉测量,ASE 噪声是通过相消干涉测量。该技术不受PMD、CD的影响,但在实际应用中延时的精度不易实现,且干涉相消无法完全消除噪声功率,因此监测结果存在误差,容易受环境干扰,需要精确的波长控制。异步幅度直方图(Asynchronous Amplitude Histogram,AAH)于1998 年被提出[10],其利用采样信号的概率分布特性监测OSNR,估计Q因子和误比特率(Bit Error Rate,BER)[11-12]。随后,异步延时采样技术于2006 年被提出[13],其原理是使用两个间隔一定时延的采样器在一个比特周期内采集两个样点,分别将两个样点的幅值作为横、纵坐标得到二维延时采样相图,通过分析二维相图的统计平均值和方差测量OSNR。该技术可以监测大范围的OSNR,但相图对PMD 和CD 敏感,会导致OSNR 测量不准确。统计矩法[14-16]利用信号数据统计信息与OSNR 的关系计算该指标,原理为计算接收信号的二阶矩和四阶矩,再根据二阶矩、四阶矩与信号功率、噪声功率的关系推导出OSNR 值。该技术对频偏和相位噪声不敏感,其性能受限于使用的均衡器。此外,信号的累积分布函数(Cumulative Distribution Function,CDF)也被用于OSNR 的监测中[17]。
1.2 传统CD 监测方案
早期主要通过检测光信号的相位监测CD 损伤,具体操作为在发射端插入载波或射频信号,其在传输链路中会受到CD 的影响,通过在接收端观察信号的时钟相位可以监测CD 损伤[18]。但该类方案需要修改发射机结构,增加了系统成本。基于残留边带(Vestigial Side Band,VSB)滤波的时钟分量技术也可以用于CD 的监测,其工作原理为从接收到的双边带信号中分析上下边带之间的相位差以实现CD 的监测[19]。该方案不需要修改发射机,但监测范围有限,且对于WDM 系统的要求较高。此外,异步延时采样技术也可用于CD 的监测,其原理与OSNR 监测相同。
2 基于机器学习的OPM 方案
机器学习(含深度学习)是人工智能的一个分支,主要研究各种算法。当获得足够多的训练数据时,其可以学习输入与输出的关系,而不用明确阐明其关系。目前机器学习在图像处理、医疗诊断和光通信网络的性能监控等方面得到了广泛应用。
根据学习方式可将机器学习分为四大类,分别为监督学习、无监督学习、半监督学习和强化学习。监督学习的本质为分类,即从标签数据中学习其内在结构与规律,其中输入数据被称为训练数据,每组训练数据有明确的标识,被称为标签。监督学习将标签与模型输出进行比较,根据误差不断调整模型,直至符合预期。无监督学习的本质为聚类,即从无标签数据中挖掘其内在结构与规律。半监督学习是以少量有标签数据结合大量无标签数据,通过学习数据规律合理组织数据进行预测。强化学习是从交互中学习,尝试发现行为与收益的关系,试错和延迟收益是其典型特征[20]。
利用机器学习进行光通信性能监测需要建立相应的学习模型:首先通过光电信号采样建立数据集;然后抽取包含损伤信息的信号特征,如眼图、星座图、异步延迟抽头直方图(Asynchronous Delay Tap Histogram,ADTP)、异步幅度直方图、振幅直方图等,这些特征被用于离线训练机器学习模型,然后执行损伤估计与性能监测。以卷积神经网络(Convolutional Neural Network,CNN)为例,训练数据进入输入层后,在卷积、激活函数与池化函数等共同作用下,通过前向传输在输出层得到结果。输出结果与样本标签通过损失函数度量误差,通过反向传播更新模型参数,使下一次输出与标签更吻合,即模型可在训练过程中得到优化。一旦离线训练完成,建立的模型便可用于进行专门的在线损伤估计与性能监测。
2.1 基于传统机器学习的性能监测方案
传统的机器学习算法包括决策树、随机森林、逻辑回归、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯、k 最近邻、k 均值、人工神经网络(Artificial Neural Network,ANN)、主成分分析和独立成分分析等。
2.1.1 基于SVM 的性能监测方案
SVM 在小样本、非线性及高维模式识别中表现出诸多优势。在深度学习方法广泛应用前,SVM 是使用最广泛的分类算法,其主要原理为将线性不可分的低维空间转换到线性可分的高维空间,使得两类数据离分割超平面越远越好,支持向量即离分割超平面最近的点,具体如图1 所示。基于该思想,文献[21]从眼图中提取特征参数,利用SVM模型确定损伤类型,其中特征参数为一组正交多项式,可表征信号中是否包含色散、偏振模色散和串扰3 种损伤。采用10Gbps OOK 信号的传输实验对该方案进行验证,结果表明其识别精度超过95%,但该方案仅能确定损伤类型,无法确定具体的损伤程度。文献[22]将SVM 算法引入到相干检测系统中,通过异步采样接收到的信号构建二维I路和Q 路直方图(2D-IQH),利用2D-IQH 直方图特征建立基于SVM 的回归模型,用于监测OSNR、CD、DGD 和相位噪声(Phase Noise,PN)。该方案采用非线性降维的t-SNE 算法进行损伤的分离研究,有助于可视化复杂的高维信号,从而探究不同损伤类型的分离条件。采用12.5Gbps DPQPSK 信号的传输实验对该方案进行可行性验证,得出OSNR 的监测范围为9~19dB,CD 范围为200~1 600ps/nm,DGD范围为10~70ps,PN 范围为10KHz 至1MHz。该方案具有较高的监测准确度,但需要I 路和Q 路样本建立特征参数。
Fig.1 Schematic diagram of SVM图1 支持向量机示意图
2.1.2 基于ANN 的性能监测方案
ANN 模仿人类神经网络的行为特征,通过调整内部大量节点之间相互连接的关系,进行分布式并行信息处理,结构如图2 所示。ANN 具有较强的非线性函数逼近能力,是处理非线性系统的有力工具。目前基于机器学习的OPM 技术大多采用ANN 作为机器学习算法检测光网络损伤,这些方案的主要区别在于用于训练ANN 算法的特征以及抽取这些特征的方法不同。
Fig.2 Schematic diagram of ANN图2 人工神经网络示意图
例如,文献[23-24]中用于训练ANN 模型的特征来自同步采样后的眼图,包括Q 值、闭合度、均方根、抖动和交叉幅度,可用于监测OSNR、CD 和DGD。其中文献[24]通过仿真10Gbps NRZ-OOK 和40Gbps RZ-DPSK 信号对该类方案进行验证,结果显示OSNR 的监测范围为18~30dB,CD 的监测范围为100~700ps/nm,DGD 的监测范围为0~35ps。该类方案能监测多种损伤,但其要求精确的时钟恢复,因此成本较高,难以在高速传输网络,尤其是网络中间节点中使用。为克服精确的时钟恢复问题,文献[25-27]采用异步采样方法重构眼图,从眼图中提取特征参数用于ANN 的训练。其中文献[25]中模型抽取的特征包括Q 值、眼高、交叉幅度和均方根抖动,用于监测40Gbps RZ-OOK 传输实验中 的OSNR、CD 和DGD,其中OSNR 的监测范围为22.5~37.5dB,CD 的监测范围为4~28ps/nm,DGD 的监测范围为1~7ps。文献[26]采用多层ANN 算法监测56Gbps 4-PAM信号的OSNR、CD 和DGD,训练参数来自重构眼图的眼高、交叉幅度和抖动值,得到OSNR 的监测范围为26~42dB,CD的监测范围为0~400ps/nm,DGD 的监测范围为0~8ps,仿真结果显示OSNR、CD 和DGD 的均方根误差(RMSE)分别为0.21dB、6.79ps/nm、0.8ps。文献[25-26]中的方案均不要求时钟恢复,但要求额外的软件同步。文献[27]采用异步幅度直方图特征监测损伤,通过仿真40Gbps RZ-DQPSK 和NRZ-16QAM 的信号进行验证,得到OSNR 的监测范围为10~30dB,CD 的监测范围为0~400ps/nm,DGD 的监测范围为0~10ps。仿真结果显示,RZ-DQPSK(16-QAM)对于OSNR、CD 和DGD 的RMSE 分别为0.43(0.2)dB、9.82(9.66)ps/nm、0.92(0.65)ps。该方案中直方图提供了采样信号的统计特性,不需要时钟恢复,也不要额外的同步电路,但当信号受到严重色散和群时延影响时难以区分损伤类型,监测结果有较大误差。文献[28]提出利用经验矩定义的特征训练ANN 模型,对检测到的信号进行异步采样,然后计算经验矩阵。通过监测40/56Gbps RZ-DQPSK 和40GbpsRZDPSK 传输中的OSNR、CD 和DGD 对该方案进行验证,得到OSNR 的监测范围为10~26dB,CD 的监测范围为-500~500 ps/nm,DGD 的监测范围为0~14ps。仿真结果表明,针对40/56Gbps RZ-DQPSK 传输信号,OSNR、CD 和DGD 监测结果的RMSE 分别为0.1(0.1)dB、27.3(29)ps/nm、0.94(1.3)ps;针对40Gbps RZ-DPSK 传输信号,OSNR、CD 和DGD 监测结果的RMSE 分别为0.1dB、17ps/nm、1ps。
为提取更多关于监测信号的统计特征,文献[29-32]均采用二维信息作为特征代替前文提到的一维直方图,其中二维直方图信息主要通过ADTS(Audio Data Transport Stream)实现。在ADTS 中,信号的幅度通过两个时钟对信号进行采样获得,这两个时钟之间的固定延迟时间称为延迟抽头,两个采样器产生x 和y 两个序列,分别作为横、纵坐标,输出为ADTS 图。其中,文献[29]通过仿真10Gbps NRZ-OOK 信号监测OSNR、CD 和DGD 进行验证实验,得出OSNR 的监测范围为18~30dB,CD 为100~500ps/nm,DGD为5~35ps。该方案扩展了监测范围,但由于使用了两个采样时钟,成本相对较高。文献[30]提出一种新结构,即在异步延迟抽头采样前使用光学干涉仪加两个平衡探测器,以获得传输过程中的相位变化,为高阶调制格式的信号提供更优异的监测结果。通过监测高速100Gbps QPSK 信号的OSNR、CD 和DGD 证实了该方法的可行性,其中OSNR的监测范围为16~28dB,CD 为0~50ps/nm,DGD 为0~10ps,以上3种损伤的RMSE值分别为1.27dB、2.22ps/nm 和0.91ps。然而,该方案需要额外的硬件,提高了系统成本。文献[31]采用参数异步眼图作为信号特征,通过两个分支检测信号,其中分支一直接对信号进行采样,分支二在信号采样后通过一个微分器,从而捕获信号因受CD 和DGD影响而产生的脉冲展宽信息。两个分支的输出以二维图表示,该二维图分为6 个分区,每个分区可以提取到不同的特征参数,如信号均值和标准差等。该方案具有较好的监测性能,但由于需要微分器和两个采样器,增加了系统成本。文献[32]将ANN 模型用于相干检测系统中,通过异步采样构建I 路和Q 路的信号二维星座图。星座图被划分为4 个象限,其中象限Q1 和Q3 被用于提取特征。通过监测40Gbps RZ-QPSK 信号的OSNR、CD 和DGD,得出OSNR 的监测范围为14~30dB,CD 为20~180ps/nm,DGD 为2~18ps,仿真结果显示OSNR、CD 和DGD 的RMSE 分别为0.77dB、18.7ps/nm、1.17dB。
2.1.3 基于其他机器学习模型的性能监测方案
2014 年,马来西亚理科大学团队基于主成分分析和统计距离测量的模式识别技术进行OSNR、CD 和DGD 的监测,并同时识别接收信号的比特率和调制格式[33]。2015年,丹麦理工大学团队提出利用机器学习中的贝叶斯滤波和期望最大参数估计方法估计激光器幅度和相位噪声的特征[34]。
2.2 基于深度学习的性能监测方案
深度学习可以看作是机器学习的一部分,其通过多层非线性变换对高复杂性数据进行建模,也被定义为使用深度神经网络为工具的机器学习算法,主要包括深度神经网络(Deep Neural Network,DNN)、CNN、循环神经网络(Recurrent Neural Network,RNN)、深度置信网络等。
2.2.1 基于DNN 的性能监测方案
DNN 算法假定空间维度所有位置都存在内在关联,前一层的神经元与后一层两两连接,在训练阶段每次误差回传时全部参数均得到更新,具有参数量大、表征力强、运算复杂度高的特性。基于以上思想,文献[35]提出利用DNN(即ML-ANN)模型监测OSNR,监测范围为7.5~27dB,用于训练的特征为两个偏振方向上的IQ 数据。利用14/16Gbaud DP-QPSK 和14/16 Gbaud 64-QAM 信号对该方案进行验证,结果显示OSNR 的平均绝对值误差(MAE)小于0.5dB。传统的DNN 算法在监测参数改变时需要重新训练模型,消耗大量时间。基于此,文献[36]采用迁移学习辅助DNN 算法的方案对OSNR 进行监测,迁移学习基于先验知识调整神经元权值,而不是随机初始化参数,减少了模型训练时间。通过56/28Gbps QPSK 信号传输实验对该方案进行验证,得到OSNR 的监测范围为5~30dB,残余色散范围为0~600ps/nm,光学发射功率范围为-6~8dBm,其中OSNR 的RMSE 值小于0.1dB。该方案可在大范围内实现高精度的OSNR 监测,但仅限于OSNR 监测。
2.2.2 基于CNN 的性能监测方案
CNN 假定空间维度局部区域具有内在关联,而与较远区域无关联,后一层神经元仅基于前一层中对应的局部区域,因此可大幅度缩减参数量并提升时效性,可以认为DNN 是CNN 的一般形式。CNN 为目前使用最多的深度学习架构[20],图3 为其常用结构。基于此,文献[37]中提出利用CNN 对10Gbps NRZ-OOK 信号进行OSNR 和CD 的联合监测,输入CNN 的特征为采用ADTS 方法提取的二维直方图,仿真实验得到的OSNR 和CD 监测范围分别为10~40dB和0~2 000ps/nm,相关系数为0.995。文献[38]中提出基于CNN 的智能眼图分析仪,同时实现了调制格式识别与OSNR 估计。
Fig.3 Schematic diagram of CNN图3 CNN 结构示意图
2.2.3 基于RNN 的性能监测方案
RNN 假定时间维度存在相序性,神经元除向后传递信息外,还可在下一时刻作用于自身。RNN 适用于处理时序数据,也可用于预测、推理等,在具体实现时通常采用长短时记忆单元(LSTM)[20]。图4 为单个LSTM 的神经网络结构,其是递归神经网络的一种,具有反馈连接,可以实现信息在网络中的临时存储,有利于提取信号的时序特征。基于此,文献[39]中利用异步原始数据训练LSTM-RNN 模型,监测28/35 Gbaud DP-16-QAM/64-QAM 和5/10Gbaud DP-16-QAM/64-QAM 信号传输中的OSNR 和CD,仿真结果表明OSNR 的监测范围为15~30dB,CD 为1360~2040ps/nm。该方案可在大色散情况下同时监测OSNR 和CD,且不需要预处理训练特征,但对内存的需要较高,增加了系统成本。文献[40]采用LSTM-RNN 算法同步监测OSNR 和非线性噪声功率(NL-NP),采用1 024 长度的FFT 进行训练,仿真28Gbaud 符号速率下不同的调制格式(QPSK、16-QAM 和64-QAM),光功率(-3~3dBm)和传输长度(100~1000km)。结果表明,该算法的OSNR 监测功能在存在光纤非线性的情况下稳定性较好。
Fig.4 Schematic diagram of LSTM图4 LSTM 示意图
3 结语
万物互联时代的到来对于光通信网络的传输质量、可靠性、灵活性等提出了更高要求。OPM 被认为是未来光通信网络得以智能、高效、可靠传输的重要使能技术。机器学习借助网络数据可以高效准确地实现预测、估计与分类功能,因此基于机器学习的OPM 受到广泛关注。从选取特征方面看,当前研究主要分为时域特征、频域特征以及图像特征3 类,并以时域特征为主。时域特征又包含异步特征和同步特征,其中典型的异步特征为眼图数据、AAH、ADTS、异步星座图等,同步特征主要包括眼图、AH、CDF、功率分布、斯托克斯空间等。每种机器学习技术都有其优势和缺点,具体选择何种模型主要根据实际问题决定。基于机器学习的OPM 研究处于起步阶段,目前仍存在一些问题:①目前OPM 算法主要针对单载波系统,多用于监测OSNR、CD 和PMD 等参数,但在采用中继放大的远距离传输系统以及波分复用系统中,除了线性效应,还存在四波混频、自相位调制和交叉相位调制等效应。如何选取有效的特征表征该类损伤参数是一个难点,也是一个重要的研究方向。②深度学习能有效解决复杂的非线性问题,但随之而来的是需要实时处理的复杂度问题。目前几乎所有的机器学习方案都采用离线训练,而在实际光通信网络中,设备器件和数据流业务会随时改变。因此,实用的机器学习方案需要实时训练并快速收敛,这也成为其走向实用化道路的一个重点和难点。③性能监测节点会大规模地铺设在网络中,因此OPM 的成本问题直接关乎其是否能真正应用到实际网络中。采用异步采样和直接检测的接收机更具成本优势,但在直接检测系统中,如何以低带宽、低成本的器件实现高阶调制格式信号的多损伤检测将会是一个难点。
光通信网络正在持续高速发展,从网络结构到物理层信号损伤,都将会越来越复杂,网络对OPM 的需求也会越来越迫切,甚至成为强制性要求。基于机器学习的OPM 技术尚处于初始阶段,有大量值得研究和讨论的重要问题,对这些问题进行研究既可为未来光通信网络的演进铺平道路,也能为其在更多场景中的应用提供研究思路与技术支持。