基于人工智能技术的光通信网络应用研究

2020-02-09沈纲祥

通信学报 2020年1期

沈纲祥

（苏州大学苏州市先进光通信网络技术重点实验室，江苏苏州 215006）

1 引言

人工智能（AI,artificial intelligence）技术很早就被应用于诸多领域，然而很多年来这一技术并未获得高度关注，直至AlphaGo 战胜中韩两国围棋高手后，它才开始成为研究热点，研究者们尝试将AI 技术应用于不同的领域，其中也包括光通信网络。近两年，美国光通信会议（OFC,optical fiber communication）和欧洲光通信会议（ECOC,European conference of optical communication）上，至少有16 个会议专题聚焦于AI 或机器学习（ML,machine learning）技术。本文将AI 技术和ML 技术看作同一类技术，同时，尽管AI 技术涵盖很广，本文中所指的AI 技术主要是神经网络类技术。

AI 技术受到广泛关注主要有以下两方面的原因。首先，AI 技术比较容易入门和使用。它采用黑盒子的方式对系统进行建模，通过大量的样本学习，让黑盒子自己去连接神经元，分配神经元间的连接权重，而不要求使用者了解神经元间为何这样连接和被分配当前的权重。使用者只需提供足够多的学习样本，增加神经元的个数和隐藏层的层数，就可以提高AI 技术的预测精度。其次，AI 技术在AlphaGo 事件后几乎已被神化，几乎人人都知道“人工智能”这一词汇，而在学术圈，贴上AI 标签的论文似乎也更容易发表，所以这也导致了目前的一个现象，即对于所有问题，不管是否适合，几乎都采用AI 技术进行建模求解。

AI 技术对一些问题的求解是十分成功的，如前面所提的围棋和一些图像语音识别场景，但是不能因某一领域或某些问题的成功求解，而将AI 当成一种“万能方法”。本文针对当前AI 技术在光通信网络中的应用进行探讨，包括AI 技术在光通信网络中的适用性，并对使用AI 技术的潜在风险提出一些应对策略。

2 光通信网络中AI 技术的应用

AI 技术已广泛应用于光通信网络，文献[1-2]中可以找到大量这方面的研究。本文介绍AI 技术在光通信网络中的几种代表性的应用。1)在接收端，采用结合AI 技术的数字信号处理方法，可以有效地提高光信号检测灵敏度，改善光纤传输系统的性能，提高网络的频谱使用效率[3-5]。2)在光网络中，存在大量端到端光通道，分别以这些光通道的相关参数（包括传输速率、调制格式、所经过的光纤链路数、光放大器个数及增益等）和它们在接收端检测到的信号传输质量（QoT,quality of transmission）作为输入和输出，通过大量学习，可以实现对光网络中不同端对端光通道QoT 的预测；其中，QoT经常表示为光通道的信噪比（OSNR,optical signal to noise ratio），其精准预测可以降低光通道OSNR 余量的配置，从而提高网络的频谱使用效率[6-8]。3)通过不断学习光网络中的故障事件，分别以故障和故障原因作为输入和输出，实现对故障原因的精准分析和对未来故障的预警[9-11]。4)结合网络安全的需求，AI技术也可用于预警和识别光层的网络攻击[12-13]。

针对以上几种代表性的应用，本文将其分类为决策性AI 应用和辅助性AI 应用。决策性应用是指整个系统的运行直接依赖于AI 技术，AI 预测的失效可能导致系统的瘫痪，造成严重后果。在上述代表性应用中，1)和2)均可被归为决策性AI 应用。例如，对于光通道QoT 的预测，尽管在大多数情形下，AI 技术可以较精准地预测光通道的QoT，但如果在某一时刻其预测失效，将导致相应的光通道不能被实际建立，或者建立的光通道达不到用户的传输要求，就违背了通信服务水平协议（SLA,service level agreement）。对于骨干网络中的高速光通道，SLA 违背的后果往往比较严重，可能会引起巨额的商业赔偿。所以，对于决策性AI 的应用，网络运营商和设备生产商一般都比较谨慎。到目前为止，尚未发现有网络运营商在其现网中采用基于AI 技术的光通道QoT 预测。

辅助性AI 应用是指采用AI 技术进行日常网络维护和潜在故障的预测，这类预测的失败不会造成系统的瘫痪或严重的经济损失，其类似于购物网站的商品推介，推介错误只是减少了有效推介的机会，而不会造成任何损失。前面所提的代表性应用3)和4)均可被归为辅助性AI 应用。例如，可采用AI 技术对网络未来故障开展预测，如果预测准确，可以提高网络的稳健性；如果预测失败，也不会造成损失。因为其只是一种提醒或预警，网管人员会对此类预警信息进行核实，如果预测正确，会采取相应的措施；如果预警错误，则将其忽略，不会影响网络的正常运行。

3 光通信网络中AI 应用的潜在风险

以“黑盒子”为代表的AI 技术易学易用，目前属于研究热点。AI 技术可以很好地解决一些问题（如围棋、图像语音识别等），但它并非万能，对于其他的一些问题，过度使用AI 技术反而会引入弊端和风险。本节将结合光通信网络，介绍几种AI技术可能带来的弊端和风险。

3.1 造成方法创新和背后机理分析的懈怠

AI 技术将同一种“黑盒子”方法不断地套用到不同的应用场景，导致对方法创新和背后机理分析的懈怠。一个很典型的例子如下。由于AI 技术（如深度学习）可以有效地识别一些图像模式，有研究者把这一技术应用到对人体不同部位病变的识别。基于相同的方法和流程，不断地使用不同的人体部位图片，这样可以形成大量的所谓“研究成果”和学位论文。显然，从培养学生和科研的角度，学生在项目中实际获得的研究技能和专业素养的提升是很少的，而实际工作只是收集相关的图片数据和编写少量Python 代码，最后将训练任务交由图形处理器（GPU,graphics processing unit）来完成，没有针对具体的研究问题在方法机理上进行深入的思考和有效的创新，也不能掌握（事实上目前也无法掌握）黑盒子里究竟发生了什么，这显然不利于创新能力的培养。

3.2 巨大开放的光通信网络系统使AI 技术很难精准预测

围棋棋盘中的19 条横线加上19 条竖线形成了一个闭合的信息（状态）空间，围棋的规则是固定的，外界因素不会改变这一信息空间的大小，是一种完全信息的博弈。光通信网络系统是一个开放系统（或不完全信息系统），它的开放性决定了AI 技术学习（状态）空间的无限性。很多论文中报道的AI 技术很可能只是学习了光通信网络整个开放空间中的某一小部分[6-8]，这一部分可能只对应于某一常规场景，而当实际应用场景偏离常规场景时，前面学习获得的AI 参数就会失效，导致AI 预测模型出错。下面给出几个典型的例子。

1)5G 核心网

以下是一个典型的实例。AI 技术被某设备生产商应用于5G 核心网，在对国内5G 核心网全面多参数AI 学习后，获得一套较为精准的网络性能预测模型，然而将这一系统直接应用于欧洲某城市5G核心网时，模型不能正常工作，不能有效地预测并提升5G 核心网的性能。这是一个典型的由于系统学习空间不封闭（或不完全信息系统）而导致的预测模型失败的例子，中国城市和欧洲城市的5G 核心网环境是不同的，2 个城市分别对应于开放空间中2 个不同的子空间，所以在中国城市学习的5G核心网参数不能保证在欧洲城市也有效。

2)光通道QoT 的预测

在光通信网络中，对于光通道信号传输质量的预测，也存在光通信网络学习空间巨大和开放性的问题。对于QoT 的预测，通常是以网络中光通道的相关参数（包括传输速率、调制格式、所经过的光纤链路数、光放大器个数及增益等）和它们在接收端检测到的QoT 分别作为输入和输出，通过大量学习，实现对光网络中不同端对端光通道QoT 的预测。尽管可以在实验室中收集几千个光通道测试样本（事实上，现在很多发表的论文使用的数据量要远小于这一量级），然后采用这些样本进行训练学习，获得相应的预测参数，从论文发表的角度，这一过程是完整的，实验室获得的样本形成了一个子空间，采用这一空间中的样本获得的预测模型能有效地预测相同空间中的其他样本。然而，对于一个巨大开放的光通信网络状态空间，上述方法获得的实验室样本量仍过小，很难代表光网络开放环境下的全天候状态数据。因此，一个重要问题是，能否使用这些实验室中获得的模型参数去预测实际开放光网络中光通道的QoT？显然，这是很具挑战性的，失败的概率会很高。原因可以通过以下例子来分析。

以一条建立在广州和沈阳之间的光通道为例（如图1 所示）。它经过多个不同的光纤链路段，这些链路段有的通过地下管道铺设，有的露天布设，同时考虑不同地区和不同季节的温差，以及露天光纤段的摆动（例如由于大风造成露天光缆的摆动会严重影响光纤通信系统的正常工作）。这一实际网络场景显然比实验室中的场景要复杂得多，其信息状态空间比实验室场景大得多。如果采用实验室子空间中学习获得的模型去预测这一光通道的QoT，其精准度显然是不能保证的。此外，还需要进一步考虑一些突发事件，如某段光缆被拖拽，或者某段光缆管道出现雨水倒灌、某一地段发生地震等，这些都可能导致网络信息状态空间发生变化。所以，拥有多个节点、多条链路的光通信网络的信息状态空间是不封闭且时变的，几乎是无限大的，是一个不完全信息系统。针对此类系统，要通过几千个静态信道的状态样本来学习获取一个统一精准的AI预测模型显然是相当困难的，几乎不可能实现。

图1 建立在广州和沈阳之间的光通道

3)网络故障和动态性

AI 技术的模型训练通常基于正常网络场景，所采集的样本也是在网络正常运行下的样本。当网络发生故障时，其对应的场景会发生偏离，导致其对应的状态信息空间发生变化，这从另一侧面说明了光通信网络是一个不完全信息系统，此时如果继续采用正常场景下获得的模型对新场景进行预测，就会面临预测失败的风险。对于第2 节中提到的应用场景2)，目前大多数的光通道QoT 预测模型在学习时均未考虑网络发生老化和部分故障时的情形。然而，在实际光网络中，存在光放大器的泵浦光源逐渐老化、泵浦功率逐渐衰竭等问题。所以，一个完整可靠的QoT 预测模型需要覆盖此类老化情形，然而这一过程是十分复杂的，因为其对应的学习样本很难产生和收集，所需的学习时间也相当冗长。

此外，现有的很多光通道QoT 预测模型也未考虑光网络的动态特性，如新的光通道业务的建立和老业务的释放等。在光纤通信系统中，任何光通道的建立或释放都会影响与其同纤的其他光通道。考虑到光网络中存在大量的光通道，不同光通道同纤的组合几乎是无穷的，这使光通道QoT 模型训练过程很难对这些组合进行全覆盖，所以也很难保证所得预测模型的精准性。事实上，目前大多数研究只采用了最多几百条静态光通道的训练样本[6]，而面对一个包含几十个甚至上百个节点的光网络，这一规模的训练样本显然是不够的。

尽管AI 具有不断学习进化的能力，理论上可以应对由于网络故障和动态性造成的样本不完整性和结果适应性差等问题，但这要求在网络环境发生变化后，系统能立即拥有足够多的新环境学习样本，且系统的学习必须足够快，能在新环境下立即完成学习。然而，在未进入未知新环境前或刚进入新环境时，短时间内获取大量新环境下的学习样本显然是比较困难的。为解决这一少样本或无样本的问题，可以通过专家决策的方法为学习提供先验知识，但这些先验知识或虚拟样本不是系统实际产生的，有时并不能精确反映系统的实际行为，所以基于此训练的模型也不能保证其预测结果的精准性。

3.3 AI 技术可能面临网络安全的威胁

AI 技术的基础是概率统计，主要依赖大量的样本学习来形成一套用于预测的系统参数。这一特性可能在某些场合下给网络攻击提供可乘之机，对网络安全形成威胁。例如，一个用户可以通过为训练系统提供大量假的或者不是最优的网络样本，使学习后获得的系统参数偏离实际的最优参数。尽管对于这一用户来说，这样做的代价是其不能获得最优的网络性能，但其可以恶意控制或影响整个网络中的资源分配决策和其他用户的网络性能。事实上，在某些网络排名系统中，很早就有用户利用这一统计学方面的漏洞，来提高某些商品或网站排名和推荐机会。目前，专门针对AI 技术的网络攻击尚很少被提及和关注，但这并不表示此类攻击在不久的将来不会出现。

4 光通信网络中AI 应用的一些建议

AI 技术对光通信网络的规划和运营是有帮助的，但不是万能的。针对其在应用中可能存在的一些风险，本节建设性地提出了以下几点建议。

首先，AI 技术在光通信网络应用中比较适合于辅助性的预测场景，如网络中某些信号的出现预示着可能会在某些位置出现网络故障，因此可以进行预警，对网络和传输系统进行提前干预，防止故障的发生。只要保证大部分预警是正确的，即使存在少量的预警错误，也不会给网管人员造成很大的负担，这一智能性将极大地提高网络的可靠性，改善网络资源的使用效率，并提高用户的使用体验。

其次，由于光通信网络的巨大规模和高度的开放性，对于涉及SLA 的决策性应用场景，AI 技术应避免将整个光通信网络看成一个巨大的“黑盒子”来学习，尽管该类方法对于进行方法性探究是可行的，但在实际工程性应用中，存在着巨大的风险。这是因为，光通信网络状态空间的开放性和突发事件的不确定性决定了AI 技术的预测能力不可能保证全覆盖，一定会出现某些失效场景，造成SLA 的违背，进而导致巨额的经济赔偿，相对于这一赔偿和后续造成的损失，AI 技术给光通信网络带来的效率提升和成本节省可能可以忽略。

第三，面对开放的光通信网络状态空间，一个比较有效的策略是采用基于单元器件或设备的单元化小空间AI 建模，并基于获得的AI 单元参数，进一步结合传统的经典方法进行网络建模和规划。这一结合能有效地解决基于全网AI 技术建模下状态空间开放性的难题。缩小的子系统状态空间能有效降低AI 技术失效的风险，同时，由于采用了传统的网络建模和规划方法，能有效规避在AI 技术下全网黑盒子的弊端，当出现失效时，仍可以很快地通过传统的建模和规划方法，宏观地确定实际失效的位置和对应的“小盒子”。

本文结合3.2 节提到的光通道QoT 预测问题，给出了一个基于小盒子缩小状态空间的光通道QoT 估算例子，如图2 所示。图2 给出了一个完整的光通信网络模型。左边方框中光发射机作为信号源，是光通道的起点。光通道经过多条光纤链路，每条链路上放置多个光信号放大器，对光信号进行周期性的放大。光通道也会经过全光交换节点（ROADM,reconfigurable optical add/drop multiplexer）进行光纤链路的切换。最后，经过多条链路、多个光信号放大器、多个全光交换节点后，光通道到达目的节点，其信号被光接收机接收。整个系统中的器件或子系统包含光发射机、光接收机、光信号放大器、全光交换节点等。在单元化AI 建模方法下，首先对光网络系统中的每个子系统盒子（如光发射机[14]、光接收机[15]、光信号放大器[16-17]、ROADM[18]等）进行基于AI 技术的训练和预测，然后，在获得相关AI 预测模型后，对跨越整个网络的光通道进行基于传统高斯噪声信道模型[19]建模估算。由于每个器件或子系统都处于一个相对封闭的环境，如光收发机、光交换机和光信号放大器均可能被置于机房内，环境温度恒定，外界干扰较少，使AI 技术的应用场景更接近于实验室环境，从而保证了其相对封闭性。同时，由于每个器件或子系统相对独立，涉及的特征量较少，其状态空间相对较小，在封闭且较小的状态空间下，可以使用较少的训练样本获得较高精度的预测模型，极大地改善AI 技术的适用性和实用性。另一方面，由于采用了经典的高斯噪声信道QoT 估算模型，存在坚实的物理理论指引，因此整个系统不再是一个“大而黑”的盒子，当网络出现问题时，可以通过分析估算模型快速确定问题的根源。

图2 小系统AI 模型和经典高斯噪声信道模型相结合的光通道QoT 估算

第四，尽管采用AI 技术进行更高精度的网络性能预测可以提高网络资源使用效率、降低网络成本，但这是以损害网络可用性或生存性为代价的。传统的光网络建模和规划通常为了保证足够高的网络可用性（如99.999%），留足各方面的余量。例如，在评估光通道所需的QoT 时，通常为了支持某种调制格式和频谱效率，会全面地考虑各种OSNR损伤并留足余量，以保证光网络在20～30 年之后还能正常工作。而AI 技术想通过大量的样本学习来获得一个更加精确的信道QoT 评估模型，以此降低传统方法下需要的余量。但是由于光通信网络状态空间的开放性，这种降低OSNR 余量的方法可能会使网络可用性[20]受损，而对于AI 技术的使用到底会多大程度影响网络可用性，是否会造成SLA 的违背，目前尚没有明确答案，也没有精确的评估方法。其原因在于，AI 技术是一个黑盒子技术，里面设置的参数和实际网络参数没有一一对应关系，可解释性较差。所以，在使用AI 技术的同时，评估光通信网络的可用性是十分必要的，只有在未违背网络可用性要求下，使用AI 技术才有实际意义，然而这方面的研究目前尚为空白。

第五，针对AI 预测模型失效的情形，需要建立一种专门的网络保护机制，即当由于AI 预测模型失效而出现网络瘫痪时，存在一种机制能及时地恢复网络业务。这种业务的恢复机制和传统的网络发生故障时的业务恢复[21]十分类似。例如，对于点对点的光通道业务，可以使用AI 技术建立一条工作光通道，同时采用基于传统的非AI 技术预留一条保护光通道。这里保护光通道需留足OSNR 余量，所以其频谱资源使用效率可能会低于工作光通道，但当工作光通道由于基于AI 预测模型的配置失效时，可以通过保护切换将业务从工作光通道快速地切换到保护光通道上，这时由于保护光通道留足了OSNR 余量，能正常工作，从而保证了用户的网络业务不受影响。目前，针对AI 预测模型失效的保护研究仍为空白，需要进一步针对不同的AI 应用场景提出不同的网络保护和恢复机制。

第六，由于AI 预测模型是通过对大量的样本或统计概率的方式学习而获得的，因此此类系统可能会遭受恶意假样本的攻击，攻击会影响系统的预测精度。此外，也可能面临更为精准或细化的攻击，如专门针对AI 系统中某一特征值、神经元函数或权重值的攻击。尽管目前尚未看到此类攻击的报道，但未雨绸缪，需要尽早考虑相应的应对策略和防范措施。

5 结束语

本文针对基于AI 技术的光通信网络这一当前研究热点进行了系统性的探讨，认为AI 技术更适合于一些辅助性的预测场景，将其应用于涉及SLA的场景时，需要进行深入的论证并开展风险评估。对AI 技术在光通信网络中的应用提出了一些建议，主要包括通过尽量减小系统状态空间的大小，以规避整个光网络巨型空间的开放性，同时为避开“黑盒子”弊端，基于小系统的AI 建模仍需与传统的经典网络建模和规划方法相结合。针对AI 技术的可能失效和受攻击等问题，提出了专门的网络保护思想。本文涉及的观点是开放的，从不同的角度提供一些新的思路和启示。同时，尽管本文主要针对光通信网络，其中的一些思想和方法也可应用于其他领域，期待与读者进一步交流探讨。