深度学习的亚波长窄带陷波滤光片设计

2022-05-05张帅帅郭俊华刘华东张颖莉肖相国梁海锋

光谱学与光谱分析 2022年5期

张帅帅, 郭俊华, 刘华东, 张颖莉, 肖相国, 梁海锋*

1. 西安工业大学光电工程学院，陕西西安 710021

2. 西安应用光学研究所，陕西西安 710065

引言

亚波长光栅的周期比入射光小的多，只有零级衍射光波，其他级次的光都为倏逝波。在光学、光电子学等许多领域被广泛应用，成为现代仪器仪表中不可或缺的重要功能器件。亚波长光栅体积小、偏振性能好、允许入射角度大、易于集成等优点，被广泛的应用在传感[1], 滤光片光谱调控[2]和太阳能光伏吸收薄膜等领域[3]。通过调节光栅的几何结构，可以对入射光谱进行调控。亚波长光栅的这种特性被深入研究，并广泛应用于陷波滤光片。

传统的设计方法是，通过给定光栅几何结构，模拟出其光谱特性，经过优化迭代给出光谱响应曲线，称为正向模拟设计；设计中主要使用严格耦合波分析法(RCWA)，时域有限差分法(FDTD)，有限元建模(FEM)等求解麦克斯韦方程组来计算光谱曲线。但是根据需求的光谱曲线逆向设计并求解光栅的几何参数，经典设计理论遇到瓶颈。相比于正向模拟设计，真正的逆向模拟设计方法和理论鲜有报道。

在光栅设计优化方面，传统数值优化方法，如遗传算法，最速下降法, Newton法和共轭梯度法等，有相对较快的收敛速度，计算精度高，但求得的是局部最优解。对全局优化问题，下降轨线法，隧道法等收敛快，计算效率高，但算法复杂，求得全局极值的概率不大[4]。 Monte-Carlo随机试验法，模拟退火算法[5]等容易实现，但收敛较慢，效率低。上述算法都需要大量的计算，消耗大量的时间才能找到一种合适的设计，且每次针对新的光栅设计时所需的资源消耗是叠加的，且只保留最优结果，在优化过程中先前生成的数据都会被摒弃，耗费大量的资源。原因是，上述优化算法依然取决于求解麦克斯韦方程组，根据设计目标，引入评价函数和优化策略，其本质仍然属于正向设计的一部分。

最近，深度学习已经被引入到光学领域的诸多方面。在将光学器件的设计优化与深度学习相结合的探索中，国外的研究者率先展开了研究。 2020年Han[6]等基于卷积神经网络，在可见光范围内对不规则的二维亚波长光栅结构进行了研究，将随机生成的光栅形状与周期作为输入变量，分别设计了正向模拟网络与逆向设计网络，实现了快速高效的高自由度的逆设计，其中正向模拟网络完成训练之后，消耗时间仅为RCWA数值模拟的1/20 000。 2018年Liu[7]在0.4～1.2 μm范围内，对于16层膜系结构进行了网络结构的设计，同时提出了一种串联的神经网络结构，首先训练一个正向设计网络，将设计映射到光学响应。然后，将该训练好的前向网络连接到逆向设计网络的输出，并将前向预测误差作为监视信号。通过在这种串联网络中进行间接的训练，解决了数据不一致性导致的深度神经网络训练无法拟合的问题。 John Peurifoy[8]等使用神经网络模拟计算多层纳米粒子的光散射，从模型中获得的分析梯度用于结构优化，给出了光谱中的特定要求；在深度学习的分析指导下，核壳纳米粒子的单带高散射效应可以得到有效优化。并分别对深度神经网络和内点法，在相同的误差阈值下运行时间进行了比较，结果表明神经网络的运行时间比内点法短两个数量级。 Takashi Asano[9]等使用卷积神经网络分析光子晶体的Q因子，使用反向传播优化纳米腔的位置，使得Q因子从3.8×10-9提高至1.6×10-9，由于共振的各种模式，光谱和光信号在时域中会有各种线形。而RNN适用于对时域中具有特定线形的光信号或光谱建模。与CNN结合使用时， RNN也用于改善图像中表示的纳米结构的光学响应的近似值。 Christopher等[10]2020年在4～12 μm的中红外波段内，将二维光栅的结构设置为十字结构，通过调整结构的大小与位置得到不同的吸收光谱，以此为训练数据设计了串联神经网络。 Jiang[11]等在2019年探索了将生成对抗网络与伴随优化算法框架耦合在一起的方法。已经证明可以在标记拓扑优化的亚光栅设计上有效训练条件GAN，以快速生成大量的高效器件设计，与传统的拓扑优化相比， GAN辅助优化的效率高出5倍。

上述工作证实了深度学习在设计特定光谱应用中潜力巨大，由于受深度学习方法的限制，对某一类应用，需要特定学习集，经过训练后实现特定的功能。陷波滤光片是一类特殊的光学应用，受最近工作的启发，提出了一种基于深度学习的一维周期性的亚波长光栅设计，如图1所示。所设计的亚波长光栅滤光片由亚波长光栅层，以及玻璃基板上的均匀波导层组成。其中H1表示光栅深度，H2表示均匀波导层的厚度，F为光栅占空比，Λ为光栅周期，N为光栅以及波导层折射率。

图1 一维亚波长光栅结构图

为了克服传统亚波长光栅设计优化所面临的核心问题，分别设计了正向神经网络(不需要计算Maxswell方程组)，逆向设计网络以及串联神经网络，以实现高精度，高效率，响应时间快的特性。其中正向神经网络模拟光谱响应，逆向神经网络设计光栅参数。设计完成的神经网络通过学习RCWA数值模拟的仿真数据，不需要再次求解麦克斯韦方程组便能预测出亚波长光栅的光谱响应，并且能精确的逆向设计光栅结构，无需迭代优化，可将优化设计时间缩短多个数量级。

1 基于深度学习的串联神经网络构建

1.1 仿真学习网络建立

为了设计亚波长光栅结构的窄带陷波滤光片，设计了图2所示神经网络。正向模拟的网络结构如图2(a)，包括输入层，多个隐藏层以及输出层。

图2 神经网络结构

输入层5个节点分别为，光栅高度H1(0.01～0.09 μm)，波导层厚度H2(0.09～0.19 μm), 光栅周期Λ(0.2～0.4 μm)，光栅折射率N(1.5～2.4)，占空比F(0.4～0.75)。对不同个数的隐藏层以及隐藏层中包含的不同个数的神经节点进行测试以及比对。层数为5层时，网络无法收敛，均方误差较大；层数为3层时，虽然消耗时间较少，但均方误差为4层时的十倍。最终设置网络的隐藏层个数为4， 4个隐藏层的神经元个数分别为(50， 200， 500， 200)，详细评价指标列于表1，表2。输出层26个节点，对应可见光范围0.45～0.7 μm内的26个点，步长为0.01 μm，作为光谱响应特征曲线。 Batch_szie为网络每一次训练所选取的样本数，影响着模型的优化程度和速度。 Batch_szie设置过小训练精度高，但消耗时间越长需要的迭代次数越高，可能造成内存爆炸。 Batch_szie过大消耗时间少，但是过大可能会导致迭代无法收敛。因此需要选取合适的Batch_szie使得网络达到最优。合适的Batch_szie选取可以使得梯度下降更加准确，达到良好的训练效果，通过对不同大小的测试，最终选取Batch_size大小为128，详细评价列于表3。

表1 不同隐藏层层数的评价指标

表2 不同网络结构的评价指标

表3 不同Batch_size的评价指标

正向模拟的作用是根据输入的光栅几何结构参数来迅速，精确的得到光谱响应曲线。而逆向设计的作用是根据期望光谱响应快速设计出光栅的几何结构。逆向设计的网络结构如图2(b)，网络结构与正向模拟的网络结构相反，输入层为期望光谱曲线量化的26个点，输出为光栅的5个结构参数。

1.2 训练数据生成以及网络优化

为了使网络能够良好的运行并达到预期的效果，基于RCWA模拟仿真生成数据集，数据集的建立包括光栅的几何结构参数，其对应的光谱响应曲线，以及数据标签。光栅的几何结构如图1，以Si2O为光栅基底，入射光为TE偏振光，垂直入射光栅表面。通过改变光栅层以及波导层的折射率、高度、周期、占空比，得到不同的数据。取可见光波段0.45～0.7 μm的波长范围，每0.01 μm取一个点，总共取26个点来量化光栅的反射光谱响应T(t1,t2,t3, …，t26)。将训练好的数据集80%作为训练集， 20%作为测试集，设置网络的损失函数为

(1)

(2)

Zl=Wlal-1+bl

(3)

al-1=σ(Zl-1)

(4)

Sigmoidσ=1/(1+e-Z)

(5)

ReLUσ=max(0,Z)

(6)

其中σ为激活函数，激活函数的作用是加入非线性因素，提高神经网络对模型的表达能力，解决线性模型不能解决的问题。隐藏层的激活函数设置为ReLU函数，具有收敛速度快的优点。输出层设置为Sigmoid激活函数，适用于线性回归层。Z为网络的神经节点；输入层的神经节点为5，隐藏层的输出节点分别为(50， 200， 500， 200)。W为网络的权值，b为网络的偏置，l为网络层数，包含输入层，输出层以及四个隐藏层，输入层为第0层。

训练过程中使用Adam梯度下降算法，进行参数优化

(7)

(8)

(9)

(10)

(11)

同理

(12)

其中t为当前迭代次数，β1和β2为控制两个指数加权平均值的超参数，一般设置为0.9， 0.999。α为学习率, 其初始值设置为0.002。ε用于避免分母为零，一般为1×10-8。通过计算之前梯度的指数加权平均值，和之前梯度平方的指数加权平均值。分别将其存储在变量ν(偏差校正前)，νcorrected(偏差校正后)和s(偏差校正前),scorrected(偏差校正后)之中。通过Adam梯度下降算法不断的更新W，b，得到最佳值。

1.3 网络训练和测试

为了使网络运行达到预期的目标，建立了23 100组数据。在训练过程中发现，正向模拟训练效果良好，收敛速度快，如图3(a)所示。在逆向设计的时候，由于数据集中数据量庞大，有相似的光谱响应对应不同的光栅结构参数，造成单输入对应多输出的问题，使得网络无法找到最优解，迭代无法收敛，如图3(b)所示。例如两个不同的光栅结构Ma和Mb，有相似的光谱响应曲线，当神经网络在训练的过程中有两个数据(Ma，T)与(Mb，T)时训练将难以收敛，因为这两个数据为网络提供了两个不同的答案，使得网络无法达到训练的目的。神经网络的调控是通过最小化Loss函数来完成训练目的的，在逆向设计中Loss函数为

图3 (a)正向模拟损失函数曲线； (b) 逆向设计损失函数曲线

(13)

为了克服数据的非唯一性导致的迭代无法收敛的问题，使用一种串联的神经网络(TNN)[9]如图4，将先前建立的正向模拟神经网络(红框部分)与逆向设计网络连接在一起，中间层为光栅的结构参数D(蓝色部分)，整个串联网络的输入为目标光谱R，串联网络的输出是根据逆向设计得到的光栅结构参数D′，输入已经训练完成的正向模拟网络所得到的预测光谱响应R′。在串联网络运行之前，先将训练好的正向网络的权重Wf与偏置bf设定。然后通过Loss函数调整逆向设计网络的权重Wi与偏置bi。与先前两种网络不同的是，串联网络的损失函数计算的是输入光谱R与输出光谱R′之间的均方误差

(14)

该Loss函数定义为预测光谱响应和目标光谱响应之间的均方误差。这种网络结构克服了逆向设计网络的非唯一性问题，因为网络的设计结果不需要与训练样本中的实际设计相同。相反，只要生成的几何结构参数和实际设计的几何结构参数具有相似的响应， Loss函数就会很低。

为了测试串联网络的逆向设计能力，使用RCWA数值模拟任意三个光栅的光谱响应曲线，并将光谱曲线输入串联网络，得到光栅结构参数，将串联网络给出的结构参数与RCWA数值模拟的结构参数列于表4，并作出串联神经网络的Loss函数图，如图5所示。

表4 结构参数对比

图5 串联网络Loss函数曲线

2 实验验证

2.1 正向模拟验证

为了验证神经网络正向模拟的准确性以及可行性，查阅参考文献[12]，将文献中的设计参数以及光谱响应曲线与正向模拟网络进行对比。文献中以SiO2为基底层，光栅以及波导层选用Si3N4。在0.45～0.7 μm分别对红、绿、蓝三色陷波滤光片进行验证，三种陷波滤波片的结构参数列于表5。将表5中光栅的结构参数输入正向模拟网络，所得到的光谱响应曲线与文献中的曲线比较如图6所示。

分别将文献中的数据与正向模拟所设计的光谱响应进行相关性计算，计算两者之间的欧氏距离

(15)

相关系数r=1/(1+d)，计算红、绿、蓝三色的相关系数分别为0.763 82, 0.835 87, 0.890 88，将3个相关系数与表6中的评价指标进行比对，验证其相关性为强相关。

表6 相关系数评价指标[13]

2.2 逆向设计验证

验证串联网络的逆向设计的可行性，将未经训练的光谱曲线数据输入串联神经网络，输入的目标响应光谱曲线为0.45～0.7 μm范围内的高斯曲线

(16)

分别设置x0为0.48， 0.55， 0.61，σ设置为0.005。将三条中心波长分别在0.48， 0.55与0.61 μm，且峰值反射率达到100%的红，绿，蓝光谱响应曲线输入串联网络，并将逆向设计输出的几何结构参数(表7)使用RCWA数值模拟，得出设计结构参数对应的真实光谱响应。将目标响应光谱与真实光谱的结果相比较，如图7。

图7 串联网络逆向设计

表7 逆向设计结构参数

在训练完成的神经网络中进行各个目标光谱的设计，仅需1.35 s。极大的提高了陷波滤光片的设计效率，且峰值反射率都能达到99%以上。

3 结论

基于深度学习搭建了可以同时实现正向模拟与逆向设计的串联神经网络，并基于RCWA数值模拟生成23100组数据。将两者相结合应用在亚波长光栅陷波滤光片的结构设计，可以快速精确的得到最优光栅结构参数，输入特定的响应光谱曲线可以在1.35 s内给出光栅的几何结构参数。通过计算验证，所设计曲线与目标曲线的相关系数大于0.5，属于强相关。为亚波长光栅的设计提供了新方法和思路，相比于传统的优化设计方法极大的提高了亚波长光栅的设计效率。同时以光栅滤光片为例提出了一种深度学习法，不仅仅适用于亚波长光栅的结构设计，也可用于光学的其他领域，例如膜系设计，图像处理，光学系统设计等。