基于深度学习的光学表面杂质检测*

2021-09-03张瑶张云波陈立

物理学报 2021年16期

张瑶张云波陈立‡

1) (山西大学理论物理研究所, 量子光学与光量子器件国家重点实验室, 太原 030006)

2) (浙江理工大学物理系, 浙江省光场调控重点实验室, 杭州 310018)

在基于激光技术的现代光学实验和光学应用中, 光学元器件表面的微杂质和微缺陷是影响光学系统精密程度的主要因素之一, 因而光学表面杂质和缺陷的定位检测是一个重要的问题.本文提出利用深度神经网络来辅助光学杂质检测的理论方案.模拟了一束探测激光脉冲照射到具有单个微小杂质的光学表面时, 反射信号和透射信号中所携带杂质的位置信息可被一个深度卷积神经网络学习并定位.此外, 通过改变杂质大小、折射率等属性生成了一系列泛化数据集, 并讨论了神经网络在泛化数据集上的表现.泛化结果表明, 神经网络对杂质位置的预测能力具有较高的鲁棒性.最后, 还对比了卷积神经网络和全连接神经网络这两种不同架构网络的学习能力.

精密的光学元器件是现代光学实验和激光应用中不可或缺的组成部分, 例如光学晶体、分光镜、光学玻片等广泛应用于量子光学以及基于光子的量子计算[1-3]、量子通信实验中[4-6]; 在日常生活中, 小到手机镜头、液晶屏幕, 大到卫星导航, 激光定位都离不开光学薄膜等光学器件.然而, 精密光学器件的表面往往是最重要但又最容易受到损伤的地方.已有大量的研究表明, 光学表面的杂质和缺陷不但会大大影响光学器件的工作性能, 更进一步, 在大功率的激光应用中, 具有杂质和缺陷的光学表面更加容易受到激光损伤, 从而极大地减小光学器件的使用寿命[7].因而, 对光学表面的杂质检测是一个重要的研究课题.

近些年来, 人们在基于光学成像的光学检测方面做了大量研究.例如, 人们提出利用高解析度CCD (charge coupled device)阵列来进行光学检测[8], 检测精度依赖于CCD的成像分辨率.再例如, 人们研发了谱域光学相干层分析成像技术[9],这种技术借助光学干涉信号的频谱分析来对光学器件的表面结构进行检测.但是, 这些检测技术的系统往往过于庞大, 并且光学成像本质将杂质信息转化为人眼可分辨的光学信息, 并最终依赖人为设立的某些标准来进行检测, 然而这些标准往往带有人的主观判断因而不够准确和全面.

另一方面, 机器学习的高速发展为各个领域带来了新的契机, 如今在智能博弈、语言翻译、金融、医疗等诸多领域都可以看到机器学习的身影.深度学习是基于深度神经网络的一种机器学习算法[10,11], 因其在AlphaGo围棋机器人中的成功应用得到了广泛的关注[12,13].深度神经网络中深度隐含层可对输入信息进行层层提取分析, 相较于传统的浅层学习模型, 如受限玻尔兹曼机[14-16]和支持向量机[17-19]等, 具有更加强大的信息提取能力,而这一能力正好可以被利用在光学信息提取和光学检测之中.事实上, 深度学习在光学研究和光学应用中已有许多研究, 例如在量子光学中机器学习可以进行量子态的重构[20], 以及对光学信号的降噪等[21].

基于以上研究背景, 本文提出利用深度神经网络对光学表面的杂质位置进行检测的理论方案.首先理论模拟探测脉冲照射光学介质时, 介质表面的杂质信息会被编码于反射和透射光信号之中, 然后, 搭建一个深度卷积神经网络对反射(透射)信号进行监督学习.结果表明, 神经网络可以成功地从反射(透射)信号中提取出杂质的位置信息, 且网络具有较强的泛化能力, 从而在一定程度上对具有不同大小、不同折射率的杂质进行准确预测.此外, 还在同等网络参数的条件下对比了两种不同的深度神经网络的学习能力.

1 模型及训练

1.1 模型

本文考虑一束沿z方向极化的脉冲激光, 沿x方向垂直照射某光学介质, 介质的厚度为L, 如图1(a)所示.介质表面某处有一凸起的杂质, 杂质的尺寸为l.脉冲激光的电场强度 E (r,t)满足波动方程[22-24]

图1 (a) 模型示意图; (b) 光强度分布, 其中实线表示入射光信号, 虚线和点划线分别表示反射光 I R 和透射光 I T ; (c) 卷积神经网络示意图Fig.1.(a) Schematic of our model; (b) light intensity distributions where the solid line is the probe light, and the dashed and the dot-dashed lines denote I R and I T , respectively; (c) architecture of the convolutional neural network.

其中, r为空间坐标, c为光速,ε (r)为相对介电常数, 其在介质内外的分布为

ε (r)与光学折射率n的关系为为简化理论计算, 约束杂质仅在z方向移动, 并考虑场强E(r,t)在y方向为均匀分布, 由此可将方程(1)约化为 ( x,z)的二维波动方程.接下来, 利用欧拉-傅里叶谱法[25-27]对方程(1)进行数值求解, 演化方程的初始条件为

其中初始电场 E (x,z,t=0)为一系列沿x方向, 波矢为 km的平面波的线性叠加, 其在z方向上为高斯分布,µz表示高斯波包的中心位置,σ为高斯波包宽度.对于方程(1)所描述的光学系统有以下的长度尺度关系:σ ～L≫λ～l, 即高斯波包的宽度σ和介质的厚度L要远大于电磁波波长 λ和杂质尺寸l, 而空间差分离散的最小单元长度 Δ 又要小于以上的所有长度尺度, 这给数值计算带来了很大的挑战.在实际计算过程中, 本文选取 Δ= 5 5nm为长度单位, 并取 σ= 2L=100Δ, 杂质边长l可在Δ-5 Δ之间变化, 即杂质尺寸在55-275 nm之间变化.系统总的求解空间为 x ∈[ -256Δ,2 56Δ],z∈[-512Δ,5 12Δ].为方便计算, 选择入射光为若干个波矢为 km的平面波的叠加, 这里km=2πm/512Δ, 其中 m ∈[40,60], 为整数.由此可知入射光的波长范围在可见光范围 λ≈470-700 nm, 而光脉冲宽度由 1 /ωSD表示, 其中表示N =21 个频率模式谱分布的标准差,ωi表示频率,表示平均频率,在所取模式下可知脉冲宽度约为 0.5×10-15s, 即0.5fs.如此选择波包的另一个好处是可以在系统演化时间内将信号不失真地从源端传送到接收端.以上系统参数的选择可以将计算量控制在合理的范围之内.

当探测信号经过介质反射和透射后, 在介质前和后分别收集反射光(R)和透射光(T) 的强度信号 ∝ |E(x,z,t)|2, 并对其在x方向进行积分从而得到沿z方向的分布 IR,T(z).图1(b)给出了探测信号强度(实线)经过光学表面一个小杂质 l =Δ衍射后 IR,T(z)的分布(虚线和点划线).从图中可以看出, 探测信号分布I为一个标准的高斯分布, 而反射和透射信号经过杂质衍射后强度信号会形成空间振荡, 其中包含了杂质信息, 对其解码可以获得杂质的位置信息.但是, 很显然, 通过简单观察振荡曲线不足以对杂质进行准确的定位.我们的目标是利用神经网络来学习杂质位置与经过该杂质衍射后的光强分布之间的函数关系, 从而让网络学到从强度信号 IR,T中提取杂质位置信息的能力.

1.2 网络及训练

数据集G被分为两个部分--训练集 Gtrain和测试集 Gtest分别用于网络训练和网络测试, 这里选取训练集和测试集的大小分别为 Ntrain=800和Ntest=200.接下来, 对反射和透射信号分别搭建一个深度的卷积神经网络(convolutional neural network, CNN)来进行训练, 网络结构如图1(c)所示.网络的输入为 IR,T(z), 而输出为一个定义在类号 zc上的概率分布 PR,T(zc|I), 其反映了网络对指定的输入信号I进行分析后所作出的分类预测概率分布.神经网络由输入层(Input layer)、卷积层(Convolutional layers)、Flatten 层(Flatten layer)、全连接层(Dense layer) 以及输出层(Output layer)构成, 其中卷积层共三层, 深度分别为 1 0,20 和 5 0, 卷积核尺寸为 2 0, 选取“Relu”为激活函数, 每一层卷积层之后添加一层平均池化层用以缩小神经元的个数, 池化尺寸为 2 ; 全连接层神经元个数为 4 8, 激活函数同样为“Relu”函数; 输出层神经元个数为 3 2, 激活函数为“softmax”函数, 从而将输出转为概率分布 P (zc|I).网络内部总的可训练参数约为 5.7×105个.

网络的训练过程即对应调整网络参数从而使损失函数 L最小的优化过程.在训练过程中选用的损失函数为交叉熵[29,30]

其中 Qi(zc|I)是杂质真实类号 zc的one-hot编码[31]分布函数.交叉熵本质反映了网络预测分布P与真实分布Q之间的相对距离, 交叉熵越小, 网络的预测越接近真实值.此外, 在训练过程中通过监视平均精确度(V A )来衡量网络训练是否有效.VA的定义为

其中

从定义上可以看出,ai表示对于给定的测试数据i,其 P (zc|I)中概率最大的类与杂质的真实类是否一致, 如果一致则贡献 1 , 否则没有贡献.V A 是 ai对所有测试数据的平均.因此对于训练而言, 损失函数 L下降的同时伴随着精确度 V A的提升.

图2(a)和图2(b)分别给出了训练过程中损失函数 L和精确度 V A随训练epoch数的变化曲线,其中epoch定义为所有训练数据整体流过神经网络的次数.在每幅图中, 实线和虚线分别为独立利

用反射信号 IR和透射信号 IT作为网络输入的训练曲线.结果表明, 网络可以从 IR或 IT中学习提取杂质位置信息的能力, 并且在约为40个epoch时得以收敛, 具体表现为损失函数 L下降至零附近, 伴随着 V A达到约 1 00%, 网络收敛标志着训练完成.训练完成后, 选取任意一组测试数据, 并绘出预测概率分布 PR,T(zc|I)如图2(c)和图2(d)所示, 可以看出, 网络的预测概率分布高度集中, 表明网络对杂质位置的判断具有很高的置信度.

图2 (a) 训练过程中, 损失函数 L 随epoch的变化; (b) 训练过程精确度 V A 随epoch的变化; (c) 反射信号训练出的网络的预测概率分布 P R(zc|I) ; (d)透射信号训练出的网络的预测概率分布 PT(zc|I)Fig.2.(a) Dependence of L on epochs in the training process; (b) dependence of V A on epochs in the training process; (c) typical inferential probability P R(zc|I) ; (d) typical inferential probability P T(zc|I) .

2 卷积神经网络架构下的网络泛化

一般而言, 检验一个机器学习模型是否学习到了提取核心信息的本领, 需要进行泛化能力测试[32].泛化能力是指网络在训练和测试集以外的更广义的数据集上具有的预判能力, 这一点对于所考虑的问题尤为重要.这是因为, 上述训练过程中用到的训练集是针对较大杂质 l =4Δ的, 我们希望神经网络学习到的辨别杂质位置的本领可以自动泛化到小的杂质上, 从而能帮助实验在小杂质检测方面提供理论预测和指导, 因为小杂质通常来说比较难以定位.因此, 对训练好的网络进行以下三个方面的泛化能力测试: 杂质大小l的泛化、杂质折射率n的泛化、以及杂质形状(geometry)的泛化,这三种泛化测试的结果分别如图3(a)-图3(c)中,其中图3(a)固定杂质折射率为形状为方形, 改变杂质边长; 图3(b)固定杂质边长为 l=4Δ且形状为方形, 改变杂质折射率; 图3(c)固定边长为 l =4Δ 以及折射率为改变杂质形状.对于每一幅子图, 左侧一栏表示利用反射/透射信号训练后的网络的预测精确度, 而在右侧一栏呈现了在一组典型数据下反射信号训练出网络的预测概率分布 PR(zc|I).泛化测试用到的所有测试集大小都为200, 它们的生成方法与上述训练集生成方法一致, 差别在于生成泛化集需要改变如图3所示的杂质的相关属性.

可以看出, 网络在这三种不同数据集上都表现出了较强的泛化能力, 并且在训练参数下(l =4Δ,位形为方形杂质)表现出最高的预测精度.下面对泛化结果做几点说明: 1)网络对不同大小杂质的预测呈现出了一些振荡, 但总体精确度不低于75% (图3(a1)), 并且预测精确度呈现振荡的原因与杂质边长l的奇偶性相关.这一现象与杂质类号的定义中的取整 i nt有关.试想, 当杂质边长l为偶数倍 Δ 时, 杂质质心位置 z0=nΔ总可以被定义在 Δ 的整数倍处, 但是对于奇数倍 Δ 的杂质的质心总是被定义在 Δ 的半整数倍处 z0=(2n+1)Δ/2.结果表明, 这部分差异也被神经网络所捕捉到.为证实这一观点, 同样测试了训练集为 l =3Δ情况下网络的泛化能力, 结果表明, 在奇数倍 Δ 的杂质泛化测试集上精确度较高, 而在偶数倍 Δ 测试集上精确度较低.关于这一点还需额外说明, 这种奇偶差异会随着 Δ→ 0 而逐渐消失, 但 Δ 的减小对应于空间的无限精细离散化, 这在数值模拟上带来了巨大的计算开销.2)在杂质折射率的泛化测试中(图3(b1)), 基于反射信号和透射信号的泛化精确度都会随着折射率n减小至1而逐渐衰减至零.这是合理的, 因为 n =1对应杂质消失, 因而无论是反射还是透射信号内都不会携带任何杂质的信息.3)图3(c)表明, 虽然神经网络仅在方形杂质训练集上训练, 但其在其他几何形状的杂质上也有较强的泛化能力.并且, 容易发现, 泛化精确度与杂质的反射对称性有关.因为训练集是具有左右反射对称性的方形杂质, 因而在图3(c)中, 同样具有反射对称性的条形(左一)和楔形(左二)杂质上体现出较高的泛化能力, 而在反射对称性缺失的其他杂质上泛化能力相对较弱.另外, 考虑到在实际的光学检测中, 杂质形状往往并不具有特定的对称性,因而测试了不同形状杂质联合训练的结果, 如图3(d1)和图3(d2)所示, 即在训练集中包含等量的不同杂质形状的反射、透射信号(8种不同形状,每种100个样本, 保持 Ntrain=800).结果表明, 经此训练后神经网络的整体预测精确度有大幅提升(对比图3(c1)和图3(d1)), 并且预测概率分布也变得更加集中(对比图3(c2)和图3(d2)), 即网络对预测变得更加确信.

图3 (a) 杂质大小泛化; (b) 杂质折射率泛化; (c) 杂质形状泛化.(a1), (b1)和(c1)表示泛化精确度; (a2), (b2)和(c2)表示典型数据下的泛化预测概率 P R(zc|I) .(d) 多形状杂质联合训练后的网络预测, 其中(d1)表示测试精确度, (d2)表示典型数据下的预测概率Fig.3.(a)-(c) Generalization capability of the convolutional neural network, where (a1), (b1) and (c1) denote the generalization VA , and (a2), (b2), (c2) correspond to the typical inferential probability P R(zc|I) , respectively; (d) inferential probability of neural network trained by impurities with different geometries, where (d1) denotes the testing V A , and (d2) corresponds to the typical inferential probability P R(zc|I) .

3 讨论

针对上述的计算和泛化做三点讨论.第一,上述计算中采用了业界较为常见的卷积神经网络架构.接下来将其与纯全连接神经网络(fully connected neural network, FCNN)的学习能力做一个比较.为保证比较的公平性, 控制FCNN 网络的层数以及总参数个数与之前的CNN网络接近.图4(a)具体给出了FCNN网络的架构和参数, 其中输入层神经元个数为512; 隐含层神经元个数依次为256, 310, 448, 310, 237, 与之对应的激活函数为“Relu”函数; 输出层神经元个数为32, 激活函数为“softmax”函数.图4(b)-图4(d)比较了CNN和FCNN两种网络在杂质大小、杂质折射率和杂质形状, 其中左侧一栏对应反射信号训练的结果, 右侧一栏对应透射信号训练的结果.可以看出两种不同网络在泛化集上都有较好的表现, 但是两者相较而言, CNN的表现更为优异.CNN具有一定的优越性可以这样来理解: 关于单个杂质衍射的问题是具有空间平移不变性的, 这里的平移不变指的是杂质衍射后对反射/透射信号所产生的局部特征并不依赖于杂质所处的位置.已有理论表明[33],在针对具有平移不变特征的提取问题上, CNN 具有更大的优势, 因为其卷积核可以被重复利用.换言之, 若要使FCNN达到与CNN一样的效果, 则需要引入更多的参数, 我们的测试也印证了这一点.第二, 在上述的计算中, 仅仅呈现了光学表面的凸杂质情形, 但事实上光学表面的损伤除了凸杂质还有凹杂质.本文同样测试了神经网络对凹杂质位置的学习能力, 典型的结果如图5所示, 其中图5(a)和图5(b) 分别表示凹杂质学习的训练损失曲线以及训练后网络对杂质大小l的泛化测试.结果表明, 神经网络对凹杂质也体现出很强的学习能力.第三, 本文讨论了单个杂质的检测问题, 但受限于目前的数值仿真计算能力, 只考虑了光学杂质仅在单一方向移动这一简单情形.我们希望这些结果可以在一定程度上揭示机器学习在光学检测中的潜在应用价值, 为光学检测提供新的基于机器学习的算法思路.我们下一步的研究方向将侧重于提升光学仿真的计算能力和探讨新的基于机器学习的算法, 例如迁移学习[34]和残差网络[35]在多杂质复杂光学系统中的应用价值.

Fig.4.(a) Architecture of the fully connected neural network; (b)-(d) comparison of the generalization capability between the CNN and the FCNN.(b1), (c1) and (d1) display the V A of the NNs trained by the reflection signals, and (b2), (c2) and (d2) show the VA of the NNs trained by the transmission signals.图4 (a) FCNN结构示意图; (b)-(d) 两种神经网络的泛化能力比较, 其中 (b1), (c1)和(d1)分别表示反射信号训练下网络杂质大小、杂质折射率和杂质形状的泛化精确度, (b2), (c2) 和(d2)分别表示透射信号训练下网络杂质大小、杂质折射率和杂质形状的泛化精确度

图5 (a) 凹杂质的训练过程中, 损失函数 L 随epoch的变化; (b) 杂质大小的泛化精确度Fig.5.(a) Dependence of L on epochs in the training process of concave impurity; (b) generalization V A of the impurity size.

4 结论

本文提出利用深度神经网络对光学表面微杂质和缺陷进行检测的理论方案.具体而言, 利用经特定杂质散射/衍射后的光学信号对神经网络进行监督性训练, 然后利用神经网络的泛化能力对不同大小、折射率以及形状的光学杂质位置进行预测.结果表明, 神经网络可以成功提取出加载在光学信号中的杂质位置信息, 并在泛化测试中对杂质位置做出较为准确的判断.此外, 还对比和讨论了两种不同神经网络在光学杂质检测方面的学习能力.考虑到光学杂质和缺陷问题是现代实验光学和应用光学中重要的瓶颈之一, 这一研究为光学杂质定位和检测提供了新的思路和视角.

感谢清华大学高等研究院博士后梁霄的讨论.