APP下载

三层衍射神经网络实现手写数字识别*

2022-09-30徐平徐海东杨拓黄海漩张旭琳袁霞肖钰斐李雄超王梦禹

物理学报 2022年18期
关键词:识别率光学频谱

徐平 徐海东 杨拓† 黄海漩 张旭琳 袁霞 肖钰斐 李雄超 王梦禹

1) (深圳大学物理与光电工程学院,微纳光电子技术研究所,深圳 518060)

2) (深圳技术大学大数据与互联网学院,深圳 518118)

光学衍射神经网络(optical diffraction neural network,ODNN)以光波作为计算媒介执行神经网络的逻辑分析与运算功能,具有高速度、低功耗及并行处理的优势.本文设计了一种仅有三层相位调制的ODNN,提出了基于目标空间频率一级谱分布提升ODNN 的数字识别性能的方法,经优化获得了系统最优的像素大小、衍射距离,以及最佳的三层相位分布.设计的ODNN 对MNIST 手写体数字集识别准确率达到了95.3%,高于文献中采用五层衍射神经网络实现的准确率91.75% (Lin X,Rivenson Y,Yardimci N T,Veli M,Luo Y,Jarrahi M,Ozcan A 2018 Science 361 1004),且精简了系统结构.结合ODNN 高速度、低功耗的优点,提出的基于频谱分析方法有利于提高ODNN 的性能,使ODNN 在边缘计算领域有巨大的应用潜力.

1 引言

深度学习[1,2]用多层人工神经网络学习数据、提取特征[3-7],在诸多领域展现的能力已经达到甚至优于人类专家的水平,然而电子芯片在运算速度上的瓶颈将限制深度学习在海量数据及高速运行环境中的应用.在减小算力负担和提高处理速度方面,光计算具有明显优势,并且具有低功耗、高速度、信息并行处理及抗电磁干扰等优点[8],近几年一些学者以光作为媒介来加速或完成神经网络的计算,这方面的研究已经取得很多成果[8-10].主要有光子芯片和光衍射神经网络[11],前者通过光逻辑处理单元来取代晶体管实现光速处理[8],后者通过光学传播完成逻辑运算[2].衍射神经网络以光的衍射传播表示神经网络中各层神经元之间的映射连接,以光波相位等参量的调制实现网络的权值调整,通过衍射传播实现网络的运算,因此可执行特征提取及目标分类等任务[11-13].

2018 年,Lin 等[2]首次提出衍射深度神经网络的概念,在太赫兹波段设计了5 层相位调制的衍射神经网络,每一层像素为200×200,对手写体数字学习的盲测识别率达到了91.75%.此后,衍射神经网络的研究得到广泛的关注,Yan 等[12]将衍射神经网络以十层网络级联的方式处理,特别是级联过程中加入光学非线性处理模块后,获得较好的识别效果.Mengu 等[14]对衍射神经网络的损失函数、梯度消失等问题进行优化,并采用相位和振幅双调制来提升识别性能.Li 等[15]提出了差分网络的办法来解决光强非负数的问题,提出了联合训练的神经网络.Sun 等[16]在波长10.6 µm 波段下设计了6 层调制层的衍射神经网络,提出以非线性器件作为调制层,并获得较好识别性能.以上工作将衍射神经网络的识别能力提高到可以与经典的计算机神经网络LeNet[17]相媲美的水平,体现出衍射神经网络的巨大潜力.但上述网络的光学系统相对复杂,级联层数比较多,存在物理实现难度较大的问题.

我们组一直从事光学相关识别方面的研究[18,19],曾在2018 年将神经网络引入光学识别,针对范德鲁特光学相关器应用神经网络设计了高性能光学滤波器[20,21],大幅提升了光学相关器对发生畸变的目标的识别能力.在此研究基础上,本文针对目前衍射神经网络存在的局限,在可见光波段构建衍射神经网络模型,并通过研究目标的空间频率谱在光学衍射神经网络(optical diffraction neural network,ODNN)衍射层之间的变化,发现了目标空间频率谱中影响ODNN 识别性能的关键特征信息.通过对ODNN 的结构参量和各层调制相位进行优化,最终仅用三层相位调制的衍射结构,对MNIST 手写体数字集的盲测达到95.3%的识别准确率,在未采用非线性光学器件以及特殊优化算法的情况下,本研究为目前文献报道的最高识别率.该工作有利于将ODNN 推广到诸多需要对海量数据进行高速检索的边缘计算环境中,例如文字检索、车牌识别、物料分拣、机器视觉、交通管理、人脸识别门禁、安防报警等应用中[15,16].

2 ODNN 设计

ODNN 是在神经网络和光学识别的基础上发展而来.图1(a)是深度神经网络,图1(b)是经典的范德鲁特光学相关器光路图[22,23].图2 是结合深度神经网络和光学识别衍生出的ODNN,其衍射面的像素单元均是可优化的神经元,而以光速完成调制处理,较好地利用了神经网络和光学识别的优势.在深度学习的网络中,各层神经元之间的连接一般是全连接或是卷积[5],而在ODNN 中,各层神经元之间的连接通过光学衍射实现,即衍射关系决定了映射连接[24].两个相位调制层之间的光学衍射是一个特定的卷积关系,卷积核为点扩散函数,其关系为

图1 (a) 深度神经网络;(b) 经典的范德鲁特光学相关器Fig.1.(a) Deep neural network;(b) the classic Vander Lugt correlator.

其中,⊗表示卷积;卷积核h(x,y) 表达式为

从(1)式和(2)式可知,在波长已定的情况下对于一个特定的输入U0(x0,y0) ,衍射输出U(x,y) 会受到衍射距离D和像素位置 (x0,y0,x,y) 的影响,最终影响ODNN 对信息的调制能力.

本文采用神经网络训练,设计了一种仅有三层相位调制的ODNN,物理模型如图2(a)所示,网络模型见图2(b).衍射光学元件(diffractive optical element,DOE)加载的信息以T表示,T中每个像元的值均可被优化,光场经过DOE 时则受到T的调制,光场在DOE 之间的衍射传播实现了网络映射,结果输出到接收面上.

其中,输入的样本是MNIST 手写体训练数据集的5.5 万张手写阿拉伯数字灰度图像,像素数为28×28.在图2 中,以Tn表示3 个DOE 的调制函数:

图2 三层DOE 衍射神经网络 (a) 光路示意图;(b) 程序流程图Fig.2.Three-layer DOE ODNN: (a) Optical path;(b) program flow chart.

式中的调制函数采用指数形式表示,由于DOE 是相位调制元件,所以只含相位角的函数为第n个DOE上x,y坐标处的相位调制信息.以Z0表示输入图像,光场通过Z0后,可通过(1)式—(3)式推演得到A2,Z2,A3,Z3,A4.A4即是到达接收面的光场分布:

初始的Tn是随机分布的,在准直光源的照射下,光场经历了(4)式的ODNN 调制后,最终以A4描述的光场分布投影到接收面.本文在接收域内分了10 个区,分别对应数字0,1,2,···,9.图3 给出了接收域的编码.

图3 接收面的区域划分及演示说明 (a) 10 个阿拉伯数字所在的区域划分;(b) 当输入图像为数字8,代表数字8的区域所在的能量最大Fig.3.Area division and demonstration description of the receiving surface: (a) Area division of the 10 Arabic numerals are located;(b) when the input image is the digit 8,the area representing the digit 8 has the maximum energy.

ODNN 的期望结果是任意一张MNIST 图像作为输入源,经过ODNN 后接收面上的光场能量会集中在该图像所对应的编码位置上.如图3(b)所示,当输入数字8 时,接收面对应数字8 位置处的能量最强.接收面的光能分布和理想分布会存在偏差,计算接收面光场分布与理想分布之间的均方差[2],就是误差函数L:

这里,Gi表示接收面上第i个像元上的期望能量值,Si是由仿真得到接收面第i个像元上的能量值,K表示接收面光场分布上的像素点的数量.在训练中像元值可被优化,而光学系统的一些超参数[25],例如波长、像元间距、衍射距离等参数需要人为设定,且超参数的值对训练结果影响巨大.本文主要研究这类超参数对数字识别网络性能的影响.图像识别就是对物体特征的匹配度进行判断,而在频谱空间研究特征匹配会更有效率.对于数字识别来说,数字识别的关键特征是数字的基本形状规律,本研究将其归为低频信息;而手写的差异,包括笔画习惯等细节上,将其归为高频信息.手写数字识别的目的是数字区分,训练时应当忽略手写的差异,而重点关注低频信息.因此,本文提出基于手写数字的低频信息设计ODNN,使ODNN 成为一个低通滤波器,低频信息可以在ODNN 内传导,高频信息在传导过程中被舍去.

数字形状特征的最高频率是两倍笔画宽度对应的频率,如图4 中的数字1,其频谱图样中水平方向上有最宽的一级衍射斑,而根据角谱理论,笔画宽度的频率和该衍射斑的边缘位置相对应.因此,本文以笔画宽度的一级谱频谱带宽为低通滤波的截止带宽,数字形状的特征信息均在该低通部分内.

图4 手写数字及对应的频谱幅度图Fig.4.Handwritten digits and the corresponding spectral map.

依据这一思路设计ODNN,使衍射层的像素仅针对有价值的特征信息进行调制,提高调制效率以减少网络层数.较易理解的情况是,当层与层之间的距离属于弗朗禾费衍射区时,输出面上得到的是输入面的频谱花样,并且中心是低频信息,边缘是高频信息,此时很轻易地通过输出面的尺寸来设定截止频率.虽然相比参考文献[2,14,15]将网络设计在瑞利-索末菲衍射区,夫朗禾费衍射区的传输距离更大,但是由于在这个传输距离下,衍射面的宽度和传输距离的比例一般在1∶10 以上,使得光学系统容易转换成折返式光路的系统,最终这样的设计将有利于进一步的压缩空间以及提高光学器件的集成化,特别是三个衍射层在同一个平面上加工,将有利于提高加工效率以及减小装配方面的负担.基于本课题在平面集成化的光学识别器方面的研究成果[18,19],后续可将把平面光学设计和ODNN结合起来,本文不作详细介绍.

在已定波长、像元尺寸的情况下,像素数、衍射距离这两个因素可以将接收面的信息限制在一级衍射斑内,后文研究这两个因素对ODNN 识别准确率的影响,分析了采用一级谱作为手写数字识别的有效性.本文均在波长为632.8 nm,像元间距为8 µm 的情况下对ODNN 进行研究.

3 ODNN 的优化设计

3.1 衍射层的像素数对识别率的影响

一般来说,神经网络的层数越多,则神经元越多,识别能力越强.但是,对于ODNN,增加层数会导致物理模型的复杂化,对准误差、形变误差、透过率、衍射级次串扰等因素的影响也会增大,使实际效果变差[2],而通过增加每层像素数的方式可体现出光学并行处理的优势.增加像素数可以增加图像的特征信息,从频域分析可直观地观察这一改善.以图5 为例,原图像像素为28×28 的样本数字8,通过离散傅里叶变换得到的频谱图也是28×28,有较明显的锯齿状且谱图模糊.当对原图像的四周补0 使图像扩展成64×64 时,对应频谱图的截止频率不变但分辨率提高,数字8 的特征信息更加明显.

图5 不同像素大小的图像和频谱幅度谱Fig.5.Image and amplitude spectrum of different pixel sizes.

逐渐增加DOE 的像素数大小,并分别训练得到像素数为28×28,32×32,64×64,128×128以及256×256 时ODNN 的识别率.如图6 所示,将像素数从28×28 提高到128×128 时,识别率显著提高,说明频谱图分辨率提高对识别率有贡献.而从128×128 到256×256 时,识别率略微下降,说明128×128 时频谱图的数字特征已经足够呈现,进一步扩展像素已经没有太多提升,但是在有限的训练周期下,128×128 系统的优化速度更快,并且网络体积更小.因此,在识别率、训练速度和体积的综合考虑上,ODNN 的衍射层选择128×128 的像素大小较为合适.

图6 ODNN 的系统分辨率对识别率的影响Fig.6.Impact of ODNN’s resolution on recognition rate.

3.2 传输距离对识别率的影响

传输距离D对层与层之间映射关系的影响同样很显著.如图7 所示,当D远大于图像尺寸,且图像尺寸为1.024 mm×1.024 mm 时,在29 mm处得到的光强分布已经可近似为夫朗禾费衍射[24].而进一步加大D时,输出面仍呈现为夫朗禾费衍射衍射花样,但图像比例随D的增加而变大,使高频部分溢出屏外,即高频部分在接收面被截止.

将D设置成不同的大小,并分别对ODNN 进行训练,通过训练得到系统分别在D=29,32,35,38,41,44,47,50 mm 时的识别率.从图8 可看出,D=41 mm 时系统的识别率最高,结合图7 可知,此时图像在接收面的衍射花样保留了一级频谱内的信息,高频信息已溢出屏外.因此,从频域分析的角度出发,针对数字识别的有效频率成分设计ODNN 的光学距离,使得在有限的像素数和网络层数的前提下,可得到衍射网络的最佳的衍射距离.

图7 衍射距离D 对信息传递的影响Fig.7.Effect of diffraction distance on information transmission.

图8 衍射距离D 对ODNN 识别率的影响Fig.8.Influence of diffraction distance D on the recognition rate of ODNN.

4 仿真结果

对比文献[2],本文采用MNIST 的训练样本对所提出的三层调制层、分辨率为128×128 的ODNN 训练50 个周期,并用测试样本做盲测仿真,结果如图9 所示,盲测的识别准确率达到了95.3%.在相同的算法下,文献[2]采用五层中间层、分辨率为200×200 的设计,其识别准确率仅为91.75%.此外,本文采用632.8 nm 的波段,使像元间距从400 µm 缩小到8 µm,结合衍射层数和像素数的减少,最终将光网络的尺寸从文献[2]的80 mm×80 mm×120 mm 减小到1.024 mm×1.024 mm×164 mm,极大地压缩了系统的体积.后续采用折反式平面光学设计,不仅能将空间尺寸进一步压缩,还可以将衍射层集成在一个面上有助于加工和装配.

图9 三层ODNN 的训练结果Fig.9.Training results of three-layer ODNN.

使用测试数据集在MATLAB 上检验训练的结果,当输入图像为图10(a)所示的数字8 时,经历ODNN 后在接收面上输出的能量分布如图10(b)所示,数字8 位置处的能量光斑最大.考虑后续加工DOE 将进行台阶量化处理,本文进一步分析了台阶量化后对识别结果的影响,如图10(c)所示,8 台阶量化后,数字8 的识别结果仍较为明显.图10(d)分别表示台阶量化前和量化后的三个DOE.

图10 ODNN 的 (a) 输入和 (b) 输出图例;(c) DOE 量化后的仿真结果;(d) 量化前及量化后的DOEFig.10.Input (a) and output (b) pattern examples of ODNN;(c) simulation result when the DOEs are quantified;(d) DOEs and quantified DOEs.

5 结论

为了实现高性能的手写数字识别,本文提出了三层相位调制层的ODNN,从频域分析的角度出发,建立了依据数字样本集的空间频率一级谱特征设计ODNN 的方法.依据此方法优化了光学系统参数,包括相位分布、像素大小、衍射距离,保证了光网络在传播及调制过程中充分利用一级谱信息.最终本文设计了工作波长为632.8 nm,仅有三层相位调制的ODNN,其分辨率为128×128,像元间距为8 µm,层间距为41 mm.仿真表明识别准确率达到95.3%,高于文献[2]采用五层衍射神经网络的91.75%,且设计的ODNN 光学部分体积仅为1.024 mm×1.024 mm×164 mm,远小于文献[2]报道的体积.本文提出的方法提升了ODNN的数字识别性能,减少了网络层数,有效精简了系统结构,结合ODNN 低功耗、高速率的优点,有助于产业化应用.后续将进一步采用频谱特征分析方法对更加复杂的识别任务进行研究,使ODNN 在文字检索、车牌识别、物料分拣、机器视觉、交通管理、人脸识别、门禁、安防报警等应用场景中发挥更多的应用价值.

猜你喜欢

识别率光学频谱
滑轮组的装配
光学常见考题逐个击破
一种用于深空探测的Chirp变换频谱分析仪设计与实现
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
一种基于稀疏度估计的自适应压缩频谱感知算法
提升高速公路MTC二次抓拍车牌识别率方案研究
高速公路机电日常维护中车牌识别率分析系统的应用
认知无线电频谱感知技术综述
光学遥感压缩成像技术