研发无透镜光电神经网络架构 提升端到端人脸识别隐私保护能力
2022-10-04
“无透镜传感器,可以输出无可视化的图像,具有高隐私、高安全等特性。结合与其配套的光电智能神经网络,将对大规模、甚至超大规模的智能感知应用,起到重要支撑作用,进而可用于智能安防、智能家居、自动驾驶及其他下一代终端上。审稿人表示这项工作将给光学神经网络带来长足的进步。”清华大学电子工程系陈宏伟教授表示。
陈宏伟
无透镜传感器模组
近日,该课题组提出一种无透镜光电神经网络架构。这是一项从研究伊始便面向工业及边缘视觉感知的课题,具备较强的应用性。无透镜光电神经网络架构可用于机器视觉任务,利用成像光路中插入的无源光学掩模版,在光域执行卷积运算,借此解决了自然场景中非相干光源和宽带光信号处理带来的挑战。
以手写数字识别任务为例验证该架构中光学卷积的性能时,使用单核掩模版的手写数字识别准确率可以达到93.47%。在掩模版上并行排列多核实现单层多通道卷积运算,识别精度可提升至97.21%。相比传统机器视觉链路,可节省大约50%的能耗。
借助该成果,可实现自然光场景下的光电混合神经网络计算。面向特定任务时,可以联合优化光电全链路,同时实现体积和功耗的极简化,可使其便于部署在边缘设备中。另外,无源的光学掩模版不仅可对入射光学场景进行卷积运算,而且还可进行天然的图像加密,从而形成人眼不可辨认的光场景信息混叠图像,借此可应用在隐私保护的各种视觉任务场景中。
相比传统加密解密方式,该方法省略了在传感器端与服务器端解密可视图像的步骤,实现了从光学采集到视觉任务完成全过程的隐私保护,可从根本上保障传感成像隐私性。使用时,用尺寸为不足一厘米的传感芯片模组直接拍摄人脸,设备端便可传回此人的身份信息。类似地,也可完成对人脸、动作、表情、姿势及二维码等多种特征的识别。
让光学上无透镜的编码真正为任务服务
视觉是人类感知世界的重要途径,人们也开发了诸多设备来采集视觉信息,比如相机、摄影机等。一般来说在相机架构里,一个精准的透镜系统、配合后端的感光芯片、以及数据单元,完成数据处理,最终得到一张图像。
近年来,人们对成像的理解越来越深入,也发展出了多种成像模式,以获得更多的图像信息,比如偏振、深度、光谱等。这些信息的获取可以通过“光学编码+计算解码”的计算成像方式来完成。
相比传统透镜成像的“所见即所得”模式,计算成像采用“先编码-再成像-最后解调”的方式,在光学域对图像进行编码,通过后端算法的解码得到质量更高的图像。可以说,计算成像根本上改变了成像方式,将成像从繁重的透镜系统中解放出来,在成像系统的小型化上迈出了重要一步。
近年来,计算成像得到了更多应用,比如人脸识别、行人检测等。各类智能化边缘设备的兴起,对成像系统的小型化提出了更高要求。于是,无透镜成像应需而生。它的出现,大大地降低了整个系统的体积和重量,为设备部署提供了更多便利。
智能视觉感知的系统,包括光学端成像系统、光电图像探测芯片、图像处理芯片、以及执行视觉任务的计算单元。无透镜成像系统运用了更优异的光学编码器件,可得到更好的成像效果。其芯片端使用功耗更低、敏感度更高的器件,因此可进行更精准的探测;算法端则配合更庞大的数据集和更高的算力,可得到更准确的分类和识别等结果。
由于各个环节都是独立优化的,在感存算一体架构中会造成很多冗余。举例来说,无透镜系统在整个架构中仅用于成像,其成像质量的评价指标也是针对人眼而制定的。而机器视觉和人眼不同,人眼可理解的图形对于机器来说未必是最佳。
基于此,该团队萌生如下想法:为何不直接面向机器视觉的任务,跳过成像的环节、把光路和各个部分级联优化,让光学上无透镜的编码真正为任务服务,而不再追求人眼看起来的效果?这便是此次成果的研究初衷。
面向机器视觉的任务,跳过成像环节
陈宏伟表示,上述想法和光计算有异曲同工之妙,如果在光上完成计算,而计算本身是直接由任务性能驱动,那么整个系统也就是其所构想的全链路级联优化。以最常见的神经网络为例,目前有很多全光的神经网络可以完成视觉任务,比如衍射神经网络等。
虽然光上运算是并行的,计算速度得到了巨大的提升,并且无额外的功耗。但是,由于衍射神经网络原理的限制,只能使用相干的单色激光作为光源,尽管可以在光上完成计算,但是无法在自然光场景下应用。
而其他基于光电混合神经网络的技术,也需要配备透镜系统完成运算功能,这和边缘设备的小型化要求也是相违背的。于是,该团队开始思考:能否搭建一个无透镜的光电混合神经网络架构,使其既能在自然光下完成神经网络功能,又能满足边缘设备小型化的要求?
基于上述构思,利用几何光学理论,课题组探索出在非相干光下,通过无透镜的掩膜版完成光域卷积运算的方法,实现了低成本的光上特征提取和光学加密,并在图像分类和人脸加密识别两个系统架构下完成了验证。更特别的是,该系统可以在自然光环境下工作,与现有的机器视觉系统可以完美融合。
当人脸信息经过无透镜系统,可直接得到对应ID
在数据爆炸的今天,人们对于人脸等隐私信息越来越重视,各种信息加密方法应运而生。对比电上计算的加密,光上并行加密运算的无功耗,是一个非常重要的优势。
因此,该团队实现的场景是:当人脸信息经过一个无透镜的系统,可以直接得到人脸对应的ID。整个链路实现了端到端的隐私保护,芯片探测到的只是一个人眼根本无法理解的图像。但其对于机器来说,却可以轻易识别出的人物身份。此外,前端光学编码和芯片端只有厘米量级,可以轻松集成于各个边缘系统中。
2022年5月4日,相关论文以《LOEN:无透镜光电神经网络增强机器视觉》为题,发表在《自然》出版的顶级光学期刊上。
对于该成果,审稿人评价称:“作者提出了一个用于机器视觉任务的无透镜光电神经网络。该方法使用无透镜掩模对光学图像进行卷积,使用后续的电硬件进行识别。该方法减少了传统光神经网络对光相干性的要求,可用于自然场景。光学加密也可用于对于保护隐私的面部识别。这一想法是创新性的,并得到了全面的理论分析和可靠的实验验证。”
用无透镜光电神经网络架构完成机器视觉任务
据介绍,陈宏伟所领导的课题组在光电子信号处理、集成微波光子学、光子智能等领域关键器件和技术、光电系统等方面均有深入研究。
实际上,对于隐私保护的视觉感知,是在该研究开展后才逐步确立的。陈宏伟及团队成员在实验中发现,光学域的卷积天然的具有图像模糊特性,于是突发奇想地讨论起来:模糊图像到底是好事还是坏事?在调研了目前产业界对人脸数据隐私保护的需求程度和现存手段之后,其认为该系统的隐私保护功能在项目落地后会有极大的应用前景。
无透镜传感器模组
近年来,光的并行性、高速度和低损耗的优势被逐渐关注,光学计算被认为可以突破电子计算的瓶颈限制,光神经网络也逐渐进入了学术界和产业界的视线。国内外的一些研究团队纷纷展开了对光神经网络的研究。而在国内,该实验室也是较早开展光计算的团队。
陈宏伟关注到,目前的光计算离实用化还非常遥远,许多关键问题并未得到很好解决,比如集成性、小型化、低功耗和易用性等。由于绝大部分光神经网络计算,需要使用相干激光作为光源,或是基于庞大尺寸透镜组的光电混合神经网络,因此难以使用在自然光照场景下的机器视觉任务中,故此也无法部署在自动驾驶、机器人等物联网外围设备上。
结合智能社会的发展需求,该团队提出了本次课题,即用无透镜光电神经网络架构完成机器视觉任务。目前,该团队已经实现光学域上的卷积运算,后续计划在光计算和整个链路的级联优化上做更为深刻的探索。
首先,他们将尝试把更多计算放在光域上去完成,进一步降低整个系统的功耗和计算量。具体来说,课题组准备尝试将非线性材料集成到现有系统上,实现自然光下稳定的非线性运算。完成非线性运算的添加后,就能把单层卷积层扩展为多层,利用光上的并行性完成更多的计算,不仅可以使得计算结果更准确,还进一步降低功耗和计算量。
同时,该团队在之前的探究中发现,目前成熟图像传感器对应的图像信号处理过程,是一个相对黑箱的过程,中间的很多环节也是分立优化的,并且是以人眼为评价标准,而非面向最终的视觉任务。
故此,该团队计划对图像信号处理过程,进行任务导向性的建模,以去除其中不必要的处理环节,并面向任务重新制定各个环节参数的评价指标,将光学端、芯片端、算法端更加紧密地级联在一起,从而优化完整链路,最终在最大限度上实现功耗节省和性能提升。
未来,该团队也会在产业化的道路上不断探索,完成模块的封装,并在现有系统的基础上进一步提升视觉任务性能。同时,也会积极开展校企合作,攻克工程产业化的各种难关,将系统落地、并真正用于智能化设备中,以完成对现有机器视觉系统的改造与升级。