赋予计算机“一双慧眼”<br/>——记哈尔滨工业大学计算机学院教授左旺孟

赋予计算机“一双慧眼”
——记哈尔滨工业大学计算机学院教授左旺孟

2022-02-24李明丽

科学中国人 2022年23期

李明丽

左旺孟

对于每位哈尔滨工业大学的学子而言，“规矩严格，功夫到家”都是铭刻于心且奉为圭臬的八字方针，左旺孟也不例外。2017年，凭借一篇发表于《IEEE图像处理汇刊》（IEEE Transactions on Image Processing）的有关图像去噪卷积神经网络（DnCNN）的学术论文，左旺孟斩获了此期刊近10年来引用数最高论文的好成绩，且其方法在之后不仅以denoisingNetwork(.)为函数名被正式收录于MATLAB 2017b（美国MathWorks公司出品的商业数学软件）及后续版本的图像处理工具箱（Image Processing Toolbox）和深度学习工具箱（Deep Learning Toolbox）之中，还被编入华盛顿大学硕士计算机视觉课程CSE 576中，甚至被美国工程院院士理查德·塞利斯基（Richard Szeliski）教授写入其编著的计算机视觉经典教材《计算机视觉：算法和应用（第2版）》（Computer Vision: Algorithms and Applications<2nd Edition>）中。

左旺孟，哈尔滨工业大学计算机学院教授、博士生导师，主要从事图像增强与复原、图像编辑与生成、物体检测与目标跟踪、图像与视频分类等方面的研究。多年来，他先后主持承担区域创新发展联合基金重点项目1项，华为终端、华为监控、华为媒体院、阿里巴巴等公司横向课题十余项，并且以课题负责人获批国家科技创新2030—新一代人工智能重大项目1项。曾于2019年以排名第二的成绩斩获陕西省科技进步奖一等奖；2020年更是以第一的成绩获黑龙江省自然科学奖一等奖。

在生理学上，视觉的产生始于视觉器官感受细胞的兴奋，完成于视觉神经系统对信息的加工。著名心理学家赤瑞特拉（Treicher）的实验显示：在日常生活中，除盲人这类特殊群体外，大多数人都是依靠视觉来直观地了解事物的形体和状态，以及完成衣食住行等基本生存活动。视觉在获取外界信息的过程中发挥作用占比可达83%，其余11%来自听觉，6%来自嗅觉、触觉及味觉。不仅人类如此，自然界中多数动物亦然，这足以说明视觉对生物的重要程度。然而计算机作为20世纪最重要的发明之一，在其诞生之初，是不具备“看懂”图像的能力的，一张图片即便再色彩缤纷，在“毫无感情”的计算机面前也只是一串数据、一个文档而已。

因此，在长达半个多世纪的漫漫岁月中，数代学者为赋予计算机一双处理图像的“慧眼”而前赴后继地进取拼搏，也由此产生了“计算机视觉”这一学科。经过十余年的研究，哈尔滨工业大学计算机学院教授左旺孟逐渐形成了自己的认识：“我们研究的最终目标是使计算机能像人那样通过视觉观察理解世界，具有自主适应环境的能力。或许有人会说，摄像头拍摄已经基本做到了‘所见即所得’，但‘看见’、‘看清’与‘看懂’，是彼此独立的3件事，要实现每个环节的进阶，都需要很多人付出极大努力才行。”

规矩严格，功夫到家以求变

截至目前，左旺孟已在国际计算机视觉与模式识别会议（CVPR）、国际计算机视觉大会（ICCV）及欧洲计算机视觉会议（ECCV）等顶级会议和《IEEE模式分析与机器智能汇刊》（IEEE Transactions on Pattern Analysis and Machine Intelligence）等学术期刊上发表论文100余篇。然而，他与科研却并非结缘于计算机，在走进母校——哈尔滨工业大学之初，他是材料科学专业的一名追梦人。“高中时期，我的物理和化学成绩还比较不错，在许多人的建议之下，再结合我自己对专业应用前景的考虑，最终选择了建立在物理和化学学科基础之上的材料科学。”

但令人意外的是，6年的材料学本科和硕士学习生涯虽然为左旺孟打下了坚实的理论基础，磨炼了基本的科研素养，但并未使他获得科研自信，“我总觉得我的实验技能与动手能力有欠缺，或许我并不适合这个专业”。于是，在得知身边几位好友都下定决心转入计算机专业后，左旺孟瞬间获得了激励，转换人生的赛道，开始为攻读计算机专业的博士学位而做准备。虽然与同专业升学的同期生相比，他的基础相对薄弱，但他还是凭借夜以继日的苦读与努力，顺利升入了哈尔滨工业大学计算机应用技术专业继续开展研究。

在计算机领域之中，左旺孟不仅找回了科研的信心，还相继邂逅了对他而言极为重要的几位“引路之人”。“我的博士生导师张大鹏教授、北京大学林宙辰教授和香港理工大学的张磊教授等人对我的成长都起到了非常重要的作用。张大鹏教授算是我在这一方向上的启蒙导师，是他带我从一无所知到逐渐能在模式识别领域获得一些微小的成绩。科研的过程中，难免有心性不稳、懈怠之时，每当这时，林宙辰老师严谨自律的科研态度和在矩阵计算和优化算法方面的积极指导总是激励着我重新振作。而自2012年我决定开始做底层视觉研究之后，张磊老师就一直为我提供着指导与鼓励，直至今日，他仍在全力支持着我。这3位业内前辈的指导与帮助是激励我迅速成长的助推剂，可以说，没有他们的帮助，我也许无法坚守到今日。”

对于每位哈尔滨工业大学的学子而言，“规矩严格，功夫到家”都是铭刻于心且奉为圭臬的八字方针，左旺孟也不例外。得益于导师们的帮助与积年坚守，他开始在计算机视觉的底层视觉与图像增强等方面逐步深耕并崭露锋芒。2017年，凭借一篇发表于《IEEE图像处理汇刊》（IEEE Transactions on Image Processing）的有关图像去噪卷积神经网络（DnCNN）的学术论文，左旺孟斩获了此期刊近10年来引用数最高论文的好成绩，且其方法在之后不仅以denoisingNetwork(.)为函数名被正式收录于MATLAB 2017b（美国MathWorks公司出品的商业数学软件）及后续版本的图像处理工具箱（Image Processing Toolbox）和深度学习工具箱（Deep Learning Toolbox）之中，还被编入华盛顿大学硕士计算机视觉课程CSE 576中，甚至被美国工程院院士理查德·塞利斯基（Richard Szeliski）教授写入其编著的计算机视觉经典教材《计算机视觉：算法和应用（第2版）》（Computer Vision: Algorithms and Applications <2nd Edition>）中。然而，左旺孟却感受到了更大的压力和动力：“我国的计算机视觉技术仍处于国际并跑位置，希望有朝一日，我能与众多同仁一起，精准识变、主动求变，使我国在此领域真正实现领跑式的突破与超越。”

博学深谋，修身端行以待时

出于对母校的眷恋，左旺孟在博士毕业之后便直接留校任教，完成了走出象牙塔，随即走上三尺讲台的“华丽转身”。据他介绍，他的早期研究主要聚焦于传统方法中的图像去噪与图像去模糊问题，通常会倾向于结合传统模型改善网络的灵活性，比如用一个网络处理多个任务，但很快他就发现了其中瓶颈：传统的底层视觉方法从数学理论上看很完美，但实际应用中却不可能用一个模型刻画出图像的所有规律，反而基于数据驱动的深度学习方法可以对图像的特性或者规律刻画得更充分一些，他说：“刚开始不少学者觉得底层视觉可能不适合用深度学习来处理，但我们觉得像高斯去噪等问题实际上是仿真问题，很容易获得无穷多的训练数据，反而更适合数据驱动的深度学习方式。”

这一聚焦前沿、独辟蹊径的推论最终得到了验证。2020年，左旺孟与合肥工业大学、中山大学等团队的研究人员一起，协同开展名为“多域视觉学习”的研究课题，旨在利用多域视觉信息的关联/互补特性及不同域间学习和标注的不一致性，实现多域视觉信息的协同增强和不同域数据的跨域转换，从源域到目标域的领域自适应与跨域跨任务迁移，形成一套多域视觉学习理论与方法体系。此项研究主要针对引导人脸增强、智能图像填充、人脸属性编辑和人像姿态生成、多摄融合等应用领域，开展关键技术研究并建立原型系统，具有重要的研究意义和实用价值。

目前，这一项目仍在如火如荼地进行着，但在过去两年内，此前拟解决的科学问题与目标在某种程度上已具雏形。据悉，左旺孟团队的主要研究对象——视觉信息的域间关联/互补特性建模是关乎项目成败的核心问题，因其不仅是多域视觉信息协同的基础，更是跨域转换生成中内容和结构一致性的重要保证。为达成自主创新的学术目标，即避免囿于当前常用的串联和自适应归一化机制的思路，左旺孟独辟蹊径，决定从不同域间关联的空域自适应性出发，通过发展局部自适应空间变换网络实现空域关联性建模，进而提出多级渐进式的高阶域间关联模型方法，相关成果相继发表于2020年度国际计算机视觉与模式识别会议（CVPR）和2022年度欧洲计算机视觉会议（ECCV）。

在多域联合建模方面，由于多域视觉转换生成和多源域领域自适应涉及两个以上的域，且难以通过对双域模型的简单拓展来解决，因此左旺孟团队便提出了综合建模域间关联和域间差异的共享编码驱动多域联合学习和自适应融合决策。如今，相关研究已取得初步成果。左旺孟及其团队实现跨域视觉转换生成与域迁移学习面临的下一道“关卡”则是隐变量分布的可解释性解耦问题。问题的挑战性反而激起了团队的研究兴趣，经过一段时间的探索，他们完成了正交雅克比正则的分布可解释性建模，并将其发表于国际计算机视觉大会（ICCV）2021之上。

随着信息化社会的快速发展和智能终端设备的普及，全球范围内的数据呈现爆炸式增长，大数据时代已经来临——数据呈现显著的多模态特性，几乎所有的互联网新闻报道都包含图像、文字描述以及视频等多种模态；此外，由于成像设备的多样性和拍摄视角的多样性，图像和视频数据均呈现出显著的多视角特性。在这样的时代背景下，相关研究已经引起了广泛的关注与极高的讨论热度，这对于以左旺孟为代表的相关学者而言，是挑战，但同时也是巨大的机遇。“未来，我们还将从多模态学习的角度，着力于视觉场景解析工作的推进，结合图像分类、目标检测、语义分割等典型计算机视觉任务，探索更为便捷和高效的解决方案。”左旺孟说。

木铎之心，滋兰树蕙以致远

为学者，左旺孟始终秉持“敦兮其若朴”的纯粹初心；为师者，他也做到了“旷兮其若谷”的通达态度。某社交媒体上，一篇题为“如何评价哈尔滨工业大学的左旺孟老师”的帖子底下，汇集了成百上千名学生的留言，在这之中，“有责任心”“诚恳务实”“倾力帮助学生”“在自己领域内颇有建树”等关键词反复出现，这淋漓尽致地展示了何谓“金杯银杯不如学生们的口碑”。

面对学生的赞扬，左旺孟并无骄傲自满，却在深刻思考后提出了对年轻人的殷殷期许：“由于起步比较晚，相对于国内其他优秀团队和实验室，我们在平台搭建及研究方面做得仍然不够。因此，我希望学生们除了着眼于提升自身编写代码的能力和数学基础外，也要懂得‘修心’，在科研中沉得住气一些，全身心投入，从现实出发去发现一些真实的问题。”

身处竞争日益激烈的社会洪流之中，左旺孟始终把握着自己的“节奏”。在论文能够发表的基础上，他会倾向于鼓励学生多做些坚实、有穿透力的工作，尽可能去写一些对读者有用而非迎合审稿人口味的文章，“近年来，‘内卷’一词广获关注，作为一个大学老师，我非常理解年轻人的压力与焦虑。我个人也许不能改变什么，只希望能尽量为学生多提供机会，竭力将每位学子都塑造成一个能够解决问题和创造机会的人”。谈及个人对未来的规划，左旺孟觉得：“为人师表者，对自己的要求更不能松懈：要有一定的基本能力与终身学习的觉悟，保持洞察力和开放性，也许成果总会在某个时刻以‘妙手偶得之’的方式出现。”