让机器人“听懂”与“看懂”世界
——记北京大学深圳研究生院信息工程学院教授邹月娴
2021-01-15王辉
王 辉
邹月娴工作照
清晨7点半,相较于喧嚣繁忙的深圳闹市,坐落在深圳南山区大沙河旁的南燕校园静谧而美丽,珍惜时间而躲避早高峰的教授们已经开始了一天的工作,邹月娴就是他们中间的一位。打开电脑快速浏览半小时的科技新闻是邹月娴早年留学养成的习惯和每日必做的功课。她认为了解世界科技发展和技术应用现状,对于科研人员是非常必要且重要的工作,并且能够从中获取新科技信息以触发大脑风暴,产生新的思考。
自2006年以来,人工智能(AI)进入第三次快速发展历史阶段,基于大数据的深度学习方法获得了技术突破和产业应用。此间,我国抓住历史机遇,加大了科技投入,在AI技术和应用领域取得了全球瞩目的成果。邹月娴巾帼不让须眉,一直在深度思考和积极实践如何开展AI关键核心技术的研发和AI人才培养。她带领的研究团队致力于面向服务机器人视听觉感知和认知相关前沿技术研究,获得了一系列优秀的科研成果并获得成果转化,成为我国人工智能领域科技发展的弄潮儿。
巾帼不让须眉
邹月娴出生于四川成都,是家里的长女。有着悠久历史和灿烂文化的古都人文和教师家庭氛围培育了她乐观豁达、热爱生活、热爱中国传统文化和知书达理的个性。生活物资的匮乏培养了她勤俭节约的生活态度,长女的责任和学习压力锻炼了她提升工作效率和敏锐处事的能力。在严父慈母的培养下,邹月娴全面发展,自小就是班级的三好学生,养成了良好的学习习惯和心智坚毅的个性。
生活轨迹的转折是不经意的,11岁那年,尚且年幼的邹月娴随父母前往我国著名的火箭发射基地西昌支边。在西昌,她真真切切地感受到科技带来的震撼和向往。站在苍茫的野外,她翘首凝视火箭升空、加速、伴随着火焰冲向苍穹,感受脚底大地由于火箭腾空带来的剧烈震动,不知不觉中,“高科技”这个词在邹月娴心中生根发芽。
人生有幸,邹月娴顺利考入了重点大学成都电讯工程学院(即现电子科技大学)电子工程系,开启了追求科技之路。在她研究生学习期间,正逢人工智能第二次浪潮,邹月娴也有幸参加了由其硕士生导师主持的“七五”计划科技预研项目“用神经网络方法实现对抗信号分类识别”,正式进入了人工智能研究领域。随后她远赴香港大学攻读博士学位,后又前往新加坡理工学院从事人工智能领域的科研教学工作。一直以来,新加坡是亚洲经济最发达的国家之一,在多个信息技术领域独步发展。在先进的工作环境中,邹月娴开始用敏锐的目光审视追踪世界人工智能的发展趋势。
受益于互联网技术的发展,在全球金融风暴动荡时期,21世纪的中国强势崛起。邹月娴敏锐地意识到祖国在科技教育和人工智能领域对高端人才的强烈需要。于是她当机立断,放弃了新加坡稳定的工作和舒适的生活环境,全身心回国参与祖国建设。“做决定的时候我突然理解了1949年大批华人科学家从美国、欧洲回国投身建设的心情,产生了义无反顾的坚定信念,回祖国参与建设!”如今再次谈及当年的决定,邹月娴的眼圈依旧有些泛红。
2005年12月,邹月娴正式加入了北京大学深圳研究生院(PKUSZ),她说是北京大学兼容并包与追求卓越的文化气质,以及深圳特区蓬勃向上、改革创新的精神深深吸引了她。当时的PKUSZ刚刚起步,异地办学困难重重,如何服务国家战略需求与满足深圳特区经济快速发展需求、保证学生培养质量都是摆在北大人面前的新课题。在北京大学和深圳市领导的支持下,PKUSZ提出了“前沿领域、交叉学科、应用学术、国际标准”的办学方针,对此邹月娴非常认可和支持。她投入了极大的热情参与PKUSZ学科建设和发展。随着信息技术的快速发展,2010年,邹月娴参与了北京大学在深圳研究生院开设“计算机应用技术”专业理学硕士和博士研究生培养方案的建设。在调研相关课程设置与国际前沿研究的过程中,邹月娴再次敏锐地认识到“机器学习与模式识别”与人工智能的发展紧密相随,她果断地带领团队开展了基于深度学习的机器视觉和机器听觉新理论与新方法研究,为促进我国AI技术的发展做出贡献。
十年深耕,邹月娴的研究团队形成了稳定的研究方向,一系列研究成果受到华为、腾讯、中兴通讯、大疆科技、小米等高新技术企业的关注,部分成果转化,部分研究成果处于世界领先地位。
让机器人“听懂世界”
在业界人看来,邹月娴是一个研究目标非常明确的学术带头人。为了掌握人工智能发展的前沿动态,她十年如一日,始终紧跟国际最新先进理论与技术,不断思考技术创新与突破。
毫无疑问,让机器人“听懂”世界,迄今依然是一个尚未解决的世界性科技难题。第一步,邹月娴主持并开展了国家自然科学基金项目“基于声学矢量传感器阵列和稀疏表示的语音声源方位角估计方法研究”。“十年前,自然场景下的机器听觉大都基于麦克风阵列,其体积大,成本高,算法复杂,不适合服务机器人、家庭自动控制系统等的应用需求,我们团队首次设计了超小尺寸的麦克风阵列——声学矢量传感器,提出了基于稀疏表示、机器学习理论的多个DOA算法。目前这个技术已经实现了成果转化。”当谈及机器听觉技术领域的工作时,邹月娴的兴致明显高了很多。
完成了第一步的工作,邹月娴团队继续前进,开始研究人工智能领域中的另一个技术难点,让机器在嘈杂环境中“听清”声音,即语音增强和语音分离技术。基于对空间滤波理论和深度学习理论的深刻认识,邹月娴团队创新开展基于注意力机制的空域特征学习和多通道语音分离深度模型研究,并在此基础上进一步开展了基于多模态场景内容联合表征学习的目标语音分离模型研究,形成了一系列有影响力的研究成果,如发表了一篇语音领域旗舰期刊(JCR Q1)封面论文,获得了国际同行的一致好评和引用。
有研究表明,在未来3~5年,远场环境下的声纹识别、关键词识别、情感识别和语音识别将是全球机器人产业落地的关键技术。为此,邹月娴组织团队紧跟主流技术,提出了关键词识别轻量级深度模型,短语音语者确认轻量级深度模型,基于度量学习的语者身份确认深度模型,基于音视频双模态的情感识别深度模型等,上述研究在主流数据库上均取得了最佳性能,其中语者确认模型已经获得公司应用。
当然,邹月娴团队在国际上达到先进水平的研究成果远不止这些。为了让机器人能够准确判断出自己所处的声学环境、所发生的音频事件和时间,她还带领团队重点攻关音频场景分类、音频事件和音频事件标注技术,推动智能机器人听觉技术发展。团队开展了一系列研究工作,其中基于并行时间谱注意力机制的环境声分类模型在ESC-10数据库上获得了90%准确识别率。“我们在Audioset数据集上达到97.0%的音频事件检测准确率,达到了当前国际最佳性能。”邹月娴颇为欣慰地说道。
让机器人“看懂世界”
在新加坡的研究经历及长久以来对国际科研动态和AI产业落地的密切关注,使得邹月娴对AI的发展有着自己独特的见解。她在很早就意识到多模态对机器智能的重要价值,在北大深圳研究生院的研究团队中一直有机器视觉和机器听觉两个团队并行开展研究,相互借鉴方法。与机器听觉技术相对应,让机器人“看清楚”“看到”“看懂”,成为了邹月娴团队的另外一个研究重点。
在邹月娴看来,获取清晰的视觉数据是让机器人“看到”的前提。“但现实场景中获取的视觉数据往往因伴随浓雾、画面模糊等原因导致视觉质量欠佳,图像增强是机器视觉的一个基础性课题。”邹月娴向记者介绍道。对于图像增强技术,她带领团队重点开展了基于图像处理和深度学习的图像增强方法研究,设计了端到端抑制传输偏差来避免色彩失真和块效应的深度图像去雾模型,在多个主流数据库上获得了最佳性能。
让机器在不同的场景中可以“看到”不同类别、不同尺度的物体和文字是机器视觉中目标检测任务的核心内容,也是邹月娴机器视觉研究团队开展的工作之一。在深圳市重点基础项目和企业项目的支持下,团队创新地开展滨海湿地监控视频中的鸟类目标检测研究,针对小尺度鸟类目标大量漏检和检测模型尺度鲁棒性差的问题,提出了多个目标检测算法,该项工作成果已获得企业实际应用,为自然界鸟类监控提供了新的技术手段。
上述机器视觉任务属于感知智能范畴,随着技术发展,AI进入认知智能研究阶段,让机器“看懂世界”是目前的主要课题。“人类理解世界的信息有70%以上来自于视觉,我们对人脑加工视觉信息的机理尚未完全了解。”邹月娴介绍道。她的团队也开展了人-物体交互行为建模与检测方法研究,构建了新的网络框架来分层实现交互式推理模型,可动态解析视觉目标之间的交互式语义信息。该研究成果已经发表在国际人工智能联合会议(AAAI2020)上,获得了高度认可。
与智能化同行
除却高度的敏锐性外,邹月娴在科研方面另一个最大的特点就是以实际问题为导向。比如,邹月娴曾作为课题负责人参与了深圳市重点基础项目“智慧家庭服务机器人声学场景深度分析方法研究”。面向智慧家庭服务机器人应用,她和团队建立了家居声学场景音频信号采集方法研究和音频数据库,并开展了家居声学场景下的异质多声源定位和追踪方法研究及多域、多任务信息处理机制和特征学习机制研究;同时,他们还研究了家居声学场景多人说话信号的分离机理与算法,对家居声学场景日常音频事件和异常音频事件检测方法展开探索,已取得突破性进展。
2020年教师节,现代信号与数据处理实验室全体成员合影。
一直以来,深圳市在人工智能创新思维与产业战略布局方面,一直走在全国前列。而邹月娴看到了在学术研究和技术积累的厚度上,深圳还远落后于北京和上海。在深圳市科学技术协会的指导下,2019年3月,邹月娴联合8家高等院校及75位学界精英和AI产业带头人申请成立了深圳市人工智能学会,并担任学会副理事长兼秘书长,担起推动深圳市人工智能科学与技术发展的责任,成为深圳市人工智能发展的领头人之一。正如她在2020年高交会深圳人工智能高峰论坛上总结说:“深圳市人工智能学会面临着前所未有的发展机遇,学会将努力融合我国智能科学与技术领域的高等院校、研究机构、企业、专家学者、学生群体,积极开创新形势下深圳市人工智能科学与技术发展的新篇章。”
海阔凭鱼跃
在人工智能研究领域,邹月娴宛如百发百中的神枪手,始终能够准确地瞄准国际前沿和产业需求。她认为,这与她积极参与深圳市各种项目评审、积极参与国际会议交流有关。“我不仅亲自多次邀请工业界和国内外学术界专家进行学术交流和讲座,也参与深圳市信息行业学会的专家活动和政府组织的交流座谈活动等。”谈及这个问题的时候,邹月娴眼睛里有一种万事笃定的沉稳。事实上,她还先后担任ICASSP2019宣传主席、AIMS2018程序委员会主席等多个国际会议职务。广泛而高质量的学术交流和服务使她可以洞悉国内外的技术发展趋势,使自身的研究与国际先进理论紧密结合。
因为熟知前沿研究成果对培养人工智能领域人才的重要性,她在教学过程中非常注重让学生们接触前沿理论和最新研究成果。如今,邹月娴为计算机应用技术专业的硕士和博士研究生开设了学位必修课程“机器学习及其应用”,在教学上采用公认的权威教材,将最新的科研成果理论与方法引入教学内容中。“另外,我每年都会带领学生参加领域内的国际顶尖会议,有幸与Alan V.Oppenheim教授、李飞飞教授、俞栋教授、邓力教授等知名学者展开密切的交流。”邹月娴颇为自豪地说道。
邹月娴在实验室门口的展板上写下“海阔凭鱼跃、天高任鸟飞”以鼓励实验室的同学们。经她培养的学生,一部分在毕业后选择了出国留学,继续深造,很大一部分学生则选择毕业后进入华为、腾讯、百度、美团、头条、字节跳动、网易等著名AI公司,继续为我国人工智能行业的发展贡献力量。
在邹月娴看来,世界已经逐渐步入人工智能时代,趋势和潮流无法阻挡,只能清醒认识和积极参与。作为一名女性科学家、人工智能领域的资深教授,她说她仍会很坚定地站在人工智能时代的潮头,格物明德,以教育者之心,为祖国培养人工智能领域的优秀人才;以研究者之心,发现知识与真理,推动我国人工智能技术发展与应用落地,期待人工智能之花在中国绽放。