沈为:让计算机“看懂”世界
2021-09-25王艳敏
王艳敏
如果有人朝你扔过来一个球,通常你会怎么办?——当然是马上把它接住。这个问题看似很简单,但其背后有着一套非常复杂的处理过程:首先球进入人类的视网膜,经过分析后,图像的信号被发送到大脑,视觉皮层会更加彻底地去分析图像,把它发送到剩余的皮质,与已知的任何物体相比较,进行物体类别和位置轨迹的分析,最终决定你下一步的行动:举起双手、接住球(之前已经预测到它的行进轨迹)。上述过程只在零点几秒内发生,几乎都是下意识的行为,很少会出差错。然而对于想要重塑人类视觉的科学家来说,这却是个待解的难题,因为他们要还原的是一系列环环相扣的过程。
如何让计算机像人类那样“看”?这便是计算机视觉学科研究最核心的问题。更确切地说,计算机视觉就是利用摄像机和计算机代替人类视觉:对同样的视觉输入信号(图像、视频),计算机视觉须与人类视觉得到同样的识别与理解结果。
“随着大数据时代的到来,人工智能被广泛地应用到社会生活的各个方面。作为其重要的组成部分,计算机视觉已经迎来了它最好的发展时机。”上海交通大学人工智能研究院副教授沈为说。为计算机添上眼睛,正是他为之奋力拼搏的事业。
“兴趣”在左,“坚持”在右
“曾任美国约翰斯·霍普金斯大学助理研究教授”“在计算机视觉相关领域的顶级学术会议和期刊上发表论文50余篇,包括IEEE TPAMI、IEEE TMI、CVPR、ICCV等,论文在Google Scholar上被引用3700余次”“曾先后主持国家自然科学基金青年基金和面上项目”“获上海市教委‘晨光计划,上海大学蔡冠深优秀教师奖”“任SCI期刊Neurocomputing编委”……翻开沈为的简历,满满的都是他耀眼的经历和所取得的非凡成就。当被问及奥秘何在,沈为的回答很简单:“无非两点——兴趣加坚持。”
2003年,沈为以优异的成绩被华中科技大学信息与通信工程专业录取。可上学后,他却发现这个专业并没有想象中有意思。“通信工程更多的是与信号、声波、频段相关,这些东西看不见摸不着,无法切实感受到。而计算机视觉是进行图像处理,所见即所得,这让我萌发了转变学习方向的想法。”沈为说。本科毕业后,他申请到本校的博士。在读博期间受白翔教授的影响,他初次领略到计算机视觉之美,也是在白翔教授的推荐下,他前往微软亚洲研究院实习。“在那里,我遇到了生命中的另一位恩师——屠卓文教授。”沈为说。
微软亚洲研究院是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的研究机构,被戏称为“中国计算机视觉和机器学习的黄埔军校”。作为微软亚洲研究院高级研究员、加州大学圣地亚哥大学教授,屠卓文在国际机器视觉方面拥有很高的权威性。在屠卓文的影响下,沈为开始了机器学习,这进一步激发了他的研究兴趣。
实验室里撑起科研天地
博士毕业后,沈为来到上海大学,成为该校的一名老师。除了授课,沈为将大部分时间都花在实验室里。这期间,他先后开展了国家自然科学基金青年项目“基于有监督学习的自然图像中骨架提取和物体识别研究”及面上项目“基于自然图像中深度形状特征提取的一般物体检测研究”的研究。
鲁梅尔哈特奖获得者、印第安纳大学的心理学和认知科学教授Linda B. Smith指出形状在人眼识别目标的过程中发挥着比其他特征更为重要的作用。就如不到两岁的人类小孩,看到弯曲的弧线就会联想到月亮。沈为的项目研究正是基于這一理念所开展,他希望构建基于形状描述符的图像中物体检测与识别视觉系统。图像中形状描述符,包括轮廓和骨架等。瑞典皇家理工学院计算机系教授Tony Lindeberg指出这些形状描述符为物体存在的位置提供了假设,即这里可能存在这样大小的一个事物(“there might be something there of about that size”)。从图像中提取形状描述符,其难度在于如何区分真实目标的形状特征和由复杂背景产生的干扰。以轮廓检测为例,美国工程院院士Jitendra Malik曾专门撰文定义轮廓和边缘的区别:轮廓是物体与物体之间的边界,而边缘是图像中底层特征,如亮度、颜色和纹理的快速变化产生的。这两者有关联,但是并不相同。前者具有一定的语义性,而后者还包含很多语义无关的信号。在两项国家自然科学基金的项目研究中,沈为系统地建立了一套从物体形状分析、目标形状特征提取到形状表征引导的目标分割与识别的计算机制和方法,有效推动了场景文字检测与识别等相关应用的发展。
为医学影像处理技术“擦亮眼睛”
“吾生也有涯而知也无涯”,为了进一步开阔眼界,2016年,沈为远赴美国约翰斯·霍普金斯大学计算机科学系进行交流学习,从2018年起在计算机科学系任助理研究教授,与艾伦·尤勒教授共事。沈为说:“艾伦·尤勒是著名物理学家史蒂芬·霍金的学生,人工智能领域的先驱。他为人亲切随和,与学生相处时,并不以老师自居,而是作为朋友进行交流。由于知识丰富、经验充足,他在学术上常常有自己独到的见解。”在学生中有这样一种说法,能成为艾伦·尤勒的学生,上辈子一定是天使。可见能获得他的指导,何其幸运!在艾伦·尤勒的帮助下,沈为学到了很多,这其中之一便是医学影像处理技术。
约翰斯·霍普金斯医学院是美国数一数二的医学研究机构,艾伦·尤勒教授带领团队开展了多项关于医学方面的重大研究。沈为有幸参与了基于CT影像的早期胰腺癌诊断的项目研究,并提出了多项CT影像中胰腺肿瘤分割技术:针对早期胰腺导管癌肿瘤在CT影像中的征象不明显的问题,提出了基于胰管形状建模与形变估计的胰腺导管癌肿瘤定位方法,实现在不降低特异性的情况下,将早期胰腺导管癌诊断敏感性提升了3%;针对双脉相CT图像融合难题,提出深度特征空间中CT图像双脉相配准方法,实现基于双脉相融合的胰腺导管癌肿瘤分割方法,大幅提高胰腺导管癌肿瘤分割精度;针对肿瘤像素级标注耗时长、花费高等痛点问题,提出基于图像级标注的胰腺肿瘤分割方法,通过引导式注意力机制,构建像素级标注与图像级标注的桥梁,在弱监督下,实现与全监督下相当的胰腺肿瘤分割精度,可大幅减少医生的标注工作……
2020年8月,沈为回到了祖国,把上海交通大学人工智能研究院作为他工作的新起点。虽然还需要时间适应新环境,但沈为已开始着手组建团队、挖掘项目资源等,此外,他还有一项重要的工作需要完成——担任2022年国际计算机视觉与模式识别大会(CVPR 2022)领域主席。
CVPR是世界顶级的计算机视觉会议,近年来参会人数高速增长,2019年参会人数接近1万人。CVPR有着较为严苛的录用标准,近几年录取率不超过25%,而口头报告的论文比例更是不高于5%。大会的领域主席通常由程序主席指定,起着承上启下的关键作用,在某种程度上直接决定了自己分管的20~30篇文章的命运。因此,领域主席一般都是由业内颇有建树、有判断力的专家学者担任。
成为CVPR的领域主席,对沈为而言既是一种责任,也是一种肯定。2011年,还在读博的沈为给CVPR投了第一篇论文,到如今成为程序主席负责审稿,角色转变的背后有着太多的艰辛与付出!“纸上得来终觉浅,绝知此事要躬行”,在接下来的时光里,沈为希望能从“纸上”走出去,实现相关技术的成果转化,为推动我国计算机视觉产业的发展贡献一份自己的力量!