姜育刚：让计算机看懂世界

2016-12-28

科学中国人 2016年34期

姜育刚：让计算机看懂世界

本刊记者徐赛

专家简介：

姜育刚，复旦大学计算机科学技术学院教授、上海市视频技术与系统工程研究中心副主任。香港城市大学计算机系博士、美国哥伦比亚大学博士后，2011年9月通过复旦大学人才引进回国工作。目前，在国际上担任Springer期刊Machine Vision and Applications编委、THUMOS国际大规模动作识别比赛程序委员会主席、IEEE Trans.on Multimedia等期刊客座编委等职。

主要学术成果体现在视频语义概念识别、视频动作与事件识别、大规模视频检索三个方面，至今发表论文91篇，其中SCI索引论文26篇（含5篇已录用论文）、ACM/IEEE汇刊与计算机学会推荐的A类会议长文31篇。据Google Scholar统计，论文被引用合计3467次，第一作者论文单篇最高被引545次，H-因子为28。近年来获得了2015年度教育部自然科学奖二等奖、军队科技进步奖二等奖、2015年ACM多媒体专业组（SIGMM）评选的新星奖（Rising Star Award；年度唯一获奖人）、2016年国家优秀青年科学基金资助，2015年入选科学中国人年度人物。另外，姜育刚研制的大型场馆智能管理系统为党的十八大等会议提供了安全服务，受到了中共中央办公厅警卫局的书面表扬。

相信许多人都看过《终结者》这部老影片。在电影中，由施瓦辛格扮演的机器人具备这样的能力——它可以通过人脸识别、嘴型对比等技术来找到某个人，并且还能分析一个人的行为，从而推断他的好坏。“这部电影是1984年上映的，那时是没有技术能够赋予机器这种能力的，而现在，我们正在一步步地将其变为现实！”姜育刚说。

姜育刚，复旦大学计算机学院教授，多年来长期从事视频图像大数据分析与识别研究，在他心底，有一个让计算机看懂世界的愿望。

香港往事

“相信大家对‘视频图像’这个概念都不陌生，在当下这个大数据时代里，它是最大的大数据！”姜育刚介绍说，思科公司曾经预测，到2019年互联网数据总量的80%都将是视频，如果那时我们想看完互联网上一个月时间内传播的视频，大概需要花五百万年。

在这样的大背景下，姜育刚带领团队开展了视频图像大数据分析与识别研究，该技术很“全能”，在不同的领域都有很多的应用点，比如它可以提升互联网管理和检索数据方面的能力，帮助交警自动检测车辆违章，实现智能投放视频广告等。“打个比方，当人们打开一个棒球的视频，通过该技术，计算机就可以分析出视频中的人物在打棒球，然后可以有针对性地在其中插入一条关于棒球的广告。”姜育刚介绍说，视频图像大数据分析与识别研究让计算机具备了一定的“思考”能力，也许，这将开启一个新时代的序幕。

回忆过往，最让姜育刚难忘的，就是在香港城市大学攻读博士学位的经历。2006年，他来到香港求学，在这个素有“东方之珠”“美食天堂”“动感之都”等美誉的地方，他的日子过得却并不好。“求学的过程是充满艰辛的，我在香港住在离学校很近、租金很便宜的一个地方——深水埗，熟悉香港的人可能知道，这是个很破烂的地方，我住在楼的最顶层九楼，我猜测应该是加出来的一层，没有电梯，我在这个地方住了一年多的时间。”但是，那时的姜育刚却仍感到很快乐，因为这期间，他在科研上收获了诸多成果。

“在读博时，我们做了这样一件事，从算法的角度在视频和图像里面提取了很多小的特征。一般来说，两段视频就会具有大量的小特征，我们对其进行量化后，把它们放到同一个空间里面比对相似程度，在这个过程中，我发现使用传统方法就会造成信息的大量损失。”姜育刚所讲的就是视觉词袋特征中的量化损失（Quantization Loss）问题，作为第一个揭示该问题的人，他对此展开了探索，提出了一种基于“软权重”的量化方法，该方法在不影响量化效率的前提下，可以提升识别性能10%左右。该成果最终被发表在2007年ACM图像视频检索大会上，至今已经被引用了500多次。虽然成果公布已达10年之久了，计算机领域的技术层面有了很大的变革，但是目前姜育刚创造的“量化方法”却仍被广泛地使用着。

体验到了解决实际问题的快乐，姜育刚再接再厉，他借鉴了文本处理领域的本体（Ontology）思想，提出构建“视觉词本体”，生成视觉词关系树。“通过估算和利用视觉词之间的关系，可以更准确地计算了视频之间的相似度，进一步降低量化损失。”姜育刚介绍说，该方法介于传统视觉词袋模型和局部描述子匹配方法之间，在精度上优于传统视觉词袋模型，接近局部描述子直接匹配的方法，但计算效率却比后者提升了1个数量级。

自适应视频语义扩散方法是姜育刚在这期间的另一贡献点。“这个方法是基于图模型理论提出的，我在此方法中构建的类别关系图，不同于传统方法中的数据样本图，图中关联关系较强的类别同时出现的概率更高，反之则更低。”语义扩散方法可以使得同一视频的语义类别预测分数的分布，与类别关系图更加一致，有效地提升了识别精度，而且该方法还具备针对类别关系图的自适应调整能力，可以通过分析目标数据的特点自动调整类别关系，进而更精确地识别视频语义。该成果相关论文已经发表在2009年计算机视觉领域的顶级国际会议ICCV上，扩展后的期刊文章于2012年发表在IEEE Trans.on Image Processing上。

姜育刚荣获ACM中国新星奖

复旦“新星”

2009年，姜育刚漂洋过海来到美国，于哥伦比亚大学做博士后研究。哥伦比亚大学是美国历史最悠久的5所大学之一，据统计，有104位诺贝尔奖得主曾在哥大工作或学习过，位列世界第二，是名副其实的科技殿堂！“刚到哥大的时候，学校的宿舍非常紧张，排不上，我就在一个破沙发上面住了半年。”姜育刚回忆道。在哥大，他如饥似渴地学习着，进一步地夯实了学术基础，开阔了国际视野，提高了科研能力。

博士后出站后，姜育刚接过了复旦大学的“橄榄枝”，通过人才引进计划回国工作。他在复旦大学计算机科学技术学院，成立了视频大数据分析实验室，继续视频内容识别的研究。从走出国门一心向学到回到故土置身科研，7年时光中，姜育刚创造了数个极具“亮点”的工作成果。

视频动作与事件识别是姜育刚研究的一个重点领域。他基于相对运动思想，在此领域提出了一种新的视频运动特征表示方法，减轻了镜头抖动带来的影响。“这个方法的‘秘诀’就在于通过跟踪局部描述子在时序上的运动过程，针对不同描述子之间的相对运动关系构建特征。”姜育刚介绍说，该方法全面考虑了局部描述子视觉词、描述子之间的位置关系及相对运动方向信息，相关论文发表于欧洲计算机视觉大会 ECCV、ACM Multimedia（长文）和IEEE Trans. on Image Processing上。

由于无法高效利用视频的时序信息及声音信息，传统的基于图像的卷积神经网络方法在视频数据上的应用结果较差。如何解决该问题呢？姜育刚找到了答案，“我借鉴人类感知机理，针对视频数据的特点，如含有时序运动信息，设计了一个完整的面向视频数据的深度学习框架。”该框架综合考虑了视频中的静态特征、局部运动特征以及时序信息，并采用一种新的基于神经网络的多模态特征融合方法，从而可以更精确地识别视频中的动作和事件。此外，姜育刚还研发了一个结合多种特征和时序信息的视频事件识别系统，该系统在2010年美国国家标准局主办的国际评测（TRECVID）中，获得多媒体视频事件识别任务（MED）的最优性能，精度高于卡内基梅隆大学、IBM等机构开发的系统。他于近期对该系统进行了优化，让其在精度损失很小的情况下，识别速度提升220余倍。

在科研工作中，姜育刚很重视兴趣的“力量”，他认为兴趣驱动是做好科研工作的重要因素。在兴趣的指引下，姜育刚在大规模视频检索领域进行了研究探索，他提出了一种结合场景、物体检测进行人体动作识别的算法。“传统的方法不区分相同汉明距离的哈希编码与查询的相似程度，导致结果排序不够精细，大量与查询汉明距离相同的样本以随机顺序展示。”而姜育刚提出的方法则可以实时动态估算每个哈希编码与查询的实际相似度，将检索结果的排序精细度从n（哈希编码的长度）提高到2n（哈希编码的数量），解决了这个问题。同时，姜育刚还提出了提出一种层次化（Hierarchical）展示方法，“当前大多数视频检索系统都采用单一列表形式（List）展示结果将查到的视频排序，使用效果不佳。”为了提高了视频浏览效率和用户体验，姜育刚针对复杂查询如著名人物、地点等，研制了一种新的展示系统，此系统能自动地从不同角度分别介绍了相关内容。该成果的论文发表于2014年ACM Multimedia上，并荣获该年度最佳短文奖。

2015年ACM SIGMM新星奖颁授典礼

产研结合服务祖国

从20世纪90年代以来，恐怖袭击就在全球范围内有迅速蔓延的严峻趋势，是当下急需解决的世界性问题。各国的反恐部门在打击暴恐的过程中发现，“网络视频”是暴恐思想蔓延的一个重要载体。小到制爆技术和方法，大到恐怖主义思想的传播，暴恐视频已经成为暴恐团伙的“思想指引”和“训练教材”。为了打击网络暴恐视频，国家互联网信息办公室开展了专项行动。

姜育刚勇挑重任，服务国家战略，带领复旦大学团队研发了一套自动检测暴恐视频的计算机算法和软件系统，在国家互联网信息办公室指导的全国性比赛——“2014年全国特定音视频检索识别挑战赛”中，与37支参赛队伍角逐，取得了一项任务第一、一项任务第二的好成绩。经过近一年的反复评测、复旦大学团队研发的系统最终脱颖而出，成功地被部署在国家互联网信息办公室，为国民安全做出了贡献。

在铸就了“反恐利器”的同时，姜育刚还凭借过硬的工作基础和一流的学术积累，出色完成了一个大型会场智能服务系统中核心算法的攻关，为党的“十八大”、近年来“两会”等重要会议的顺利召开提供了有效的服务支撑，受到了中共中央办公厅警卫局的书面表扬，相关技术成果荣获了2015年度军队科技进步奖。

从事了多年的科研工作，姜育刚对此有了自己的一番感悟，“我觉得做工科科研，我们需要兴趣驱动、刻苦的钻研。研究需要创造新的知识，在创造新的知识过程中，我们要尽量追求简单，追求效率。在研究取得一定进展的时候，我们则要乐于分享。作为科学家，我们要担当起为国服务的责任！”

姜育刚入选科学中国（2015）年度人物

语义识别新征途

视频的语义包括从基本的物体、场景、人体动作到复杂的高层事件等，内容极为丰富。各类视频语义之间存在着紧密的“纽带”，例如，对物体、场景的理解可以帮助推测高层事件。随着采集设备的普及和多媒体技术的迅速发展，视频数据正呈爆炸式增长。已有的视频语义分析研究局限于对几百个物体、动作等类别的识别，不足以满足实际应用需求。人们急需有效而全面的语义理解技术，为智能管理、检索等各类高层应用提供核心支撑。

虽然大量的视频数据触手可及，但是训练自动识别算法所需的人工标注信息却非常稀缺。“而相比于物体、场景等类别，动作、复杂事件的训练数据则更为紧缺。这是因为前者是静态的，可以利用人工标注的图像数据来训练模型，后者则只能用视频数据来训练模型，而现有的图像数据标注要远多于视频数据的标注。”姜育刚说。目前，可以公开下载使用的最大的动作识别数据集为2015年公布的ActivityNet，含有203个动作类别；而最大的带有人工标签的复杂事件识别数据集为FCVID，含有239个类别。这些现有的训练数据均有漏洞，缺乏对类别之间关系的定义。

为了创造一个完整的大规模视频语义理解系统，姜育刚开展了优秀青年科学基金项目“海量视频的层次化语义内容识别关键技术研究”，“首先我将致力于构建一个全面的视频语义训练数据集合，涵盖实际应用中需要的大多数语义。由于物体、场景等类别可以通过现有的图像标注进行模型训练，所以我将研究的重点放在了需要视频动态信息进行识别的人体动作和复杂事件。”姜育刚介绍说，而除了设计科学的数据采集和标注方案，他还打算从底层的简单人体动作到高层的复杂事件建构一个语义层次化组织，并对类别间的关联关系做出明确定义。

从技术层面上讲，姜育刚将研究目标对准了语义识别数据集构建、多模态特征深度融合、层次化视频语义识别、视频语义的时空定位。“其中，大规模数据集的构建是开展其他三个问题的研究的重要基石，多模态特征融合的输出为语义识别模块的输入，而精确时空定位则在识别的基础上进行。”

姜育刚的研究可以对视频语义理解的相关理论研究和技术研发起到一定的推动作用。取得的成果可以为很多应用系统提供关键技术，如基于语义分析的互联网广告投放、互联网视频监管与检索、智能视频监控与安防等，进而促进相关产业的发展，产生较大的社会效益和经济效益。