九零后中国留学生开发出AI“隐身衣”技术

2020-12-25胡巍巍

海外星云 2020年15期

胡巍巍

刚刚过去的 2020 年 ECCV（欧洲计算机视觉国际会议），有一项 AI“隐身衣”技术引人瞩目。该技术来自本次会议收录的论文《光流 - 边缘引导的视频补全》。ECCV 是计算机视觉三大会议之一，每两年举办一次，论文录取率仅 27%。该论文第一作者高谌是一位九零后北京小伙，目前在弗吉尼亚理工大学计算机工程专业就读博士三年级，师从华人教授黃嘉斌。

该研究成果主要是开发出一项 AI 视频处理算法，其能实现诸多 “炫彩” 成果：比如正在行駛的车辆，突然人间蒸发;正在坐秋千的小孩，突然只剩下秋千架;正在骑马的运动员，跨过栏杆人和马都不见。这不是变魔术，而是本次 AI 视频处理算法的功能之一，它依托一种名为光流引导（Optical Flow）的方法。

据了解，当前视频处理主要面临几大难题：补全后的光流难以做到分段光滑，难以保证时序连续型，难以在高分辨率下实现修复，更难以降低视频对计算的开销。基于此，高谌提出一种以光流边缘为引导的光流补全技术，再利用补全的光流来完成视频补全的算法。相比此前方法，该算法可保持运动边界的清晰度。

研究起源于在 Facebook 的实习

本次研究开始于 2019 年暑假，当时高谌在脸书实习，他跟导师黃嘉斌讨论后决定了该方向。在查考相关文献、并了解该领域的现有问题后，他开始着手算法开发。该研究的主要原理——光流法是视域中物体运动检测的概念，其用于描述运动所造成的观测目标、表面或边缘的运动，主要应用于计算机视觉和影像处理等。使用光流法，可寻到不同帧之间的关系，并通过在不同帧之间传播信息来补全视频。

本次研究主要包含3个步骤：光流完成、内容传播和融合。第一步是光流完成。具体操作时，要计算相邻帧之间的正向光流和反向光流、以及一组非相邻帧（Non-local）的正向光流和反向光流。由于视频可能出现破损，计算出的光流也需要补全。另外，因为光流是分段光滑的，是否能得到一个锐利光流边缘，将直接影响最后的光流补全结果。最终，高谌选择利用神经网络来补全光流边缘，再以光流边缘为引导补全光流。第二步是内容传播。这时要按照光流的轨迹，为每个丢失的像素找到一组候选像素。顺着正向光流和反向光流，最多可找到两个候选点。而在非局部光流的帮助下，通过检查三个额外的帧，可以获得额外的三个候选帧。高谌表示，对于每个候选帧，都要估计一个置信分数以及一个二进制有效性指标。第三步是融合。使用置信加权平均值，将每个缺失像素的候选像素与至少一个有效候选像素融合。并通过梯度域的操作方式，可避免明显的拼接裂缝，从而生成无缝的结果。假如一个像素没有任何候选像素，就意味着它无法通过时间传播来填充。这时，高谌选择一个关键帧，并使用单个图像补全技术来填充它。

可实现无痕补视频

本次算法，相比同类算法主要有三大优点：第一，此前的补全视频中，用户可明显看出视频 “补过”，“补丁” 边界处非常明显。如下图所示，其结果往往带有痕迹，显得很不自然。而使用本次算法得到的补全视频，其补全区域是无痕的。第二，此前用算法给视频补帧时，只能补到前一帧和后一帧，如果找不到前一帧或后一帧的信息，就会无法补全。而本次算法，不仅能补全前一帧和后一帧，还能跳着补帧。比如，直接跳到第一帧去借用信息，或者直接跳到最后一帧去借信息，这样就不局限于上一帧或下一帧。另外，此前方法在处理有周期性运动物体出现的视频时往往比较困难，针对该难题高谌通过引入非局部（ Non-local ）信息，来提升视频修复的准确度。第三，以前的算法补出来的光流不是很平滑，往往带有明显的接缝。而该团队的算法主要基于光流边缘进行补全，最终可得到分段光滑的光流。以上三个原因，让本次研究的结果，比以前方法更好。

此外，由于此算法不局限于 GPU 内存，所以可处理最高 2K 分辨率的视频。这种全自动的算法，可告别之前手动一帧帧地删除视频内容。众所周知，机器学习算法的开发过程费时费力，开发成本高。高谌认为，他们的新算法以完全自动化的流程取代手工，会达到更低的成本。事实上，机器学习相当于优化问题的过程，优化过程中需要很多 CPU 和 GPU 资源，比如在本次研究中脸书就提供了大量 GPU。所以，算法开发成本非常高，而算法一旦开发出来，就可以一劳永逸地进行部署，不管多少视频都能完全自动化处理。并且，对于一般视频剪辑者来说，即便没有计算机知识，也能使用该技术。

已经开源，可供厂商和个人使用

在肉眼观感上，依托该算法修复的视频，已能做到无痕抹除水印、无痕补全画面残缺，在目标识别和影视后期（视频编辑）中，具有很大应用前景。

除用于视频编辑外，Vlog 创作者们可使用该算法，营造一个人突然消失的场景;普通用户则可完成 “美图秀秀” 式的视频处理，比如假期旅游拍摄视频时，可能你本来想拍景点，但由于游客太多挡住了景点，使用该算法就能把游客删掉，最终只保留景点本身的视频。虽然这一过程和删除图片中的内容很相似，但这里是删除同一帧视频中的内容，这也是相比照片处理的难度所在。

再就是针对部分内容缺失的老旧视频，该算法能修复出丢失或破坏的地方。以几十年前的胶片视频为例，假如视频左上角被水淹过，此处就是完全一片黑色，既无颜色也无信息，而使用本次算法，则可补全已缺失部分。具体操作时，如果某一帧有缺失，就得看能否从视频中的其他帧借到有用信息，也就是 “补丁” 内容不是凭空生成，而是本身就在视频里。这样补出来的视频在播放时，就会非常流畅。

还有一种可能，整个视频都找不到可借用部分，那就只能求助另一个算法，这种方法叫单帧补全，也就是说从其他帧借不到信息，就只能用一个网络来把这一帧缺失的信息补全。这一帧补全的信息，还可以借给其他帧，即先从其他人那借，借不过来就自己生成一些，相当于鸡生蛋蛋生鸡，不断循环借出去借回来的过程，直到最后可让整个视频都补全，且播放非常流畅。当前的局限在于，算法无法理解视频的内容，它只能借助光流找到信息并把信息补全，这也是当前人类 ”抠图师”的优势所在。

本算法已经在 GitHub 开源，任何人都可以免费使用。高谌表示，欢迎厂商或其他研究人员把该项目的源代码合并到软件中。由于已经开源，只要你对视频编辑感兴趣，就能直接用本次研究结果来做创造性作品。在 DAVIS 数据集上，高谌将该成果与已有成果进行对比，在峰值信噪比（PSNR，Peak Signal to Noise Ratio，一种评价图像的客观标准）、结构相似性（SSIM，Structural SIMilarity，一种衡量两幅图像相似度的指标，LPIPS）上，均优于其他成果。不过，高谌在论文中坦言：“我们的方法运行速度为 0.12 fps，（速度）与其他基于光流的方法相当...... 我们承认运行时间稍慢是个弱点。”对此，他表示该成果已经开源，因此非常期待圈内人士对其进行优化。

今年 28 岁的高谌，本科时就读于俄勒冈州立大学，主修电子与计算机工程;硕士来到密歇根大学安娜堡分校，就读于电气与计算机工程专业;博士则就读于弗吉尼亚理工大学计算机工程专业，师从华人教授 Jia-Bin Huang。截止目前，已发表 7 篇被 ECCV、NeurIPS 等顶会录用的论文。2019 年夏季，高谌在 Facebook 计算摄影组担任研究实习生。2020 年夏季，则在谷歌安卓相机算法团队，担任研究实习生。谈及他未来的计划，他表示仍然想去企业工作。

（摘自美《深科技》）（编辑/费勒萌）