视频大模型助力网络视听创作

2024-05-22吴欣鸿

网络视听 2024年7期

吴欣鸿

美图公司自2014年起，便积极投身于网络视听内容创作的支持与发展。虽然美拍在短视频领域的尝试未能成为主流，但我们并未停止探索和创新。2019年，美图秀秀在原有修图功能的基础上，新增了视频编辑功能，并成功孵化了新的视频编辑产品Wink。目前，Wink已在中国视频编辑市场占据第三位，特别是在日活跃用户方面，已跃居第二，仅次于剪映。2023年，在美图影像节上，我们发布了多款产品，其中包括多款应用层工具如开拍，也有大模型MiracleVision。开拍作为一款助力口播视频创作的工具，通过AI技术实现了从脚本创作、题词器到智能剪辑一站式服务，极大提高了口播视频的创作效率。而MiracleVision则是美图推出的视觉大模型，专注于图像和视频生成。

以美图展示的“动物疯狂赛车”短视頻为例，完成该短片仅用时半天。整个制作流程均基于美图已上线产品，包括开拍的AI脚本创作、Wink的文声图分镜设计、AI生成视频能力，以及开拍的AI数字人角色等。这一案例充分展示了MiracleVision视频大模型在内容创作领域的强大潜力。

关于视频大模型的行业格局，我们注意到Open AI在2024年2月初发布的Sora对美图等图像和视频大模型公司产生了较大冲击。Sora的发布让我们看到了明显代差，迫使我们重新评估和调整自身技术路线。因此，我们决定对原有的视觉大模型进行升级，采用全新的“Diffusion Transformer”网络架构对模型进行训练。全新版本将于今年6月正式发布，相信我们在未来将会带给大家更多惊艳的作品。

美图公司自成立以来已有16个年头，我们一直深耕于应用开发领域，致力于为用户带来更加便捷、高效的创作体验。随着移动互联网蓬勃发展，我们推出了一系列备受欢迎的应用产品，赢得了广大用户的喜爱和认可。如今，大模型应用创新的浪潮席卷而来，我们看到了应用开发者的红利期已经到来。未来至少会有两年甚至三年的时间窗口，让我们有机会在这个领域大展拳脚。

特别是网络视听领域有很多垂直场景值得应用开发者关注。在这一领域中，有着无数创作可能性和商业机会等待我们去挖掘。同时，我们也在逐步构建AI原生工作流，将原本孤立的工作点串联起来，形成更加高效、智能的创作环境。这种变化不仅提高了创作效率，也让我们能够更好地满足用户需求，为他们带来更加卓越的体验。

在具体应用方面，美图在AI视频生成、视频编辑和视频渲染等领域均有布局。例如，在视频生成领域，我们致力于实现网文的视频化及AI电商的视频生成；在视频编辑领域，Wink产品拥有成熟的视频修人像技术，并实现了内容替换、图片局部视频化等功能；在视频渲染方面，我们的AI动漫技术已经非常成熟，可以实现风格化的视频生成。此外，我们还在探索Wink画图修复、视频风格迁移等渲染技术。未来，随着我们技术的不断进步和创新，相信这些应用将为用户带来更加丰富的视听体验。

未来十年，我们认为以Sora为代表的视频大模型2.0只是一个开始。无论是美图推出的MiracleVision视频大模型，还是全球范围内的视频大模型，都是1.0版本。所有这些1.0版本产品生成视频的秒数和动态效果都还有很多局限性。但我们通过Sora看到，整个视频大模型已经能够逐步理解世界的基本规律，如物理和运动等，还将具备更强的涌现能力和创意生成能力。这将为我们带来更加广阔的创作空间和无限可能。

在这个充满机遇和挑战的时代，美图公司将全力推进自研视频大模型的研发，不断创新突破，为网络视听行业提供更加优质、高效的视频创作工具。我们坚信，在未来的发展中能够创造更多令人惊叹的作品和成果，为用户和行业带来更多惊喜和价值。W