APP下载

视频大模型助力网络视听创作

2024-05-22吴欣鸿

网络视听 2024年7期
关键词:美图领域创作

吴欣鸿

美图公司自2014年起,便积极投身于网络视听内容创作的支持与发展。虽然美拍在短视频领域的尝试未能成为主流,但我们并未停止探索和创新。2019年,美图秀秀在原有修图功能的基础上,新增了视频编辑功能,并成功孵化了新的视频编辑产品Wink。目前,Wink已在中国视频编辑市场占据第三位,特别是在日活跃用户方面,已跃居第二,仅次于剪映。2023年,在美图影像节上,我们发布了多款产品,其中包括多款应用层工具如开拍,也有大模型MiracleVision。开拍作为一款助力口播视频创作的工具,通过AI技术实现了从脚本创作、题词器到智能剪辑一站式服务,极大提高了口播视频的创作效率。而MiracleVision则是美图推出的视觉大模型,专注于图像和视频生成。

以美图展示的“动物疯狂赛车”短视頻为例,完成该短片仅用时半天。整个制作流程均基于美图已上线产品,包括开拍的AI脚本创作、Wink的文声图分镜设计、AI生成视频能力,以及开拍的AI数字人角色等。这一案例充分展示了MiracleVision视频大模型在内容创作领域的强大潜力。

关于视频大模型的行业格局,我们注意到Open AI在2024年2月初发布的Sora对美图等图像和视频大模型公司产生了较大冲击。Sora的发布让我们看到了明显代差,迫使我们重新评估和调整自身技术路线。因此,我们决定对原有的视觉大模型进行升级,采用全新的“Diffusion Transformer”网络架构对模型进行训练。全新版本将于今年6月正式发布,相信我们在未来将会带给大家更多惊艳的作品。

美图公司自成立以来已有16个年头,我们一直深耕于应用开发领域,致力于为用户带来更加便捷、高效的创作体验。随着移动互联网蓬勃发展,我们推出了一系列备受欢迎的应用产品,赢得了广大用户的喜爱和认可。如今,大模型应用创新的浪潮席卷而来,我们看到了应用开发者的红利期已经到来。未来至少会有两年甚至三年的时间窗口,让我们有机会在这个领域大展拳脚。

特别是网络视听领域有很多垂直场景值得应用开发者关注。在这一领域中,有着无数创作可能性和商业机会等待我们去挖掘。同时,我们也在逐步构建AI原生工作流,将原本孤立的工作点串联起来,形成更加高效、智能的创作环境。这种变化不仅提高了创作效率,也让我们能够更好地满足用户需求,为他们带来更加卓越的体验。

在具体应用方面,美图在AI视频生成、视频编辑和视频渲染等领域均有布局。例如,在视频生成领域,我们致力于实现网文的视频化及AI电商的视频生成;在视频编辑领域,Wink产品拥有成熟的视频修人像技术,并实现了内容替换、图片局部视频化等功能;在视频渲染方面,我们的AI动漫技术已经非常成熟,可以实现风格化的视频生成。此外,我们还在探索Wink画图修复、视频风格迁移等渲染技术。未来,随着我们技术的不断进步和创新,相信这些应用将为用户带来更加丰富的视听体验。

未来十年,我们认为以Sora为代表的视频大模型2.0只是一个开始。无论是美图推出的MiracleVision视频大模型,还是全球范围内的视频大模型,都是1.0版本。所有这些1.0版本产品生成视频的秒数和动态效果都还有很多局限性。但我们通过Sora看到,整个视频大模型已经能够逐步理解世界的基本规律,如物理和运动等,还将具备更强的涌现能力和创意生成能力。这将为我们带来更加广阔的创作空间和无限可能。

在这个充满机遇和挑战的时代,美图公司将全力推进自研视频大模型的研发,不断创新突破,为网络视听行业提供更加优质、高效的视频创作工具。我们坚信,在未来的发展中能够创造更多令人惊叹的作品和成果,为用户和行业带来更多惊喜和价值。W

猜你喜欢

美图领域创作
领域·对峙
几何概型与美图赏析
《一墙之隔》创作谈
美图的难题
闽商蔡文胜磁带、域名、美图的50亿美元进阶
美图小园地
创作随笔
新常态下推动多层次多领域依法治理初探
创作心得
肯定与质疑:“慕课”在基础教育领域的应用