除了Sora，还有这些人工智能技术

2024-04-30陈宁

上海工运 2024年3期

◎陈宁

近期，OpenAI 又推出一款“王炸”大模型“Sora”。作为OpenAI 首次推出的视频模型，可以根据用户输入的提示词生成长达60 秒的高清视频，尽管还未正式公开使用，但已经引发全行业热议。Sora 是否会成为一种新生产方式？国内同类大模型发展到哪一步？记者采访了上海人工智能行业协会秘书长钟俊浩，听听专家的观点。

文本生成视频将成今年行业热点国内企业已有先行者

白雪皑皑的城市街头，人们走在熙熙攘攘的城市街道上，街道一侧是布局整齐的商店，商店对面设立着一排售卖小吃、工艺品的小摊，行进到“镜头前”的女士，对着“镜头”微微一笑……这是OpenAI 公布的一段案例视频所呈现的画面，也是这家科技公司首次进军人工智能视频生成领域的初步成果展示。

不过，Sora 并非全球首个文本生成视频的大模型。据不完全统计，截至去年底，全球范围内能实现文生视频的大模型已超过20 个产品。

从国内看，和去年ChatGPT 横空出世时的情景一样，国内科技巨头也相继透露同类产品的研发进度。字节跳动称，在Sora 引爆文生视频赛道之前，已经在研发“中文版Sora”：一款名为Boximator 的创新性视频模型。不过，目前这款模型仍然处于研发阶段，预计将在2～3 个月内发布测试网站。也有一些公司正在进行从一张图到另一张图，生成中间视频的大模型产品研发，比如上海人工智能行业协会推进的人工智能企业孵化器——AI 驿站的企业里的小冰公司、笔墨AI 等。

不过，总体而言，这些产品与Sora 相比，还存在不小的差距。“Sora 克服了很多技术难题，目前已经代表了文生视频的最高水平。”上海市人工智能行业协会秘书长钟俊浩向记者从技术角度分析，Sora 的“王炸”能力体现在四个方面：视频压缩网络、用于视频生成的ScalingTransformers（数据变压器）、语言理解、世界模型和涌现的模拟能力。

进一步解释就是，Sora 的训练依赖于大量带有文本标题的视频数据。OpenAI 利用了DALL-E3 中的标题生成技术，为视频生成高质量的文本标题，以此来提高文本和视频数据之间的对齐度。同时，在大规模训练过程中，Sora展示了一些“涌现的模拟能力”，如三维一致性、长距离连贯性、物体持久性以及与世界互动等。这些能力表明，Sora 能够在一定程度上模拟物理世界和数字世界中的人物、动物和环境。

AI 发展远超预期但短时间内难创造生产力

Sora 引燃全行业，各路大佬也纷纷开麦。日前，360 创始人周鸿祎发微博称，Sora 的诞生意味着AGI（通用人工智能）的实现可能从10 年缩短至两年左右。他表示：“有了大模型技术作为基础，再加上人类知识的引导，可以创造各个领域的超级工具。”

他的“发言”，也引发人们对AI 是否会颠覆现实生活和传统行业的担忧。一名广告公司负责人告诉记者，AI 对于广告行业而言的确是一个巨大的转折点。“过去制作视频广告的成本非常高，通常只有大品牌才能承担，如今Sora模型为中小企业提供了制作视频广告的新机遇。”

不少专家也认为，现阶段“Sora 将颠覆行业”的观点过于极端。“Sora 让人感到震撼，是因为AI 的发展速度远超过大家的预期，但并不是说短时间内Sora 能形成生产力。”钟俊浩表示，影视行业和游戏行业都是高度依赖创意、情感投入和人类故事讲述的领域。“AI 视频生成技术虽然可以在某些方面提供帮助，比如降低制作成本、加速内容生成，甚至在某些情境下提供创意灵感，但它们目前还不能完全替代人类在创作过程中的独特视角和情感深度。”

他预计，Sora 和类似技术将不会立即颠覆影视和游戏行业，而是逐渐成为这些行业中的一种强大赋能工具。但这个过程将是渐进的，需要技术、创意和社会的共同发展。Sora 的角色更多的是赋能创作者，而不是替代他们，为他们提供实现创意愿景的新途径。

人才密度是领先的重要因素人人都应报有学习心态

Sora 逼真的视觉效果、碾压级的性能提升，在震撼整个科技圈之余，也出现了“为什么又一个AI 元创新没能发生在中国”的声音。

钟俊浩认为，OpenAI 目前在竞争力上一骑绝尘，中国要在AI 领域追赶，首先依然靠人才，鼓励行业高密度聚集，避免人才分散，也避免智能算力等稀缺资源的分散。上海作为人工智能发展高地，也应该发挥全产业链生态优势，鼓励行业结合，尤其是在智能制造、机器人等领域，整合不同行业的技术和市场资源。同时，鼓励相关企业、研究机构和教育机构在特定区域聚集，以促进知识共享、人才流动和资源高效利用。通过政策引导和资源配置，集中力量攻克关键技术难题。

与此同时，掌握与AI 相关的技能，并非业内人士的“专题”。浙江大学人工智能研究所所长吴飞注意到，这次OpenAI 公布的Sora 合成视频所对应的提示词写得很精彩，具有生动的细节感，因此他指出，善于提出问题、设计内容以及使用工具是每个人在从信息化时代迈向数智化时代需要不断加强的能力。

技术“狂飙”下难免监管难题使用此类工具要注意什么？

在科技领域颠覆式创新不断涌现的情况下，如何实现拥抱技术进步和确保社会安全的平衡，越来越受到各界关注。钟俊浩表示，AI 模型在训练过程中需要消化和分析大量数据。如果这些数据中包含个人信息，并且在生成的内容中无意中泄露，就可能导致隐私问题。另一方面，AI 技术能够生成逼真的文本、图像和视频，这可能会被用于制造假新闻、虚假信息，对社会造成误导和混乱。

钟俊浩还提醒道，在国内要注意正确使用通过国家网信办备案的模型。2 月18 日国家网信办发布公告，根据《互联网信息服务深度合成管理规定》，公开发布了第四批境内深度合成服务算法备案信息。

另外，用户在使用Sora 等工具时，为进行内容生成，需要主动输入人机交互数据，例如输入提问内容或提示词，可能被用于人工智能训练，这些数据中也可能包含用户自身或其他自然人的个人信息。因此，要格外注意数据来源的合法性，以及警惕敏感信息泄露。

对话AI

【编者按】与其纸上谈兵，不如与AI 交交手。支持劳动者多渠道灵活就业是今年两会的热门话题之一。当下，应该如何保护灵活就业群体的劳动权益呢？《上海工运》问计于AI，我们希望通过这种方式，同读者一起开展一场有关AI 的创新之旅。本文由“文心一言（文心大数据模型3.5）”在十五秒内生成后，由编辑校对加工而成。AI 回答的内容结构性较强，语句较通顺，但在内容上还有待进一步通过精准提问和训练，以获得更深入的探讨结果。

保护灵活就业群体的劳动权益，是当下社会发展的重要议题。随着新业态、新模式的不断涌现，越来越多的劳动者选择灵活就业，如网络主播、家政服务、兼职教师等。然而，灵活就业者在享受工作自由的同时，也面临着劳动权益保障不足的困境。

当前，一些灵活就业者由于劳动关系模糊、流动性强，其劳动权益往往难以得到保障。例如，一些外卖员、快递员等，他们每天辛勤工作，却往往面临收入不稳定、缺乏社保保障等问题。这不仅影响了他们的生活质量，也制约了灵活就业市场的健康发展。

保护灵活就业群体的劳动权益，需要政府、社会、企业等多方共同努力。政府应完善相关法律法规，明确灵活就业者的法律地位，为他们提供基本的劳动权益保障；探索建立适合灵活就业者的社会保险缴费机制。同时，企业也应承担起社会责任，与灵活就业者签订规范的劳动合同，确保他们的合法权益不受侵害。

总之，保护灵活就业群体的劳动权益，不仅是维护社会公平正义的必然要求，也是推动经济持续健康发展的重要保障。我们应积极关注这一群体的权益保护问题，共同为他们创造一个更加公平、正义的就业环境。