AIGC是人工智能的下一个风口吗
2022-11-10■文/翟尤
■文 /翟 尤
作为一种效率工具,AIGC带来了内容生产的提速,但在创作和艺术审美上还需要把关和校准,人类的创作价值短期内仍然无法被替代。
2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者杰森·艾伦(Jason Allen)提交的人工智能生成内容(AIGC)——绘画作品《太空歌剧院》,获得了此次比赛“数字艺术/数字修饰照片”类别一等奖,引发了多方争议。批判者认为,人工智能(AI)在“学习”了前人大量的作品之后,其创作缺乏情绪和灵魂,难以与人类的艺术创作相提并论。支持者认为,创作者在一遍遍修改文本内容后,才让AI创作出满意的画作,而且作品具有很强的观赏性,AI的创作有其独特价值。
AIGC构建发展“加速度”
AIGC是指利用人工智能技术生成内容。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的格式内容包括文字、语音、代码、图像、视频、机器人动作等。AIGC被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面充分发挥技术优势。2022年,AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真。这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。AIGC的迭代速度呈现指数级爆发,其中,深度学习模型的不断完善、开源模式的推动、大模型探索商业化的可能成为AIGC发展的“加速度”。
●深度学习模型是AIGC加速普及的基础
视觉信息在网络中一直具有较强的传播力且容易被大众感知,具有跨平台、跨领域、跨人群的优势,自然容易被人们记忆和理解。同时,视觉信息应用场景广泛。因此,生成高质量的图像成为当前AI领域的一个现象级功能。
2021年,OpenAI团队将跨模态深度学习模型CLIP进行开源。CLIP模型能够将文字和图像进行关联,如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,CLIP模型的优势是可以同时进行自然语言理解和计算机视觉分析,实现图像和文本的匹配。为了拥有足够多标记好的“文本-图像”进行训练,CLIP模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为CLIP模型天然的训练样本。据统计,CLIP模型搜集了网络上超过40亿个“文本-图像”训练数据,这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。
对抗生成网络(GAN)虽然也是很多AIGC的基础框架,但是GAN存在3个方面的不足:一是对输出结果的控制力较弱,容易产生随机图像;二是生成的图像分辨率较低;三是由于GAN需要用判别器来判断生成的图像是否与其他图像属于同一类别,这就导致生成的图像是对现有作品的模仿而非创新。因此,依托GAN模型难以创作出新图像,也不能通过文字提示生成新图像。
2022年出现的Diffusion扩散化模型,真正让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年AIGC绘画最热门的应用Stable Diffusion的重要推手。Diffusion模型有两个方面的特点。一方面,给图像增加高斯噪声,通过破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像的方法。经过训练,该模型可以从随机输入中合成新的数据。另一方面,Stable Diffusion把模型的计算空间从像素空间经过数学变换降维到一个可能性空间(Latent Space)的低维空间里,这一转化大幅降低了计算量和计算时间,使模型训练效率大大提高。这种算法模式的创新直接推动了AIGC技术的突破性发展。
总的来看,AIGC在2022年能够实现破圈,主要是在深度学习模型方面有了长足进步:首先,CLIP模型基于海量互联网图片进行训练,推动AI绘画模型进行组合创新;其次,Diffusion扩散化模型实现算法创新;最后,使用潜空间降维的方法来解决Diffusion模型内存和时间消耗较大的问题。由此可见,AIGC绘画之所以能够帮助大众画出各种天马行空的作品,是因为其背后离不开大量深度学习模型的不断完善。
●“开源模式”成为AIGC发展的催化剂
在算法模型方面,AIGC的发展离不开开源模式的推动。以深度学习模型CLIP为例,开源模式加速了CLIP模型的广泛应用,使之成为当前最为先进的图像分类人工智能,并让更多机器学习从业人员将CLIP模型嫁接到其他AI应用中。同时,Stable Diffusion已经正式开源(包括模型权重和代码),这意味着任何用户都可以以此建立针对特定文本到图像创作任务的应用程序。Stable Diffusion的开源直接促使AIGC在2022年下半年被广泛关注,在短短几个月时间内出现大量二次开发,从模型优化到应用拓展,大幅降低用户使用AIGC进行创作的门槛,提升创作效率,并长期霸占软件源代码托管服务平台GitHub热榜第一名。
在训练数据集方面,机器学习离不开大量的数据学习,LAION作为全球非营利机器学习研究机构,在2022年3月开放了当前规模最大的开源跨模态数据库LAION-5B,使近60亿个“文本-图像”对可以用来训练,从而进一步加快AI图像生成模型的成熟,帮助研究人员加快推动从文字到图像的生成模型。正是CLIP和LAION的开源模式构建起当前AI图像生成应用的核心。未来,随着模型趋于稳定,开源将成为AIGC成熟的催化剂,开源模式有望让相关模型成为海量应用、网络和服务的基础,应用层面的创造力有望迎来拐点。
●从“大模型”到“大应用”,探索可行商业模式
基于深度学习算法数据越多模型鲁棒性越强的特点,当前的大模型规模只增不减,比拼规模已经成为标配。例如,OpenAI推出的GPT-3参数已经超过1750亿个。但是,“数据投喂”并非一种技术路径上的创新,更多地是在工程领域的微调。需要指出的是,模型规模越大,越难以在现实场景中落地部署。同时,“海量数据”并不等同于“海量高质量数据”,有可能导致反向效果产生。
AIGC的发展离不开预训练大模型的不断精进。虽然大模型在很多领域都表现出良好的使用效果,但是这些效果作为展示甚至噱头之后,很难形成良性的商业价值,与大模型的训练成本、基础设施投入相比更是相差甚远。如何推动“大模型”向“大应用”转变,正在成为关键的考验。从AIGC的破圈以及引发的关注可以看出,大模型商业化的潜力正在清晰化:一方面,大模型研发机构可以根据用户端的实际需求,提供“按需服务”并开展商业化落地;另一方面,大模型需要大量算力和海量数据,将带动对云计算、云存储使用量的上升。将AIGC从“尝鲜试试看”变成大众频繁使用的需求,不失为大模型商业化的一条可以探索的新路径。
AIGC仍处于初级阶段,工具化属性明显
●AIGC引发“创造力”归属争论
传统印象中,人工智能在创造性工作领域还无法与人类进行竞争,其主要擅长的是计算、挖掘,聚焦在海量数据分析领域。人类更擅长的是创新领域,如诗词、设计、编程等需要创造性的事物。随着AIGC的快速发展,尤其是近期,通过文本生成图像的AI应用快速发展,让AIGC逐渐走入大众视野。与AI下棋相比,AI进行绘画创作给大众带来的冲击更为明显。棋类游戏具有明确的规则和定义,不需要AI具备创造性,但AIGC输入文字就能进行绘画、视频,让没有相关专业能力的人也可以制作出以假乱真的专业级别作品,则引发了人们对自身引以为傲的“创造力”被替代的担忧。
人工智能生成文字、图片、代码、视频,这意味着人工智能已经开始生产新的内容,而不仅仅是执行数据的分析和处理工作。高德纳(Gartner)公司预计,到2025年,生成式人工智能将占所有生成数据的10%。据红杉资本最近的一篇文章《生成式AI:一个创造性的新世界》的分析,AIGC有潜力产生数万亿美元的经济价值。
●AIGC辅助工具属性依旧明显
AIGC虽然引发了社会的广泛关注,但当前仍旧只能作为辅助工具,还难以达到人们畅想的“高度自主创作”阶段。
在捕捉灵感方面,AIGC可以帮助有经验的创作者捕捉灵感,与他人进行创新互动。例如,在游戏行业,制作人的灵感往往难以准确地表达出来,与美术人员经常由于沟通不到位而产生理解误差。AIGC系统可以在设计初期生成大量草图,在此基础上有助于制作人与美术人员更好地理解并确认彼此的需求。同时,创作灵感也往往难以捉摸,可以提前通过AIGC寻找“感觉”,进一步降低美术创作者的前期工作量和项目成本。例如,制作人在构建出完整的背景故事之后,可以由AIGC生成系列画作,之后再由专业的美术人员进行筛选、处理、整合,并将整个故事和画面进一步完善提升。
在提升效率方面,AIGC的出现将使创作者拥有一个更加高效的智能创作工具,可以在内容创作环节做到不断优化,而非让AIGC成为其竞争对手。例如,在极短的项目筹备时间内,AIGC可以大幅提升效率,这验证了AI投入工业化使用的可行性。尤其是对艺术、影视、广告、游戏、编程等创意行业的从业者来说,AIGC可以辅助从业者进行日常工作,并有望创造出更多惊艳的作品。同时,这还可以进一步降低成本和效率,为规模化生产构建市场增量。
AIGC发展面临的挑战
AIGC在引发全球关注的同时,在知识产权、技术伦理等方面还将面临诸多挑战和风险。AIGC与通用人工智能还有较大差距。
●知识产权引发创作者担忧
随着算法模型的进一步完善和成本的快速下降,AIGC大规模商业化应用将成为现实,过去对人们来说遥不可及的专业能力已经具备从实验室飞入寻常百姓家的可能。与此同时,AIGC的飞速发展和商业化应用除了会对创作者造成冲击之外,也会对大量依靠版权为主要营收的企业带来冲击。
一方面,AIGC难以被称为“作者”。根据我国《著作权法》的规定,作者只能是自然人、法人或非法人组织。显然,AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但是,业界对AIGC应用生成图片的版权问题持有不同的观点,图片属于平台、完全开源还是生成者,目前尚未形成统一的意见。
另一方面,AIGC产生的“作品”尚存争议。根据我国《著作权法》和《著作权法实施条例》的规定,作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。
由于创作者每一次新的创作都会在无形中对AIGC进行免费培训,这让众多版权机构产生了巨大担忧。目前,已经有大量艺术家和创作者宣布禁止AI学习自己的作品,从而保护自身知识产权。
●与通用人工智能还有较大差距
当前热门的AIGC系统虽然能够快速生成图像,但是,这些系统是否能够真正理解绘画的含义,从而根据这些含义进行推理并决策,仍是未知数。
一方面,AIGC系统不能将输入的文本与产生的图像完全关联起来。例如,用户对AIGC系统进行测试,输入“骑着马的宇航员”和“骑着宇航员的马”内容时,相关AIGC系统难以准确生成对应的图像。因此,当前的AIGC系统还没有深刻理解输入文本和输出图像之间的关系。另一方面,AIGC系统难以了解生成图像背后的世界。了解图像背后的世界是判断AIGC是否具备通用人工智能的关键。从目前来看,AIGC系统还难以达到相关的要求。例如,在Stable Diffusion中输入“画一个人,并把拿东西的部分变成紫色”,在接下来的9次测试过程中,只有一次成功完成,准确性不高。显然,Stable Diffusion并不理解人的双手是什么。
知名AI专家发出的调查也印证了同样的观点,有86.1%的人认为当前的AIGC系统对世界理解的并不多。持相同观点的人还包括Stable Diffusion的首席执行官。
●创作伦理问题尚未有效解决
部分开源的AIGC项目对生成的图像监管程度较低。一方面,部分数据集系统利用私人用户照片进行AI训练,对人像图片进行侵权训练的现象屡禁不止。这些数据集正是AIGC等图片生成模型的训练集之一。例如,部分数据集在网络上抓取了大量患者就医照片进行训练,且没有做任何打码模糊处理,对用户隐私保护存在安全隐患。另一方面,一些用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和与性相关的画作,目前海外已经出现基于Stable Diffusion模型的色情图片生成网站。
由于AI本身还不具备价值判断能力,一些平台已经开始进行伦理方面的限制和干预。例如,AI绘画工具DALL·E2已经开始加强干预,减少性别偏见的产生,防止训练模型生成逼真的个人面孔等。但是,相关法律法规的空白和AIGC应用研发者本身的不重视将引发人们对AI创作伦理的担忧。
AIGC具有巨大的潜力,未来将融入人们的工作、创作和娱乐中。但目前来看,AIGC应用还比较单薄,差异化竞争和商业模式不明确,技术方面也存在很多安全风险和挑战,如版权、信任等问题都亟待解决。作为一种效率工具,AIGC带来了内容生产的提速,但在创作和艺术审美上还需要把关和校准,人类的创作价值短期内还无法被替代。