文本图像合成模型如何创造新时代meme?
2023-02-14张书琛
张书 琛
数字内容再生产
meme是什么?学术解释为一个文化的最小碎片,简单通俗一点讲就是一个词组或者“一张梗图”,其诞生总是基于某一群体的共同记忆,可以视作具有互动性的语言载体。那么meme这种流行文化产物是怎么跟文本图像模型这一AIGC(人工智能生成内容)热门分支概念扯上关系的?
首先是因为共同的内容基因,注定了两者的相通。
此前沉寂已久的AIGC行业,在去年下半年借着人工智能机器人Chat GPT火爆的关注度再度回到宇宙中心,而AIGC正是用于内容自动化生成的技术集合。具体来看,AIGC有文字、图片、数字人等类别,文字生成图片正是其中之一,即用户输入一段描述文字,AI就能自动生成相应图片;AI图片二创也在短视频平台走红,比如上传随意图片,都可以再生成新的漫画风格图片;AI程序员与AI作者则是根据描述生成相应的编程、文章。
meme作为一种现代社交的必备数字产品,有着流通广泛、新鲜度高的特性;而人工生产的产量有限,很难满足普遍的社交需求,能利用AI这一更简洁快速的方式合成各式各样的表情包不失为一种解决之道。
其次,谁也没想到商业落地难的AIGC 真的能在表情包上找到机会。今年年初,估值高达11亿美元的美国社交独角兽企业Live Awake推出了一款名为Memix的App,唯一的功能就是借助AIGC 技术将用户输入的文本合成特定主题的表情包或动图,方便用户一键分享至TikTok 等社交平台。出乎意料的是,Memix上线不久就登上了美区iOS免费总榜的第一名,足见社交领域的需求之旺盛。
技术卷到哪了?
听起来高大上的技术之所以能应用于寻常社交场景,离不开技术的进步。
无论是文字生成图片还是文字生成代码,背后的逻辑都是相似的——跨模态大模型。在这一模型中,AIGC 的诞生需要三个步骤:第一步是用户在输入端输入自然语言,AI依靠文字模型理解、处理信息;第二步则是AI 在数据库中找到相应素材;第三步,通过图像编辑器,将找到的素材有逻辑地拼接在一起,生成指定内容产品。
最早出现的AI 深度训练模型是“对抗生成网络”GAN,它有明显的不足,即对输出结果的控制力较弱、生成图像分辨率较低以及难以创作出新图像等。
直到2022年8月,英国公司Stability将当时最先进的AI 训练模型Stable Diffusion完全开源,才大大降低了文字生成图片的技术门槛。
技术论坛AI Summer的创始人Karagiannakos曾介绍,Diffusion作为一类新的训练模型,不仅可以生成多样化的高分辨率图像,而且还能大幅降低计算量与计算时间,“由于其对硬件要求较低,非常适合初创公司用来建立自己的图片生成平台”。因此,才会有了之后国内外图文生成产品雨后春笋般出现的现象。
如今的文本生成图片领域可以说是越来越卷,前不久谷歌刚刚发布了全新的Muse模型,号称是这一领域最新的SOTA(state-ofthe-art model,目前最先进的模型)。
Muse根据文字“彩虹色的企鹅”生成的图片
据该项目的官方介绍,Muse可以做到在FID(Fréchet inceptiondistance, 评估模型生成圖像质量的指标) 评分优于Stable Diffusion、美国Open AI公司的图文生成产品DALL-E2,甚至是Google自家产品Parti 以及Imagen的同时,在速度和效率上,也远胜于以上产品。
官方数据显示,在生成一张256×256的图片时,Parti和Imagen 分别需要6.4秒和9.1 秒,在生成512×512的图片时,Stable Diffusion需要3.7秒,但Muse却可以做到0.3秒就生成256×256 的图片,512×512的图片也只需要1.3 秒。
阻力仍存
尽管AI 文字生成图像技术刚刚找到商业落脚点,距离成熟的商业化应用仍有距离,但监管问题已经随之而来。
根本上讲,AIGC的生成内容仍然是靠事先输入大量人类创作内容,而相关企业普遍依靠公开资源进行AI 训练,训练数据库带来的版权纠纷和信息安全问题逐渐成为监管难点。
Stable Diffusion曾发布声明,表示其底层训练数据集来源于公开网络,目的就是普遍反映互联网上的语言- 文字联系,被收录的艺术家根本无法拒绝。
市场需求尚未大规模爆发,监管问题又如同达摩克利斯之剑悬于头顶,图片生产领域的玩家想要活下去只靠meme可不够。