Imagen AI,从自然文本中生成逼真的图像
2022-06-23曹欣
曹欣
说起DALL-E2的大名,很多关注人工智能科技行业的读者都了解。可以说,文本生成图像这个堪比考验人工智能想象力的技术制高点,被DALL-E2发挥得淋漓尽致。在OpenAI宣布DALL-E2(其最新的从文本创建图像的 AI 系统)大约一个月后,Google 的“文本到图像扩散模型Imagen”加入到了这场AI竞赛中。
使用标准度量FID(Frechet Inception Distance score,计算真实图像和生成图像的特征向量之间距离的一种度量),Google Imagen 在COCO(Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集)数据集上以 7.27 的得分超过了Open AI 的 DALL-E2。尽管没有使用COCO进行“培训”,但Imagen的表现仍然很好。Imagen 在人工评分者中也优于 DALL-E2 和其他竞争的文本到图像方法。
Imagen的工作原理是采用自然语言文本输入,例如“一只戴着蓝色格子贝雷帽和红色圆点高领毛衣的金毛猎犬”,然后使用T5-XXL 编码器将该输入文本转换为嵌入。接下来“条件扩散模型”将文本嵌入映射到一个小的64×64 图像中,Imagen使用文本条件超分辨率扩散模型将64×64图像采样为256×256和1024×1024。
与去年秋天NVIDIA的GauGAN2方法相比,Imagen 在灵活性和结果方面都有了显著的提升,意味着影像基础的人工智能正在迅速发展。比如右面这张“一只柯基犬住在用寿司做的房子里”的图片,看起来真实度很高,就像有人真的用寿司建造了一个狗屋,而且柯基犬很喜欢它,其实这一切都是虚构的。
一些用户在访问Imagen后会立即开始输入各种短语,比如:“一对机器人夫妇在埃菲尔铁塔的背景下享用美食。”如果没有特定的关键词,有可能生成的人种、肤色会不同。我们不知道Imagen如何处理这些文本字符串,文本到图像的研究还存在伦理挑战。
多伦多的天际线,上面写着用烟花写的大脑标志
一只可爱的柯基犬住在用寿司做的房子里,想想要真正拍摄会多不容易
如果文字中没有“机器人”这个词,这对夫妇的照片会是什么样子?
从技术上说,此次谷歌的Imagen抛弃了从文本特征映射到图像特征再用GAN或扩散模型生成图像的常規思路,而是使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。
当然,这里的图像生成模型,依然是扩散模型。这就意味着其纯文本数据获取方面比获取图文数据容易,其文本理解能力比图文对数据的理解能力强。我们想象一下,一个模型可以从文本中创建几乎任何图像,像Imagen这样的AI模型主要是使用从网络上抓取的数据集进行训练的,互联网上的内容可能存在偏差和偏见,有些还具有负面的社会影响,人工智能如何能鉴别?
所以,Google为Imagen使用了 LAION-400M 数据集,众所周知,该数据集“包含大量不当内容,包括色情图像、种族主义诽谤和有害的社会刻板印象”,训练组的子集可以用来过滤这些“不受欢迎的”讯息。
而且Google Imagen此次优秀的表现还是在并不大(相对而言)的训练数据规模上,实验中发现,扩大语言模型的规模对最后效果影响更大。尽管Imagen表现卓越,在理解方面很多情况下表现都强于DALL-E2,不过它还是有缺点,正常情况下,如果文字比较“绕口”,AI也能画出来,但如果剑走偏锋,提一个反常识的画,比如正常情况下是人骑马,而我们偏偏让AI画马骑人,这样这两个AI就熄火,无法运行了。
由此看来,目前的人工智能再强,它们还是不理解实质的含义。即便如此,这款新出的AI也已经够惊世骇俗的了。不用说,大家刚从OpenAI的DALL-E2的震惊中走出来,又遭遇更震撼“暴击”。看得一众读者目瞪口呆,一时间惊呼不断,感叹科技进步之快,难怪有人表示,以后的图库是不是就会被人工智能取代了?先取代设计师的图库素材库,再取代设计师,如果AI按这个步骤来,那么我们岂不是更不敢放心用AI的图库素材?