3.0世代——人工智能图像时代
2023-05-30
图像内容的深度学习
利用人工智能凭空生成图像,2021年这似乎还处于技术变革的前夜,2022年这一切已经成为现实,在一年的时间里人工智能生成图像的技术日新月异,目前仍在不断变化发展中。人工智能技术已经发展了几十年,只是在最近几年里开始越来越实用化。人工智能生成图像的前提是人工智能深度学习,而深度学习的基础则是图像的数字化。
在过去的20多年中,网络中的数字图像呈指数级增长,为人工智能的深度学习提供了庞大的数据库。基于庞大的数字图像数据库,图像内容深度学习有了质的提升。在数字图像数据库的基础上,还有一项关键技术就是识别图像的内容,让人工智能可以区分图像内容中的各种元素,并能理解不同图像中相同元素的个性与共性。人工智能区分图像内容有两方面的训练,一个是理解自然语言,另一个是计算机视觉分析,这是一种文字与图像相匹配的训练方式。庞大的数字图像数据库与图像内容识别训练取得了关键的成效,加之人工智能技术预训练模型的优化,与公开测试获得的良好反馈,这就是人工智能生成图像技术在2022年开始爆发的原因。
1
2
3
Image
参考图:?安德烈亚斯·古斯基,《莱茵河 II》,1999,图片来源于佳士得
本页其他图片为人工智能技术生成,关键词:Andreas Gursky、Rhein II、photography,图1、2由 Midjourney 生成,圖3由DreamStudio生成。
1
2
3
4
Image
参考图:?杰夫·沃尔,《死亡士兵的对话》,1992,图片来源于佳士得
本页其他图片为人工智能技术生成,关键词:Jeff Wall、Dead Troops Talk、photography,图 1—4 由 Midjourney 生成,图 5—6 由DreamStudio 生成。
人工智能生成图像
庞大的数字图像数据库与图像内容识别训练的成果,使人工智能可以根据用户描述生成图像。描述通常分为两种,一种是文字,另一种是图像。前者是人工智能根据文字的意思,从深度学习的数据中寻找与之对应的图像元素并生成新的图像,后者则是根据用户上传的图像进行理解和分析画面元素,然后生成新的图像。二者最关键的一点就是人工智能可以脱离照相机等工具,参考文字或图像的内容,凭空生成新的图像。如果描述的内容比较复杂,涉及多个元素,人工智能会根据描述中涉及到的元素,一一配齐并把这些组合到同一张图像之中。
在2022年一整年的时间里,Disco Diffusion、DALL-E 2、Midjourney和 Stable Diffusion先后诞生,Disco Diffusion已经迭代成 Stable Diffusion。DALL-E2、Midj ourney和StableDiffusion 各具特色,目前都在测试阶段,且主要以生成绘画为主。但是人工智能生成图像技术在过去一年之内数次更新迭代,未来生成摄影作品只是时间问题。本部分的图片由笔者通过 Midjourney 和基于 Stable Diffusion 开源算法的 DreamStudio 生成,所采用的关键词为摄影史上比较著名的艺术作品的作者名字、作品标题和一个固定的单词——摄影(photography)。选择这些关键词的初衷为,作者名字定义图像风格,作品标题定义图像内容,以及摄影定义画面效果是偏向照片的写实风格。
最终生成的图像内容包括场景和肖像元素,从中可以看出人工智能生成图像的能力是可以分析理解文字描述,并据此生成图像内容,不同元素也可以组合到同一画面中,但是相比真实的照片来说,效果还是有明显差距。因为目前的技术主要是以生成绘画为主,虽然笔者加了摄影作为关键词,生成的图像也确实偏向真实,但是仔细观察细节还是能发现明显类似于三维建模的效果,一些人体器官也比较怪异,比如混乱的五官和肢体。基于本次测试结果,显示目前希望用文字生成以假乱真的照片还不太现实,但也能体现人工智能技术生成图像的潜力,假以时日必定能够获得更好的效果。
5
6
Image
参考图:?理查德·普林斯,《无题(牛仔)》,1989,图片来源于佳士得
本页其他图片为人工智能技术生成,关键词:Richard Prince、Untitled (Cowboy)、photography,均由Midjourney 生成。
未来的应用场景
2022年, 游戏开发者杰森· 艾伦(Jason M. Allen)利用人工智能制作了一幅名为《太空歌剧院》(Thé?tre Dopéra Spatial)的绘画,获得了美国科罗拉多博览会年度艺术比赛的一等奖。获奖之后,杰森·艾伦坦言这是他利用人工智能创作的作品。创作过程使用Midjourney 生成图像,然后导入 Gigapixel AI 提高作品的分辨率,第三步使用Photoshop修饰,最后就是将图像印制在画布上。根据比赛规则,评委们认为杰森·艾伦的作品是符合要求的。
正如摄影术诞生时,有人感叹绘画死了一样,目前人工智能技术可以通过描述生成绘画,在一些人眼里,绘画似乎又要死了。其实不然,摄影术和人工智能都是艺术家的创作工具而已。摄影没有杀死绘画,绘画反而开辟了新的艺术道路,人工智能也不会杀死绘画,而是提供了一种生成图像素材的渠道,艺术家也可以在素材的基础上再创作。
目前来看,一个可行的应用场景,便是利用人工智能制作插画之类的商业图像库。使用人工智能生成的图像可以降低插画的生产成本,对于小型公司来说是不错的选择。另外,既然人工智能可以生成图像,那么利用它生成其他内容,比如声音、视频、三维建模之类的,也是未来可期的。
毫无疑问,我们正在进入人工智能图像的时代,但这并不意味着照相机就要废弃了,数字图像和人工智能图像是当下两种不同的获取图像的方法,目前还不能相互取代。能够使用不同的工具创作,可以增添创作的便利,我们能做的就是关注和学习,并尝试使用最新的图像技术创作作品。
技术迭代的焦虑与反思
关于人工智能技术能否取代个体劳動的问题,虽然短时间内还难以形成气候,但显然这样的趋势已经在制造焦虑。在摄影领域,笔者认为目前还不必太过焦虑,除了技术还不成熟之外,最重要的一点是,人工智能生成的照片越真实,其实也意味着照片越虚假。毕竟那不是现实发生的事,关于现实的照片,目前来看还是需要靠实际拍摄。照片至今还是记录人类历史的一种必要方式,历史不能伪造,所以未来历史中的现实不可能由人工智能技术生成。但商业照片就是另一种情况了,本来商业照片中就充满摆拍、置景、拼贴等加工方式,人工智能技术恰恰可以简化成本和流程,提高生产效率。使用人工智能技术运营一个商业图像库并非难事,商业图像领域势必会经历一次工作流程和成本的革新。
Image
參考图:
[上] ?辛迪·舍曼,《无题电影剧照 #48》,1979,图片来源于佳士得[下] ?辛迪·舍曼,《无题#92》,1981,图片来源于佳士得
本页其他图片为人工智能技术生成,关键词:Cindy Sherman、Untitled Film Still、photography,均由 Midjourney 生成。
人工智能技术除了生成图像外,在其他领域也有其身影,比如预训练生成模型 ChatGPT,经过大量文本数据的训练,它能够对各种问题输入生成类似人类的回答,对它提问时,它会通过训练和一组算法来生成与问题相关并以自然的方式编写的回答。虽然ChatGPT能提供准确和有用的信息,尤其是较传统的搜索引擎要强大很多,但它并不总是能够提供完整或正确的答案。而且经过测试发现,ChatGPT所能提供的回答基本上是基于人类已有的知识,也就是说目前人工智能技术的知识储备仅包括人类已知的范畴,它并不能根据已有的数据知识进行自我思考,并创造新的知识,比如人工智能技术能回答目前已知的太空技术(不涉及保密内容),但是指望它生成一个太空移民技术的可行方案,那是不可能的。在可预见的将来,甚至就在近几年,人工智能技术还将延伸至音乐、视频、三维建模等领域,在依靠虚构想象的内容制作领域,人工智能技术可以成为内容制作的新方式。
最近10年,人工智能技术在实用领域的应用比较广泛,比如在各种应用软件中普遍使用的推荐系统,是通过大数据分析用户数据的分析型人工智能技术,目前用于生成图像和文字的则是基于大数据预训练生成模型的内容生成型人工智能技术。当下,人工智能技术带来的焦虑主要是能否取代人的劳动,但就其技术能力来看,在未来一段时间内,社会工作主要还是通过人类与人工智能合作来完成的。曾经,机械取代了许多人力工作,被取代的劳动力可以去从事机械制造和维护的工作,汽车取代了黄包车,车夫则可以成为出租车司机,因此技术变革会在一定程度上推动劳动力的技能提升。比如在内容生成领域,使用人工智能技术可能成为一种新的职业技能,无法掌握新技术的劳动力,难以在新生职业中获得工作机会,就可能沦为被淘汰的黄包车。