人工智能生成内容(AIGC)技术特征及应用场景分析
2023-12-04刘明亮
刘明亮
(广东警官学院 广东 广州 510000)
0 引言
以海量大数据为基础的深度学习和算法模型为支撑,人工智能生成内容(artificial intelligence generated content,AIGC)将数字化信息和智能生成进行深度融合,并应用到图像、文字、视频等多模态信息内容的生成、编辑和创作中,使得生成内容模式由专业生成内容(professionally generated content,PGC)、用户生成内容(user generated content,UGC)向AIGC 转变[1]。
AIGC 以其优越的信息生成和“拟人化”的交互能力得到了广泛的关注,但是如何推进AIGC 在现实场景的应用仍然是一个亟待解决的问题。 本文的研究工作分为两个阶段:首先,归纳梳理AIGC 的技术特征,总结技术迭代的要点。 其次,将AIGC 应用场景归纳为辅助设计、自主生成、智能交互三个阶段,并对各个阶段的具体应用方向进行分析。
1 AIGC 产生背景
Web 1.0 时代,互联网信息以内容发布为主,将各渠道获取的信息进行集中整合,方便用户搜索获取所需的信息。 虽然其中也存在论坛、博客等用户交流渠道,但仅限于提供针对信息的讨论和交流,用户很少参与到内容的建设当中。 信息发布的主导权集中在门户网站手中,形成了门户网站搭建信息传输架构,提供专业化的信息,用户被动接收信息的PGC 模式。
Web 2.0 时代,随着智能终端和移动互联的普及,线上线下融为一体,随时随地上网、随时随地沟通成为时代的特性。 互联网信息更多地注重即时性、交互性。 信息发布的主导也转移向用户,应用软件不仅简化了内容编辑发布模式,而且提供了简单易操作的编辑、排版工具及丰富的特效、转场功能,信息发布进入自媒体时代。
Web 3.0 时代,智能交互成为主流。 信息发布者多元化,内容也不仅仅局限于已经创设好的知识结构,而是通过AI 进行大数据整理、挖掘,输出为用户所需的信息,实现了生产内容多样化、生产过程去中心化[2]、生产质量专业化。
2 AIGC 技术特征
2.1 大数据训练为前提
AIGC 的内容生成是以大数据训练资料作为支撑的,多模态数据集LAION-400 M[3]训练的图文对数据量达到4 个亿;GPT-1 训练资料为5 GB,训练参数为1.17 亿;GPT-2 训练资料达到40 GB,训练参数为15 亿;GPT-3 训练资料已经高达45 TB,训练参数为1750 亿;谷歌公司发布的PaLM-E 语言模型训练参数达到5620 亿,AIGC 训练样本呈几何倍率增长。
2.2 自然语言处理技术为基础
相比编程语言,自然语言虽然更贴近日常生活中,但是存在表达形式的多样性、表达语义的不确定性、表达内容的简略性等特点,不容易直接被计算机正确理解,所以要经过自然语言处理(natural language processing,NLP)过程。
自然语言处理,也被称为计算语言学,主要的目的是用以理解、识别和产生自然语言内容。 处理语言的过程分为两个阶段:自然语言理解阶段、自然语言生成阶段[4]。主要处理的内容包括图像、文本、语音等类型的信息。
NLP 主要分为以下五个步骤:第一步,按照文本编码倡议(text encoding initiative,TEI)对文本进行编码、归纳形成语料库。 第二步,对语料库进行预处理,完成语料整理、数据统计。 第三步,进行分词处理,拆分文本形成词元,制作标注、索引。 第四步,特征向量化。 根据文本的类别、情感等特征将拆分的词语向量化,解释为计算机语言。 第五步,进行模型训练。 利用算法模型,根据自监督或者无监督的模式来进行训练,并根据反馈来进行调整。
在Transformer 模型的基础上,以大规模预训练、无监督自学习为特性的BERT、GPT、文心、智源“问道”等语言大模型相继出现,解决了图像、文字、视频等多模态信息的识别、交互、生成问题,夯实了AIGC 技术迭代发展的基础。
2.3 算法模型为支撑
有了海量的训练样本,下一步就是对数据信息进行学习-糅合-加工,形成AI 自身的认知体系。 而算法模型的更新则是实现AIGC 技术发展的重要支撑,如变分自动编码器(variational auto encoder,VAE)、生成对抗网络(generative adversarial networks, GAN)、扩散模型等。
2.3.1 变分自动编码器
自动编码器是一种无监督的生成模式,主要构造为编码器和解码器,其原理是通过编码器将样本数据降维映射到低维变量,解码器根据映射特征将低维变量重构为新的样本数据。
变分自动编码器在自动编码器的基础上形成,但是将编码器分为方差模块和均值模块,另外增加了服从正态分布的隐变量[5],从而使得解码器不仅仅能还原数据,而且具有了生成数据的能力。
主要原理如图1 所示:首先,样本X经过编码器均值模块和方差模块编码,形成符合正态分布的变量;其次,通过随机采样获得隐变量Z,并通过高斯噪声对变量进行干扰,使得重构生成的样本和原始样本不完全一样;最后,通过解码器生成尽可能接近原始样本的新样本Y。
图1 变分自动编码器原理
2.3.2 生成对抗网络
GAN 利用生成器和判别器互相对抗、博弈、制衡,最终达到纳什平衡状态[6]。 生成器的作用就是生成最可能接近真实样本的数据,以求能够欺骗过判别器,而判别器的目的就是判断生成器生成的数据是否和真实样本一致,并且通过不断学习样本数据以提升自己的鉴别能力。
原理如图2 所示:首先生成器通过隐空间采样一组随机噪声生成数据,然后由生成器进行判别,判断为假则返回让生成器重新生成,直到判别器无法判断出生成数据和样本数据的差别时,则流程结束。
图2 生成对抗网络原理
但是,GAN 网络在生成数据时也存在一些问题。 (1)生成图像的多样性欠缺。 生成器如果生成一种图形能够“欺骗”过判别器,则在以后的生成过程中会反复生成同一类型的数据。 (2)判别器训练效率较低,不容易收敛。 导致图像生成的过程较为繁琐,而且不容易进行优化。
2.3.3 扩散模型
扩散模型同样是一种无监督的深度生成模型,主要原理如图3 所示:在学习阶段,基于马尔可夫链(Markov chain)模型将样本库的训练样本通过添加噪声实现分解。假设原始样本为t0,通过不断添加噪声形成t1,t2,直到全部添加噪声,并在这个过程中构建标签,形成样本库,此过程可以看作是正向扩散过程。 在生成阶段则正好相反,生成器拟合样本数据,并逐步去除噪声,根据要求生成图像,可以看作是逆向的高斯转换过程[7]。
图3 扩散模型原理
3 AIGC 的应用场景分析
随着大数据训练的维度及深度学习算法的发展,AIGC 由复制、模仿向创造、创新演进,应用场景也由最初的AI 辅助设计向自主生成及智能交互场景发展[8-9]。2022 年,AI 绘画工具midjourney 开放测试,用户通过自定义的文字描述,就可以智能生成形态各异、风格多元的图像,而且提供了人脸风格变化、AI 换脸等功能。Open AI 发布了ChatGPT 语言大模型,智能学习并糅合数据资料,可以与人工智能交互并创作文章、图片等数据资料。
3.1 辅助设计场景
在早期应用阶段,AIGC 主要用于辅助设计方面,为图文设计提供素材、模板、特效编辑等方面的功能。 而这些功能是软件或平台里已经设定好的,用户直接拿来使用即可,并不能自主生成富含逻辑的创意。 比如在图像处理和设计方面,软件或平台里面会预先设置好图层渲染、滤镜等模版,方便用户使用;在文字编辑方面,可以根据用户需求进行检索,并将检索内容进行简单的排列组合。 在语音交互方面,可以实现对声音的识别、传译,如同声传译系统、语音识别软件, 但是还不能达到完善的交互水平[10-11]。
3.2 自主生成场景
语言大模型的不断推出,如ChatGPT 4.0、PalM-E、文心一言、盘古等,给人智交互带来了可能。 AI 不仅仅能够识别文字、语音、图像等信息,根据用户需求生成多模态数据,而且生成的内容也已经不仅仅局限于预设的场景,而是具有了自主生成的能力。
在学习学科知识、语义、逻辑规律等相关内容的基础上,通过无监督的学习方式及模型训练,AIGC 以智能化、拟人化的体验将促进其在艺术、教育、媒体等方面的应用。
在艺术领域,用户可以很方便地使用相关软件创作出富有创意的音乐、绘画等作品。 在绘画生成方面,用户可以通过文本描述或者提供参考图片的方式让AI 生成相应的图片。 比如,以关键词“巍峨的群山之巅,中国古代建筑,一群飞鸟掠过,广角镜头,色彩鲜明”作画,如图4 所示。
图4 AI 作图示例
在教育方面,据Open AI 公司公布,GPT-4 模拟律师考试的成绩在考生中排名前10%左右,在GRE 考试的数学和语言部分几乎得了满分。 有大数据资源库、算法模型、虚拟仿真等方面的支持,AI 不仅可以给学生提供学习资料,在生成文章、个性化学习支持、辅导答疑等方面提供帮助,还能营造沉浸式的学习环境,并根据学生的反馈及时进行评测互动。
3.3 智能交互场景
有神经网络技术、移动互联传感网络、物联网等技术的支撑,AI 将逐渐进入更高层次的智能交互阶段,通过感触现实场景和人们的需求进行交互。
通过AIGC 与辅助脑机接口的融合,可以实现大脑不经过外围神经系统而直接与外部设备之间进行智能交互,这项技术可以应用在医疗、教育、游戏等方面。
目前机器人已经在工业制造、家居生活、医疗等方面有了相关的应用。 但是如果将AIGC 和机器人进行深度融合,那机器人除了简单执行已经设置好的命令之外,还可以根据人们提供的文本、图像、视频或者语音等多模态的指令实时地进行交互,就能够完成更多具有创造性的工作。 依托于Jetson Xavier 计算系统,根据传感器网络感应环境,机器人可以根据判断自主进行合理的反馈和动作。
4 总结
综上所述,AIGC 给信息数据的整合、传播、应用都带来了新的机遇,并且随着大数据训练样本的增加,自然语言处理技术与算法模型的迭代更新,其在数字化内容生成、人智交互领域也将得到更多的应用。