人机协同释放AIGC新质生产力的现实困境与实践进路
2024-11-07段志峰
【摘 要】在当今数字化快速发展的时代,AIGC(人工智能生成内容)正逐渐成为媒体工作的强大助力,它高效的运算能力和创新的生成模式,对于讲求时效性的新闻媒体行业来说,意味着可以更快地响应受众需求,缩短项目周期。以定制化AI(人工智能)绘图为例,借助AIGC,只需输入一些描述性的关键词或特定的风格指令,就能在短时间内生成精美的图像,但在特殊情境下的定制化场景应用方面,受限于AI深度学习模型数据的数量和质量,以及算法的局限性,仅依赖AI是无法有效取得满意效果的,仍需创作者人工参与,利用各种成熟的工具辅助,方可进行精确图像的生成和输出。
【关键词】人机协同;AIGC;新质生产力;定制化;AI绘图
2024年1月,习近平总书记在主持中共中央政治局第十一次集体学习时强调:“新质生产力是创新起主导作用,摆脱传统经济增长方式、生产力发展路径,具有高科技、高效能、高质量特征,符合新发展理念的先进生产力质态。它由技术革命性突破、生产要素创新性配置、产业深度转型升级而催生,以劳动者、劳动资料、劳动对象及其优化组合的跃升为基本内涵,以全要素生产率大幅提升为核心标志,特点是创新,关键在质优,本质是先进生产力。科技创新能够催生新产业、新模式、新动能YKpx17KxndLePvv018LX3NUbsyiM2eAUk+vLOieTQXI=,是发展新质生产力的核心要素。”[1]媒体如何应用AI(人工智能)新技术,实现提质增效的产能跃迁,成为业界、学界研究的热门课题。本文以定制化AI绘图为例,分析其现实存在的问题及实践进路。
一、AIGC定制化内容生成的内在机理及现状
自2023年开始大热的AIGC(Artificial Intelligence Generated Content,人工智能生成内容),是新质生产力的典型代表,其在艺术设计领域里,最广泛的应用就是AI绘图,即利用人工智能技术进行绘画创作的过程,主要包括利用计算机视觉和图像处理技术进行图像生成和修改,以及利用机器学习和深度学习技术进行图像识别和风格转换等操作。这种技术广泛应用于数字艺术、电影特效、游戏设计等多个领域。如今,AI绘图已经进入“text-to-image”(文字生成图像)与“image-to-image”(图像生成图像)相融合阶段,用户可以通过文本描述和提供参考图像以生成目标图像的风格和内容。但是,对于更精细的定制化内容,AI绘图仍缺乏控制力,例如,朱槿花、紫荆花、三角梅等花卉,沃柑、杨梅、杨桃等水果,壮锦、铜鼓、天琴等民族元素……目前很多大模型都未曾收录,自然也就无从输出相应图像。
二、定制化内容生成的现实困境
模型和算法是AIGC的两大核心要素,模型训练数据的范围、数量、质量决定了AIGC能够生成的内容类型和质量水平,不同的模型结构和参数设置会产生截然不同的生成效果。而算法则是驱动模型进行学习和生成的关键,高效的算法能够加快模型的训练速度,帮助模型更快地接收到最优解,从而提高生成内容的质量。
然而,目前对于AIGC这个新生ePsNhivLxTjFCJ9YIQLnd50pWtjrDQEXKSEGtpOtMIk=科技而言,这两大核心的发展都还不成熟。一方面,就模型而言,虽然已经有了众多不同类型的模型架构被开发出来,然而在实际应用中仍存在诸多局限性。例如,在生成复杂场景或特定风格的图像时效果不尽如人意。其泛化能力也有待进一步提高,当面对新的、陌生的数据或任务时,模型的表现往往不够稳定。另一方面,算法在AIGC中的发展同样面临着挑战,算法的优化空间仍然很大。例如,在生成图像时可能会出现逻辑混乱、颠覆认知的问题,从而在一些重要领域(比如政务、医疗、教育等)的应用中存在一定的风险。
(一)文本描述困境
1.抽象概念的表达有偏差
对于一些抽象的概念,如 “幸福”“悲伤”“希望” 等,很难用具体的文本描述准确传达给AI。这些抽象概念往往具有主观性和多义性,不同的人可能有不同的理解和感受。例如,当试图用文本描述“幸福的场景”时,可能会出现多种不同的想象,如一家人团聚、情侣在海边漫步、孩子在游乐场欢笑等。很难找到一种通用的文本描述能够涵盖所有对幸福的理解,从而导致AI生成的图像可能与预期有较大偏差。
2.复杂场景的构建难度增加
在描述复杂场景时,需要详细地说明各个元素的位置、关系、特征等,这对文本描述能力提出了很高的要求。例如,描述一个古代战场的场景时,需要涉及士兵的服装、武器、战斗姿势,战场的地形、环境、气氛等多个方面。如果文本描述不够准确和全面,AI可能无法生成符合预期的复杂场景图像。而且,随着场景的复杂度增加,文本描述的难度也可能呈指数级增长,容易出现遗漏关键信息或描述不清的情况。
3.创意和想象力的局限较大
人类的创意和想象力是无限的,但用文本描述创意和想象力却受到很大的局限。有时候,人的脑海中可能有一个非常独特的图像构想,但很难用语言将其完整地表达出来。例如,颜色可以用“五彩斑斓”来形容,但却难以准确传达出各种具体色彩的微妙差异和它们之间的和谐搭配,一些形状特异、超出常规认知的物体,常常令人找不到合适的词句来精准地描述其轮廓和细节,从而导致生成的图像可能无法完全体现出原本的创意构想。
4.语言互译容易产生模糊性和歧义性
AI绘图模型的底层语言是英文,且自然语言本身具有模糊性和歧义性,经过一次翻译成中文后,由于语言习惯及语义的差异,导致AI对一些特定词语无法正确识别,这也给图像生成带来了困难。例如,在描述“青花瓷花瓶上的龙凤图案”时,“龙凤”在中文中有特定的文化内涵和象征意义,但翻译成英文“dragon and phoenix”后,AI可能无法完全理解其背后的深厚文化意蕴,导致生成的图像中龙凤的形态和神韵相差甚远。此外,一些中文的特定修辞手法和意象表达,在翻译后也容易失去原本的韵味和准确性,进一步增加了AI正确识别和生成图像的难度。
(二)定制化对AIGC提出了更高要求
1.理解要求更精准
定制化意味着用户可能会提供复杂的、多维度的指令,例如,特定的主题、风格、物品、人物、色彩偏好、情感倾向等,AIGC必须准确解析这些指令,区分主次需求,避免误解或片面理解。这需要更先进的自然语言处理和图像理解技术,能够深入挖掘用户需求背后的真正意图,以便生成高度符合用户期望的内容。例如,南宁日报社制作的“伟人如炬——纪念邓小平诞辰120周年”互动专题,其中需提供一幅当年百色起义指挥部场景的画面,画面中还要出现好几样那个年代的物品,而且都被要求放置在指定的位置,如果只用提示词向AI发出指令,无法生成令人满意的图像,因为大模型根本没有收录这些物品,必须经过人工后期合成,才能输出合乎要求的画面。
2.内容输出个性化
定制化要求AIGC能够提供个性化的输出结果。不同用户对于同一主题的定制需求可能千差万别,AIGC需要根据用户的独特背景、偏好和目标受众来调整生成的内容。这就需要AIGC具备强大的学习和适应能力,能够针对不同用户进行个性化调整,以满足用户对内容独特性的追求。很多大模型关注点都落在了动漫、3D、宠物、人像摄影、国潮、机械科幻等这些关注度比较高的领域,而对于中国本土化的、更垂类细分的、传统的领域却少有触及,皆因AI技术萌芽于西方,对东方元素天然缺失,也有后天利益驱动使然。
3.对质量标准要求更高
由于定制化内容通常是为了满足特定的需求,用户对其质量要求往往更高。AIGC生成的内容不仅要在创意性、准确性等方面达到较高水平,还需要在细节处理、专业性和审美价值等方面满足用户的特定要求。如人体手部动态图像生成依然困扰着许多AI创作者,特别是在大场景中出现多个人物的情况下,这种问题愈发明显,即便挂载插件,仍无法正确生成。
可见,AIGC在走向成熟和泛用的道路上还要克服诸多不足和瓶颈。使AIGC这项新技术转化为有效生产力,成了各媒体生产部门的难点,如何在人工参与下,使其释放效能,令AI绘图更具适用性与实用性,是本文所探讨的核心内容。
三、定制化内容生成的实践进路:释放新质生产力效能
(一)突破素材限制,为画面带来更丰富的风格效果
在此以一幅定制化海报设计方案为例,方案要求:画面中需出现少数民族人物形象,不少于3个,男女均有,还应出现民族美食、民族乐器、南宁元素,整体呈现热烈欢快的节庆氛围,画面采用竖构图,尺寸大小1080x1920PX,像素精度72dpi,RGB色彩模式。以往通常一张海报的设计流程是:绘制草图—素材收集—构图设计—文字排版—成品。根据方案要求,计划让AI技术参与进来,在素材收集和构图设计之间插入一个精细定制的步骤以衔接前后两端,让画面更具美感。AI在此处的作用主要体现在两个方面:一是降本。以往设计用图必须是高清无水印大图,来源基本是网上的高清图库,费用不菲,如今可以凭借AI的强大算力,仅凭普通清晰度,甚至是模糊的图片(如短视频截图),也能生成高清大图,降低了成本。二是增效。平常为素材所限,基本上使用的是实景、真人照片,风格单一,在AI的帮助下,可以实现照片转水彩、国画转油画、手绘转3D……极大提升了美术创作的自由度,为画面带来更丰富的风格效果。
AI绘图工具有很多,但综合投入产出比和专业性、易用性、可靠性比较,Stable Diffusion(SD)凭借其强大的开源生态成为首选,它可以方便地在本地高性能计算机上进行部署,也可以登录Web UI版本,在线使用。SD的模型比较丰富,既有官方的,也有爱好者们分享的,既支持Checkpoint大模型(这是AI绘图的基石,决定模型记录了什么,能画出什么,它更注重通用性和泛化能力,但定制性比较一般),也支持LoRA(Low-Rank Adaptation)低秩适配模型(作用是对Checkpoint模型进行定向调整,主要为风格或特定事物)。本例中分别选取适用范围较广、用户反馈较好的Checkpoint模型AWPainting_v1.4和水彩风格的LoRA(Low-Rank Adaptation)模型EnjiPainting 燕脂v1.0来进行AI图像生成。
(二)人工参与下可解决结构性问题
在上述案例中,通过分析需求,先在草图上勾画大致的结构布局:以一位身穿民族服饰正在放声高歌的年轻女歌者为主要人物,在她的身后是抱着壮族天琴弹奏的演奏者、手捧五色糯米饭的厨娘、举着木槌舂米的壮年男子、拍击铜鼓欢快舞动的小伙,背景是高山草甸和远山,前景是代表南宁的朱槿花。如果把这些提示词输入AI生成,极大概率会失败:一是AI模型对特定民族的服饰、器物、食物没有收录,无法识别提示词;二是构图中人物众多,以当前AI算力无法正确生成人物脸部和手部,所以必须进行拆分,分别生成单个人物,再进入Photoshop中重组画面。以主体人物为例,在这个环节引入了一个相对于SD来说堪称革命性的插件:ControlNet(控制网络),这是一种“辅助式”的神经网络模型结构,通过在SD模型中添加辅助模块,在生成过程中引入外部控制信号来改进生成质量,它让AI绘图的生成过程更加可控,更有助于广泛地将AI绘图应用到各行各业中。ControlNet已拥有18种Control Type(控制类型),从中选取两种来进行精确控制:一是起主要作用的Tile/Blur(分块/模糊)类型。该模块能够优化模糊、细节较差的图片,其增加图像分辨率的算法不是简单地进行插值,而是全新生成大量的细节特征,特别是对图片进行超分辨率重构(super resolution)的同时,补充生成精细内容。二是Lineart(线稿)类型。该模块能够检测出原始图像中各对象的边缘轮廓特征,提取生成线稿图,作为SD模型生成时的参考要素。
实施步骤分为两步。首先,对目标画面进行文字描述,使用一些提示词,如一个女孩,可爱,甜美的微笑,银胸环:权重1.2,银锁:权重1.2,银铃:权重1.2,燕脂,水彩画,杰作:权重1.2,质量上乘,高画质,完美照明,8k壁纸,插画,绘画,画笔。权重概念的引入,可以使生成图像更具目的性,特征更明显。其次,导入参考图,这是最重要的一步,即ControlNet得以实现各种控制类型的必备条件,要求比较平易近人,可以是网上的免费图片,也可以是短视频截图,甚至是随意几笔涂鸦……为了提高图像生成效率,从短视频中截取了一张壮族歌者展臂高歌的图片,并使用Photoshop把歌者从图片中提取出来(为的是不让截图中的其他影像文字干扰AI图像生成),分别传入ControlNet中如前文所述的两种控制类型的图像参考功能框中。该参考图的存在,规范了AI生(下转第37页)(上接第30页)成图片的衣着特征、服装色彩、人物体态、动作表情……相当于照着参考图重画了一遍,调整相应参数后,在大模型和Lora的共同作用下,又呈现出图像更清晰、细节更丰富、风格水彩化的另一种样貌。唯一美中不足的是,人物手部生成出现了结构性错误,解决方案有很多种,最直接有效的就是拍一张正确的手部姿态,导入Photoshop中处理,替换歌者的手部,再放入SD中重新生成,AI会自动消弭手掌与手臂联结的差异感,如原生一样,看不出丝毫破绽。这样,一张完美动态的人像就“出炉”了。
此外,在AI绘图中,还会遇到另一个比较典型的问题,即模型库中未收录目标事物,即使提示词进行了详细描述,AI仍无法正确生成目标图像的情况。如在生成同为本案例海报中的另一个人物——手捧五色糯米饭的厨娘时,便遇到了这个问题。由于模型库中尚未收录五色糯米饭这种食物,导致生成图像只出现了白色、黄色米饭,其余红、紫、黑色糯米饭分别被替换成了小番茄、紫色花布、葵瓜子,差别巨大。如何解决?此时必须发挥人的主观能动性,回到Photoshop中,利用生成正确的白、黄米饭AI图像,运用区域抠像、镜像翻转、重新着色等各种PS技巧,就能合成“以假乱真”的目标图像。以上文所述这两种解题思路为引导,对本案例所需素材逐一生成,最后确定构图和文字排版,这幅定制化海报得以顺利完成制作。
四、结语
综上,当前要真正充分地释放AIGC新质生产力的效能,人工参与不可或缺。人类的专业知识和经验能为AIGC提供精准的指导和方向,帮助确定合适的主题、风格和目标受众,使AI生成的内容更加符合实际需求。人工与AIGC的高效运算和大规模数据处理能力相结合,能够产生出更为强大的协同效应;人机协同机制可以对AI生成的内容进行审核和优化,优化和提升AIGC,并融入人类的情感、价值观和文化内涵,使内容更加丰富、生动和有深度,还可以促进AIGC技术不断进步和创新,拓展其应用领域和功能,进一步提升AIGC的新质生产力效能,进而挖掘出AIGC的巨大潜力,为各个领域的发展带来新的机遇和突破。潮
参考文献
[1]习近平在中共中央政治局第十一次集体学习时强调 加快发展新质生产力 扎实推进高质量发展[N].人民日报,2024-02-02(1).