基于实体联想的表演创意画面合成

2022-07-26代洪霞张龙飞丁刚毅

中国传媒大学学报(自然科学版) 2022年3期

代洪霞,张龙飞*,丁刚毅

（1.北京理工大学计算机科学与技术学院，北京 100081；2.北京理工大学数字表演与仿真国家重点实验室，北京 100081）

1 引言

表演的最早起源被看作与宗教仪式相关联，是人们在标记生活重大事件进行情感寄托的仪式活动，是人们对生活的表达、歌颂和升华。表演活动是社会生活中不可或缺的一部分[1]。近年文艺演出在我国得到蓬勃有力的发展，演出的形式更加丰富，演出的规模也日益盛大，其中以国际奥林匹克运动赛事开闭幕式的文艺演出为首（如图1所示），不仅振奋精神、凝聚人心，文化也借其得以传承和提炼。随着表演规模增大，表演元素和表演设计的复杂度也不断提升，技术力量越来越参与到表演中，一方面表现为数字媒体技术在传统表演艺术手段之上对表演形式进行创新,比如虚拟现实和机器人表演工作[2]等，一方面则表现为算法计算对表演创作的赋能驱动，比如表演建模与仿真，智能创意等[3]，通过算法进行或者辅助创意成为可能。

图1 北京夏季奥运会开幕式、平昌八分钟、北京冬奥会开闭幕式文艺演出

创造力是人类智能的重要特征之一[4],创造力的表现更是表演一类艺术创作活动能否取得成功的关键，创意围绕表演要素贯穿于表演创意的始终，包括主题设计、舞美布景、表演者行为动作[5]。表演创意可以分为主题创意、形式创意、视觉创意，对于不同的创意方向，算法所参与的形式也各不相同，本文主要讨论算法在表演创意中视觉创意的应用。虽然表演活动是基于三维空间的立体事物的变化和表现，但对于作为观众的欣赏者而言依然为投射在视觉成像平面的二维画面，导演在创意设计时也会以主观众台视角为基准进行布局考量和舞台设计，因此在研究面向表演的视觉创意时同样以二维画面为基准进行设计。算法对创意的干预最初表现在计算和认知两个角度，Gero[6]提出应用模型和算法辅助设计人员进行更好的创意，Boden[7]则聚焦研究创造力仪式的工作机制，通过模拟人类智能来赋予机器创造力，Tang[8]则对设计智能重新进行定义：解决设计和创意过程中的问题并生成创意解决方案的人工智能技术。

算法对视觉创意的支持和改进可以从设计过程的四个阶段进行分析：需求分析、激发创意、原型设计和评价分析[9]。本文所关注和所要解决的问题正是利用算法进行创意的有效激发。创意激发是通过增大有效信息的数量，扩大创意搜索空间，从而降低设计起点，更好地触发设计想法或概念[10]。创意激发所面临的问题包括设计原理固化、设计功能固化、对象类比关系盲区等[11],而为设计师提供更加丰富和有力的设计刺激是解决设计思维固化的关键。智能技术参与的方向可以分为设计线索的检索[12]和生成[13]。前者主要是利用不同的检索方法从而依据不同的标准对已有的设计素材进行分类、筛选、组合和类比，更有针对性地为设计创意人员提供素材。后者则是利用生成技术，在已有知识的基础上，生成全新的不同的设计刺激。本文的工作正是将这两者的方法结合起来，有针对性地对现有材料进行分类整合，并利用其生成全新的设计刺激，以更好地辅助设计人员进行创意构想。

本文聚焦于使用算法激发创意，提出基于实体联想的表演创意画面生成算法，通过围绕创意主题，合成丰富的具备真实、美观特性的视觉画面启发创意。本文工作包括表演元素知识库的构建和表演创意画面的合成。首先围绕表演创意主题通过实体联想算法，确定相关创意实体，并用语义分割模型提取出前景对象，构建得到具有中国文化特色的表演创意对象素材库，再从素材库里选取恰当的前景对象和背景，编写算法进行基于美学原则的合理构图，并进行边界的融合，对光照纹理进行和谐处理，得到真实美观的视觉画面。

2 基于实体联想的表演元素知识库

2.1 基于知识图谱的实体联想网络

创意看似来源于天马行空的想象，却绝非一刹那的灵光乍现，实际上其有着规律可循，是一个复杂而曲折的过程。创作人员利用类比、想象、联想等思维方式对已有的信息打破重组再创造，当创意者积累足够的素材后，不成熟、不完整的创意涌现，经过不断地思考和思维运动，混乱的思绪酝酿成一个完整的创意。而在这过程中，联想是建立信息连接、实现创新的重点。

联想是由一个事物触发大脑想到另外一个事物，包接近联想、相似联想、对比联想和关系联想。围绕一个主题进行联想，从而获得更多与其相关的事物，是建立新的联系和意象的关键。联想并不是凭空产生，而是客观事物和现象之间的相互联系在头脑中的反映，受限于人脑对于相关知识的储备，只有储备足够多的素材，才能进行足够深而广的联想。本文方法正是模仿人类大脑思维活动中的关系联想，利用计算机强大的存储和检索能力，从而建立超乎于人脑之上的对海量资料的分析和关系联想能力。

知识图谱在最初阶段是由谷歌提出用来优化搜索引擎的技术，在不断发展中其外延也一度进行扩大，它将互联网中的语义信息表达成更接近于人类认知世界的思维形式，并且建立了一种更高效的组织、管理、储存和利用海量信息的方式[14]。知识图谱是一种基于图的数据结构表达，其基本组成单位为节点和边。在知识图谱里，每个图的节点表示在现实世界中存在的“实体”对象，每条边为相应的实体与实体之间的“关系”，每个实体和关系又同时具有独属于其自身的“属性”，实体、关系和属性共同构成了知识图谱的核心三个要素[15]。知识图谱的信息连接方式与关系联想相似，都是通过关系或者属性将不同概念进行连结。关系联想是指依据事物之间的关系在大脑内进行概念的连结，比如从属关系、因果关系、依存关系等，是最为广泛和有效的联想方式。基于知识图谱技术建立清晰的知识关系网络，从而模仿大脑的关系联想思维，围绕创作主题关键词联想到更多可以用于视觉创作的实体是算法的核心。

本文建立实体筛选算法，因中文层级关系复杂，无法从关系上准确判断是否可以构成画面，因此进行实体的筛选。此处实体并非数据库中概念“实体”，而是指真实世界客观存在具备视觉形象的实体，比如：森林，太阳等。进一步对实体数量进行限制，若仅提取出一个实体，则认为无法通过画面合成得到丰富的视觉画面，故而舍弃该分支。

在确定得到相应的实体后，进一步形成层级清晰的语义网络。与传统呈中心发散的网状结构不同，考虑到应用存在一个强有力的中心本体延展，不存在三者及以上的互联关系，即假设每一个节点有且只有一个父节点（为了确保同一个物体不会在不同的图片里出现，以避免创意的重复性），因此自顶向下构建树形网络，以主题关键词为头节点向下进行概念的延展和实体的拓展。网络中存在两种基本三元组“实体-关系-实体”和“实体-属性-属性值”，其中后者出现在最后的叶子节点及其父节点的关系上，主题关键词下的每一个分支对应一张图片，每个分支下的最后一个实体即为图片中的对象素材，包括前景和背景。整个过程的算法操作流程如图2所示。

图2 实体联想算法框图

2.2 基于语义分割的表演元素知识库构建

对视觉形象进行假设是创意设计验证的重要一步。创意不能止步于文本描述，尤其对于表演创意而言，更需要进行完整的视觉验证。在本文工作中，在确定了画面所包含的实体对象后，需要进一步确定具体的视觉形象。在传统创意中，视觉形象多取决于设计人员的素材准备，本文希望借助网络数据的海量性和快速检索的高效性，拓宽视觉素材的丰富性。因为得到视觉完整画面的关键在于利用图像合成技术将位于不同图片的前景和背景合成到一张图像里，因此将对象从原图中清晰完整地分离出来是关键的一步，本文利用语义分割技术进行分离，为得到充足的数据训练相应的语义模型，需要预先采用一个在线学习的增量模型构建数据集。整个网络结构如图3所示。

图3 表演元素知识库构建算法整体结构

语义分割是计算机视觉领域的重要研究问题，指按照语义类别将图像中各像素进行分类。传统方法包括基于统计和基于几何的方法，随着深度学习的发展，基于卷积神经网络的语义分割方法可以自动学习图像特征，进行端到端的分类学习，大幅度提升语义分割的精确度。采用神经网络方法，需要大量高质量的数据训练网络，学习各类语义类别。目前语义分割工作会按照不同的目标选取不同的训练数据集，在语义分割领域研究重点更放在了提高模型的精准度上，在语义类别上局限于目前已有的数据集所包含的类型，比如MS COCO[16]数据集包含80个类别，包含了人们大部分生活中常见的物体，但是与本文的应用领域稍有偏差，因此需要另外构建包含中国特色传统文化元素的数据集。

本文采用郭提出的LNSNet[17]算法结构，其是一种在线的持续学习方法，既较好地使用深度学习进行了有效地特征提取，也兼顾了传统超像素分割方法灵活高效和迁移性强的特点。该模型可以很好地支持无监督在线训练模式，采用了轻量级的特征提取模块，通过自动选取种子节点，避免了聚类中心的迭代更新，降低了超像素分割的空间复杂度和时间复杂度。在该网络结构中，首先将输入的图像颜色信息RGB/LAB及空间信息转化为5维的张量X，使用三个空洞率不同的空洞卷积进行多尺度的特征提取，并采用两个卷积模块进行多尺度特征融合，进而得到用以进行聚类的输出特征图Z：

其中*为卷积算子，X为输入的特征，Xm为多尺度特征，Hd则为带有扩张范围d的卷积，σ为由ReLU实现的非线性函数。

在使用超像素方法进行分割前的预处理，对收集的数据集进行处理后，需要训练一个语义分割模型以实现能够对不同语义类别的对象进行自动分割，这样就可以向知识库中不断更新新的视觉素材。本文采用编码器-解码器网络[19]，对于编码器网络，使用空洞卷积来提取对于某一预先设定分辨率下的深度卷积神经网络输出的特征，使用空洞卷积可通过控制膨胀系数灵活地调整卷积的感受野进而捕获多尺度信息，假设输入x，i为对应输入输出上的位置，卷积核为w，则输出y可以表示为：

对于解码器模块，首先对编码器的特征进行双线性插值采样，将其与来自网络主干的具有相同空间分辨率的低级特征连接，再应用卷积来细化特征，进行简单的双线性上采样，整体网络如图4所示。

图4 语义分割算法结构

使用该网络模型，编码器可以充分获取上下文的丰富信息，解码器则可以简单有效地恢复对象边界，并且对分辨率的设置保有一定的灵活度，相比其他语义分割方法具备较明显的性能优势。

3 基于图像合成的创意画面可视化

3.1 前景物体放置

在确定了一个创意画面所包含的实体对象以及相应的视觉形象后，需要通过前景对象和背景物体合成到一张画面中，形成整体的视觉效果，从而进行更好的创意可视化和创意验证。在进行图像合成时，前景物体在背景中的放置是非常核心的环节，决定了合成后的结果是否真实。在进行位置设计时，主要从两个方面进行考量，一是基于现实的合理性，二是基于美学构图的美观性。而在布局构图时所遵循的某一特定规则被称之为构图法则。常见的构图法则包括：三分构图法、对角线构图法、上下对称构图法、左右对称构图法、黄金三角型构图、线性透视构图、黄金比构图法、平衡构图法、S形构图法、三角形构图法等等，如图5所示。

图5 图中构图分别为三分构图法、中心构图法、水平线构图法、垂直构图法、对称构图法、对角线构图法、引导线构图法、框架构图法、重复构图法

在舞台构图中，通常不会采用较复杂的构图法则，尤其是大型文艺演出中，多采用保守的构图方式。本文工作为文艺演出的创作人员提供创意启发，因此需要遵循舞台构图的原则，通过对大量文艺演出的观察总结，为尽量覆盖更多的可能性，本文遵循和谐均衡的构图原则，采用中心构图法和三分法进行实验。三分法是非常经典传统的构图原则，通过将画面在横向和纵向上进行三等分得到一个井字格，在图像主体区域形成四个交点和四条边线，已有的研究证明，人们对于每幅图像的视觉焦点并不是在图像中心，而是在这四个交点上，类似黄金分割的位置，因此三分构图法的原则就是尽量将图像主体放在四个交点及“口”上，符合人类的通常视觉习惯，如图7所示。中心构图法原则是最简单基础的构图法则，即将主体置于画面的中央，这种适用于演出规模较大的宏大场面，对象主体占据舞台的较大空间，留白较少，无论镜头是切近景还是远景，对象主体几乎都占据在画面中央。

图6 根据三分构图法、中心构图法确定物体可能的最佳位置

图7 原图像梯度泊松融合结果

在不确定前景和背景的相对语义信息时，需要充分利用前景对象在原图中的先验信息，具体包括：在原图中像素所占的比例、高比宽比例、中心在原图中的位置。通过先验信息提取出原图的构图特征能够更好地确定前景对象在背景中的位置和大小，从而让图像看上去更真实。在确定对象的位置后，对象的大小由对象在原图中的大小和在背景中的位置所决定，即在背景中的深度决定了呈现在投影平面的大小。如果采用中心构图，则设置其在画面比例不变的情况下，最大边长为背景边长的三分之二，以更好地呈现在画面中心。如果确定采用三分构图法，则限定高为背景高的三分之一，若在三分构图的点上，则让画面的中心和点重合，限定宽长为背景宽长的三分之一。

因为在利用语义分割时无法完全地将前景物体分离，在将前景物体合成到背景时，如果按照掩膜直接进行图像与运算，则在合成的边界处会出现一定的截断，影响图像的真实性，因此在进行图像融合时，本文采用泊松融合[20]，对边界进行处理，从而让合成更加真实自然。

泊松方程是在数学中经常用于静电学、理论物理及机械工程的一个偏微分方程，是由法国数学家、物理学家及几何学家泊松得到并命名。有界区域上的标量函数由边界上的值和内部的拉普拉斯算子唯一定义，因此泊松方程有唯一解，这就得到了一个合理的算法，给定在某一定义域上构造未知函数拉普拉斯算子的方法，以及它的边界条件，泊松方程可以通过数值求解来实现对定义域的无缝填充。本文利用具有狄利克雷边界条件的泊松偏微分方程，通过指定在感兴趣的特定区域上的拉普拉斯算子，以及定义边界上未知函数的值。利用引导向量场进行图像的插值:S为R2的闭子集，表示图像的定义域部分，Ω为S的闭子集，其边界为∂Ω；f*为定义在Ω域边界及外部上（S-Ω+∂Ω）已知的标量函数，f则为定义在Ω域域内部（Ω-∂Ω）上的未知的标量函数，v则为定义在Ω域上的矢量场,为了让融合后的图像边界没有明显的截断性和不同，需要让Ω域内的梯度值∇f尽可能趋于最小值，定义最小化问题为：

该方程的解是唯一的，等同于带有狄利克雷边界条件的泊松方程的解，在区域Ω上可以表示为：

因为前景和背景是在不同的拍摄条件（比如时刻、季节、天气等因素）拍摄得到的，因此在图像特征比如亮度和色温等方面会存在较大的差异性，从而存在看起来不匹配和不和谐问题，图像和谐化的工作希望通过对前景或背景进行相应的调整，使整张合成图片看起来真实统一。传统图像处理任务中，常用直方图均衡、图像滤波去噪等算法进行单张视觉质量的增强，大多数方法主要将图像作为整体统一进行处理。

基于深度学习的方法在表现上具有超出传统方法的优势，比如特征可学习方法、端到端的训练与测试等。在比较典型的深度学习方法中，模型的性能和训练结果越来越好，具备共同的特点是并没有显式地建立前景与背景之间的关联或者只是单纯以背景为目标，通过对前景对象进行处理以适应背景的视觉特征，对于目标背景图而言，这些背景图像中的色彩、光照等特征都各不相同，需要以特定的不同的个性化方式对图像特征进行调整，因此本文尝试利用图像风格迁移方法，对图像进行操作。

本文采用区域自适应的实例归一化模块，该工作是在AdaIN[17]的方法上实现区域感知。模块的输入为背景图像和前景图像，设背景图像为Ib，前景图像为If，对于前景图像目标的掩码为M,则组合图像可以记为：

上式表示为将部分图片M◦If贴到另外一张背景图像Ib上，其中◦为哈达玛乘积。设Fi为第i层特征在缩放后的前景掩码图，先分别乘以前景掩码和背景掩码1-Mi，得到来自前景和背景的特征，然后分别在前景和背景特征上计算各自通道的特征，具体包括均值和标准差：

据此，可以推出经过模块化后的特征表达式为：

图8 两种图像和谐化方法结果对比

4 实验结果与分析

4.1 实验结果分析

本文以2022年北京冬季奥运会开幕式创意主题“立春”为实验主题，进行完整的算法实现，通过实体联想得到七个视觉子主题，在每个子主题下各合成九百张图像，一共得到六千三百张创意画面，过程结果及分析如下。

在中华优秀传统文化百科知识库和通用类百科知识库中以“立春”为关键词进行检索，对选自中国权威辞典及文献总计约八万字的数据资料进行实体识别、关系提取一共得到68对三元组，本文遵循实体联想算法的判断原则，设定展开层级为两级，即不再对三层及以上的数据实体进行再展开，以第一级展开为画面主题，第二级进行视觉实体筛选，最终得到七个视觉分支分别是踏春、咬春、打春牛、春暖花开、鱼陟负冰、咏春与叹春七个视觉主题，一共提取得到四十六个实体，分别是棉衣、梨花、雪、鸟、草、芽、柳枝、栏、泪、新月、美人、春幡、风雨、燕子、西园、酒、东风、梅、青韭、河水、春牛、春鸡、红布、棉絮、黑线、东郊、鼓乐、彩旗、金箔、簪钗、春饼、萝卜、鞭炮、春贴、小锣、竹板等，对于一个视觉主题下可能同时包含多个实体，本文将画面的实体限制在三个以内，以随机组合的方式进行，选取语义网络的部分如图9所示。

图9 以“立春”为关键词进行实体联想得到的语义网络

确定画面所包含的实体后，需要进行相应的素材搜索为后面的创意画面合成建立知识库，素材库包含前景对象和背景。虽然在真实演出场景中，受舞台演出场地限制，对于参演的对象不会提供丰富的背景，比如在2012年索契冬奥会上鲸鱼造型便做了抽象化处理，并未给出其背景，但是在创意可视化时，创意实体无法脱离环境而单独存在，需要将其放在一定的环境背景中，以保证创意的完整性。因此对于确定的实体对象，需要进行判断，比如郊外、冰川这类实体可以被判定为背景，则不需要进行对象提取即语义分割。同时，进行语义分割的目的是希望可以训练得到某一类对象的语义模型，能够持续对素材进行更新，因此对象应该在视觉上具有丰富的表现性，比如涉及的萝卜、春卷一类视觉形象较固定的实体，很难在视觉上得到更丰富的表现，因此并不需要得到其语义模型，只需要确定一定数量的储备素材即可。

数据的来源包括各大数据集以及专业图片网站，在实验中本文一共为九类实体包括人、鱼、燕子、黄鹂、桃花、梅花、新月、彩旗、竹建立了相应的语义模型，在收集数据集时尽量选取视觉特征最丰富，差异性较大的图像，其中对于花类对象，比如桃花和梅花，在实验中发现因为对象轮廓较复杂，在分割中很难准确对细节进行分割，经过评估后，本文将其定为背景图像。在数量上，对于每类对象分别选取3000张做为数据集进行训练，最终为每类对象建立一个包含五百张图片的知识库。在知识库数量上，虽然可以得到更多的图像，但是考虑到为创意服务，数量并不是最重要的标准，并且在实验中发现，有部分图像存在一定的相似性，因此遵循最大丰富和美观的原则，选取一百张作为创意素材储备。

图像合成实验可以分为两个阶段，第一阶段物体位置确定，第二阶段图像融合及和谐化，本文首先遵循中心构图和三分构图法确定前景对象位置，如图10所示。

图10 以自建视觉知识库内素材为实验对象得到的位置结果

图像融合及和谐化阶段，主要针对边界融合差异明显及前后背景在光照纹理特征上相差较大的图像，本文仅对得到的最佳位置构图执行该操作，在图像和谐化操作中，虽然该方法以风格迁移为算法核心可以以前景为标准，调整背景以适应前景，也可以以背景为标准，调整前景以适应背景，但是通过实验观察分析，对于前者，如果以前景为标准，调整背景以适应前景，则无法兼具背景原有的图像特征，会因为过于向前景图像特征靠近，而导致背景图像失衡，因此主体实验中，一律以背景为标准，调整前景以适应背景，得到的结果如图11所示。

图11 算法最佳构图和主观构图结果比较，图像融合及和谐化结果

为了更好地进行结果对比，本文从结果中挑选评分较高的结果与应用于2022北京冬奥会开幕式仪式上的“立春”画面进行了对比，如图12，可以看到在美观性上并不输于真实画面，并且在主题上进行了更丰富的拓展。

图12 真实北京冬奥“立春”演出创意画面(第一张)和合成创意画面的结果(后四张)对比

4.2 实验结果评估

本文从三个角度：合理性、美观性、创意性，对结果进行评估。对标准的定义为：合理性：图片符合语义上的合理性，看起来真实可靠；美观性：视觉意象丰富，不同结果之间差异性较大；创意性：与常规图像不同，具备超出常规的巧妙构思。

其中美观性采用NIMA[19]评分框架进行定量评价，使用一种深度CNN[20]，从直接观感（技术角度）与吸引程度（美学角度）对图像的美学质量进行评估，对于每张照片平均从175个不同的标准给出从1到10的分数评级分布，平均分为最后综合得分，除图像本身内容外，色调、对比度、分辨率等也会影响最后总得分，很好地从多角度对一张图片的美学质量进行评估，表1为本文与另外两种方法得到的结果进行的美学打分，可以看到本文算法在美学表现上最优。

表1 美学定量评估分数

图像生成方法多采用IS和FID作为判断真实图像和合成图像的评分框架，但其无法对单张图片的展示效果进行打分，并且本文方法与图像生成方法有本质的不同，因此用数学模型进行真实性打分对图片的真实性并不能够进行有效衡量。同时对创意的评价因人主观而异，没有办法用数据定量对创意程度进行评分，也没有一个对图像创意的评价框架适用于本文的模型。因为本文采用用户调查的方法对真实性和创意性进行评判。对一百名在性别年龄专业分布平均的对象，对三种方法各随机选取50张图片，对于创意性和合理性的评分标准如表2和表3所示，分为三个等级，对于图片的创新性和真实性进行评估，对落于三个等级的数据分布进行分析。

表2 创意性评判标准

表3 合理性评判标准

本文方法在创意性和合理性的用户打分如图13所示，可以看到本文方法在创意性上有超过一半的用户评价给出高等评分，在合理性上表现较弱，样本的大部分评分在中级，说明合理性表现不佳。

图13 创意性和合理性的用户打分

4.3 实验结果对比

将本文算法和语义搜索方法、图像生成算法进行对比，结果对比如图14。在进行定量对比上，我们为三种方法在三个维度上分别计算平均分进行综合分析，如图15。通过对比结果，可以看到，用搜索引擎直接对主题进行检索得到的结果虽然在合理性上评分较高，美学性上表现也较佳，但是创新性较差，结果间相似性较大，维度单一，内容常规，能够进行辅助创意的作用较弱。

图14 本文方法和直接搜索方法、图像生成方法得到的结果比较

图15 本文方法和直接搜索方法、图像生成方法得到的评分比较

对于图像生成算法，在三个维度上表现都欠佳，主要表现在真实性上，结果存在较严重的失真，存在与现实矛盾的情况。在创意性上略优于语义搜索方法，因随机生成带来失真的同时也得到了实现创新的可能性，可以看出图像生成算法更适用于具备清晰准确的文字描述下生成图片，如果只提供实体对象的名字，则该方法无法提供有效的画面生成，因此不适用于表演创意画面生成。

相比其他两种方法，本文方法在创意性上表现突出，通过更换前景和背景，实现了更多场景的组合和实现，从而在丰富性维度上大大提高了创意价值。在美学维度上语义搜索得到的图像不相上下，在真实性上表现略差，还存在一定的图像合成痕迹，在构图上需要进一步的研究。在三个维度上均优于图像生成算法，因此也为传统由文字到图片的转换提供了新的借鉴方法。

4 结论

本文针对智能创意在表演领域中的应用，提出了一种实现表演创意的有序激发和可视化验证的路径算法。首先基于实体联想和语义分割算法构建表演创意元素知识库。围绕创意中心主题词汇，基于知识图谱技术建立实体语义网络，通过实体联想算法，确定相关视觉实体对象，通过语义搜索获得创意主体的视觉素材，提取前景对象构建数据集，训练语义类别分割模型，构建具有中国文化特色的表演创意对象素材库。然后基于图像合成算法进行表演创意画面可视化，选取恰当的前景对象和背景，编写算法进行基于美学原则的合理构图，基于泊松融合进行边界的无缝融合，并对光照纹理进行和谐处理，使画面更真实美观。

实验验证部分本文以北京2022年冬季奥运会开幕式创意主题“立春”为关键词进行实验，对选自中国权威辞典及文献总计约八万字的数据资料进行实体识别、关系提取，建立了一共包含11700张创意素材的知识库，并按照奥运会开幕式的画面设计添加字体等素材形成最终的创意画面。最后从美观性、合理性和创意性三个维度与其他实验方法包括语义搜索方法，图像生成方法，从定量和定性的角度进行对比评估，实验数据证明本文方法在美观性、创意性和合理性上表现优异。