智能人物抠像技术在虚拟演播室中的应用

2023-12-13吴国芳

电视技术 2023年10期

金炯，吴国芳

（绍兴职业技术学院，浙江绍兴 312000）

0 引言

随着现代影视技术的高质量发展，人们对各类影视作品的特效要求越来越高，对一些高互动性的电视娱乐项目需求不断增加。对此，本文以虚拟演播室技术的应用为例，介绍智能人物抠像技术，明确人物抠像方法的适应性与适用场景，提高抠像技术在现阶段虚拟演播室领域的实际应用质量。

1 抠像技术分析

在视频分辨率不断提高的今天，人们对图像的沉浸性效果要求越来越高。同时，抠像技术的发展也在不断强调图像与场景的深度融合。通常情况下，影视作品的抠图工作以绿幕作为背景，利用色键抠像原理进行后期处理。一般情况下，在拍摄视频过程中，为方便后期修剪，前景色彩不会使用与背景相近的颜色，这样在后期抠图中便可以分辨出哪部分是前景哪部分是背景。尽管这个办法大大降低了拍摄难度，但也有很多困难和限制。一方面，在光线的作用下，背景的色彩会被反射到前景上，因此前景上不能完全认为不存在任何一种背景色彩，这就是所谓的“溢色”现象，是后期抠图处理中的技术难点之一。另一方面，色彩的抓取和抠图还得有专用的摄影棚，制作成本相对比较昂贵。因为该技术的发展已经相对比较成熟，并且具有较高的处理效率，所以现阶段该技术在影视拍摄等场合得到了大量的应用。现如今，随着云计算与人工智能（Artificial Intelligence，AI）技术的飞速发展，现阶段虚拟演播室的抠像技术得到革命性的突破，使得系统能够自动选择前景，并且可以有效地对人物的头发和边缘进行处理，在不显露出任何处理痕迹的情况下，还原各个细节[1]。

2 自然场景抠像方法

色键抓取抠图的对象要求在特定的环境下拍摄，因此属于非自然条件情况下拍摄，但是自然场景抠像则是在不做任何特别布景时对拍摄到的照片、影像进行的抠像操作，具有不受空间和时间约束的优势，适用于事先拍好的照片或影像处理工作。目前，常见的方法有基于三分图的人物抠象方法，单张图像抠图以及背景输入的人物抠象。

2.1 三分图的人物抠像

从影视后期抠图工作角度来看，色键抠像方法属于一种对人物抠图的简化方法，与借助三分图方法进行人物抠像处理原理相似，区别在于这里引入的约束并没有实现背景与前景在图像空间上的细致分割处理，实例如图1 所示。

图1 基于三分图的抠像示意图

由图1 能够看出，该方法通过人为画出的方式确定大致前景区域（即图中白色区域）以及背景区域（即黑色区域），还有图中一些不确定前景与背景的区域。借助人工智能技术可预测出不确定是前景图像还是背景图像便可以实现图像抠图。现阶段应用到抠图领域的神经网络算法与传统方法都可以实现上述目的。尽管基于三分图的抠图方法对算法的要求不高，但是却极大增加工作量。若在后期处理过程中想把一个视频里的所有人体及其特征都抠出来，不但会花费大量时间，而且实际抠图的效果无法确定，即抠图后的质量会受到后期人员对三分图划分的精细度影响。对此，为简化这个该方法，近几年相关研究者进行过很多改进，比如只让用户简单参与以此方式确认背景或前景[2]。

2.2 单张图像抠图

为避免影响，有研究提出采用一幅图像的方式，将透明遮挡信息从一幅图像中直接输出出来。首先，该算法模型利用语义划分的方式，对目标进行轮廓或大概的定位。该部分操作与之前的三分图相似，只是由手工绘制变为由网络自动生成，之后对目标具体细节部位进行预测，最终实现目标的精确定位与抠图操作。

2.3 背景图像的抠像方法

背景图像输入的抠像方法是一种图像处理技术，旨在从包含人物和背景的图像中将人物对象精确地提取出来，以便将其放置在不同的背景中或进行其他后续处理。这种方法通常涉及计算机视觉和图像分割技术。

首先，需要做好数据准备工作，收集具有明显人物和背景的图像数据集，包括具有不同背景和姿势的图像，对这些图像进行标记以标示人物的位置，可以使用边界框或像素级别的标记。对图像进行预处理和特征提取，包括去噪、亮度和对比度调整等操作，以确保输入图像的质量，使用计算机视觉技术来识别人物与背景之间的差异，包括颜色、纹理、形状及边缘等特征。

其次，借助分割算法进行分割操作。常用的分割算法有三种。基于阈值的分割，通过设置像素值的阈值来将图像分成前景和背景；基于边缘的分割，检测图像中的边缘，基于边缘将图像分割成区域；基于深度学习的方法，使用卷积神经网络（Convolutional Neural Networks，CNN）或语义分割网络来实现像素级别的分割。

最后，进行图像的后期处理，即对分割结果进行后处理，以去除可能的噪音或错误，包括填充孔洞、去除小对象或执行形态学操作。

使用该技术需要注意的是，基于背景图像输入的人物抠像是一个复杂的任务，成功的结果取决于图像质量、分割算法选择以及后续处理步骤的质量。在实际应用中，可能需要使用不同的技术和工具来适应不同类型的图像和场景。深度学习方法在这个领域取得了很大的进展，特别是语义分割网络，可以更准确地识别和分割人物对象[3]。

2.4 深度图像的抠像

基于深度图像输入的人物抠像方法是一种图像处理技术，利用深度图像（包含图像中每个像素的深度信息）来进行人物的精确分割。这种方法可以将人物从深度图像中提取出来，并将其放置在不同的背景中，或用于对人物进行其他后续处理。该方法同样需要进行图像数据的预处理，获取包含人物和背景的深度图像数据集，可使用深度相机或其他三维传感器进行采集，对数据集中的深度图像进行标记，以标记人物的区域，常见的标记方式有像素级别的标注或边界框标注。首先，对深度图像进行预处理，如去噪、平滑或调整图像的对比度和亮度等操作，以提升分割的效果。其次，从深度图像中提取特征，可以使用形状、深度值及表面法线等特征来描述人物和背景之间的差异；借助深度学习方法来进行图像分割，特别是语义分割网络，可以将每个像素分类为属于人物或背景的类别，从而实现人物的精确分割。最后，将分割得到的人物对象与新的背景合成，或进行其他后续处理，如颜色校正、光照调整或添加特效等[4]。基于深度图像输入的人物抠像方法相比于仅使用RGB 图像的方法可以提供更准确的分割结果，因为深度图像提供了场景中物体的更多信息。然而，这种方法对深度图像的准确性和质量要求较高，因此在应用此方法时，需要确保深度图像的质量和准确性，并选择适当的深度学习架构和算法来处理分割任务。

3 基于自然场景的抠像方法

3.1 基于自然场景的抠像方法

本节探究自然环境场景下的图像抠图方法。自然场景环境下，图像人物抠像方法的优缺点对比如表1 所示。

表1 自然场景下图像人物抠像方法对比

由表1 的对比可知，不同抠图方法均有各自的优缺点，且都依赖拍摄原图的质量与数据集，若拍摄图像或视频质量不高则会直接影响抠图效果。另外，抠图依赖数据集的完整性，若数据集中缺少某项数据或插件则不能达到良好的抠图效果。比如，基于单张照片输入的抠图方法虽然具有通用性，并且适用于各种拍摄场景，但是存在明显的缺陷，即对数据集有强烈的依赖性，若没有数据集可能无法获得良好的结果。基于三分图片的算法要求使用三分图片当作初始输入数据，因此该方法更适用于一些专业领域的编辑软件。而基于背景影像以及深度影像的抠图技术则更适合直播、在线会议等领域，因为在上述环境中，摄像机是固定的，被拍摄者一般不会触碰摄像机，拍摄背景不会改变，所以在这种情况下使用深度影像的影像处理方法实际处理结果将高于背景影像处理方法，但代价较高。在直播中，背景通常是经过设计的，主播需要展示自己的商品，因此将角色挖出并替换可能不符合主播的要求。然而，对于没有实际角色或商品的虚拟直播来说，其具有更大的潜力[5]。

3.2 线上应用

本节以阿里云视频云技术为例，介绍抠像技术的线上应用。阿里云以AI 抠像技术为基础，发布了一款云互动虚拟工作室，可以为用户提供云上的场景抠像和虚拟场景制作。虚拟工作室采用“实时互动+导播”的方式，用户只需要一款手机软件就可以进行直播，满足了用户的操作要求，为用户创造一种沉浸式的、可以达到广电级效果的直播体验。云计算交互虚拟演播室采用实景预设背景抠像以及抠像合成处理等众多智能技术，可以实现多个实时实景的即时抠像以及虚拟背景生成，从而有效地解决主持人和嘉宾不在同一个空间不能进行专业演播的问题。因此，可以将处于不同地点的人合成到任何一个录播室中，这样即使相隔较远，也可以利用虚拟演播技术，感受到在同一个空间中的沉浸感。