基于轻量级全连接网络的H.266/VVC 分量间预测

2022-03-10霍俊彦王丹妮马彦卓万帅杨付正

通信学报 2022年2期

霍俊彦，王丹妮，马彦卓，万帅，杨付正

（1.西安电子科技大学ISN 国家重点实验室，陕西西安 710071；2.西北工业大学电子信息学院，陕西西安 710072）

0 引言

随着信息互联网迅猛发展和智能移动终端广泛普及，海量视频信息不断涌现。4K/8K 超高清视频、全景视频、短视频等新兴视频业务层出不穷。视频业务的蓬勃发展给传输带宽带来了巨大的挑战。以提高视频压缩效率为目标的视频压缩编码技术一直是学术界和工业界研究的热点。近期，远程办公和在线教育需求激增，在有限的网络带宽条件下提供高质量视频服务尤其迫切。

2020 年8 月，由隶属于ISO/IEC的MPEG 组和隶属于ITU-T的VCEG 组成立的联合视频专家组（JVET,joint video experts team）完成了新一代视频编码标准H.266/通用视频编码（VVC,versatile video coding）[1]的制定。除传统视频外，该标准还可实现超高清视频[2]、360 视频[3]和宽动态视频[4]的高效压缩编码。相比于上一代视频编码标准H.265/高效视频编码（HEVC,high efficiency video coding）[5]，H.266/VVC 在保证相同视频图像质量的前提下，可节省近50%的码率，代表了当前视频编码技术的最高水平。

H.266/VVC 沿用基于块的预测编码、变换编码和熵编码的混合编码框架，其卓越的压缩性能归因于在各个模块引入了大量新的编码技术[6-7]。其中，在块划分上，H.266/VVC 扩大编码树单元（CTU,coding tree unit）尺寸，并允许采用二叉树、三叉树和四叉树对CTU 进行迭代划分得到编码单元（CU,coding unit）[8]，同时，支持亮度色度独立划分CU[6]。对于帧内预测模块，H.266/VVC扩展了角度预测模式，并新增了基于矩阵的帧内预测（MIP,matrix-based intra prediction）技术[9]、帧内子块划分技术[10]及分量间线性模型（CCLM,cross-component linear model）预测技术[11]。对于帧间预测模块，H.266/VVC 引入仿射运动补偿技术[12]、几何划分技术[13]、双向光流补偿技术[1]等新技术。上述技术旨在提高预测块的准确度，降低预测残差。之后在对预测残差进行处理的模块中，H.266/VVC 通过新增多核变换[14]、低频不可分变换[15]和子块变换[14]等技术优化变换模块，同时通过扩展量化参数范围、增添依赖量化技术来优化量化模块。此外，为了进一步改善视频编码质量，在环路滤波模块中，H.266/VVC 引入自适应环路滤波技术[16]。

众所周知，基于神经网络（NN,neural network）的算法在计算机视觉任务上取得了巨大成功，已广泛应用于图像分类[17]、目标检测[18]、图像增强[19]等领域。近年来，NN 逐渐渗透到视频编码领域，成为进一步提高压缩效率的有效手段[20-21]。基于NN的视频编码大致可分为2 个方向。第一类是基于NN 建立全新的视频编码框架，具体分为基于NN的图像编码和基于NN的视频编码。Minnen 等[22]提出的基于自编码器的图像压缩网络是典型的面向图像的编码方案，通过变换网络及熵模型网络进行图像压缩，有效去除空间冗余。基于NN的视频编码方案采用网络实现运动估计和补偿。以深度视频压缩（DVC,deep video compression）模型为例，该模型采用光流估计网络获取帧间运动信息，通过基于自编码器的网络对运动信息和残差信息压缩，达到有效去除时空冗余的目的。第二类是在传统编码框架内利用NN 设计新的编码工具，具体可针对现有框架中的帧内预测、帧间预测、分量间预测、概率分布预测、变换、环路滤波、上/下采样等技术进行改进，取代传统框架中对应的工具或引入新的工具，实现更高的压缩效率。深度学习视频编码（DLVC,deep learning video coding）模型通过在传统编码框架中引入多项深度编码工具提升了传统框架的压缩效率。上述算法可利用现有NN，如多层感知器（MLP,multi layer perceptron）、随机神经网络、卷积神经网络（CNN,convolutional neural network）、递归神经网络（RNN,recurrent neural network）和生成式对抗网络（GAN,generative adversarial network）等，根据视频编码的特性进行网络架构设计，已展现出了在视频编码领域的可期前景。总之，一方面，NN 具有强大的非线性拟合能力，可有效提高视频压缩效率；另一方面，NN 计算复杂度相当高，在与传统编码框架结合时需要在编码性能与复杂度之间进行优化和折中，如H.266/VVC 已采纳的MIP 技术就是源于NN 设计并合理简化后的帧内预测算法，这为在传统视频编码框架下开展基于NN的算法设计提供了可行思路。本文重点针对NN与分量间预测结合的内容展开研究，已有算法的详细介绍见1.2 节。

本文面向H.266/VVC，提出一种基于轻量级NN的分量间预测（NNCCP,neural network based cross-component prediction）算法，通过NN 构造准确度高的色度预测值，从而提高视频压缩效率。通常，在图像的局部区域内，若像素间亮度差值越小，像素相关性越强，其色度相关性也越强。基于该现象，本文利用亮度差值，从参考区域中提取固定数量的参考像素组成参考子集。进一步将该参考子集与待预测像素的亮度差向量和该参考子集的参考色度向量输入色度预测模块构造色度预测值。由于参考子集的元素数量固定，色度预测模块可针对H.266/VVC 各种尺寸的CU 使用统一的神经网络进行处理。将 NNCCP 集成至H.266/VVC 参考软件VTM10.0[23]，并通过实验验证其编码性能的提升。实验结果表明，NNCCP 算法可提高色度预测准确度，有效提升H.266/VVC的压缩效率。

1 相关研究

1.1 H.266/VVC 高效色度帧内预测

H.266/VVC的色度帧内预测算法大致可分为三类，第一类为默认传统预测模式，包括PLANAR、DC、水平和垂直4 种模式，原理是根据前面已编码块的重建色度预测当前块的色度分量；第二类为亮度推导模式，该模式借用对应位置亮度的帧内预测模式作为色度的帧内预测模式；第三类为H.266/VVC 新引入的CCLM 模式，该模式利用同位置的重建亮度值通过线性模型计算色度预测值。通常，YCbCr 颜色空间的各个分量之间存在较强的相关性，如图1 所示。因此，利用分量间相关性设计算法是提高压缩效率的有效手段，上述第二类和第三类色度帧内预测模式皆是基于分量间相关性所设计的。

图1 BasketballDrill 序列YCbCr 图像和三分量

H.266/VVC的CCLM 技术是基于图像局部区域内亮度与色度呈线性关系的假设提出的，CCLM预测过程如图2 所示，对于当前CU，其参考区域为当前CU的上、右上、左和左下的像素。在对当前CU 进行编码之前，参考区域的亮度和色度均已重建。CCLM 首先利用参考区域的重建亮度和重建色度建立线性模型；然后根据该线性模型和当前CU的重建亮度信息求解出当前CU的色度预测值。需要指出的是，针对YCbCr 4:2:0 采样格式的视频，亮度图像需进行下采样，从而与色度图像的分辨率一致。

图2 CCLM 预测过程

CCLM 算法在H.266/VVC 中的整体性能[24]如表1 所示。在相同重建视频质量下，CCLM 可为Y、Cb、Cr 分量分别节省1.54%、13.89%、14.76%的编码码率。在复杂度方面，H.266/VVC 官方提供了使用CCLM 算法与不使用CCLM 算法的时间占比，编码时间和解码时间几乎相同。该数据进一步验证了分量间预测的简单有效性。

表1 CCLM 算法在H.266/VVC 中的整体性能

为了充分利用分量间相关性，CCLM 算法历经数次演进。Lee 等[11]揭示了YCbCr 4:2:0 采样格式的分量间仍存在冗余，可使用分量间线性模型设计色度预测算法。考虑到编码块内容的多样性，Zhang等[25]提出了基于多分段线性模型的分量间预测技术。出于对复杂度和编码性能的综合考虑，H.266/VVC 采纳了单线性模型的CCLM 技术[26]。为了提高CCLM 预测准确度，H.266/VVC 引入了3 种线性模型[27]，通过率失真准则为当前CU 选取最优线性模型。同时，H.266/VVC 在保证编码性能的前提下对CCLM 进行了复杂度优化。Laroche 等[28]提出基于参考区域的最大/最小值构造线性模型参数的算法，该算法可显著降低复杂度。进一步，笔者前期在分析像素欧氏距离与相关性关系的基础上，提出基于参考像素位置构造模型参数的算法[29]。该算法在降低CCLM 计算复杂度的同时引入少量编码增益，被H.266/VVC 采纳。

1.2 基于神经网络的色度帧内预测

事实上，亮度与色度之间的关系往往是复杂的。图3 以BasketballDrill 序列中2 个不同内容的图像块为例，给出了亮度分量与色度分量的对应关系。由图3 可以看出，图像块内亮度与色度分量的关系复杂，仅利用简单的线性模型很难处理图像块内所有的情况。同时，由于图像内容多样，不同内容图像块的亮度与色度的相关性也不同，且与内容有关。因此，亮度进行简单的映射通常不能实现准确的色度预测。得益于NN 强大的建模能力，基于NN的分量间预测成为提高色度压缩效率的研究热点。

图3 YUV 空间下亮度分量与色度分量的散点图图像（YCbCr 4:2:0 格式）

Blanch 等[30]通过引入基于卷积网络的注意力模块来建立参考像素和待预测像素之间的关系。Zhu 等[31]提出以CTU 为单位的色度预测方法，充分利用空间和分量间相关性，同时将量化参数（QP,quantization parameter）作为边信息输入，进一步提高预测准确度，降低预测误差。Li 等[32]通过基于卷积网络和全连接网络的混合神经网络改进色度预测性能。纵览以上各个方案，基于NN 构造色度预测值，尤其是CNN，可更好地使用非线性函数表示亮度与色度之间的映射关系。然而，现有算法通常需要针对不同的编码参数（例如QP、编码尺寸等）训练不同的网络参数，这在实际视频编码系统中是难以应用的。此外，基于CNN的色度预测算法通常具有极高的复杂度，其解码端复杂度相比于传统预测算法成倍增加。对编码参数的依赖和极高的复杂度导致基于CNN的分量间预测算法在实际应用上受到了极大限制。

近期，继H.266/VVC 标准发布后，JVET 着手开展基于NN 视频编码的探索性研究。实用化的基于NN的分量间预测算法也属于其中一个重要的议题：一方面，成熟的CCLM 算法通过建立简单的线性模型来表示整个CU 亮度和色度之间的关系，存在较大误差，性能提升潜力有限；另一方面，已有的基于CNN的色度预测准确度高，但存在复杂度过高的问题，现阶段难以实用。

2 基于轻量级NN的分量间预测算法

在视频编码中，亮度与色度之间的关系通常局部化到一个编码块内讨论。不同于采用线性模型的CCLM 算法，基于NN的预测方法通过数据驱动建立亮度与色度之间的非线性映射。笔者通过研究发现，来自局部近邻的已编码块的亮度和色度信息能够为网络提供非常重要的先验信息。因此，本文提出一种基于轻量级NN的分量间预测算法，借助亮度差从参考区域中提取参考子集，从而缩小参与建模的像素规模，即仅采用数个与待预测像素具有较小亮度差的像素进行建模，最终利用轻量级全连接网络实现色度预测。具体来说，遴选出少量且有效的参考像素，利用网络对相关性强的像素赋予大权重，而相关性弱的像素则赋予很小或零权重，进而为色度预测提供有效信息，达到降低预测误差、提高色度压缩效率的目的，同时满足视频编码对低复杂度的需求。

2.1 NNCCP 算法框架

本文提出的NNCCP 算法框架如图4 所示，该框架包含数据预处理模块和色度预测模块。其中，数据预处理模块以当前CU的上、右上、左、左下参考区域的参考像素和当前像素的亮度值作为输入，经过提取参考子集后输出M×1的亮度差向量和参考色度向量；色度预测模块将预处理模块输出的亮度差向量和参考色度向量作为输入，通过全连接网络构造色度预测值。下面介绍NNCCP 算法的详细过程。

图4(a)所示的数据预处理模块包含3 个步骤：向量化、求亮度差和提取。首先将参考区域的像素（包括重建亮度值和重建色度值）进行一维向量化；然后对每个待预测像素i，求解i与参考像素的亮度差；最后从4N个亮度差值中提取出M个亮度差绝对值较小的像素组成参考子集，并得到亮度差向量|ΔY|i，其色度值组成参考色度向量Ci。若参考子集的像素数不足M个，|ΔY|i、Ci各自使用固定值进行填充，补足M个元素。

统计发现，在局部区域内，像素间的亮度差值越小，其相关性越强，色度相关性也越强。本文设计的数据预处理模块从参考区域中提取出亮度差值小的像素构成参考子集，参考子集中的像素具有与待预测像素相关性强的优点。

图4(b)所示的色度预测模块以|ΔY|i和Ci作为输入，其中，|ΔY|i通过L层全连接网络后得到权重向量Wi。最终，当前像素的色度预测值为

其中，F(·)表示通过NN 学习的映射函数，向量Wi、Ci和|ΔY|i的定义为

对于图4(b)中的全连接网络，网络从输入到输出的描述如下：M维向量|ΔY|i作为第一层的输入，之后每层进行非线性加权后作为下一层的输入。非线性加权可表示为

图4 NNCCP 算法框架

其中，M是每层的神经元个数，L是网络层数，xlk是第l层的第k个输入，wljk是第l层的第j个神经元对第k个输入的权值，gl(·)是第l层的激活函数，ylj是第l层的第j个神经元的输出结果。由于网络输出层的输出结果为0～1，本文网络最后一层的激活函数采用归一化指数函数Softmax，其他层的激活函数均采用修正线性单元ReLU。

2.2 损失函数

理论上，色度预测模块中全连接网络的损失函数是输出权重W与真实权重Wo之间的差距，即

事实上，真实权重难以估计。考虑到NNCCP的目的是得到更准确的预测结果，因此可将色度预测量Cp与色度原始量Co的平方误差和作为损失函数。

为了提高压缩效率，通常将预测残差变换至频域进行量化和熵编码。为了有效与视频编码结合，接近真实的编码损失，本文使用离散余弦变换（DCT,discrete cosine transform）。具体地，对预测残差进行DCT，将其绝对误差和作为损失函数

2.3 网络训练

本文所提NNCCP 算法基于Pytorch 深度学习框架，实验环境为64 位Windows10 操作系统，模型采用Adam 优化器，初始学习率和批大小设置为1×10-4和128。

为了验证本文算法的色度预测性能和泛化性，采用公开的DIV2K[33]数据集作为训练和验证的数据来源。具体地，将800 张训练图片、100 张验证图片均统一裁剪为4×4的块作为训练集和验证集。最优模型参数根据其在验证集上的色度预测性能来选取。

2.4 H.266/VVC 集成

H.266/VVC 设计成多种使用前面已编码块的色度预测当前块的色度分量的模式，如 DC、PLANAR、各种角度模式等。为了有效应用于视频编码框架，进一步提升编码性能，本文将离线训练好的NNCCP 模型作为一种新增的色度帧内预测模式，以C++语言集成到H.266/VVC 编解码器中，与已有的预测模式共存，是对现有色度预测模式的有效补充。集成后，H.266/VVC 色度帧内预测模式包括PLANAR、DC、水平、垂直、亮度推导色度模式、NNCCP 和3 种CCLM，共9 种预测模式。

在编码器侧，所有候选预测模式通过率失真性能度量准则进行模式选择，选出率失真代价最小的模式，并将最优预测模式编号传输。最优预测模式可表示为

当活性炭投加量为0.04和0.06g时，有NOM存在的溶液中DBP的去除率明显低于没有NOM存在的溶液，表明在低浓度活性炭存在的情况下，NOM分子的存在会大幅度影响活性炭对DBP分子的吸附，但随着活性炭浓度的上升，该影响不是很显著。

其中，s是色度帧内预测候选模式，Ds和Rs分别是采用不同色度帧内预测模式时的编码失真和编码比特数，λ是拉格朗日因子。

在解码器侧，通过码流解析得到的每个CU的最优预测模式序号，并根据最优预测模式进行色度预测值的构造。

2.5 算法的通用性

NNCCP 算法不仅易于集成至H.266/VVC 编码框架中，还具有良好的通用性。

1) H.266/VVC 采用了灵活的块划分技术，支持二叉树、三叉树和四叉树划分，同一视频中存在多种尺寸的方形块和矩形块。这样一来，参考区域的参考像素数量随着块尺寸的变化而变化。针对参考区域像素数量不固定的问题，NNCCP 算法设计了统一的数据预处理方法，从不同数量的参考像素集合中选取固定数量的相关性强的参考像素组成参考子集。因送入色度预测模块的参考子集像素数量固定，对于任意尺寸CU，NNCCP 算法均可使用相同的神经网络，不需要针对不同尺寸CU 单独设计。

2) 视频编码往往需要根据带宽自适应调整编码参数，例如QP。经测试，NNCCP 架构适用于不同的QP 配置。因此，对于不同的QP，NNCCP 算法可使用统一的网络结构及网络参数。该特性优于为不同QP 设计不同网络结构或训练不同网络参数的方案。

3) NNCCP 算法适用于不同的颜色分量。在YCbCr 颜色空间上，色度分量包含Cb 和Cr 这2 个分量，所提NNCCP 算法针对Cb 和Cr 分量共享一组网络参数。此外，本文以YCbCr 4:2:0 采样格式为例，所提算法同样适用于YCbCr 4:4:4、YCbCr 4:2:2 和RGB 等其他颜色空间。

3 实验结果

为了充分验证NNCCP 算法在视频编码上的性能，本节从4 个方面对其性能进行分析与评估，包括NNCCP 超参数选择、色度预测性能评估、编码性能评估及NNCCP 选中比例分析。

3.1 NNCCP 超参数选择

NNCCP 算法的网络结构存在2 个关键的超参数，即M和L。参考子集的像素数M决定色度预测模块的输入，网络层数L决定神经网络的学习能力，二者均影响色度预测的准确性。为了确定NNCCP 算法的最佳M和L，本文进行了超参数选择实验。实验分为2 个方案：方案1 通过固定L数值改变M的方式探究M对预测结果的影响，从而选取最佳的M；方案2 是在方案1的基础上通过给定的M改变L的方式确定最佳的L。

图5 给出了超参数取不同数值时NNCCP 算法在DIV2K 验证集上的DCT 域损失曲线，每条曲线的标签为（M,L），其中，图5(a)～图5(c)是固定L、改变M的损失函数曲线，图5(d)是固定M、改变L的损失函数曲线。图5(a)～图5(c)展示了方案1的3组实验结果。可以观察到，在相同L下，随着M值的增加，损失数值逐渐降低，并且损失数值的降低幅度呈减小趋势。在相同L下，M=16的损失数值最小，M=8 次之，M=4的损失数值最大且明显大于M=8 和M=16的损失数值。为了保证预测效果，本文的M在8 和16 中选取。

在色度预测模块中，神经网络的运算次数CN可定义为

式(8)表明，运算次数受M和L影响，且M起主要影响。随着M增加，运算次数急剧增加。同时，M对数据预处理模块的处理速度起决定性作用，并且数据预处理模块中提取操作的复杂程度随M值的增加而增加。基于上述分析，为了在获得较小损失的前提下不引入极高的复杂度，本文将M定为8。

图5(d)进一步展示了M=8 时3 种L取值对应的损失曲线。对比发现，损失数值随着L的增加而降低，且当L增加至3 层时，损失数值的降幅变缓。图5(d)的实验结果表明，L=3 或L=5的损失数值非常接近并且均小于L=1的损失数值。由式(8)可知，L=5 时网络的运算次数高于L=3 时网络的运算次数。基于此，本文将L定为3，即采用3 层全连接网络。

图5 超参数取不同数值时NNCCP 算法在DIV2K 验证集上的DCT 域损失曲线

综上所述，在复杂度和预测准确度的权衡之下，所提NNCCP 算法选定M=8，L=3。表2 列出了NNCCP 算法的网络结构参数。其中，全连接网络层数为3 层，每层节点数量为8，第一、二层使用ReLU 激活函数，最后一层使用Softmax 函数。

由表2 可以看出，本文使用的神经网络的神经元总数量仅为24，网络参数较少，内存占用很少，是一个轻量级网络，集成至视频编解码框架中具有较小的复杂度。后续的性能测试实验均基于此网络结构开展。

表2 NNCCP 算法的网络结构参数

3.2 色度预测性能评估

为了比较CCLM 算法和NNCCP 算法的性能，本节对这2 种算法构造出的色度预测块进行对比。实验过程如下，将图像分成固定尺寸的块，利用参考区域的原始像素、当前块的原始亮度值分别通过CCLM 算法和NNCCP 算法进行色度预测，并将预测结果与原始色度进行对比。需要指出，本节实验均在色度预测块上进行，并非直接用于观看的解码重建块，在实际视频编码中，为了保证观看视频质量，还需将此色度预测块与原始色度块的残差进行编码，并传输至解码端，得到最终用于观看的重建块。

首先，本节从H.266/VVC 通用测试条件（CTC,common test condition）[34]推荐的BasketballDrill、BQMall、MarketPlace 和Tango2 视频中分别选取64×64的色度块，通过CCLM 算法和NNCCP 算法进行色度预测。图6 展示了2 种算法构造的色度预测块的效果对比，其中，图6(a)～图6(d)依次为原始块、亮度块、采用CCLM 算法构造的色度预测块和采用NNCCP 算法构造的色度预测块。分析发现，在复杂纹理区域或存在边界内容区域上，对图像块中所有像素使用单一线性模型的CCLM 算法产生了较大的预测误差，而NNCCP算法由于提取与当前像素相关性强的参考像素，减少了参考区域中不相关信息的干扰，提高了预测准确性，主观效果更自然，同时色度上也更接近原始图像色度。

图6 CCLM 算法与NNCCP 算法色度预测效果对比

进一步，本节在DIV2K 验证集上分别计算通过CCLM 算法、文献[30]算法及NNCCP 算法进行预测的峰值信噪比（PSNR,peak signal to noise ratio），从而客观评估每种算法的预测效果。PSNR 根据色度预测值与色度原始值计算得到。为了验证不同尺寸块上不同算法的性能，实验对16×16、8×8及4×4 尺寸的色度块进行了离线预测的PSNR 测试，实验结果如表3 所示。从表3 可以发现，随着块尺寸的减小，参考区域和图像块的相关性增强，CCLM 算法、文献[30]算法及NNCCP 算法下的PSNR 都随之提高。对比上述3 种算法在同尺寸图像块上的离线预测PSNR，NNCCP 算法的预测PSNR 在每种尺寸的图像块上都是最高的，文献[30]算法次之，CCLM 算法最低。特别地，在同尺寸的图像块上，NNCCP 算法的预测PSNR 相较于CCLM算法的提升量为6 dB 左右，相较于文献[30]也有1 dB左右的提升量，同时，随着块尺寸变化，PSNR 提升量基本恒定。上述实验数据说明对不同尺寸块使用统一的网络结构及网络参数的NNCCP 算法均有优秀的色度预测准确度，进一步验证了NNCCP 算法的通用性。

表3 色度预测性能比较

3.3 编码性能评估

为了揭示NNCCP 算法对视频编码性能的影响，本节将其集成至H.266/VVC 参考软件VTM10.0。在编码过程中，NNCCP 算法与传统色度预测模式竞争，通过率失真准则确定最优预测模式，并在码流中传输对应模式序号。本节采用H.266/VVC 通用测试条件推荐的21 个测试序列，涵盖了不同类型的视频内容和不同的分辨率。本实验采用全帧内配置（AI,all intra）编码。编码性能采用BD-rate[35]作为评估标准。当BD-rate 为负值时，表示在获得相同视频图像质量的前提下所提算法可节省的编码码率。

将NNCCP 算法集成到VTM10.0 进行编码测试，并与VTM10.0的编码性能进行对比。表4 给出了详细的BD-rate 对比结果，并分别计算了Y、Cb、Cr 和YCbCr 分量的BD-rate 值。实验结果表明，在相同重建视频质量下，NNCCP 算法在Y、Cb、Cr 上分别平均节省0.27%、1.54%和1.84%的编码码率。这证明了所提算法可提高压缩效率，尤其是针对色度分量。为了综合衡量所提算法的编码性能，YCbCr 分量的综合PSNR 由Y、Cb、Cr 分量加权计算[23]得到。相比于 VTM10.0，NNCCP 算法在综合PSNR 下可平均节省0.46%的编码码率，有效提高了编码性能。同时，由表4列出的各个序列的编码性能可以看出，NNCCP算法具有良好的序列一致性。

表4 NNCCP 与VTM10.0 编码性能比较

为了进一步评估NNCCP 算法在基于NN的色度预测算法中的性能，本节在CPU 平台上将NNCCP 算法与文献[30]算法、文献[31]算法从多方面进行比较。观察表5 中不同算法的网络结构和网络参数，文献[30]算法针对不同尺寸的编码块训练3 个网络模型，文献[31]算法与NNCCP 算法都实现了统一的网络模型，其中文献[31]算法的网络层数是最多的，并且需要存储上百万的网络参数量，这对视频编码和解码器提出了很高的要求。由表5的数据可以看出，NNCCP 算法的网络层数最少，同时需要存储的总参数量远低于文献[30]算法和文献[31]算法，所需存储开销最少。

表5 不同算法的网络结构和网络参数比较

图7 进一步展示了AI 配置下VTM 算法、NNCCP 算法、文献[30]算法和文献[31]算法的编码性能和解码复杂度的对比情况，其中x轴为相对于VTM的解码时间增加量；y轴为相对于VTM的码率节省量，值越小，表明码率节省量越多。由图7可以看出，文献[30]算法可节省0.20%的编码码率，NNCCP 算法可节省0.46%的编码码率，文献[31]算法可节省3.6%的编码码率。在解码时间方面，文献[30]算法的解码时间相对于VTM 算法增加了874%，文献[31]算法的解码时间相对于VTM 算法增加了834%，而NNCCP 算法的解码时间相对于VTM 算法仅增加了34%。视频编码和解码是工业界的典型应用，视频相关应用对压缩效率和实时性都有非常高的要求。综合考虑上述3 种算法的编码性能和算法复杂度，虽然文献[31]算法的编码性能最佳，但其上百万参数量的存储需求和834%的解码时间增加量在现阶段难以实际应用。文献[30]算法的网络参数量相比文献[31]算法大幅降低，但其编码性能增益有限，解码时间增加量也很高。因此，相比于文献[30]算法和文献[31]算法，本文提出的NNCCP 算法的解码复杂度大幅降低，在解码时间增加34%和网络参数量仅有192的前提下可节省0.46%的编码码率，采用极低复杂度，有效节省了编码码率，提高了视频编码的压缩性能。

图7 AI 配置下几种算法的编码性能和解码复杂度的对比情况

3.4 NNCCP 选中比例分析

为了进一步分析NNCCP 对视频编码的影响，本节对NNCCP 算法的分布情况进行分析。图8 为采用CatRobot（3840×2160）、Tango2（3840×2160）、ParkRunning3（3840×2160 ）、MarketPlace（1920×108 ）、KristenAndSara（1280×720 ）、BasketballDrill（832×480）6 个典型测试序列以QP22编码的第一帧、重新缩放到相同的分辨率下的可视化结果，并展示了NNCCP 模式作为最优预测模式的编码块。从图8 可以观察到，选中NNCCP的编码块尺寸多样，既有方形块，也有矩形块。

为进一步挖掘选中NNCCP的规律，采用评价线性拟合程度的指标R2来定量分析编码块采用线性模型的预测值与原始值的拟合程度。通常，R2范围为[0,1]，越逼近1，拟合程度越高，线性模型的可靠性就越高。对图8 中NNCCP 编码块的R2值进行统计，其分布曲线如图9 所示。观察各个序列R2的分布情况可以明显发现，NNCCP 编码块的R2大量集中在0 值附近，即NNCCP 编码块的R2普遍较小。

图8 NNCCP 选中区域分布展示

图9 选中NNCCP 编码块的R2的统计分布曲线

图10 进一步给出了各类序列NNCCP 编码块和CCLM 编码块R2的平均值。对比发现，在A1～E 序列下，NNCCP 编码块的R2平均值皆明显小于CCLM的R2平均值。对于所有序列，NNCCP 编码块的平均R2仅为0.27，而CCLM 中的平均R2高达0.69。因此，对于使用线性模型拟合程度较差的编码块，即R2较小时，通常会选择NNCCP 模式；对于采用线性模型拟合程度较好的编码块，即R2较大时，NNCCP 和CCLM都可较好地进行预测，通常会选择 H.266/VVC的CCLM 模式。

图10 各类序列NNCCP 编码块和CCLM 编码块R2的平均值

表6 进一步给出了测试序列在不同编码QP 下选中NNCCP 模式的像素数占比。对于不同的QP参数，NNCCP的选中像素数占比可达13.36%～16.57%。不同QP 下像素数占比并未存在明显差异。观察各个序列NNCCP的选中比例可以发现，对于内容简单的序列而言，H.266/VVC 中原有的色度预测模式已足以对此类内容实现准确的预测，此时NNCCP的选中比例较低，如图8 中KristenAndSara 序列；当序列内容丰富、复杂时，NNCCP的选中比例较高，如图8 中的CatRobot、Tango2 和MarketPlace 序列。对于内容丰富的序列，原有色度预测模式不足以应对纹理复杂多样的编码块，在此情况下存在较多R2偏小的内容，此时NNCCP 作为一种新的预测模式，通过率失真准则筛选为最佳预测模式。NNCCP 改善了R2偏小的编码块的预测效果，对内容丰富的序列可以达到较准确的预测。