张云团队提出基于神经网络的色度预测方法

2021-03-30

集成技术 2021年2期

中国科学院深圳先进技术研究院高性能计算技术研究中心张云团队在智能视频编码优化理论与方法方面的研究取得进展。相应成果“Deep learning based chroma prediction for versatile video coding（基于神经网络的色度预测）”2020 年 11 月 3 日在线发表于 IEEE Transactions on Circuits and Systems for Video Technology。

视频数据爆炸式增长给存储和传输带来了巨大的压力和挑战，这迫切地需要快速、高效的视频编码方案。而下一代视频编码方法仍是采用凭统计经验手工设计预测函数的编码方案，在一定程度上限制了编码性能的提升。如何使用先进的学习工具在给定带宽的条件下最大化视频质量、提高压缩效率成为了未来智能视频编码优化的关键问题。该文从计算机视觉和人工智能的角度出发，将视频编码中的色度预测问题模型化为计算机视觉中的图像上色问题，以进一步消除颜色通道之间的冗余。基于卷积神经网络的色度预测包含两个子网络：亮度下采样和色度预测。采用线性模型结果作为色度初始化以增强性能，采用量化参数来表征编码失真消除压缩噪声影响。在编码器设计过程中，为了取得更好的编码性能，该文利用率失真优化方法从传统色度预测方法和所提出的方法中选择代价最小的预测策略。

结果显示，与现有传统方法相比，该文方法在 Y、U、V 分量分别可以节省 4.28%、3.34% 和 4.63% 的网络带宽。

针对现有视频编码模块中的局限性问题，从计算机视觉和人工智能的角度出发，实现了由信号处理领域问题向人工智能领域问题的转变，以海量视频/图像数据为基础，研究结合神经网络模型的视频编码方法，最终实现智能视频编码优化理论与方法的创新，预期成果能应用于下一代视频编码标准及视频压缩的相关领域。

色度预测性能对比(需要预测的块位于右下角)[1][1] Zhu LW, Zhang Y, Wang SQ, et al. Deep learning based chroma prediction for versatile video coding [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, doi: 10.1109/TCSVT.2020.3035356.