基于内容的视频检索技术综述与展望

2023-04-17韩争艳鱼苏立张小强田程军

电视技术 2023年12期

韩争艳，鱼苏立，刘斌，张小强，田程军，曾强

（中国移动通信集团陕西有限公司，陕西西安 710000）

0 引言

互联网电视为用户提供海量高清视频内容。如何实现个性化推荐、内容精准投放，如何高效管理和检索视频内容，值得从业者思考。传统的采用文本、图像等要素的检索技术已经不能满足互联网海量内容管理需要，不能够精准搜索、个性化推送高清视频内容。为推动和促进互联网电视业务蓬勃发展，基于内容的视频检索解决方案成为视频检索技术热点研究对象。

基于内容的视频检索是通过分析视频内容的特征信息来概况描述视频内容[1]，实现视频内容的快速识别、精准检索，不仅能提供互联网海量内容分类、搜索，千人千面地个性化推送，还可以提高互联网视频资源的利用效率，对互联网电视业务发展产生积极影响。

1 基于内容的视频检索的研究进展

从20 世纪90 年代初期开始，通过描述和总结视频内容关键要素实现视频检索技术方面的研究取得很多成果。受到技术和条件等各方面限制，当时主要采用手工设计各类特征来提取视频中的信息，如颜色直方图、形状描述符等。

基于内容的视频检索技术是通过分析视频内容特征要素，提取视频内容的关键特征信息实现对视频内容的检索。随着大数据、智能计算、人工智能（Artificial Intelligence，AI）算法的发展和使用，基于内容的视频检索技术向自动化和智能化检索方向发展[2]。目前，基于内容的视频检索的研究重点在于视频特征提取技术、相似度计算算法和索引技术等方面。

视频检索总体分为视频、场景、镜头及图像帧4 个数据结构。关键帧是能呈现镜头中主要内容信息的图像帧。分析各关键镜头，提取镜头中的关键帧，然后利用关键帧把镜头内容精准展示出来。确定关键帧的数量是提取关键帧环节中重要环节，通过统计镜头中每帧的差异计算方差，然后通过方差来分析、判断镜头内容的复杂度和差异度等要素。

2 视频特征提取

视频特征提取是基于视频内容并从中提取出能够描述视频内容的特征信息视频检索核心技术。通过分析视频图像颜色、图形形状、线条纹理及运动动态等方式提取视频特征。其中，颜色特征可以通过直方图、颜色矩等方法来提取，纹理特征可以通过局部二值模式、小波变换等方法来提取，形状特征可以通过边界描述符、尺度不变特征变换等方法来提取，运动特征可以通过光流、动作描述符等方法来提取。随着机器视觉领域研究的不断深入，深度学习技术逐渐成为视频特征提取的主要方法。

视频特征分析对视频进行后处理，以提取低级别特征，如镜头变化率和类型、光流级别、移动和客观特征，如出现在帧中的对象、人体动作、设置、事件以及抽象特征（如美学）等。提取的客观和抽象特征在这里被称为视频标签。

基于图像的特征提取是将视频中的每一帧都看作一张图片，对每帧进行图像处理，提取出图形上具有代表性的特征，如图形颜色、线条纹理及形态等。

运动是视频数据中最明显的特征，基于运动的特征提取是指从运动数据中提取出有意义的特征，以便进行运动动态分析和分类识别等任务。因此，基于运动的特征提取也是分析视频内容特性的关键技术手段。

视频中的声音也是视频特征提取的要素。通过分析视频中的声音，可以提取出如音高、节奏及语音识别等方面的特征。

3 相似度计算

相似度计算将视频之间的相似度相似的视频归为一类，方便用户查找相关视频。通常，相似度计算方法有欧式距离、余弦相似度、海明距离等，此外还有一些基于分类、聚类的相似度计算方法，如支持向量机、k 近邻算法等。在人工智能领域，距离和相似度是基本的概念，它们在机器视觉和自然语言处理等领域有举足轻重的应用，这些概念绝大多数源于数学领域的测度度量等概念[3]。下面介绍常用的相似度计算技术。

3.1 欧氏距离

欧式距离能够计算多维空间中两个点之间的绝对距离，也就是数学计算中两点之间的直线距离。欧氏距离可以应用在各个业务领域。当数据结构每个点数据集中而且数据连续时，通常采用欧式距离进行计算。

3.2 余弦相似度

余弦相似度是计算两个向量之间相似性的方法，用于文本数据的相似度计算。余弦相似度是从多维空间将两个向量投影到具体点，计算夹角余弦值。余弦相似度应用在内容信息分类、检索等领域。

3.3 海明距离

海明码可以检测和纠错数据传输中的误码。传输数据使用海明码方式进行编码，在发送方对原始数据进行冗余编码，得到一个包含冗余信息的编码数据，如1011010。假如在数据传输过程中中断出错导致第二位变成了1，那么接收方根据海明码就会检测错误，并且根据冗余信息进行数据纠错，将数据恢复为1011。这个过程就是海明码的工作原理。

4 索引技术

索引技术是将视频中的图像内容转化为可供检索的要素信息，方便用户在海量的视频内容库中检索感兴趣的视频文件[4]。常用的索引技术包括倒排索引、哈希索引及树形索引等。视频索引的目标是将视频内容转换成可以被快速查询的数据结构。下面是3 种常见的视频索引技术。

4.1 基于帧的索引

关键帧是能代表视频图像中重要事件的重要的帧。通过关键帧索引，能提高内容关键事件检索效率。镜头内帧间相似度较高，可以利用图论、曲线分裂、聚类和奇异值分解的方法提取关键帧。这些方法的基本思路是把一帧看成是多维特征空间中的一点，选择的关键帧是点的子集。这些子集能够概括特征距离内其他要素，表明场景形态。

4.2 基于时间码的索引

时间码是视频中每一帧的时间标记，标识视频中每一帧的时间戳。通过对视频时间戳进行索引，可以实现视频时间的精准定位。对图像帧索引时，视频中每个帧都被赋予唯一性标签，这些值显示已记录的素材总数或时间戳，就像剪辑时间轴的全球定位系统（Global Positioning System，GPS）。视频内容中的每个帧都被分配全局唯一标识位，通过时间码索引可以精准查找。通过搜索记录的图像帧时间码可以快速找到视频内容。时间码是现代数字视频索引的原始数据，是视频内容结合的粘合剂，是视频内容能够完整连续播放的根本。

4.3 基于元数据的索引

元数据是数据的数据，是主要描述数据属性的信息，标识如指示文件记录、历史数据、存储位置、资源查找等功能的属性信息，基于视频标题、内容摘要及热点关键词等对视频完成概况描述[5]。通过对元数据进行索引，可以快捷找到所需内容的视频。此外，建立基于该元数据的搜索索引，可以向使用者提供更强大的搜索解决方案。例如，索引口头语和人脸可以实现在视频中查找某人说的某些词或查找两个人在一起画面的搜索体验。基于此类视频元数据的搜索适用于新闻机构、教育机构、广播公司等，通常也适用于任何拥有用户需要搜索的视频库的行业。

5 发展趋势和未来研究方向

随着科技进步和互联网电视不断发展变革，基于内容的视频检索技术发展的领域，未来研究可以从4 个方向进行深入探讨。一，基于深度学习的视频检索技术将越发成熟，如基于各类数据模型的视频特征提取方法。二，基于多模态信息融合的视频检索方法将得到更多的研究，如融合视频、文本及音频等多模态信息来实现视频检索。三，基于场景、情感等语义信息的视频检索方法将得到更多的关注，如采用情感识别、场景分析等方法来提高视频检索的准确性。四，视频检索技术在大数据环境下的应用将得到更广泛的关注，如采用分布式计算、大数据分析等方法来实现视频检索[6]。