基于视频内容检索技术及其教学应用初探

2024-05-10刘立丰洪才

中国新通信 2024年2期

刘立?丰洪才

摘要：针对教育视频内容的复杂性，本文主要探讨如何解决在教育领域里快速、准确地检索所需的视频内容的问题。文中从分析视频结构入手，介绍了基于内容的视频检索技术以及其优势。检索效果显示该技术在教育教学领域中有一定的应用价值，丰富了教学方式，学生对其认可度较高。

关键词：视频；基于内容的视频检索技术；教育；教学；学生

一、引言

近年来，计算机网络和多媒体技术得到了迅猛发展，视频作为主要的多媒体信息载体，已经成为互联网中重要的数据类型，且在安全监控和视频网站中得到了广泛应用。与文本、音频和图像相比，视频因其丰富的信息量和直观体验已成为主要的信息来源。每天有数以百万计的视频被上传到互联网上，传统的信息检索主要依靠人工标注的方式，但这种方式无论是在网络带宽占用量、资源定位时间开销还是用户的使用习惯等方面都存在不足。面对海量的视频数据，仅通过添加文本标签描述的形式对视频进行基于关键词匹配的检索已无法满足人们的需求，于是基于内容的视频检索（Content Based Video Retrieval， CBVR）技术横空出世。CBVR是通过对视频数据从低层到高层进行处理、分析和理解的过程，根据视频的内容及上下文关系获取其内容，并根据内容进行检索[1]。

教育是人类社会发展的一个重要领域，现代教育正日益重视科技创新。视频技术所带来的改变也已经开始影响传统教学方法。然而，随着视频资源井喷式增长，如何更有效地挖掘其价值成为一个关键问题。因此，本文将探讨视频检索技术在教育中的应用。

二、基于内容的视频检索技术

视频是由一系列静态图像帧按时间或空间顺序排布得到的图像集。作为一种交互性强的媒体，视频具有内容丰富和逻辑性强的特点。近年来，视频在采集、存储、传输和回放等方面取得了显著进展。从20世纪90年代后期开始，国际社会开始对视频检索技术进行研究。基于内容的视频检索一直是国内外研究者关注的热点问题，已经取得了一定的研究成果。代表性的系统之一是由IBM公司研发的QBIC（按图像内容查询）系统，它是一个功能齐全的视频检索系统，在视频检索领域具有重要意义。另外，Video Q系统改进了传统的基于主题和关键词的检索方法，使用户能够通过视觉特征和视频序列中的时空关系进行视频检索。在我国，对视频检索的研究起步较晚，技术水平相对落后。近年来，国内研究学者开始重视视频检索系统中相对较少的问题，并且在基于内容的视频搜索技术方面取得了许多成果。其中代表性的系统包括Ifind系统、New VideoCAR系统和TV-FI系统。

（一）基本概念

视频的视觉信息通过每一帧图像来表达，而每一帧图像又由一系列连续的帧组成，而镜头则是由一组连续拍摄的帧序列构成的。关键帧是能够准确反映和体现一个镜头或整个视频内容的图像帧。关键帧提取是一种从视频帧集合中发现并消除重复帧的技术。在镜头分割之后，可以根据镜头的内容选取一定数量的关键帧建立视频索引，这对于视频的索引、检索和浏览非常重要。而场景则是由在时间上相邻并具有相似视觉属性的镜头所组成的。场景检测的主要目的是描述视频中具有语义的事件。场景检测也被称为镜头聚类，它关注的是在时间上的连续性以及在内容上的相似性。通过对镜头进行聚类，可以将视频分割成不同的场景，从而方便进行进一步的视频分析和处理。

（二）关键技术

CBVR包含了特征提取与匹配技术、镜头边缘检测技术（Shot Edge Detection）[2]、关键帧提取技术（Key Frame Extraction）[3]、场景分割（Scene Segmentation）[4]、视频摘要（Video Summary）[5]等技术。

CBVR工作过程如下：

第一步：将视频流转化成帧图像，并保存到视频数据库中。

第二步：解决如何有效地组织视频信息等关键问题。将视频分割成多个视频片段并描述每个片段的特殊性是组织视频信息的方法之一。视频镜头分割（镜头边缘检测）的主要目标是检测出镜头的边缘，即将一段视频分割成若干独立的镜头。其分割技术的关键在于确定镜头边界。镜头边界主要依据镜头之间的明显特征差异确定，即如果相邻两帧的差异超出了设定阈值，则说明存在镜头边界（分割点）。镜头变化有突变和渐变两种方式，突變是指从一个镜头直接切换到下一个镜头，没有使用任何编辑手段；渐变（缓变）是指镜头之间通过某种过渡方式缓慢地切换到下一个镜头，该变化过程一般在几帧或几十帧之间完成。镜头检测的准确性将直接影响视频语义标注和后续浏览、检索效果。

第三步：关键帧是指视频序列中最能准确反映和体现一个镜头甚至整个视频内容的图像帧。它是将视频转换为图像的关键环节，也是保证视频索引、检索和浏览的重要前提，同时也是形成视频摘要的重要方式之一。

第四步：视频特征提取与匹配，在视频检索过程中，从视频中提取一些图像特征与视觉感受保持一致，通常采用特征向量表示相应的图像。特征提取是视频帧分析与识别的前提，是高维视频数据简化表达的有效方式。而视频帧的特征匹配是通过比较特征向量的相似性来判断视频帧的相似程度，实质上是计算各特征向量之间的距离[6]。常用计算相似度的方法有：欧式距离、绝对值距离、切氏距离、名氏距离、最值相似系数等。

第五步：输出视频检索结果，将特征最相近的视频帧返回给用户。

CBVR对于视频的存储、处理、检索和传输有重要的意义。

三、基于内容的视频检索技术在教学的应用

当下中国教育信息化正迈向全面转型提升的阶段，基于视频的课堂实录、直播与视频的混合学习也在层出不穷，这不仅激发了学生的兴趣，同时也拓宽了教育信息传播渠道，丰富了教学内容呈现形式，给学生带来了多感官的体验视频已经成为教学活动展示的主要形式，传播教学理念的重要载体。视频可以把丰富的网络资源与课本上的知识进行有机结合，这不断加速推进教育模式的创新，还扩展了传统课堂的知识容量。特别是在疫情时代，国内各级各类学校开启了一场史无前例的在线教育活动，视频作为现代教学改革的重要载体，对教育资源的整合与强化起到了重要的作用。但当前的教育视频资源数量巨大且以分散状态存在，不少教育视频依然存在加工粗糙、导航不明确等不利于教育持续发展的因素。

传统视频教材大多以“课”作为单位进行录制，具有整体性、封闭性等特点，但这忽略了学生的使用体验，学生很难获取个性化、专业化的信息资源，限制了视频中价值的发挥。而基于内容的视频检索技术通过有效地管理视频资源并查找其中的重要信息，使得高效、准确地进行视频內容检索成为可能。这也带动了教育视频价值的提升，解决了我国教育信息化发展中存在的建设成本高、信息化效果不突出等一系列问题。具体体现如下：

（一）加快教学视频的浏览、查询和检索

人类社会的知识生产与传播模式一直在发生变化，当今社会正处于信息传播“碎片化”的时代，传统媒体传播效果与体验感都不如视频。视频的优点是视觉感强，且简单易懂。有研究表明人类在接受信息时，视觉的接受率为83%，而听觉的接受率只有13%。视频将教育知识方便、快捷地送达到学生手中，减少学生获取知识的时间，这拓宽了信息传播的渠道，提高了学生的信息获取能力，也加快了信息转化为知识的进程[7]。学生获取知识的方式已经不再局限于传统方法，因此通过视频可以解决由于知识和技术缺乏而制约学生发展的问题，促进宣传和普及。与此同时，教育视频的数据量也呈指数级增长，如何在较短时间内从海量且参差不齐的教学视频库中提取出最佳的学习材料，改善学习效果，一直困扰着众多学者。传统的视频查找方式通常是通过快进来查找内容，而利用CBVR（Content-Based Video Retrieval，基于内容的视频检索）中的镜头分割技术能够有效地检测出镜头的边缘，将一段段冗长的教学视频分割成若干独立的镜头。精准地定位镜头的分割点，减少了学习者检索的时间，提高了教学视频的检索效率。该技术不仅便捷了师生对视频资源的获取方式，更能优化视频资源的利用效果，为教学带来更多的可能性和灵活性。

（二）提高教学视频检索的精度

基于内容的视频检索技术通过对视频内容进行分析和处理，能够提高教学视频检索的精度。传统的视频检索技术主要是基于文本信息的检索，但是对于一些复杂的视频内容，仅仅通过文本信息的检索是无法准确地找到所需要的内容。CBVR则能够从视频中提取出各种基于视觉和语义的特征，并据此建立索引，使得视频检索的精度更高，从而能够更准确地满足学生对于教学资源的需求。

视频具有静态特性和动态特性。静态特性是指图像帧的原始属性，主要是从颜色、纹理、形状、大小等视觉特征来体现。通过分析比较视频图像的静态特征，可以区别于其他图像的特征。动态特征是视频独有的属性，主要是视频中的物体运动或摄像机的运动引起，反映了视频动态的时域变化。

CBVR会自动获取视频的特征，然后根据这些特征进行查找。查找的过程中，直接对获得的帧进行分类是不现实的。原因在于：一是视频的数据量巨大，需要占用较多的存储空间，这就难以满足用户实时性要求；二是视频中可能包含许多与识别无关的信息。因此，必须对视频帧进行有效的特征提取和选择，以简化被识别帧数据，提高视频的识别率。通过比较特征向量的相似性来判断视频帧的相似度。基于内容的视频检索技术对教学视频进行分析，选择相应的特征，然后利用这些特征建立索引进行检索。用户只需提供教学视频的片段信息，CBVR采用一种近似匹配的方法逐步求精来获得查询和检索结果，可以实现视频内容的自动标注和分类，并与特定主题或教学目标进行关联，这避免了采用传统检索方法所带来的不确定性。例如，学生要学习计算机组装与维护技术，可以给出一段类似的示例视频或提取的图像帧作为范例。系统就可以根据例子检索出类似的视频段，学生可以通过观看操作视频渐进地掌握计算机组装与维护的技术。这项技术为教学提供了更多有效的视频资料，实现了以应用能力为本的培养形式，提高了学生理论联系实际的综合素质。

（三）实现对教学视频功能的挖掘与价值提升

教育视频内容分析包括感知理解、认知理解和情绪理解这三个方面[8]。感知理解主要从人物动作、表情、语言等方面理解视频内容，已经有许多学者利用视频技术评估学生在课堂中的注意力、参与度和是否存在异常行为等方面。教师可以通过学生的听课状态来判断他们是否积极主动地参与课堂活动，是否能够跟上教师的教学进度。然而，听课状态需要通过分析学生的行为来获取。

当一个学生玩手机、睡觉、嬉戏聊天、吃东西等时，往往表示该学生对学习内容感到困惑；学生的课堂行为也是多变的，因此需要实时监测学生的听课状态，以获得及时的教学效果反馈。视频检索技术中的目标检测可以较好地检测学生的课堂行为，为调整教学方法和评估课堂效果提供依据。这种方式关注学生的学习状态。可以将人脸识别的结果与学生日常行为表现、成长记录情况结合起来，这为形成教学过程性评价提供了参考依据。

认知理解较直观感知需要更高层次的抽象，它是在感知理解的基础上对视频内容进行抽象实现更高层语义理解[9]。目前，学者们正在不断探索认知理解。在教学中，教师和学生可以根据对视频的语义理解来检索视频媒体。基于内容的视频分析可以提取视频的语义信息，构建从底层特征到高层语义之间的桥梁，最终形成符合人类思维形式的信息检索方式。

教育过程不仅仅局限于认知层面的教育，情感教育是教育过程中的重要组成部分。它旨在培养学生的情感能力、道德品质、社交能力等，使学生在认知上得到提升的同时，也能在情感上得到锻炼和提升。近年来，人们越来越多地在各种网络平台上以文字、图片、视频等方式表达个人情感，通过视频来挖掘用户的情感已成为当前的研究热点。目前，情绪的感知主要通过观察法、人物表情识别法、行为分析法以及传感器生理信号分析法等方式进行。与其他情绪感知方式相比，视频感知只需要摄像头即可完成，操作简单且可行性高。通过从视频序列中分离出特定的表情状态，可以判断学生的学习情绪。情绪对学习的影响主要表现为影响学习者的认知和记忆，良好的情绪有助于增加学习者积极选择的注意程度[10]。激发学习者积极情绪并调节认知投入度。视频因其表现形式丰富，能够承载更多的情感特征。通过视频进行情感分析的主要研究任务是围绕视频中的人物对象进行建模，并检测人物的面部、身体姿势或与情绪相关的视觉特征进行情感分析。这包括以下几个步骤：首先提取视频的关键帧，将动态视频转化为静态帧，然后对这一系列的视频帧进行处理，提取具有代表性的帧，最后使用分类器对视频数据进行情感分析。通过挖掘学生在教学活动中的情感倾向，帮助教师了解真实的教学情况，进而改善教学效果[11]。基于视频的教学情感分析是一种通过自然语言处理技术来分析视频中教学内容和教师的情感状态的方法。这种方法可以有效地衡量学生对视频教学的看法和情感反应，帮助教师更好地了解学生的需求并作出相应的调整。基于视频的教学情感分析可以发挥以下作用：

①评估教学质量和提高教学效果通过对教学材料的情感分析，教育工作者可以对教学过程和效果进行评估和分析，并有针对性地调整教学策略，提高学生的兴趣和学习效果。

②优化教材内容和设计：情感分析可以幫助教育工作者提高教材的可读性和理解性，优化教学设计，使教材更适合学生的需求和兴趣。

③提高师生互动效果：情感分析可以帮助教育工作者更好地了解学生的情感反应，进一步改善师生关系和提高师生互动效果。

④提高学生的学习体验和满意度：通过情感分析，教育工作者可以更好地满足学生的需求，提高学生的学习体验和学习满意度。

⑤推动教育教学科技创新：基于内容的教学情感分析涉及自然语言处理、图像处理、机器学习等多种技术和工具的应用和整合，可以推动教育教学科技创新，促进教育教学的持续发展。

（四）减轻视频存储负担

随着MOOC、在线学习网站等教育视频数据的急剧增加，海量的教育视频数据需要分析与理解，这给用户实现快速查找造成了极大的困扰。基于内容的视频检索技术可以通过智能的搜索和推荐算法，自动化地整合和挖掘视频资源，使得教师和学生可以更加方便地获取所需的教学视频资源。该技术还能够提高视频制作的效率和质量，因为基于内容的视频检索技术可以自动标注和分类视频内容，用户就不必通过一遍遍浏览视频文件的方式来查找所需要的视频，从而减轻了视频存储的负担。基于内容的视频检索技术为教育视频制作提供参考和准确的数据支持，这能够帮助视频制作者更快地了解用户需求和教学目标，从而更好地制作出符合需求和品质的教育视频。

四、结束语

教育的现代化是教育变革的重要趋势，视频作为教育现代化的重要手段，能有效地促进学习者参与学习活动、理解学习内容、掌握学习技能[12]。在教学理论的指导下，应用基于内容的视频检索技术于教育领域，既符合教育信息化的要求，又优化了知识传播的形式，从而促进教学质量的提升。未来还可以从视频在线互动学习、在线资源开发等方向进行深入的研究，推动教育向智能化、多模态化的发展。

参考文献

[1]胡志军，徐勇.基于内容的视频检索综述[J].计算机科学，2020，47（01）：117-123.

[2] Bouyahi Mohamed，Ben Ayed Yassine. Multimodal Features for Shots Boundary Detection[J]. THIRTEENTH INTERNATIONAL CONFERENCE ON MACHINE VISION （ICMV 2020），2021，11605.

[3] Sun Yunyun，Li Peng，Jiang Zhaohui，Hu Sujun. Feature fusion and clustering for key frame extraction.[J]. Mathematical biosciences and engineering ： MBE，2021，18（6）.

[4]Dai Cheng，Liu Xingang，Yang Laurence T.，Ni Minghao，Ma Zhenchao，Zhang Qingchen，Deen M. Jamal. Video Scene Segmentation Using Tensor-Train Faster-RCNN for Multimedia IoT Systems[J]. IEEE INTERNET OF THINGS JOURNAL，2021，8（12）.

[5]李群，肖甫，张子屹等.基于空时变换网络的视频摘要生成[J].软件学报，2022，33（09）：3195-3209.

[6]刘立.基于视频内容检索关键技术在水果病虫害检测中的应用[D].武汉轻工大学，2022.

[7]胡水星.教育数据挖掘及其教学应用实证分析[J].现代远距离教育，2017（04）：29-37.

[8]缪裕青，董晗，张万桢等.一种多任务学习的跨模态视频情感分析方法[J/OL].计算机工程与应用：1-8[2023-03-08].http：//kns.cnki.net/kcms/detail/11.2127.tp.20220422.1637.012.html.

[9]王萍.人工智能在教育视频中的应用分析与设计[J].电化教育研究，2020，41（03）：93-100+121.

[10]黄欢，孙力娟，曹莹等.基于注意力的短视频多模态情感分析[J].图学学报，2021，42（01）：8-14.

[11]欧阳元新，王乐天，李想等.教育领域反馈文本情感分析方法及应用研究[J].计算机教育，2020（06）：80-84.

[12]况姗芸，黄润梅，卢昀等.基础教育信息化教学实践现状分析与推进建议——基于“部级优课”视频课例的调查[J].中国电化教育，2018（09）：61-68.