基于多模态的教学视频分割系统设计

2022-06-01祁冰

信息记录材料 2022年4期

祁冰

（海南工商职业学院海南海口 570228）

0 引言

随着计算机和网络技术的发展，线上教育已成为一种常用的学习方式。然而网络上现存的大量长时间的教学视频现状与当今人们简单高效的学习追求产生了矛盾，短视频的流行证明了这一点，人们渴望高效地获得知识，在某些有限的条件下只能利用碎片化的时间或精力，甚至时长超过15 min 的教学视频就会不受欢迎，因此产生了将长教学视频按内容知识点来分割成小段视频单元的需求。

而想要解决长教学视频分割的问题，直接采用现有的视频分析方法有如下不足：首先，现有利用深度学习技术的视频分析方法采用的标准数据集都具备明显的背景环境、人物、目标和动作，而教学视频除了情境教学环节会出现这类内容，其他部分以教师站在课件或软件前讲解居多，在标准数据集中预训练的现有视频分析技术难以提取出代表教学内容的语义特征。其次，同样由于数据集的原因，利用现有视频文字描述方法更擅长短视频文字描述，如：一个男人在路边演奏钢琴。然而教学视频往往是长时间视频，内容多变，要想提取出其中的文字语义信息，现有方法处理困难，描述准确率很低。

1 多模态视频分割系统框架的提出

站在多模态的角度分析，教学视频有其自身特点：首先，图像模态部分的组成部分较为固定：教师人像、课件画面、软件演示画面或教学情景视频；其次，声音模态主要组成部分是教师的授课语音，也有较少的背景音和过渡音，其中包括视频素材的还有素材自带音频，然而不是所有教师的语音都是标准的普通话，也并非都与视频图像内容一一对应，数据量较大；最后，文字模态部分主要由贯穿整个教学视频的课件文字组成，由部分教学视频配有字幕文字，课件中字体大小一般按标题和内容分级，标题字体更大位置更靠上。

尽管教学视频包含丰富的图、文、声、像多模态的信息，然而针对视频按内容分割任务而言，声音模态种类少，教学内容的切换与声音的波动与变化没有显著联系，若将语音转化为文字来提取视频语义内容，需要考虑包括非标准普通话语音识别成错误率和信息冗余，而图像模态和文字模态本身包含文字，可以利用图像模态和文字模态作为教学视频分割的依据。随着深度学习的发展，计算机视觉和自然语言处理方法中现有很多优秀的图像和文字处理方法。以某平台上《网络攻防与协议分析》课程的教学视频为例，本文提出了一种结合了图像模态及文字模态的视频分割系统框架，见图1，先基于直方图特征将视频按镜头初步分割，提取镜头关键帧，对关键帧中课件标题文字进行检测与识别，最后按标题文字相同与否来合并镜头组成有完整知识点的教学视频单元，采用这种框架整合现有方法，取得了较好的长教学视频语义分割效果。

2 镜头分割

自然场景中的视频镜头切换方式多达10 种以上，针对不同的切换方式有多种镜头边界检测方法，包括基于运动、轮廓、直方图、深度神经网络的方法等[1]。然而教学视频中的切换方法较简单，总体分为镜头突变和镜头渐变两类，本文选用基于直方图的方法，处理起来既简单又能取得较好的效果。直方图表示一幅数字图像中不同颜色或不同灰度在数量上占有的比例，可以代表图像的颜色或灰度分布情况，与颜色在图像中出现空间位置无关，不同图像其直方图及参数的变化见图2。

2.1 镜头突变检测

镜头突变指两个镜头直接切换，前后镜头没有交叠过渡，是教学视频中常用的切换方式。由于镜头的突变切换，会导致前后视频帧的差异较大，提取相邻两帧的直方图对比，设其相似度低于设定阈值时，则认定这两帧之间发生了镜头的切换，可以在此处进行一次视频切分。

2.2 镜头渐变检测

镜头渐变指前一个镜头的最后几帧和后一个镜头的前几帧半透明的交叠在一起，直至后面的镜头完全出现。在这个过程中相邻帧的差异并不像镜头突变的忽然变大，而是从小到大再到小的过程。因此镜头渐变的检测方法与镜头突变不同，依次提取当前帧的后一帧直方图特征与当前帧的直方图特征，计算其相似度值，当出现了相似度值从小于设定阈值变化到大于阈值、而后又变回小于状态的过程，则认定这些帧之间发生了镜头的渐变，可以选择中间帧进行一次视频分割。

3 提取关键帧

按镜头分割视频后，得到许多视频片段，按25 帧/s的视频标准，则已分为单位的视频片段包含数量庞大的视频帧。同一个镜头中，视频帧之间差别较小，往往低于设定阈值，相互之间相似性大造成信息冗余，为了降低冗余度，降低数据处理工作量，需要将视频中的有代表性的关键内容帧提取出来，得到的一系列的关键帧图像，即可将视频模态的处理转化为图像模态的处理。

关键帧提取的方法主要有基于镜头边界、基于像素直方图、基于内容分析、基于运动分析和基于聚类的方法等[2]。教学视频主要以课件和教师为主要画面，课件和教师画面交替出现，有时教师画面还会与课件画面同时出现，然而能代表视频内容的画面主要来自课件的文字信息，因此视频分割依据主要为课件标题，理想中的教学视频关键帧应该包含完整课件标题。基于教学视频的这些特点，采用基于像素直方图的方法更适合提取视频关键帧。基于像素直方图的方法依次取镜头中相邻帧计算像素值距离，大于设定阈值的就设置为关键帧，阈值一般取所有距离的平均值，这种方法更适合视频帧中课件标题位置或文字不变的关键帧提取，其计算简单，且不止一个关键帧，还可以根据实际情况动态地调整阈值来取得更精确的关键帧，具有更好的灵活性和更高的准确率。

基于像素直方图的方法具体操作分为3 部分：首先提取每个视频帧的像素直方图，即将像素值区间为横坐标、像素的数量为纵坐标形成的直方图，依次计算镜头相邻帧之间的距离，第2 步计算所有距离的平均值，设定为阈值，最后依次将各个距离与阈值相比较，距离大于阈值的两帧取后一帧作为视频关键帧。如果获得的关键帧存在重复和冗余，调整阈值直至得到更加准确的结果。为了以课件标题文字作为视频分割依据，可以在得到的关键帧中再次通过设置阈值，去除掉单独教师画面和情景教学画面的关键帧，仅保留包含课件画面的关键帧。

4 文字检测与识别

在上一步中得到了包含课件画面的各个镜头提取的关键帧，现在要将这些关键帧中的文字提取出来，为后期的镜头合并提供依据，这一步将前期图像模态的处理转化为文字模态的处理[3]。文字检测与识别一直是计算机视觉领域研究的重要问题，文字检测是指运用文字检测算法检测输入图像中是否含有文字，若检测到文字，还需定位文字出现在图片中的位置；文字识别即运用文字识别算法对输入图片中的文字区域进行识别。文字检测是文字识别的基础，识别文字需要准确的文字检测定位框。

自然场景图像中包含的文字可能存在背景干扰或角度扭曲等问题，而教学视频中的文字大多数出现在精心准备的课件中，不存在角度不正或模糊不清等问题，相比自然场景图片文字更加清晰易得，因此，教学视频中文字检测与识别任务相比自然场景文字的更简单。现有自然场景视频文字的检测识别已取得一定成果，可以在现有自然文字的检测识别方法中选择适合的方法来完成这一任务。

4.1 文字检测

在视频单帧图像中检测出文字区域的方法主要分为两种：基于区域的方法和基于连接部件的方法，或直接调用现有OCR 工具来做文字检测，由于课件中文字与背景不是单纯的白底黑字这样的情况，采用OCR 工具检测文字其会产生大量的乱码，准确率不高。教学视频中的文字具有如下特点：文字较多、背景与文字区别较大干扰较小、同一行文字的字体、颜色、大小相似，其中标题文字还具有字体更大更粗更醒目、位置靠上、通常为单行等特点。针对教学视频的标题文字特点，选择基于连接部件的方法更为有效精确。基于连通部件的方法将图像中出现文字的连通区域设置为候选文字提取区域，它能检测到经过变形、调色、缩放、字体调整的文字，采用现有方法中的自然场景的文字检测算法：最大稳定极值区域方法（Maximally Stable Extremal Regions，MSER）就能较为精确地获得文字的定位框[4]。该方法具体实现过程如下：（1）对文字进行区域块的提取。（2）对提取的区域进行连通域分析，求得其最小包含矩形框，合并矩形框，去除明显的非文字框。（3）进一步合并矩形框，得到逐个文字块。（4）将文字块处理成正矩形框，进行块的反白判断和二值化。（5）对二值化后的图像进行投影，依据分析高是否为宽的整数倍来判定矩形框定的是否为文字块，从而得到最终结果。

得到文字块的集合后还需要进一步从中找出标题文本区域，由前述分析可知，标题文字较其他文字位置靠上且字体更大，一般字体大小大于35 号且文字个数不少于两个字，于是可以设定标题文字的判断条件为宽大于70，高大于35，且宽高比大于2，从坐标位置靠上方的文字块开始匹配，符合条件的即为标题文字框。

4.2 文字识别

文字检测实现的标题文字框准确的定位，依然是图像模态，要通过文字的识别转为含有语义的文字模态。文本识别主要分为两种策略：单字识别和多字识别，单字识别是将文本行分割成单独的文字进行识别，单字识别主要采用基于卷积神经网络的分类器来识别[5]。多字识别就是对文本行整体识别，不需要分割。对于多字识别的文本识别主要采用两种方法：基于连接主义时许分类损失函数的方法和基于注意力机制的方法。由于需要识别的教学视频标题文字清晰醒目，其识别任务相对简单，采用基于卷积神经网络的分类器的单字识别方法，该方法简单易行，准确率高，对文本行有很好的识别效果。分类器具体工作原理如下：（1）基于字符的笔画宽度对文字行进行分割，得到多个单独的文字框。（2）将这些文字框送入训练好的分类器，分类器包括5 000 类，包括大部分的汉字、英文字母、数字和符合等，每个文字框图最终被分类成对应的文字字符。

5 镜头合并

经过上述步骤就得到每个关键帧的标题文字信息，将长教学视频分割成多个具有完整知识点的视频片段，依据是每个视频片段包含相同的标题且时间前后连续，将具有相同标题文字的相邻镜头进行合并。然而有些关键帧不包含标题文字，由于课件一般会用标题来体现知识主题和学习进度，没有更换标题代表这个知识点的讲解还没结束，因此在新标题出现之前默认现在的视频都属于前一个知识点，将其镜头合并到前面的视频片段中。合并后的视频片段和标题文字对组成具有完整知识点的教学视频单元，其中文字还可以作为视频单元的摘要信息，可用于满足用户后期浏览和检索视频的需求[6]。具体算法流程见图3，设当前视频单元为V，关键帧为K，标题文字为T。

6 结语

随着信息技术的发展，如何将教学形式进行多样化，是每个教学专家研究的方向之一。而网络教学则给这样的时代提供了一种有效、便捷的学习方式，在这种学习方式中，我们需要对教学视频进行很好地研究，以便学习者能够在海量的学习视频中较为精准地检索到自己需要的学习内容。而本文提出了一种多模态的教学视频分割系统框架，能够有效地为学习者进行视频信息的检索与查找。本文对其主要步骤进行了详细的阐述：首先基于直方图特征将视频按镜头初步分割，然后提取镜头关键帧，对关键帧中课件标题文字进行检测与识别，最后按标题文字相同与否来合并镜头，组成有完整知识点的教学视频单元，将标题文字作为视频单元的摘要信息，以便后期用户的浏览和检索需求。整个系统框架设计简单，目标明确，将现有方法整合起来，取得了较好的长视频语义分割效果，值得在实际视频检索中进行应用。