基于知识注释的MOOC 视频快速检索系统研究

2020-12-16许邓艳卢民荣

实验技术与管理 2020年10期

许邓艳，卢民荣，王莹

（1. 福建工程学院应用技术学院，福建福州 350118；2. 福建江夏学院会计学院福建省社科研究基地财务与会计研究中心，福建福州 350108）

MOOC 在国外由来已久，截至2020 年2 月，在中国大学MOOC、学习通（含超星学银在线）、智慧树等的注册人数已经超1 亿[1]。MOOC 平台教学主要包括老师制作发布课程、知识点（knowledge）设计、课程拍摄、录制剪辑及课件试题资源等，而学习者主要通过观看视频、参与讨论、提交作业等实现在线学习。因此，MOOC 视频是MOOC 平台的关键资源，亦是课程核心竞争力，视频内容、质量直接影响着学生的学习积极性和学习效果[2]。当前，MOOC 视频还存在一些不足，如视频内容无法检索、回放定位辅助操作不清楚、知识点与视频帧无关联等，这些不足是由于视频自身的“封闭性”造成知识点在视频中的“隐蔽性”，从而不利于知识信息在视频中的注入和检索生成[3-4]。国外已经开发了一些视频分割标注工具，如VAST、 VITAL、 VAT 等，主要应用于教学反思，无法解决对MOOC 视频内容注释不足的问题，大部分仅是对视频的标题和内容（有些研究用主题、摘要）作关联说明，视频内容的检索技术未得到有效的应用。因此，基于注释的MOOC 视频快速检索系统显得非常有必要，该研究主要运用视频分割、关键帧提取设计MOOC 视频注释系统；基于注释、知识结构、课件关联等多重注释设计检索系统。该系统可以提升MOOC视频注释效率和检索需求，从而提升知识点视频帧定位和学习资源的交互维度，更加方便MOOC 视频学习，提高温习效率和学习热情等。

1 相关工作

1.1 MOOC 视频检索研究

当前国内MOOC 平台拥有大量名校、名师讲课视频资源，有许多国家级、省级精品课程，各大平台已经进入比较稳定运营状态。MOOC 平台如何利用已有的资源扩展个性化服务、提升信息化管理的便捷性，MOOC 视频检索技术是关键。国外在视频检索上比较注重检索效率的研究，如设计了视频编码快速搜索算法、加入了搜索排序进行视频内容的检索[5-6]。国内有部分学者使用关键词提取、内容检索、深度学习等方法进行MOOC 视频检索研究，这些主要应用在分类上，也有另一些基于图像比对、特征融合的研究，这部分研究侧重图像识别的应用，以上这些研究对于MOOC 视频内容如何与教学知识点关联并不明显[7-9]；另一些学者对MOOC 视频的标注、批注、注释等进行研究[10-11]，但与MOOC 视频检索技术关联不明显。

1.2 视频分割、检索方法

在百度学术、中国知网上对MOOC 视频分段、视频分割进行检索，并没有发现相关学者的研究；而对MOOC 视频检索方法已经有二十几项研究，已有研究主要停留在视频的主题、摘要、介绍等检索[4]，并非视频中的内容检索（视频帧定位），如基于视频摘要的视频检索系统、基于人工标注的视频检索系统。对于视频分割、检索方法已有一些成熟的研究，并成功应用于关键人物、车辆识别、视频监控等，取得比较理想效果的语义匹配的视频分割，其分割处理方法有特征提取、视频聚类、边界检测、片段检测、关键帧提取等关键技术[12]。相应的视频检索方法也比较多，有基于内容检索、颜色检索、形状检索、纹理检索等的视频检索方法[13-14]。现有研究方法可借鉴性比较广，除传统的基于阈值的、区域的、边界检测图像分割外，还有基于小波分析和变换的、遗传算法的、马尔科夫模型以及人工智能的神经网络、聚类的分割与检索方法[15-17]。基于注释的MOOC 视频快速检索系统的研究主要建立在已有视频分割基础上，根据MOOC 教学视频易聚类特点，对已有MOOC 视频进行快速分割，并将分割后的视频首页，以第一帧和关键帧提取出主图像和若干个辅助图像，辅助视频维护人员的注释。

1.3 视频注释辅助系统

视频注释也称视频标注、视频批注，在视频剪辑、视频监控和字幕制作等应用十分广泛，而相应的模型和算法则不像视频镜头分割与关键帧提取那么普遍。目前流行的注释工具有： LabelImg 、 Labelme 、RectLabel、CVAT（OpenCV）、VOTT 等，这些工具在区域批注比较成熟，包括人工注释和自动数据注入。基于本体和规则学习的视频注释与检索开启了MOOC 视频注释的研究，后续有上下文的图像和视频标注结合、扩展视频注释，以及后来视频标注中提出异构域自适应方法都对视频标注进行比较深入研究[18-21]。在国内，MOOC 视频教学主要是为方便教学者对视频内容进行教学补充，而这些标注一旦被工具封装后就无法被外部检索，因此不能有效起到辅助MOOC 视频内容的检索。近两年，对视频注释的算法、模型等的研究，大部分依赖于人工智能算法，有利于数据标注行业应用，但没有涉及 MOOC 视频检索[22-24]。文献[11,25—26]对于MOOC 视频的教学标注和复合视频信息组织模型在MOOC 视频注释辅助系统中的应用有一定的探索。因此，使用视频分割结合视频标注功能，从而发挥其内部注释辅助系统作用，该工作对视频内容检索技术研究和MOOC 视频教学应用有着十分重要的现实意义。

2 MOOC 视频注释系统设计

2.1 框架

MOOC 视频注释系统设计是快速检索的关键环节，因此，设计时首先要充分利用MOOC 平台中的教学视频存在录制、展示与知识结构、授课课件关联的特殊性，进而提出MOOC 视频注释框架，如图1所示[27]。MOOC 教学视频的录制主要有两大类型，一是教学课件的展示和解说，这种以屏幕分享模式为主，有一部分也配合摄像头录制教师行为（也称专业录播）；另一类是具有电子教室场景，这种以摄录教师教学行为为主。但总体上MOOC 教学视频有知识点静态特质即当一个知识点在讲解时，视频中主要区域是静止不变的，而知识点切换时则视频中画面变化是比较大的。

图1 MOOC 视频注释框架

在图1 框架中，首先捕获视频页的变化，分割出子视频集合，然后提取子视频的关键帧，并进行图像识别，定位视频对应的知识点和课件信息，提升视频注释效率。最后，通过教学者确认关联，形成视频注释集，后续研究也可以通过作业、答疑等其他学习资源的关联，进一步扩展视频注释功能。

2.2 算法

MOOC 平台视频录制来自不同教学设计者，其视频码率、分辨率、图像质量都不统一，因此本研究基于感知哈希信息的视频分割方法[27-28]，该方法涉及关键帧提取、图像识别等技术。核心思路提取指定间隔两个视频帧，将任意大小帧图像转换为固定大小输出，运用图像哈希函数比较图像相似度，以确定视频分割的边界。图像哈希函数因其实现简单，在视频分割方面可以大大提升计算速度，如遇到分割不理想的视频则可以调节相似度比较参数，从而适应不同的视频分割。具体实现过程如下。

2.2.1 视频分割步骤

Step 1. 获取指定间隔两帧（step 表示帧间距，本算法取值240），并进行图像缩放尺寸为16×16（太大不利于计算速度）的两张图X和Y。

Step 2. 图像灰度化和均值计算。

分别采用平均值法对图像X和Y计算灰度值，计算灰度方法如下：

式中，i,j分别代表图像中的像素位置，R,G,B 分别代表图像颜色值。

Step 3. 比较像素的灰度。

将每个像素的灰度，与平均值进行比较，大于或等于平均值记为1，小于平均值记为0。以图像X为例，计算如下公式：

Step 4. 哈希组合计算差值（有些研究使用直接帧差法，在本研究尝试中发现虽然时间效率帧差法比较高，但准确率低于均值法）。

将两张图像像素的灰度组合在一起，就构成了一个16×16 位的整数，然后进行哈希计算差值，即：

Step 5. 确定视频分割边界。

如果Hash/(16 × 1 6)大于系统设置的图像相似度参数（一般设置为0.7）则视频帧Framen+step并不是分割边界，继续取下一帧比较，回到Step 1，直到出现分割边界；反之则为分割边界，即可明确视频分割边界起始帧、结束帧和所对应的时间点等信息。

2.2.2 边界分割点代码实现

本系统实现是以Python 和C#相结合，此处分割点识别代码为 Python 实现过程，C#主要实现视频检索，如图2 所示。

2.3 功能

MOOC 视频注释系统最核心设计就是将教学视频如何跟知识点、课件（PPT）等教学资源进行有效关联，如图3 所示，形成比较完整的注释集，这是检索系统设计成败的关键。以MOOC 教学视频分割为基础，将视频分割为各子视频集（Video），VID 表示视频的唯一识别码，VB、VE 分别代表子视频相对于原分割前视频的分割开始、结束帧，VC 表示视频注释内容（C 表示内容Context 的简称，下同）。

图2 边界分割点代码实现

图3 MOOC 视频注释集的知识关联

2.3.1 关联知识点

由于知识点具有树型结构，FID 表示父节点，KID表示知识点的唯一识别码，用0 表示根节点，节点结构由知识体系决定，KC、KP 代表知识注释和知识点；分割视频和知识点关联关系为多对多，其中NC 表示关联后的知识注释。

2.3.2 关联课件

由于课件具有页数关联强特点，视频分割数与课件页数有最为直接关联，对于分割与课件页无效关联仍然需要人为调节；分割视频和课件关系为多对多，其中PID 表示PPT 的唯一识别码，PNUM 表示PPT 页码。

根据分割算法和注释辅助功能的配合，可以产生系统推荐关联注释，注释的关联生效由教学设计者进行人工确认。当系统对视频情境与知识关联不确定时，尤其需要教学设计者审慎操作，重新匹配关联。关联后的注释将产生比较完整的注释集，把视频内容、知识结构、课件等教学资源按关联规则呈现给用户。

3 MOOC 视频检索系统设计

3.1 基于注释的检索设计

在注释系统设计中已经包含了MOOC 视频分割后各子视频的注释集，关联的知识注释、课件注释，以及关联后的注释。由于视频注释（VC）关联后的注释（NC）是教学设计者关联时确认的，在检索时优先被查找，然后才是知识注释（KC）和课件注释（PC）。本检索路径为：

1）VC→VB、VE。

这种方式效率最高，直接从子视频注释快速检索视频注释集的播放开始位置VB 和结束位置VE。

2）NC→VID→VB、VE。

设计关联后的注释，主要是为了与分割后子视频注释有直接关联，这样可方便快速定位到视频的VB和VE。为了让关联查询更有效，系统检索均采用左查询方式，以检索条件过滤表为主表进行查询。

3）多表关联检索KC→KID→VID→VB、VE 和PC→KID→VID→VB、VE。

课件、知识点注释进行查询需要跨多表，以课件检索视频为例：①C#程序调用查找关键字；②SQL 关联查询代码SELECT VID,VB,VE FROM PPT LEFT OUTER JOIN NOTE ON PPT.PID=NOTE.PID LEFT OUTER JOIN VIDEO ON NOTE.VID= VIDEO.VID WHERE PC LIKE ‘%关键字%’。

然而作为学习者进行检索条件设置时，并不会以教学设计者的角度进行设置，有些检索结果并不如意，需要后期持续维护注释集。

3.2 基于知识结构的检索设计

MOOC 教学视频内容的知识结构往往都具有树型结构特点，即知识树。以视频的教学主题为知识顶点或若干平行知识序列为顶点，知识结构如图1 中的知识树所示。而所属知识点作为知识学习脉络具有很强的知识联系，因此，基于知识结构的检索设计路径为：

1）KP→KID→VID→VB、VE

这种做法类似于基于注释的检索设计中的3），以知识点进行查询，同样需要跨多表方式，仍然以左查询的方式。若KID 不为0 则需要增加以下2）、3）两种检索。

2）KP→KID，FID→ KID′(一) →VID→VB、VE

通过知识点获得父节点（上一级的知识点），再由父节点与视频关联，KID′表示父节点对应的ID，由于知识点查找时知识关联非常重要，很可能查询的知识点在其上级或下级3）中，实际上也是如此。

3）KP→KID，FID →KID″(多) →VID→VB、VE

在查找下级知识点关联时，把当前定位的知识点作为父节点进行查询（即查询时把父节点等于当前节点），此查询结果会出现多个子节点即一个知识会有多个知识点组成，KID″表示所有的子节点对应的ID。

3.3 基于大学英语的教学案例

以大学英语的Unit 1 Section A（《新视野大学英语(2)(第二版)》，外语教学与研究出版社）单元完整MOOC 教学视频和新型冠状病毒肺炎疫情知识的微课视频为例进行分析，两个视频为不同的英语老师，首先，各自根据系统分割完成视频注释和测试检索，然后，两个老师对换测试检索，最后，公布各自设计的知识树再进行检索测试。实验硬件配置为CPU：i5 4300 2.5 G（双核四线程），内存：8 G，实验结果分别如下。

3.3.1 MOOC 教学单元视频

该视频长45 min，课件36 页（封面和最后致谢各1 页，最后5 页为扩展内容和作业要求，实际涉及视频内容为29 页），知识结构设计以单元主题为顶点，下设5 个一级节点，其中4 个有二级节点，有一个节点有三级节点两个。知识结构设计、视频注释均以课件内容为主，作简单扩展。具体时间消耗和效果评价见表1—2。

表1 MOOC 教学单元视频注释与检索

3.3.2 知识点的微课视频

该视频长20 min，课件12 页（与MOOC 教学视频制作不太一样的风格，作业1 页，作业布置说明在视频中也体现），知识结构设计以引言、问题（下设三个问题节点）、介绍（下设原理、防护两个节点）、病毒知识延伸（下设相关病毒知识、鼓励、学习反思三个节点），无三级节点。知识结构设计、视频注释同样均以课件内容为主。具体时间消耗和效果评价见表3—4。

表2 MOOC 检索评价（未公布知识结构互换）

表3 MOOC 教学单元视频注释与检索

表4 MOOC 检索评价（未公布知识结构互换）

3.3.3 小结

从表1—4 的数据可以简要得出三个结论：①效率可行：一个教学视频注释需要10 min 左右，检索时间短（由于没有在各大MOOC 平台大容量下测试，查询响应0.001 s 的性能并不准确）。②检索有一定依赖性：知识结构的检索相关性非常大，由于检索方不知道教学设计者的知识结构设计意图时，不容易检索出所需要的结果，同时也反映了注释还有一些后期维护工作。③满足检索需求：以上实际案例操作表明本系统可以实现快速检索的需求，有助于MOOC 平台的视频内容辅助检索，教学视频与知识结构关联的深入研究切实可行，而且具有现实效益。

4 结语

在知识时代中任意一个技术问题都可以影响学习者的学习积极性，减少学习者获取知识的时间和降低教学者设计工作量便是提升学习、工作效率。国内目前成熟的MOOC 平台已经有二十多个，每个平台的课程量都很大，如截至2020 年2 月，学银在线2219 门、爱课程5034 门、智慧树3958 门，等等。其视频检索功能大部分基于视频主题、摘要的检索，尽管检索可以获得相对准确的视频结果，然而每次在视频中寻找知识点或疑惑的视频页并不容易，而且这种操作比较耗时。因此，研究中采用关键帧提取后运用图像哈希函数比较图像相似度来快速分割视频，实验表明该分割方法对MOOC 教学视频有较强适用性，经过微调即可完成较好的分割效果，相对现有许多复杂的分割算法，反而本算法的效率有一定的优势。实验还检验了知识关联的视频注释辅助系统对视频内容检索有着很高的检索效率。

目前，通过深度学习、神经网络等训练方式的视频分割比较热门，由于其效率不高和存在参数不通用，尤其教学设计差异的视频在聚类上也不明显，导致该方法未得到普及。后续针对视频的注释、内容检索，仍然需要研究深度学习在课件、视频、知识生成的应用，以便减少当前分割系统中的关联调节，同时也能减少视频注释的工作量。