深度学习视角下基于多模态知识图谱的MOOC课程重构*
2018-11-09王亮
王 亮
深度学习视角下基于多模态知识图谱的MOOC课程重构*
王 亮
(华中科技大学 教育科学研究院,湖北武汉 430074)
文章以在线学习者的深度学习需求为出发点,首先提取来自不同平台的MOOC课程资源所蕴含的知识实体及其层级关系,构建以“知识实体—关系—知识实体”三元组为核心的多模态知识图谱。随后,文章通过多个相同内容的MOOC课程的资源融合,重构面向学习者深度学习需求的个性化MOOC课程。最后,文章依据在线学习者所设定的学习目标生成动态学习路径,为学习者提供优质课程资源推荐服务,解决MOOC课程的学习导航问题和优质课程资源的跨平台融合问题。实验表明,基于多模态知识图谱的MOOC课程重构能够降低MOOC课程的辍学率,提高在线学习者的学习成效和学习效率。
MOOC课程;多模态知识图谱;课程重构;学习路径
引言
深度学习(Deep Learning)是一种基于理解和应用的持续学习过程,以知识建构与迁移、问题解决和能力发展为目标,既关注学习过程又强调学习结果的应用和迁移[1]。目前,针对某些热门课程已上线的MOOC(Massive Open Online Course)课程多达数十种,不但没有满足学习者的深度学习需求,而且仍面临持续较低的完成率和高辍学率、课程资源重复开发、跨平台资源检索与融合困难、在线学习效率较低等问题[2][3][4]。其原因主要包含以下几个方面:①课程学习局限于某一个MOOC课程所提供的有限学习资源和服务,学习者只能选择其中一个来进行课程学习,无法有效利用其它相同内容的MOOC课程提供的优质资源和服务,而单独某一个MOOC课程往往很难满足学习者的深度学习需求[5][6]。②现有的MOOC课程知识点以固化的线性模式呈现给学习者,缺少有效的在线学习导航和优质的课程资源推荐服务,不利于学习者根据已掌握的知识结构选择相应的知识学习路径。学习者的在线学习效果和效率很难得到提升,从而出现低完成率和高辍学率的问题[7]。③由于缺乏有效的课程资源评价机制,导致MOOC课程的低质量重复建设,直接影响了MOOC课程学习的效率和效果。
面对MOOC课程资源总量的快速增长及其更新速度的不断加快,如何在海量MOOC课程资源及其相关学习资源中发现、重构和推荐最符合学习者深度学习需求的多模态学习资源,通过提供精准的个性化学习服务促进学习者的深度学习,已成为当前教育信息化亟待解决的关键问题。为此,本研究以提高MOOC课程的学习效果和学习效率为目标,以学习者的深度学习需求为出发点,提出了一种基于多模态知识图谱的个性化MOOC课程重构方法。
一 多模态知识图谱
MOOC课程包含微视频(含视频字幕和讲义)、测验作业、问题讨论记录等多种模态的知识内容表达,是一个由视频、语音、图像和文本构成的多模态系统。面向多模态MOOC课程的知识图谱,是以所抽取的课程资源中的知识实体为节点,依据知识实体之间的层级关系(如表1所示)生成“知识实体—关系—知识实体”三元组,并根据这些三元组生成表示MOOC课程知识实体之间相互关系的多模态知识图谱。其中,知识实体是体现MOOC课程微视频主要内容的核心概念,其余模态的MOOC课程资源(如测验作业、问题讨论记录等)根据其包含的核心概念将其归为某一个知识实体的属性。知识实体之间的层级关系表示学习者在学习某一门MOOC课程时的先后顺序以及知识实体之间的相关性[7]。依据微视频资源的目录结构,以课程名为起始节点,以知识实体所在的节点与起始节点及其相关节点之间的关系表示MOOC课程中不同知识实体之间的层级关系。
表1 知识实体之间的关系定义
以“C语言程序设计”MOOC课程中的部分知识实体为例,可构建如图1所示的多模态知识图谱。相邻两个不同级别的知识实体之间是父子关系。在两个同级知识实体中,左侧的知识实体和右侧的知识实体是先验后继关系或平行关系。在三级知识实体中,若左侧的知识实体和右侧的知识实体不存在先验后继关系,则为平行关系,如“标准库函数”和“嵌套调用”;否则为相关关系,如“嵌套调用”和“自定义函数”。
图1 “C语言程序设计”MOOC课程部分资源生成的多模态知识图谱
多模态知识图谱具有关联性、结构性和导航性,能够为MOOC课程重构提供以知识实体为核心的、非线性方式组织的多模态课程资源。MOOC课程重构是以面向MOOC课程的多模态知识图谱为基础,通过以知识实体及其相互之间的关系为依据的多模态课程资源的跨平台检索与融合,重新构建MOOC课程资源组织结构的过程。因此,多模态知识图谱的生成是MOOC课程重构的关键。
二 面向MOOC课程重构的多模态知识图谱生成
面向MOOC课程重构的多模态知识图谱生成,包括面向学科的知识实体语料库构建、面向MOOC课程资源的知识实体识别及其关系抽取、多模态知识图谱的生成。
1 面向学科的知识实体语料库构建
相同主题的多个MOOC课程是一个由教师和学生创造的学科知识库,教师精心设计的课程资源描述文本(如微视频标题及其字幕、测验作业问题、课件内容等)体现了某一个学科的知识实体。由于面向学科的知识实体通常是名词性的词组或短语,本研究采用如图2所示的知识实体语料库构建方法,从MOOC课程资源描述中自动抽取针对不同学科的中文短语作为学科知识实体,减少人工创建学科知识实体语料库的重复劳动。
图2 基于MOOC课程的学科知识实体语料库构建
基于MOOC课程的学科知识实体语料库构建步骤为:①将MOOC课程资源描述文本作为学科知识描述文本进行输入。②分别以汉语言处理包HanLP提供的中文分词模型和词性标注模型为基础,采用平均感知机算法完成中文分词和词性标注。因为平均感知机算法是一种二分类算法,能够解决训练过程中由于学习率参数过大所引起的训练过程中出现的震荡问题。③基于哈尔滨工业大学停用词词库和词性标注结果,过滤其中包含的停用词。④词频统计包括一阶词语和二阶短语的频次统计,一阶词语的频次是指每个词在学科知识描述文本中出现的次数,二阶短语的频次是指“数据→类型”、“控制→结构”这类二阶词串连续出现的频次。⑤采用基于互信息和左右熵的中文多词表达提取算法,从过滤掉停用词的文本分词结果中自动发现固定短语,即自动抽取固定多词表达串。⑥对自动抽取的多词表达串进行人工调优,删除一些错误的自动抽取结果,从而得到面向某个学科的知识实体语料库[8]。⑥将所构建的学科知识实体语料库添加到现代汉语标注语料库中,通过增量训练方式训练新的分词模型和词性标注模型,提高面向学科的中文分词和词性标注的精度。
2 面向MOOC课程资源的知识实体识别及其关系抽取
(1)知识实体的识别
Skip-gram向量模型是一个具有三层神经网络结构的词向量计算模型,输出的词向量可用于词语语义相似度计算、语义查询等[9]。BiLSTM-CRF是一个基于双向长短时记忆网络(BiLSTM)和条件随机场(Conditional Random Fields,CRF)构成的命名实体识别模型,利用深度神经网络提取特征,避免人工定义和提取特征的问题,包括Look-up层、BiLSTM层和CRF层[10]。为自动识别表示MOOC课程资源内容的知识实体,本研究设计了如图3所示的面向MOOC课程资源的学科知识实体识别模型。
面向MOOC课程资源的学科知识实体识别步骤为:①基于中文分词语料库(如Sighan05分词语料、搜狗分类互联网语料库)和学科知识实体语料库,训练Skip-gram词向量模型;②利用基于学科知识实体语料库增量训练的分词模型对MOOC课程资源的描述文本进行分词标注,并利用训练得到的Skip-gram词向量模型预测资源描述文本中每个词串的词向量,并对得到的词向量利用层次Softmax算法进行归一化处理,所输出的词向量可用于词语语义相似度计算、语义查询等;③以Skip-gram模型预测得到的词向量表示的句子作为输入,Look-up层将每个词向量映射到低维空间,然后将低维度表示的每个词向量输入到BiLSTM层,由BiLSTM层自动提取句子特征和词特征。最后,CRF层根据所提取的特征对知识实体进行标注,输出自动识别的MOOC课程资源相关的知识实体。
图3 面向MOOC课程资源的学科知识实体识别
(2)知识实体的关系抽取与表示
知识实体关系是其对应MOOC课程资源之前层级关系的映射,采用三级知识实体表示方法即可描述多模态知识图谱中的一个MOOC课程资源及其相互之间的关系,从而基于多模态知识图谱重构MOOC课程,其步骤为:①从MOOC课程资源目录的第一级标题和第二级标题中抽取知识实体,分别作为第一级知识实体1和第二级知识实体2,用来描述学习者的学习目标和学习需求;从微视频及其字幕中抽取知识实体作为第三级知识实体3,用来标识某一个MOOC课程资源及其属性。②将知识实体的来源(如微视频标题、测验作业问题或问题讨论的主题)及其所属MOOC课程资源目录中的层级关系,作为该知识实体之间的初始关系。由于每个教师对同一门课程的教学内容组织顺序不同,来自多个相同主题的MOOC课程的同一个知识实体可能具有不同的层级关系,首先对这个知识实体的子知识实体及其属性进行融合,然后以出现频次最高的层级关系作为融合后的新知识实体的层级关系。
3 多模态知识图谱的生成
假设针对某一个主题的MOOC课程群是由个核心内容相同的MOOC课程C组成,表示为={C},=1,2,…,。每个MOOC课程C由个三级知识实体K=[k1,k2,k3]及其属性来描述,[a,b,c]表示该每级知识实体与起始节点(课程名)的距离,其对应的词向量为v=[v1,v2,v3]。该MOOC课程群对应的多模态知识图谱使用一个有向图(,)来表示,={K}表示从不同MOOC课程提取的三级知识实体的集合,R∈表示两个知识实体K和K之间的层级关系。R=0表示平行关系,否则表示先验后继关系,即R>0表示知识实体K是K的前提,否则表示知识实体K是学习K的前提。因此,面向MOOC课程重构的多模态知识图谱生成步骤如下:
①创建一个用于存储多模态知识图谱的一个有向图={L},=1,2,…,,节点L包含一个三级知识实体[l1,l2,l3]及其层级关系属性[a,b,c]和词向量[v1,v2,v3]。
②从个MOOC课程C组成的课程群中取出一个课程C,然后从C中取出一个知识实体K=[k1,k2,k3],其层级关系属性依次为[a,b,c],每级知识实体的词向量分为[v1,v2,v3]。
③若起始节点的子节点中存在v1= v1的节点,则执行步骤④;否则将K作为起始节点的子节点插入,并使插入后的二级知识实体的层级关系属性保持非递减顺序。
④若存在满足v2=v2的二级节点,则执行步骤⑤;否则将K以l1为子节点插入,并使插入后l1的子知识实体的第三级关系属性保持非递减顺序。
⑤若v3=v3,则将K对应的课程资源融合到L叶子节点的知识实体属性中;否则将知识实体K插入中,插入后l2的子知识实体的第三级关系属性依然保持非递减排序。
⑥迭代执行步骤②③④⑤,直到所有课程中的知识实体都添加到多模态知识图谱中。
三 基于多模态知识图谱的MOOC课程重构
完成面向MOOC课程群的多模态知识图谱构建之后,即可依据相关MOOC课程资源中所包含的知识实体在多模态知识图谱中所处的节点位置以及知识实体之间的关系,进行跨MOOC课程的资源检索和融合,将分布于不同MOOC平台的多个内容相同的课程重构为一个组织结构合理、资源丰富的新MOOC课程,如图4所示。
图4 基于多模态知识图谱的MOOC课程重构
基于多模态知识图谱的MOOC课程重构步骤为:①学习者根据一级知识实体及其子知识实体确定深度学习目标;②MOOC平台从学习者所设定的学习目标中抽取知识实体,并采用所训练的Skip-gram词向量模型计算其词向量,以这些词向量为检索对象在多模态知识图谱中查找相应的知识实体节点,根据检索得到的知识节点及其层级关系,通过MOOC课程资源的跨平台融合重构面向学习者深度学习需求的个性化MOOC课程;③根据重构的MOOC课程知识实体之间的层级关系生成初始学习路径,为学习者提供在线学习导航服务,避免学习者因知识结构复杂而迷失学习方向甚至终止学习过程。
在学习具体的知识内容时,根据学习者的学习特征,采用基于矩阵分解的协同过滤算法[11]为学习者推荐优质的多模态课程资源(如微视频、测验、问题讨论记录等),解决评价缺失的MOOC课程资源的在线推荐问题,节省学习者在海量资源中搜索和甄别优质学习资源的时间。当学习者在作业测验中遇到困难时,为其推荐在线学习交流服务(如教师和助教答疑、生生交流等)或提示其学习相关课程内容,提高MOOC课程重构服务于深度学习的能力和水平。为提高优质课程资源推荐的准确度,学习者对MOOC课程资源的评价将反馈到MOOC课程重构流程中,通过完善MOOC课程资源的评价信息,自动过滤部分质量较低的课程资源,提高重构后MOOC课程资源的质量和课程资源推荐服务的准确度。同时,根据学习过程中的形成性评价分析学习者的学习状态,动态调整学习路径,使学习者高效地完成预定的深度学习目标。
由此可见,MOOC课程重构的本质是以多模态知识图谱为基础,以知识实体为核心融合分布于不同平台的各种优质课程资源,通过重构融合后的课程资源之间的层级关系,以学习者的深度学习需求为主导进行动态学习路径规划与实时优质课程资源推荐,为学习者提供个性化的MOOC课程,以满足差异学习个体的深度学习需求。MOOC课程重构的目标是优化在线学习过程和课程资源的智能服务模式,提高MOOC课程的服务水平和学习者的在线学习效率,帮助学习者利用MOOC课程资源有效开展深度学习。
四 案例分析
本研究以中国大学MOOC和学堂在线两个MOOC平台上的“C语言程序设计”课程为例,实现了一种基于多模态知识图谱的MOOC课程重构的原型系统。将320名未修读过“C语言程序设计”的大一学生随机分为人数相等的两组进行测试:A组通过原型系统,采用MOOC课程重构的方法进行在线学习,B组学生随机选择一门相应的MOOC课程进行在线学习。实验结果表明,A组的辍学率降低了27.1%,课程考核合格率提升了19.5%,且通过课程考核学生的平均在线学习时间减少了28.7%。这是因为MOOC课程重构能够帮助学习者高效获取优质课程资源、优化在线学习路径、及时提供学习辅导服务,从而提高了学习者的学习效率和学习效果。
[1]汪基德,王超然.信息技术与深度学习:信息技术教育研究新进展——中国教育技术协会信息技术教育专业委员会第十三届学术年会综述[J].电化教育研究,2017,(11):121-123、128.
[2]张刚要,沈大为.理解MOOCs的完成率:归因与挑战[J].中国电化教育,2017,(12):82-89.
[3]徐振国,张冠文,石林,等.MOOC学习者辍学行为的影响因素研究[J].现代教育技术,2017,(9):100-106.
[4]王雪宇,邹刚,李骁.基于MOOC数据的学习者辍课预测研究[J].现代教育技术,2017,(6):94-100.
[5]段金菊.基于社会性知识网络的cMOOC学习设计[J].电化教育研究,2017,(11):49-55.
[6]杨琳,吴鹏泽.面向深度学习的电子教材设计与开发策略[J].中国电化教育,2017,(9):78-84.
[7]刘红晶,谭良.基于教师视角的SPOC课程知识地图构建方法研究[J].电化教育研究,2017,(9):64-70.
[8]刘荣,王奕凯.利用统计量和语言学规则提取多字词表达[J].太原理工大学学报,2011,(2):133-137.
[9]Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[A]. Proceedings of advances in neural information processing systems[C]. Nevada: Curran Associates, 2013:3111-3119.
[10]Dong C, Zhang J, Zong C, et al. Character-based LSTM-CRF with radical-level features for Chinese Nnmed entity recognition[A].International conference on computer processing of oriental languages[C]. Kunmin: Springer-Verlag, 2016:239-250.
[11]He X G, Liao L Z, Zhang H W, et al. Neural collaborative filtering[A]. Proceedings of World Wide Web[C]. Perth: ACM, 2017:173-182.
Reconstruction of MOOC Courses based on Multimodal Knowledge Map from the Perspective of Deep Learning
WANG Liang
In consideration of the online learners’ deep learning needs, this article firstly extracted the knowledge entities and their hierarchical relationships contained in MOOC course resources from different platforms, and then constructed a multimodal knowledge map with the “knowledge entity-relationship- knowledge entity” triplet as the core. Secondly, the personalized MOOC courses oriented to learners’ deep learning needs were reconstructed through the resource integration of multiple MOOC courses with the same content. Finally, the dynamic learning path was generated according to the learning objectives set by online learners. It could recommend high-quality course resources to online learners, solve the problems of learning navigation of MOOC courses and cross-platform integration of high-quality course resources. The experimental results showed that the reconstruction of MOOC based on multimodal knowledge map could reduce the dropout ratio of MOOC courses, and improve the learning effectiveness and learning efficiency of online learners.
MOOC course; multi-modal knowledge map; course reconstruction; learning path
G40-057
A
1009—8097(2018)10—0100—07
10.3969/j.issn.1009-8097.2018.10.015
本文为江苏省教育科学“十三五”规划2018年度课题“深度学习视角下基于多模态知识图谱的MOOC课程重构研究”(项目编号:C-b/2018/01/19)的阶段性研究成果。
王亮,在读博士,研究方向为数字化学习与高等教育管理,邮箱为7802825@qq.com。
2018年4月28日
编辑:小西