基于知识图谱的MOOC平台资源检索引擎
2021-08-27刘晋泽王伊马靖仑李骁肖枫涛
刘晋泽 王伊 马靖仑 李骁 肖枫涛
[摘 要] 由于当前MOOC平台学习资源数量不断增长,检索引擎能否帮助用户准确定位其需要的课程对于用户体验而言意义重大。然而,当前国内主流MOOC平台的资源检索粒度较粗,用户难以针对想学习的某一具体知识点定位相关课程。鉴于此,提出了将知识图谱应用于MOOC平台资源检索的思路,并通过实体识别、关系分析、课程知识点发现等方法构建了面向MOOC数据的知识图谱,然后基于该图谱搭建了资源检索引擎。将该引擎与国防科技大学梦课平台进行了集成,并开展了用户调研以验证该引擎的有效性。实验结果表明,该引擎可有效针对知识点粒度进行资源检索,提升了用户使用体验。
[关 键 词] 知识图谱;检索引擎;MOOC;图数据库
[中图分类号] GTP315 [文献标志码] A [文章编号] 2096-0603(2021)24-0060-04
从2013年以来,国内在线教育蓬勃发展,MOOC(Massive Open Online Courses,大规模开放在线课程)这一学习模式在我国得到了越来越多用户的认同[1],诞生了诸如中国大学MOOC、学堂在线、智慧树等一系列知名MOOC平台[2],为用户在线学习提供了良好途径。随着平台规模的不断扩大,其学习资源数量快速增长,据统计,截至2019年,中国大学MOOC、学堂在线、智慧树等平台均已上线课程2000门左右[3]。庞大的课程数量一方面极大地丰富了用户的选择,但另一方面也使用户需要花费大量时间寻找满足自身学习需求的课程。在此情况下,平台的资源检索引擎变得至关重要,能否帮助用户更准确地在海量资源中找到其需要的课程,成为各个MOOC平台面临的挑战。然而,当前主流平台的资源检索机制大多是基于课程、教师、院校等基本信息的模糊查询,检索粒度较粗,用户难以针对想学习的某一具体知识点定位相关课程。鉴于此,本文提出并实现了一个基于知识图谱的MOOC平台资源检索引擎,该引擎首先通过实体识别、关系分析、课程知识点发现等方法,以图数据库为存储媒介,构建了面向MOOC数据的知识图谱;然后基于该知识图谱,辅以自然语义理解等技术,实现了粒度更加精细的资源检索。本文将该引擎与真实平台进行了集成,并开展了用户调研实验。结果表明,该引擎可有效针对知识点粒度检索相关课程,提升用户使用体验。
一、相关现状及研究分析
(一)当前国内主流MOOC平台的资源检索机制
本文对当前国内5个主流MOOC平台[3]的资源检索机制进行了调研,结果如表1所示。
从表1可以看到,当前国内5个主流MOOC平台的资源检索,对于各自平台上线的相关课程名称、课程简介、主讲教师名字、开课院校名称等基础信息,只有中国大学MOOC和学堂在线全都支持模糊查询,相比之下,智慧树、超星泛雅只支持基于课程名称、主讲教师名字和院校名称的模糊查询,网易云课堂的资源检索能力更弱,只支持课程名称和教师名字的模糊查询。
然而,当本文选取了一些课程知识点作为关键词进行查询时,发现这5个平台都无法检索到课程,或是返回的结果相关性不高。例如,在这些平台中,有部分关于Office Excel的学习课程中介绍了“Excel函数”这一知识点的内容,但当使用“Excel函数”作为关键词在智慧树平台进行查询时,平台没有检索到任何课程,而如果把该关键词拆分为“Excel”和“函数”分别查询,则平台分别返回名称包含“Excel”和“函数”的课程。在学堂在线平台同样使用“Excel函数”作为查询关键词时,虽然能够检索到课程,但返回的结果中也都是名称包含“Excel”或“函数”的课程,甚至还有复变函数、多元函数等数学领域的课程,与用户想查询的知识点关联甚远。其余3个平台也是类似情况。
针对上述现状,究其原因,在于这些平台在資源检索时只是简单地将搜索词与课程、教师以及院校的基本信息进行了关键词模糊匹配,检索粒度较粗,没有考虑课程所包含的章节信息以及它所涉及的知识点。因此,用户就难以针对想学习的某一具体知识点定位到相关课程资源。
(二)知识图谱相关应用研究
知识图谱最早于2012年由Google公司提出[4],并在此后在互联网信息检索、智能语音助手等领域大放异彩。Google公司基于知识图谱于2016年推出Knowledge Panel[5],提升了其在语义检索方面的能力;Apple公司推出的Siri语音助理产品中,知识图谱在对话理解方面也发挥了重要作用[6]。
知识图谱在通用领域已经有了一定的应用,然而,构建一个通用的知识图谱技术复杂、成本高昂,且通常难以专精于一些专业性较强的特定领域。因此,许多研究人员也转而在这些特定领域中探究知识图谱的构建与应用。例如,王渊等提出将知识图谱应用于国家电网数据中心,以实现在电力行业领域的用户智能问答[7];朱超宇等提出构建医学领域知识图谱以辅助对医学临床决策提供支持[8];冯力探索了利用知识图谱帮助公安机关进行智能化警情处置的思路[9];黄炜等提出知识图谱可应用于银行业风险控制和预测[10],等等
在教育领域,王家辉等基于知识图谱实现了一个微信智能刷题系统,以辅助提高学生复习效率[11];徐健等提出通过知识图谱改进MOOC教学模式,为用户提供个性化学习方案的思路[12];美国知名MOOC平台Khan Academy基于知识图谱展示课程涉及的知识点,为用户提供友好的可视化界面。总的来说,在该领域中,知识图谱的应用尚处于探索阶段,就我们所知,尚缺乏相关工作将知识图谱应用于MOOC平台的资源检索。