教育知识图谱的类型、应用及挑战
2023-10-31沈红叶季一木刘尚东
沈红叶,肖 婉,季一木,刘尚东
(1.南京邮电大学 教育科学与技术学院;2.南京邮电大学 计算机学院,江苏 南京 210023)
0 引言
随着教育大数据发掘、人工智能技术发展,互联网教育迈向智能教育发展的全新阶段。知识图谱作为人工智能的关键技术,在金融反诈、搜索优化、智能推荐等方面初见成效,在教育领域也逐渐显示其优越性。国家《新世纪人工智能规划》特别强调,要深入研究知识图谱构建与教学、认知进化和逻辑推理等核心技术,就要建立涵盖几亿级认知实体的复合、多学科专业、多数据源的知识图谱[1]。
由此可见,知识图谱通过处理大量复杂数据,建立数据间的联系,实现对教育知识领域模型的抽取、融合和应用,是人工智能重要的技术应用。研究者指出,知识图谱作为人工智能知识组织与表示的最新技术[2],是数字化教育时代具有潜力的发展方向,为数字化教育教学提供了信息控制和认知控制结合的新信息处理方式。本文研究近10 年国内教育知识图谱的相关实证研究成果,系统梳理了教育知识图谱的实践研究和应用现状,并分析其具体优势与现存问题,旨在为教育知识图谱的理论研究、技术开发和实践应用提供参考建议。
1 研究设计
1.1 研究方法
本文通过系统性文献综述方式展开研究。首先采用选定的搜索策略评估与甄别文章;然后针对精准的研究问题,提出严格的纳入排除准则;最后利用标准化技术筛选、整理所选文献资料,最终得到研究问题的答案[3]。其中,研究采用的系统性文献方法含有多项指标,例如根据文献标题、研究方法、研究结论等4 个筛选阶段,明确展示了文献的纳入排除总体过程及明确原因,为研究结果的准确性奠定了基础[4]。
1.2 研究问题
为了解教育知识图谱的实证研究现状与进展,本文确定了以下3 个研究问题:①教育知识图谱有哪些类型;②教育知识图谱应用于哪些实践领域;③教育知识图谱当前面临何种挑战。
1.3 样本获取
1.3.1 检索策略
为了更高效地获取国内近10 年教育知识图谱的高精度实证研究论文,以中国知网CNKI(新版)数据库为文献搜索源,利用高级检索方式,将时间界定为2012-2021 年,以“知识图谱”并含“教育”为主题词进行检索,共获取论文881篇。
1.3.2 筛选标准
为了提高文献分析的精确度与可信度,本文基于研究问题制订了文献纳入/排除准则(见表1)。其中,第1-3 条是系统性文献综述法中为提高样本准确度和权威性而广泛使用的准则;第4 条旨在聚焦教育知识图谱作为主要研究对象的文献,剔除了仅将知识图谱视作可视化工具的研究文献。
Table 1 Document inclusion/inclusion criteria表1 文献纳入/排除标准
1.3.3 筛选过程
通过PRISMA 法(见图1)筛选文献。该方法是国际上常用的系统性文献综述筛选方法,主要包括以下4 个步骤:
Fig.1 PRISMA flow chart图1 PRISMA流程
步骤1:筛选文献标题,排除不相关和重复的文献,获得符合要求的文献881篇。
步骤2:通过二次检索和滚雪球方式筛选出文献207篇。
步骤3:通过制定的纳入/纳出标准,筛选文献摘要、方法、结果和讨论,获得文献112篇。
步骤4:最后通读全文,选取符合要求的文献56篇。
1.3.4 数据分析
针对最终获取的56 篇文献,基于研究问题,从教育知识图谱的类型、构建技术、应用场景、主要优势、面临挑战等维度对其进行编码分析,如表2所示。
Table 2 Analysis framework表2 分析框架
2 教育知识图谱类型
2.1 学科知识图谱
学科知识图谱是一种可视化工具,将学科问题的逻辑关系作为核心,然后与对应的知识结构建立联系[5]。首先,由不同学科专业领域的专家共同建立的学科专业认知本体,形成跨学段、跨专业的学科专业知识图谱结构。然后,将已形成的学科知识体系下分为若干个基本知识模块。接着,逐级向下将基本知识模块分割为若干个基本知识点。最后,通过学科知识聚合功能模块整合各主数据库的学科知识,在集成过程中判断数据质量,当数据品质满足一定条件后,才纳入学科知识图谱[6]。
学科知识图谱采用自上而下的设计和建构方法,依据学科知识结构,由学科专家精密审核讨论所建构,因此数据质量要求严格,所构建的知识图谱具有一定的权威性。但学科知识图谱需依赖现有知识结构与专家人工审核,属于一种静态知识图谱,无法自动化动态修改知识结构及知识点。此外,由于对知识库内容粒度模糊,缺失学习者学习能力刻画,所构建的知识图谱在实践应用中局限性较大,无法提升学生学习的灵活性及扩充性。
2.2 群体知识图谱
群体知识图谱建立过程是构造社群认同的知识图谱,参与的每个成员通过互动交流、协商与合作方法,动态建立知识图谱的过程,是一种典型的动态知识图谱[7]。首先,由小组成员每个人发表己见,构建小组成员自身理解的知识图谱。然后,对小组成员构建的知识图谱进行集中讨论,当发现较大问题时删除或修改构建的知识图谱节点。最后,重新构建信度知识图谱,再进行讨论,直至争议很小,才形成最终的群体知识图谱[8]。
在群体构建知识图谱实践过程中,学习者可清晰地阐述自身观点,并可视化当前群体知识图谱的构建现状,让学习者实时了解构建进度,出现问题能及时讨论解决,为后期工作提供便捷,避免出现低质量冲突的问题。再者,群体知识图谱提出了需要探讨的认知聚焦点,不会发生讨论内容过于脱离当前的主题的情况,不仅能提高讨论效率,还能提升问题讨论交互的质量。现有研究表明,马宁等[8]依托学习云平台,设计构建了知识图谱协同构建工具促进学习者的知识增长。姜强等[9]基于ARCS 动机建模技术与认知建构理论,建立了动态知识图谱增强学习者自身的主动性,提升了学习者的在线学习体验感。
群体知识图谱能实时根据讨论内容进行动态构建,经过小组成员协商对群体知识建构与智慧发展具有一定的促进作用,但群体知识图谱的结构仍存在缺乏细化的问题,将影响进一步发现语义信息。此外,群体知识图谱对原始数据具有一定的要求,只有适用于高质量和深度的讨论内容,才能建构出有意义的群体知识图谱。
2.3 多模态知识图谱
多模态知识图谱指以抽取课程资源中的知识实体为节点,依据知识实体间的层级关系生成三元组,并根据三元组生成表示知识实体间相互关系的知识图谱[10]。首先构建面向学科的知识实体语料库,然后对于课程资源的知识实体生成多模态知识图谱。通常,教师根据课本大纲目录依次教学知识点,但并未明确阐述章节间的逻辑关系、章节与整书内容知识存在的关联、章节内容中细小知识点间的关系。即使在平时教学场景中会产生丰富的课程资源,且这些资源也是多个模态的集合,但并未得到充分融合,与知识点间的联系也并不紧密,无法帮助学生有效理解相关知识点。
如果深层次挖掘专业教材与网上课程资源,多模态课程知识图谱可较好解决上述问题,能有效关联一门课程的知识点,让学习者明显了解该课的整体框架与逻辑。祁晓慧[11]运用CNN+BiLSTM-CRF 模型结合学科词典,实体鉴别数据结构课程讲义及简书网站文字信息,通过Attention+BiLST 模型进行知识点间的关联,并在此基础上利用语言辨识程序将课堂语言信息辨识为文本,以链接实体对应的语言信息,形成涵盖语言与文字信息的多模态课程知识图谱。
传统知识图谱大多面向文本信息源,从知识融合角度而言,内容上关联的课程知识能够相互连接,但由于各课程教学内容各不相同、知识结构存在差异,难以实现各学科知识关联。为此,利用多模态知识图谱技术,一方面可加快融合相关联的课程知识;另外一方面也可让学习者所学的知识融汇贯通,更好地服务自身后期发展。然而,现阶段多模态知识图谱的高效融合一直是研究难点之一,未来可在多模态知识图谱的融合技术层面进行突破。
2.4 学习认知地图
学习认知地图是将人的认知过程与知识图谱相结合,相较于普通知识图谱更关注学习者的思想动态变化。首先,教师根据教学大纲梳理教学内容,创设在线课程。其次,教师确定知识点间与所学课程、内容相互间的关系与权重。接下来,利用数据挖掘到的学习者与已完成学习活动和未达标内容之间的关系,得到与所学内容之间的关系规则。第三,利用相关规则将与所学内容间的影响关系转换为与所学内容不同或相关的重要知识点间的关联关系。最后,得到重要知识点间的先修关联性,形成认知地图[12]。学习认知地图提高了学习者自身的主动性,鼓励了学习者在学习活动中自主学习的行为习惯。万海鹏等[13]从学习者模型内容开放的视角设计构建学习认知地图,该模型可记录学习者的学习认知情况,及时推送适合的学习资源与方式,合理规划学习路径。
学习认知地图在学科知识图谱的基础上融入学习者认知过程,能更好地呈现学习者对学科知识点的掌握情况,可视化学习者的认知结构。由于学习认知地图面向学科知识点进行认知结构构建,有利于教师实时掌握学习者的过程性学习情况,及时作出适合学习者的教学路径规划。该模型相较于前两类知识图谱而言,融合了学科知识图谱的权威性及群体知识图谱的动态性优势。
2.5 教育知识库
教育知识库是一种系统的知识图谱类型,可将散乱、无序的教育数据整合为结构化、便于搜索、编辑、存储的知识形式[14]。首先,针对所给问题,筛选其中的描述信息并搜集实体集。然后,按照所有被搜索的实体集合信息,从知识框架中推选候选答案集合的子图。最后,根据问句描述信息寻找实体的候选实体代表得分,进而预测答案[15]。Peng 等[16]为了加强对多模态知识库与多模态信息处理的研究,提出一个多模态实体标记和多模态知识库,加快了对知识点搜索的进度。
教育知识库的产生为系统化知识管理及在线教育智慧问答提供了条件,能给学习者带来良好的互动体验、精准的智能答疑与指导等服务,是当前在线教育领域中的重点研究内容。目前,我国基于问答的教育知识库系统的研发工作仍然较少,无法适应当前教育教学平台的发展需要。教育知识库应用在技术上还有所突破的地方,无法精确解答搜索结果,而是推出了不相关或相关性不大的答案。其中,教育知识库包括基于问答的方式,例如作业帮、小猿搜题等;基于知识内容的方式,例如百度百科、维基百科等。教育知识库能方便学习者在海量数据中快速查找相关性最强的答案,大幅度提高了学习者的学习效率。未来若能在技术上实现突破,可能会使得搜索出的答案与学习者需要的答案在一定程度上实现相符的效果。
3 教育知识图谱应用
3.1 学习者画像构建
学习者画像构建是从学习者的基本特征及行为样本中提炼出的学习者特质来进行标记的活动[17]。当前在线学习中存在学习者个性特征缺失、对学习者在线学习的针对性服务不足、在线学习效率低下的问题。学习者画像构建可精准分析学习者学习特征、学习风格及学习兴趣,从而提供精准的教学服务,但当前学习者画像构建由于活动资料的稀疏及保护隐私问题,使构建的图像无法相当精确。赵玲朗等[18]提出借助知识图谱帮助学习者建立完善的体系结构,也可实现规模化教育与个性化学习的有机结合。李振等[19]提出将知识图谱运用于学习者画像建模与分析,不仅能概括和语义关联、基于知识图谱的标签,还能基于知识图谱标签传播提高数据的可用性及标签的可理解性,从而将学习者画像的建模从基于行为的建模转向基于语义的建模。
将知识图谱技术应用于刻画学习者画像,不仅具有较高的准确率与覆盖率,还对学习者理解抽象概念、提取知识逻辑结构具有突出优势,还能有效提升学习者的理解能力与逻辑概括能力。
3.2 学情分析与评价诊断
学情分析与评价是指为了合理引导学生,检测、评价和研究学生的状态[20]。学情分析与评价诊断是学生学习过程中的重要检测手段。当前,学情分析与评价诊断存在许多教师轻视学情分析与评价诊断、传统专家凭借自身经验评价诊断学习者学习情况的问题,分析评价手段单一,会造成一定偏差。如果只利用一种模态数据反映学习信息会存在一定的局限性,利用知识图谱能实现更精确的学情分析与评价。黄梅根等[21]建议应用知识图谱的系统诊断,在该系统中针对选择题的难易程度进行分类设置,使选择题难易程度的评价更精确、客观、科学。然后,运用数据挖掘方法研究学习者真实的学习情况,并与学科知识图谱进行比较,不仅能通过考试记录、错题本、学习笔记的行为轨迹挖掘学习者对知识点的掌握情况,还可挖掘出一些隐藏问题,例如学生学业情况、认知能力等。钟薇等[22]指出利用多模态生物技术和教学平台日志追踪学生的学习轨迹,以此获得学习者认知水平的信息。张家华等[23]提出通过文本、音频和视频挖掘用户情感信息的开源工具,然后使用知识图谱对其可视化,为全面表达学习者学情信息创造了可能性。通过以上方法会使数据分析结果更客观,更符合有个性化学习特征的学生。对于近期不能完成的学习任务,可利用知识图谱寻求原因,寻找自身学习存在的薄弱点环节,推进学生学习进展。
当前,学者们对学情分析与评价诊断仍处于探索阶段,无法更深层次透彻追踪学生的学习情感,可添加眼动仪等设备追加学生心理状态变化,使学习者学情分析与评价诊断更准确。
3.3 学习资源推荐
智能教育的主要技术特点之一就是按需推送,根据学习者特点提供教学信息资料、教学信息服务、教学用具、教学活动等,以满足学习者个性化成长与发展的需要。随着在线学习盛行,丰富的网络学习资源给学习者提供了便利,但并未针对性地提供符合学习个人特点的学习资源,导致学习者迷失在大量的学习资源中。
学习资源推荐技术能为学习者提供针对性的知识信息。研究表明,传统推荐技术面临冷启动、数据稀疏、目标不适用教学场景的问题[24]。樊海玮等[25]提出与知识图谱相结合的在线学习资源推荐算法解决数据稀疏问题,这一研究也表明学习资源推荐算法融入知识图谱技术对学习者自主学习具有重大意义。
基于知识图谱的学习资源推荐能从海量资源中挖掘资源关系,进行有效推荐,既节省了大量时间也提高了查寻效率。通过可视化知识图谱方式推荐相较于纯文本方式,可极大吸引学习者兴趣,但基于知识图谱的学习资源推荐仍存在不足之处,例如当一门课程学习资源特别多,且资源间联系十分密切,虽然可看出课程知识点间的规律,但会十分杂乱。此外,知识图谱呈现的普适性也存在一定问题。当前,教育知识图谱在学习资源推荐的应用中仍处于初步探索阶段,在传统学习资源推荐中存在数据稀疏问题,应在采集多模态数据集方面多加关注。通过融合教育知识图谱与多模态数据,推荐更符合学习者的学习资源。
3.4 个性化学习路径规划
个性化学习随着大数据技术快速发展,逐渐发展成教育技术的新范式,但当前海量学习资源充斥在学习者周围,会使学习者难以选择学习资源,增加其学习负担。个性化学习路径规划可根据学习者当前知识掌握情况,提供更符合学习者的学习路径规划,实现精准的个体化教学。研究表明,个性化学习路径规划常见问题包括数据量过大和冷启动[26],或无法适应个性化教育自主学习选择的复杂性。即使依靠深度学习、增强学习等个性化教育自主学习选择方式,也无法融合教学中的领域知识点(例如学习者的认知状况、能力或掌握信息资源的难易等)。刘凤娟等[27]从自我决定理论视角,建立基于知识图谱的个性化教育教学模式,学习者可在教学过程中充分了解自身认知能力,从而进行有效学习。
知识图谱作为一个建立和体现教育知识点的重要工具,体现了教育知识点的先后顺序及其认知依赖关系,提供了较完备的教育方法系统。根据知识图谱进行个性化教学资源推荐和个性化教学路径规划,遵循了经验认知法则和教育基本逻辑,可克服目前个性化学习选择方法中缺少范畴认识的主要问题。综上,利用知识图谱可通过知识点间所蕴含的前驱与后续关联,综合学习者的认知风格、当前认知状况等特点,为学生推送个体化、有针对性的复习资源与练习途径。
3.5 智能化管理
在大数据环境背景下,智能化管理海量的知识数据资源,将有助于知识传播,提高了知识资源查找效率,但仅靠人工方法,会耗费大量人力物力,因此利用互联网技术让知识资源得到合理的规划与使用。知识图谱不仅能管理知识资源,还能管理高校资源,例如学生管理及教师管理。当前,复杂的多类型大数据分析存在多源异构问题,张金福等[28]将知识图谱技术应用于高校知识资源管理,实现知识资源间的流通、关联,可有效提升高校知识管理工作的工作效率,降低工作人员的负担及人工成本。
通过知识图谱等技术工具管理零碎化知识点,并建立知识点间的相互联系,集成移动学习流程中的破碎化信息内容,使其相互融入连贯,更具条理化、系统性,从而建立按学习者个人实际需求进行整理的知识系统。通过可视化的个人知识点图谱可让学习者充分了解自身所掌握的知识结构,明确自身专业知识的不足之处。此外,学习者通过观看个人总体知识点图谱能清楚地认知自身需要掌握哪些相关联知识点,在碎片化复习的同时高效掌握所需知识点。最后,高校知识资源管理是一个动态管理过程,知识结构会随着知识的发现、扩充,不断更新变化,产生的数据也会实时更新、补充,将知识图谱应用于高校知识管理无疑是一种高效的管理方式。
3.6 知识问答系统
当前,为迎合学习者解答疑问的需要,系统开发者在知识问答系统中融合了图像语音文本等多模态信息,一方面为学习者提供解题思路,另一方面融合文本图像视频为学习者提供多重选择。传统问答系统只呈现了文本信息解答,无法帮助学习者理解自身存在的疑问,但融合多模态信息既能满足学习者求知欲,还可更精准地刻画学习者的需求。教育知识图谱能在海量且复杂的数据中提炼学习者所需知识点间存在的关系,从而为学习者呈现出结构清晰的问题解释。Kim 等[29]为了融合从长课文中提取知识特征与视觉特征,提出基于图卷积网络的新模块FGCN。Wang 等[30]提出一种基于注意力的加权上下文特征(MA-WCF)的可解释多模态系统,可根据问题和图像本身特征及它们上下文特征的重要性,自适应分配权重,为学习者匹配更精准的回答。
知识问答系统中,学习者可通过图片语音或文字形式检索答案,融合多模态知识图谱技术会呈现多种模态的结果,为学习者提供更符合的问题解释。同时,融合多模态知识图谱一方面能满足学习者对问题的解释;另一方面对学习者而言是一种加深自身理解的方法。现阶段,知识问答系统相较于传统知识问答系统,更偏重于让学生理解、掌握核心知识,帮助学生最大程度上解惑。
4 教育知识图谱面临的实践挑战
知识图谱在教育领域应用的优越性逐渐显现,为未来教育走向大规模个性化与精准化提供了可能性,但在教育领域应用中仍面临教育资源数据集质量不高、多源知识图谱融合难度大、教育知识图谱的评估方法单一3 方面的挑战。
4.1 教育资源数据集质量不高
当前,深度学习与机器学习在人工智能领域得到广泛应用,但需要使用大量数据集。由于教育领域对数据集质量具有一定要求,现阶段数据集均由专业教师或学科专家人工提供,损耗了大量人力、物力资源。同时,教育知识图谱由教师、专家根据自身判断所构建的教育知识图谱,缺乏一定的权威性。此外,在构建教育知识图谱的过程中研究者会带入自身认知,造成误差,这也是教育资源数据质量不高的原因之一。
4.2 多源知识图谱融合难度大
学习资源是构建学生学习认知的基础,能帮助学生快速了解所需掌握的知识点,开阔学生视野。学习资源在未来教学中,将对社会学习者公开,结合学习者的学习情境进一步提供更好的学习体验。虽然,很多教育机构面向不同学科及不同学段构建教育知识图谱,但如何有效融合来自不同数据源的教育知识图谱,让知识图谱技术在教育领域有的放矢,将是一大挑战。这主要涉及专业知识图谱本体与知识图谱知识点层面的融入,由于不同课程中同一主要知识点的名称也可不同,因此要求对二者中不同内容的主要知识点加以标准化管理。此外,由于各课程学科内涵均有所不同,甚至主要知识点间的关联程度也不同,这些因素均增加了主要知识点融入的难度。
4.3 教育知识图谱的评估方法单一
由于在教育领域对知识的要求质量较高,需要通过专家或教师进行评估,将耗费大量人力、物力,还会由于主观判断导致评估的知识图谱存在偏差。因此,制定统一的评估标准至关重要,关乎教育知识图谱数据是否准确,能否构建有效的教育知识图谱。
5 结语
教育知识图谱作为人工智能应用于教育的关键赋能技术,为实现大规模个性化教学与精准化教学提供了可能。目前,知识图谱技术虽然在教育领域逐渐显示其优越性,但仍存在较大的发展与挖掘空间。
在图表构建中,整体教育认知图谱对多模态认知图谱的需求较为明显,仍需进一步优化教育领域知识点复杂度、对知识点的粒度分类难度、知识点间的相互关联丰富性,将整体认知图谱应用于整体教育智慧中将具有重要的实践意义。
未来发展过程中,教育知识图谱也将向教育认知图谱进阶,逐步适应学生个性特征,实现大规模个性化学习。