试论一种新型在线教育资源大数据组织框架
2018-05-14张波金玉鹏等
张波 金玉鹏等
摘要:大数据时代的在线教育面临着资源量巨大而难以组织、异构资源之间没有统一描述而难以跨平台获取、资源之间缺乏关系而难以关联检索等问题。如何构建适应大数据特征的组织框架以实现基于海量在线教育资源的模式创新,是推动大数据时代互联网教育发展的关键所在。该文提出了一种在线教育资源百科型大数据组织框架,其特点在于:首先,通过轻量级的资源链接方式,实现教育资源大数据在同一平台内的汇集;其次,通过基于知识图谱方式,实现教育资源的统一语义描述和关系刻画,消除资源歧义性并实现资源间语义级别的知识点关联;最后,通过百科型词条以及分级目录方式,实现资源的优化查询与检索。
关键词:大数据;在线教育资源;知识图谱;组织框架
中图分类号:G434 文献标识码:A
一、引言
随着互联网和大数据时代的到来,在线教育及其应用模式得到了飞速的发展,MooC等形式的在线教育和线上课堂走进了广大用户的家庭。以美国为例,各大教育机构、教育院校均通过某种形式发布在线教育资源(Online Education Resource-OER),鼓励学生通过互联网进行学习。我国近年来的在线教育资源也呈现出爆发式增长趋势。在线教育资源的优势在于:以数字资源的形式部署于互联网环境下,满足用户使用所需的易获取、可重用、可共享等需求;资源通过互联网得到更为有效的组织,实现教育资源的易检索、可移动访问等优点。这些优势促使在线教育迅速成为人们获取教育的重要渠道之一,也成为人们实现自我教育方式转变的关键推动力。
然而,随着互联网教育资源的日益增长和不断累积,在线教育资源已经呈现出大数据的典型特征:(1)海量性,即资源数量巨大;(2)多样性,即资源种类繁多;(3)高速性,即资源保持高速增长的态势。由此可见,人们在互联网和大数据时代,在线教育资源高效利用面临着巨大挑战:人们在获取在线教育资源时往往面对着无数资源信息,而缺乏有效的指引和搜索导航,导致教育资源的信息迷航;教育资源来源多样性而导致冗余信息过度,用户无法辨别真伪;教育资源快速增长致使大量资源杂乱分布在多个不同的站点,缺乏统一途径对这些教育资源进行分类存储和统一组织。可以说,如何对互联网中海量的在线教育资源大数据进行有效的组织管理,促使在线教育资源获得更为优化的服务模式,已经成为当前亟待解决的关键问题。
实现在线教育大数据资源有效应用面临着以下关键问题:(1)海量网络资源的组织框架问题,即提供轻量级资源组织管理的一体化框架,整合全网教育资源的同时避免单一平台承载大数据容量负担,其目的在于为用户提供在线教育资源获取入口,并对资源进行开放式分类管理;(2)在线教育资源的统一组织和描述问题,即对各种来源的教育资源进行统一的资源描述,使其具有规范的、标准的表达方式,其目的在于消除在线教育资源的异构性和歧义性;(3)在线教育资源的知识关联模式问题,即在各类教育资源之间建立知识关联,使各类教育知识点之间通过准确的语义实现关联,其目的在于通过教育资源之间的知识关联实现知识点关联,进而便于资源检索和推荐;(4)在线教育资源的查询优化问题,即在海量数据的前提下,如何组织和优化查询方法,尽量缩短用户响应时间,提升用户体验。
针对上述问题,本文提出了一种大数据时代在线教育资源百科型组织模式,其特点在于:(1)为在线教育资源提供百科型组织框架,通过开放式百科模式为用户呈现结构化、分类化的在线教育平台入口,融合来自全网的教育资源和数据链接,实现资源的获取导航;(2)在组织模式框架底层定义规范化资源描述格式,对来自互联网的多源在线教育资源进行统一描述,便于在框架中对资源进行自动分类、检索、推送等;(3)在组织框架中定义教育领域知识图谱,在各类教育知识点(资源实体)之间建立知识关联关系,使图模型为基础的教育知识点(资源实体)以圖网络方式得到关联化表示,从而为资源提供链接、跳转、推理等规则;(4)在组织框架中采用分层架构,将各个功能点相对分离,以实现各层之问的宽松耦合,也便于后期的扩展和维护。并且使用冷热数据分离方法控制数据响应时间,从而优化资源查询速度。
二、在线教育资源组织模式
(一)互联网中在线教育资源的传统组织模式
在线教育资源组织的目的在于通过互联网处理、存储和传播教育资源,并且支持与教学相关的管理与通讯。在大数据时代,为了避免资源管理的冗余性、复杂性,提升用户获取资源的便捷性、准确性,在线教育资源组织必须将多源异构的资源实现有机组织和关联。根据语义信息将多源异构资源有机地联系在一起,达到可查询、可追溯、可比较、可保障的目标。
为了提高在线教育资源的服务质量,传统的互联网分类方法是目前最为流行的组织模式。基于网络分类的在线教育服务模式具有诸多优点:首先,在线服务让教育资源可以被大众共享,提高资源复用性;其次,互联网部署方式降低开销,提高开发的效率,提升服务的质量;第三,互联网分类为教育资源提供了有效索引结构,便于用户按类别检索,也便于网站按类别分类存储。现有的在线教育资源,诸如基于云计算的服务提供,让教育资源能够更稳定的被用户访问。在我国,各大高校也通过第三方互联网平台发布了大量的在线教育资源。
然而,传统在线教育资源组织技术模式的瓶颈在于:(1)资源管理分类目录大多为人工设置,分类目录结构直接决定资源组织类别,不合理的分类直接导致资源管理难度加大,海量资源缺乏自动标注亦导致精确资源检索难以实现;(2)传统分类方法无法解决海量教育资源之间的知识自动关联问题,使教育资源碎片化存在,难以形成智能化地提供关联学习应用模式;(3)传统教育资源组织技术模式局限于单一网站内,由于互联网各网站海量资源之间存在描述异构、标签语义不一致、资源种类繁多,难以在统一平台中存储并整合多源异构的海量教育资源,难以统一服务。
上述问题亟待突破的关键在于:如何提供一种适应大数据环境的在线教育资源组织模式,解决:(1)具备分类知识语义描述的资源分类规范;(2)教育资源的自动关联;(3)海量教育资源的精确查询与应用导航;(4)多源异构教育资源的统一开放管理与描述等问题。
(二)大数据在线教育资源组织模式的关键要素分析
为了适应在线教育资源组织使用所需要满足的统一组织、资源跨平台使用、关联检索等需要,同时避免单一平台内海量资源大数据存储查询的巨大负担,新型在线教育资源组织应满足的关键要素包括以下方面:
1.分类规范,即建立按照学科、方向等为分类标准的树形分类目录,在不同的树形目录中给出类别标签语义,满足OER在分类书中获得关键类别标注的需要。本文设计的分类规范所采用的树形目录中可明确给定任意类别的规范语义,即{类别名,父类别,子类别集合,类别属性集合}等元数据。同时,应定义类别推理规则,用以在分类树中依据确定的类别语义推理出与其相关联的类别,进而计算类别之间的相似性等数值。
2.知识关联,即海量OER均可以视为可使用的资源实体(Entity),通过一种知识关联性视角使教育资源展现在用户面前。本文设计的关联通过知识图谱实现,提供任何两个资源及其之间的关联关系表述,其形式为{主体,关系,客体}三元组。由于知识图谱在表达关系时灵活度高、表达式简单、存储方便,其能够在框架内提供良好的资源关联。
3.资源导航,即利用百科模式,通过分类树为用户提供教育知识点词条分类导航;继而在用户所关心的教育知识点词条中,提供与该词条说明相关联的邻近词条,然后通过知识图谱分析与这些词条相关联的教育资源,并給出资源的评估参数,包括来源网站、可用性、可靠性、质量评价等附加信息,便于用户通过参数自我评估后选择使用。
4.资源开放描述,即通过轻量级的资源开放描述在统一平台中管理海量教育资源,并在框架中开放教育资源词条和教育资源OER实体的描述编辑权限,用户可对教育知识点词条和具体资源编辑描述,描述海量教育知识点词条和OER资源。
三、百科型在线教育资源组织框架
为了解决上述问题,本文提出了一种百科型在线教育资源组织框架(Online Education Resource Organizing Framework Based on Encyclopedias,OER-OFE),其特点在于:通过互联网百科形式将各类资源进行统一化、跨平台、互联式地进行组织,并在其中依据资源来源、属性、关联情况等特性对资源进行详细说明,从而提供百科全书模式的互联网大规模资源统一视图,实现全网络多平台在线资源的一体化搜索模式。
OER-OFE实现的关键难点在于:(1)多源异构海量数据的统一组织;(2)海量异构教育资源的自动标注与知识关联;(3)海量环境下的精准资源导航;(4)开放的教育资源描述与交互接口。
为了解决上述难点问题,本文采用了大数据存储架构和知识图谱语义关联为核心的技术,分别从数据存储、知识关联、资源搜索、和交互接口等方面定义框架。首先,OER-OFE通过自动教育资源数据感知与采集技术实现异构多平台资源的分类采集,并对远程数据和本地数据进行分类存储,在底层将多个海量存储节点逻辑统一,实现教育资源大数据的多节点分布式存储,确保数据的完整性和正确性;进而借助多节点并行查询控制实现教育资源查询任务并行分派,待各个任务完成以后聚合查询结果,确保教育资源大数据导航、检索等过程的正确性和高容错性,解决单一节点数据量巨大、处理复杂和延迟性较大等问题。其次,引入知识图谱技术为海量资源提供语义级别的知识描述标准。知识图谱将首先提供教育资源分类管理的元数据规范,在各分类之间建立关联关系,实现精确海量资源的检索导航;知识图谱同时为海量教育资源实体自动建立语义级别的知识关联,使资源之间具备准确的关系描述,从而满足学习过程中关联资源智能推荐、应用等需要。OER-OEF整体框架如图1所示。
由此,本文所提出的OER-OFE框架中包括以下几个模块:
1.海量教育资源数据库。为满足大数据时代互联网资源存储的需要,OER-OFE采用数据即服务策略,为本地数据源和外来数据源提供非结构化存储,采用NOSQL的查询方式满足大数据时代的数据库级别的快速检索需求。为此,数据存储给定了存储规则和相应的外部数据接口访问规则,并依据数据语义(包括名称、类别、来源、词条等特征)进行组织管理;
2.基于知识图谱的知识关联。知识关联为整个平台提供知识管理、应用的能力。依据分类知识库给定的分类树,给出教育资源分类教育分类知识点,并在教育分类知识点给出词条编辑模块,进而将OER与知识点词条进行关联。知识关联包括三个部分:OER元数据模型、OER分类知识库和OER知识图谱。元数据模型描述在线教育资源所应具备的基本语义;分类知识库给定教育类资源OER的类别以及类别之间的关系;知识图谱描述所有OER资源实体(即来自于互联网中任一教育资源)之间的关联关系,以{主体,关系,客体}三元组表示,所有资源及其关系构成图模型表示,关系定义较灵活,可描述资源之间的“同一、相似、同源”等多种资源关联;
3.用户词条搜索分析(即OER分类)。依据用户输入的关键词条,通过OER分类树定位词条所在类别,并给出词条对应的解释和说明;在搜索词条后给出该词条对应的OER及其跳转链接;依据分类目录给出该词条类所关联的父类和子类词条;依据知识图谱给出该词条的相似、同源等关联词条OER;
4.用户接口。用户接口即教育资源共享平台的前台界面,是系统与用户交互的主要媒介,将系统的特性和功能展示给用户,方便用户进行操作。特别是将共享平台的资源种类展示给用户,有利于用户快速、精准定位资源,对于资源的归类要做到分类清晰、准确。
综合而言,与以往传统的组织模式不同的是,OER-OFE框架的关键技术创新在于:(1)引入大数据存储技术模式实现海量多源异构教育资源的一体化管理,实现多资源的关联分布存储,解决数据量快速增长与查询效率之间的矛盾问题;(2)引入知识图谱作为框架的核心,提供大规模基础语义知识表达手段,从而使海量教育资源具备了分类、关联、导航的规范化表达形式。
四、OER-OFE中基于知识图谱的组织模式
(一)教育知识图谱
本文涉及的核心理论是知识图谱技术。知识图谱技术常用在搜索引擎中,用来查询复杂的关联信息,让系统更好地从语义层面理解用户意图,改进搜索质量。知识图谱旨在描述真实世界中存在的各种实体或概念,本质上是语义网络,是一种基于图的数据结构,其结点代表实体或者概念,边代表实体或概念之间的各种语义关系。在知识图谱中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符,用属性一值对来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。为描述知识图谱中的复杂关系,工程领域中常用到{主体,关系,客体}这种简单的三元组形式。这种三元组形式可以表示图模型中的所有资源及其关系,而且关系定义较为灵活。
例如,圖2中表示的关系,就可以通过简单的三元组描述清楚。如图2中所示,对于实体或概念的关联关系,可以通过{主体,关系,客体}的形式表示,其中主体和客体表示具体的教育资源实体或概念,关系表示主体和客体的关联关系。通过这些三元组的表述,可以将复杂的网络关系简单化,更有利于关联分析和网络搜索。
(二)OER-OFE组织模式
知识图谱(Knowledge Graph)是用以描述客观存在事物之间知识关系的图模型,将事物(知识图谱中称为实体)通过特定关系进行两两关联,实现各类教育知识点、教育资源实体等以规范化、形式化的关系进行图连接,使OER实体具有良好的关联特征以及规范化的语义特征。
基于知识图谱的组织模式将从以下方面满足大数据时代教育资源应用的需要:
1.语义级维度链接。知识图谱为OER之间提供了良好的、规范的、形式化的语义链接,从而建立能被计算机自动理解和推理的分析处理基础。例如三元组<“勾股定理”“ORE-勾股定理例题1”,例题>,形式化地表达了“主体”(知识点“勾股定理”)和“客体”(教育资源“ORE-勾股定理例题1”)之间存在一个“关系”为“例题”。由于这种语义级别的形式化描述被统一定义,所以计算机能够很准确地在搜索“勾股定理”知识点时了解到有一个例题其标记为“ORE-勾股定理例题1”,并由此为用户提供该资源的来源、说明和导航等。另一方面,知识图谱具有灵活的关系维度定义规则,即知识图谱中可依据用户需要给出实体之间多种关系的说明,例如“is-a”“sameas”“akindof”“instanceof”等,这为实体之间的多维度语义关联提供了良好的保障。
2.场景化的资源服务。知识图谱结合用户的具体操作行为,可以识别用户的学习层次、学利方向、学习习惯等信息,从而定制用户的具体学习场景,进而提供与场景相对应的资源服务方式。例如,用户所搜索和获取的如果包含大量“大学英语四级”“C语言”“JAVA语言”“数据结构”等相关资源,那么依据知识点分类和学科方向分类,知识图谱能够识别出该用户的学习场景为“大学”“计算机学科”等信息,这些信息将形成该用户的具体学习背景、层次等,那么OEF中展现给用户的将会是大量与该场景相关联的学习内容,避免将“小学”“初中”等学习层次或“化学”“哲学”等相关性较小的学科方向对应的OER提供给用户。
3.层次化的资源组织。当新资源加入本该平台时,平台可以从新资源的语义标签中分析出资源的特性,为资源建立相应的标签和关联关系。例如图3所示,“勾股定理”的相关资源加入平台,可以利用知识图谱建立相应的索引和语义关系,“勾股定理”应该和“切线定理”“边长公式”“角度公式”等标签有着比较紧密的关系,然后将该标签加入到关系链和分级目录中,形成一个完整的结构。通用流程如图3所示。
4.面向答案的搜索。通过知识图谱建立教育知识点之间的关联关系,让OEF理解用户的搜索意图,直接通过返回答案词条的方式解答用户的问题。知识图谱在知识点之间建立关联,从而使用户的查询反馈更有针对性。
5.用户查询的个性化推荐。在知识图谱提供了语义级别的实体关系和场景化服务的基础上,OER-OFE可以为用户提供信息更加丰富的个性化推荐服务,即针对用户的学习场景、利用用户搜索词条实体在知识图谱中的对应关系,为用户提供更多丰富的OER服务。例如类似词条的关联推荐、同类别OER的推荐、同来源OER的推荐等多种服务方式,流程如图4所示。
五、结束语
本文提出了一个在线教育共享平台,该平台通过互联网百科形式将各类教育资源进行统一化、跨平台、互联地进行组织,根据资源的语义信息有机地联系在一起,达到可查询、可追溯、可比较、可保障的目标。并依据资源来源、属性、语义标签等特性对资源进行详细说明,从而提供百科全书模式的互联网大规模资源统一视图,实现全网络多平台在线资源的一体化搜索模式,通过前期实践,本框架平台在数据统一组织、知识图谱自动构建与检索等方面均具有良好的性能。该OER-OEF框架主要具有在线教育资源的统一组织描述、知识关联、优化查询和智能推荐等特点,并结合当下流行的相关技术,实现将多源异构的教育资源有机组织和关联,提供一个全新的教育共享平台,从而将教育资源从传统的共享平台迁移到基于大数据的百科型资源共享平台上,为用户提供一个轻量级的学习环境,发掘在线教育系统的潜在价值。