一种基于多维关联的知识对象模型研究
2021-03-27许睿毛阿敏李光泉
许睿,毛阿敏,李光泉
(1.格乐大学 商学院,泰国 曼谷;2.江西财经大学 大数据中心,江西 南昌;3.江西农业大学 计算机与信息工程学院,江西 南昌)
随着大规模在线教育的应用与普及,学习资源的数量呈爆炸式增长,知识模型是有效管理学习资源的重要工具。此外,知识模型能够帮助人们更好地理解人的学习过程[1]。知识模型的构建会直接关系到后续学习资源推送等处理策略的效果,知识模型的构建成为智慧教育领域的研究热点。
知识对象的多维关联关系广泛存在,本文以智慧教育领域为背景对知识对象模型进行研究,以构建大规模在线教育环境下的知识对象之间的多维关联模型。知识模型研究的代表性成果主要包括,文献[1]基于“皮亚杰发生认识论”分析,用知识对象作为“顶点”和知识对象之间的关系作为“边”构建图来描述知识结构。文献[2-3]对知识对象之间的关系进行了分析,并定义了对象的形式化操作,使得知识对象间的关系在教学内容发生变化的情况下保持逻辑结构不变,指导其完成学习过程。文献[4]借助语义网和产生式构建了一种知识表示模型,并提出了广度优先的知识对象剪枝算法和深度优先的知识对象遍历算法。文献[5-6]分析了知识对象的关系并构建了一个知识网络模型。文献[7]对知识对象进行了定义和划分,并详细描述了知识对象之间的关系。文献[8]定义了一个知识网络模型,并给出了基于该模型的正向推理策略和反向推理策略,用于实现对学习的控制。文献[9-10]深入分析了知识对象内部结构,给出了一种知识对象通用模型。文献[11]利用聚类等方法,提出一种个性知识模型,用于跨领域资源推荐。文献[12]通过研究问题要素进行抽象并利用知识工程的信息抽取方法构建专题知识模型。文献[13]通过改进和扩展现有的单元模型,设计一种领域知识模型。为解决在线学习系统中知识表述的离散、知识模型适应性差等缺陷,文献[14]提出一种基于知识图谱的模型构建方法。
以上各知识模型从不同的角度均支持知识的关联关系,然而,知识之间不仅存在包含关系[15],还存在依赖关系[16],并且,这些关系所应对的处理各有侧重,关系本身还要进行分类等。为此,本文提出基于一种多维关联的知识对象模型(Multidimensional Relational Knowledge object Model:MRKM),该模型描述了知识对象间的多维关联关系,并在此基础上,针对任意相关文本,通过文本分析技术,自动识别文本中的知识对象,进而进行知识对象分解和规约。一个典型的应用场景是,利用该模型可以准确地从学生的“错题”或学习文本中识别出相关知识对象,并分解为不同粒度,为后续学习知识对象推送提供支撑,该模型成功运用于某智慧教学平台,应用效果良好。
一 相关定义
知识对象是知识活动过程中传递信息的基本单元,记为k,由领域专家确定,知识对象全集记为K。
定义1(包含关系CI)对于任意知识对象ki和kj,当知识对象kj的内涵包含在知识对象ki的内涵之中时,表示知识对象ki包含kj,记为。如果同时又满足条件时,则称知识对象ki直接包含kj,记为,否则,称之为间接包含,ki是kj的父知识对象,约定每个知识对象最多只有一个父知识对象。
知识对象的包含关系具备以下性质:
性质1:知识对象的包含关系是可传递的。
对于任意ki,kj,kp∈K,当时,由定义1可知,ki的内涵包括了kj的内涵,kj的内涵包括了kp的内涵,因此,ki的内涵包括了kp的内涵,于是有,知识对象的包含关系是可传递的。
性质2:知识对象的包含关系是自反的。
性质3:知识对象的包含关系是不可逆的。
对于任意ki,kj∈K,当时,如果也成立,则一定有ki=kj,所以,知识对象的包含关系是不可逆的。得证。
定理1-1:给定知识对象集K在其包含关系集合上构成偏序关系。即<K,CI>为偏序集。
证明:由定义1可知包含关系在集合K上满足以下三个条件:
2.反对称性:即:
3.传递性:即满足以下条件:
故CI关系在集合K上是偏序的。
直接前序关系存在如图1所示三种形式:①单一直接前序:该知识对象只有一个直接前序知识对象;②联合直接前序:该知识对象有多个直接前序知识对象,学习者必须同时掌握了这些直接前序知识对象才能有效学习该知识对象;③多选择直接前序:该知识对象有多个直接前序知识对象,学习者掌握了任何一个直接前序,都能推导出该知识对象。
图1 知识对象直接前序关系
知识对象的依赖关系具备以下性质。
性质4:知识对象的依赖关系可传递。
成立时,表示ki是kj的前序,kj是kp的前序,因此,ki也是kp的前序,于是有ki→kp,所以,知识对象的前序(后续)关系是可传递的。
性质5:知识对象依赖关系不可逆。
对于任意ki,kj∈K,当ki→kj时,如果kj→ki也成立,则一定有ki=kj。
知识对象与知识对象之间的前序/后续关系可以将课程知识集提取为一个有向无环子图,进而可以得到其所有可能的拓扑排序序列,每一个序列对应一条学习路径。
定义4(兄弟关系):
二 模型设计
利用上一节所定义的包含、依赖等多维关联关系,构建一种基于多维关联的知识对象模型MRKM,得到初中数学方程(组)部分知识对象模型如图2所示。
图2 方程(组)部分知识对象模型
(一)基于语义分析的宿主知识对象发现
学习资源文本中,有些学习资源文本具有显示的知识对象信息,有些并不具备显示的知识对象信息,我们并不能保证从题目的文本中直观地看到知识对象词汇,需要通过人工智能的方法对大量学习资源文本进行分析和训练,从而得到范本。本团队针对初中数学收集了各类学习资源文本1万题,得到了自己的范本集,此部分内容另文阐述,本文基于这个范本集进行处理。
首先,采用汉语分词NLPIR系统,将初中数学相关的文本题目(来源于百度文库)进行分词处理。知识图谱中的所有节点词构成词典WS,每个知识节点作为一个类,我们要做的是为文本做分类处理,看看它与哪些类的关联度高。
分析学习资源文本得到的词向量集合为Task_Vec(Ti)={w1,w2…wn},某知识对象的词向量为KnowNode_Vec(Ti)={w1',w2'…wn'},通过计算词向量之间的余弦夹角可以评价知识对象词之间的相似度r(ku,ki)。
设定相似度阈值δ,则为Ti生成一个相似集:
对于任意新知识对象Ti,该相似集中的成员是其宿主知识对象,记为host(Ti)。宿主知识对象可能不唯一。学习者根据Sim_set(Ti)选择的知识对象集合记为KS,通常是学习者希望学习的内容。
(二)知识对象定位策略分析
宿主知识对象是资源文本设计的知识对象,也往往是学生需要加强学习的关键知识对象,但是,由此得到的知识对象可能是不同粒度的,在知识图谱中处于不同的层级,需要进行整理,清洗的作用是在统一的粒度上向学习者反馈学习需求。比如:在叶子节点上推送更为具体的学习内容,或者在更大粒度上推送学习内容。
知识对象获取需要满足以下约定:
约定1:当某知识对象的所有子知识对象被获取时,等效于该知识对象被获取;
约定2:任意知识对象不会与其任一子知识对象同时被获取。
1.基于包含关系的分解与规约处理策略。为了满足以上约束,需要对给定知识对象集进行分解或者规约处理,策略如下:
(1)基于知识包含关系的自顶向下分解策略。分解是将复合知识对象划分为其包含的更细粒度的知识对象,直至原子知识对象。
其中,KS+kj-ki表示将kj加入KS,将ki从KS中剔除。
2.基于包含关系的自底向上规约策略。归纳是将知识对象展示到更大粒度上,此策略分两部分:数据清理和向上规约。
2.基于依赖关系的回溯及延展处理策略。当一个知识对象对于学习者过于困难时,往往需要回溯到前面的知识对象去学习,俗称“打好基础”,同时,当学习者掌握了当前知识,需要继续学习时,延展知识对象就显得非常重要。本文基于知识对象的依赖关系,通过回溯与延展处理为学习者提供此类帮助。
1.基于依赖关系的回溯策略。回溯是找到当前知识对象所需要依赖的前知识对象。
2.基于依赖关系的延展策略。延展是寻找下一步需要完成的知识对象或知识对象集。
获取到前序知识对象,有利于向前推送,也许学生还没有很好地掌握前序知识对象,导致出现当前的“错题”,便于发现学生弱点的关键原因。获得后续知识对象则向学生推送进一步的扩展学习内容。
三 应用分析
根据领域知识,结合百度百科中相关数据,对10000个试题文本进行训练,得到范本集,进行本文分析和知识对象自动识别,最终共识别出初中数学所包含的知识对象共515个,在此基础上,构建多维关联知识对象模型。以下仅以试题文本T1为例,详细阐述其实验过程及其应用效果。文本T1:小王的家离火车站比较近,中间只有一条笔直的步行小道。小王从学校回家,为了早点见到爸爸,与爸爸约定,小王下火车后就通知爸爸,小王往家走,爸爸从家里出发来接小王,小王的步行速度是每分钟30米,爸爸的步行速度是每分钟40米,他们在15分钟后终于见面了,请列方程算算火车站离小王家的距离是多少?
通过对文本进行语义分析,得到的宿主知识对象是为K1:“方程”和K2:“行程问题”。由于篇幅所限,在此仅给出“方程(组)的应用”的效果。通过进一步的细分,得到原知识对象的所有子知识对象,如图3所示。
图3 方程(组)的应用相关知识对象
运用基于包含关系的自底向上规约策略,找到“方程(组)的应用”的父知识对象为“方程(组)”,并进而发现“方程(组)的应用”的所有兄弟知识节点,如图4所示,即学习者掌握了这些知识对象后,就等价于掌握了其父节点所表示的知识对象。
图4 方程(组)知识对象兄弟关系图
运用基于依赖关系的向前获取策略,发现“方程(组)的应用”的前序知识对象和后续知识对象,如图5所示。
图5 方程(组)知识对象依赖关系图
学习者如果还没有掌握前序知识对象,那么,直接学习“方程(组)的应用”就比较困难,推送先学习其前序知识对象。同样,当学习者掌握了“方程(组)的应用”后,推送学习后续知识对象,为学习者的学习计划提供思路。根据学习者选择的任意学习文本资源,系统自动识别宿主知识对象,再通过基于包含关系的自顶向下分解策略、自底向上规约策略和基于依赖关系的向前、向后获取策略得到发现关联知识对象,从而可以向学习者精确推送学习内容。
四 结语
针对大规模在线教育系统中知识对象的多维关联关系的广泛存在,提出一种基于多维关联的知识对象模型MRKM。该模型从统一的视角描述了知识对象及其之间的包含关系和依赖关系,并基于文本处理技术,挖掘知识对象,再通过知识的分解策略和规约等策略,在统一粒度上整理知识对象,最后通过回溯和延展等策略,识别上下游知识对象。应用该模型对学习者学习目标中所包含的知识对象进行精确分析,为学习资源、学习路径的推送打下良好基础。