领域知识库的研究与设计
2011-03-26李爱国
李爱国
(陕西工业职业技术学院陕西咸阳712000)
在教与学的活动中,师生是活动和认知的主体,而知识便是活动的客体,教学的精髓是师生针对知识所进行的系列活动。在这个过程中,教师如何针对教学任务及学习对象的特点分解及合理组织教学计划表述的知识是整个教学活动能否成功的关键。同理,对于ITS系统,建立学科知识库和专家知识经验库是实现智能教学导航,从而实现个性化教学的基础。专家知识、经验库就是从领域或学科的专家、教学专家那里获得专门的知识、经验,然后用一定的形式表示知识,最后存储到数据库中而形成的。该库实际上是教学、学习中的知识和经验的存储器。系统对学生帮助的大小、是否有效,基本上取决于系统的专家知识库。知识库中的知识越完全,越能真实的再现专家的思维过程、方法等,则学习系统的智能水平就越高。
领域知识库存放的是有关教学内容的专业知识及关于知识的知识即元知识。整个领域知识库中的领域知识按用途分成两类:
<领域知识>:=<教学内容知识>|<元知识>
<元知识>:=<知识点的属性描述>|<知识点之间关系的描述>
因此,领域知识库包括元知识库和教学材料库两个部分,而元知识库又包括知识点属性库和知识点关系库,它们构成了个性化教学系统中的主要知识表示。领域知识库的设计应该满足如下条件[1]:
1)必须便于领域知识库的管理和维护;
2)要充分保证ITS的核心问题——智能导航的需要;
3)必须体现知识的本来面目,让人一目了然。教学系统是由知识工程师和领域专家协同完成,因此必须充分保证平台的通用性及开放性,选用恰当的设计平台,进行合理的设计至关重要。
1 知识点的划分
在智能网络教学系统中,不论是哪一类知识,知识点是系统处理的单元,要建立一个完整的领域知识库首先必须把该领域的知识划分成知识点,并建立知识点之间的关系,划分方式和大小对领域知识库中知识点的应用起着决定性的作用。
定义1知识点(Knowledge Point简称KP)[2]是教学活动过程中传递教学信息的基本单元,包括理论、原理、概念、定义、范例和结论等[3]。
定义2领域知识教学过程中最基本的教学单元称为原子知识点(Atom_KP)。在教学过程中,该知识点作为一个整体进行教授;对教学而言,原子知识点在内容上具有不可划分性。
定义3在领域知识库中,由两个或两个以上的知识点组成的知识点称为复合知识点(Compound_KP)。组成复合知识点的知识点可以是原子知识点,也可以是复合知识点。本文中的复合知识点主要是指单元知识点(Unit_KP)和节知识点(Section_KP)。
为了准确合理的描述教学内容,需要对其进行必要的分解,并在此基础上知识点相互之间的关系。一般来说,划分知识点时应注意以下几点:
1)应遵循一般的教学规律,满足相应的教学需要,便于实现启发式教学和个别化教学。
2)首先把整个教学内容分解为若干单元知识点,各单元之间既相互独立又相互联系,这样有利于使学习者对教学内容有更大的选择自主权。然后再把各个单元知识点分解为若干个节知识点,而节知识点又可再分为一个一个的教学内容的最小单元—原子知识点,分解时应注意保持知识点内容的完整性和一致性,这样就形成了一个树形的层次结构。
3)教学知识点的划分涉及到知识点的粒度划分。对知识的划分并非越小越好,如果知识点划分的太小,那么它们之间的关系就会很复杂,反而不利于教学规则的制定和系统智能的实现。表示知识的最终目的是将它们组织成教学内容进行教学,因而将知识表示到对应教学步骤这一程度就完全可以了,基本原则是保证知识内容的局部完整性和利于组织教学步骤。知识点的大小相差可能很悬殊,例如,一章可划为一个大的知识点,其中一节的内容又可细划为较小的知识点,一节中的定义、定理等还可以划为更小的知识点。
2 知识点之间的关系
通过对知识点的分析,我们将知识点之间的关系分为两种:
1)层次关系
层次关系包括父子关系和兄弟关系。将知识点以一定的顺序串接起来就可形成复合知识点,则复合知识点与子知识点的关系即为父子关系。处于同一层上,知识点之间无父子关系或明显相互关联关系,学习时可不分先后次序,它们之间就构成兄弟关系。层次关系可以用一种称为顺序链(Sequence Link)[4]的链接来表示。
2)支持关系
在学习某一知识点之前必须先学习相关的另一些知识点,则这两者之间就存在一种逻辑支持关系。我们把后者称为前者的前导知识点,而前者就是后者的后续知识点。知识点之间的这种逻辑支持关系是有向的,其方向是由支持者指向被支持者,因此可以用一种称为支持链(Sustain Link)[5]的链接来表示知识点之间的这种逻辑支持关系。
由教学过程本身可知,知识点之间这种支持程度是一个模糊概念,所以我们将其分为5级,即:联系不紧密、联系不太紧密、一般、联系比较紧密和联系紧密,用一个隶属度函数μ(x)sus={0.2/1,0.4/2,0.6/3,0.8/4,1/5}来度量,μ(x)sus的值越大说明知识点之间的联系越紧密。对于文献中所定义的参考关系,我们只需将μ(x)sus的值取得小一些,其实质可仍然看作是一种支持关系。
因此,知识点之间的关系可表示如下:
<知识点关系>:=<层次关系>|<支持关系>
<层次关系>:=<父知识点>|<子知识点>
<支持关系>:=<前导知识点>|<后继知识点>|<支持程度>
由以上的分析可知,知识点之间的关系无法用一种单纯的树形结构来表示,因为单纯的树形结构只能表示层次关系,却很难清楚地表示知识点之间的支持关系,而若用单纯的网状结构来表示,则会造成知识点之间的层次关系不明显,并且会使推理算法过于复杂。因此,在这里我们采用一个总体树/局部图的知识组织模型,如图1所示。
图1 领域知识库的知识组织模型Fig.1 Knowledge of the field of knowledge organization model
从图中可以得知,节点1是节点2、3的父节点,2、3节点是1节点的子节点。2、3节点与1节点是“与”关系;4、6节点与2节点是“或”关系;1节点是2、3节点的前驱知识,而节点3表示的知识点又是4、5、7、8节点的前驱知识,4、5、7、8节点表示的知识点是3节点的后继知识。
该知识组织模型具有以下特性:
1)层次越高,其整体性越强,即所囊括的内容越多,所表述的内容越抽象;
2)层次越低,其部分性越强,即所表述的内容越具体,所说明的只是问题的一个方面。
3)它是在对树型结构的扩充,将树型结构和网状结构很好的融合在了一起,既有树型结构直观、算法设计简单的优点,同时又很好地表达了知识点之间的各种关系,便于在知识点基础上进行各种不同条件的推理、具有较好的可扩充性和灵活性。
3 知识点属性描述
知识点的属性包括知识点编号、类型、难度、重要程度和要求掌握的水平等。知识点编号的目的是用于检索和查找,故应具有唯一性,是精确概念。知识点类型可以按照加涅(Gagne)分类理论分为:事实、概念、规则、高级规则和认知策略[4]。虽然分类具有很大程度的模糊性,但是由于知识点类型的划分与学科建设有关,我们在具体的ITS教学/学习系统中就把它看作是精确概念。其它属性认为是模糊对象,其中,知识点难度和重要程度分为3级,用隶属度函数表示分别为:μ(x)ease={0.30/1,0.60/2,1/3}和μ(x)imp={0.30/1,0.60/2,1/3};要求掌握水平用定义模糊中心数(c,r,p)的方法来表示,可以更科学和更准确地描述教学大纲对知识点的掌握要求。(c,r,p)可以解释为:落在以c为中心,r为半径的“超球”之中的可能度为p。具体的(c,r,p)求取方法是根据积累已经通过考试学生的成绩构造数据样本,进行统计分析求得。我们可以粗略认为通过考试即达到教学大纲的要求掌握水平。假设样本服从正态分布,我们可以根据积累样本数据,求出均值1、样本方差S21,并确定一个检验置信度P1(例如取0.05水平)。用(1,S21,P1)作为(c,r,p)的估计,描述教学大纲对知识点的要求。由此,我们可以得出知识属性库的关系模型,这是一个模糊值关系数据模型。在该关系模型中,为了考虑各知识点与其教学材料的关系,除了知识点属性值外,还设有一个课件名称域。用SQL语言描述模型如下:
4 知识点链接关系描述
知识点之间的关系可以用知识点之间的链接数据库来表示。在某一学科中各知识点的链接关系描述了该学科的知识体系[6]。知识点的链接关系是双向的,有上行和下行之分。一个知识点的上行知识点,即树结构中的父结点;下行知识点,即树结构中的子结点。由教学和学习过程本身可知,知识点之间关系的紧密程度不同,我们可以把它处理成一个模糊对象,用链接确信度来度量,用S(x)表示且0<S(x)<1。S(x)=1表示一个知识点与另一个知识点最紧密链接;S(x)=0表示没有链接,在数据库中不保存。例如,我们可以定义:
知识点链接数据库的具体内容,用SQL描述如下:
在这样的一个链接关系数据模型中,会出现一个父结点和多个子结点的情况。另外,也会有一个父结点和一个子结点,多个父结点和一个子结点,以及没有父结点或者没有子结点的情况等。
5 领域知识库的结构模型
领域知识库由知识体系库和教学材料库组成。
教学材料库的主要目的是构成学习环境并向学习者提供支持学习过程的各种条件,该库的主要内容为与各知识点对应的相关课件,当通过某种搜索策略得到一个待学习的知识点编号时,就可以从知识点属性库中获得与该知识点相关联的课件名称,并可以以此名称作为入口参数,来调用已经编写好的多媒体课件,进行教学讲解或练习等教学、学习活动[7]。
因此,整个领域知识库的结构如图2所示。
图2 领域知识库的结构模型Fig.2 The structural model of domain knowledge base
6 结束语
由于领域知识库构建方式具有高度的人为依赖性,因此,构建的技术及策略并没有固定的形式。建议将构建过程[8]区分为规划、设计、测试修正、布署及整合扩展等阶段进行,为获得Ontology所须要的概念及其关系,利用正规概念分析法将真实世界的认知予以收集,并发展常用的逻辑类型模式,以降低转换为信息系统格式的障碍。
[1]邓志鸿.Ontology研究综述[J].北京大学学报,2002,38(5):731-783.
DENG Zhi-hong.Ontology research[J].Peking University,2002,38(5):731-783.
[2]刘红阁,郑丽萍,张少方,等.本体论的研究和应用现状[J].信息技术快报,2005,3(1):1-12.
LIU Hong-ge,ZHENG Li-ping,ZHANG Shao-fang,et al.Ontology research and application status[J].Information Technology Letters,2005,3(1):1-12.
[3]李善平,胡玉杰,郭鸣,等.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052.
LI Shan-ping,HU Yu-jie,GUO Ming,et al.Ontological research[J].Computer Research and Development,2004,41(7):1041-1052.
[4]王晓东,高宏卿.基于Ontology的智能系统开发[J].河南师范大学学报,2005,33(1):25-28.
WANG Xiao-dong,GAO Hong-qing.Ontology-based intelligent system development[J].Henan Normal University,2005,33(1):25-28.
[5]汪方胜,侯立文,蒋馥,等.领域本体建立的方法研究[J].情报科学,2005,23(2):241-244.
WANG Fang-sheng,HOU Li-wen,JIANG Fu,et al.The method of domain ontology[J].Information Science,2005,23(2):241-244.
[6]陈兰,左志宏,熊毅,等.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004(8):155-170.
CHEN Lan,ZUO Zhi-hong,XIONG Yi,et al.A new Ontology-based information extraction[J].Computer Application Research,2004(8):155-170.
[7]李健康,张春辉.本体研究及其应用进展[J].图书馆论坛,2004,24(6):80-86.LI Jian-kang,ZHANG Chun-hui.Ontology research and application progress[J].Library Forum,2004,24(6):80-86.
[8]Gillam L,TariqM,Ahmad K.Terminology and the construction ofontology[J].Terminology,2005(11):55-81.