基于本体和语义网的网络教育资源检索研究
2011-01-02郭广军王剑波游新娥刘安丰
郭广军,王剑波,游新娥,刘安丰
(1.娄底职业技术学院,湖南 娄底 417000;2.湖南人文科技学院 计算机科学技术系,湖南 娄底 417000;3.中南大学 信息科学与工程学院,长沙 410083)
2007年1月22日,教育部财政部颁发《关于实施高等学校本科教学质量与教学改革工程的意见》中提出要“积极推进网络教育资源开发和共享平台建设,为广大教师和学生提供免费享用的优质教育资源,完善服务终身学习的支持服务体系”.2010年7月29日,中共中央、国务院正式发布的《国家中长期教育改革和发展规划纲要(2010—2020年)》[1]对于加快教育信息基础设施建设中提出要“充分利用优质资源和先进技术,创新运行机制和管理模式,整合现有资源,构建先进、高效、实用的数字化教育基础设施,推进数字化校园建设”.关于加强优质教育资源开发与应用中提出要“加强网络教学资源库建设,开发网络学习课程,建立数字图书馆和虚拟实验室,引进国际优质数字化教学资源,建立开放灵活的教育资源公共服务平台,促进优质教育资源普及共享”.
随着教育信息化进程的大力推进,网络教育资源的建设越来越受到国家和各高校的重视.网络教育作为现代远程教育的一种重要形式,已成为当今教育的重要组成部分,其优势在于具有海量的网络教育资源,该优势如何利用和发挥好是个大难题,已经成为关系网络教育成败的关键因素.我国投入了大量的资金用于资源建设,但与发达国家相比,目前我国网络教育资源仍存在很大不足.一方面,由于网络教学资源的共享和教学系统的互操作缺乏统一的格式和交换标准以及通用的技术手段,形成信息孤岛,难以共享,降低了教育资源的有效性,导致了资源的重复建设;另一方面,面对海量的资源信息,由于管理困难,缺乏智能,使得资源无法精确定位,使用者无法高效快捷查找使用资源.这是当前我国网络教育资源建设与共享中存在的十分复杂而亟待解决的重要问题.其根本原因在于缺乏资源建设的统一标准(规范)和具体可行的技术方案.标准需要包括资源描述、资源建设、资源调用、资源管理等方面内容.克服这些问题的有效措施是建立网络教育应用层次的技术标准,从技术上保证教育资源的可共享性和不同体系之间的互操作性.
网络教育资源指在网络上蕴藏的各种形式的与教育相关的知识、资料、情报、消息等的集合,包括设计的、利用的和集成的教育信息资源,它们以数字形式在网络上进行传播,能够应用在网络或现实的教学环境中,起到辅助教学、学习、教研和管理活动的作用.要实现网络教育系统之间的资源交互和共享,必须实现对网络教育资源的语义描述,并将网络教育系统构建在标准结构之上.目前资源的语义较多采用元数据和本体描述,而语义Web提供了语义互操作模型,能有效实现网络资源的发现、共享和集成应用,本文主要研究网络教育资源本体构建方法和基于本体的网络教育资源语义检索模型与方法.
1 关键技术
1.1 语义网
图1 语义网层次模型Fig.1 Hierarchical model of the semantic web
语义网(Semantic Web,语义 Web)提供了在应用、企业和社区之间共享数据的通用框架,它是现有Web的延伸,其中信息被赋予了良定义(well-defined)的含义,以使人与计算机能更好地协同工作.其目标是面向异质、动态、开放、全球化的Web,通过语义来解决不同应用、企业和社区之间的互操作性问题.2006年,Tim Berners-Lee给出了新的语义网层次模型[2],如图1所示,其中,①UNICODE和URI层:UNICODE使用国际通用字符集处理资源编码,实现Web上信息的统一编码;URI(Uniform Resource Identifier,统一资源标识符)支持语义Web上对象和资源的标识.②XML+NS+XMLS层:将 Web上资源的结构、内容与数据的表现形式分离,支持与其他基于XML的标准无缝集成.③RDF+RDFS层.RDF是语义Web的基本数据模型,用以描述Web资源.RDFS提供了将Web对象组织成层次的建模原语,主要包括类、属性、子类、子属性关系、定义域和值域约束.④ 本体层:采用OWL表示本体(Ontology),揭示资源以及资源之间复杂和丰富的语义信息,将信息的结构和内容分离,对信息做完全形式化的描述,使Web信息具有计算机可理解的语义.⑤ 逻辑层:用来提供公理和推理规则,为智能推理提供基础.⑥ 证明层:执行逻辑层的规则,并结合信任层的应用机制来评判是否能够信任给定的证明.⑦信任层:提供信任机制,保证用户Agent在Web上提供个性化服务,以及彼此之间安全可靠的交互.
1.2 本体
Studer等人[3]对本体的定义为:“本体是共享概念模型的明确的形式化规范说明.”运用本体可以把现实世界中某个领域抽象成一组概念和概念之间的关系,提供对该领域的普遍、共享的知识表示,实现在异构分布的计算机系统中被理解和交流.Perez等归纳出构成本体的5个基本元素[4]:① 概念(Concepts)或类(Classes):可指任何事物,如描述、功能、行为、策略和推理过程等,本体中的概念通常构成一个分类层次树.② 关系(Relations):代表领域中概念之间的交互作用,形式上定义为n维笛卡儿乘积的子集:R∶C1×C2×…×Gn.③ 函数(Functions):是一种特殊的关系,其前n-1个元素可唯一决定第n个元素,其形式化的定义:F∶C1×C2× … ×Cn-1→Cn.④ 公理(Axioms):代表永真断言,是定义在概念和属性上的约束和规则.⑤ 实例(Instances):是指属于某概念类的基本元素,即某概念类所指的具体实体.按照领域依赖程度,本体可分为顶层、领域、任务和应用本体4类[5].顶层本体描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等,其他种类的本体都是该类本体的特例;领域本体描述特定领域(如网络教育资源)中的概念及概念之间的关系;任务本体描述特定任务或行为中的概念及概念之间的关系;应用本体描述依赖于特定领域和任务的概念及概念之间的关系.
2 语义信息检索
当前面向用户直接阅读和处理的Web技术没有提供机器可读的语义信息,因而限制了计算机自动分析和智能化处理的能力.传统的信息检索方法或搜索引擎,都是以关键词匹配为基础的,其主要缺陷有:①不能对Web信息提供语义级的组织、理解和处理等以满足用户在语义和知识上的需求;②检索结果只是在字面上符合用户的要求,检索返回内容常偏离用户的需求;③用户输入的查询稍有偏差,检索系统就无法确定用户的真正需求,而无法提供正确的结果.为了解决前述问题,可在信息检索中采用语义技术.语义信息检索的方法一方面采用语义技术改进传统的信息检索,另一方面运用传统信息检索帮助语义查询.在语义检索中,传统信息检索有助于发现可重用的领域本体,为语义查询增加自适应性,改进问答系统的性能等.也可利用信息检索中的倒排索引对语义信息进行索引,并回答语义查询.语义信息检索的一般框架[6]如图2所示.
图2 语义信息检索一般框架Fig.2 General framework for semantic information retrieval
3 网络教育资源本体构建
3.1 本体构建方法
目前本体构建[7]没有统一的标准.1995年Gruber提出了本体构建的五条原则:① 明确性与客观性:本体应该用自然语言对所定义的术语给出明确、客观的语义定义.② 完全性:所给出的定义是完整的,完全能表达所描述的术语的含义.③ 一致性:由术语得出的推论与术语本身的含义是相容的,不会产生矛盾.④ 最大单调可扩展性:向本体中添加通用或专用的术语时,不需要修改已有内容.⑤最小承诺:对待建模对象给出尽可能少的约束.
当前比较有影响的本体构建方法有:①TOVE(Toronto Virtual Enterprise)法[8]:用于企业建模过程的知识本体构建,使用一阶谓词逻辑进行集成,主要包含有企业设计本体、项目本体、调度本体和服务本体.② 骨架(Skeletal)法[9]:用于构建企业本体(Enterprise Ontology);③ Methodology法[10]:用于构建化学知识本体(有关化学元素周期表的本体);④ KACTUS工程法[11]:主要解决技术系统生命周期过程中的知识复用问题.⑤SENSUS法[12]:是美国南加州信息科学研究所(ISI)为研发机器翻译器提供无限概念结构所开发的方法,主要用于自然语言处理.⑥IDEF5法[13]:是美国 KBSI(Knowledge Based Systems Inc.)开发的用于描述和获取企业本体的方法,它通过使用图表语言和细节说明语言,获取关于客观存在的概念、属性和关系,将其形式化后作为知识本体的主要架构.IDEF5创建本体的5个步骤:(1)定义课题与组织队伍;(2)收集数据;(3)分析数据;(4)本体初步开发;(5)本体优化与验证.⑦ 七步法[14]:由斯坦福大学医学院开发,主要用于领域本体的构建,其七个步骤:(1)确定本体的专业领域和范畴;(2)考查复用现有本体的可能性;(3)列出本体中的重要术语;(4)定义类和类的层次体系;(5)定义类的属性;(6)定义属性的刻面;(7)创建实例.
3.2 网络教育资源元数据
3.2.1 教育资源元数据标准 目前大多使用学习对象元数据[15](Learning Object Metadata,LOM)作为教育资源的共享标准.LOM是关于学习对象的信息,为学习者或教育者对学习对象的查找、评估、获取、使用、共享和互操作等提供技术支撑.现有教育资源元数据描述标准[16]:①OCLC的Dublin Core元数据规范:定义了一个所有网络教育资源都应遵循的通用核心标准,包括Title、Creator、Subject、Description、Publisher、Contributor、Date、Type、Format、Identifier、Source、Language、Relation、Coverage、Rights共15个方面的标准信息.②IEEE的LOM(Learning Object Metadata,学习对象元数据)规范:主要定义了General、Lifecycle、Meta-Metadata、Technical、Educational、Rights、Relation、Annotation、Classification 共 9个类别的数据信息.③IMS的LRM(Learning Resource Metadata,学习资源元数据)规范:描述了IMS元数据的名称、定义、结构和约束.④ADL的SCORM可共享内容对象参考模型:它借鉴了IEEELOM、IEEE API、IMS CP和IMS SS等,包括内容聚合模型CAM,运行时间环境RTE,排序和导航SN 等.⑤CELTSC(Chinese E-Learning Technology Standardization Committee,中国教育信息化技术标准委员会)的系列规范:共发布了11种试用标准(规范),与教育资源相关的有:CELTS-3学习对象元数据、CELTS-41教育资源建设技术规范和CELTS-42基础教育教学资源元数据规范.
3.2.2 CELTS-41技术规范 教育资源建设规范的目的是为资源开发者提供一致的标准,达到资源基本属性结构的一致性,实现资源在区域内的共享,为学习者或教育者等对教育资源的查找、评估、获取和使用能获得最大效率而提供支持.同时也为不同资源库实现数据的共享和互操作提供支持.CELTS-41教育资源建设技术规范[17]的基本结构如图3所示.
图3 教育资源建设技术规范基本结构Fig.3 Basic technical specification for education resources constructing
在图3中,①核心LOM必须数据元素是任何类型的资源都必须具备的属性标注,包括标识、标题、语种、描述、关键字和覆盖范围等.②可选数据元素是从学习对象元数据规范的可选数据元素中抽取出来与教育资源密切相关、并对各类教育资源都适用的属性集合.可根据用户需求和开发者自身的工作过程作为参考属性有选择的使用.③分类数据元素是根据媒体素材、试题、试卷、课件、文献资料、案例、常见问题解答、资源目录索引和网络课程九类资源各自的特点,从LOM模型的可选集中选取与某类资源密切相关的属性,并补充了一些基本的、必要的特殊资源分类属性.
3.2.3 本体与元数据的关系 本体和元数据都是伴随网络信息处理发展起来的新方法,对知识的组织和管理、信息的检索都有很重要的意义.它们之间既有联系又有区别.元数据是关于Web资源和其它一些实体的机器可理解的信息[18].元数据和本体的共同之处在于:都采用标准的编码语言进行形式化处理,能为资源提供语义基础,可用于资源组织和资源发现.其差异表现为元数据难以对不同知识体系、不同粒度的资源进行描述,而本体则是提供了不同元数据之间的相互映射机制,可以实现异构系统之间的互操作[19].本体可在某种程度上弥补元数据的不足:①本体能解决信息系统的语义异构问题,包括资源的微观结构异构以及资源对象间的复杂关联关系.②本体可通过语义Web服务架构,提供一种在元数据方案之间自动映射机制,解决元数据方案的普遍适应性问题.③本体可以进化,可通过自动和半自动的手段应用新的元数据方案.④本体可以对不同知识系统、不同粒度的资源进行描述,实现异构资源和系统之间的语义联系.⑤本体可对数字资源的整个生命周期进行描述.
3.3 基于元数据的本体构建方法
本文以七步法为基础,基于元数据,通过建立元数据和本体构建过程的映射来开发本体,映射关系如图4所示,左边为七步法构建本体的具体步骤,右边是与元数据的映射关系.基于元数据的七步法构建本体方法如下:
图4 基于元数据的本体构建Fig.4 Metadata-based ontology construction
Step 1:确定本体的领域和范围.本文选择CELTSC-41作为教育资源建设技术标准作为元数据方案来构建本体所要描述的领域.
Step 2:考虑现有本体的复用.若系统需要与其他特定的本体知识库或受控词汇应用交互,则系统需求可以考虑复用现有的本体知识库,或者与本体库建立映射关系.
Step 3:列举本体的重要术语.可以结合多个元数据方案,提取元数据规范中定义的数据元素和分类信息.
Step 4:定义类和类层次.类是本体知识库的核心,用来描述领域的概念.从第三步的术语列表中选择独立的描述对象术语,类一般是按一定的分类系统定义的.如LOM中的文本类、视频类、音频类和创建者类等.
Step 5:定义类的属性.在定义了类及其层次后,应该描述概念的内部结构,即类的属性.子类可以继承或覆盖父类的属性.属性具有逆向性,并可具有默认值.通常,有固有的特性、外在的属性、局部和关系四类对象特性能变成本体中的属性.属性分数据属性和对象属性.
Step 6:定义属性的约束.包括属性的值类型、值域范围、基准值等.
Step 7:生成实例.先选择实例所属的类,然后生成一组实例,最后填充属性的值.
4 基于本体的网络教育资源语义检索系统
为了实现面向网络教育资源的语义检索,首先需要对网络教育资源进行采集和存储,并依据语义模板进行语义标注和建立语义索引.当用户提交查询请求后,在对其进行规范化处理后,根据一定的查询扩展机制对该查询请求进行语义扩展,然后根据扩展后的查询请求进行检索,并将检索结果按照特定的排序逻辑进行排列后返回给用户.
基于本体的教育资源语义检索系统框架图5所示,由资源入库与语义标注器、本体管理器、检索预处理器、检索重构器、检索引擎共5大部分组成.
图5 基于本体的教育资源语义检索系统框架Fig.5 Ontology-based semantic retrieval system framework of educational resources
4.1 资源入库与语义标注器
资源入库子系统在对教育资源进行必要的预处理后分类存储,并提供对资源的修改、删除和管理功能;语义标注器依据教育资源任务本体,针对不同类型的教育资源构造相应的语义模板.该模块实现对教育资源元数据的自动提取,并依据语义模板对教育资源进行高层语义表示,随后将包含教育资源元数据语义标识和高层语义标识的特征文件存入特征文件库.
4.2 本体管理器
本体管理器负责完成MySQL数据库对OWL格式本体的存储和访问,利用推理引擎实现推理,并将推理结果存入本体信息数据库,实现对现有本体和本体信息数据库的更新.
4.3 检索预处理器
检索预处理器根据教育资源本体库和通用词典判断用户查询请求中的每个检索词是否为本体词汇,首先进行分词与词性标注,对中文语句形式的查询请求进行规范化处理,并依据特定的查询词权重赋值策略,为每个查询词赋予相应的语义层次和权值,最后形成查询向量送检索重构器.
4.4 检索重构器
检索重构器访问教育资源本体库,获取查询向量中每个查询词的语义扩展结果,获取查询词的关联概念以及它们之间的语义距离,将经过语义扩展后重构出标准通用的SPARQL查询语句提交给检索引擎.
4.5 检索引擎
检索引擎先将SPARQL查询语句进行语义关系推理,再根据特征文件库建立语义索引文件并以此响应查询请求,完成对查询词的语义层次归类,根据收到的查询词权重信息和自身的排序逻辑对检索结果进行排序,并将结果返回给用户.
5 实验结果
① 实验环境:1)硬件环境:CPU为Intel(R)Core(TM)2Duo CPU E7500 2.93GHz,内存为2 GB;2)开发环境:操作系统为 Microsoft Windows XP Professional SP3;系统架构为Struts 2;开发平台为 JDK1.6.0_10;本 体 编辑与管 理 工 具 是Protégé4.1;分词工具包为ICTCLAS 5.0;数据库管理系统为 MySQL 6.0;语义网开发包为Jena 2.8.8∶Jena是HP公司开发的一个基于Java的开放源代码语义网工具包,为解析RDF、RDFS和OWL本体提供了一个编程环境及一个基于规则的推理引擎.② 实验结果:实验表明基于本体的网络教育资源语义检索系统原形系统是可用的,其优点表现在:1)能有效实现网络教育资源的发现、共享和集成应用;2)提高了网络教育资源检索的查全率和查准率,提高了用户满度.
6 结束语
本文在阐述语义网、语义检索、本体构建、元数据标准等关键技术基础上,分析了本体与元数据的关系,给出了基于元数据的教育资源本体构建方法.设计了基于本体的网络教育资源语义检索系统.实验表明基于本体的语义检索提高了网络教育资源检索的查全率和查准率.
[1]中华人民共和国中央人民政府.国家中长期教育改革和发展规划纲要(2010—2020年)[EB/OL].http://www.gov.cnjrzg2010-07/29/content_1667143.htm.
[2]Berners-Lee T,Weitzner D J,Hall W,et al.A Framework for Web Science[J].Foundations and Trends®in Web Science 2006,1(1):1-130.
[3]Studer R,Benjamins V R,Fensel D.Knowledge engineering,principles and methods[J].Data and Knowledge Engineering,1998,25(1-2):161-197.
[4]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[A].Proceedings of the IJCAI'99workshop on Ontologies and Problem-Solving Methods(KRR5)[C].Stockholm,Sweden:CEUR Publications,1999:1-15.
[5]Durbha S,King R L.Interoperability in Costal Zone Monitoring Systems:Resolving Semantic Heterogeneities[A].Proc of IEEE Internationa1 Geoscience and Remote Sensing Symposium,IGARSS’05 [C].Seoul:IEEE Computer Society Press,2005:236-239.
[6]高志强,潘 越,马 力,等.语义 Web原理及应用[M].北京:机械工业出版社,2009.
[7]Huazhu S,Luo Z,Hui W,et al.Ontology and Metadata for Online Learning Resource Repository Management Based on Semantic Web[J].Journal of Southeast University:English Edition,2006,22(3):399-403.
[8]Grüninger M,Atefi K,Fox M S.Ontologies to Support Process Integration in Enterprise Engineering [J].Computational &Mathematical Organization Theory,2000(6):381-394.
[9]Uschold M,King M.Towards a Methodology for Building Ontologies[A].Workshop on Basic Ontological Issues in Knowledge Sharing,held in conjunction with IJCAI-95[C].Montrea1:Morgan-Kaufmann Publishers,1995.
[10]López M F.Overview of Methodologies for Building Ontologies[A].Proceedings of IJCAI-99’s Workshop on Ontologies and Problem Solving Methods[C].Stockholm:Morgan-Kaufmann Publishers,1999.
[11]Esprit Project 8145.The KACTUS Booklet version 1.0[EB/OL].http://hcs.science.uva.nl/projects/NewKACTUS/home.html.
[12]ISI Natural Language Processing Research Group.Ontology Creation and Use SENSUS [EB/OL].http://www.isi.edu/natural-language/projects/SENSUS-demo.html.
[13]Knowledge Based Systems Inc.IDEF5Ontology Description Capture[EB/OL].http://www.idef.com/IDEF5.htm.
[14]Noy N F,McGuinness D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report,2001.
[15]郑维勇,唐 颖.基于LOM规范的教育资源库管理系统[J].软件导刊:教育技术,2007(12):46-48.
[16]陈玲玲.基于本体的教育资源语义检索研究与实现[D].重庆:重庆大学,2009.
[17]张功杰.基于本体的领域资源语义检索研究[D].广州:暨南大学,2007.
[18]Berners-Lee T.Metadata Architecture[EB/OL].http://www.w3.org/Design Issues/Metadata.html.
[19]李金定.叙词表、元数据与本体之间关系探究[J].图书馆研究,2007(8):61-64.