APP下载

语义技术在中小学历史教育中的应用实践

2016-11-21袁小群武汉大学信息管理学院

图书馆理论与实践 2016年10期
关键词:本体语义检索

徐 雷,袁小群(武汉大学信息管理学院)

语义技术在中小学历史教育中的应用实践

徐雷,袁小群
(武汉大学信息管理学院)

为了提高师生对中小学历史在线教育的用户体验,采用语义技术对中小学历史教学资源进行了深度的语义处理、标注与组织,以教学知识点为中心,建立了教育资源组织本体,构建了中小学历史教育知识库,在此基础上设计了一个历史教育学习平台,提供历史教材精读、历史知识检索、历史知识可视化以及在线历史试题库等功能,可满足用户全方位的学习需求。

语义技术;信息组织;语义标注;在线教育

1 语义技术概述

语义技术(Semantic Technology)是一系列关于信息资源处理与组织技术的总称,包括自然语言处理技术、信息抽取与挖掘分析技术、语义Web技术等。尤其是语义Web技术,已经在诸多领域广泛应用,如生物医学、数字图书馆、语义出版等。通过使用语义技术,对传统的数字图书文献资源进行语义标注、语义关联等富语义化操作,形成可操作性和互动性强的新型电子资源,这种语义增强型的数字资源具有精确查询、阅读便利等诸多优势,近年来已引起学术界和产业界的关注。目前已经出现了许多相关文献资源的词汇标准,如PRISM、BIBO、FRBR等,图书文献资源的关联数据集(Linked Data)[1]也日益增多,而且涌现出许多优秀的应用案例及平台,如纳米出版物、[2]审稿流程语义处理平台SWJ、[3]学术文献语义发布平台SemanticLancet、[4]知识管理平台KIM、[5]科学文献标注平台DOMEO、[6]图书文献关联数据集探索平台Rkbexplorer、[7]Elsevier的文献知识增强平台Reflect[8]等。

本文采用语义技术设计了关于中小学历史教育的语义分析系统,对中小学历史教育资源进行了语义处理,建立了教育资源组织本体及中小学历史教育知识库。平台的应用丰富了用户的教学与学习过程,对图书教材资源的语义处理及在线教育活动具有实践意义。

2 中小学历史教学资源处理

2.1处理流程

打破传统教育资源组织方式的局限,提升师生对教育资源的使用体验,最基础的工作必须从教育资源本身入手,改变现有资源粗粒度的组织方式,而语义技术则可满足资源细粒度组织的需求。本文使用语义技术对中小学历史教育过程中的资源,如教材、教辅、试题以及相关的网络多媒体资源进行深度处理,包括各种文本、课件、图片、音频和视频等,对非数字化的资源首先进行数字化处理。整个教学资源的处理流程如图1所示。

图1 教学资源处理流程

在该流程中,首先收集中小学历史教育相关的资源,如各种教材、教辅、试题等各种纸质与电子资源,并对重要的纸质资源进行数字化,形成中小学历史教育资源库。由于资源种类众多、内容质量参差不齐,师生不可能掌握全部资源内容,因此,本文对资源进行了初步筛选,结合教师的建议,确定资源处理的边界。随后进行资源的语义化操作,在该阶段先赋予每一种资源一个唯一的URI(本文以http://base.com表示基URI,以示说明),包括每一张图片、每一个文本文档、每一个PPT等。该部分的处理是为了便于资源的识别以及更深一步的语义化。在该阶段可对资源的元数据进行描述,如资源的作者、来源、出版时间、相关机构等信息。由于学生对知识的学习主要体现在知识点的掌握上,因此,本文对教学知识点进行了层次化、结构化、语义化,即教学知识体系,以教学知识点为中心来组织教学资源。同时,为了提高资源库的可扩展性,构建了教育资源组织本体以对各种资源进行统一的组织;在后续语义化阶段,需要对文本资源进行片段化、赋予子URI、关键词识别、实体关联操作以及多媒体资源的语义内容分析、资源的元数据描述等语义化处理。并使用上一阶段结构化好的知识点体系,结合历史领域知识本体对各个资源进行语义标注与关联。所有资源语义化处理完成后,对这些资源进行索引、存储,形成中小学历史教育知识库。

2.2建立历史教育知识体系及教学资源组织本体

教师授课与学生上课都是围绕一个知识体系来进行教学内容组织的,而知识体系具体而言就是由一系列知识点有机联系而构成的。本文按照这一思想,以教学大纲中规定的知识点为中心来组织教学资源,将大纲中的知识体系规范化、层次化并采用语义技术丰富化。当然,根据不同省市地区学校的差异,教学大纲可以存在差异,需要根据本地的教学需求来语义化教学大纲。该过程需要相关授课教师参与,以确定知识点的范畴。

具体来讲,首先,根据教学大纲中确定的知识点,进行结构化组织,确定知识点之间的层级关系、关联关系,并将每一个知识点都赋予一个URI标识,如http://base.com/knowledgepoint1。知识点之间除了层次关系外,还具有自己的属性(property),如知识点涉及的实体、关键词、主题、来源等信息。以“五四运动”知识点为例,该知识点也称为“五四爱国运动”,其上级知识点为“反帝反封建爱国运动”,类型为“事件”,主题为“运动”,涉及的人物实体有“陈独秀”、“李大钊”等。另外,该知识点作为事件类型,还有事件发生的起因、经过、结果、时间、地点等信息都将得到表述。该过程的实现手段主要采用正则表达式,对教学大纲中的文本内容进行解析,构建各个知识点之间的关系及知识点间的内容信息。其形式化处理后的Turtle[9]三元组格式如片段1所示。

其中Knowledgepoint是本文构建的教学资源组织本体的核心概念,表示知识点,topic、related_entities、related_points等词汇表示资源的主题、涉及的实体、相关知识点等,其中主题的标注是通过检测知识点文本中的关键词集合的主题分布来实现的,并辅助人工检查来完善。该本体结构的具体内容见表1至表3。将所有的知识点按照这样的形式组织好之后,使用知识点URI来标注教材、多媒体资源。

由于原始概念体系比较复杂,上述3个表只罗列了核心的类属结构,其他如教材的元数据、试题的难易程度、学生类别、作者信息等都没有显示在上述表格中。该概念体系是组织教育资源的基础,以知识点为中心来组织教育资源,符合师生教学与学习过程特点。由于不涉及领域性极强的知识,该概念体系的构建主要参考了教学资源的内容、教师的教学经验来手工构建。其中“领域本体”概念是一个扩展概念,通过该概念可以关联到具体的领域,如数学、历史等。对于本文而言,是历史教育,本文通过结合已有研究成果、[10]相关的结构化历史资源,同时考虑到学生的知识接受能力,主要确定了历史人物、事件、时间、地点等核心历史概念。在此基础上对该历史领域本体进行内容完善与实体填充,如某历史事件的发生时间、参与人物,某历史人物出版的著作、参与的活动等,即构建了更细粒度的历史知识图谱。

表1 教学资源组织本体核心术语

表2 术语属性

表3 术语之间的关系

历史教学知识体系及教学资源组织本体、历史领域知识本体的构建是为了确定一个历史教学资源组织的体系结构,来对教学资源进行更好的标注、关联组织,构建中小学历史教育知识库。

2.3历史教学资源语义化及教育知识库构建

在对资源进行语义化操作之前,每一个独立的资源都被赋予了一个唯一的URI。以人教版7年级上册历史教材为例,该资源被数字化为文本资源,并被赋予URI为http://base.com/textbook1/。首先使用自然语言分词工具,对其进行分词、词性标注,设计算法识别出教材中的实体以及关键词,如历史人物、时间、地点、历史事件、文化遗址等。将这些信息使用RDFa[11]语法进行类型标注,并和已构建的历史领域知识本体中的相应实体进行关联,以其中第1课为例,最终教材的形式化结果如片段2所示。

该文本片段使用RDFa进行标识,其中的人物实体使用typeof=“Figure”进行了标识,并使用objectid指定其外部URI标识符用于关联历史领域本体知识库。

结构化片段2已经深入到词汇层面,对于段落、课程、单元、教材等更高粒度的资源结构化则作如下处理:将教材、教材内容介绍、教材目录、教材内容的段落、图表、课程、单元等都赋予一个URI标识,进行结构化处理。仍以中学7年级的历史上册教材为例,结构化处理后的整本教材的Turtle三元组表示如片段3所示。

限于版面,片段3只是一部分,它将教材的所有部分,包括标题、课程、单元、图表等都进行了碎片化组织。结合片段1和片段2,教材的内容使用知识点进行了标注,教材中的关键词和实体也进行了标注,并且和历史领域知识本体进行了关联。经过知识点标注的教材自然而然就集成了知识点本身的信息,可以和经知识点标注的多媒体资源进行关联,这样就实现了对相同知识点、关键词、实体、主题信息的共享。这样做的好处是,不同的课程、单元、教材等不同粒度的文本资源都可以通过其共有的知识点、实体、主题来发生联系。如主题标注为“农业生产”的段落可以聚集在一起,涉及相同知识点的课程可以聚集在一起,包含相同实体的资源可以聚集在一起,而这些关联关系的集成并不像字符串匹配那样的机制,而是通过共享相同的URI来实现,关联的准确性更高。

使用知识点对教材进行语义标注时,可以只标注若干段落,某一课也可以被多个知识点标注,单元的知识点可通过其包含的课程的知识点集合来标注。知识点的标注是结合知识点信息,如知识点涉及的关键词、实体集合、主题等和待标注文本中提取的关键词、实体信息进行相似度匹配实现的。除了将教材进行语义化处理外,相关的教学多媒体资源如PPT、图像、视频、试题等也可以采用同样的方法进行语义处理。

当所有的资源都进行了语义标注后,将所有这些语义化资源使用LarKC[12]语义处理平台进行索引并存储,形成中小学历史教育知识库,并在此基础上为师生提供历史教育的知识服务。

3 中小学历史教育语义分析系统设计

3.1系统架构

语义分析系统的架构如图2所示。

图2 系统架构

历史教育知识库使用LarKC大规模语义数据计算平台来存储和加载,该平台可以提供SPARQL[13](类似于SQL)服务端查询服务,用于处理用户提交的各种查询需求,查询返回JSON结果供前台4个功能模块调用。

3.2功能模块

(1)教材精读。教材是经过语义结构化处理过的,不同于一般的电子教材。在该教材中学生可以了解教材中标注实体的详细信息。“曹操”的标注信息,当鼠标移至该标注上,将促发一个SPARQL查询事件。由于经过标注,前端JavaScript先获取该标注的objectid组成URI,并封装为SPARQL语句,通过Http协议将该查询提交到服务端,查询并返回JSON结果,该结果通过弹出标签的形式显示在该标注的旁边,作为对该标注实体的具体解释,此过程大大减少了学生获取信息的步骤。

同时,每一课都被相关知识点的URI所标注,且该知识点也标注了其他多媒体资源。因此在阅读每一课时,通过后台执行的关联检索(SPARQL查询),可以动态获取该课相关的多媒体资源。

(2)资源检索。根据资源语义标注的特点,资源检索可划分为公共属性检索、教材检索和资源库检索三种方式。其中,公共属性检索方式分为主题、大纲、朝代、国家几种检索方式。主题即资源所涉及的领域,大纲是依据教材大纲设计的。如在主题中输入“文化艺术”,查询教材和资源中属于“文化艺术”的文本段落和多媒体资源。目前,该系统将教材和多媒体资源的检索结果通过不同的标签进行区分,通过结果可以看到检索的结果并不是通过匹配“文化艺术”来实现,而是通过语义关联检索实现的。大纲查询则直接查询知识点。由于系统设置了查询建议功能,即只需输入几个字,即可在下拉列表中显示可能需要检索的内容,以提高检索的精确度。

教材检索和资源库检索功能是将该公共属性的检索结果分开,设置单独的检索功能。其中教材检索可以通过在课程的标题和内容中检索,资源库检索可以通过资源的类型、主题等维度进行检索。所有的检索操作在后台都会封装为SPARQL查询,不再细述。

(3)知识图谱。知识图谱对应于历史教育知识库中的历史领域知识本体库,学生可以通过该功能获取教材内容的可视化结果。该可视化图形可以拖动、缩放,节点可以扩展,同时节点自身的信息也可以展示,进行基于该实体的教材检索和资源检索,这样就可以将知识图谱和资源检索功能无缝连接起来,实现更好的检索体验。

(4)在线试题。在线试题是专门为学生设计的。传统的试题一般作为课程测试、单元测试的补充来衡量学生的学习情况,试题的价值没有全部发挥。利用语义技术,可以使试题的价值得到充分利用。由于每一道试题都使用了知识点进行标注,不同的知识点具有自己的主题、关键词等信息,同时试题本身的来源、年份、难易程度、对应课程等信息也进行了标注,可根据这部分关联信息动态的获取相关的试题集合,重组为一套新的试卷。如检索“鸦片战争”,通过知识点的关联检索,题目中不含有“鸦片战争”的试题以及不在同一个单元的试题但涉及“鸦片战争”的题目将会被检索到。这样就实现了试题资源的动态组合,使学生对知识点的掌握将更为全面,而不仅仅局限在相应的课程单元之上。

4 结语

本文使用语义技术,构建了历史教育资源组织本体,对中小学历史教育资源进行了语义标注、语义关联,构建了中小学历史教育知识库,实现了基于该知识库的多维度语义检索应用。如查看某一课,通过该课程涉及的知识点可以找到与该课程相关的多媒体资源;通过该知识点相关的知识点可以获取更多的其它资源;通过知识点涉及的主题,可以检索到相关主题的课程、试题等;通过检索某个实体,可以检索该实体相关的知识点,进而得到相关课程、多媒体资源等。丰富的多媒体资源是在线教育的优势所在,对多媒体资源进行语义化处理,可以帮助用户更好地围绕所学知识进行有益扩展,加深对知识的掌握程度。同时,考虑到用户在移动端学习的需求,该平台设计了自适应功能可在不同浏览器及系统上运行。

中小学历史教育知识库的构建使用了诸多信息技术,如自然语言处理技术、信息抽取技术、语义Web技术等。本文构建的知识库,对数字化的内容进行拆分和标注,抽取其中的实体词汇、关键词以及实体之间的关系,对资源内容按照知识点、知识主题进行划分、抽取。对资源抽取的粒度越精细,表示对资源的知识挖掘越深,后续呈现给学生、教师的知识将越丰富,知识的融合重组能力将越强,有利于提供个性化的知识搜索与推荐功能,从而克服传统教育资源粗粒度组织带来的弊端,这是未来该平台继续改进的方向。

[1]Linked Data Connect Distributed Data across the Web[EB/OL].[2016-01-21].http://linkeddata.org/.

[2]Clare A,et al.Exploring the Generation and Integration of Publishable Scientic Facts Using the Concept of Nano-publications[C].Hersonissos:SePublica-WorkshoponSemanticPublishing,2011:13-17.

[3]Hu Y,et al.A Linked data driven and Semantic Allyenabled Journal Portal for Scientometrics[M]//Lecture Notes in Computer Science.Berlin:Springer,2013:114-129.

[4]Semantic Lancet Project[EB/OL].[2016-01-21]. http://www.semanticlancet.eu.

[5]Ontotext Semantic News Publishing Ontotext[EB/OL].[2015-10-12].http://www.ontotext.com/kim.

[6]CiccareseP,etal.Opensemanticannotationof scientific publications using DOMEO[J].Biomedical Semantics,2012,3(S-1):S1.

[7]RKB Explorer[EB/OL].[2016-01-21].http://www. rkbexplorer.com.

[8]Reflect[EB/OL].[2015-10-12].http://reflect.ws.

[9]RDF 1.1 Turtle[EB/OL].[2016-01-21].https: //www.w3.org/TR/turtle/.

[10]董慧,等.基于语义系统的中华史籍分析研究[J].图书馆理论与实践,2015(4):1-5,46.

[11]RDFa[EB/OL].[2016-01-21].http://rdfa.info/.

[12]LarKC:The Large Knowledge Collider[EB/OL].[2016-01-21].http://www.larkc.org/.

[13]SPARQL1.1 QueryLanguage[EB/OL].[2016-01-21].https://www.w3.org/TR/sparql11-query/.

Application and Practice of Semantic Technology in Primary and Middle School History Education

Xu Lei,Yuan Xiao-qun

In order to improve the teachers'and students'user experience of online history education in primary and middle schools,this article applies semantic technologies to make a deep semantic processing,labeling and organization of history teaching resources,and establishes an education resource ontology as well as constructs a history knowledge repository centered on teaching knowledge.Based on above research,this article designs a history education learning platform with the functions such as intensive reading textbooks,history and knowledge retrieval,historical knowledge visualization and online history test and so on,which can meet comprehensive leaning needs of the users.

Semantic Technologies;Information Organization;Semantic Annotation;Online Education

G250.76

B

1005-8214(2016)10-0001-05

本文系国家自然科学青年基金“网络本体质量及适应性的评估研究”(项目编号:71503189)研究成果之一。

徐雷(1986-),男,武汉大学信息管理学院讲师,研究方向:本体与语义网、数字图书馆;袁小群(1976-),男,武汉大学信息管理学院副教授,研究方向:数字出版、内容分发。

2016-02-21[责任编辑]阎秋娟

猜你喜欢

本体语义检索
眼睛是“本体”
语言与语义
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
基于本体的机械产品工艺知识表示
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
专利检索中“语义”的表现
“吃+NP”的语义生成机制研究
专题