浅析知识组织工具的发展趋势
2012-04-12张亚茹
李 雷,张亚茹
(1西安医学院图书馆,陕西 西安 710021;2.中国人民解放军第451医院,陕西 西安 710054)
知识组织并非脱离了信息组织而存在,而是信息组织发展到一定阶段的产物。知识组织工具对自然语言的控制大致用两种方式,一是建立知识结构,二是控制词汇,用户能够以最简单、快捷的方式获得所有符合需求的相关文献资源。从广义上来说,凡是对自然语言进行了控制并有利于提高检索效率的工具,无论其控制范围、控制手段及类表的规模程度,都可以统称为知识组织工具。
1 知识组织和知识组织工具
知识组织(Knowledge Organization,简称KO)是在图书馆学、情报学的分类系统和叙词表研究的基础上发展起来的。知识组织的目标是序化知识,从而提供知识。“知识组织”一词,1929年由美国著名图书馆学家、分类法专家布利斯在其著作《知识组织和科学系统》、《图书馆的知识组织》中首先提出来的。著名图书馆学家谢拉也分别于1965年和1966年出版了《图书馆与知识组织》、《文献与知识组织》两部论著,对图书馆的知识组织表现及作用进行了初步研究。1989年在德国法兰克福成立了“国际知识组织协会”(ISKO),并多次以知识组织为主题召开学术研讨会,对知识组织的各个领域进行深入探讨。1993年,《国际分类法》期刊改名为《知识组织》,专门刊载有关知识组织的研究成果。在我国,对知识组织的研究历史并不长,所以其理论与方法体系均不成熟。也正因为此,目前对知识组织问题的研究是当前图书情报界的一个热点问题。
知识组织工具,也称知识组织系统或者知识组织体系(Knowledge Organization Systems,简称KOS),是目前国内外研究的热点。知识组织系统是各种对人类知识结构进行表达和有组织的阐述的语义工具(Semantic Tools)的统称。包括传统图书馆建立在文献单元基础上的分类法、标题表、叙词表以及更泛指的情报检索语言、标引语言,也包括网络时代建立在概念单元或只是单元基础上的概念地图(Concept-Maps)、语义网(Semantic Networks)、概念本体(Ontologies)等。知识组织系统的功能主要通过对信息资源的组织、检索与导航,发挥用户与信息资源间的中介作用。知识组织已经成为信息科学中一个重要的研究领域,一些重要的国际会议都针对知识组织领域成立了专门工作组。如国际数字图书馆联合会议(JCDL)、欧洲数字图书馆会议(ECDL)、都柏林核心与元数据应用国际会议(DCMA)等。从历次会议的研究主题来看,分类表、叙词表及知识本体等成为该领域的研究热点。
2 传统知识组织工具
2.1 分类表
分类表是以组织人类知识资源即图书馆馆藏资源为主要目的,是一种根据资源内容属性对资源进行分门别类、系统地组织和揭示的方法。其主要特征是覆盖人类全部知识门类、带有标记符号和使用复杂。分类表强调的是概念之间的层级聚合与类别体系。
分类表在网络环境下的发展主要表现为类表电子化、组织网络资源、提供新的用途等。分类表的电子化,一是有利于使用,可直接检索相关类目,类表和类目之间可以超文本进行横向链接,类表的体积问题不再引人关注。二是有利于与其他类表兼容,从而同时使用,也有利于类表更新。图书分类表用于组织网络资源并提供资源的浏览虽取得了不少进展,但是必然会有一定的局限性,主要还是受限于图书分类表的知识结构。网络资源表现出更多的灵活性和多元化,除了用来直接组织网络资源外,还具有作为知识库、结构库来编制新的知识组织工具的潜能。如机构Taxonomy的编制。
2.2 叙词表
网络化的叙词表联机显示是叙词表在网络环境下应用的主要形式之一。我们可将应用于网络信息组织的叙词表归纳为两种类型:一是仅供选择词汇使用,独立于检索系统之外,通过选定的检索词作为检索入口词,不直接链接资源。二是叙词表嵌入在检索系统之中,作为检索系统的一部分,直接使用选中词链接相关资源。这种方法更符合用户查找资源的易用性和便利性需求。网络环境下叙词表的作用可以提供超文本导航,辅助用户检索,减少用户选择检索词的负担,从而提高检索效率。
网络技术的出现使得网络直接出版和使用的叙词表越来越多,叙词表由标引工具逐渐发展为一种检索工具,成为网络版数据库检索和元数据标引中不可缺少的一部分。与图书分类表一样,叙词表也用来组织网络资源,可以用来作为主题网关的标引词汇和浏览知识结构,还可以用来作为新的知识组织工具的词库或词间关系库。比如机构Taxonomy和本体的编制。
3 新知识组织工具
3.1 Taxonomy
Taxonomy作为一种知识组织工具,由分类结构、概念语词两个元素组成,描述内容对象的概念语词被组织成一个等级结构。Taxonomy可应用于各种环境和支持各种用途。如检索提问处理、检索结果优化、源信息自动分类等。但它更常用于企业、机构的知识分类和网站的浏览、导航。它与企业的知识管理、知识库的建设密切相关,也是网站信息构建的重要组成部分。支持浏览是Taxonomy的一项重要功能,Taxonomy一词就是以分类为基本手段支持浏览功能的各种工具如主题指南等的统称体系的依据。在信息组织领域,Taxonomy特指对信息对象的分类组织。
3.2 Semantic Web
Semantic Web是继万维网之后的新一代网络,体现了一种新的知识组织方法。Semantic Web又称语义网,是由全球信息网联盟的蒂姆·伯纳斯-李(Tim buerners-Lee)在1998年提出的一个概念。其核心是:通过给全球信息网上的文档(如:HTML)添加能够被计算器所理解的语义(Meta data),从而使整个因特网成为一个通用的信息交换媒介。语义网是由比现今成熟的网络搜索引擎更加行之有效的、更加意义广泛的,并且自动聚集和搜集信息的文档组成的。Semantic Web和Web 2.0的区别的是,Semantic Web着重于网络本身,体现一种网络标准和语言,而Web 2.0更着重于提倡用户参与的网络服务方式。Semantic Web最基本的元素就是语义联结,可以提升万维网以及其互联的资源的可用性和有效性。Semantic Web中的概念意义比我们所理解的传统知识组织工具涵盖的概念要宽泛很多。它是基于知识点、信息点,而不是基于馆藏或文献,包括任何可成为知识点和信息点的概念。Semantic Web之所以能够实现知识点、信息点之间的链接,就是因为它提供了概念之间的关系。这种关系比叙词表中的词间语义关系要复杂很多,一是它表达了概念之间的具体关系,而不是笼统的等同、等级、相关关系。其次,它提供的概念之间的关系是网状的,从理论上来说,概念和概念之间存在着各种可能的关系。
3.3 Ontology
Ontology一词来自于哲学领域,是对某一知识领域的概念化描述和说明。1991年Neches等人将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成词汇外延的规则”。1998年Studer等人提出:“Ontology是共享概念模型的明确的形式化规范说明。”这一定义已被多数人所认同。这里包含4层意思:“概念模型”(Conceptualifation)指通过客观世界中一些现象的相关概念而得到的模型;“明确”(Explicit)指所使用的概念及其约束都有明确的定义。Ontology可以理解为是Semantic Web理念的具体应用和增强,和Semantic Web一样,它包括概念和概念之间的关系,是计算机可理解和操作的。但Ontology对概念之间关系展示的方式不同,并增加了其他元素来增强它的用途功能。有专家贴切地将Ontology描述为结合了Taxonomy和叙词表的特点。Ontology首先将概念(entities)划分为类型(classes),在以分类为主干的骨架下,揭示概念之间的关系。同时 Ontology还包括规则(rules)和定理(axioms),从而具备了推理的功能。Ontology也被描述为是Taxonomy和推理规则的结合。在用途方面,和Taxonomy一样,Ontology一般针对某一特定领域或范围。由于它主要是基于概念的,而不是某一馆藏或文献库,因而在使用上有了更大的潜力,可用于兼容或整合不同系统。同时Ontology的推理功能使得它的用途超出了信息检索的范畴,可用于回答问题、机器翻译,企业模块化、和数据挖掘等。
3.4 Topic maps
Topic maps是以图形方式来展示某一资源库的知识结构从而提供信息的检索。Topic maps改变了传统意义上的匹配检索模式。传统知识组织工具主要用于标引阶段,所包含的知识结构对用户来说,是隐形的。用户面对的是一个输入界面,为了检索到理想的信息资源,需要构建出合适的、与标引词或符号相匹配的提问。在对资源库知识结构一无所知的情况下,图书分类表和Taxonomies虽然也用于揭示资源库的知识结构,但主要是类聚资源、提供资源的浏览而不是检索。而Topic maps揭示信息资源的主题概念,并将主题概念作了链接,展示了整个资源库的知识结构,使用户可以在浏览关于该资源库的知识结构图的前提下进行信息资源的检索。Semantic Web和Ontology也具备提供该功能的潜力。但由于Topic maps采用了图形技术,以及在组成上更为简单,因而更突出和具有优势。Topic maps由三个基本元素组成:主题(topics)、关系(associations)、链接的信息资源(occurrences)。主题也就是概念,可供检索的信息点、知识点,也是经受控的标引词。关系是不同主题之间的关系,这种关系与叙词表、Semantic Web、Ontology中的词间语义关系不同。叙词表、Semantic Web、Ontology反映的概念之间的关系是抽象、一般性的,Topic maps中主题之间的关系是具体的,类似于元数据中的关系型字段,同时,Topic maps还包含其他元素来细化这三个基本元素和描述信息资源。
4 知识组织工具的发展趋势
4.1 数字化和网络化
数字化和网络化是新知识组织工具应用于网络环境的前提与基础。采用数据库方式存储和表示,便于对知识组织工具的访问和管理,也便于将其与相应的电子资源集成在一起。由于组织对象的数字化和网络技术的应用,知识组织工具组织文献资源的功能在淡化,揭示信息资源内容特征的功能在强化。新知识组织工具主要是基于概念,而不是馆藏文献,从而强化了知识组织工具的应用潜力。
4.2 标准化
标准化是实现知识组织工具之间交流与互换的基石。国际上一直极为重视KOS标准化。2004年W3C发布的SKOS推荐标准,是一个基于语义网技术表示受控词表及其他知识组织工具的概念框架。它具有简洁、灵活、通用、易扩展以及与语义网及传统图书情报领域联系紧密的特点。对于促进受控词表在网络环境下的使用有重要意义。
4.3 互操作
互操作性指的是两个或两个以上的系统相互使用已被交换信息的能力。就其本质而言,互操作性是对异质实体(包括异种体系结构、异种操作系统、异种网络和异种语言等)中可获得资源的透明调用的能力。在这一领域当前关注的焦点及发展趋势是将多类型、多语种的知识组织体系通过相互映射集成整合在一起,并可被用于多个不同系统,实现异地跨系统的浏览与检索。例如我们所知道的,现在有些工作已经可以在Semantic Web和Topic maps之间进行互操作。
4.4 可视化
可视化是图形可视化工具方式显示知识组织系统的结构。可视化工具主要包括:概念图、思维导图、认知地图、语义网络、思维地图等。通过图形可视化的方式展示本体中的网状结构的知识。其可视化检索系统能够将本体中的类层次、属性、实例等语义关系以图形的方式直观显示,实现可视化语义检索。
4.5 逻辑表达语言自然化
传统的知识组织工具都采用规范的科学语言,针对某一领域进行知识组织。能够高效利用这些工具的通常是该领域内的专家。而新的知识组织工具采用更接近人类自身的自然语言来描述知识,将知识的建设由某个专业领域推广到更广阔的社会范围,让更多的人参与到知识体系的构建之中,有效地促进知识资源的共建。
4.6 知识的实时更新
随着技术和经济的发展,人类对于世界的认识逐步深入,所掌握的知识无时无刻不在发生变化。为了迎合知识的动态性,知识组织工具必须是一个开放系统,可以随着知识的改变对相关概念进行实时更新,对知识点进行添加、删除和修改。Ontology满足了这样的要求。这也是Ontology之所以能够在知识组织中得以快速发展的一个重要因素。
[1]周宁.信息组织(第二版)[M].武汉:武汉大学出版,2004:15-20.
[2]司莉.KOS在网络信息组织中的应用与发展[M].武汉:武汉大学出版社,2007:4-13.
[3]司莉,舒欣.国外网络知识组织系统研究现状与发展趋势[J].图书情报知识,2008(12):82-85.
[4]李景,钱平.叙词表与本体的区别与联系[J].中国图书馆学报,2004(1):36-39.
[5]Horrocks,I.Ontologies and semantic web.Communication of The ACM,2008(12):58-67.
[6]刘植惠.本体(Ontology)与语义网(Semantic Web)(J).重庆图情研究,2006(3):1-4.
[7]Zeng,L.Knowledge organization system(KOS).Knowledge Organization,2008,35(2-3):160-183.