APP下载

数字图书馆知识组织与知识检索

2009-07-15白晓玲

现代情报 2009年1期
关键词:数字图书馆

白晓玲

〔摘 要〕从数字图书馆知识组织方式、知识组织策略、web信息预处理及信息预测和知识检索,阐述了数字图书馆的知识组织与知识检索。

〔关键词〕知识组织;知识检索;数字图书馆

〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2009)01-0073-05

Knowledge Organization and Knowledge Retrieval of Digital Library

Bai Xiaoling

(Library,Hubei Institute for Nationalities,Enshi 445000,China)

〔Abstract〕This article elaborated the digital library knowledge organization and the knowledge retrieval from the digital library knowledge organization way,the knowledge organization strategy,the web information pretreatment and the information forecast and the knowledge retrieval.

〔Key words〕knowledge organization;knowledge retrieval;digital library

知识组织是信息组织的延伸,是将经过大脑处理后的信息,即知识进行组织的方式,这种方式更有利于实现用户解决问题。但也不一定,因为知识使用者和知识创建者之间还有一个背景知识匹配问题。对于数字图书馆来说,知识组织就是通过知识挖掘、知识发现、知识匹配、数据融合、推送技术、智能搜索等多种智能技术和软件技术对信息进行精简。发现隐含在信息中的有用知识单元并组织成知识库。其任务就是将繁杂的数字化信息按照一定的结构序化为知识库,然后将知识库提供给数字图书馆的用户。如何科学、合理、方便、有效地进行数字图书馆的知识组织,是一个急待探索的现实问题。

知识检索是将知识按一定的方式组织和存储起来,并根据用户的需要找出有关知识信息的过程,它涉及知识的表示、存储、组织和存取等多个环节。知识检索技术已经成为现代社会各种应用的关键。但是,基于关键词匹配的传统信息检索技术难以避免丢失相关信息或产生大量冗余信息。在这种情况下,人们不断地探索新的知识资源组织方法、新的知识检索理论与技术,尝试将人工智能技术应用于知识检索,建立知识检索的理论、方法与技术。总之,知识组织是知识检索的基础,知识检索是实现知识组织的手段。因此,对数字图书馆知识检索进行探索,必须探讨知识的组织方式和知识检索方式。

1 数字图书馆知识组织方式

1.1 文本方式

文本方式就是文件夹方式:比如你打开我的电脑,里面有c、d、e、f盘,然后每个盘里又有不同的文件。一种全局性的信息结构,它将文档中的不同部分通过关键字建立链接,使信息得以用交互方式搜索。它是超级文本的简称。具体说来,文本是一个具有符号名的一组相关的逻辑记录集合。一个文本可以包括数据程序或字符,是计算机保存处理结果的基本单位。以文本方式组织数字图书馆信息资源的优点是:实现简单方式,能存储非结构化信息。但是,当信息结构较为复杂时,文本方式难以实现有效的控制和管理,而且也存在文本大小和数量的冲突。因此,文本方式只能是数字图书馆进行知识组织的辅助方式。

1.2 数据库方式

数据库是在计算机存储设备上合理存放的相互关联的数据集合。数据库本质的3个方面是相关数据、共同存取组织方式、数据共享。以数据库方式进行数字图书馆的知识组织,其优点是可以高速处理大量结构化和非结构化数据,并且以信息项作为数据的最小存取单位;不足是目前数据库技术尚不能提供数据化的数据。如专题信息之间的知识关联。此方式适用于规范数据、行业数据等。以物理形态可划分为,层次型数据库、网状型数据库、关系型数据库。

1.3 主题树方式

主题树方式就像注册表那样的结构。主题树是一种可供检索和查询的等级式主题目录,组织信息资源的方法,是将信息资源按照某种事先确定的概念体系分门别类地逐层加以组织。用户可以先通过浏览的方式层层遍历,直到找到所需要的信息线索,再通过信息线索链接到相应的网络信息资源。主题树以超文本链接的方式将不同学科、专业、行业和区域的信息按照分类或主题目录的方式组织起来。它提供一种界面机制,用户利用这个界面,通过主题目录间接地连接并使用多个实际的数据资源。利用主题树方式进行数字图书馆的知识组织,其优点是具有良好的可扩充性和严密的系统性,但利用这种方式必须事先建立一套完整的主题目录分类体系。此方式适合建立专业性信息资源体系,不适合建立大型的综合性的信息资源系统。

1.4 超媒体方式

超媒体是超文本(hypertext)和多媒体在信息浏览环境下的结合。它是超级媒体的简称。它将文字、图表、声音、图像、视频等多媒体信息以超文本方式组织起来,人们通过浏览的方式搜寻所需信息。这种方式避免了检索语言的复杂性,使人们可以通过高度链接的网络在各种知识库中自由遨游;但是,资源的有序化整理和组织存在较大难度,而且当超媒体网络过于庞大时,用户很难准确、迅速地定位于其真正需要的信息节点上。此方式适合对动态信息进行组织。在Internet浏览页,通过鼠标的点击,用户不仅能从一个文本跳到另一个文本,而且可以激活一段声音,显示一个图形,甚至可以播放一段动画。Internet采用超文本和超媒体的信息组织方式,将信息的链接扩展到整个Internet上。Web就是一种超文本信息系统,Web的一个主要的概念就是超文本链接,它使得文本不再像一本书一样是固定的线性的。而是可以从一个位置跳到另外的位置。你可以从中获取更多的信息。可以转到别的主题上。想要了解某一个主题的内容只要在这个主题上点一下,就可以跳转到包含这一主题的文档上。正是这种多连接性我们才把它称为Web。

1.5 知识库方式[2]

知识库(Knowledge Base)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。知识库系统从组织结构上支持数字图书馆的知识组织。现在多是由数据库系统从组织结构上组织数字信息的。但数据库技术不能提供数据信息之间的知识关联。知识库则比数据库有更强的知识组织功能。知识库是以一致的形式存储数字信息的机构,其组织的信息是高度结构化的符号数据。数字图书馆可以采用顺序文件、索引文件、倒排文件等组织数字文件的形式来组成知识库。

1.6 集成化搜索引擎方式

集成搜索引擎顾名思义就是集合了N多搜索类别,且集成了N个专业的搜索引擎于一身,能方便用户更全面更快捷地搜索到所需的内容。集成搜索引擎(All-in-One Search Page),亦称为“多引擎同步检索系统 ”(如:引擎之家)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便。集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。

集成化搜索引擎是今后知识组织发展的一个重要方向。对于其具体组织方式是在主题树中集成搜索引擎功能.将各个搜索引擎按主题树的结构方式组织起来(一种搜索引擎可能分布在多个树枝上),通过浏览主题树来选择搜索引擎,供进一步查询需要。

2 数字图书馆知识组织策略

2.1 采用分类主题一体化模式来组织数字图书馆的知识[3]

分类法和主题法是图书馆传统的知识组织方法,当然也可以应用于数字图书馆的知识组织,但基于数字图书馆独有的特点,分类主题一体化应成为目前数字图书馆知识组织的适用模式,它采用分类主题一体化语言来组织知识。分类主题一体化语言是由分类法与主题法有机结合而成的一种标引语言,它是在一个语言系统中包括分类表和叙词表两个主要部分,并对两部分的概念、标识、参照、索引实施统一控制,从而同时满足分类标引和主题标引的需要;比较有代表性的美国MeSH就是采用了知识树和字顺表相结合的方式来揭示知识和检索知识。也可以是由原来的一种或几种分类语言与一种或几种主题语言合成的语言对应系统,以实现分类语言与主题语言的标识互换。分类主题一体化语言实现了分类语言与主题语言的结构整合和性能互补。

利用搜索引擎来进行知识组织是分类主题一体化知识组织模式的雏形,搜索引擎的分类体系虽然有较好的适应性和实用性,但是它在知识体系的建构和展示等方面仍存在不少缺陷。理想的分类主题一体化模式应包括三部分:一个结构简明的知识分类体系。通过该知识分类系统,实现对信息知识领域的宏观控制;一个智能化的控制词表。通过它可实现对作者语言与用户语言的控制和转换。自动标引系统可以把使采自信息源的作者语言转换为标引语言;查询系统则可以把用户语言转换为标引语言,使用户语言与作者语言通过标引语言达到最佳的匹配;建立分类体系与控制词表的系统联系,将标引语言进而也将作者语言和用户语言纳入分类体系。从而不但实现自然语言检索,也可以在任何类下进行语词检索。

2.2 采用元数据来组织数字图书馆的知识

元数据通常被定义为“关于数据的数据”。元数据技术在数字图书馆系统中有着重要的地位,在知识组织方面元数据技术发挥着关键性的作用。元知识概括地说就是关于“知识的知识”,在产生式系统中,元知识由元事实和元规则构成。元知识可以最大限度地满足数字图书馆知识组织的要求,但是元知识的广泛利用还有待知识工程(包括人工智能)的发展和普及。而人工智能的许多方面仍处在探索阶段,距离实际的推广应用还有一段时间。运用元数据来组织数字图书馆知识是目前较好的选择,这体现在以下两方面。

2.2.1 知识发现

知识发现是近几年兴起的一个极有发展前途又有广泛应用前景的新领域,其研究的主要目标是采用有效的算法,从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知识,并用简明的方式显示出来。目前,关系数据库应用广泛,并且具有统一的组织结构、一体化的查询语言、关系之间及属性之间具有平等性等优点,因此,数据库知识发现的相关研究非常活跃。常用的知识发现方法主要有:分类规则、关联规则、序贯模式、相似模式和聚类模式。知识发现一般包括以下几个步骤:建立问题;建立目标数据集;数据清理和预处理;数据转换;选定数据开采算法;数据开采;解释;评价知识。这些步骤通常需要经过多次反复,以提高学习效果。数字图书馆注重信息资源的开发和共享利用,知识发现技术正适应了这种需要。图书馆拥有内容丰富的馆藏文献及大量的数据库,这些可作为知识发现的对象,在提供全文检索和网络信息检索的基础上可从中挖掘出有用的知识,并揭示出其间的规律。在这个过程中,因为网络信息资源的无序性与分散性问题,许多人对网络资源进行了手工编目与加工,并着重在资源的选择性、文献与权限等方面给某些网址和数据集增添了许多有价值的摘要说明。通过人工追加的元数据而非机器抽取的关键词,用户可以构造更确切的查询式来对相关度较高的结果集进行检索,从而得到比用关键词等检索方式更精确的检索结果。

2.2.2 知识保存

数字信息与知识以数字载体的形式存储,具有丰富、生动、方便、快捷等优点,但它与物质载体的信息与知识相比寿命却显著下降,数字信息如何实现长期保存成为数字图书馆和信息业所面临的巨大挑战。目前对于数字资源的长期保存通常有两种策略:一是对原硬件、操作系统和软件进行仿真,二是定期把上一代计算机上的数字信息迁移到下一代计算机。不管是采用“仿真” 策略还是“迁移”策略,数宇信息资源的长期保存都与元数据的创建和维护有关。我国国家图书馆制定的《中文元数据方案》,正在成为数字信息的形成与管理中使用标准,有助于数字信息在存取与保存时的完整性。也直接降低保存数字信息的费用。目前,在数字信息长期保护方面还没有统一或通用的元数据格式,但有关研究项目已经提出了若干种格式。

2.3 集成分类法、主题词表和语义元数据[4]构造数字图书馆知识组织系统

上文提到分类法和主题词表是传统图书馆中最重要的知识组织工具,当然也可以应用于数字图书馆的知识组织,但二者直接应用于数字图书馆中,尚有许多缺陷。例如,分类法和主题词表相对于网络信息资源的迅速更新和变化,其结构和内容难于自动更新;二者体系庞大、结构复杂,难于被普通用户所掌握;它们都侧重于对文献的标引和组织,对数字图书馆需要的检索服务考虑较少。因此,将分类法和主题词表应用于数字图书馆的知识组织,必须对它们进行改造。数字图书馆中,元数据中所包含的原始文献的内容标引信息是标引员在理解文献内容的基础上,根据分类法、主题法的知识体系和标识系统来表示的,称为语义元数据。由于元数据资源没有像传统图书馆中的馆藏那样,进行分类排架和目录组织,从而肢解了隐藏其中的知识系统,因此,构建数字图书馆知识组织系统的关键是使元数据资源中被掩盖的知识体系显现出来,发挥其资源组织和检索服务功能。这就是集成分类法、主题词表和语义元数据构造数字图书馆的知识组织系统的基本方法。

2.4 采用专家系统来组织数字图书馆的知识[5]

人工智能是计算机科学的一个分支,它研究如何用计算机来模拟人的思维和行为从事推理、学习、思考、规划等活动,解决需人类专家才能解决的复杂问题。在人工智能的多个研究方向中,专家系统是最成功的一个研究领域。专家系统的基本结构主要包括4个组成部分:知识库、推理机、工作存储器、人机接口。其中,知识库和推理机是专家系统的核心,建立知识库的关键问题是采用什么知识表示方法能准确地表达领域知识;推理机设计的主要问题是确定推理机制;人机接口是一个用户窗口,以处理各种咨询问题;工作存储器则是一个“黑板”,用于推理过程中的中问假设和结论。目前在图书情报领域应用较多的是情报检索及分类专家系统,这些专家系统多数是依照其它专业领域的专家系统。将专家系统应用于数字图书馆的建设,探索智能化的知识组织系统是一个新的研究课题。与现行的各类知识组织系统相比较,专家系统在知识处理和组织上有如下优势:专家系统除存有数据元素外,还存贮数据元素的组合规则,在需要时可以通过学习和推理机制实现知识和信息的重构;专家系统可以按款目意义组织数据库,并能够理解自然语言的查询,以很强的交往形式启发用户准确表达自己的信息需求,实现智能查询;专家系统具有阅读和理解能力,能自动而非人工输人新增加的数据;专家系统以自然语言来实现人机接口,并以很强的交返形式启发用户准确表达自己的知识需求,具有很强的系统易用性。专家系统的这些性能决定了它在知识组织方面比以往任柯其他方法都显得灵活先进。

3 知识检索

知识检索是一种全新的信息检索方式,是在现有的信息检索技术以及模型上发展而来的。知识检索和信息检索的不同,就在于知识检索强调了语义,不会和信息检索一样,只是基于字面的机械匹配,它从文章的语义、概念出发,能够揭示文章的内在含义。做到了语义和概念层次上的标引工作,知识检索就提高了查全率和查准率,降低了用户的负担。知识检索一般包括以下两方面。

3.1 WEB信息的预处理[6]

信息预处理的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,使用户能很容易地检索到所需信息。

3.2 信息过滤

信息过滤(Information Filtering)称为信息筛选,简称IF,信息过滤的含义应该包括两个层面的内容:一方面是从大量无序的信息中去除无用的信息;另一方面是从动态的信息流中将满足用户需求和兴趣的信息挑选出来。

3.3 格式过滤

信息预处理应该能够过滤不同格式的文档,以及图片、声音、视频等信息。这使得搜索引擎不仅能够检索文字,而且能够检索原始格式文件的所有信息。

3.4 语词切分

语词是信息表达的最小单位,而汉语不同于西方语言,其句子的语词间没有分隔符因此需要进行语词切分。常用的语词切分方法有按词典进行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想——回溯法、全自动词典切词等。近年来,又出现了基于神经元网络的和专家系统的分词方法和基于统计和频度分析的分词方法。

3.5 词法分析

词法分析作为汉语分析的基础,分析结果的准确性将在很大程度上影响后来的句法分析和语义分析。词法分析过程中应注意以下问题:①切分排歧。歧义处理是自动切分的难题之一,一般把切分歧义分为两种结构类型:交集型歧义(交叉歧义)和组合型歧义(覆盖歧义)。②未登录词识别。未登录词是指没有包括在分词词表中但必须切分出来的词,包括各类专有名词、术语、缩略词和新词等。③词性消歧。词性兼类是词性标注的主要问题,进行词性标注时的难点在于兼类词的消歧。

3.6 词性标注和短语识别

词性标注就是采用适当的方法。根据上下文的语法关系消除句子中的语法兼类,确定其词性并加以标注的过程。汉语短语识别就是把汉语文本中的短语作为一个整体识别出来,而不对内部结构做分析。汉语句子在切分的基础上,利用基于规则和统计的方法进行词性标注。在此基础上,还要利用各种语法规则,识别出重要的短语结构。

3.7 自动标引

自动标引是指直接通过计算机的操作处理,赋予检索标识的活动。自动标引是根据检索的需要发展起来的,是电子环境下出现的一种新的标引形式。从网页文档中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文档。

3.8 自动分类

建立并维护一套完整的分类目录体系,根据文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接查询到该文档[7]

4 知识检索表达及信息预测

知识检索包括文件信息表达和查询信息表达以及相关信息预测过程[8]

4.1 信息表达

信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。

4.2 查询分析

用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。

4.3 查询扩展

查询扩展指在检索前,先根据扩展词表自动把用户查询关键词的同义、近义词扩展进来形成新的查询,然后提交检索。其核心是从词的概念层次来认识和扩充用户的检索请求,从而提高检索的查全率。近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。

4.4 查询词的选择策略

查询词的选择包括,非独立词:非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。反馈词:根据用户反馈的文件信息,按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词,将这些词增加到用户查询中。交互式选择:用户从通过上述策略得出的待选词中决定最后的查询词。反馈网络属于人机交互范畴,目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息,不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式,因此查询结果也不尽相同。

4.5 信息检索模型

信息检索系统的核心是搜索引擎,它需要从大量复杂信息中,筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。

综上所述,知识检索就是综合应用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。知识检索是传统信息检索的发展,它利用语义分析的结果,对知识源进行概念级的检索,对用户提出的问题给出准确度和相关度最高的检索结果。知识检索的实质是把借助语义知识库理解、分析和规范后的检索请求与经过语义知识库分析的信息源索引库进行语义匹配。并提交给界面主体的过程。知识检索是针对信息检索中存在的语义性较差、智能性低、知识性较弱等现状提出的一种基于语义和知识关联。运用知识处理技术和知识组织技术,实现信息查询语义化、智能化的一种高级信息检索方式。未来在语义网上,知识检索的对象是定义完善的本体,知识检索是指根据用户需求或问题的实际情况找出可利用的知识使问题得到圆满解决的过程。知识检索实际上是约束与知识之间的映射过程。知识检索是在需要的时候把知识从知识库中取出来。

参考文献

[1]王辉.关于知识组织与信息组织[J].情报科学,2003,21(5):496-498.

[2]邓君,毕强.国内机构知识库研究进展[J].图书与情报,2007,(5):37-42.

[3]刘维开.数字图书馆的知识组织研究[J].现代情报,2002,22(10):123-124,126.

[4]王军.VISION:集成分类法、主题词表和语义元数据的概念网络[J].情报学报,2003,22(4):412-418.

[5]盛小平,周媛.数字图书馆知识组织策略[J].大学图书馆学报,2002,20(2):13-18,21.

[6]化柏林,赵亮.知识抽取中的嵌套向量分词技术[J].现代图书情报技术,2007,(7):50-53.

[7]栾芳芳.多种载体信息资源的自动分类方法与实践[J].现代图书情报技术,2007,(7):83-87.

[8]季叶克.情报信息预测合理化之探讨[J].图书馆学刊,2005,27(5):51-53.

猜你喜欢

数字图书馆
我国医学数字图书馆研究的文献计量分析
互联网思维下数字图书馆个性化服务建设研究
充电者的知识殿堂——数字图书馆
浅析“互联网+”时代的图书馆管理