信息服务中的知识组织系统及应用研究
2018-01-02曾文刘敏
曾文+刘敏
摘 要:随着信息技术的发展,我国信息服务业正由知识生产型向知识服务型转变。知识组织系统是实现数据信息化增效和知识服务增值,以及大数据知识资源和知识服务能力的共享基础。因此,如何建设知识组织系统,以提供有效的信息服务是目前知识组织系统应用的关键问题之一。文章介绍了国内外信息服务中的知识组织系统及应用情况,分析了国内知识组织系统应用中存在的问题和原因,并阐述知识组织系统的构建需要重点解决的问题,提出知识组织系统的基本框架和构建方法。
关键词:信息服务;知识组织系统;知识资源;知识服务能力
中图分类号:G254.29 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017050
Abstract With the development of information technology, the information service in our country is changing from knowledge production to knowledge service. Knowledge organization system is to realize data information efficiency and knowledge value-added services, and knowledge resources and knowledge service of big data sharing. Therefore, how to construct the knowledge organization system to provide effective information services is one of the key problems in the application of knowledge organization system at present. This paper describes the knowledge organization system and its application conditions, analyzes the problems and reasons of domestic application of knowledge organization system, and expounds the framework and key solutions of constructing knowledge organization system.
Key words information service; knowledge organization system; knowledge resources; knowledge service ability
1 引言
随着大数据时代的到来,不同类型和来源的信息数据资源规模与日俱增,如何从这些庞大复杂的数据信息中获取知识,实现有效的知识组织和知识揭示是我国知识组织系统建设和应用的重要方向之一。知识组织系统是定义、描述客观物质世界信息及其相互关系的术语和符号系统,其对各种信息资源按照知识的内容和结构进行合理的描述和组织,实现知识的导航、检索以及关联。本文通过调研国内外知识组织系统的信息服务应用实例,探讨国内知识组织系统应用存在的问题和原因以及知识组织系统的框架和构建方法,从而为实现更有效的信息服务奠定基础。
2 知识组织系统研究现状述评
知识组织系统主要用于阐述某种概念、概念属性以及概念之间的关系,是联系用户的信息需求和信息资源之间的桥梁,是信息资源建设的核心问题。知识组织系统的应用[1-2]涉及:(1)通过概念、概念属性及概念之间关系的表达,控制同义词和近义词,将信息按照一定的结构构建知识库,通过对信息数据的描述、组织和已有的概念知识之间的关系,支持对信息资源检索的语义理解、规范和导航;(2)通过建立的概念或知识,概念地图、主题图和本体,提高检索和服务效率,促进领域专家知识的共享和交流;(3)依据知识组织系统的概念及关系,可对信息进行概念分析、分类、标引等处理,实现基于语义的检索,便于全面深入揭示信息、信息之间的关系及其在整个知识组织系统中的位置[3-4]。知识组织系统的目的是在现有资源和用户需求分析的基础上,实现对数据资源和内容的最大化描述,以提供符合用户需求的数据资源。为此,本文调研和分析了国内外知识组织系统及其应用情况(见表1)。
通过研究发现,国内现有的以文献为基础的知识组织系统,除中国知网(CNKI)和百度百科外,多数是将已有的词表或词汇集进行改造而得到领域单一、传统意义上的知识组织系统,这种模式下的知识组织系统在应用中是存在局限性的。相比国外,国内的知识组织系统成功应用案例较少,即使较为成功的中国知网(CNKI)和百度百科的知识组织系统,也均未达到国外的知识组织系统應用水平。其它如国家科技图书文献中心(NSTL)对信息数据资源提供的检索服务和知识导航服务极为有限,部分文献仅能以卡片方式检索;提供联机检索部分的资源,只限于字符串简单匹配;没有提供对资源的导航浏览;更没有从多个角度去展示信息资源;没有对众多的电子信息资源提供集成的统一检索,导致不同的数据库需要到各自的数据库网站进行检索。此外,在信息资源获取方式上基本是以下订单、Email获取方式为主,这与当前的主流技术,直接实时下载资源等方式相比,既存在人力消耗问题,也增加了用户的等待时间。如何从多个角度来深度揭示信息资源的知识、提供多种信息资源导航与集成检索服务,并尽量让用户能实时获取知识?造成这种现状的主要原因有以下三点:
(1)信息资源状况是影响知识组织系统设计和应用的一个重要因索。信息资源数量越多、类型越多对于知识组织系统的要求也越高。对于不同的信息资源情况和不同的应用需求,应根据实际情况来设计和实现知识组织系统。综合性信息资源的组织要求综合性的知识组织系统,专业性信息资源的组织,最好设计具有针对某个具体的领域或学科的专业知识组织系统。普通综合性信息资源的知识组织系统以全、泛为主,而专业性知识组织系统的设计则以精细为目的,并能针对学科的特色来构建。对于资源数量巨大、载体类型丰富、学科专业丰富的知识组织系统的设计,必然要求精细化和多样化,从而实现从多纬度揭示、有效的集成组织和检索信息资源的目的。endprint
(2)知识组织的专业性与信息质量的不对称性。作为知识组织系统的重要组成部分词表(叙词表、主题词表等),是信息组织和服务的重要工具,其与文献的结合实际上是一种“高端”产业,词表作为图书情报领域的专业性工具,其权威性和专业性是不容置疑的,是支持信息组织和服务的主要工具之一,国外著名的检索机构同样需要词表来做知识服务的支撑,但信息服务效果的另一个重要因素是信息资源数据的基础标引工作,以科技文献为例,国外的科技文献基本是按叙词表受控词的规范经过严格标引的,因此信息检索和知识服务的精确性较好,而国内尚无机构和人员做类似的基础工作。因此,国内不同领域和规模的词表尽管数目很多,但是利用词表实现文献检索和多领域知识导航服务的功能并未有很好的实现。目前国内的知识组织系统应用的现实情况基本是:检全率有余,但准确率差,且运行代价相对大且慢。
(3)缺乏可用的知识组织语义互操作实施标准和规范。语义互操作是网络环境下信息服务面临的主要问题之一,是指系统间共享的数据能够在充分定义的领域概念水平上得到理解的能力。语义上的互操作需要统一的规范,如概念的表示模式、同义概念归并与语义规范化、歧义概念的处理等需要依据一定的规范和标准来处理。由于国内互操作相关标准的制定和发展很不成熟,导致国内词表集成、词表与分类表的集成等基本处于“各自为政”的状态,共享性较差。只有在统一的规范和标准下,通过机器辅助的人工干预方式进行同义概念归并,歧义概念处理,生成规范化概念名称和概念、唯一标识符,继承与规范化来源表重要编码,构建多层次的术语类型和结构化语义网,才能较好地支持具有不同词表的计算机系统之间进行高效和无歧义的数据交互。并通过概念组织数据,界定各来源表的同义概念,为其提供语义规范化形式的名称和概念唯一标识符,使得一定抽象水平上的同义概念都能连接到同一个标准化名称和代码,这是实现信息系统语义互操作的基本机制。
3 知识组织系统构建需解决的关键问题
3.1 知识组织的统一表示
知识组织系统需要统一的表示形式、规范和技术接口,从而集成其它行业性分类法、主题词表、兼容现有多种格式的主题词表。传统主题词表是信息资源管理中重要的知识组织工具。随着基于内容的信息处理需求增长,主题词表作为一个知识体系已经成为概念之间可视化分析和演变分析的重要支撑工具。主题词表的专业化发展为领域信息资源的管理带来了方便,同时也带来了一些问题。如交叉学科通常是研究活跃的领域,在一篇前沿论文的关键词中,常常会涉及到跨多个领域的术语。一部单个领域的词表往往很难全面覆盖这些词汇。另外,各个行业所编制的主题词表的存储方式也并不统一,这为构建知识组织系统带来诸多不便。主题词表编制者(领域专家)从各自的领域出发编制主题词表,而主题词表用户(信息技术专家)则希望能够通过统一的软件接口访问不同领域的各種主题词表。因此,跨领域、多来源的兼容化、集成化是以主题词表为代表的知识组织系统需要解决的重要问题之一,必须建立知识组织系统统一的词表表示形式、规范和技术接口,从而集成其它行业性分类法、主题词表、兼容现有多种格式的主题词表。
3.2 知识组织的语义集成
知识组织系统集成不仅是简单词表之间的合并,更是实现对不同知识组织系统中的词、概念和关系的集成。消除词表之间的语义冲突,形成一致的集成词表。在语义集成的过程中,除了需要实现结构层和词语概念层的一致性处理,还需要通过对信息资源的挖掘技术发现词语之间深层次的语义关联[5],包括:(1)同义词和多义词集成。在跨领域和多来源词表中,不可避免会遇到同义词和多义词问题,这两类问题可以通过字形层面的融合实现集成;(2)概念映射。两个主题词表的概念之间,可能存在多种关系,如完全相等 、不完全相等(大部分相等、小部分相等),可通过概念映射建立映射文件来解决;(3)概念集成。由于属分关系在不同的主题词表中,有各种不同的含义,所以概念集成的重点是概念间属分关系的发现问题;(4)关系集成。词表的集成,不仅是同型概念的映射集成,还需通过对数据的挖掘,发现跨领域的词表术语之间的新的关联关系。
3.3 用户的行为数据分析
分析和利用用户行为信息的目的是支持知识组织系统的服务,用户行为信息产生于用户与知识组织系统交互的过程中,对其进行分析发现用户行为规则和模式,达到快速反馈知识服务的目的。目前已有的用户行为分析研究主要集中在知识组织系统构建已完成后的方法研究,而且研究范围局限于对用户行为影响因素分析,对知识服务的主动性欠缺。本文认为:用户的行为数据分析一方面是一个对积累的用户行为数据进行分析的过程,另一方面是如何相对实时跟踪和获取用户行为数据参与知识挖掘的过程。所以,构建包含用户行为的知识组织系统框架,借助数据分析技术和方法,将用户行为分析作为“知识”,实现知识组织系统针对性的知识组织,才能更好地为用户提供有效的主动式信息服务。
4 信息服务中的知识组织系统框架与构建方法
4.1 知识组织系统的基本框架
国外知识组织系统的研究和应用日趋多元化[6-7],应用实例不再局限于传统知识组织系统提供的方法和技术,结合计算机存储技术、检索技术、大数据技术等支持更丰富和完善的知识服务[8]。如利用知识组织系统之间的互操作方法和技术,支持不同知识组织系统的数据资源进行有效整合和检索;基于Web构建和整合数字环境,通过检索技术和基于内容的链接能力,将高质量的信息资源、信息分析工具和信息管理软件无缝整合;通过语义匹配和推理,查找具有相关语义内容的文档,将满足不同需求的相关信息进行组织,建立基于语义技术的文献和知识的浏览及导航;不以传统的分类表和词表作为知识组织系统的分类和组织工具,而是基于数据资源内容特点,构建新的数据分类和组织体系。此外,根据用户需求和信息资源特点,灵活构建适用的知识组织系统则更具实用性[9]。因此,本文提出知识组织系统构建框架。框架主要包括四部分:基础平台层、数据资源层、业务层和服务层。其中基础平台层是知识组织系统的平台系统,即操作系统和数据库管理系统;数据资源层指知识的数据源,是知识准备的基础,重点涉及用于知识抽取的各种类型语料库,已有的知识组织系统资源数据及用户行为资源数据;业务层是知识组织系统的功能层,其主要实现知识的加工,传统知识组织系统的集成、更新和扩展,以及用户行为知识的分析;服务层主要实现面向用户的服务,主要涉及信息检索服务,信息知识的组织和导航、知识组织系统的可视化以及接口服务等(见图1)。其与传统知识组织系统构建框架的主要不同之处是在数据、功能和服务上耦合度和集成度更大,具备集成传统知识组织系统和知识重新构建的双重功能,且数据资源层增加了用户行为资源数据,业务层增加用户行为知识分析功能,从而使知识组织系统的信息服务更符合用户的实际需求。endprint
4.2 知识组织系统构建的基本方法
(1)知识准备。主要包括两个方面:一是基于领域的知识准备,这类知识指词条基本信息、词条定义及注释知识、词条之间的关系知识、词条的属性知识及分类知识。这些信息可通过领域数据或已有领域词表信息中獲取;二是基于用户的知识组织准备。用户的知识准备是伴随知识组织系统的使用过程中,通过组织用户行为中而发现的知识,如用户与知识的“会话”信息(如浏览的检索词),用户的目标知识信息(如某个文献)、知识的排序信息等。用户的行为知识可以通过分析和挖掘这些信息及信息之间的关联关系而得到。
(2)知识获取、组织与集成。数据的知识发现、组织和集成技术的目的之一是实现知识的跟踪和推理。结合用户行为数据的分析结果,从数据中挖掘出知识特点,通过建立科学的推理模型,并通过模型带入新的数据,从而推理未来的数据知识。对于结构化数据中知识的获取,已有很多研究,在目前大数据环境下,非结构化数据的多元化给知识识别、组织和集成等技术的实现带来相比结构化数据更大的分析难度,因此需要重点解决如何从非结构化数据中获取知识。研究方法上应更关注非结构化数据的知识特点,从而得到知识识别的技术要素,设计有效的知识识别技术,并在此基础上,对行业数据进行知识的分类和组织,以及一定程度的知识集成。
(3)知识的语义分析。语义分析的核心意义之一是建立数据的语义关联,从而层次化和有序化的揭示数据中的核心内容,提取有效的数据信息。在知识组织系统的生产和服务中,语义分析技术可以辅助用户生产和加工有效数据,建立历史与现实数据知识的智能化关联。知识的语义分析应建立在符合行业数据特点的知识语义表示,描述标准和规范基础上,能够解决符合数据特点的细粒度知识加工和符合数据特点的知识获取和关联技术。
(4)符合用户行为的知识组织和服务。知识组织系统的目的是服务用户,其不仅仅是通过文献或其它类型的数据资源库来提供信息和知识服务,更需要结合用户行为实现有效的知识组织,再利用可视化方法和技术为用户提供显性知识和隐性知识的可视化展示。显性知识组织的可视化可支持用户的查询和知识导航,通过知识的组织和分类快速定位用户需要的信息。隐性知识组织的可视化则针对用户行为和知识需求,进行用户所需知识的分析和组织,提供知识检索优化、推荐等深层次的知识服务。
5 结语
无论是传统的文献资源,还是现代的网络信息资源,知识组织系统仍是信息组织和服务的基础,知识组织系统通过在用户需求和信息资源之间以及多类型信息资源之间建立关联,达到对信息资源的集成管理、深度挖掘和高效利用,对于更好的建立信息资源索引、浏览和展示信息资源等方面将具有巨大的作用[10]。本文通过对国内外知识组织系统及应用的分析,提出新的知识组织系统框架和构建方法,下一步将对知识组织框架的实现和应用做深入研究。
参考文献:
[1] 赵蔚,刘秀琴,邱百爽.语义网自适应学习系统中领域本体的构建[J].吉林大学学报(信息科学版),2008(5):514-518.
[2] 王兰成,敖毅,曾琼.国外知识组织技术研究的现状、实践与热点[J].中国图书馆学报,2008,34(2):93-97.
[3] 曲建峰,李芳,张轶华,等.知识组织系统自动映射规则研究与实现——以《杜威十进分类法》和《中国图书馆分类法》为例[J].现代图书情报技术,2012(10):83-88.
[4] 王景侠.知识组织的工具及其语义互操作方法体系[J].数字图书馆论坛,2013,(5):41-46.
[5] 董慧,徐雷,王菲,等.语义分析系统研究(I)——史籍语义分析流程[J].情报学报,2014,33(2):183-194.
[6] 王昊,谷俊,苏新宁,等.本体驱动的知识管理系统模型及其应用研究[J].中国图书馆学报,2013,39(2):98-110.
[7] 苏新宁,等.面向知识服务的知识组织理论与方法[M].北京:科学出版社,2014:18-19.
[8] 张文秀,陈伟,朱庆华,等.基于本体的语义分析过程与方法的研究应用[J].计算机应用研究,2011,28(3):961-964.
[9] 肖会敏,侯宇.互联网+环境下科技信息资源共享面临的问题及其对策.[J].情报工程,2015,1(6):39-42.
[10] 孙晓平.大数据知识计算的挑战[J].情报工程,2015,1(6):43-50.
作者简介:曾文(1973-),女,中国科学技术信息研究所副研究员,博士,硕士生导师,研究方向:知识组织和知识工程、情报分析技术研究;刘敏(1980-),女,中国科学技术信息研究所助理研究员,研究方向:情报分析研究。endprint