APP下载

面向用户的网络叙词表构建关键问题研究

2016-07-26陈红艳

河南图书馆学刊 2016年7期

陈红艳

关键词:网络叙词表;词表构建;面向用户

摘要:近年来,网络叙词表作为一种新型语义工具,引起了国内外信息组织领域的广泛关注。文章从网络叙词表的功能定位、结构设计、编制模式、构建标准等4个方面,探讨了网络叙词表在构建过程中的几个关键问题,以期对我国网络叙词表构建的实践提供指导,扩大网络叙词表的社会化应用领域。

中图分类号:G254.2文献标识码:A文章编号:1003-1588(2016)07-0131-03

1 背景

作为一种新型语义工具,网络叙词表是叙词表在网络环境下的新形式和新发展,其编制与应用已引起国内外信息组织领域的广泛关注。与传统叙词表相比,网络叙词表的构建目的从以资源为中心的标引应用发展为以用户为中心的检索需求,其构建方式从人工编制发展为以计算机为主、人工为辅的模式,其使用群体从适用于专业人员发展为面向大众用户,其载体形式从纸本印刷型转变为网络数字化,其格式类型从单一版本发展为多数据格式并存。

网络环境下,一方面,叙词表的应用领域得到大大扩展,在知识导航、信息分类、数据挖掘、语义检索等领域都有重要应用;另一方面,人们对叙词表也提出了更高的期望和要求,期望叙词表不仅能保持传统优势,而且能增加词间关系的类型、吸收自然语言的长处,从而更好地符合用户的需求,适应时代的需要。基于此,笔者以面向用户的网络叙词表为对象,在对网络叙词表构建过程分析的基础上,对其中的几个核心问题进行深入探讨,以期对我国网络叙词表构建提供实际参考。

2 国内外研究现状

网络叙词表构建的实践在国外起步较早。据Taxonomy Warehouse网站[1]收录统计,欧美各国在网络环境中使用的分类表、叙词表、术语表、本体等共计674部,主要应用于网络数据库、搜索引擎、Web网页等网络信息资源的组织与优化。其中,具有代表性的叙词表有联合国粮农组织数据库使用的农业叙词表AGROVOC、美国国家医学图书馆的医学主题词表MeSH、美国国会图书馆标题表LCSH等。有关网络叙词表构建与设计方面的研究,国外主要集中在词表设计方法、框架、实现方法、叙词表构建与维护的软件及管理系统等。McCulloch从叙词表构建中的词汇选择、结构、标准以及构建软件等多方面,对网络环境下的叙词表构建提出具体指导意见[2]。Nielsen对选择词汇的各种方法进行分析与比较,说明了面向叙词表设计的任务要求[3]。Glenda对比分析了三种常用的专业编制叙词表软件——Tree Tree、MultiTes、WebChoir,为用户选择软件提供指导[4]。Shiri对网络环境下叙词表的特征及功能进行了深入研究,尤其是对叙词表增强网络用户检索的方法、策略提出具体措施[5]。

在国内,中国科学技术信息研究所自2009年起开始对《汉语主题词表》进行网络化改造,为网络环境下专业叙词表的修订与构建奠定基础,已建立了《汉语主题词表》服务系统,提供在线概念检索和辅助标引服务,通过可视化技术展示各类概念关系。近年来,我国国家社会科学基金项目“网络环境下叙词表的编制模式与应用方式研究”“基于知识组织的术语服务研究”“社会化网络环境下信息组织的理论与方法创新研究”“叙词表与分众分类系统的集成研究”“中外分类知识组织体系互操作实证研究”“基于叙词表自动集成的领域本体构建方法研究”“中文知识组织系统形式化语义描述标准体系研究”等,研究成效显著,产生了一大批高质量的研究成果,有效推动了我国网络叙词表的研究进展。国内学者研究主要表现在对网络环境下的叙词表编制模式、收词新来源、编制标准、概念分类、词间关系细化以及叙词表的发展趋势等方面[6],而对于面向用户的网络叙词表构建过程中所涉及的关键问题还未进行系统深入的探讨。

3 网络叙词表构建的几个关键问题

网络叙词表的构建是一项系统工程。编制一部网络叙词表的一般程序大体上包括总体设计、规范制定、收集与整理词汇、录入数据与网络出版、测试与维护等五个阶段。每一阶段都有其不同的核心任务。在分析用户需求特点及结合开发单位实际情况,对所要编制的叙词表进行设计规划,明确词表的使用对象与目标、词汇来源、词表的结构等核心内容的前提下,以下几个关键问题需要重点考虑。

3.1 网络叙词表的功能定位

在传统环境下,叙词表主要应用于图书馆或相关信息部门,其应用领域主要集中在对文献信息的标引。随着信息技术的发展,网络叙词表已逐步成为知识组织的普及性工具,支持网络环境下不同信息应用平台的精确知识描述和知识检索,提高各类型平台信息的可获得性和可用性[7]。当前,网络叙词表已经被广泛应用到电子政务、电子商务以及网络数据库中,通过相连或嵌入词表的形式辅助用户检索,不仅对文本资源进行组织,还对图像、视频、音频等多媒体非文本资源进行标引与描述。例如:英国国家数字档案馆使用的《UNESCO叙词表》、STI数据库中使用的《NASA主题词表》、UMI数据库中的《ProQuest受控主题词表》《ERIC网络叙词表》《一体化医学语言系统(UMLS)》等,均满足了终端用户从检索词汇到检索相关信息的连续检索过程,优化了用户检索效果。

网络叙词表具有开放性特点,任何终端用户皆可访问使用。在信息利用的不同阶段,网络叙词表通过提供特定的语境信息,发挥着信息标引、检索、浏览、导航、关联等多种作用。由于网络叙词表对不同类型用户所产生的作用及影响不同,因此,要根据用户的实际需求设计适合的网络叙词表。在深入分析网络叙词表需求环境的基础上,结合具体信息场景,扩大网络叙词表的应用领域,明确网络叙词表的功能定位。

为进一步拓展其功能,网络叙词表必须与专业网站、平台、数据系统等相关联,使其成为从信息组织到知识组织,进而转换到知识发现的工具,优化信息内容的呈现方式,提高用户信息利用效率。

3.2 网络叙词表的结构设计

叙词表的结构决定了叙词表的功能,要充分发挥一部叙词表的功能,必须为其设计合理的结构。网络叙词表的结构通常包括宏观结构和微观结构。其中,宏观结构是指后台数据库(词表内容系统)和前台网站系统(即各功能用户界面)。后台数据库主要实现储存词汇、用户检索、浏览提取数据,前台网站系统是联系用户与叙词表的平台,便于二者交流。

网络叙词表的微观结构是词表的基本组成单元,主要是指叙词款目的内容组成及其显示方式。传统叙词表的叙词款目著录事项一般包括:叙词/非叙词、标记项(分类号、范畴号等)、注释项(含义、范围说明等)、参照项[8]。这里的参照项是通过词汇间的语义关系来实现。对于传统叙词表,用户可以选择浏览有关词汇的历史、范畴注释、定义,还有所有词汇间语义关系。为了适应网络应用环境,叙词表在结构上需要做出调整,除了包含等级关系、等同关系和相关关系等三种基本词间关系以外,可适当添加新型词间关系以进一步拓展叙词表功能。在全面抽取领域专业术语的基础上,采用分面标记方法自定义词间关系,细分与归类不同概念词汇间存在的一系列关系。这样既可以使叙词表词间关系处理更加灵活,又可以满足用户的个性化需求,提高信息检索的准确率[9]。

为方便用户多途径选择叙词,网络叙词表通常提供了按字母顺序、主题类别、等级结构、KWOC(题外关键词)、KWIC(题内关键词)等多种显示方式。但无论哪一种显示方式,都需揭示相关词汇间的关系并在词汇下实行超链接。通过词汇间所存在的语义关系,使用户清晰了解概念的内涵与外延,根据所检索的主题选择适当检索词汇,提高检准率和检全率;实行超链接,方便用户在不同词汇间跳转,提高词表的使用效率。

3.3 网络叙词表的编制模式

叙词表的编制是一项极其耗时耗力、具有知识密集型特征的工作。传统的叙词表编制速度缓慢,无法及时收录和补充覆盖各学科领域的新词汇,词表更新、维护效率较低。在网络环境下,信息技术的发展让改变单一、独立、封闭的叙词表编制体系成为可能。采用多用户、多单位协同编制模式,将各个学科领域的专业人员、用户纳入编制系统中,实现叙词表编制的协同操作。从编制时间上而言,通过协同编制能加快编制速度,适应网络时代信息组织与信息检索的发展;从空间上来讲,通过网络环境下的协同编制,可以实现不同区域内的领域专家异地完成同一知识组织体系的构建。通过叙词表的协同编制,可以不受时空限制,实现知识组织体系的快速构建[10]。

网络叙词表是在网络环境下建立和使用的,其使用对象面向的是终端用户,利用Web2.0技术,加强与用户互动,完成在线讨论、修订和分工管理[11]。在网络叙词表构建前期,可以通过在相关的网站上公布固定表单格式,鼓励用户提供词汇,增加词汇的收录途径。网络叙词表检测阶段,也可鼓励终端用户使用,提供反馈使用效果。词表建成后,可在网站用户界面上开设一个专栏,采取互动的方式,广泛听取用户意见,分析用户对使用词汇情况的反馈,并记录用户推荐的新词汇和相关词汇,及时更新词表,最大限度地满足用户使用需求。

采取协同编制的词表构建模式,吸引众多社会力量参与,一方面是保障词表的维护和更新,另一方面用户参与编制扩大了网络叙词表的影响力和社会化应用。

3.4 网络叙词表构建标准的确立

每一部网络叙词表的构建都是结合开发机构的实际情况、用户需求以及词表的使用目的等因素,综合考虑进行编制,特色鲜明。为了不同学科、专业信息之间的交融,提高词表间的兼容性和适用性,要求网络叙词表在建设初期需要确立和遵循相应的国家标准和国际标准,以利于词表日后的应用及发展。

目前,构建叙词表的最新国际标准是ISO25964[12],包括两部分ISO25964-1——用于信息检索的叙词表和ISO25964-2——与其他词表的互操作,涉及单语种叙词表和多语种叙词表构建与维护。此外,美国标准(ANSI/NISOZ39.19-2005)是2005年由美国国家标准协会通过的单语种受控词表的编制规则。该标准提出了关于受控词表内容、显示排列、构建、测试、维护和管理的准则和公约,对互操作、新型知识组织工具等新内容进行了补充。它涵盖了构建受控语言的所有方面,涉及词汇选择、词汇格式、复合词的使用、建立和显示词汇之间的各种关系的各项规定和准则。此标准还对计算机屏幕格式的叙词表的浏览、导航、显示等相关问题等给予特殊说明[13]。

此外,2005年万维网联盟(W3C)首次发布了专门用于对叙词表、分类法等知识组织系统进行语义化描述的简单知识组织系统语言(简称SKOS),并于2009年8月将其定为正式标准。SKOS是采用RDFS和OWL建模语言定义的一套词汇,对词表的结构、内容和映射关系进行描述,是一种适用于网络环境下词表应用的新的表示格式[14]。

4 结语

我国网络叙词表研究刚刚起步,在关注和遵守国际标准的基础上,一定要结合汉语的特点,尽快建立我国网络叙词表的构建标准,这不仅有利于叙词表的良性发展,还利于叙词表之间的互操作及网络数据库的跨库检索的实现。在未来,我们应充分利用信息技术,加快我国网络叙词表的建设步伐,有效推动叙词表从图书馆拓展到社会其他领域的信息利用环境中,使之成为信息组织和知识组织的普及工具。

参考文献:

[1] Taxonomy Warehouse[EB/OL]. [2016-01-05].http://www.taxonomywarehouse.com/default.aspx.

[2] McCulloch,E.Thesauri:practical guidance for construction[J].Library Review,2005(7):403-409.

[3] Nielsen,M.L.A Framework for Work Task Based Thesaurus Design[J].Journal of Documentation,2001(6):774-797.

[4] Glenda,B.Thesaurus Construction Software Part 1 and 2[EB/OL].[2016-01-06].http://www.willpowerinfo.co.uk/thesbibl.htm.

[5] Shiri, A, Revie,C. Usability and user perceptions of a thesaurus-enhanced search interface[J].Journal of Documentation,2005(5):640-656.

[6] 余丰民.国内主题词表研究脉络初探[J].情报科学,2014(5):12-17.

[7] 周晓英,曾建勋.主题词表的社会应用研究[J].数字图书馆论坛,2014(10):2-6.

[8] 张燕飞.信息组织的主题语言[M].武汉:武汉大学出版社,2005.

[9] 王世清,常春.叙词表编制标准的词间关系比较研究[J].情报理论与实践,2010(8):42-46.

[10] 赵捷,曾建勋,吴雯娜.网络环境下叙词表协同编制系统的构建[J].图书情报工作,2011(22):6-10.

[11] 张忠秋.我国分类表与主题词表发展与近期任务研究[J].图书馆建设,2013(2):16-19.

[12] ISO 25964-1:2011(en)[EB/OL].[2016-05-28].https://www.iso.org/obp/ui/#!iso:std:53657:en.

[13] ANSI/NISO Z39.19-2005. Guidelines for the Construction,Format, and Management of Monolingual ControlledVocabularies[EB/OL].[2016-01-28].http://www.niso.org/apps/group_public/download.php/12591/z39-19-2005r 2010.pdf.

[14] 欧石燕.中文叙词表的语义化转换[J].图书情报工作,2015(16):110-118.

(编校:崔萌)