APP下载

叙词表词间关系可视化实验研究

2008-08-03侯汉清徐焕良

大学图书馆学报 2008年1期
关键词:信息可视化

刘 俊 李 华 侯汉清 徐焕良

摘要 叙词表已有的参照系统及几种图形显示形式在网络环境中显然不能动态地、全面地显示词间关系,不便于浏览和检索。在分析本体编辑工具Protégé实现叙词表可视化的必要性基础上,以《汉语主题词表》为例,利用Protégé的可视化插件TGVizTab,进行叙词表等同关系、等级关系和相关关系的可视化实验,并讨论了整部关系和例举关系的可视化。

关键词 本体编辑工具 Protégé 叙词表可视化 信息可视化オ

叙词表是信息表示工作过程中广泛采用的文献主题标引和检索工具。它对自然语言进行词量、词类、词形、词义及词间关系的全面控制。可视化就是把数据信息和知识转化为图形、图像等比较直观的视觉形式的过程[1]。对叙词表的词间关系进行可视化,能够帮助用户更直观地感知词间关系[2],明确叙词的涵义,更快速地检索和选择所需语词。

词间关系是指叙词之间内在的语义联系,包括等同关系、等级关系和相关关系。纸制叙词表的编制通常采用三种词间关系控制方法:①编制范畴索引和词族索引;②建立参照系统;③图形显示。前两种方法只能线性显示词间关系,而第三种方法借助图形的直观优势,更有助于把握词间关系。本文尝试以《汉语主题词表》为例,用本体编辑工具Protégé的可视化插件TGVizTab实现叙词表的可视化,全面、形象、动态地显示叙词表的各种词间关系。オ

1 叙词关系的图形显示

图形显示[3]是将叙词间关系以二维图形式加以显示,亦称词族图,或称叙词关系图;包括同心圆图、箭头图、树形结构图、方框图等显示形式。

1.1 同心圆图

族首词位于同心圆的圆心位置,族中词根据级别不同分布于半径不同的同心圆上。也就是说,专指度越大的下位词,距离圆心越远。直接上下位词之间由单向箭头相连,从上位词指向下位词。与族中词(同心圆上的某个叙词)相关的叙词列于同心圆之外,两者之间用直线相连。典型的有1963年由武装部队技术和情报中心编制的TDCK环形展示叙词表[4],图1是以族首词“出版物”为中心展开绘制的TDCK环形图。

1.2 箭头图

由多条横线和竖线相交成一个坐标图。族首词位于坐标图的中间位置,族中词根据级别不同分布于不同坐标点上。也就是说,专指度越大的下位词,距离中心词(族首词)越远。与同心圆图一样,直接上下位词之间由单向箭头相连,从上位词指向下位词。与族中词(坐标图上的某个叙词)相关的叙词列于坐标图之外,两者之间用虚线相连。图2就是以族首词“摄影机”为中心展开绘制的箭头图。

1.3 树形结构图

词族中的等级关系用树状结构加以展开。族首词位于树形结构图的顶端位置,族中词根据等级关系一层层展开:一级下位词处于族首词位置之下的第一层,以此类推,最后一级的下位词处于结构图的末端。

1.4 方框图

由多个方框组成的方框图。一个词族列于一个方框之内。族首词居中位于框内第一行,并用下划线加以标识。族中词按照等级关系用空格缩进形式进行全显示。每一页集中显示具有相关关系的几个词族方框,并共同置于一个大方框中,不同词族方框中有相关关系的族中词之间用直线或折线相连。该页显示不下的相关关系,只用缩略形式表示:相关叙词列于大方框外,加以数字标识来源,分别置于一个个小方框内,并与族中词用直线相连。

“一画顶千言”,经图形显示的叙词关系直观、形象、清楚,便于用户对某个叙词的等级关系和相关关系有一个全面的了解。但是手工绘制词族图复杂又费时,而且这类词族图只是静态图,由于页面限制往往一页只能显示一个或几个词族,不利于浏览和检索。所以,叙词表采用词族图的寥若晨星,难以推广。

相比较之下,在电子和网络环境下,图形显示更能发挥有效作用,因为借助超链接技术,用户就能直接浏览选定词语的详细内容或图示。网络上常用的受控词表的显示方式有[6]:路径等级显示、按分类体系或字母顺序显示、超链接导航(为所有与款目词有关的词建立链接)。

随着信息可视化技术的发展,一些商业产品能够生成概念图[7],例如本体编辑工具可以对各类叙词进行编辑,自动生成叙词关系图。这在一定程度上解决了手工绘制词族图的繁琐,突破手工绘制的局限性,具有良好的友好性、动态性和可检索性。也就是说,用户通过浏览叙词表叙词关系图,对所感兴趣的领域有一个感性认识,可以从一个叙词到另一个相关叙词进行选择,从而确定标引和检索所要采用的叙词,有助于信息表示和检索过程中的找词选词。

2 本体编辑工具Protégé的可视化功能

Protégé[8] 是由斯坦福大学医学院的医学情报学研究组(Stanford Medical Informatics)开发研制。Protégé[9] 是一个免费的开源平台,为不断增长的用户群提供一套适用工具,用以构建领域本体和基于知识的本体应用。Protégé 具有一套丰富的知识构建框架和方法,能以各种表示格式创建图形显示和管理本体。Protégé构建的本体描述了某个特定领域中重要的概念和联系;不仅为该领域提供一部词汇表,也为词表中的词语含义提供了一种计算机可操作的规范。Protégé 构建本体时,用类(Classes)来划分客观世界或某个领域,允许在最底层类别(最小类)之下添加实例(Instances),通过定义属性(Properties)将相关的类和实例联系起来,采用各种结构图形来显示类或实例之间的各种关系。目前Protégé 提供了几个插件来实现可视化功能,例如TGVizTab 采用的是网状图结构(图3),将类、实例、属性节点与节点相连,形成一张动态的语义相关网络。

TGVizTab 使用TouchGraph 技术可视化显示本体,具体的功能有:①图形显示类或实例的关系;②网状图显示维度控制;③改变图形颜色;④不同颜色表示不同属性;⑤隐藏/显示单个属性和结点;⑥几何级和双曲线型的缩放;⑦旋转图形;⑧结点检索;⑨保存/下载图形和设置。

3 叙词表可视化的实现

Protégé 可作为可视化软件尝试显示叙词表的词间关系。《汉语主题词表》(以下简称《汉表》)提供了三种词间关系(表1),笔者从《汉表》自然科学增订本中部分选取与信息领域相关的几个词族及相关关系(表2),在Protégé3.1.1 中编辑后,用TGVizTab插件进行图形显示。

3.1 等级关系的可视化

Protégé系统提供了一个基本大类owl:Thing ,在此类之下,允许用户自定义各大类,再一级级细分出小类,最后一级小类之下可以添加具体实例。由于笔者选取的都是抽象名词(表2),没有实例名词,因而在Protégé 中编辑叙词表时,一个叙词就作为一个类。这样类的等级关系就反映着叙词间的等级关系。

首先,在owl:Thing总类之下建立两个大类:正式叙词和非正式叙词。在大类“正式叙词”之下,按照每个词族的等级关系建立起一级级下位类。在图形显示界面,鼠标置于某个叙词,系统就会自动显示其周围叙词与该词之间的关系。super 和sub 是由系统默认的等级关系属性:super 指向上位词,sub 指向下位词。如图4所示,“计算机管理”有一个上位类“正式叙词”,说明它是个族首词;有五个下位类。位于叙词右上角的数字表示未显示出的词间关系的数量。

3.2 等同关系的可视化

Protégé提供两种类型属性:对象属性(Object Property)和数据属性(Datatype Property)。对象属性表示类或实例之间的关系,有翻转属性、传递属性、对称属性和函数属性四种类型。数据属性反映的是某类实例的自身属性,例如图书的数据属性有开本、页码等。不难看出,在表现叙词间等同关系和相关关系时,需要定义对象属性。只要在属性编辑页面中选定一种对象属性,再添加该属性的定义域和值域,就可将存在此类关系的类或实例联系起来。

《汉表》在处理同义词时,通常指定其中一个常用的词语为正式叙词,其余词均为非正式叙词,表示方法为“正式叙词 D 非正式叙词,非正式叙词 Y 正式叙词”。根据D和Y的互逆关系,在Protégé属性界面中新建两个对象属性D和Y,并定义Y是D的翻转属性。只要类1用属性D联系到类2,系统就自动地从类2用属性Y联系到类1。如果在属性D下建立子属性D1,系统就会自动在属性Y下建立一个子属性,作为Y1的翻转属性,名为inverse_of_D1,用户可以根据习惯重命名。

首先,将某个或几个非正式叙词作为下位类列于大类“非正式叙词”之下。在属性D下建立子属性D1,并令系统在属性Y下生成子属性inverse_of_D1后,将其重命名为Y1。选中属性D1,在定义域添加正式叙词,在值域添加某个或某些非正式叙词。第二组的等同关系需要建立子属性D2,以后各组等同关系均在属性D下依次建立子属性。因为对象属性的定义域与值域中各值之间并未建立起相对应的关系。如果所有等同关系都在属性D和Y中添加,就会造成关系的扩张和混乱。本文中具体的对象属性设置如表3所示。

例如:

叙词关系对象属性

数据管理 D信息管理, 资料管理D1

文件系统 D文件结构D2

显示结果如图5所示,数据管理、信息管理和资料管理,文件系统和文件结构之间分别用直线建立联系。

3.3 相关关系的可视化——C

相关关系C是一种特殊的翻转属性,是一种自逆关系。笔者新建一种对象属性SA (See Also)(表3)作为属性C的翻转属性,这样叙词1若与叙词2相关,可以从叙词1用属性C联系到叙词2,相应地叙词2用属性SA反向联系到叙词1。 在此基础上,与等同关系可视化操作一样,为每一组相关关系建立一对翻转子属性,并相应定义每个子属性的定义域和值域,即添加有相关关系的两类或多个类。

3.4 交叉类的可视化

在《汉表》中存在许多交叉类,或称为多重等级关系,即一个下位叙词同时拥有多个上位类。例如下位词“操作系统”拥有两个上位类,分别为“程序系统”和“计算机系统”。由于Protégé 假设各类之间没有交叉,不允许类名重复,建立的全是不交叉类,所以笔者沿用《汉表》的属分关系代码,另外建立一对翻转属性,命其为S和F,代表交叉等级关系(表3),特意表示此类交叉现象。表示交叉类“操作系统”时,先在“计算机系统”之下按照常规方法建立子类“操作系统”,然后在“操作系统”和“程序系统”之间用属性S和F相连,表示为操作系统 S 程序系统、程序系统 F 操作系统。如图7所示,super和 S 分别指向“操作系统”的两个上位类。

4 自定义词间关系

在《汉表》中,等级关系只包括属种关系,整部关系和例举关系并未得到揭示。可以利用protégé的属性设置功能自定义一对翻转属性BTP和NTP来揭示整体-部分关系,还可以通过在类下设置实例来揭示例举关系(BTI和NTI)。BTP和NTP[11]是ANSI/NISO Z39.19-2005标准中建议使用的,BTP 是Broader Term (partitive) 的缩写,NTP 是Narrower Term (partitive) 的缩写。其中BTP 指向包括各组成部分的整体,NTP 指向构成整体的组成部分。例如,数据库是信息系统的一个重要组成部分,可以表示为:数据库 BTP 信息系统,信息系统 NTP 数据库。如图8所示,属性NTP 将信息系统(整体)和数据库(部分)联系起来,显示出两者的整部关系。由于protégé可以在最底层的类下添加实例,因而很容易实现例举关系的可视化,不再赘述。

5 评价

从以上可视化的实践来看,Protégé 是一种可行的叙词关系可视化工具:不仅能够图形显示和自定义词间关系,还可以用不同颜色代表不同属性(即显示图中不同颜色的直线代表不同类型的关系),也可以对某个局部进行任意缩放,选择关系网状图显示的深度和复杂度;根据显示要求显示或隐藏某个结点。不仅可以浏览网状图,还可以直接通过结点检索查找某个叙词。利用可视化技术,叙词表无论在电子或是网络环境下都能以友好姿态面向大众,不再是限于信息机构的专业工具,这样能够最大限度发挥叙词表的作用。

总的来说,Protégé 基本上能够满足动态、全面地实现叙词表可视化的需求。但是作为本体编辑工具,Protégé毕竟不是专门的叙词表可视化工具,因而在使用上出现以下两个问题:①对于类,对象属性不提供复用,其定义域和值域中的值并未建立一一对应关系,需要建立子属性加以区分;②Protégé 设置的各级类不允许重复,也就是说,全部是不交叉类,其建立的等级关系就不能体现交叉类这一常见现象,需要增加对象属性来补充揭示。在可视化显示效果方面,虽然TGVizTab能够提供图形缩放功能,但是只能简单提供节点间连线的缩放,节点大小并不相应地按照比例缩放而是始终保持不变。当放大到一定程度,图形结构就过于疏松;当缩小到一定比例,图形就相当拥挤。以上所提到的问题还有待改进。至于实现叙词表的可视化,是采用现有的可视化工具,还是开发专用的可视化工具,也需要进一步探讨和实践。

参考文献

1 韩丽影,刘伟.信息可视化——知识服务网站的新形象.情报理论与实践,2005(6):636-639

2 王子熙,马蕾.《汉语主题词表》词间关系的可视化.四川图书馆学报,2006(2):26-29

3 马张华,侯汉清.文献分类法主题导论.北京图书馆出版社,1999:148-149

4 同3:150

5 同3:152

6 The National Information Standards Organization. Z39.19-2005 guidelines for the construction, format, and management of monolingual controlled vocabularies, Bethesda, Maryland, U.S.A:NISO Press, 2005:73-74

7 同4:79-81

8 李景.本体理论在文献检索系统中的应用研究.北京图书馆出版社,2005:169-173

9 What is Protégé?[2007-01-20]. http://protege.stanford.edu/overview/

10 TGVizTab: A touchgraph visualization tab for protégé2000.[2007-01-20]. http://eprints.ecs.soton.ac.uk/8326/01/Alani-VIKE-camera-ready.pdf

11 同6:49お

作者单位:南京农业大学信息管理系,南京,210095

收稿日期:2007年3月23日

Experiment of The Visualization of Relationship Among the Descriptors in the Thesaurus

Liu Jun Li Hua Hou Hanqing Xu Huanliang

Abstract: This paper analyses the necessity of visualization of thesaurus by dint of the ontology editor Protégé. Taking Chinese Thesaurus for example, relationship among the descriptors is graphically and semantically visualized by the visualization plug-in of Protégé. At the end, an evaluation is given.

Keywords: Ontology Editor; Protégé; Thesaurus Visualization; Information Visualization

猜你喜欢

信息可视化
基于大数据的图书馆信息模式与个性化服务研究
计算机网络安全可视化研究平台设计与实现
论信息可视化设计在个人简历中的应用
标签的可视化进程初探
基于毕业生求职简历的信息可视化研究
基于CiteSpace的智库建设研究可视化分析
新媒体时代背景下的图形动画设计与制作研究
浅谈信息可视化在新闻传播中的应用
信息可视化技术在数字图书馆馆藏资源检索中的应用研究
浅析信息可视化在用户体验研究中的设计