APP下载

基于本体的期刊论文可视化检索系统研究

2012-05-18南京航空航天大学金城学院图书馆张学梅

电子世界 2012年22期
关键词:期刊论文信息检索本体

南京航空航天大学金城学院图书馆 张学梅

南京农业大学信息科技学院 汪伟歆

“一幅图胜过一千句话”,信息可视化以满足信息检索用户日益增长的多样化、个性化检索需求为目的,帮助用户揭示信息背后隐藏的信息关联及规律,提高检索效率。本文使用文献[1]构建的数字参考咨询领域的本体及数据关系进行可视化研究,将信息可视化应用到期刊论文语义检索中,一方面实现了基于领域本体图的可视化导航,方便用户了解领域概念及概念之间的关系;另一方面将检索结果转换成图形,将期刊元素如作者、引用与被引用等多维关系转换成二维关系,显示在一个二维空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率和性能。

1.信息可视化的国内外研究动态

1.1 信息可视化在国外的研究

信息可视化研究被国际上列为热点研究课题是在20世纪90年代中期,以两个系列的国际研讨会为重要标志。一个是从1995年开始,每年10月在美国召开的IEEE Symposium on Information Visualization,除了定期召开会议外,还出版了一系列会议论文集,在业界产生了较为广泛的影响。与此同时,从1997年开始,IEEE每年7月在英国伦敦召开信息可视化国际研讨会(IEEE International Conference on Information Visualization),并同样出版了一系列会议论文集。欧美的这两个系列的国际学术研究会已形成了一种气候,它不断将理论研究与实际应用推向新的高度。欧美国家的可视化研究已经取得了一批具有领先地位的成果,在理论研究方面比较注重可视化模型方法,在应用领域不仅出现了一批原型系统,而且部分系统早已投入使用。

笔者以主题为“论文信息可视化”进行了EBSCO数据库外文检索,在EBSCO中查找的的数据库有:Academic Source Premier、Business Source Premier、ERIC、Library、Information Science & Technology Abstracts、Teacher Reference Center。检索范围为1985-2010,检索式为“Title=(visualization)AND Abstract=(literature research+papers research)”,检索结果为34篇,剔除重复的1篇,共33篇相关文献,检索结果统计分析如表1-1。

EBSCO数据库中相关文献的检索结果显示,最早的关于论文信息可视化的外文文献是1991年Cort,Louise Allison撰写的“Word in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan (Book)”此篇为一书评[2]。1992年后的5年中只有1篇相关文献。1997-2010年累计发表相关文献31篇,这表明新世纪以来国外对可视化在文献检索中的研究日益重视。笔者在研读以上文献时发现,国外在信息可视化的研究方面的论文主要集中可视化在医学中的应用、可视化工具在文献关系揭示中的研究、可视化检索模型研究、个人信息搜索并可视化显示等,说明可视化为文献检索提供可视的直观的效果,同时文献检索也促进了可视化技术的不断发展。

1.2 信息可视化在国内的研究

我国最初几年关于信息可视化的研究中大量的文献主要是对信息检索可视化概念的介绍,以及地理、空间、数据库、文献和多媒体等方面的可视化技术的介绍。现在己经有越来越多的学者关注面向网络及大规模信息资源的检索可视化技术、各个具体领域的可视化、各种算法的改进等具体问题。针对可视化技术在文献研究领域中的应用主要有:胡志刚、侯海燕撰文对科学技术期刊群中的17种期刊进行了聚类和社会网络分析,可视化地显示了各个期刊之间的亲疏关系和关联特点,其可视化对象是期刊及其期刊之间的关系,其研究对象是期刊论文[3]。鲍杨、朱庆华在论文中以CSSCI数据库收录的全部情报学领域的论文(1998—2007年)为数据源,运用社会网络分析方法,建立了较为完整的情报学研究领域引文网络、共引网络及作者合著网络。同时他们还选取其中的重要节点,用Pajek进行了可视化,体现了近10年来我国情报学研究领域的主要作者和论文[4]。张学福教授在信息检索可视化领域的研究成果颇多,他不仅介绍了信息检索可视化的基本问题,即信息检索模型、信息内容描述、可视化映射技术、可视化显示技术、全局映射与局部映射、实时可视化和人工参与的可视化等。而且从功能特点等角度介绍了几种代表性的可视化开发工具:OpenGL、Open Inventor、IDL和VTK等,以便用户根据其特点选择相应的开发工具来开发可视化信息检索的应用软件[5][6]。张学福教授带领的研究生有三篇相关的硕士论文:《基于引文的信息检索可视化系统研究》一文基于信息检索可视化技术及引文理论,研究并构建了具有个性化特色的集检索、可视化及统计分析功能于一体的基于引文的信息检索可视化系统[7];《基于摘要信息的中文信息检索可视化系统研究与实现》分析比较国内外典型的信息检索可视化系统,并将基于词共现的概念空间方法与信息检索可视化技术相结合实时生成概念空间图,实现了检索过程和检索结果的可视化,设计并实现了集成信息检索、情报分析和服务功能的基于摘要信息的中文信息检索可视化系统,并对系统进行测试与评估[8]。

表1-1 EBSCO数据库中论文信息可视化相关文献检索结果统计分析

图3-1 基于本体的可视化导航图

图3-2 可视化导航列表图

图3-3 检索结果可视化导航图1

图3-4 检索结果可视化导航图2

图3-5 检索结果可视化导航图3

图3-6 检索结果可视化导航图4

图3-7 检索结果可视化导航图5

图3-8 检索结果可视化导航图6

可视化的检索平台在国内的研究有人立方[9],谷歌挑歌[10]等。人立方关系搜索是微软亚洲研究院正式发布的一款新型社会化搜索引擎,它能够从中文网页中自动的抽取出人名、机构名、地名以及中文短语等,根据搜索的关键词和与其相关的人名之间的关联度强弱自动的计算每一个人名与关键词直接的距离、数据大小以及具体的摆放位置等等,并通过一条有标明人际关系的细线连接他们。谷歌挑歌相比其他音乐搜索引擎来说,谷歌挑歌采用的是一种相对模糊的搜索模式。该系统不是根据歌名或歌手名来搜索,而是调节节奏从舒缓到强烈、声调从低沉到高亢、音色从丰富到单纯这三个滚轮,依次在音乐库中挑选出符合条件的歌曲。虽说是相对模糊的搜索模式,但对寻找某一类型的歌曲还是很有帮助的。

可视化技术在期刊检索中的应用有中国科学院国家科学图书馆在2010年开发的可视化检索平台[11]。该系统的可视化借助Flash软件实现,输入的检索词仅限英文,检索的文献也仅限英文文献,从主题、作者和期刊三个方面形成可视化界面,为检索提供了一定的指导作用,但是其检索的最终结果也是以列表的形式实现。比如检索计算机学习方面的文献,限定返回记录数2000条(有50-4000之间的5种选择),在检索框中输入“computer study”以主题可视显示,“computer study”目标体(文献节点)分“case study”、“effective”、“model”、“experimental studies”等目标体,选择“experimental studies”,结果就会以列表形式显示48条文献目录,浏览文献目录人工查找自己所需的文献。

从整体上看,我国在该领域的研究与应用还处于起步阶段,与国外先进技术有较大差距,研究呈现出零星、分散的特征,没有形成规模。主要研究单位有武汉大学信息资源研究中心,中科院国家科学图书馆,中科院软件所及部分大学的图书情报院系和计算机学院等。

2.基于领域本体的可视化导航检索机制的设计与实现

基于领域本体的可视化导航检索首先确定可视化对象,这里的对象包括基于领域本体的领域概念集合和文献及其属性两类。其次,构建可视化空间。即降低高维向量空间的维数,构建低维可视化空间,这是可视检索的关键,不同的可视化检索工具构建可视化空间的方法不同,一般来说,构建可视化空间应主要考虑两个因素:一是以其信息可视化的方法为基础,二是以其自身文献信息系统的结构为基础。本文基于领域本体概念的可视化导航按照双曲树[12]的表现方式,将层次关系显示在一个双曲平面上,然后将双曲平面映射到显示区域。而期刊论文语义检索结果由于受人类认知能力的限制,我们只能感知到一维、二维和三维的物理对象,所以我们的可视化空间只能是二维或三维,显示维数不同,接口的空间表达能力也就不同。本系统为了能清晰地表现节点文献的属性,将四维关系降为二维显示,方便用户理解和使用。

2.1 基于领域本体概念的可视化导航

目前出现很多检索系统采用了无定型关键词的询问系统,只要输入检索词,平台就会询问希望用到的代名词、相似词及下位词等,以便用户拓展查询。而基于本体的可视化检索系统用可视化的方式显示检索词的语义关系,一方面体现可视化的优点,以直观的可视的形式为初入本检索领域的用户介绍该领域的具体内容及研究热点等问题;另一方面,避免了用户筛选词的过程,本系统根据领域本体库中概念间的语义关系,直接检索,将最全、最准确的结果反馈给用户。基于本体的导航机制通过揭示信息对象间的语义关联,能够准确、深入地表征信息的内容,是一种高层次的内容导航方法。本系统采用Flash工具,以本体概念为节点,实现了可视化的导航。执行代码如下:

2.2 基于本体的期刊论文检索结果可视化

期刊论文的检索结果可视化是基于用户需求的智能导航,其目的是通过期刊论文间的关系指导用户检索所需文献,即随着用户浏览意图的不同,提供不同的信息,实现动态导航。因此,用户使用过程中,用户点击不同的属性按钮实体,将根据实体类别生成不同的检索结果。这种导航是根据不同的中心节点内容动态生成。例如点击甲文献,则以甲文献为中心节点,以同著者文献、相关文献、参考文献、被引文献为四个属性按钮实体,点击任何相关文献按钮实体,则生成相关的文献,如果选择相关文献中的文献乙,则以乙文献为中心节点,并动态生成乙的属性按钮实体和相关文献。可视化的显示通过Flash调用JS方法,对数据库元数据进行检索,录入XML中,然后调用显示。具体代码如下:

期刊论文检索结果可视化导航,将中心节点文献的四维属性降为二维关系显示在页面。如果属性有值则显示节点球体,同时显示节点文献题名;如果属性值为零则不显示。随着鼠标在属性节点的点击转换中心节点。其实现代码如下:

3.基于本体的期刊论文可视化检索系统介绍

3.1 领域本体的可视化

基于本体的期刊论文可视化检索系统以数字参考咨询领域的期刊论文为例,在用户只知道数字参考咨询这个大类,而对下位类领域知识不了解,却需要认识该领域知识的用户提供帮助,即给初入数字参考咨询领域的用户指引方向;同时也为身在参考咨询领域的人员理顺知识结构,指导期刊论文的语义检索。用户只要点击导航列表中的数字参考咨询,主页面中将显示本文中构建的本体图,此图实现双曲几何的可视化,将层次关系显示在一个双曲平面上,然后将双曲平面映射到显示区域。点击图中的概念节点,系统将以该节点为检索词列出相关的文献。可视化导航图如图3-1。

3.2 可视化导航列表

点击本体概念的可视化导航中任意节点,系统就会以该节点为输入词将语义检索结果以列表图的形式返回到用户桌面。以下以点击参考咨询2.0为例,其实现效果如图3-2。

3.3 检索结果的可视化导航

以可视化导航列表为基础,点击任意一篇文献题名,系统将以该篇文献为中心节点,以参考文献、同著者文献、被引文献和相关文献四个属性值为四个检索方向,实现文献在可视化状态下的连续导航。将中心节点的四维关系将为二维关系显示。图3-3为点击期刊论文《虚拟参考咨询2.0全景扫描》,可视化导航以该文献题名为中心节点,以参考文献、同著者文献、被引文献和相关文献四个属性关系展开显示。

点击被引文献,《虚拟参考咨询2.0全景扫描》这篇期刊论文的被引文献将以被引文献按钮为中心散发开来。其效果如图3-4。

点击参考文献则以参考文献按钮为中心展开该篇文献的参考文献题名,其效果如图3-5。

点击同著者按钮则以同著者文献按钮为中心展开该篇文献的同著者文献。如图3-6所示。

由于本系统数据量只有1362条,所以检索结果有可能是1条记录或没有相关记录,这种情况可以随着数据量录入的加大逐渐得到改善。

点击相关文献则以相关文献按钮为中心展开《虚拟参考咨询2.0全景扫描》的相关文献题名,其效果如图3-7所示。

以上都是针对《虚拟参考咨询2.0全景扫描》的相关可视化导航,而相关属性按钮展开的文献节点同样在鼠标的点击下变为中心节点。如图3-8,点击相关文献《基于知识管理框架的合作数字参考咨询服务》,则中心节点就会变为《基于知识管理框架的合作数字参考咨询服务》文献题名,同时显示与之对应的该篇文献的相关文献。点击其他文献也是同样的道理。

只要系统中存有相关数据,则就有记录显示,如果没有相关数据,则不显示。同时,为了用户返回方便,系统提供了后退按钮,使用户操作起来来回自由且方便。

4.总结与展望

信息语义检索及可视化导航是一个较新的研究方向,随着信息检索技术及信息可视化技术的发展而发展起来,同时随着网络信息资源激增,以及用户信息需求的进一步提高而获得了更大的发展空间,将日益显示其优势。而在实际检索环境中,信息语义检索及可视化显示并没有得到广泛应用。本文针对传统期刊论文检索系统可视化效果差的不足,实现了对数字参考咨询领域期刊论文基于本体语义图的可视化导航检索系统的开发。提供了基于本体的可视化导航,方便用户对领域知识一目了然,同时能指导用户检索,让检索变得轻松自如。

然而,目前系统的可视化不能以线条的长短或球体的大小来指导记录的权重或重要性,需要进一步改进。在动态效果等方面也需要进一步完善。

[1]张学梅.基于本体的期刊论文检索系统研究.图书馆学研究(理论版),2011(12):66-71.

[2]Cort,Louise Allison.Word in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan[J].Journal of Asian Studies,1991(2):171-173.

[3]胡志刚,侯海燕.科学技术学期刊群的可视化分析[J]大连理工大学学报(社会科学版),2009(2):119-123.

[4]鲍杨,朱庆华.近10年我国情报学研究领域主要作者和论文的可视化分析——基于社会网络分析方法的探讨[J]情报理论与实践,2009(4):9-13.

[5]张学福.信息检索可视化基本问题研究[J].中国图书馆学报,2006(3):37-40

[6]张学福.信息检索可视化开发工具[J].现代情报,2005(11):38-41.

[7]孙巍.基于引文的信息检索可视化系统研究[D].黑龙江大学信息管理学院,2007:1-73.

[8]陈颖.基于摘要信息的中文信息检索可视化系统研究与实现[D].黑龙江大学信息管理学院,2007(2):1-56.

[9]人立方.[EB/OL][2010-08-03].http://renlifang.msra.cn/.

[10]谷歌挑歌.[EB/OL][2010-05-23].http://www.google.cn/music/songscreener.

[11]中国科学院国家科学图书馆.Visual可视化检索浏览系统.[EB/OL][2010-08-04].http://visualsearch.las.ac.cn/.

[12]Position Paper by Jeffrey Heer,UC Berkeley For the Workshop on“Information Visualization Software Infrastructures”at IEEE 2004 Visualization[EB/OL][2010-05-18].http://vw.indiana.edu/ivsi2004/jherr/index.html.

猜你喜欢

期刊论文信息检索本体
眼睛是“本体”
基于本体的机械产品工艺知识表示
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
中文科技期刊论文LaTeX模板的研究与实践
基于神经网络的个性化信息检索模型研究
公共图书馆不应认可的职称期刊论文探析——基于重庆图书馆职称期刊论文的实证调研
人文社科期刊论文被引频次和下载频次相关性研究
专题
Care about the virtue moral education