APP下载

国内数字图书馆技术研究的可视化分析

2016-01-05韩牧哲,李秀霞,张艺蔓

大学图书情报学刊 2015年2期
关键词:可视化分析数字图书馆聚类分析

国内数字图书馆技术研究的可视化分析

韩牧哲,李秀霞,张艺蔓

(曲阜师范大学传媒学院,日照 276826)

摘要:数字图书馆是随迅速发展的信息技术产生的图书馆新形态,经过对数字图书馆20年的研究和实践,国内很多数字图书馆建设和服务中应用的技术已经非常成熟。文章通过对21世纪以来我国关于数字图书馆应用技术的期刊论文进行统计和计量分析,在初步了解数字图书馆技术发文量趋势之后进行聚类分析,将数字图书馆技术分为十类,并生成了可视化图谱,从而更深入地了解数字图书馆各种技术及其关联结构。

关键词:数字图书馆;技术应用;聚类分析;可视化分析

Visualization of research of digital library technologies in China

HAN Mu-zhe, LI Xiu-xia, ZHANG Yi-man

(Qufu Normal University, Rizhao 276826, China)

Abstract:Digital library is a new form of library which was spawned by the rapid developing information technology. Through the research and practice of the digital library in China with a history of more than 20 years, the authors hold that both the construction and service technologies of digital library have already become mature. This article uses statistical and quantitative analysis method to study the journal papers on the theme of “technologies of digital library” in China since the beginning of the twenty-first century. The cluster analysis was also conducted after a preliminary understanding of trends of the quantity of published technological assays on digital library, and we have divided the digital library technologies into ten categories. A diagram of the major technologies of digital library is presented in this article, which helps the fellow workers to perceive a deeper understanding of various technologies associated with the structure of digital library.

Key words:digital library; major technologies; cluster analysis; visualization

引言

数字图书馆是一个数字化系统。它将分散于不同载体、不同地理位置的信息资源以数字化的形式贮存,以网络化的方式互相连接,提供及时利用,实现资源共享,其核心是数字化和网络化,其实质则是形成有序的信息空间[1]。国内关于数字图书馆的研究始于1995年,前十年引入网络信息技术,丰富了图书馆的职能,并在一定程度上用网络信息技术取代和发展了部分图书馆传统工作。而步入“后数字图书馆”时代以来,以数字图书馆为依托的“泛在图书馆”“移动图书馆”等数字图书馆未来形态也是以这些关键技术为基础的。本文统计了数字图书馆研究和建设中所使用的各种关键技术,理清各种技术之间的关系,并运用趋势分析方法和聚类分析方法得到相关的可视化结果,揭示数字图书馆研究和建设中所使用的各种具体技术,旨在对数字图书馆及其未来形态的技术模式能有更深入的了解。

1研究方法和工具

本文运用趋势分析方法对数字图书馆技术的学术关注度进行统计,以便从整体上把握数字图书馆和数字图书馆技术应用主题的发展趋势和现状。使用基于关键词的聚类分析方法对数字图书馆所使用的各种关键技术进行分类,生成可视化结果,用以揭示数字图书馆技术主题内部的学科关系。使用的主要工具是书目共现分析软件Bicomb,用来统计和提取目标文献的高频关键词并生成共词矩阵;统计分析软件包SPSS19.0,用来做聚类分析。

2文献来源和数据处理

2.1 文献来源

本文从CNKI全国期刊论文数据库中,限定专业检索,检索数字图书馆研究主题内相关的具体技术的应用。使用检索式“核心期刊=Y 或者 来源标识码=P0209 并且 年 between (2000,2013) 并且 主题=数字图书馆 并且 题名=技术 (精确匹配)”,检索日期为2014年7月18日。得到期刊论文671篇,排除纪要类、综述类等无关文献后,得到有效文献488篇,构成本文的数据来源。

为对整个数字图书馆的研究关注趋势进行更全面的把握,本文同时统计了2000~2013年CNKI中文核心期刊数据库中收录的以“数字图书馆”为主题的期刊论文的发文量,并分年展示,用以与技术应用类发文数量和关注趋势进行对比,这部分数据将不应用于本文的聚类分析。

2.2 数据预处理

关键词利用Bicomb书目共现分析系统提取数字图书馆技术应用类论文488篇的字段,并进行一定的数据清洗工作:同义词合并,如“射频识别”和“RFID”进行合并;上下位词合并,如“智能Agent”“移动Agent”合并为“Agent”技术;无关词清理,只保留相关的具体技术词项、技术分类词项和应用领域词项,剔除高频词中表意笼统或没有分析价值的词项如“趋势”“发展”等。最终得到有效的关键词1911个,其中不同词项694个。

关键词本文采用手动划定阈值进行高频词界分,设定出现频次不低于5次的词项为高频,得到高频词项57个,占累计百分比60.85%,具有较好的代表性。由于“数字图书馆”作为主题词具有超高频词,无法反映该主题的内部关系,“图书馆”“Internet”涵盖内容过于宽泛,没有统计意义,在分析时不予采用。最终得到高频关键词54个。

3数据分析

3.1 学术关注度分析

学术关注度通过对目标学科领域的发文量进行统计,可以从一定程度上反应该领域的研究进展和发展速度。本文通过两个绝对指标和一个相对指标来研究数字图书馆技术的学术关注度:

(1)2000~2013年数字图书馆主题领域内有关具体技术的开发和应用研究的核心期刊论文数量,单位用“篇”来表示;能够直观展现数字图书馆技术类研究的学术关注度。

(2)2000~2013年数字图书馆主题的核心期刊论文数量,单位用“十篇”来表示;能够和技术类研究趋势进行对比。

(3)数字图书馆主题论文中技术类文献所占的比例,单位为“千分比(‰)”;能够揭示对具体技术类研究在整个数字图书馆研究中的重要性。

为了将三个指标更直观地展示在一张图上,采用不同的单位计量,主要需要分析的是整体趋势而非绝对数量,由此生成的图谱如图1所示。

图1 文献量分年统计图

国内关于数字图书馆的研究自1995年发端以来,在21世纪进入快速发展时期,其学术关注度在2004年达到顶峰,当年核心期刊发表相关主题论文869篇,随后其关注度逐渐被一些继起的新兴理念和后数字图书馆研究所取代而走向衰退。而数字图书馆中应用的各种具体技术的研究趋势和数字图书馆研究主题的发展趋势并非完全一致,但是深受数字图书馆整体研究趋势的影响。技术应用类的研究自21世纪以来一直以较快的速度发展,并在2004~2006三年间达到峰值,其后开始衰弱;其在数字图书馆的总体研究中所占比例在2006年达到峰值,随后也逐渐走向衰弱,象征着在“后数字图书馆”时代的数字图书馆具体技术的研究和开发已经不再是主流话题,这个阶段学者们对数字图书馆的研究更多集中于基于成熟技术之上的对数字图书馆服务模式的探讨和在新时期对数字图书馆未来发展形态的思辨。

从整体趋势上来看,预计未来几年数字图书馆的研究热度会继续下降,很多关键技术已经非常成熟并且大量投入到数字图书馆的建设实践中,而对各种关键技术的研究和开发将不会局限于数字图书馆领域,可能在其他新兴领域得到进一步发展。

3.2 聚类分析

关键词利用Bicomb软件生成54*54的高频共词矩阵,导入SPSS19.0统计软件进行分析。选择分析-分类-系统聚类,距离方法选择离差平方和法,度量标准选用计数Phi方度量,标准化选择Z得分,由此得到系统聚类分析可视化结果如图2所示。

图2聚类分析树状图

关键词通过树状图分析结果,结合各间的语义关系,可以将54个目标词项划分为十个类团,具体的类团划分已用辅助标线在图中进行标注。由此通过计算类团内部关键词的粘合度,结合语义对各个类团进行命名。由此得到了十个涵盖关键技术的类团,分别涉及数字图书馆的存储、检索、资源建设、资源描述、信息组织、信息安全、知识服务和系统集成等各个方面,如表2所示。

中图分类号:G252.8 文献标识码:A

作者简介:韩牧哲,男,硕士研究生。

收稿日期:2014-09-24

表2 各类团命名及粘合度

其中值得注意的是,由于聚类算法本身存在排斥性缺陷[2],单纯依靠聚类分析结果会有不合理的地方,如“信息采访”词项涵盖了图书采访、数字资源采购等关键词,应该属于类IX资源建设范畴,但是聚类分析却将此词项归类于推荐技术。这里并非试图隔断信息采访与各种信息推荐技术的客观联系,不过仅从语义上判断聚类分析的结果有时很难做到合理精确。

4数字图书馆应用技术分析

从上文的数据分析中能够清楚地看到国内对数字图书馆的应用技术研究分为十类,下面将具体阐述每一类中的具体技术及其在数字图书馆中的应用状况。

4.1 存储技术

数字图书馆需要对海量数字化虚拟化的信息资源进行存储。存储技术类团中涉及了四种具体技术,分别是磁盘阵列(Redundant Arrays of independent Disks,RAID)、直连式存储(Direct-Attached Storage,DAS)、网络附属存储(Network-Attached Storage,NAS)和存储区域网络(Storage Area Network,SAN)。

RAID是当前数字图书馆广泛使用的存储大量数字化资源的存储设备,是数字存储的硬件基础[3]。而DAS、NAS、SAN分别是当前最为流行的三种数据存储方式。其中DAS与计算机采用直连方式,硬件要求较低,技术成熟,成本低,在数据量较小的数字图书馆应用较为普遍,但是由于效率较低,不适合大规模数据的存储。NAS和SAN都是网络存储技术,NAS又称“网络存储器”,以其开放性、共享性而被广泛应用,但是由于其数据传输需要占用带宽而会使效率降低;SAN则因其独立存储和高效率被需要进行大规模的数据存储和传输的机构所青睐[4]。在非结构化数据激增的大数据时代,有学者开始关注NAS和SAN技术的互补利用、强强联合,从而为移动环境下的图书馆存储找到更好的解决方式。

4.2 描述技术

对数字化信息资源的描述是数字图书馆开展信息组织工作的基础,这项技术其实是传统图书馆编目和著录工作的延伸,自从数字图书馆和数字化资源理念提出以来就一直广受关注。

该类团涵盖五个具体词项。元数据是关于数据的数据,是数字化资源描述的基础,而DC则是当前国际上最权威的元数据标准;机读目录格式(Machine-Readable Cataloging,MARC),是进行信息资源描述的格式标准,用以让图书馆或出版商之间作目录信息交换用途,常用的有美国的USMARC和我国的CNMARC[5];XML和RDF是两种用于描述信息资源的标记语言,资源描述框架(Resource Description Framework,RDF)是可扩展标记语言(Extensible Markup Language,XML)的子集,RDF使用XML的语法将Web资源的元数据描述成数据模型[6],对数字图书馆标记和描述网络虚拟资源有重要作用。

4.3 检索技术

文献信息检索是图书馆的传统工作,但是数字化信息检索技术的应用对传统图书馆而言是革命性的。数据挖掘技术、信息抽取技术、信息过滤技术和Agent技术都为实现数字化、网络化信息检索提供了技术基础。但是在这个类团中,需要着重探讨的是有关检索本身的几种技术。

基于内容的检索(Content-Based Retrieval,CBR),是一种区别于传统基于文本的检索理念,它对信息资源内容本身进行编码,并通过对比可以识别的内容特征实现检索,而不是像传统检索一样从标题、标签、描述、格式等外部特征出发进行检索[7]。基于内容的检索是实现图像检索和多媒体检索的基础,因此该类团中另外两种技术可以更准确地称之为基于内容的图片检索和基于内容的多媒体检索。这种技术在当前的IT领域非常热门,有些多媒体搜索引擎已经开始投入使用。这种检索方式的创新对于数字图书馆所收藏的大量静态动态图像资源和多媒体信息资源的整序与服务有重要意义。

4.4 安全技术

本类团涉及的关键技术有:数字版权管理(Digital Right Management,DRM),这是一种数字版权加密保护技术[8]。它不仅能够对文本类型的数字资源进行加密保护,而且能够对音频、视频等多媒体资源提供版权保护。数字水印技术是将一种隐藏的标识信息嵌入到数字化资源中或者间接表示,数字水印不会影响用户对数字资源的正常使用,无法被更改和删除,但是可以通过相关技术读取和识别,从而为版权人提供版权保护。用户识别和访问控制技术都是对用户权限进行限制的必要安全技术手段,可以从源头上杜绝一些侵权行为或者非法访问和编辑,从而更好地为其他用户提供权力均等的服务。

4.5 推荐技术

信息推荐是数字图书馆开展主动服务和个性化服务的重要手段和形式,数字图书馆研究中涉及较多的技术有推拉技术(Push & Pull)和信息聚合技术(RSS)。这两种技术通过分析用户的喜好评价用户的阅读习惯,从而有针对性地向用户推送其所需要的信息,提供主动的知识信息服务。而信息聚合技术则是在数字图书馆平台上嵌入RSS订阅服务,用户可以自行设计和选择感兴趣的信息模块接受信息订阅。

该类团中电子商务和信息采访两个词项从语义判断应该归类到资源建设类团,受制于聚类算法的局限性,在此处不做探讨。

4.6 互操作技术

互操作是指一种能力,使得分布的控制系统设备通过相关信息的数字交换,能够协调工作,从而达到一个共同的目标。数字图书馆的互操作性主要是分布式系统间实现互操作,从而完成资源共享、馆际互借等操作。解决分布式异构系统的互操作性问题的关键技术主要有网格技术、OAI协议和公共对象请求代理体系结构(Common Object Request Broker Architecture, CORBA)。另外,在高频词中没有体现的中间件技术(middleware)也与此类团密切相关。

网格技术是一种分布式系统,可以实现资源共享,消除信息孤岛;具有协同工作特性;提供通用的开放标准、非集中控制;提供动态服务,能够适应变化并具有高度的可扩展性[9]。OAI协议是一种能独立应用的、能够提高Web上资源共享范围和能力的互操作协议标准[10]。CORBA是OMG组织制定的一种标准的面向对象应用程序体系规范,是为解决分布式处理环境(DCE)中,硬件和软件系统的互连而提出的一种解决方案。CORBA协议将分布式计算和面向对象的概念相互结合,它本身也是一种中间件技术,可以被看作把应用程序和通信核心的细节分离的软件[11]。

4.7 集成技术

数字图书馆建设中需要面对和处理大量异构系统和非结构化的信息资源,这些异构和非结构化问题会带来集成性隔断,人为地阻碍知识的共享和传递。因此,数字图书馆研究中必须要深入探讨各种集成技术。

数字图书馆面临的集成化问题至今还是重要的话题,界面集成化、信息与工作空间集成化、行政集成化、鉴权集成化、信息技术与服务集成化等问题在20年的发展中很多已经得到了良好的改善。如针对异构数据库提出的集成化技术,如多代理系统(Multi-agent)和跨库检索技术(CSDL)、跨语言检索技术(CLIR)等已经非常成熟并广泛应用于数字图书馆的建设中。而一些旨在支持全格式存储、传递、阅读数字化信息资源的资源整合技术对解决非结构化数据的整序问题大有帮助。而被划分在本类团的WebService技术是一种被广泛应用的综合性技术。该技术首次利用web标准将拆解后的不同软件的组成部分集成起来,这项技术为当时的web技术提供了一种全新的功能模式[12]。

4.8 资源建设技术

数字化技术是将纸质、磁介质、缩微胶片等传统方式存储的图文声像资源进行数字转化,使之成为能够被计算机网络识别、读取、传输和利用的数字化资源的技术类型[13]。早期的文本识别、OCR等文献资源数字化技术近年来发展迅速,我国的书生公司当前已经研发出先进的全息数字化技术[14];同时随着新兴的虚拟现实技术的日渐成熟,在不久的将来,数字阅读或可无限接近纸质文献的阅读体验。数字化文献信息资源的长期保存问题也是图书馆学领域研究的热点,这项技术一方面和数字仓储技术密切相关,但是很大程度上受到数字化资源类型的限制。被划分到其他类团的信息采访和电子商务应与数字化资源的采访有关,也属于资源建设范畴,但是并非具体技术的应用,此处不再赘述。

4.9 Web时代的信息组织

这个类团所涉及的技术范畴是综合性的,都和Web2.0及Web3.0理念有关。其主要涉及的是基于本体论(Ontology)提出的语义网(Semantic Web)概念、流媒体形式的信息组织形式和基于P2P理念的信息共享技术。

本体论是一个哲学范畴,在信息系统和知识系统领域被赋予了新的含义,Studer等人认为本体论是共享概念模型的明确的形式化规范说明,这也是目前对 Ontology 概念的统一看法[15]。Tim Berners-Lee于1998年提出的语义网模型有三个关键要素,其以RDF和XML为技术基础,而本体论则是具有一个分类体系和一系列的推理原则的形式化定义语词关系的规范化文件[16]。这个模型与Web3.0理念不谋而合,对实现资源描述和信息组织方式的创新有重要意义。流媒体技术是当前在信息组织中应用最广的方法之一,它的安全性高,传输性好,广为数字图书馆研究者所青睐。对等互联网技术(P2P)对于有针对性的需求-服务匹配的信息资源共享有很好的作用。这些技术被综合应用于数字图书馆中,提供了良好的信息组织和知识服务手段。

4.10 个性化服务

为用户提供个性化服务是评价和衡量数字图书馆的重要指标。而个性化服务体现在数字图书馆工作的各个方面,本类团中涉及的技术主要是指在云计算和数据挖掘技术基础上的支持个性化信息检索的Agent技术;能够提供个性化服务环境的应用程序虚拟化技术;基于信息抽取和信息过滤技术的个性化信息服务。

Agent技术是一种分布式计算技术,基于它开发的异构数据库信息检索系统在满足用户个性化信息需求方面有不错的效果[17]。虚拟化技术主要分为平台虚拟化、资源虚拟化、应用程序虚拟化和表示层虚拟化。基于应用层的虚拟化技术,通过保存用户个性化计算环境的配置信息,可以实现在任意计算机上重现用户的个性化计算环境[18]。信息抽取技术和信息检索相辅相成,它是将文本中所包含的信息进行结构化处理,将各个文档中的信息点抽取出来,然后用统一的形式集成在一起,对处理大数据时代的海量信息有重要作用。信息抽取技术与信息过滤技术和信息推送技术相结合,可以按照用户需求屏蔽掉冗余信息并向用户推送其感兴趣的信息,从而可以很好地实现个性化信息服务。数字图书馆中的各项技术其实都有以个性化服务为指标进行的度量,在大数据时代,各种非结构化信息大规模增长,需要未来数字图书馆服务更加注重个性化。个性化服务的技术远不止于此,随着以用户为本理念的推行,个性化服务将成为数字图书馆未来形态中最受关注的指标。

5结语

本文对21世纪以来的我国数字图书馆应用技术主题的期刊论文进行了统计分析。由于所分析的主题已经进入学科发展的后期阶段,再进行发展趋势预测没有意义,不过对数字图书馆关键技术的革新以及这部分学者关注的最新热点对数字图书馆未来形态的发展意义重大。同样这些技术作为数字图书馆的基础性技术,其最新的发展也会是笔者今后关注的重点。

参考文献:

[1] 李培.数字图书馆原理及应用[M].北京:高等教育出版社,2004.3-6.

[2] 李佳.共词矩阵在聚类结果分析中的作用[J].中华医学图书情报杂志,2009,(4):77-80.

[3] 金海,张江陵.磁盘阵列技术及其发展趋势[J].微处理机,1995,(2):5-11.

[4] 谢胜彬,陶洋,王国梁.DAS、NAS与SAN的研究与应用[J].计算机与现代化,2003,(7):8-11.

[5] 胡小菁,李恺.MARC四十年的发展及其未来[J].中国图书馆学报,2010,(2):83-89.

[6] 黄伟红,张福炎.基于XML/RDF的MARC元数据描述技术[J].情报学报,2000,(4):326-332.

[7] 赵一丹.论数字图书馆基于内容的多媒体数据查询和检索技术[J].中国图书馆学报,2001,(3):57-59.

[8] 吴慰慈,董焱.图书馆学概论[M].北京:国家图书馆出版社,2008.350-351.

[9] 史宁.网格技术与分布式数字图书馆[J].现代情报,2007,(4):102-105.

[10] 郑志蕴,徐玮,宋瀚涛等.网格环境下基于OAI的数字图书馆互操作机制[J].计算机工程,2006,(10).

[11] 周善儒.基于CORBA中间构件的数字图书馆异构资源集成方法研究[J].现代图书情报技术,2003,(2):19-20.

[12] Roman D, Keller U, Lausen H, et al. Web service modeling ontology[J]. Applied ontology,2005,1(1):77-106.

[13] 林静.图书馆馆藏资源数字化建设[J].图书馆学研究,2004,(7):33-35.

[14] 刘锦山.书生全息数字化技术在数字图书馆建设中的应用[J].图书情报工作,2001,(9).

[15] 刘颖,詹 萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,(6):53-58.

[16] 简玉仙,程晓颖,朱晓冰.一种基于本体语义控制的数字图书馆技术研究[J].科技情报开发与经济,2009,(8):34-35.

[17] 滕胜娟.从移动Agent技术的应用看图书馆信息服务的个性化[J].图书情报工作,2011,(S1):223-224.

[18] 刘荣发.服务器虚拟化技术在图书馆数字化服务中的应用[J].现代图书情报技术,2007,(4).

(责任编辑:王靖雯)

猜你喜欢

可视化分析数字图书馆聚类分析
我国职业教育师资研究热点可视化分析
声波吹灰技术在SCR中的应用研究
可视化分析技术在网络舆情研究中的应用
国内外政府信息公开研究的脉络、流派与趋势
农村居民家庭人均生活消费支出分析
基于云计算的数字图书馆建设与服务模式研究
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
刍议数字图书馆计算机网络的安全技术及其防护策略
“县级供电企业生产经营统计一套”表辅助决策模式研究