数字文献资源关联关系揭示方法研究*

2015-02-13陈兰杰侯鹏娟

图书馆 2015年2期

陈兰杰侯鹏娟

（1.中国科学技术信息研究所北京 100038；2.河北大学管理学院河北保定 071000；3.中国地质大学长城学院图书馆河北保定 071000）

1 前言

众所周知，数字资源组织是数字资源开发利用的前提，当前，面对多样的、海量的、非结构化的数字资源，传统的文献组织和数据库组织已不能满足用户日益增长的需求，对数字文献资源的组织正在从数字资源整合向更高层次的数字资源聚合迈进。[1]然而，由于数字文献资源的分布分散、异质结构等特点，给充分利用数字文献资源带来了极大挑战，为此，如何对海量数字文献信息资源进行科学的组织和开发成为当前图书情报界关注的热点问题,这从近几年国家级的课题可窥见一斑，例如：2012年国家自然科学基金项目“基于海量数字资源的科研关系网络构建研究（曾建勋）”以及“语义网络环境下数字图书馆资源多维度聚合与可视化研究（毕强）”；2013年国家自然科学基金项目“基于关联书目数据的分层聚合和导航机制研究”。2012年国家社科基金重大项目中的三个项目都与数字文献资源开发利用有关，“云计算环境下的信息资源集成与服务研究”（杜小勇）、“面向学科领域的网络信息资源深度聚合与服务研究”（孙建军）、“基于特定领域的网络资源知识组织与导航机制研究”（曹树金）；2013年国家社科基金一般项目“公共数字文化服务中的资源整合研究”（肖希明）；2014年国家社科基金青年项目“语义和情景关联的网络资源聚合单元分类体系构建”（马翠嫦）等。

在学术研究方面，对数字文献关联关系揭示的研究也已引起众多学者的关注。在国内，李亮先在2004年较早地提出信息资源关联的应用[2]，此后有关信息资源关联的研究相继展开，如基于关联数据的馆藏信息资源聚合[3]、基于社会网络和资源关联基础上的数字图书馆资源聚合[4-6]、基于关联数据的图书馆信息聚合研究[7]、基于共现与耦合的资源聚合[8]、基于语义的资源聚合与关联识别[9-10]、基于元数据的文献关联研究[11]、基于多共现的文献相关度判定[12]、基于多重共现揭示高校图书馆与核心期刊间的发文关联关系研究[13]。在国外，已有文献[14-16］较早地对科技文献的关联进行了探讨，美国科学计量专家 Morris开发了交叉图和时间线技术，实现了机构与研究主题两种文献特征项的关联[17-18]，Leydesdorff则把作者-期刊-关键词的特征项关联起来，实现了多个特征性的多重共现关联[19]。

上述研究成果表明，对数字文献资源的开发利用更加关注多维度、集成化、关联化的特点，特别是更加注重海量数据环境下满足不同用户需求的应用。对数字资源的组织正在从文献层面、记录层面的组织转向更加碎片化的知识间关联的组织；从数字资源整合向数字资源聚合迈进，将分散独立的数字资源构建成一个内容相互关联、多维度、多层次的资源体系，形成集概念主题、学科内容和科研对象实体为一体的立体化知识网络。[20]事实上，对海量数字资源的组织只从一个层面加以组织已经不能满足用户多样化的需求，同时也会因信息冗余阻碍数字资源价值的充分发挥。因此，必须考虑数字资源内部组织结构、内容结构、与人的利用、知识更新之间的关联，构建动态的、与时俱进的知识关联网络。

2 数字文献资源关联关系的主体分析及关联揭示的价值

2.1 数字文献资源关联关系的主体分析

数字文献资源关联的直接作用是构建知识关联网络，而知识关联网络主要是由各种知识节点及节点间错综复杂的各种关系构成。

对数字文献资源而言，构建知识关联网络则主要是基于数字文献的外部特征和内容特征来实现。数字文献的外部特征主要包括题名、作者、机构、工作单位、文献出处、参考文献等信息。内容特征则包括关键词、主题词、分类号、知识元等。在构建知识关联网络时，一方面可以通过外部特征的关联来实现，也可以通过内容特征的关联来实现，还可以通过外在特征与内容特征的交叉关联来实现。一般而言，通过数字文献外部特征的关联形成的知识网络是对数字文献资源的简单整合，而通过数字文献内容特征的关联形成的知识网络和通过外在特征与内容特征的交叉关联则是对数字文献资源的深度聚合，显然，后者的意义和价值更大，从某种程度上来说后者是一个知识发现的过程，数字文献之间增加了更多的逻辑关系。

目前，在数字文献资源知识关联网络中存在的关联关系主要有：机构关联、学者关联、期刊关联、主题关联发现、文献关联和交叉关联等多种关联。[21]

2.2 数字文献资源关联关系揭示的价值和意义

加强对数字文献资源关联关系的研究，目的是构建一个多维的、内容关联的知识网络，具有如下重要价值和意义。

2.2.1 数字文献资源的关联是数字图书馆的资源建设与管理的重要内容。数字图书馆本身就是数字文献资源的集合体，储存有多种媒体、不同结构的异质数字资源，随着这个集合体内容的不断增加，有关联关系的数字资源越来越多，为了充分发挥这些资源的潜在价值，需要建立这些资源的关联。因此，利用数字文献资源关联技术可将有效信息资源有机地关联起来。

2.2.2 数字文献资源关联是实现知识发现的重要途径。利用数字文献资源关联技术可以实现信息资源的关联应用,从某种程度上来说避免了检索结果的单一化、无序化，为用户的检索提供了更智能化的导航，这无疑是信息检索和知识发现的有力途径。当然，数字文献资源的不断增加会导致资源关联模式发生变化，新资源的收录、资源之间的关联关系网络也会发生变化，其检索结果和知识发现模式也会随之改变。

2.2.3 数字文献资源关联能满足用户的个性化需求。通过关联关系构建的知识网络能从不同侧面、不同角度展示数字文献资源之间千丝万缕的联系，深入挖掘数字文献网络中所蕴含的内在价值，为知识发现提供可能，并能按照用户的需求对数字文献资源进行揭示，满足用户的个性化需求，提高用户检索效率及准确率。

3 数字文献资源关联揭示方法及其应用

3.1 基于引文的分析方法

3.1.1 原理。引文分析主要是对各类文献资源之间的引用与被引用现象进行分析，以便揭示其数量分布特征和内在关联规律。[22]引文分析是进行文献关联研究最早、也是最成熟的方法之一。通过文献之间的引证形成的引文链接可以构建起知识信息间的关联关系[23]，对于实现科技文献的集成信息服务和促进知识发现具有重要意义。

引文理论源于1955年加菲尔德（E·Garfield）在《科学》杂志上发表的《引文索引用于科学》[24]一文，在该文中加菲尔德率先提出了引文分析概念和相关理论，从此拉开了对引文分析的先河。科学文献之间通过引用关系构成了特定研究主题的知识网络，其单向无回路的特征揭示了学科主题的知识结构和发展过程。[25]在科技文献网络中，每一篇文献都是一个知识节点并具有相应的价值。引文网络不仅能揭示文献之间的关联，还能通过关联关系进行文献聚合，更好地满足用户个性化需求。[26]基于引文的关联分析主要包括三种模式：基于引用的直接关联模式、基于同被引的关联模式、基于引文的扩展关联模式。

3.1.2 应用。基于引文的关联前提是文献之间有某种引用关系，因此，这种关联是一种强关联，这对于信息检索需求具有重要价值。世界上最早利用引文建立关联关系的文献系统是1961年由美国科学信息研究所(ISI)创办出版的检索评价工具《科学引文索引》(Science Citation Index，简称SCI)。目前国内的CNKI《中国期刊全文数据库》、万方《中国科技期刊论文数据库》、维普《中文科技期刊数据库》等三大期刊全文数据库均具有引文检索分析功能。

近年来，基于引文开展文献计量分析、知识关联分析和科研影响力评估已经成为图书情报领域的一个重要研究分支。如王立学等以发表于 2005-2009 年的情报学论文为基础，通过频次统计、关键词共现、论文同被引等文献计量分析方法，挖掘并阐释研究主题关联以及作者同被引、机构同被引和期刊同被引等关联关系。[27]

3.2 共现分析法

3.2.1 原理。共现(Co-occurrence or occurrence) 现象是文献计量中一个特有现象，主要是指科技文献中相同或不同类型特征项共同出现的现象。例如多篇文献中共同出现的同类特征项，如关键词、作者、机构等，以及不同特征项共同出现的现象，如论文与关键词、机构与作者等的共现等。共现分析就是采用定量化的方法来分析文献中因特征项的共同出现所产生的文献之间的内容关联。一般而言，共现的特征项之间一定存在着某种关联，关联程度可用共现频次来测度。

通过共现分析可以从多个维度挖掘和揭示隐含在文献中的各类知识信息单元的内容关联和逻辑关联。在信息计量学研究中，主要采用分析文献特征项之间关联来探讨文献内容的关联。信息计量学中的共现分析通常包括共词分析、耦合分析、同被引分析和合作分析等。目前，研究较多的是二重共现，即两个文献特征项的共现。如果将共现现象扩展到三重或者更多，则其揭示的关联关系和逻辑联系会更加丰富，其价值也会更大。如邱均平等（2013）提出了四种基于共现和耦合的数字文献资源关联模式，分别是文献特征关联、文献利用过程关联、知识关联和用户需求关联。[28]

3.2.2 应用。利用共现方法来揭示文献之间的关联关系在文献计量研究中被广泛应用，如Morris[29-30]开发了交叉图和时间线技术来研究两种相同特征项之间的关联，以此发现哪些机构合作研究了哪些相关的研究主题；胡琼芳和曾建勋[31]提出从共引、耦合、共篇三个3角度，利用引文-被引文-关键词三个特征项共现的方法来挖掘论文之间的关联；庞弘燊对Morris 的交叉图技术进行了改进，提出了多重共现交叉图技术，用以展示三个特征项（机构-期刊-关键词）之间的共现关系，以揭示更多文献之间的关联信息。[32]

3.3 社会网络分析法

3.3.1 原理。社会网络是因个体成员间有效互动形成的较稳定的社会关系和社会团体的总和。社会网络分析法是在社会网研究过程中形成的方法，从资源聚合的角度，可将社会资源网络看成是由知识单元、知识关联和知识群落构成的三元组。[33]从数字文献资源组织的角度来讲，知识单元是知识关联网络中的知识节点，知识关联是知识节点之间的关联关系，知识群落则是依据关联关系划分的知识单元的集合，而不同知识群落之间的交叉关联则构成多维立体的知识关联网络体系。

社会网络分析法主要用于资源间关联关系的分析，其将资源间的关系看成“网”或“网络”，并对此“网络”进行结构划分，形成不同的子群，从而实现关联文献的聚合。社会网络分析法实现资源聚合主要是围绕网络中心性、网络群聚性和网络关联性三个维度展开。其中网络中心性主要用于衡量节点在整个社会网络中的地位和影响力；网络群聚性主要用于实现节点分类和定位，用于网络结构和层级划分；网络关联性主要用于判断网络节点间关系以及节点的重要程度。对于数字文献资源，可依据数字文献资源的内外部特征建立社会网络关系，进而开展数字资源结构属性和关联关系分析。

3.3.2 应用。毕强等（2014）采用社会网络分析法对从资源特征间关联和资源利用过程关联的视角出发，提出了6种数字资源聚合模式：基于作者互引关系的资源聚合、基于作者合作关系的资源聚合、基于作者-关键词关系的资源聚合、基于多作者-关键词关系的资源聚合、基于多关键词-作者关系的资源聚合，以及资源特征间交叉关联的聚合。[34]其中，基于作者互引关系的关联主要用于发现作者间引用情况，识别核心作者；基于作者合作关系的关联主要用于挖掘作者间相同的研究主题，揭示外在的合作群体；基于作者关键词交叉关联主要用于揭示潜在的合作群体；基于多作者-关键词关系的关联主要用于寻找关键词共同体，识别相同研究主题；基于多关键词-作者关系的关联主要用于识别同一研究领域的核心作者。郭金龙[35]对图书情报界学者博客互引情况进行了社会网络分析；魏群义[36]还利用社会网络分析软件Pajek对国内近10年图书情报学硕士学位论文关键词进行了统计。

3.4 基于语义和本体的关联分析方法

3.4.1 原理。语义方法就是对文本，图片，多媒体等各种资源进行语义标注，通过语义标注使得它们之间建立各种关联，这些标注不仅人可以读懂，而且计算机也能够理解。[37]本体方法是通过对客观世界事物进行系统化、抽象化的描述和组织，体现特定领域的知识结构。

利用语义和本体方法是构建数字文献资源关联最理想的方法之一。在本体中，概念之间、实例对象之间存在着各种复杂语义关系，如等级关系、等同关系、相似关系、相关关系、互操作关系等。通过对不同领域的资源集合构建领域本体，利用语义映射机制实现异构资源和系统之间的语义关联，就可以实现异构的、不同类型资源的深度聚合。[38]

3.4.2 应用。早在20世纪90年代，国外就对基于本体模型的异构数字资源进行语义标注方式作了研究，本体在其中的作用是提供对资源进行语义标注的词汇标准。H.Wache等人将基于本体的整合方法归纳为单一本体法、多本体法和混合法3种类型[39]；李劲等（2013）则提出了两种基于语义信息检索可视化模型[40]；何超等（2013）构建了基于本体的馆藏数字资源语义聚合与可视化模型，该模型利用本体提供的语义知识进行深层次的馆藏数字资源语义聚合。旨在解决数字资源孤岛问题和数字资源超载问题，揭示馆藏数字资源内部存在的错综复杂关联和深层次内涵，从而增强对数字信息资源聚合结果的认知和理解。[41]

3.5 关联数据分析法

3.5.1 原理。关联数据是指共享、连接各类数据、信息和知识的一种知识信息组织方式，它克服了本体的领域局限性，实现了各类数据的无缝链接。关联数据一般包括创建、发布、自动关联、浏览和链接维护等环节。关联数据的本质在于为各类分布的、异构的数据建立语义关联，因此，它在数字资源整合和共享方面具有得天独厚的优势。关联数据旨在构建一个计算机能理解的具有结构化和富含语义的数据网络。其最大优势在于可以对分布式异构数据进行整合并提供关联访问。数字图书馆可利用关联数据进行数字资源的组织、集成和关联信息服务。关联数据是数字图书馆进行信息资源发布和服务的核心技术之一。[42]

3.5.2 应用。关联数据意在通过发布和链接结构化数据使得分散异构的数据孤岛实现语义关联，从而促进传统文件网络向数据网络演进。在国外，瑞典国家图书馆最先将本国国家联合目录（LIBRIS）发布为关联数据[43]。随后，美国、德国、法国、OCLC 等国际、国家级的书目数据也纷纷开放了关联数据服务。

我国对关联数据在数字文献资源聚合与分析中的应用研究才刚刚起步，主要是对关联数据在信息资源整合中的应用进行理论探讨。譬如，丁楠和潘有能构建了基于关联数据的图书馆信息聚合模型[44]；游毅和成全对基于关联数据的馆藏资源聚合模式进行了理论阐述[45]。

4 现有揭示方法评价及未来发展趋势

目前，国内对数字文献资源关联关系的揭示主要从两个角度出发，一种思路是从发现数字文献资源之间的关联关系出发，利用计量分析来挖掘数字文献资源之间的关联关系，包括基于引文的、基于共现与耦合的和基于社会网络分析的关联关系与数字文献资源聚合；另一种是从构建关联关系出发，从知识组织角度，主要通过运用概念分析、本体、关联数据等方法增强资源语义，从而进行关联关系揭示，包括基于本体和语义的数字文献资源聚合、基于关联数据的数字文献资源聚合等。

引文分析法直接揭示文献之间的关联关系，形式化程度高，其不足在于对数字文献关联关系揭示较单一。

基于共现与耦合的揭示方法能通过数字文献中不同特征项实现数字文献关联，并可根据不同的研究目的来分析不同的特征项之间的共现关联关系。其不足在于由于理论和技术原因，目前只能对三个或以下特征项进行共现分析。

社会网络分析法可以提供多个聚合应用的数据关联访问，将不同资源的关联特征或不同资源间建立的社会网络进行整合、提取，并按用户的需求组织资源。基于资源内、外部特征间的关联以及资源利用过程的关联，可以构建作者互引关系、作者合作关系、作者-关键词等关系网络，其主要缺点是难以形式化表达。

基于本体与语义的揭示方法能对数字资源本身构建丰富的语义，形式化程度高，可以共享复用，其主要不足在于重表达，轻分析，特别是本体往往局限于某一领域。

基于关联数据的数字文献关联关系揭示法是应用于数字资源整合的极少实践研究方法之一，其语义丰富，形式化程度高。主要不足在于对资源间隐含关系和深层次语义关系的识别还不够充分。

在以往的研究中，大多数对数字文献资源关联关系揭示的视角往往基于某一单一的技术方法。但实际上很多方法在数字文献资源关联关系揭示方面存在着必然联系和相似性，如社会网络分析方法、复杂网络分析方法、信息计量学等。因此，了解技术方法上的互补融合之处，是全面、透彻地揭示数字文献资源关联关系的关键所在，这也是实现数字文献全方位关联的重要保障。未来还会有更多的数字文献资源关联关系的揭示方法，必然也是多维度和多视角的。

（来稿时间：2014年10月）

1,21.张云中.从整合到聚合：国内数字资源再组织模式的变革.数字图书馆论坛，2014（6）：16-20

2.李亮先.信息资源的关联应用.情报杂志，2004（2）：103-104

3.王涛.基于关联数据的馆藏信息资源聚合研究.图书馆学刊，2012（8）：44-46

4.毕强，王雨，孙畅.数字图书馆资源聚合模式研究——基于社会网络分析的视角.数字图书馆论坛，2014（6）：2-7

5,34.毕强，王雨，吴海媛.基于社会网络分析的数字图书馆资源聚合实证研究.数字图书馆论坛，2014（6）：8-15

6.孙中秋等.大数据时代数字资源整合与聚合研究.数字图书馆论坛，2014（6）：28-34

7,44.丁楠，潘有能.基于关联数据的图书馆信息聚合研究.图书与情报，2011（6）：50-53

8,28.邱均平，王菲菲.基于共现与耦合的馆藏文献资源深度聚合研究探析. 中国图书馆学报，2013（5）：25-33

9.贺德方，曾建勋.基于语义的馆藏资源深度聚合研究.中国图书馆学报，2012，38（7）：79-87

10.魏来.基于在线词表的 folksonomy 语义关联识别方法研究.图书情报工作，2011，55（5）：103-108

11.黄筱瑾.基于元数据的科学数据与科技文献关联研究.情报理论与实践，2013（7）：27-40

12,31.胡琼芳，曾建勋.基于多共现的文献相关度判定研究.情报理论与实践，2010，33（8）：77-80

13,32.庞弘燊.基于多重共现揭示高校图书馆与核心期刊间的发文关联关系研究.图书馆，2012（2）：75-78

14.ARONSON A R. Effective mapping of biomedical text to the UMLS metathesaurus: the metamap program//ProcAMIA Annu Fall Symp，2001: 17-21

15.MANNING C H S. Foundations of statistical natural language processing.Cambridge.MA: MIT Press，1999

16.YOSHIDA M，FUKUDA K，TAKAQI T. PNAD-CSS: a workbench for constructing a protein name abbreviation dictionary.Bioinformatics，2000，16（2）：169-175

17,29. Morris S.A.etc.DIVA: a visualization system for exploring document databases for technology forecasting.Computers ＆ Industrial Engineering，2002（43）： 841-862

18,30. Morris S. A.，Gary G.Yen.Crossmaps: Visualization of overlapping relationships in collections of journal papers.[2014-08-21].http://www.pnas. org /cgi/doi/10.1073/pnas.030760410

19. Loet Leydesdorff.What Can Heterogeneity Add to the Scientometric Map? Steps towards algorithmic historiography.[2014-08-21].http:// arxiv.org/abs/1002.0532

20.毕强.数字资源：从整合到聚合的转变.数字图书馆论坛，2014（6）：前言

22.邱均平.信息计量学.武汉:武汉大学出版社, 2007：316-317

23.周晓英，陈兰杰.基于引文网络的知识链接框架研究.情报杂志，2010（10）：37-40

24.Garfield E.citation indexes for science：a new dimension in documentation through association of ideas.science,1955，122：108-111

25,26.邱均平，董克.引文网络中文献深度聚合方法与实证研究——以 WOS 数据库中 XML 研究论文为例.中国图书馆学报，2013（3）：111-120

27.王立学，孙杨，杨代庆.基于引文的情报学领域主题关联特征分析.情报杂志，2012（10）：27-31

33.孙中秋,陈晓美,周珊珊.Folksonomy与SNA资源聚合类比研究.数字图书馆论坛，2014（6）：21-27

35.郭金龙，许鑫.领域博客的社会网络分析:基于图书情报与互联网博客的实证.图书情报工作网刊，2012（1）：1

36.魏群义，侯桂楠，霍然.近10年国内情报学硕士学位论文研究热点统计分析.图书情报工作，2012,56（2）：35-39

37.凌海云，左志宏，陈兰.语义标注元数据及其抽取技术.计算机应用研究，2004（7）：147-149

38.马文峰，杜小勇，卢晓慧.基于知识的资源整合.情报资料工作，2007（1）：51-56

39.Wache, H., Voegele, T., Visser, U., Stuckenschmidt, H.,Schuster, G., Neumann, H., Huebner, S.Ontology-based integration of information - a survey of existing approaches.Proceedings of the workshop on Ontologies and Information Sharing at the International Joint Conference on Artificial Intelligence (IJCAI), 2001:108-117

40.李劲，程秀峰，宋红文.基于语义的馆藏资源深度聚合方法研究.情报科学，2013,31（11）：100-103

41.何超，张玉峰.基于本体的馆藏数字资源语义聚合与可视化研究.情报理论与实践，2013,36（10）：73-76,39

42.王涛.基于关联数据的馆藏信息资源聚合研究.图书馆学刊，2012（8）：44-46

43. Sderbck A, Malmsten M.LIBRIS-Linked Library Data.Nodalities，2008（5）：19-20

45.游毅，成全.试论基于关联数据的馆藏资源聚合模式.情报理论与实践，2013,36（1）：109-114