基于计量的图书情报领域元数据研究现状分析
2016-07-26陶艳董克
陶 艳 董 克
(1.南京航空航天大学图书馆,江苏 南京 210007;2.武汉大学信息管理学院,湖北 武汉 430072)
基于计量的图书情报领域元数据研究现状分析
陶艳1董克2
(1.南京航空航天大学图书馆,江苏 南京 210007;2.武汉大学信息管理学院,湖北 武汉 430072)
[摘要]利用社会网络分析法中的路径方法和文献计量中的共现分析方法,对Web of Science数据库中图书情报学领域(LIS)元数据研究论文进行了定量分析,旨在明确图书情报领域元数据研究的发展过程及研究结构。从定量统计的结果来看,美国在相关研究中处于绝对主导地位;相关研究的技术应用倾向明显;引文路径分析结果表明LIS领域metadata研究相对成熟,主要集中在信息检索、知识组织和数字图书馆中;metadata在医学信息学以及传统的图书馆编目方面已经获得的研究成果价值也十分重要。
[关键词]元数据社会网络分析文献计量主路径分析
1 引言
元数据(Metadata)一词最早出现在美国计算机专家Philip Bagley1968年出版的著作《Extension of programming language concepts》中,他第一次使用了metadata这个词来描述“关于数据容器的数据”这一概念[1]。在此之前,图书馆的编目中已经存在类似的概念,如“关于数据内容的单个实例内容”或者“元内容”,但这样的表述相对模糊,而Philip Bagley明确定义了数据描述。从那时起,图书情报领域逐渐开始广泛接受元数据这个词。目前对于元数据最广为人接受的定义为“关于数据的数据”[2]。
在图书情报领域,元数据是数字化时代信息组织和处理的基本工具,元数据能为各种形态的数字化信息单元和资源集合提供规范、普遍的描述基准和方法[3]。目前,元数据基本功能已经发生了明显转变,信息组织已经从利用元数据描述资源进一步发展到通过元数据描述信息体系的各个内容层次,元数据正成为连接、协调整个信息服务体系的工具和纽带,成为分布、开放的信息服务体系的基础;针对不同的对象和目的的元数据大量涌现,人们开始普遍要求元数据遵循一定的规范,使其能够交换、复用、转换和整合,从而支持集成环境下的工作[4]。在这一背景下,笔者通过计量学的方法对目前图书情报领域的元数据研究论文进行研究,分析元数据研究的历史和目前的进展。
2 数据来源与工具
2.1数据来源及检索策略
笔者选用Thomson Reuters公司提供的Web of Science平台[5],Web of Science是美国Thomson Scientific(汤姆森科技信息集团)基于Web开发的产品,是大型综合性、多学科、核心期刊引文索引数据库,共包括数千种世界范围内最有影响力的、经过同行专家评审的高质量的期刊,该数据库每周更新。在Web of Science核心合集数据库中,利用TI=(“metadata”OR“metadata”OR“meta data”)检索,选择SCI-EXPANDED,SSCI,A&HCI,CPCI-S和CPCI-SSH等数据库,不限定论文发表年份,在系统返回结果中选择学科领域为“INFORMATION SCIENCE&LIBRARY SCIENCE”,共获得科学文献1743篇,检索时间为2015年9月15日。
2.2分析工具
在分析工具的选取上,数据分析及清洗主要利用汤姆森数据分析器(Thomson Data Analyzer,简称TDA);TDA是基于VantagePoint开发的专门针对汤姆森路透集团相关数据库提供的文献、专利资源进行分析的软件,功能十分强大。在网络数据的分析及可视化方面,主要利用社会网络分析软件Pajek进行;Pajek是有斯洛文尼亚卢布尔雅那大学的研究小组开发的开源社会网络分析软件,集成了目前绝大多数社会网络分析算法,数据处理量及运算速度在目前社会网络分析的软件中具有明显优势。
3 结果分析
3.1时间及类型分布
Web of Science数据库收录的文章中,最早的文献发表于1982年的《Drexel图书馆季刊》,题为《应用于数值型数据文件综合接入的元数据系统》;其后第二篇文献发表于1992年,作者为荷兰地理学家BURROUGH PA,文章的主要内容为智能地理信息系统开发,其中讨论了元数据对提升信息组织效率的作用,目前被引已经达到47次。文献发表的时间分布如图1所示,从中可以发现,1996年以前图情领域研究元数据的成果较少,仅有10篇,此后,论文数量整体上逐年增多,发文最多的年份为2007年,共166篇。
图1 文献发表的时间分布
从图1中我们可以发现,总体上来讲,至2007年为止,论文的数量呈现出明显的上升趋势,且数量增长相对较快,说明图书情报领域对于元数据的研究处于不断的深化过程中。2007年之后,相关研究成果的数量出现了一定的回落趋势,从2010年开始,论文的数量趋于稳定,每年约100篇左右,2015年的文献数量较少主要是受到数据检索时间的影响;从生长周期的角度来看,文献数量的减少并趋于平稳从一个侧面表明图书情报领域的元数据的研究逐渐成熟。
1743篇文献的类型如表1所示,其中期刊论文及会议论文占到了总数的97%左右。在一般的文献类型中,会议论文一般发表的周期最快,其次是期刊论文,因此,结合时间分布与文献的类型分布可以发现图书情报领域对元数据的研究虽然逐步走向成熟,同时也在不断开拓新的研究内容。此外,书评、会议摘要和综述等文献类型也有一定的数量。其他文献类型主要包括编者按、勘误和新闻报道等。
表1 文献类型
3.2地区与机构分析
表2 文献地区分布
对检出的1743篇文献进行国家/地区分析,得到文献数量排名前10位的国家或地区如表2所示。通过分析发现,文献的地区集中极为明显,美国、英国和德国的发文数量占到了全世界的一半;排在第一位的美国文献发文数量为700篇,占到了全部论文的40.161%,而第二位的英国占总量的比例仅为6.7%,说明美国的图书情报界在全世界的元数据研究中起到了绝对的核心作用,目前世界上最有影响力的元数据格式DC就是1995年由美国的图书情报专家牵头召开确定的。从排名中同时可以发现,中国大陆地区图书情报界对元数据的研究在目前世界上也同样名列前茅。
图2 发文10篇以上国家的合作情况
图2是发文在10次以上的国家之间的合作情况。国际合作是目前科学研究的大趋势,在图情领域的元数据研究中,大多数国家之间存在合作关系,发文数量较多的国家,如美国、英国、德国、西班牙等,均与多个国家开展了合作研究。亚洲国家进行国际合作研究的情况普遍较少,如日本、韩国、新加坡、中国等均只与很少的其他国家之间开展合作。进一步对发文数量较多的机构进行分析发现,发文数量在10篇以上的机构共有28个,从数量上来看,绝大多数为美国高校,发文数量前十个机构中仅有加拿大麦吉尔大学为非美国的科研机构。发文数量前5的机构分别为北卡罗来纳大学教堂山分校,伊利诺伊州立大学香槟分校,雪城大学,德雷克塞尔大学和印第安纳大学伯明顿分校;发文15篇以上的12个机构中,仅有美国国会图书馆为非大学机构,说明相关的研究主要集中在高校中。发文量较大的高校基本上都是历年的USNews美国大学排名信息与图书馆学领域中排名最靠前的几所高校,说明其研究实力均较强。
3.3作者合作分析
1743篇文献共有3335位作者,其中第一作者1429人,平均每篇文章有作者1.91个作者,说明合作已经成为图情领域元数据研究的主要趋势。所有作者中,发文10篇以上的作者共10位;以第一作者发文5篇以上的作者共9位;同时位于这两个列表的研究成果较为突出的学者共有4位,里斯本大学的学者Borbinha J,他共发表了14篇研究论文,其中第一作者论文7篇;英国卢瑟福实验室的Jeffery K G发表了12篇文献,其中11篇为第一作者;美国德雷克塞尔大学的Park JR发表了12篇文献,其中8篇为第一作者;加拿大麦吉尔大学的Park EG共发表了10篇文献,其中也有8篇为第一作者。这些学者在高产的同时,也在其自身所在的研究队伍中起到非常重要的引领作用,例如Borbinha J长期参与葡萄牙国家数字图书馆的建设,对数字图书馆系统设计和资源的信息组织进行了深入的研究,并取得了许多重要的研究成果;Jeffery KG长期从事商业信息系统和数据库的数据结构研究,发表了大量的研究论文;Park EG的大量研究都是国家层面的元数据框架及元数据评估;Park JR则在元数据的语义化方面取得了十分重要的研究成果。
通过作者的合作网络,我们可以进一步分析图书情报领域元数据研究的主要内容分布。在所有的作者中,发文量在两篇以上的作者共569人,3篇以上的192人。我们以发文3篇以上的作者群体为研究样本进行作者合作网络构建与分析发现,192名作者共发生了394次合作关系,其中未与其他作者发生合作关系的有43个。作者合作关系强度中,合作强度最频繁的为1,共有130个作者对;绝大多数作者之间的合作次数在2-5次之间,合作强度在5以上的共38个作者对,其中强度最大的1个作者对合作强度达到了10次。
图3 合作数量≥5的作者合作子网
为了使可视化的结果更为清晰可读,选择人数大于等于4的8个子网络进行可视化结果如图3所示。图中,各节点以作者名称进行标记,作者名称前括号内的数字为子网编号。通过分析发现,各个团体的研究侧重点均有不同。以左上方规模最大的合作子网3为例,其虽然是一个联通的合作网络,但内部各部分之间的研究重点也有不同,其中包含了以“信息检索系统中的元数据应用”“商业信息系统建设”和“网络开放文档中的元数据标注”等研究主题。右上角的合作子网2中,核心作者为弗吉尼亚理工大学的学者Fox E A 和GoncalvesM A,该群体的研究主题主要与数字图书馆建设有关。合作子网8位于图3左侧中部,该子网共包含了7为学者,研究主题为生物医学数据库及数据模型;图3中部的子网5共包含6位学者,研究主题主要为Web资源共享中的互操作问题;位于中部右侧的子网1包含6名学者,其核心人物为Borbinha J,研究内容主要集中在数字图书馆中的资源组织;图3下部左侧的子网6包含5位学者,研究主题为元数据质量控制与评价;下方中部的子网7的研究主题主要为元数据采集与收割;最后的子网4包含8位作者,研究内容主要集中在不同领域如农业、商业中的元数据应用。大量的合作者聚类中均存在一些联系局部的核心作者,这些作者在跨学科或跨研究内容的合作中,起到了重要的媒介作用。
3.4载文期刊及被引期刊分析
1743篇论文共刊载于218种出版物,载文量在40篇以上的共10种,如表3所示。由于检索中我们并没有排除图书,因此载文数量最多的是计算机领域的著名丛书《Lecture Notes In Computer Science》,共有170篇研究论文;排在第二位的是由Emerald公司出版的期刊《Electronic Library》载文70篇;排名第三的期刊为《Journal of the American Society for Information Science and Technology》(JASIST,2001年之前该期刊的名称为《Journalof the American Society for Information Science》)。总体而言,载文数量较多的期刊绝大多数是技术倾向明显的期刊。
表3 载文量≥40的出版物
在被引出版物中,排名第一的为《JASIST》,共被引了772次(包含以JASIS和JASIST两种名称被引),该期刊由ASIS&T出版,是图书情报学领域最为出名的期刊之一。排名第二的是《D-Lib Magazine》,该刊有美国国防部先进研究项目局和美国国家科学基金会支持的电子出版物,重点关注数字图书馆研究与开发,新技术的应用及其产生的经济和社会效应等研究内容。同样可以发现,被引次数较多的期刊依旧为图情领域偏技术类的出版物和计算机领域的出版物。期刊共被引分析的可视化结果如图5所示。从整个期刊的被引网络上来看,以这两种期刊为核心的为一般的LIS期刊阵营,其中大量的被引文献包括知识组织与编目就;此外还有一个相对独立的阵营是由医学信息管理领域的期刊组成的,被引文献大多数论述元数据在医学信息管理中的应用两部分的期刊主要通过JASIST联系在一起,说明JASIST是整个共被引网络的中心和衔接者,其研究内容广泛而富有深度,对LIS领域元数据研究的发展做出了重要的支撑。
图4 期刊共被引网络
3.5引文路径分析
被引是衡量文献质量的重要依据。1743篇文献中,被引次数最多的论文是由美国惠普实验室的研究人员Golder SA和Huberman BA撰写的名为《Usage patterns of collaborative tagging systems》的文章,文中详细分析了目前已经比较广泛的网络资源合作标签和分众分类法问题,该文章到2015年9月已经被引590多次。被引次数最靠前的文献所研究的主题相对多样,但特点也比较明显,2000年以前发表的论文大多数集中在图书馆资源组织领域元数据的应用,而2000年之后发表的文献则更多关注网络资源组织中的元数据应用。
进一步构建所有文献的引文网络后发现,1743篇文献之间的引用网络中,绝大多数文献之间没有引文关系,引文网络中存在一个十分明显的子网,说明在整个论文网络中,存在明显的研究核心论文群体,其他大多数则为零散的节点。利用社会网络分析法中的main path analysis(MPA,主路径分析),可以从由科学文献所构成的引文网络中计算每篇文章对于整个科学发展过程起到的贡献,并进一步筛选其中最关键的文献,描述主题发展的主干[6]。主路径分析的基本思想是,将某个领域最早发表的论文当做知识源,这些知识源所包含的知识内容依据引文关系进行传承,在从最初发表的文献到最新发表的文献所构成的引文链代表了知识传承的通道,经过某个论文或引文关系的知识通道数量越多,那么这个文献节点或引文关系对的重要程度就越大。主路径分析的具体运算过程可参见相关文献[7]。
主路径分析运算结果如表4所示,权重位于0.0013-0.0097之间的引文关系占了总量的90.18%,即大多数引文对于整个知识体系而言意义不大。权重最大的为0.0685,位于0.0433-0.0517之间的引文有3个。将权重最高的引文及构成引文的节点连成一个主路径结果如图5所示。
表4 主路径分析结果
根据图5可以看出,1996年和1997年发表的大量文献均是作为图情领域元数据研究的知识源存在。根据文献数量的时间分布,从1996年左右开始,图情领域对元数据的研究逐步得到越来越多的重视,两者结论较为一致。主路径中最早的一篇文献为Heery R于1996年发表的关于元数据格式的综述性研究,该文章系统回顾了当时已经存在大量元数据记录形式,为后来的研究提供了大量的参考资源[8]。主路径上1997年发表的论文有5篇,美国罗格斯大学的Ng K B等学者分析了电子图书馆环境下的元数据schemes的控制与管理问题;美国俄亥俄州立大学的Yonger JA分析了数字时代的资源描述方式[9];加拿大学者DesaiB C则对虚拟图书馆中资源索引与检索进行了分析,讨论了Dublin核心元数据在其中的作用[10];Vellucci SL分析了多种元数据描述方式在数字资源组织与描述中的综合利用[11];雪城大学的Sutton SA等学者则分析了在教育领域中如何利用元数据加强因特网环境下信息检索效率,提升教育水平和教学能力的问题[12]。第36号文献在整个主路径上的衔接作用十分突出,它是由VellucciSL1998年在《美国信息科学与技术年度回顾》上发表的一篇关于元数据的综述,该文系统总结了至1998年为止元数据的发展历史和进展[13]。
衔接早期研究和2010年以后研究的文献为第665号文献,该文由Mohamed K A F发表于2006年的《Online Information Review》上,文中详细分析了元数据在网络资源发现中的作用,特别是元数据对网页资源索引的作用[14]。Farajpahlou A H等学者在2011年发表的编号为1314的文献中,系统研究了动态网络环境下,类似于Google和Yahoo等通用搜索引擎对于包含Marc 21和Dublin核心元数据信息的XML资源的索引效率,并讨论了搜索引擎对这类资源的排序效果问题,研究发现Google能够很好的发现并排序这些资源[15]。出现在主路径上的最新的两篇文献发表于2014年,均由伊朗学者Taheri SM团队撰写;编号为1648的文献中,Taheri S M等利用数据岛方法创建元数据记录,并使之能够被通用的网络搜索引擎所索引;在编号为1702的文献中,TaheiSM等学者进一步对搜索引擎、XML和元数据相关内容进行了研究,发现综合性搜索引擎能有效索引XML格式资源的元数据标签名[16]。从引文主路径可以看出,图情领域元数据研究的主题转变相对明显,相关研究从早期的初级问题如元数据描述格式、规范等内容进一步发展到对搜索引擎及知识组织的研究,逐步深入。
图5 元数据研究的主干
4 结语
笔者主要利用计量学的方法,从文献发表时间、地区和机构分布、作者群体、出版载体和引文网络的角度对目前图书情报领域的元数据研究进行了分析。从文献发表的时间来看,1996年开始,图情领域对元数据的研究逐渐增多,到2007年达到高峰,其后研究逐渐走向成熟。从地区、机构和作者的角度来看,美国在相关研究中处于绝对领先地位,偏技术应用研究的团体为图情领域研究的核心团体;出版物分析的结果进一步支撑了上述结论,大量相关的论文发表于技术倾向明显或计算机类的出版物上。引文路径分析的结果表明,图书情报领域对元数据的早期研究主要针对元数据本身,以及传统图书馆资源组织和数字图书馆中的应用;随着研究的进一步深入,对于元数据的研究逐渐拓展到知识组织和信息检索领域;整体上看,图书情报领域元数据研究相对成熟,且内部的科学结构和发展主干十分清晰。
参考文献:
[1] Bagley,Philip.Extension of programming language concepts[M].Philadelphia:University City Science Center,1968.
[2] NISO.Understanding Metadata[EB/OL].http://www.niso. org/standards/resources/UnderstandingMetadata.pdf.[2012 -06-20].
[3] National Archives of Australia.AGLSMetadata Element Set-Part 2:Usage Guide-A non-technical guide to using AGLSmetadata for describing resources[EB/OL]. http://www.naa.gov.au/Images/AGLS%20Metadata%20Stan dard%20Part%202%20%20Usage%20Guide_tcm16-47011.pdf.[2012-06-23].
[4]张晓林.元数据应用与研究[M].北京:北京图书馆出版社,2002.
[5] Web of Knowledge.http://webofknowledge.com/WOS[EB/ OL].[2012-06-23].
[6]董克,等.基于主路径分析的HistCite结果改进研究[J].情报理论与实践,2011(3):113-116.
[7]董克,刘德洪.基于HITS与MPA算法结合的关键文献确定方法研究[J].图书情报工作,2011(3):77-82.
[8] Heery R.Review Of Metadata Formats[J].Program Electronic Library&Information Systems,1996(4):345-373.
[9] Younger JA.Resources Description in the Digital Age.[J]. Library Trends,1997,45.
[10]Desai,B C.Supporting Discovery in Virtual Libraries.[J]. Journal of the American Society for Information Science,1997(3):190-204.
[11]Vellucci,SL.Options for Organizing Electronic Resources:The CoexistenceofMetadata[J].Bulletin of the American Society for Information Science&Technology,1997 (1):14-17.
[12]Sutton Stuart A,Oh Sam G.GEM:Using Metadata to Enhance Internet Retrieval by K-12 Teachers[J].Bulletin of the American Society for Information Science&Technology,1997(1):21-24.
[13]Vellucci,SL.Metadata[J].Annual Review of Information Science and Technology,1998(33):187-222.
[14]Mohamed K A F.The impactofmetadata in web resources discovering[J].Online Information Review,2000(2):155-167.
[15] Farajpahlou A H,Tabatabai F.How are XML-based Marc 21 and Dublin Core records indexed and ranked by generalsearchenginesindynam iconlineenvironments?[J]. Aslib Proceedings,2011(6):586-592.
[16]Taheri SM,HaririN,Fattahi SR.Does discarding XML declarations and changing file extensions improve the indexability and visibility of metadata tag names in web search engines?[J].Journalof Information Science,2014 (40):796-805.
陶艳女,1980年生。硕士,助理馆员,研究方向:情报分析与信息计量。
董克男,1985年生。讲师,博士后。研究方向:信息计量与科学计量。
[分类号]G350
收稿日期:(2016-03-14;责编:王天泥。)