大数据背景下“战略性阅读”的支撑研究
——以HistCite引文分析为例
2014-07-13杜文龙冯现永
杜文龙,冯现永
(西安航空学院 图书馆,陕西 西安 710077)
一、对“战略性阅读”的解读
(一)科学研究模式的新变化
近年来,科学研究逐渐从“假设驱动”向“基于探索”模式转变。“假设驱动”可以描述为,科研人员首先提出一个科学假设,然后通过实验来验证这个假设是否成立,而“基于探索”模式可以表述为科研人员借助分析工具,通过对海量数据的深度分析能得到何种启发。因此“基于探索”的科研模式也可以称为“数据密集型”研究模式。
(二)“战略性阅读”的内涵
1.“战略性阅读”的由来
计算机和网络的出现使数据信息呈“爆炸式”增长,通信技术的革新以及基于P2P技术的网络应用逐步增多,用户拥有了信息利用者和提供者的双重身份,科技期刊的数字化使得科技论文的出版周期大大缩减,科学交流的新模式OA的出现使用户利用科技论文更加方便。置身于无处不在的数据环境,面对海量数据信息,科技期刊的数字化出版以及科学交流模式的新变化都使用户产生了如何对海量数据进行知识关联和深度分析以快速、准确、动态地把握一个学科或主题领域的发展脉络的“战略性阅读”需求。
2.“战略性阅读”的含义
在面对重大复杂问题和自主创新的挑战时,科研人员和科技决策者越来越依赖“战略性阅读”[1]来帮助他们理清某学科的发展轨迹及学科结构,某领域的研究热点、研究现状以及发展趋势,为他们进行项目选择和科技决策提供支持。传统阅读是针对某篇具体的文献,文献之间的关联无从揭示,而“战略性阅读”则是借助软件或工具,同时对多篇文献进行聚合、归类和图形化表达,能以知识地图的方式展示各文献之间的语义关联。“战略性阅读”通常不是为了解决某个具体问题,而是建立宏知识( Meta Knowledge)[2]。宏知识是更为重要、更高层次的需求,即以战略性的高度对科技发展进行宏观把握。
二、“战略性阅读”支持研究
为了支持“战略性阅读”,许多公司已经开发了多种工具,支持科研用户对海量数据的深度分析[3],例如Thomson Reuters的 HistCite,美国 Drex-el 大学的CiteSpace,Thomson 公司和ominiviz 公司合作开发的refviz等。本文以HistCite为例,以 “数字图书馆”主题领域为宏知识来源,展示如何运用专业分析工具来满足科研用户的“战略性阅读”需求。
(一)数据来源
本文以Web of Science平台中的SCI-EXPANDED, SSCI和A&HCI为来源数据库。检索式为:“TS=digital library”,时间跨度为所有年份,检索返回1542条数据,经过学科精炼,属于信息科学和图书馆学科的数据有535条。将文献记录的题录信息以“TXT”格式下载并另存,检索时间为2012年2月1日。
(二)研究结果与分析
1.数字图书馆研究文献的量化分析
(1)数字图书馆研究文献的时间分布。535条文献记录的时间分布如图1所示。
图1 数字图书馆研究文献的时间分布
从图1可以看出,在所采集的数据范围内,最早的数字图书馆研究论文出现在2002年,从2002年至2008年文献发表数量的变化表现为迂回式增长,从2003年起,文献发表量大幅增长,除了2004、2010和2011这三年之外,其他各年度的文献发表量都在55篇以上,并于2005和2008年出现了两次文献增长高峰时期,发文量分别高达81篇和68篇。由此可见,数字图书馆研究历程大致上可分为:初创(2002)、稳定发展(2003-2004)、蓬勃兴起(2005-2008)、衰落(2009-2011)四个阶段。
(2)数字图书馆研究文献的国家(地区)分布。通过国家(地区)分布图,可以获悉数字图书馆研究的活跃地区。535篇文献分布于世界上42个国家(地区),排名前12位的国家(地区)如表1所示。
表1 数字图书馆研究文献的国家(地区)分布(前12位)
由表1可以看出,美国是数字图书馆研究最为活跃的国家,发文量最多,达160篇,占世界文章总数的29.91%,大大超出其他国家;其次为UK,虽载文量远逊于美国,但是相对其他国家来说它的发文量很大,高达56篇,位居第二,百分比为10.46%;加拿大、澳大利亚、西班牙等国家和地区发文量比较接近,对数字图书馆研究有一定的影响力。而我国排名第11,载文量为9篇,所占比例仅1.68%,这在一定程度上反应了我国于该领域的研究在国际上的影响力还有待于提高。
(3)数字图书馆研究的重要作者分布。在HistCite主界面,可将这些文献记录按照作者、期刊、出版年等字段进行排序,这样就可以获悉数字图书馆研究领域的重要作者以及该领域的文章主要被刊载到哪些期刊上,如想了解该领域的核心作者,该软件提供三个指标可对作者字段进行排序,分别为Recs、TLCS和TGCS,Recs为作者发文量,TLCS为作者在当前数据库中总的被引频次,TGCS为作者在SCI-EXPANDED, SSCI和A&HCI来源数据库中总的被引频次。综合Recs和TLCS这两项指标,可以确定数字图书馆研究领域的重要作者,如表2所示。
表2 数字图书馆领域重要作者分布
2.数字图书馆研究文献的引文编年
HistCite主界面的Tools工具栏提供Graphs Maker功能,可以依据LCS或者GSC制图。利用LCS制图可以确定某领域的经典文献,为了优化可视化图谱,可利用count和value参数对节点的数量和最低阈值进行限制。节点过多会影响视图的显示效果,不易辨认经典文献,节点过少节点之间的引用和继承关系就不能很好地展现出来。笔者根据所下载数字图书馆领域文献记录的实际情况,将LCS的count数量限制为30,即形成后的图谱只显示被引频次(降序)在前30位条文献记录。LCS模式下count=30时生成的引文编年图如图2所示。
图2 数字图书馆研究文献的引文编年图
图2中每一个圆圈节点代表一篇文献,节点的大小与文献的被引频次成正比,节点越大,文献的被引频次越高。圆圈之间的连线表明节点之间存在引用关系,箭头所示方向为被引用的文献节点。图2中节点由上及下的空间顺序反映了文献发表的时间先后顺序,按文献发表的年份给文献赋予顺序号并排放在图中相应位置上[4]。通过引文编年图可以观察数字图书馆研究的历史渊源、文献之间的引用和继承关系以及数字图书馆研究的发展脉络。
图2中,2002年以前的没有相应的文献节点,说明了2002年以前国际上数字图书馆领域没有较高影响力的经典文献。
早期形成的经典文献有发表于2002年的节点7、6和13。文献7为Miller RG发表在《JOURNAL OF ACADEMIC LIBRARIANSHIP 》28卷第3期上的文章“Shaping digital library content”;文献6是Bates MJ发表在《INFORMATION PROCESSING & MANAGEMENT》38卷第3期的文章“The cascade of interactions in the digital library interface”。其中文献7主要讨论了数字图书馆的数字资源建设及数字资源管理方面的问题,作者提出在数字资源建设方面应该协调好自建与从数据库商购买的关系[5]。使得数字图书馆数字资源的建设和管理问题成为该领域的研究热点之一。文献6探讨了数字图书馆系统设计、信息检索系统设计、用户界面设计以及在线信息系统等相关问题[6]。在文章13中作者提出了“大众性数字图书馆”的概念。作者认为大众性数字图书馆提供了这样一种检索环境,即将基于数据库商提供的书目数据检索与基于互联网的搜索引擎式检索有机结合[7]。最后作者探讨了大众性数字图书馆的发展前景以及在实现用户信息期望方面所起的作用。由此可知,2002年形成的经典文献的研究侧重点为数字图书馆的数字资源建设、系统设计、检索机制、用户界面设计等方面。
2003年出现的比较大的文献节点有36,54,30和35,其中文献54和35对后续的研究有较深远的影响,文章54为Tuominen, K等的文章“Multiperspective digital libraries: The implications of constructionism for the development of digital libraries”,该文章在Web of Science中被引频次达17次。作者首先强调了数字图书馆信息检索系统的设计理念和理论工作的重要性。此后作者在社会知识传递和社会知识生产两种视角下探讨了数字图书馆的知识组织方式和原则、数字图书馆的知识结构等问题。文章35为Kassim, ARC和Kochtanek, TR发表在期刊《Online Information Review》上的文章“Designing, implementing, and evaluating an educational digital library resource”,该文侧重于教育型数字图书馆的设计以及教育型数字图书馆的资源评价体系研究。作者设计了教育类数字资源基于用户的5个评价指标,分别为集体评论、网络日志分析、数据库事务日志、网络调查和可用性评估。这就使得数字图书馆数字资源的评价机制研究成为一个比较热门的主题。
由于越来越多的经典文献逐年形成,数字图书馆研究从2005年开始进入了兴盛时期。体现为从2005年开始,关于数字图书馆方面的论文剧增,从2004年的43篇增至2005年的81篇,文献之间的联系也更加紧密,而且研究的主题更加宽泛,增加了对数据库管理系统、数据处理、用户群体研究、可用性评价等方面的研究。
三、结语
本文主要探讨了如何用专业的数据分析软件来帮助用户实现“战略性阅读”的愿景,本文的分析工具为引文编年图软件HistCite,以“数字图书馆”为例,用户可以通过HistCite对该领域的题录数据做更深层次的分析。通过“战略性阅读”,用户可以不必阅读每一篇文献就可以获得数字图书馆领域的相关宏知识,比如用户可以快速锁定数字图书馆领域的经典文献、重要的科学家和研究活跃地带。
利用HistCite绘制的引文编年图是从时间上反映某领域历年来重要文献的引用和继承关系,节点之间的共被引关系以及联系程度的强弱无从体现, 但是HistCite在考察一个学科或者主题的历史渊源、继承关系以及发展的主要路径方面有着独特的优势。笔者认为如果将HistCite、Refviz和CiteSpace等分析工具结合起来,集各工具之所长,可以克服各个工具自身的缺陷,也能更好地满足用户对海量科研数据的可视化分析,最大程度地满足用户的“战略性阅读”的需求。
随着e-science机制的形成,科学研究逐渐从“假设式导向”模式向“数据密集式”模式转变,科研人员为了提高科研的效率和产出,更趋向于 “战略性阅读”来帮助他们理清研究思路和进行项目规划。“战略性阅读”的适用范围不仅仅是科研人员,普通的图书馆用户以及政府决策人员都应该通过“战略性阅读”来更好地扩充自身的宏知识。
[1] A H Renear,C L Palmer.Strategic Reading,Ontologies,and the Future of Scientific Publishing[J]. Science,2009,325( 5942):828-832.
[2] J A Evans,J G Foster. Metaknowledge[J].Science,2011,331( 6018):721-725.
[3] 张晓林.颠覆数字图书馆的大趋势[J].中国图书馆学报,2011(9):4-12.
[4] 张国海. 电子政务研究文献的量化可视分析[J].情报杂志,2011(6):82-86.
[5] Miller,RG.Shaping digital library content[J].Journal of Academic Librarianship,2002(3):97-103.
[6] Bates MJ.The cascade of interactions in the digital library interface[J].Information Processing & Managemnet ,2002 (3):381-400.
[7] Wolfram D,Xie HI. Traditional IR for web users: a context for general audience digital libraries RID A-2449-2008[J]. Information Processing & Managemnet 2002(5):627-648.