APP下载

美国图书情报学专业TOP高校2006-2011年研究热点聚类分析

2013-09-26

图书情报研究 2013年3期
关键词:产生分析

谢 萍 郑 莎

(1.江苏大学图书馆 镇江 212013; 2.江苏大学科技信息研究所 镇江 212013)

·情报分析·

美国图书情报学专业TOP高校2006-2011年研究热点聚类分析

谢 萍1郑 莎2

(1.江苏大学图书馆 镇江 212013; 2.江苏大学科技信息研究所 镇江 212013)

以《美国新闻和世界报导》2012年公布的美国大学图书情报专业排名前20的高校在2006-2011年间发表的SSCI收录文章为数据源,借助BIBEXCEL提取关键词构建相异矩阵,利用SPSS聚类分析,采用平方欧氏距离方法,通过树状图聚类分析,查看研究热点。

图书情报专业 美国高校 BIBEXCEL SPSS

1 引言

作者先后在美国3所高校——威斯康辛大学(麦迪逊分校)、堪萨斯大学和密西西比州立大学生活和学习长达10年之久,十分了解这三所美国高校的图书情报专业的概况和图书馆的设施、管理、运作等情况。从中感受到世界上每个科学领域都在迅速地变化和不停地更新,新的研究课题不断涌现,并不断成为该领域的研究热点和前沿方向。比如说图书情报学随着信息技术和网络的发展不断向多个全新的领域延伸。现以美国最有影响力的机构《美国新闻和世界报导》(US News & World Report)在2012年公布的“美国大学图书情报专业研究生排名”为基础,选取排名前20*注:网站上实际公布的有45所大学,本文仅选取排名前20的大学。的美国高校,检索这些高校2006-2011年图书情报学专业的文章被SSCI收录的情况,利用分析软件BIBEXCEL提取关键词(SSCI部分收录文章关键词,但仍然具有一定代表性同时删除无意义的词)、构建相异矩阵;再使用SPSS软件对关键词矩阵进行层次聚类分析,从得到的树状图和柱状图分析聚类情况,以期查看美国图书情报专业TOP高校在2006-2011年这段时间内的研究热点及发展趋势。

2 数据采集

笔者于2012年4月10日访问《美国新闻和世界报导》的官方网站(http://www.usnews.com/)获取了“美国大学图书情报专业研究生排名”,并对学校名称进行了翻译,如表1所示。

表1 2012 年美国大学图书情报专业研究生排名[1]

所有数据来源于美国科学情报研究所(Institute for Scientific Information,简称ISI)创建的检索工具web of science之一SSCI(《社会科学引文索引》数据库)。 检索条件如下:((SU=INFORMATION SCIENCE LIBRARY SCIENCE) AND (AD=( UNIV ILLINOIS OR UNIV N CAROLINA OR SYRACUSE UNIV OR UNIV WASHINGTON OR UNIV MICHIGAN OR RUTGERS STATE UNIV OR INDIANA UNIV OR UNIV TEXAS AUSTIN OR DREXEL UNIV OR SIMMONS COLLEGE OR UNIV MARYLAND OR UNIV PITTSBURGH OR UNIV WISCONSIN OR FLORIDA STATE UNIV OR UNIV CALIF LOS ANGELES OR UNIV WISCONSIN——MILWAUKEE OR UNIV N TEXAS OR UNIV SOUTH CAROLINA COLUMBIA OR UNIV TENNESSEE OR KENT STATE UNIVERSITY OR WAYNE STATE UNIVERSITY) ) AND出版类型=(Article),时间限制在2006-2011年,得到1 964篇文献。

3 BIBEXCEL关键词及相异矩阵

首先使用EXCEL对文章统一不同词型、单复数词和缩写词为一种常用形式,将关键词规范化,例如library和libraries,e-journals 和electronic journals,model 和 modeling,electronic commerce 和 e- commerce等。

BIBEXCEL的操作步骤:

①将SSCI检索到的文章保存形式*.txt文件转换成Bib excel可以接受的dialog格式,产生 *.doc文件;

② 对*.doc文件进行关键词分析,产生*.out文件;

③再对*.out文件排序和去除重复WORDS,进而产生了*.cit和*.oux文件;

*.cit文件得到了关键词3 833个,取关键词次数大于10,总计20个,见表2。

表2 2006-2011 年高频关键词

④ 分析*.cit和*.oux文件,产生共现文件*.coc

⑤ *.coc 分析得到*.ccc

⑥利用*.coc 和*.ccc,得到共现矩阵,为了消除频次悬殊造成的影响,用ochiia 系数将共现矩阵转换成为相似矩阵,方法是将共现矩阵中的每个数都除以与之相关的两个关键词总频次开方的乘积,公式如下:

对上面的共现矩阵转换后,矩阵中两个词的对角线上的数据表示某个词与自身的相似程度,按上述公式计算后均为1,从而得到相关矩阵。相关矩阵中的数字表明的是数据间的相似性,数字的大小表明了相应两个关键词之间的距离远近,数值越大则表明关键词之间的距离越近,相似度越大; 反之,相似度越小。再用1 减去相关矩阵中的数据,就可以得到相异矩阵[2],见图1。

图1 2006-2011相异矩阵

由表2可见,图书情报专业排名前20的美国高校2006-2011年所发表论文的关键词3 833个,信息检索、知识管理、数字图书馆、信息技术、电子商务、情报学、外包、引用分析、用户研究等是这些高校的主要研究领域,关键词的线性排列结果无法反应主题研究的全貌,需要构建共现矩阵进一步分析,对高频关键词两两配对,构成矩阵,而表3相异矩阵中,从数值来看,越小的关系越密切,反映这些词所代表的主题内容的结构,以user study这一列为例,其中用户研究和数字图书馆关系最密切,其值0.845507;关系较疏的是用户研究和知识管理,其值0.937983。

4 SPSS层次聚类分析

采用IBM SPSS STATISTICS VERSION 19对高频关键词两两配对的连接强度进行分层次聚类分析。层次聚类分析过程:首先,每个个体自成一类;然后,按照某种方法度量所有个体间的“亲疏程度”,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来再次度量剩余个体和小类间的“亲疏程度”并将当前最亲密的个体或小类再聚到一起,形成一个最大的类为止。亲疏程度的测量方法有几种,本文采用“平方欧氏距离 Squared Euclidean Distance”,其定义为两个体k个变量值之差的平方和,数学定义为

其中个体xi是x的第i个变量,个体yi是y的第i个变量[3];

步骤如下:数值-analyze -classify -hierarchical cluster

聚类分析结果见图2。

图2 2006-2011年组间平方欧氏距离-聚类分析树状图

根据聚类分析树状图在阈值25处把这些高频词分成6个类团组:类团①情报学及信息检索,主要关键词有information retrieval、 information science;类团②图书馆及用户研究,主要关键词有libraries、user studies、united state of American、digital libraries、 Academic libraries;类团③信息系统和知识管理,主要关键词有knowledge management、information systems;类团④信息处理,主要关键词有internet、Public libraries、computer-mediated communication(CMC)、electronic commerce、social networks、trust;类团⑤引文分析,主要关键词有citation analysis;类团⑥信息技术的革新及外包,主要关键词有information technology、innovation 、outsourcing。

5 美国TOP高校图书情报专业六大类团研究分析

5.1 情报学及信息检索

情报学是一门不断发展的多元化学科,随着信息技术的发展和知识经济的兴起,情报学的研究对象从文献转向信息、转向知识,计量分析方法和手段也由定性到定量、由单一向多样化发展,比如共词分析、图谱分析、信息可视化等综合方法,以及大量的统计分析软件(例如Cite space、BIBEXCEL、SPSS)的使用。随着人类社会向信息社会的演进,情报学的社会重要性日益增加,其作用与研究成果会成为信息化社会的强大支柱之一。信息检索随着计算机技术的不断发展和应用成为情报学重要领域,因特网又为我们获得信息提供了便利的条件和可能性,计算机和网络的结合,完全有效地打破了传统的信息检索的区域性和局限性,用户可以足不出户就轻松获得所需要的信息,而且目前信息呈现了图文并茂,有声有色,多种多样的形式,这使得信息检索一直为人们所热衷。信息检索先后经历了脱机信息检索、联机信息检索、光盘信息检索、网络化信息检索等四个发展阶段,检索的对象也已从相对封闭、独立的数据库集中管理的信息内容逐渐扩展到如今开放式的、动态的、更新快、分布广泛、管理松散的网络内容,但是它依然存在着许多问题,科研人员一直致力于研究和攻克这些难题,比如准确率或查准率、标引规范化、自动分类、概念语义空间、建立基于本体的信息检索模型等。这些是今后信息检索领域继续的研究方向,信息检索会由今天的个性化、人性化和智能化的方向再进一步向前成熟发展,以用户为中心,充分利用公共资源和日志资源,融入来自多学科各领域的技术和研究人员,会让今后的信息检索的研究更加丰富多彩,真正实现用户轻松容易地进行网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体检索、动态连接、数据挖掘等操作。

5.2 图书馆及用户研究

近十年来,用户研究已成为图书情报学的研究热点之一。随着信息技术和网络技术的飞速发展,图书馆面临的技术条件和社会环境发生了很大的变化,用户研究和数字图书馆成为研究热点。用户研究主要是以用户为中心,为了使图书馆对用户做出更人性化、更细致入微的服务而展开的研究,即积极用户体验,包括用户需求、用户心理、用户满意度、用户服务等方面的研究。用户影响着图书馆的全部活动,也影响着图书馆的整体建设,用户的需求状态直接制约着图书馆的服务策略、管理模式等,因此,用户研究为该领域学者所重视,例如宾州州立大学的Spink对将近2万个用户的查询行为进行了研究。这十年期间的转变主要有几点:用户群越来越平等获取信息;文献信息管理到知识管理的转变;从馆员服务到用户自助服务的转变;馆员能力到用户能力的转变。从纸质到数字化业务的发展是21 世纪图书馆的重点,数字图书馆一经提出便得到广泛的关注,各国纷纷对其概念、技术、应用、管理及评价等进行研究,例如罗格斯大学的Saracevic 的文章《数字图书馆评估:概念的发展过程》对数字图书馆评价的概念框架提出了一系列建议:我们应该怎么评价?我们评估的目的是什么?谁应该评估?我们在什么水平评估?当我们评估标准是什么?同时加州大学洛杉矶分校的Borgman教授在文章《数字图书馆和学术交流的连续性》中探讨了学术交流与数字图书馆,一个相对较新的研究领域之间的关系,他谈到了学术团体,出版商和图书馆的关系。国外的主要图书馆已经开始着手规划和实施利用"云技术"进行数字资源长期保存的问题,用户研究也以资源为中心向以用户为中心转移。图书馆未来的发展,应该以用户为中心,应用新技术使读者更加方便参与图书馆互动,为用户提供最佳服务,将读者吸引回到图书馆的空间;而未来数字图书馆的建设,应形成以用户为中心、以信息门户为统一界面、以个性化服务、集成检索服务、参考链接服务、数字参考咨询和学科信息门户五种服务方式为主体、以多种信息资源的综合利用为目的服务主导型数字图书馆的结构模式。

5.3 信息系统和知识管理

信息系统是一系列相互关联的可以收集、操作与存储、传播数据和信息,并提供反馈机制以实现其目标的元素或组成部分的集合,通常包括事务处理系统、管理信息系统、决策支持系统和人工智能与专家系统。纵观信息系统发展,从"计算机"到"网络"再到现在对"内容"和"智能"的呼唤,系统结构不断重组,而信息系统的重心,也会从技术向人性发展开来。随着人们对计算机系统智能化、网络化的要求越来越高,信息挖掘和重组备受关注,信息系统运行的安全性、可靠性、精确性面临着挑战。

知识管理是以知识资源和知识作为管理对象,研究知识的创造、获取、加工、存储、传播和应用等,形成绵延不断的知识创新、积累与有效利用的良性循环系统。在多学科背景下的有效的知识管理,必须建立在理解知识本身的动态特性的基础上,正如罗格斯大学的McInerney 教授在《知识管理和知识的动态本质》一文中的研究。到目前为止,知识管理的理论、应用以及技术的研究内容比较丰富,并且与图书馆和知识经济相关的知识管理的研究非常活跃。知识管理是图书馆管理的新内容和新模式,以科学研究为先导的知识创新和以信息化为载体的管理创新,相互支撑,互为动力,构成了当代图书馆的新形态。知识的大众化、网络化、移动化、个性化、社会化发展,传播数度加快,形成了知识无处不在的巨大知识库,而知识管理也将对显性知识的进行组织管理,促使其传播和有效利用,转化为人们的内在能力,以及充分利用信息技术挖掘隐性知识,促使其向显性转化和交流,以实现知识共享,并协调管理显性知识和隐性知识相互作用、相互转化的过程,实现知识应用与创新。随着信息、技术与知识越来越密切的结合,也会形成集信息系统的信息搜索、信息处理、数据挖掘功能于一体的知识管理系统。

5.4 信息处理

随着计算机和因特网快速发展和应用到图书情报领域,很多交叉学科和领域产生了,CMC(computer-mediated communication)和electronic commerce成为信息处理的一种关键技术和手段。CMC在美国的众多高校中属于"社会、社区和组织情报学"专业的内容,它是以计算机为媒介的交流方式,研究的重点主要是不同的网络通信技术对社会的影响,比如伊利诺伊大学的Walsh教授《计算机辅助交流和科研工作思维交流》就总结了CMC四个方面的使用情况。随着个人计算机和互联网的普及,CMC已经越来越广泛地应用于学校远程教育中,改变着人们学习和交流的方式。electronic commerce一般属于"以奖励为中心的设计"专业的内容[4],它是以计算机技术为基础,以网络技术和数据库为依托的信息技术,通过INTRENET寻找信息流等活动,这种交叉学科的应用贯穿了这十年,但主要是在后期发展壮大成熟起来的,研究内容主要集中在电子商务的信用、安全、在线信息服务等方面。虽然当前电子商务在信息安全性、交易体制、法规建设等方面还存在弊端,但由于美国政府对电子商务的格外重视,加强政府部门宏观规划和指导,制定良好的政策和法规,使得电子商务从"技术实现"阶段进入"技术开放和普及"阶段。

5.5 引文分析

引文分析是利用各种数学、统计学以及逻辑方法,对科技期刊、论文、著作等各种分析对象的引用或被引用现象进行分析研究,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势的目的[5]。图书情报领域的研究从馆际互借和电子期刊的研究逐渐过渡到对引文分析的领域,不仅对来源文献进行分析,更多的从事引用文献的分析,分析的对象有作者、期刊、关键词、机构以至于国家地区等,比如德雷塞尔大学的White教授的论文《可视化一个学科:1972-1995年情报学作者共引分析》对12个重点期刊作者共引进行分析;印第安那大学的Cronin 在《身份创立和图片制造者:采用引文分析和深度描述来定位作者的位置》一文里描述了作者引用和被引用情况。信息化环境下催生的知识经济驱动、计算机科学统计软件的引进以及各大数据库商所进行的web统计分析促使引文分析在该领域内稳定的发展,并出现了知识图谱、链接分析等新的增长点,新的核心理论创新研究将会成为引文分析的研究前沿。

5.6 信息技术的革新及外包

近些年来,信息技术发展非常迅速,虚拟技术、嵌入技术广泛应用,计算机集群技术成为主流,云计算提上日程。对虚拟团队的合作及企事业的资源规划、方法、研究等逐渐降温,替代他们的是"外包"策略。信息技术外包,是指将企业信息的处理和操作职能部分地或全部地承包给外部专业供应商,由计算机网络和信息技术、人力资源三方面相结合以完成任务。外包是一种新的战略管理模型,能够控制经营成本,减少非核心业务投资,降低风险,例如伊利诺伊大学的Blecic教授在《卫生科学图书馆的资源建设和外包:当前实践的调查》一文中对在美国和加拿大进行了调查,收集图书馆发展趋势,包括图书馆调查使用的外包情况,一些图书馆报告外包编目和编写的书籍,得出经济因素是推动双方收集的发展和外包做法的主要动力。美国高校有关信息技术外包的理论和实践已经较为成熟,一般涉及信息技术设备的引进和维护、通信网络的管理、数据中心的运作、信息系统的开发和维护、备份和灾难恢复、信息技术培训等,信息技术外包的动因及风险研究是研究的重要领域,多元化的外包模式、网络化的外包组织关系以及跨国家地域的全球化外包趋势将成为信息技术外包的研究热点。

6 结论

通过对美国图书情报专业TOP高校2006-2011年被SSCI收录的文章提取关键词,采用层次聚类分析,通过分析得出这些高校研究的领域主要集中在几个方面:(1)信息检索;(2)图书馆及用户研究;(3) 信息系统和知识管理;(4)信息处理;(5)引文分析;(6) 信息技术的革新及外包。由于《美国新闻和世界报导》公布的美国大学图书情报专业排名前20的这些高校是图书情报专业的风向标,因此,我们通过分析这些高校在2006-2011年这段时间内的研究热点,可以看出近几年图书情报领域的科研方向和趋势,为我们进一步了解该领域的研究动态以及进行科学研究提供了一些线索。

[1] Grad School Rankings:Library and Information Studies.[EB/OL].[2012-04-10].http://grad-schools.usnews.rankingsandreviews.com/best-graduate-schools/top-library-information-science-programs/library-information-science-rankings.

[2] 曹 玲,杨 静,夏 严.国内竞争情报领域研究论文的共词聚类分析[J].情报科学,2010,28(6):923-926.

[3] 薛 薇.基于SPSS的数据分析[M].第二版.北京:中国人民大学出版社,2006:295-301.

[4] 陈 琦.图书馆专业发展.[2007-6-28].http://lib.nwsuaf.edu.cn/old/txt/图书馆专业发展.ppt.

[5] 庞景安.科学计量研究方法论[M].北京:科学技术文献出版社,2002:216-217.

(责任编校 田丽丽)

ClusteringAnalysisoftheHotResearchTopicsinLibraryandInformationScienceoftheTop20AmericanUniversitiesinthe2006-2011Period

Xie Ping1,Zheng Sha2

1.Library of Jiangsu University,Zhenjiang 212013,China; 2.Institute of Science and Technology Information of Jiangsu University, Zhenjiang 212013,China

This article takes as its data source the SSCI articles of the researchers from the top 20 American universities in library and information studies issued by US News & World Report in 2012,uses the BIBEXCEL software to extract key words to construct a dissimilarity matrix and employs the SPSS hierarchical clustering analysis and the “Squared Euclidean Distance” method to analyze the hot research topics via tree diagram analysis.

library and information studies; American university; BIBEXCEL; SPSS

G250

谢 萍,女,1967年生,馆员,发表论文2篇;郑 莎,女,1988年生,2011级情报学硕士研究生。

猜你喜欢

产生分析
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
论分镜头脚本在动画短片创作中的应用
沥青路面摊铺离析的产生与控制
电力系统及其自动化发展趋势分析
当代城市综合管理形成的背景分析
浅析对欧洲中世纪大学学位制度的认识
浅析盈余管理产生的原因
研究生学术不端行为产生原因及预防措施
中西医结合治疗抑郁症100例分析