APP下载

大数据时代我国文献计量应用研究现状及服务实践策略研究

2015-02-12朱锁玲唐惠燕陈蓉蓉南京农业大学图书馆南京210095

图书馆理论与实践 2015年12期
关键词:文献计量信息服务高校图书馆

●朱锁玲,唐惠燕,倪 峰,陈蓉蓉,施 文(南京农业大学图书馆,南京 210095)

大数据时代我国文献计量应用研究现状及服务实践策略研究

●朱锁玲,唐惠燕△,倪峰,陈蓉蓉,施文
(南京农业大学图书馆,南京210095)

[关键词]文献计量;应用研究;高校图书馆;信息服务;大数据

[摘要]从研究主体、研究对象、研究内容、研究方法等方面对大数据时代以来我国文献计量应用研究的发展现状进行系统梳理及问题剖析;在此基础上,以理论成果为支撑,将文献计量应用研究的理论成果和高校图书馆的业务实践相结合,提出大数据时代高校图书馆面向学科发展和科研决策开展文献计量服务实践的对策。

自2008年大数据概念出现以来,学者们借助大型分析型数据库及文献计量分析方法,广泛开展了各学科领域的文献计量应用研究,产生了大批理论研究成果。与此同时,大数据时代的到来也给高校图书馆的发展带来了挑战和机遇。如何基于海量数据,借助信息分析方法,面向学科发展和科研决策开展相关信息服务,成为高校图书馆界共同关注的话题。本文以理论成果为支撑,拟通过对现有文献计量应用研究的理论成果进行梳理及分析,将文献计量应用研究的理论成果和高校图书馆的业务实践相结合,提出高校图书馆开展文献计量服务实践的策略,旨在为文献计量应用研究的发展,为大数据时代高校图书馆服务转型提供参考和借鉴。

1文献计量应用研究的现状

1.1研究主体

(1)高校图书情报专业相关科研人员。如北京大学信息管理系、武汉大学信息资源研究中心、南京大学信息管理系等科研人员。他们基于大型分析型数据库对相关科学领域的科研论文进行文献计量分析,力求在计量分析方法及分析结果的可视化展示技术上不断突破。

(2)高校图书馆、科研图书馆及科研院所文献信息中心等科研人员。如上海交通大学图书馆、中科院国家科学图书馆、中国农业科学院信息研究所等机构研究人员。他们基于SCI、ESI等数据库开展相关学科领域或研究分支的发展态势分析。近年来,这类研究人员开展文献计量应用研究的理论成果越来越多,其研究涉及的学科领域越来越广,研究分支越来越细,他们是文献计量应用研究的生力军。

(3)高校及科研院所从事相关学科专业研究的科研人员。如山东省果树研究所、中国农业科学院农业经济与发展研究所和国家大豆产业技术研发中心等研究人员。他们在科研工作相关信息需求驱动下,通过对大型分析型数据库的学习和应用,在完成其科研项目的同时,也间接地推动了文献计量学在多学科领域的应用研究。

1.2研究对象

目前我国已有的文献计量应用研究中,多数是基于大型分析型数据库对机构和学科领域的科研论文进行的文献计量分析,对专利的计量分析相对较少。在大量针对科研论文进行的文献计量应用研究中,主要分为两个层面。

(1)机构层面。其中,既有对国家或地区所有机构发文的文献计量研究;[1-2]也有对国家或地区某一类机构发文的计量分析,其中以高校居多。[3]就高校这一类机构中,有学者对不同类型高校进行了科研论文产出的文献计量研究,如纺织类、海洋类、农业类等;也有对具体某一高校科研论文产出的计量研究。[4]

(2)学科层面。其中,既有对国家或机构所有学科领域发文情况的文献计量分析研究,如基于SCI论文的统计分析,对中国科学的整体发展水平和学科结构进行的思考与分析;[1]也有专门针对某一学科领域发文情况的文献计量分析,包括对全球工程科学、环境科学、药学、毒理学、计算机科学等学科的计量研究,对我国生物信息学、药学、数学、化学、食品科学等学科的计量研究,对我国某机构具体某一学科的文献计量研究,如对中国农业大学植物与动物科学学科的分析等;还有对学科内某一分支领域的文献计量研究,如对干细胞、视网膜脱离、水稻、大豆、脑膜炎等专题研究发展态势的文献计量分析。

1.3研究内容

(1)科研生产力计量。科研生产力的计量主要以对发文量的统计为代表,少量涉及专利成果的统计。发文量是指某国家、机构、期刊等在统计期间发表的全部科技论文数,代表产出水平。几乎所有已开展的文献计量应用研究都涉及对以发文量为代表的科研生产力的计量,其中包括国家、地区、研究机构、科学家、刊载期刊、分布学科等各项论文总量的对比分析。

(2)科研影响力计量。科研影响力的计量主要以对科技论文被引频次的统计为代表。被引频次是文献计量学中被用来测度学术论文社会显示度和学术影响力的重要指标,包括被引总频次、篇均被引频次等。被引总频次是指某国家、机构、期刊等在统计期间发表的全部科技论文被引用的总次数。篇均被引频次是指在统计期间某国家、机构、期刊等每篇科技论文平均被引用的次数。在现有的文献计量应用研究中,多数均涉及国家、地区、研究机构、机构内重点实验室、科学家等科研实体的科研影响力对比分析。

(3)科研卓越性计量。科研卓越性的计量主要以对机构或科学家的H指数的统计为代表。H指数,是一个混合量化指标,用以评价科研人员个人的研究绩效。一个科学家的H指数是指在一定期间内他发表的N篇论文中有H篇论文每篇至少被引用了H次,而其余论文每篇至多被引用了H次。现有的文献计量应用研究中,有不少学者利用文献计量学的方法对理科学者、文科学者、企业专利权人等各类科研人员的H指数进行了实证研究。[5-7]近年来,随着学者们对H指数的日益关注,他们针对H指数的缺陷进行了多次修正和改进,提出了诸如g指数、R指数、P指数等各种衍生指数,并开展了相关实证研究,[8]这些研究都不同程度推进了文献计量学的理论研究,并对实际应用具有深刻的指导意义。

(4)科研合作分析。尽管学者们已经认识到从合著论文的角度去考察科研合作行为具有一定的局限性,但鉴于利用合著来研究科研合作的方法具有更直接、可量化、较经济等优势,利用合著研究合作仍然是目前最为通用和实用的一种方法。[9]所以,不少学者选择了通过文献计量方法,从对科研合著的统计分析中研究各个层面的科研合作。有的从某一学科入手,分析该学科领域国际、国内的科研合作情况;[10]有的则着眼于所有学科领域,分析不同国家、不同机构之间的科研合作情况,如中/印国际科学合作比较研究、我国校企科研合作研究。[11]

(5)学科发展态势分析。利用文献计量学的方法,从学科层面对国家/机构的科研论文进行统计,分析其学科结构和特征,可了解国家、机构的整体学科发展水平,分析其学科发展态势,掌握本国、本机构的学科发展优势和潜势,能够为合理制定学科发展政策提供决策参考。现有文献计量应用研究中,既有对国家整体学科水平和结构的分析,如通过对亚洲和西方国家在学科领域的活跃性和影响力比较研究,发现亚洲国家的化学、物理、材料科学和工程等四个学科领域占据本国科学研究的主导地位;[12]也有对具体某个机构的学科发展优势的分析,如对中国农业大学的潜势学科的分析与预测。[13]

(6)学科热点与前沿分析。及时了解本学科的发展前沿和研究热点,能够较好地帮助科研工作者开展科学研究。目前,已有不同学科领域的研究者基于文献计量,借助引文分析、共现分析、社会网络分析等方法以及CiteSpace、Ucinet等相关软件,通过绘制知识图谱揭示学科及分支领域的演化过程、研究热点和前沿发展趋势。如通过对高影响力作者、高频关键词以及突变专业术语的计量分析,实现对国际范围内图书情报学领域的研究热点和前沿进行辨识和追踪等。

1.4研究方法

文献计量应用研究中研究者们以信息分析为基础,在不同阶段综合运用多种数据处理及分析方法、工具实现对科研论文的计量研究,主要包括以下几方面。

(1)数据采集与清洗阶段。数据是文献计量的基础,决定了分析结果的客观性和准确性。这一阶段最重要的是对数据进行清洗与归并。已有的应用研究理论成果中,学者们对数据清洗工作的重视程度不同,有的几乎不作介绍,有的仅作简单介绍,仅少数研究对数据清洗工作十分重视,专门探讨文献计量应用研究中的数据清洗和去重工作。如董琳提出对文献进行一级学科分类和二级学科分类的方法建议,并归纳了文献中国家和机构名称标注混乱的原因,从而制作了国家名称叙词表和若干机构名称叙词表。[14]张晋辉设计了一种基于推理机的SCI地址字段数据清洗方法。[15]闫雪等通过总结“脏数据”的主要类型,并利用基于Excel或ACCESS的VBA编程,实现了对中文期刊论文的半自动数据清洗。[16]

(2)数据统计与分析阶段。这一阶段,学者们主要基于文献计量学方法,即以文献体系和文献计量特征为研究对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,进而探讨科学技术的某些结构、特征和规律。如通过文献作者聚类分析,发现学科领域的前沿代表作者;通过文献共被引分析,发现科学研究演进过程中的经典文献(又称知识基础);通过关键词聚类分析,挖掘学科领域的研究热点;通过突现词检测分析,分析学科领域的研究前沿。[17]除文献计量学方法外,在分析学科优势、科研合作等方面,定标比超、社会网络分析等方法也常被学者们广泛应用。定标比超是竞争情报分析常用的方法之一。文献计量应用研究中,通过定标比超能为国家、机构了解其自身科研状况在同行中的位置、合理制定科研决策提供参考。社会网络分析,就是对社会网络中行为者之间的关系进行量化研究。社会网络分析方法应用于文献计量应用研究时,即把文献中所包含的各字段之间的关系看作一个知识网络,利用社会网络分析法中的权力指数、点出度与特征向量中心性、共词网络分析、合著网络分析等,实现对科技文献与期刊、学科研究热点、科研合作情况、学科交叉程度等进行科学评价。[18]

(3)数据分析结果的展示阶段。数据可视化是指将大型数据以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。随着数据可视化技术快速发展,学者们纷纷尝试将各种可视化技术运用于文献计量应用研究。如,通过雷达图展示研究论文的主要学科分布,[19]通过学科交叉图辅助分析国家科技计划资助宏观学科领域情况,[20]通过知识图谱分析学科领域的知识基础、研究主体、研究热点与前沿等。[21]另外,有学者还从空间展现模式和平台两方面分析了文献计量指标GIS空间展现的可行性。[22]

2文献计量应用研究存在的问题

2.1参与人员多,但交流合作少

大数据时代,文献计量应用研究因其颇具理论和实践意义赢得各类研究人员的关注和参与。他们有各自不同的优势,关注的侧重点也有所不同。图书情报专业的科研人员拥有专业的图情知识和科研技能,重在探索文献计量学相关计量指标和工具的科学性,并通过实证研究不断提出改进意见;图书馆等信息服务部门人员具有丰富的数据库资源和服务技能,重在探索文献计量学的社会效用,试图通过文献计量应用研究探索信息服务工作的新模式;学科领域科研人员和科研、人才管理部门的行政人员,他们虽缺乏图情知识和数据资源,但他们有专业的学科背景知识,有强烈的信息需求作为其研究动机,希望借助文献计量的应用研究了解学科发展态势、掌握人才发展现状。

文献计量应用研究是一门涉及多学科、多领域的实践应用型研究,不仅需要大量全面、可靠的数据资源作为研究基础,更需要专业的图情知识和数据分析、处理技能作为文献计量分析的科学保障,同样也依赖专业的学科背景知识作为相关学科内容分析的理论支撑。上述各类研究人员理应相互学习、交流与合作,取长补短,才能达到理想的研究效果,但实际情况并不乐观。从理论成果的文献作者来看,多数均为某一领域的研究人员独立或合作完成,仅有少数研究是由不同领域的研究人员共同完成,研究群体间普遍缺乏交流与合作,从而导致研究论文存在数据处理不够科学、计量方法有失公正、相关学科内容分析较为浅显等现象。

2.2文献来源有所拓宽,但用于科研评价不够全面和客观

从科技论文到专利成果,现有的文献计量应用研究中,其文献来源虽有所拓宽,但仍不足以全面、客观地对机构、科学家进行科研评价。之所以不全面,是因为科学家的研究成果不仅仅体现在科技论文、专利成果中,还体现在专著、研究报告中。而且,随着开放存取环境的发展,研究人员的网络发表也已成为其成果公布的重要一面,科研成果的网络影响力也是科研评价的重要指标,仅仅通过对数据库中论文和专利的计量来进行科研评价,显然不够全面。之所以不客观,则是因为基于大型分析型数据库开展文献计量这种定量评价方法并不适用于所有学科的科研评价。如SCI、EI、ESI等大型分析性数据库对人文社科文献的收录有限,而且论文、专利、专著、报告等成果在理工科和人文社科的地位也不同。更何况基于文献计量的定量评价,其相关评价指标本身就缺乏一定的科学性和公正性,如发文量、引文量、H指数等计量指标只对从事科研时间较长的学者有优势,用在统一的科研评价中确实存在缺陷。故同行评议、分类评价、第三方评价、代表作制度等方法一直被呼吁作为深化科研评价体系改革的建议。

2.3应用领域广,但框架重复多

文献计量应用研究因受到不同领域的研究者越来越多的关注,其产生的研究成果也就越来越多。尽管这些研究成果分散在图书情报类、科技管理类、生物医学类、工程类等各类期刊上,但通过阅读大量文献并进行比照不难发现,现有的相关研究虽然其应用涉及的学科领域不同,但其研究框架颇为相似。多数是首先介绍研究方法和数据来源,然后重点分析该领域影响力较高的国家、地区、科研机构、重点期刊、核心作者、发表论文,再基于ESI总结学科领域研究的前沿和热点。在计量分析过程中,学者们常常借助大篇幅图表数据作相关定量分析,学科领域的科研人员能够从中获取的信息较为宽泛,缺乏适当的结合学科内容的定性分析。

2.4分析数据量大,但清洗工作少

对于统计分析而言,数据来源的可靠性和科学性至关重要,因为数据是基础,决定了分析结果的客观性和准确性。文献计量应用研究需要依赖大量的文献数据作分析基础,数据采集和清洗过程中的每个步骤都非常关键,如关键词和检索策略的制定、数据的去重与合并等。然而实际研究中,学者们对数据清洗工作的重视普遍不够。研究论文中对数据处理方法多数是简单介绍,而且从其简单介绍中不难看出,其数据处理主要依靠人工判别,机器辅助实现的较少;有些因数据不够精确(如文献地址未能精确到所在详细机构和重点实验室)的论文直接不归入统计范围;又或直接依赖某些指标数据库的清洗归并,造成统计数据的遗漏等。所有这些对数据清洗工作的不重视,最终都将导致统计数据的不准确,分析结果难具信服力。

3高校图书馆基于大数据开展文献计量服务实践的对策

3.1健全服务机制,加强交流与合作

从上文分析得知,图书馆等信息服务部门人员在三类主要研究群体中最具资源优势和服务技能特长,故由其作为服务主体开展文献计量服务实践有一定优势。而高校图书馆不仅享有大量的数据资源,拥有专业的信息服务设备,还具备丰富的人力资源和服务经验。高校图书馆可通过设置专门的文献计量服务部门和岗位,聘用专业的文献计量学科馆员,建立健全长效的服务工作机制,确保该实践工作科学、有效地运行。高校图书馆日常业务中诸如查收查引、科技查新等工作开展过程中形成的严谨的业务流程、严格的审核制度、规范的报告文档等,都可以作为文献计量服务实践的参考和借鉴。当然,在服务实践过程中,和数据库公司及其他研究人员的交流与合作至关重要。如,通过和汤森路透公司的合作,进一步规范人名、机构名等数据的处理;通过和图情专业人士的交流与学习,不断提升自身的理论水平,从而指导实践工作;通过和学科专业研究人员的交流和沟通,全面了解其信息需求,扩充一定的专业背景知识,从而更好地提供定量与定性相结合、基于学科内容的信息分析服务。

3.2区分服务对象,注重服务内容的个性化与针对性

事实上,由于文献计量指标存在一定缺陷,有些分析结果并不具有客观公正性,且实际应用过程中,各类用户的信息需求也不尽相同。因此,本着公正、客观的原则,面向不同用户开展有针对性的文献计量服务实践才是合理之举。例如,对于学校科研管理部门,他们重在掌握科研基金的分配情况,可利用文献计量对学科、机构、个人在受基金资助前后的科研产出及影响力进行评价和对比分析,给科研管理部门提供决策参考;对于人事管理部门,他们重在掌握科研人才的整体情况,可通过文献计量对学科、机构、个人的科研产出进行发文量、被引频次和H指数的统计分析,给人事管理部门提供学科师资力量的分布情况。又如,对于知名教授或学科带头人,他们重在了解个人或团队在同行中的位置,可通过文献计量提供其个人或团队研究成果的收录、被引情况、H指数、科研团队合作分析等;对于学术新人和中坚力量,他们更为关注学科领域的发展态势,可通过文献计量提供学科领域或研究方向的重点研究机构、高影响力期刊、高被引作者、学科研究热点和前沿等。当然,面向不同学科类别的文献计量服务实践在数据源的选择上也应有所不同,如人文社科的文献计量除科技论文外,还应包括学术专著,而理工科的文献计量则应主要依据科技论文、研究报告和专利成果等。

3.3重视数据来源,确保分析结果的科学性与准确性

大数据时代,基于海量数据,借助文献计量分析方法开展面向学科发展和科研决策的信息服务,是高校图书馆转型时期寻求角色转变与服务创新的一项重要实践探索。该实践不仅能够发挥图书馆馆藏资源优势,拓宽图书馆服务领域,提升学科服务层次,还能提高图书馆在学校的地位,树立图书馆良好形象。但该实践活动中,数据来源的可靠性和科学性至关重要,决定了分析结果的信服力和实践活动的影响力。因此,在开展文献计量服务实践过程中,学科馆员一定要本着客观、公正的服务态度,认真对待数据采集、处理、分析过程中的每一步,力求为用户提供科学、准确的信息服务。如数据采集和清洗阶段,一方面要加强同学科用户的反复交流和沟通,充分了解其信息需求,确定最终的检索策略;另一方面要高度重视数据清洗工作,通过借助数据清洗工具,辅以部分人工判别,保证数据来源的科学性。数据分析评价阶段,要坚持一切以事实为依据原则,确保数据的准确性和服务的信服力。总结讨论阶段,仍然要加强同学科用户的交流与沟通,适当引入部分同学科内容相结合的定性分析,为科研人员提供切实有效的参考信息。

3.4划分服务阶段,力求服务方式的多样化与可行性

多样化的服务方式,能给用户带来更多的服务体验,从而有利于改善和提高服务水平。可用于文献计量服务实践的方式有很多,但为了保证服务效果,在服务周期的不同阶段,侧重使用的服务方式也应有所不同。如文献计量服务实践开展的初期,因多数学科用户对该服务不够了解,可选择一两个学科为试点,通过主动推送的方式,将文献计量服务推介给用户。如主动将机构或学科领域的科研发展态势推送给学院领导,为其科研决策提供参考;将个人研究成果的收录情况和被引情况、H指数、科研团队合作分析等推送给学科带头人,为其科学研究提供参考。用户在体验了该服务后,对服务有所了解并进一步熟悉,此时,为进一步拓宽服务内容,提升服务层次,可适当引导用户,挖掘其潜在的相关信息需求,形成个性化定制方案,根据用户的个性化信息需求提供更为专业、更具有针对性的信息服务。如定期更新其收录和被引情况,分时段提供其科研产出的计量分析等。可见,不同的服务方式只有在适宜的阶段被采用,才能发挥最大的效用。

[参考文献]

[1]杨立英,等.中国科学:发展水平与学科结构的思考——2010年SCI论文统计分析[J].科学观察,2011(1):23-50.

[2]胡天天,等.SCI收录浙江省论文的统计分析[J].中华医学图书情报杂志,2011(2):75-78,81.

[3]殷晶晶,胡永红.基于ESI数据库的江苏高校学科竞争力分析[J].江苏科技信息,2014(20):23-25.

[4]夏琬钧,等.基于Incites和ESI的高校科研产出统计与分析——以西南交通大学为例[J].四川图书馆学报,2014(3):14-16.

[5]潘有能,等.基于Web of Science的理科学者h指数实证研究[J].大学图书馆学报,2009 (2):61-65,84.

[6]丁楠,等.基于CSSCI的文科学者h指数实证研究[J].大学图书馆学报,2009(2):55-60.

[7]次仁拉珍.专利权人h指数研究——以世界百强企业为例[D].杭州:浙江大学,2008.

[8]王志军,郑德俊.p指数运用于人才评价的有效性实证研究[J].图书情报工作,2012(14):93-97.

[9]赵蓉英,温芳芳.科研合作与知识交流[J].图书情报工作,2011(20):6-10,27.

[10]静莹,等.中美渔业科技合作现状与发展趋势的计量学分析[J].中国农学通报,2012(20):106-112.

[11]郭永正.中国和印度:国际科学合作的文献计量比较研究[D].大连:大连理工大学,2010.

[12]徐志玮,等.亚洲和西方国家在学科领域的活跃性和影响力比较研究[J].情报杂志,2011 (7):45-49,54.

[13]陈仕吉,等.科研机构潜势学科的识别方法与实证分析——以中国农业大学为例[J].情报杂志,2012(2):43-47.

[14]董琳.学科评价之文献计量数据准备[J].情报理论与实践,2010(6):49-52.

[15]张晋辉,刘清.基于推理机的SCI地址字段数据清洗方法设计[J].情报科学,2010(5): 741-746.

[16]闫雪,等.文献计量数据准备之数据采集与清洗——以中国水产科学研究院中文期刊论文分析为例[J].农业图书情报学刊,2014(4):36-40.

[17]薛调.国内图书馆学科知识服务领域演进路径、研究热点与前沿的可视化分析[J].图书情报工作,2012(15):9-14.

[18]孙玉伟.面向科研决策的信息服务框架探析[J].情报杂志,2013(6):167-171,175.

[19]孙秀焕,路文如.基于Web of Science的“水稻”研究论文产出分析[J].中国农业科技导报,2012(2):31-39.

[20]王文平,等.中国政府资助中欧科技合作的特征研究——基于文献计量分析的视角[J].科学学研究,2014(6):801-810,824.

[21]孙建军.链接分析:知识基础、研究主体、研究热点与前沿综述——基于科学知识图谱的途径[J].情报学报,2014(6):659-672.

[22]王雪梅,等.文献计量指标的GIS空间展现[J].图书情报工作,2014(3):72-77.

[收稿日期]2015-05-27[责任编辑]徐娜

[作者简介]朱锁玲(1983-),女,博士,南京农业大学图书馆副研究馆员,研究方向:文献计量与数字图书馆;唐惠燕(1968-)女,博士,南京农业大学图书馆副馆长,研究方向:图书馆管理与知识服务;倪峰(1960-),男,博士,馆长,研究方向:图书馆管理与经济学理论;陈蓉蓉(1978-)女,硕士,副研究馆员,研究方向:图书与情报;施文(1983-)女,硕士在读,助理馆员,研究方向:图书与情报。

通讯作者:△唐惠燕

[基金项目]本文系中央高校科研——南京农业大学人文社科基金项目“方志类古籍智能化整理与开发利用研究”(项目编号:SK2014033)研究成果之一。

[文章编号]1005-8214(2015)12-0033-06

[文献标志码]A

[中图分类号]G250.252

猜你喜欢

文献计量信息服务高校图书馆
我国医学数字图书馆研究的文献计量分析
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
公共图书馆科技创新服务探析
农业高校图书馆专利信息服务研究
基于价值共创共享的信息服务生态系统协同机制研究
高校图书馆阅读推广案例分析
微信公众平台在高校图书馆信息服务中的应用研究
高校图书馆阅读推广实践探讨