大数据背景下高校图书馆开展知识服务的探索与实践*——以北京化工大学图书馆为例
2015-12-16伊雷王婷郭倩玲张建文
伊雷 王婷 郭倩玲 张建文
(北京化工大学图书馆,北京100029)
大数据背景下高校图书馆开展知识服务的探索与实践*——以北京化工大学图书馆为例
伊雷王婷郭倩玲张建文
(北京化工大学图书馆,北京100029)
大数据时代究竟如何通过挖掘海量文献数据提供知识服务,在高校图书馆界尚未达成一致意见。但开展大数据知识服务,是高校图书馆未来发展的一个重要方向,这一点已经逐渐成为共识。利用文献计量学分析高校学科发展状况,为学校制定学科发展战略提供参考依据,是目前高校图书馆利用大数据开展知识服务的具体途径之一。
高校图书馆大数据知识服务
“随着云计算、物联网以及信息获取和存储技术的飞速发展,数据正以几何级数的速率迅速增长和积累。目前全球已经步入了大数据时代[1]。”大数据时代是网络社会发展的更高阶段,其特点是“数据生成速度加快、采集实现自动化、存储和传输成本大幅降低,数据量急剧膨胀”[2]。在这一背景下,高校广大师生获取文献资源的途径越来越多,高校图书馆传统粗放的服务方式已然不能适应学校发展需要,这就要求必须在保证文献资源数量与质量的同时,在服务师生的方式、方法上不断创新。因此,高校图书馆如何为师生提供大数据知识服务,已成为值得研究的课题。所谓大数据知识服务“是为适应信息服务智慧化、协作化、绿色化、先觉化和泛在化的发展趋势而衍生的一种基于网络的信息服务新模式”[3]。高校图书馆开展大数据知识服务就是要通过挖掘海量学术数据资源为广大师生提供前瞻性服务。
1 大数据时代高校图书馆发展趋势
高校图书馆历来对信息技术的应用非常重视,几乎每一项新技术的出现,都能推动其服务升级。大数据时代,高校图书馆的数据处理方式、目的等都将发生巨变。在数字时代,高校图书馆的数据处理主要是将文献资料数字化、网络化,其目的是实现师生对学术数据的充分利用;进入大数据时代,对海量文献数据的分析、处理将成为高校图书馆发展的新趋势,其服务重心也会逐渐由传统业务向数据挖掘转移。在实践方面,哈佛大学图书馆已引入大数据服务[4];清华大学图书馆正尝试在大数据环境下从元数据中提取关键词等信息,分析关键词走向及作者与合作者的关系,试图建立以人为中心的知识关联网络[5]。
2 大数据时代高校图书馆知识服务模式
作为一种全新的服务方式,大数据知识服务是在海量数据的获取、存储、分析等过程产生的以数字化、网络化、智能化为基础的服务模式。在大数据时代对海量数据的处理能力意味着获取知识方式的改变。Jim Gray因此提出科学研究的第四范式——以协同化、网络化与数据驱动为其主要特征的数据密集型科学研究[6]。作为未来服务的新模式,大数据知识服务将成为高校图书馆转型发展的新方向。
3 大数据时代高校图书馆知识服务对策
如何在大数据时代开展知识服务,目前高校图书馆界正处于探索阶段,尚没有统一的模式。北京化工大学图书馆也进行了一些尝试。主要涉及以下几个方面:第一,采用定量分析方法,通过引文数据库Web of Science考察了2001~2014年北京化工大学(以下简称北化)学者们的总发文量、总被引次数、每篇论文的平均被引次数、H指数等多个指标,利用H指数将数量指标(论文数量)和质量指标(被引频次)有机结合,使评价结果更加合理。在此基础上,结合人才类型、研究人员层次、学术生涯年限等多个影响因素,探讨现有文献计量方法和体系的局限性,阐释如何正确解读上述评价指标,以便学校决策者们能够正确地应用这些指标,对老师们的学术影响力做出科学评价。第二,对2001~2014年度以北化为机构的SCI收录论文进行分析。并从研究方向、发表期刊分布特点以及论文作者群等属性进行统计,对它们的分布规律和内在联系进行梳理,以期研究科研产出特点,为学校制定科研政策、交叉学科发展、国际化战略等提供数据支撑。第三,利用文献计量分析法,借助Cite Space软件生成可视化图谱,通过学科地图等形式,定量、可视化地深入揭示北化各科群的分布情况,进而系统探讨其研究维度,以期把握北化的学科交叉以及渗透融合状况,内容包括学科分布、合作情况分析、研究方向演化及研究热点分析、研究前沿分析等。第四,利用Innography专利检索与分析平台制作了详细的专利分析报告,内容涉及当前北化的专利拥有量、专利价值评价、创新优势学科、活跃学科发明人、专利的合作申请分析、国外专利申请情况分析等。
3.1利用文献计量分析学科发展水平
利用文献计量分析学科发展水平,是高校图书馆在大数据时代开展知识服务的具体途径之一。例如,通过大量文献计量分析,我们发现Chemistry、Materials Science、Engineer⁃ing、Polymer Science和Physics为北化最为集中的研究方向。
图1 主要研究方向及其分布
对以上5个主要科研方向求和,得到的总计数以及总百分比数(110%)均高于所发表论文的总篇数,说明这5个研究方向及其交叉学科是北化科研产出的重要组成部分。并由此可以看出,北化科研产出具有较强的学科集中性。
图2化学方向关联情况
同时通过Citespace软件对热点研究方向相关文献的分布情况进行分析(用节点代表分析对象,节点大小表明对象的量级,用节点之间连接线表明文献之间的关联性)发现nanoparticles是出现次数最多的
,与之关联的为nanocrystals(图2)。此外,由water、seperation和absorbtion为
的文献构成了一组关联性非常强的研究热点。用同样方法对其他4个热点研究方向进行分析得到图3。
图3材料科学方向关联情况
图4工程方向关联情况
图5高分子科学方向关联情况
图6物理学方向关联情况
通过对图2~6进行分析,发现上述5个热点研究方向其有着非常强的相似性。由此可见北化的研究领域单一,分散性差,高水平研究方向过于集中,学科发展不均衡。
3.2利用专业平台分析学科发展特色
利用Innograph对北化专利数据进行统计,研究其背后的学科发展信息。
第一,重点研究领域分析。将北化全部专利申请按照IPC统计分析生成树状分布图(图7),图7中区块的不同颜色表示某领域全球专利总量的多少,区块面积的大小代表北化专利申请数量在某领域的多少。由图7可见北化在B部和C部申请的专利最多。再取专利申请量排名前10位的IPC小类进行分析,由此可看出北化的重点研发方向。表1为专利申请量排名前10位的IPC小类及对应的技术领域。结合图7和表1可以看出,北化申请的专利中,B部中以催化和塑料加工领域为主,C部中以高分子化合物领域为最多。说明北化专利发明集中在催化、塑料加工、高分子材料等领域。
图7 北化专利IPC分类树状分布
第二,热门研究领域竞争力分析。北化专利在该领域的国内竞争力情况见图8。竞争力分析图中气泡大小代表专利数量多少;横坐标与专利比重、专利分类、引用情况相关,横坐标越大,说明其专利技术性越强;纵坐标与专利权人的收入高低、专利国家分布、专利涉案情况有关,纵坐标越大,说明专利权人实力越强。在该领域,中石化在公司实力、专利质量和数量上遥遥领先,巴斯夫的专利数量较大。其他机构在专利质量和数量上相差不大,在这些机构中,除中石油、赢创、壳牌、美孚、住友、陶氏等几家公司外,主要为高校,北化在这些机构中占有一席之地,但也面临着激烈竞争。
表1 北化专利申请量排名前10位的IPC小类及对应的技术领域
图8 催化领域北化有效专利在国内的竞争力
北化面临的竞争主要来自清华、复旦等大学。为了更好地了解对手,对清华、复旦等大学在该领域的专利申请进行文本聚类分析,以了解这两所大学的研究技术热点。两所大学专利申请的文本聚类如图9所示。由图9可以看出,清华大学的主要研究热点为催化活性组分和催化反应器;复旦大学的研究热点为沸石、分子筛和二氧化钛在催化方面的应用。北化在该领域的研究热点为复合金属氧化物、纳米粒子和分子筛在催化方面的应用及催化剂活性组分方面,其在反应器和废水处理方面研究较少。
图9 两所大学在催化领域专利申请的文本聚类
3.3利用大数据发现潜在学科领军人才
高校学科建设领军人才是促进高校学科建设的核心人物。在普通高校中,所谓学科建设领军人才主要包括4个层次:第一层次是以我国两院院士为代表的高级人才。第二层次是以“长江学者”为代表的高端人才,也包括“千人计划”及“973首席科学家”等。第三层次是国家杰出青年科学基金入选者。国家杰出青年科学基金用于支持在基础研究方面已取得突出成绩的青年学者自主选择研究方向开展创新研究,旨在培养造就一批进入世界科技前沿的优秀学术带头人。第四层次是“新世纪优秀人才支持计划”入选者。“新世纪优秀人才支持计划”属于教育部“高层次创造性人才计划”的第二层次(第一层次是“长江学者”),是对高校优秀青年学术带头人的一个支持计划。
然而,对于高校而言,直接引进这些人才的成本太高。另一方面,这些人才都是稀缺资源,高校对他们的争夺也很激烈,所以在操作层面即使不计成本,这些人才也并不是很好引进的。因此,如果能够利用学术大数据挖掘一批好苗子进行引进,假以数年培养,使其成为领军人才,其成本和难度则会大大降低。
在北化引进人才的过程中,我们曾设想利用H指数和ESI高被引论文等多种指标对其学术潜力进行多方面考察,看其是否具备成长为长江学者和院士的素质。H指数的优点是既考虑了论文的数量指标,又考虑了论文的质量指标,而且更多地聚焦于高被引频次论文,只有当论文数量和质量均有良好表现时,才会获得较高的H指数,这是目前世界上公认的相对比较科学的评价指标。从北化的具体情况来看,第一梯队人才的H指数一般都能够达到30以上,第二梯队人才的H指数介于20~30之间。
然而,H指数也存在不足之处。具体表现为H指数更多地反映了学者在基础研究领域内的影响力,对于主要从事应用技术开发的科研人员,用H指数就无法公正地体现其学术贡献;尤其是对于年轻的学术新星,即使单篇论文的被引频次很高,也无法获得较高的H指数。他们必须经过长期的学术积累,才能够在H指数上有较好的表现。因此,单从H指数来评价年轻学者,不利于发掘新人;H指数学科差异性很大,对不同学科人才的H指数进行横向对比是不可取的。
因此,运用H指数进行评价时,还要综合考虑被评价学者的类型、学科领域、层次、学术生涯年限等诸多因素影响,并结合专利授权量和转化量、获得国家奖励情况等多种评价指标建立综合评价体系(例如,ESI高被引论文应纳入考察和发掘科学领军人才的重要指标之一),才能使得评价结果更为合理、客观和科学。
总之,合理运用多项评价指标,密切关注高层次的学术影响力动态,及时发掘新人,才能进一步推动高校人才队伍建设和学科发展。
4 结语
目前,高校图书馆开展大数据知识服务正处于探索阶段。究竟如何通过挖掘海量文献数据,从大数据中获取新知,在高校图书馆界尚未达成共识。但开展大数据知识服务,从而不断提升高校图书馆的服务品质,是高校图书馆未来发展的一个重要方向,这一点应该不会有疑义。开展大数据知识服务将使高校图书馆迎来一个新时代。高校图书馆不同于公共图书馆之处在于其服务对象和服务功能相对单一,主要对象是高校广大师生,其主要功能是服务高校的教学、科研发展。因此,北化图书馆在开展大数据知识服务探索时,特别关注两个方向,其一为知识发现,其二为人才发现。这两个方向将是我们未来开展大数据知识服务的主要方向。
[1]秦小华,王红涛.大数据时代的高校图书馆服务创新[J].中国科技信息,2014(22):221-222.
[2]钟辉新.大数据时代信息服务的发展走向及高校图书馆应对策略[C].广东图书馆学会学术年会论文集,2013.
[3]秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013(2):18-22.
[4]WATTERS A.Strata Week:Harvard Library releases big da⁃ta for its books:Harvard offers big data for books,Cloudera’s new Hadoop distribution,Splunk goes public[EB/OL].[2013-10-09].http://radar.oreilly.com/2012/04/harvard-book-da⁃ta-cloudera-hadoop-splunk-ipo.html.
[5]邓景康.大数据环境下清华大学图书馆的实践[N].中国新闻出版报,2013-08-29(005).
[6]Jim G.On eScience:transformed scientific method[C].Tony H,Stewart T,Kirstin T.The fourth needs paradigm:Dataintensive scientific discovery.Redmond,WA:Microsoft Re⁃search,2009:19-33.
伊雷男,1979年生。硕士,馆员。研究方向:数据挖掘、学科服务。
王婷女,1976年生。硕士,副研究馆员。研究方向:学科服务。
郭倩玲女,1971年生。博士,副研究馆员。研究方向:科技查新、专利分析。
张建文男,1969年生。博士,教授。研究方向:图书馆管理。
G258.6
*本文系中央高校基本科研业务费项目(ZZ1403);北京化工大学图书馆馆长基金(20141203)研究成果。
(2015-09-28;责编:张欣。)