国家社科基金视域下图书馆、情报与文献学的可视化计量分析
2021-06-10李继红陈宁辉徐桂珍王洪江
李继红,陈宁辉,徐桂珍,江 珊,王洪江*
(1.安徽省农业科学院农业经济与信息研究所,合肥 230031;2.安徽省档案馆,合肥 230001)
1 引言
国家社会科学基金项目(简称国家社科基金)是中国目前唯一的国家级哲学社会科学研究项目,重点资助科研院所具有良好研究条件和研究实力的科研人员[1]。作为人文社会科学领域级别最高、影响力最大的科研基金项目,主要聚焦于学科发展的前沿领域,其立项要经过专家对课题科学性、创新性的严格审查、论证,所以,国家社科基金体现了学科研究的新动向、新趋势,具有较强的代表性、权威性和导向性[2]。
自1994 年起,国家社科基金设立了“图书馆、情报与文献学”类项目,极大地推动了该学科的发展。有许多学者从不同角度、不同层面对“图书馆、情报与文献学”领域的国家社科基金进行了分析。刘良璧[3]、李英[4]、吴德[5]等对不同时间段内图书情报与文献学学科的国家社科基金立项数量、立项类型、立项单位及其所属行业、项目负责人以及项目的主题内容特征等方面进行了分析;柏媛[6]、王东波[7]对国家社科基金资助项目的科研产出及论文学术影响力进行了统计;李秋杰[8]、赵蓉英[9]、陈必坤[10]等通过词频统计、关键词共现分析以及关键词耦合分析等方法对图情领域国家社科基金项目的主题进行了研究,挖掘在一定时间段内研究的热点问题。综上所述,针对“图书馆、情报与文献学”类国家社科基金的研究主要集中在基本情况介绍、项目科研产出以及学科研究热点,且研究方法多以数理统计分析、关键词词频统计、共词分析为主;鲜有文献在揭示研究前沿的基础上,对研究主题之间的演进历程及其逻辑关系进行深层次知识图谱的探究。
CiteSpace 是目前应用最广泛、功能最强大的知识图谱分析工具,它是基于文献计量学及科学知识图谱等理论开发的一款主要用于学术文献分析的可视化工具,能显示一个学科或知识域在一定时期发展的趋势与动向、形成若干研究前沿领域的演进历程。众所周知,CiteSpace 软件只能分析数据库中的文献、专利[11-13],还不能直接用于分析非数据库中的数据。本研究突破了CiteSpace 只能分析特定数据库中文献的局限,使其可以针对其他数据源进行研究;依托文本挖掘及信息可视化方法对“图书馆、情报与文献学”领域的国家社科基金进行定量分析,揭示其主题架构,追踪其研究热点,总结其演变轨迹。
2 数据来源及分析方法
2.1 数据来源
研究数据来源于全国哲学社会科学规划办公室“国家社科基金项目数据库[14]”,检索学科类别为“图书馆、情报与文献学”,所检索基金项目的立项时间为1994—2018 年,爬取并汇总项目信息,信息包括项目批准号、项目类别、项目名称、立项时间等字段。清洗后共得到1 808 条数据,检索时间2019 年8 月15 日。
2.2 分析方法
(1)关键词的抽取与合并。关键词的抽取应遵循如下原则:①应选择明确表达主题概念的词或词组;②关键词应准确并充分揭示项目的主题内容,重要的可检索内容不应遗漏;③筛除无意义的词或词组;④对项目名称内含义相同但是表述不同的词汇进行合并。
基于以上分词原则,研究采用武汉大学研发的ROSTCM6 软件对项目名称进行分词。直接获得的关键词的粒度比较粗糙,聚类效果不理想,可通过人工标注的方式补充添加用户词典,使其达到研究要求。如果遇到新术语,则依据“CNKI 概念知识元库”和“CNKI 工具书馆”进行核实[10]。采用数据清洗器对分词后的关键词进行清洗、合并。
(2)关键词格式转化。CiteSpace 软件功能强大,具备主题聚类、主题演化路径、研究前沿探测等分析功能,可以处理的数据源包括WOS、Scopus、ADS、arXiv、CNKI、CSSCI、NSF、CSCD、Derwent 专利数据库,但对于非数据库中的数据源,CiteSpace 无法直接进行分析。本研究采用编码的转化软件对非数据库中的数据进行转化处理,使之成为CiteSpace 软件能够识别的数据,从而进行相关的分析。
(3)关键词共现知识图谱。关键词是论文/项目主题的集中描述和高度概括,关键词共现分析就是对数据集中关键词集合的分析,通过对关键词的可视化分析可以确定研究领域的学科结构、热点以及演变进程[15]。本研究以“图书馆、情报与文献学”领域的国家社科基金为研究目标,以关键词集合为分析单元,依托CiteSpace 绘制主题聚类图和研究热点时区图等,从而揭示该领域的知识架构、知识演进以及最新热点。
可视化分析的参数设置如下:时间跨度设置为2009—2018 年,时间切片(Time Slicing)为1 年;文本处理(Text Processing)默认选定Text Source 功能;节点类型(Node Types)确定为Keyword;节点强度(Links)默认Cosine 与Within Slices 选项;选择阈值(Selection Criteria)选取Top N per slice=50;网络裁剪功能区(Pruning)默认不进行剪裁,最终生成关键词共现知识图谱。
3 项目年度分布
为了解“图书馆、情报与文献学”类国家社科基金从设立以来的整体概况,研究爬取了1994—2018 年的1 808 条记录。图1 为1994—2018 年“图书馆、情报与文献学”类国家社科基金的时序分布。从图中可以看出,25 年来,“图书馆、情报与文献学”领域的国家社科基金立项数量增长快速,从1994 年的10 项,到2018 年的162 项,项目数量增长16 倍以上。从立项数量上来看,可将其分为4 个阶段:第一阶段是从1994—2000 年,该阶段立项数量较少,平均年度立项数量只有13 项。第二阶段为2001—2006 年,在此期间,年度立项数量增长缓慢,突破了30 项。第三阶段是从2001—2013 年,基金立项数量增长迅速,呈线性增长趋势,线性回归系数R2高达0.993 3,2013 年的立项数量达到155 项。第四阶段为2014—2018 年,期间,虽立项数量有所回落,但仍保持在较高水平。文章选取了项目增长迅速、项目数量较多的近10 年(2009—2018 年)的项目进行了后续的可视化分析,共1 379 条数据。
图1 1994—2018 年中国“图书馆、情报与文献学”类国家社科基金项目年度分布Fig.1 Distribution of the National Social Science Fund programs in library,information and documentation science in China from 1994 to 2018
国家社科基金的立项数量在一定程度上可以反映一个学科或领域的发展状况。中国“图书馆、情报与文献学”领域的发展速度、规模主要和科技发展、政策导向以及学科自身需求相关。一方面,知识信息已成为与物质、能源并列的三大资源之一。随着各领域对信息技术和信息管理研究的重视,其研究不断发展深化,与之相关的学科也得到蓬勃发展。目前,“图书馆、情报与文献学”领域的研究呈现出旺盛的生命力。另一方面,国家对图书情报研究领域日益重视,颁布了一系列的发展规划、刚要及方案,主要包括《文化部“十二五”文化科技发展规划》 《文化标准化中长期发展规划(2007—2020)》 《全国文化信息资源共享工程" 十二五" 规划纲要》 等[17],体现了中国越来越重视社会科学对国家综合实力协调发展的重要性。再一方面,新兴学科领域的兴起以及学科的细化也为“图书馆、情报与文献学”领域的发展提供了“肥沃的土壤”。
4 学科主题架构
聚类分析法是一种探索性数据挖掘分析方法,可用于识别和分析特定研究领域中显著术语和背景的分类,利用一系列的算法将收集到的数据转换成几个结构化的集群,从而发现知识领域的主题分布和组织结构[18]。文章采用CiteSpace 对2009—2018 年“图书馆、情报与文献学”领域1 379 条题录的关键词进行了聚类运算,由LLR 算法聚合出该领域的关键词聚类图谱(图2)。图中,数字代表聚类主题的ID 号;每个节点代表一个关键词,节点的大小表示关键词的出现频次,连线的粗细表示关键词之间关系的疏密。
图2 “图书馆、情报与文献学”领域学科主题分布Fig.2 Topic distribution in library,information and documentation science
从图2 可以看出,在过去10 年,“图书馆、情报与文献学”类国家社科基金研究的视角较为全面,共聚合成9 个主题,集群从大到小依次为#0 图书馆、#1文献整理、#2 互联网、#3 大数据、#4 开放获取、#5知识服务、#6 档案、#7 企业和#8 西部地区。根据聚类主题的语义结构和研究主题的相关性,文章将这些聚类整合为六大研究知识域。
第一个知识域(#0 图书馆)体现了图书馆学的内容。图书馆学分为分类与编目、服务与管理、建筑与空间、比较图书馆学以及图书馆学史等研究方向。从2009—2018 年的研究来看,这些方向均有涉及,涵盖了图书馆用户(关键词包括社会弱势群体、老年人、科研人员)、图书馆服务(关键词包括公共文化服务、信息服务、服务体系)、资源组织与建设(关键词包括图书馆制度、社会职能、运行模式)以及阅读推广(关键词包括阅读推广、阅读权利、阅读行为)等方面。相对而言,服务与管理研究受到了广泛关注,成为当前图书馆学研究的热点,说明图书馆正把提高服务水平、创新服务模式作为主要目标,充分利用自身资源(包括纸本资源、数字资源以及空间资源)优势,实现资源向知识、能力的转化[19]。
第二个知识域(#1 文献整理)是文献学的相关内容,研究涵盖了不同地区、不同时间、不同载体、不同语种、不同类型文献的整理、修复。研究地区主要分布在西部地区、少数民族地区;研究时间主要集中于民国时期、清代、近代;研究载体涵盖了简牍、刻本、写本等方式;研究语种包括汉文、藏文、苗文等;研究类型涵盖了革命文献、农业文献、医药文献、书信、家谱等。此外,数据库的建设、文化的挖掘也是主要研究方向。文化是民族的精神血脉、社会的精神标识,深入挖掘中华文化的精神内涵,充分发挥文化在实现中华民族伟大复兴中强基固本、引领激励的作用,是研究者不可懈怠的责任。
第三个知识域体现了情报学的内容,包括4 个集群:#2 互联网、#3 大数据、#4 开放获取、#5 知识服务。
(1)互联网。目前,互联网的应用已形成规模,与之相关的新兴技术和研究领域也在不断涌现。在图情档领域,以互联网及“互联网+”为平台的研究主要聚焦于数字图书馆/数字档案馆资源研究、科学计量学与科技评价研究、信息技术研究、行业信息服务等方面,关键词主要包括互联网、影响力评价、用户、期刊、文本挖掘、评价体系、图书馆、阅读推广等。
(2)大数据。随着数字化技术和互联网技术的发展,网络环境下产生了海量的信息,对大数据进行分析已经成为研究的重点。大数据的核心在于挖掘数据中蕴藏的价值,因此,针对不同领域的大数据应用模式、体系构建、评估机制、分析技术研究将是大数据研究的关键。本集群围绕着大数据研究产生的一系列的关键词包括大数据、舆情分析、云计算、信息资源、社交网络、信息服务等。
(3)开放获取。开放获取是国际学术界、出版界、图书情报界为了推动科研成果利用互联网自由传播而采取的行动,是一种新型的科研信息交流方式和出版模式[20]。自提出后得到了众多学者的关注。现阶段,中国开放获取的建设方向主要为OA 仓储、OA 期刊、科研数据开放存取、政府数据开放存取、开放存取科研基础设施资助、开放创新的政策支持等[21]。基金项目中关于开放获取的研究主要围绕图书/ 期刊开放获取、学术专著/论文开放获取进行了共享机制、资源整合、模式与政策、实现路径、传播效果方面的研究,主要关键词包括开放获取、信息公开、电子文件、信息共享、信息资源等。
(4)知识服务。知识管理是一个不断发展变化的主题,随着相关研究的深入,出现了知识服务、知识转移、知识共享、知识创新等概念。“图书馆、情报与文献学”的学科发展是沿着“文献-信息-知识”的脉络进行的,即从信息组织到知识组织,信息服务到知识服务,信息管理到知识管理,信息计量到知识计量[9]。在图谱中,该聚类主题与图书馆、大数据、互联网等其他主题的联系紧密,说明中国图情一体化融合程度不断加深,围绕知识管理研究产生的一系列关键词包括用户交互、知识组织、知识聚合、网络社区等。
该知识域中“互联网+”、大数据、云计算等关键词联系紧密,是目前研究的热点。它们都是时代发展到一定程度的产物,蕴含了互联网时代新的思维模式和事物处理方式。此外,知识域中用户、公共服务、公共获取、共享等高频关键词的出现,体现了中国情报学以用户为中心的服务理念,其服务模式正由传统单向性的普适式服务向“以满足用户需求、以用户为中心”的主动式、个性化的信息服务转变。
第四个知识域(#6 档案)是档案学的内容,涵盖了档案学基础理论(关键词包括理论基础、档案法规、档案文化)、档案管理(关键词包括档案资源、档案保护、管理制度)、档案利用(关键词包括公共服务、服务质量、资源共享)等方面的研究,其中,档案利用中的公共服务是研究的关注点,十九大报告中指出要不断完善公共服务体系,档案公共服务作为公共服务体系建设的重要组成部分,不仅要为党政机关服务,更要为社会服务,这就要求档案机构和科研人员与时俱进,不断提升档案公共服务能力。
第五个知识域(#7 企业)是企业竞争情报的相关内容。竞争情报是关于竞争环境、竞争对手和竞争策略的信息和研究。在企业竞争日益激烈的环境下,竞争情报是市场竞争的内在推动力。针对如何高效获取情报信息、提升企业核心竞争力这一目的,学者们主要围绕企业技术创新,借助数据挖掘等手段,对情报、专利的供给、采集、分析和管理进行了研究,关键词包括竞争情报、技术创新、情报分析、风险管理等。
第六个知识域(#8 西部地区)体现了西部项目的研究内容,涉及公共图书馆的建设、农民的阅读保障以及用户的信息需求等方面的探讨,主要关键词包括西部地区、信息需求、农村、农民、信息保障、图书馆、公共阅读等。
5 知识演进
关键词是表达主题概念的自然语言词汇,对关键词进行共现分析有助于确定领域学术研究的发展脉络与发展方向[22]。基本原理是通过统计文献中词汇对或名词短语的共现情况,来反映关键词之间的关联强度,进而确定这些词所代表的学科或领域的研究热点、组成与范式,横向和纵向分析学科领域的发展过程和结构演化。文章以时区图的形式展示了“图书馆、情报与文献学”领域不同时段的研究热点及知识演进轨迹(图3)。图中每一个节点代表一个关键词,关键词所处的时间区代表该关键词首次出现的时间;字体的大小代表着关键词出现的总频次;线条代表着关键词之间的联系。
图3 “图书馆、情报与文献学”领域研究热点的知识演进Fig.3 Knowledge evolution based on hot topics in library,information and documentation science
由图3 可知,2009—2010 年,研究热点包括图书馆、文献整理、档案、知识服务、用户、突发事件、网络信息、企业、数据库、西部地区等,其中,图书馆、文献整理的“+”标识符和字体都比较大,说明这些关键词在样本数据时间范围内(2009—2018 年)累计共现频次高,有很高的关注度;2011—2012 年,研究的新热点有知识组织、档案馆、政府、非物质文化遗产、服务质量、开放获取、信息传播等;2013—2014 年,研究热点逐渐演变成大数据、影响力评价、期刊、数字化、民国时期、阅读推广、应急管理等;2015—2016 年,研究热点更新为社交媒体、新媒体、融合、一带一路、多元数据融合、协同创新等;2017—2018 年,研究热点开始围绕公共文化服务、开放数据、文化传承、深度学习、知识关联、用户信息交互、用户画像进行。这10 年间,该领域研究的热点稳中有新,既重视传统研究,又对不断涌现的新热点进行了关注和探讨。
随着研究主题的演进,其研究方法和范式也发生了变化。例如,在2009—2010 年间,在互联网和Web2.0 环境下,对知识传播、群体协作、出版、日志挖掘、信息组织、网络舆情的研究成了关注的焦点。2011—2012 年出现了云计算、元数据以及可视化知识图谱分析的方法,研究主题更倾向于信息资源集成、网络舆情监控与疏导、信息资源安全、图书馆学、情报学领域等方面。2013—2016 年,大数据和“互联网+”是研究关注点,主要聚焦于产业竞争、突发事件、数字出版、数据管理、情报分析、信息安全、知识挖掘等方面。2017—2018 年较倾向于对多源知识的研究,主要包括多维信息计量方法、多源异构数据融合、多源信息语义互联、多源知识迁移等。此外,人工智能、深度学习也是新的研究方向。总体而言,在研究方法上,建立了以计算机程序辅助分析为核心的多元化研究手段;在研究层次上,引文分析已经向引用行为、引用情感等内容分析的研究深化。
值得注意的是,基金项目中政策性的关键词也随着时间的变化而更迭。由2009—2010 年的西部地区、少数民族、和谐社会、可持续发展,到2011—2012 年的信息公开、创新型国家,到2013—2014 年的大数据战略、融合发展、智慧城市,再到2015—2016 年的一带一路、精准扶贫、国家安全观,最后到2017—2018年的文化自信、文化传承、创新驱动。这一趋势与国家战略的演变相匹配,说明中国“图书馆、情报与文献学”领域的专家学者具有时事敏感性,能够紧跟政策导向,把研究与国家、社会的需要紧密结合起来。
6 新兴热点
通过“图书馆、情报与文献学”领域研究热点的知识演进图谱,可以发现和确定不同历史时段的研究新动向以及明确研究热点在整个研究领域中的地位,但关键词何时成为研究热点以及作为研究热点所持续的时间有多长等问题不明确,针对这些问题,我们对关键词进行突发性探测。关键词的突发性探测提供了特定关键字与出现频率激增相关联的证据,关键词的爆发表明一个潜在的话题已经或正在引起特定时期内科研人员的高度关注[23]。为探索国家社科基金“图书馆、情报与文献学”领域研究的新兴热点,文章对2009—2018 年项目的关键词进行突发值运算,提取近4 年的检测结果,并按突发强度进行排列(表1)。
表1 “图书馆、情报与文献学”领域2015—2018 年的突发关键词Table 1 Burst topical keywords in library,information and documentation science from 2015 to 2018
从关键词突发性检测结果来看,“融合”从2015—2016 年持续爆发;共有14 项基金进行了融合方面的研究,主要包括行业信息服务融合、突发事件多源情报融合、图书馆服务融合、媒介融合、文献内容分析与引文分析融合、用户个性化与实时性意图的融合等。大数据环境下,多源的数据信息与知识相互关联、相互印证,丰富着各个学科的知识体系,融合研究也已成为关注点,涵盖了方法融合、技术融合、模型融合、思想融合等方面的内容。
“社交媒体”从2015—2018 年持续爆发,且爆发强度较高,表明该关键词在近几年的出现频率较高。社交媒体也称为社会化媒体,是民众用来创作、分享、交流意见、观点及经验的虚拟社区和网络平台,主要包括社交网站、微博、微信、博客、论坛、播客等。近年来,社交媒体在互联网的支撑下发展迅速,传播的信息已成为民众浏览的重要内容,所以其相关研究就成了关注焦点。研究者以社交媒体为平台,进行了档案信息公开、公共服务、政府文件管理、学术交流行为、科研评价、信息可信度评估等方面的研究。
“一带一路”“数字化”“文本挖掘”从2016 年开始持续爆发。习近平在2013 年提出“一带一路”,随后学者们从国家经济、社会、政治、文化等方面进行了不同角度、不同层面的研究。国家社科基金关于“一带一路”的研究主要包括传统医药文献资源、图书贸易、图书馆国际合作、信息资源开发、图书馆延伸服务、互联互通等方面;文本挖掘是从文本数据中抽取有价值的信息和知识的计算机处理技术,它可以利用挖掘的知识去更好地组织相关信息,社科基金的相关研究涵盖了文本挖掘的方法、技术及应用,主要包括多元关联挖掘、语义挖掘、引文内容挖掘等在图书馆、企业、文献、健康管理、社会舆情、突发事件方面的应用;“数字化”的研究主要体现在文献学方面,侧重于古文献数字化资源库的建设。
7 结论
本文在前人研究的基础上,采用CiteSpace 可视化分析软件对非数据库的数据进行了文本挖掘和图谱分析,对“图书馆、情报与文献学”类国家社科基金研究的年度分布、主题架构、知识演进与新兴热点进行了审视与探讨,研究结论如下。
(1)从整体(1994—2018 年)来看,中国“图书馆、情报与文献学”类国家社科基金的项目数量呈增长趋势。从立项数量的时间分布来看,2006 年以前发展较为缓慢,之后立项数量增加迅猛。这与国家的政策导向相关,在2006 年召开的“第二届中美数字时代图书馆学情报学教育国际研讨会”上,与会图书情报学院院长签署了 《数字时代中国图书情报与档案学教育发展方向及行动纲要》,提出要将图书馆学、情报学、档案学等作为一个学科群来建设,以信息资源作为对象和逻辑起点进行知识更新与范畴重建[24]。
(2)2009—2018 年国家社科基金“图书馆、情报与文献学”领域的研究向着多元化方向迈进,主要涵盖了图书馆、文献整理、互联网、大数据、开放获取、知识服务、档案、企业和西部地区9 个研究主题,根据研究主题的相关性,文章将这些聚类划分为六大研究知识域:图书馆学、文献学、情报学、档案学、企业竞争情报和西部项目。本次研究是CiteSpace 软件一次新的应用,在对常规数据库中的数据题录进行分析时,CiteSpace 软件会自动提取期刊文献的关键词,这些关键词既包括表达核心主题因素的关键词,又包括非核心主题因素的关键词[25];在此次分析中,是通过对项目标题进行分词来获取关键词,所获取的关键词大多数属于表达核心主题因素的关键词,而非核心主题因素的关键词较少。但从可视化分析结果来看,本研究的知识图谱能清晰、客观地展现社科基金“图书馆、情报与文献学”领域的研究主题,其研究主题与国内外学术界关注的前沿主题基本一致。说明本研究设计合理,方法科学有效,进一步拓展了CiteSpace 软件的应用数据源,为非CiteSpace 数据库数据的可视化分析提供了参考。
(3)2009—2018 年国家社科基金“图书馆、情报与文献学”领域研究热点稳中有新,说明在重视传统研究的同时还密切关注了不断涌现的新热点。其知识演进可以归结为由传统研究主题逐渐向新兴主题的细化以及跨学科的交叉研究转变。在研究方法上,在大数据、互联网技术等的推动下,建立了以计算机程序辅助分析为核心的多元化研究手段;在研究层次上,引文分析已经向引用行为、引用情感等内容分析的研究深化;在研究方向上,具有明显的政策引导效应。
(4)通过对高突现强度基金项目的分析,发现社科基金“图书馆、情报与文献学”领域在2015—2018年研究前沿主题与科技发展和国家政策相关。融合、社交媒体、数字化、“一带一路”、文本挖掘是图书馆、情报与文献学领域研究的近期热点,其中,文本挖掘的相关研究是现在乃至未来一段时间内研究的主要方向。