基于复杂网络的图情档学科文献热点挖掘
2022-03-30巫芯宇
基金项目:教育部第二批产学研项目“‘双一流’大学新工科人才的元认知能力培养研究”(项目编号:202102654061);重庆市社会科学规划项年度青年项目“‘双一流’背景下图书馆协同本科专业建设服务模式创新研究”(项目编号:2021NDQN72)。
作者簡介:巫芯宇(1986-),女,馆员,博士研究生,研究方向:文化育人、智慧服务、智慧教育、科普阅读推广、知识付费、图书馆服务与管理等。
摘 要:[目的/意义]跨学科、跨领域研究已经成为学术研究的趋势,针对图情档学科的文献热点分析,有助于研究者快速掌握该领域的热点问题和未来趋势,也为跨领域融合提供理论参考。[方法/过程]以2016—2021年图情档学科文献为研究对象,利用复杂网络技术构建文献关键词共现网络,使用Gephi网络分析及可视化工具对图情档学科文献热点进行挖掘。[结果/结论]挖掘出图书馆学、情报学和档案学的热点研究主题后,从图情档一级学科的视角综合分析现有文献热点的特征,试图提出该学科下一步的学科热点主题和研究方向,为后续研究者提供指引和参考。
关键词:图情档学科;复杂网络;文献热点
DOI:10.3969/j.issn.1008-0821.2022.04.015
〔中图分类号〕G251 〔文献标识码〕A 〔文章编号〕1008-0821(2022)04-0168-10
Abstract:[Purpose/Significance]Interdisciplinary and interdisciplinary research has become the trend of academic research.The literature hot spot analysis of map,information and archives discipline helps researchers quickly grasp the hot issues and future trends in this field,and also provides theoretical reference for interdisciplinary integration.[Method/Process]Taking the subject literature of map and information archives from 2016 to 2021 as the research object,the literature keyword co-occurrence network was constructed by using complex network technology,and the hot spots of map and information archives were mined by using gephi network analysis and visualization tools.[Results/Conclusions]After excavating the hot research topics of Library Science,information science and archival science,the characteristics of the existing literature hot topics were analyzed from the perspective of the first-class discipline of graphics,information and archives,and the next literature hot topics and research direction of the discipline were put forward,so as to provide guidance and reference for subsequent researchers.
Key words:subject of library and information archives;complex network;literature hotspot
当今互联网背景下的信息技术革命颠覆了各行各业,教育领域尤为突出。由美国西姆学院提出的“新文科”概念,于2018年8月正式出现在我国中共中央发布的文件中。2019年,为了全面推进“四新”(即新工科、新医科、新文科、新农科)建设,教育部、科技部等13个部门联合启动了“六卓越一拔尖”计划2.0[1],至此“新文科”建设开始落地实施。2020年,在山东大学召开的新文科建设会议中发布了《新文科建设宣言》,全面部署新文科建设的相关工作[2]。“新文科”建设已成为我国今后高等教育所要着力推进的核心工作,在此背景下,图书情报与档案管理(以下简称图情档)学界的不少学者对图书情报学科的发展趋势进行积极的探索。初景利[3]认为,应积极响应新文科建设的战略,强化图情档学科与其他学科的交叉融合,致力于实现图情档从“软学科”到“硬学科”的再造。马费成等[4]提出要从关注社会需求、重视交叉融合、加强理论创新、坚守人文传统等方面来思考图情档学科未来发展。柯平[5]认为,图情档学科要迎合新文科建设的相关政策,努力打造出跨界融合的新文科建设模式。可见,图情档学科将在新文科建设征程中大有可为,提高图情档学科的科研水平,大力培育与其他学科交叉融合的新兴学科,是当前图情档学科建设所面临的重要问题。
图情档学科要想适应和契合新文科战略部署,必须重新审视本学科现有的定位。图情档学科作为一级学科,在学科门类上隶属于管理学,管理学既不是纯粹的理科,也不是纯粹的文科,本身具有很强的交叉学科性质[3]。近年来,图情档学科在人工智能、数据科学、公共文化管理、信息学、数字人文等新兴领域实现了跨学科的融合发展,并积累了大量的学术成果。要想更好地迎接新文科建设下的挑战,就需要对图情档学科既往的研究成果进行综合分析,挖掘出图情档学科研究热点,既可为该领域及跨领域的研究者作出指引,也可提升图情档学科的学术科研水平。笔者分析现有的图情档学科的研究热点文献,发现研究成果不超过5篇,其中孙艳红[6]、吴维芳[7]、柴欢等[8]都是对该学科领域内科研立项的情况进行统计分析,且多是通过简单的图表和描述性文字来分析数据,对关键词的统计和划分也带有很大的主观能动性,缺乏系统的文本处理方法和科学的关键词提取技术。因考虑到科研立项情况并非能涵盖所有的图情档学科研究热点,为更好地帮助研究者快速掌握该领域内全部的研究热点,故以2016—2021年图情档学科文献为研究对象,利用复杂网络技术构建文献关键词共现网络,使用Gephi网络分析及可视化工具挖掘图情档学科的热点研究主题,从而揭示图情档学科热点研究领域及各领域热点研究主题。
1 相关研究
复杂网络是对存在的网络现象及其复杂性进行解释的学科[9],因其以图像化的方式再现系统中各大主体及其之间的关系而受到不少学者的关注。该理论已被应用于文献挖掘领域,其理论模型是由大量的节点和连接两端节点的边组成。热点挖掘和识别是文献分析研究的重要方法之一,其是指探析一个学科领域的研究热点及其连接关系[10]。分析文献本身就是一个复杂、多阶段和耗时的过程,因此Feng L等[11]认为,在系统分析文献时要使用一定的文本挖掘技术和工具。关键词是文献文本挖掘中不可忽视的重要信息,是一篇文献表达其主题的重要手段。通过对某一学科领域内现有文献的关键词进行集合性分析,可揭示所在学科领域的总体特征、研究热点、研究主题及发展趋势等特性。
国内外学者基于复杂网络挖掘文献热点展开了积极的探索。如Su X等[12]对数字图书馆文献进行关键词的统计和聚类分析,基于复杂网络原理将提取到的关键词进行两两不重复的、无序的组合后,统计出每一对关键词出现的频次,形成共现矩阵,最终结合复杂网络中社区发现原理来挖掘不同的研究主题及主题之间的关系;Schossboeck J等[13]结合期刊内容,使用文本挖掘、主题建模、k-means聚类、社会网络分析和社区检测等数据挖掘方法,分析某一期刊上发表过的所有论文,最后从期刊管理的角度对研究结果进行深入地定性解释;辛娟娟等[10]也运用复杂网络中社区识别技术对林业领域的文献进行挖掘,最终总结出八大主题研究领域;蔡婷婷等[14]基于复杂网络理论对关键词进行分析,总结出危险品运输领域公路运输、道路运输和层次分析法三大研究热点;徐小莹等[15]基于网络嵌入进行大规模关键词共词分析,最终分析出近四年来图情学科热度的持续、增加和减退的研究主题。复杂网络的理论和文献热点挖掘技术在图情档学科领域暂处于起步阶段,研究成果较少,这也为本文的研究提供了理论和实践上的价值。
2 研究思路与框架
本研究首先利用TF-IDF方法提取文献语义表征,然后利用DBSCAN聚类算法发现研究主题较为集中的文献簇,最后利用复杂网络技术构建文献关键词共现网络,使用Gephi网络分析及可视化工具挖掘图情档学科的热点研究主题,研究思路与框架如图1所示。
2.1 文献采集
笔者以“图情档”“图书情报档案”“档案”“档案学”“图书情报”“图书馆”“数字人文”“舆情”“用户信息行为”等关键词,在知网数据库中以“主题”检索方式进行文献检索,文献检索范围主要覆盖2016—2021年上述关键词的相关中文文献。文献采集的原则力求采集到的数据尽可能全面、无遗漏,具体操作时,这个问题就转换为用于检索的关键词的设定尽可能全面。对于关键词的评估主要根据:一是检索结果中包含图情档学科相关学术期刊的中图分类号G25、G35、G26、G27、N99等,或者包含《中国图书馆学报》《信息资源管理学报》《图书情报知识》《图书馆论坛》等CSSCI、北大核心、中国科技核心类期刊;二是因为关键词之间存在共词关系,收集一定数量关键词之后新增关键词检索,结果去重之后几乎不再增加,就认为新增的关键词和已收集关键词存在共词关系,这一点在最终的分析中也能够印证。PageRank排序最高的“文献计量学”和“阅读推广”并没有被用做关键词去检索文献,因这两个词和本文所用到的多个关键词都存在共词关系,所在文献一样被收集到分析数据中。此外,本文的分析方法和结果也可以证明文献采集阶段所使用的关键词是“完备”和“收敛”的,文献的主题聚类和关键词网络关系分析分别使用的是TF-IDF和PageRank方法,这两种主流的文本关键词提取方法,底层原理不同,对于本文却可通过共词关系完美地解释分析结果的统一性和合理性。经过多次检索,确定关键词后,采用Python+Selenium自动化测试框架编写爬虫代码,从文献检索结果中获取标题、作者、关键词、摘要、年份等数据,最终采集到文献42 865篇。
2.2 数据预处理
由于采用上述不同关键词分别检索到的文献存在重复,因此首先對文献集进行去重。并删除会议通告、期刊介绍、选题指南等非研究型文献,共剩余35 297篇。最后,根据中图分类号规则[16],图情档学科相关学术期刊的中图分类号主要为G25、G35、G26、G27、N99等。此外,考虑到跨学科研究,保留D92、G40、G42、N94等相关文献进行分析,最终获得文献25 374篇。文献的题目、摘要和关键词这3项内容基本能够代表文献的内容,将这3个部分的文本内容作为一个整体处理。这样的处理方式主要是考虑到后面用TF-IDF方法对文本向量化时,同一个词如果同时在这3个部分中多处出现,则比单独的关键词更能突显文章主题。关键词是表达文献语义的重要手段,但常常也会存在表达偏差和表达不全,同时用文献的题目、摘要和关键词这3项内容来表示文章语义是更为合适的选择,Google Scholar、Aminer等学术搜索引擎同样也是用这种处理方式来代表文章语义。
2.3 文献向量化
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术[17]。选取文章出现频率高、有区分度的词语来进行文献的分类。
1)TF是词频(Term Frequency)
词频(TF)表示词条(关键字)在文本中出现的频率。
TFw=在某一类中词条w出现的次数该类中所有的词条数目(1)
2)IDF是逆向文件频率(Inverse Document Frequency)
逆向文件频率(IDF):总文本数除以包含该特定词条的文档数,得到的商再取对数。
IDF=log语料库的文档总数包含词条w的文档数+1(2)
分母之所以要加1,是为了避免分母为0。
3)TF-IDF实际上是:TF*IDF
通过特定文档的高频率词条和该词条在整体文档中的低文件频率,产生出高权重的TF-IDF。
TF-IDF=TF*IDF(3)
首先,对25 374篇文献的题目、摘要和关键词进行中文分词,结果作为全局语料字典,根据全局语料字典计算得到全局的IDF,然后,再将每一篇文献的题目、摘要和关键词作为一个整体计算TF,由此得到了每一个词的TF-IDF。用长度等于全局语料字典词数量(55 973个)的向量来作为文献的表征向量,对于特定的文献,在其题目、摘要和关键词内容中出现过的词,在全局语料对应位置写上TF-IDF值,在其他位置上就为0,这是一个巨大的稀疏向量(形状:全局语料字典词数*文献数量)。
2.4 PCA降维
虽然通过TF-IDF方法得到了在25 374篇文献的空间内以文献为单位的一个表征,但是这样的表征是高度稀疏的,直接作为下游机器学习模型的输入效果很差,因此引入PCA方法来解决这个问题。
PCA是常用的提取数据的手段,其功能为提取主成分(主要信息),摒弃冗余信息(次要信息),从而得到压缩后的数据,实现维度的下降。其设想通过投影矩阵将高维信息转换到另一个坐标系下,并通过平移将数据均值变为零。PCA认为,在变换过后的数据中,在某一维度上,数据分布得更分散,则认为对数据点分布情况的解释力就更强。故在PCA中,通过方差来衡量数据样本在各个方向上投影的分布情况,进而对有效的低维方向进行选择。KernelPCA是PCA的一个改进版,它将非线性可分的数据转换到一个适合对齐进行线性分类的新的低维子空间上,该PCA可以通过非线性映射将数据转换到高维空间里,在高维空间中使用PCA将其映射到另一个低维空间中,并通过线性分类器对样本进行划分。
笔者同时尝试了PCA和KernelPCA方法将文献表征向量的长度从55 973维压缩到50维,使表征矩阵不再稀疏。
2.5 文本聚类
DBSCAN是一种基于密度的聚类算法[18]。使用DBSCAN算法对25 374篇文献聚类,同时使用Cosine余弦距离作为距离度量,挖掘热点并过滤掉研究主题不是很集中的文献和噪声数据,将聚类的最小数量适量放大。尝试了多组搜索半径和最小样本数的组合,实验效果较好的是:使用PCA方法降维时,搜索半径设为0.05,最小样本数设为50。
通过实验,共聚得11个类簇:0类簇包含文献126篇,主题为图书馆学;1类簇包含文献127篇,主题为目录学,文献编目;2类簇包含文献318篇,主题为图书馆服务,阅读推广;3类簇包含文献114篇,主题为数字人文和信息技术与图情档学科的交叉研究;4类簇包含文献407篇,主题为文献计量;5类簇包含文献198篇,主题为档案管理模式和制度;6类簇包含文献160篇,主题为档案服务;7类簇包含文献54篇,主题为档案学理论研究;8类簇包含文献52篇,主题为图书馆服务体系研究;9类簇包含文献62篇,主题为图书馆发展研究;10类簇包含文献95篇,主题为新媒体平台和高校舆情;未聚类23 671篇,通过深入分析发现,未聚类的文献存在3类情况:第一类是研究主题较为笼统宽泛,方向比较大,没有立足于一个非常具体的研究点,比较典型的是综述类文献;第二类是研究主题虽然明确,但不具备数量上的集中性,属于小众研究方向,比如“音乐院校图书馆口述历史资源建设路径探索”(《四川戏剧》2021)这样冷门的跨学科的研究方向;第三类是噪声数据,经过数据预处理之后,仍然还会存在一部分噪声数据,比如“扎实求进,推动发展——北京市档案馆传达全国档案局长馆长会议精神”(《北京档案》2021),这种新闻简报类数据存在于知网的检索结果中,但在数据预处理时无法用单一的规则过滤,这一步借助无法聚类达到过滤的效果,消除了噪音数据对后续分析的影响。需要说明的是,聚类的平衡和效果,是经过多次实验比较之后得到的,将聚类的最小样本数设为50,从实验效果和数量占比上来讲也是很合理的,最小样本数設为100时,聚类结果是7类,而最小样本数设为40时,聚类结果就增加到23类;另外50篇大概占文献数量(25 376篇)的2%,一个研究主题虽然具有一定的数量,但却不超过总数的2%,应该也只能算很小众的研究主题,上述两点证明当前聚类结果是平衡合理的。此外,从全景图(图3)和局部图(图4)可以看出,紫色的点是未聚类的文献,散布在各处,蓝色、绿色、黄色的点都是聚成类的文献,而且相当集中,各类之间边界清晰,说明聚类效果较好。
2.6 构建关键词网络
上一步聚成类的11个类簇共1 713篇文献,共有关键词6 872个,去重后还有3 873个,一篇文献中同时出现两个关键词就可以形成一个二元关系,共7 517 503个二元组关系,去重后合并权重转化为三元组关系9 910个。本文基于复杂网络理论和Gephi可视化技术,统计不同关键词在文献集的每篇文献中同时出现的共现频次,构建关键词共现网络。由于每篇文献的多个关键词之间都是并列的,并不存在逻辑上必须的先后顺序,因此,关键词共现网络是一种无向网络。
3 研究结果与分析
复杂网络分析中,节点度、聚类系数和平均路径长度这3个基本概念可以很好地反映一个网络的基本特征。另外,衡量网络小世界结构的程度可以用小世界商值,即将当前网络的聚类系数C、平均路径长度L与同规模随机网络的聚类系数C和平均路径长度L进行比较运算,如果符合式(4),则该网络具有小世界结构倾向[19]:
3.1 图情档学科综合分析
根据Gephi来对关键词共现网络的网络特性进行统计分析,结果如表1所示。
按照宋靖华等[19]研究方法,构建另一个相同规模、相同密度的随机网络,计算该随机网络的特征参数,结果如表2所示。
用式(4)可得:
2.125大于1,说明图情档学科关键词共现网络具有较明显的小世界特性[20]。
利用Gephi社区探测方法进一步挖掘得到该网络的9个大社区和数个小社区,网络模块度Q值为0.799。通过OpenOrd算法进行750次迭代(其他参数为默认值)后得到关键词共现网络可视化图形,如图5所示。
3.2 热点关键词分析
计算节点的加权度、Betweenness Centrality、Eigenvector Centrality和PageRank值,并按降序排列,如表3所示。可以看出,文献计量学、阅读推广、图书馆、数字人文、档案学、知识图谱、可视化、网络舆情是热度较高的关键词。
3.3 热点关键词关联分析
根据社区发现结果,对节点上色和布局,通过k-核心算法过滤掉处于边缘位置的点,以发现热点关键词之间的关联关系,如图6和图7所示。
设定k等于8过滤,发现热点研究方向:文献计量学分别和知识图谱、图书情报、研究热点、可视化分析以及推拿为代表的一类医学方向;档案专业和图书情报专业;明清档案和档案文献;网络舆情和主流媒体、微信公众平台;档案工作和档案数字化。进一步提高k值,设定k等于12过滤,发现:文献计量学和医学的交叉研究很多;网络舆情涉及涉军、高利贷、山东和一些媒体;档案工作的几个方向和内容。
4 研究结果
4.1 图情档学科的热点研究主题
本文基于复杂网络技术,通过构建关键词共现网络,以2016—2021年图情档学科文献为研究对象,使用Gephi网络分析及可视化工具挖掘图情档学科的热点研究主题。
1)图书馆领域的研究热点最为聚集,文献核心主题以大数据、高校和公共图书馆、知识服务、人工智能、阅读推广、数字人文为主。总体来说,图书馆领域文献热点可分为图书馆实证研究和图书馆学科研究。图书馆实证研究是指对高校、公共等特定类型图书馆的实证问题研究;图书馆学科研究主要是指对图书馆学科的研究热点、专业建设或人才培养等方面的研究。
2)情报学领域主题可分为以文献计量、学术评价为主的情报学应用和大数据环境下情报学及情报学科建设两类。前者主要是使用Citespace、社会网络分析、共词分析等方法对各学科进行分析,数据显示主要应用于医学、计算机科学、教育等学科的热点分析及其他相关研究。后者主要是基于大数据、数据科学等数据技术对情报学的学科建设、人才培养、学科理论等学科发展问题进行研究。
3)档案领域文献热点集中在档案数字化、档案馆业务、档案学科研究及档案局业务等相关主题上。档案数字化包括档案信息化、电子文件、电子档案、大数据、区块链、单套制、云计算、双套制、数据库、人工智能等;档案馆业务包括档案资源、档案利用、档案服务、档案文化、档案编研、档案展览、档案库房、社交媒体、档案开放、城市记忆、公众参与等;档案学科研究包括知识图谱、文献计量、数字人文、档案教育、档案学研究、可视化、Citespace、人才培养、高等教育、研究热点等;档案局业务包括档案法、民生档案、档案安全、公共服务、档案工作人员、十三五、疫情防控、档案业务指导、档案宣传、县级档案、乡村振兴、档案管理队伍等。
4.2 热点研究主题的特征
1)文献计量学研究成果较多。文献计量学作为图情档学科的一个重要议题,经过多年发展已经成为该学科开展自身研究的一个重要方法,交叉程度不断加深。图情档文献热点关键词包括文献计量学、文献计量、引文分析、聚类分析、共词分析等,现主研人工智能的学者也把人工智能中流行数据可视化研究方法引入到文献计量学研究中。文献计量学不仅能解决传统的学科问题,还能为人工智能的研究提供理论知识和参考经验。
2)图情档学科与信息技术紧密结合。人工智能时代的来临,可视化、知识图谱、聚类分析和社会网络分析等许多具有代表性的技术和方法也影响着图情档学科的发展和研究。从表3可看出,可视化分析和Citespace等关键词在各种指标排序中都占有重要地位,图情档学科各领域研究均对可视化技术和工具有巨大的需求,国内被使用最多的是Citespace。以Citespace、Hist Cite为代表的可视化工具,对用户来说存在一定的使用门槛,未来,谁可以更好地掌握可视化技术和工具谁就将在图情档学科研究中占得先机。
3)图书馆资源建设和服务研究热度高,是近5年来我国图情档学科主要研究主题。从表3可看出,高校和公共图书馆、数字图书馆、阅读推广等与图书馆有关的关键词高居前位。根据阅读推广关键词被划分的社区分析发现,除图书馆、社会共享这一类传统的研究话题外,数字图书馆、新媒体、互联网+等新技术模式的关键词也占据重要地位,以“读者为中心”的图书馆服务也成为研究热点,包括认知差距、用户图像、信息素养、阅读推广和智慧化服务等主题。
4)跨领域、跨学科研究成为趋势。对当前图情档学科的研究热点挖掘后发现,图情档学科与其他学科的跨学科研究主要集中在“利用文献计量方法对某学科文献热点进行挖掘”和“数据技术、数字技术等和图情档学科的融合”两方面。“新文科”建设也要求图情档领域能尽快打通学科壁垒,打造跨学科的复合型创新人才。根据研究分析显示部分图书馆管理引入物流行业中的智能仓储技术,对图书馆管理工作的优化起到推动作用。而图书馆理论与在线教育融合研究这块研究很少,根据后疫情時代的需要,这些都具有很好的研究价值,值得学者们持续关注和深入研究。
4.3 热点主题的研究方向
当前,图情档学科建设面临着新环境、新理念、新资源和新模式。新环境指学科建设所面临的新社会和教育环境,包含一系列的国家战略措施,例如“十四五规划”“双一流建设”“新文科建设”等。新环境给图情档学科发展提出了新要求,“十四五规划”要求发展档案事业,深入推进全民阅读;“双一流建设”要求学科建设要结合产业需要,优化学术组织、学术评价机制等;“新文科建设”提出利用好新技术,实现学科间的跨界融合。新理念指内涵式、高质量的发展理念。新资源强调不仅要重视文字、音像、图像等传统资源,还要在学科建设中进行数据资源的使用和管理。新模式是指图情档学科要创新其模式来契合当前的社会环境和教育理念,构建图书馆学、情报学、档案学的人才培养模式。据此,笔者提出图情档学科下一步的热点主题和研究方向。
1)解读政策导向,契合国家战略。通过对当前图情档学科的研究热点挖掘可发现,除高校图书馆主题热点出现“双一流”高频词外,“新文科”“产业”等词均未作为该领域高频关键词出现。如何更好地解读政策导向,引领学科发展,是在教、学、研中都需深入思考的问题。如档案学研究开始涉及基层社会治理和惠民生,与中国共产党十八届三中全会正式提出社会治理的命题有直接关系,这将会是图情档学科研究的一个热点方向。
2)基于数据资源进行学科转型。对2016—2021年的图情档学科研究热点挖掘后发现,近期图情档学科议题大多围绕着“数据”进行,现有的研究主要是基于大数据、数据科学等数据技术对情报学的学科建设、人才培养、学科理论等学科发展问题进行研究。数据资源作为图书情报学科建设的驱动力,也要与图书馆学和档案学进行交叉融合。当前,数据科学、数据驱动和大数据研究相对较少,可作为未来研究的关注点之一,尤其是在双一流及新文科建设背景下,更容易获得社科基金或自然基金的支持。图情档学科转型要利用好数据科学等技术或方式,在追求科学、真实数据的同时,保留图情档自身的学科特色和内涵。
3)基于数字人文视角,进行跨学科融合。笔者对近5年图情档学科文献热点挖掘后发现,图情档学科建设与人工智能、数据科学、公共文化管理、数字人文等新兴领域实现跨学科的融合发展,并积累大量的学术成果。数字人文作为图情档的核心学科,其内涵是借助计算技术等手段来处理文本数据。图情档学科研究应当借助文本挖掘、语言处理等信息技术,对人文数据进行综合分析,实现跨学科、跨领域的交流和研究,致力于构建图情档领域的新型研究模式。
4)开展公共文化服务,传承传统文化。公共文化服务一贯是我国图情档研究领域的热点,公共图书馆、高校图书馆和档案馆都以向用户开展均等、高质量的文化活动为己任。当前受疫情的影响,图书馆及档案领域的应急管理和突发公共事件相关研究热度较高。大数据时代,承担传承社会记忆职能的图书馆和档案馆的载体形式发生较大的改变,除传统的法治、企业、家族等档案,现档案学的研究模式开始由纸质向电子化转变。信息技术的发展要求档案学要进行跨学科、跨领域融合,档案学与社会记忆的交叉融合的研究值得广大学者关注。同样,有关古籍保护学科建设问题也是图情档学科的重要议题。
5 结 语
本文基于复杂网络技术,通过构建关键词共现网络,以2016—2021年图情档学科文献为研究对象,文本处理上使用TF-IDF加权技术来分类文献,并尝试PCA和KernelPCA方法压缩文献表征向量,最终运用DBSCAN算法将文献聚类。文本处理后使用Gephi网络分析及可视化工具挖掘出图书馆学、情报学和档案学的热点研究主题。最终,从图情档一级学科的视角综合分析现有文献热点的特征,试图提出该学科下一步的文献热点主题和研究方向,为后续研究者提供指引和参考。期望本研究可以让该领域研究者在了解研究热点的基础上确定好自己的研究方向,也能为新研究者或跨领域研究者快速了解图情档学科、为跨领域融合提供参考。
参考文献
[1]中华人民共和国教育部.“六卓越一拔尖”计划2.0启动大会召开,掀起高教质量革命,助力打造质量中国[EB/OL].http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/moe_1485/201904/t20190429_380009.html,2021-03-18.
[2]澎湃新闻.新文科建设工作会在山东大学召开:《新文科建设宣言》发布[EB/OL].https://www.sohu.com/a/429260355_260616,2021-10-18.
[3]初景利.“新文科”呼唤图情档成为“硬”学科[J].图书与情报,2020,(6):1-3.
[4]马费成,李志元.新文科背景下我国图书情报学科的发展前景[J].中国图书馆学报,2020,46(6):4-15.
[5]柯平.新图情档——新文科建设中的图书情报与档案管理一级学科发展[J].情报资料工作,2021,42(1):15-20.
[6]孙艳红.国家基金项目视域下图情档学科研究现状、热点及趋势分析[J].图书馆工作与研究,2021,(3):93-101.
[7]吴维芳.基于文本可视化挖掘图情档前沿研究热点——来自国家社科基金2017—2019年图情档立项数据[J].机电兵船档案,2020,(3):26-28.
[8]柴欢,阮建海.基于2013—2017年国家基金项目的“图书馆、情报与档案管理”学科研究现状分析[J].情报科学,2019,37(8):163-169.
[9]吕莉媛.基于复杂网络的图书馆数字资源整合[J].情报科学,2009,27(12):1811-1815.
[10]辛娟娟,曹佳.基于复杂网络的文献热点挖掘及可视化[J].计算机工程与应用,2016,52(12):261-264,270.
[11]Feng L,Chiam Y K,Lo S K.Text-Mining Techniques and Tools for Systematic Literature Reviews:A Systematic Literature Review[C]//2017 24th Asia-Pacific Software Engineering Conference(APSEC).IEEE Computer Society,2017.
[12]Su X,Xia L.Topic Analysis of Digital Library Research from 2000 to 2009 in China:Based on the Statistical Data of Key Words Released By CSSCI[J].Journal of Library Science in China,2011,37(4):60-69.
[13]Schossboeck J,Edelmann N,Rizun N,et al.Scholarly Research and Publications Over Time:Identifying Trends for an Open Access Journal by Applying Data-Mining Methods[J].Septentrio Conference Series,2020,4.
[14]蔡婷婷,刘祥伟.基于复杂网络的危险品运输领域研究热点的实证分析[J].延边大学学报:自然科学版,2020,46(3):226-232.
[15]徐小莹,李辉.图书情报学科热点挖掘——基于网络嵌入的大规模关键词共词分析[J].新世纪图书馆,2021,(4):88-96.
[16]杨爱青,马秀峰,張风燕,等.g指数在共词分析主题词选取中的应用研究[J].情报杂志,2012,31(2):52-55,74.
[17]赵忠伟,程齐凯.信息检索领域主题研究——基于SIGIR邮件列表和会议论文的比较研究[J].数字图书馆论坛,2017,(6):46-52.
[18]王光,林国宇.改进的自适应参数DBSCAN聚类算法[J].计算机工程与应用,2020,56(14):45-51.
[19]宋靖华,龚贤典.基于复杂网络分析的社区空间网络评价与优化[C]//高等学校建筑学专业教学指导分委员会建筑数字技术教学工作委员会.数智营造:2020年全国建筑院系建筑数字技术教学与研究学术研讨会论文集.高等学校建筑学专业教学指导分委员会建筑数字技术教学工作委员会:全国高校建筑学学科专业指导委员会建筑数字技术教学工作委员会,2020:39-45.
[20]Watts D J,Strogatz S H.Collective Dynamics of‘Small-World’Networks[J].Nature,1998,393(6684):440-442.
(责任编辑:郭沫含)