二十六年来敦煌学研究的图书情报学分析
2020-06-15师俊杰
内容摘要:本文运用Citespace这一科学计量学软件,对CNKI数据库收录的核心期刊库和CSSCI库中敦煌学文献做了详细的可视化分析。绘制出了26年来敦煌学研究的趋势图,学者关系知识图谱,关键词知识图谱,热点演进知识图谱、文献共被引知识图谱、发文机构和发文期刊图;通过图形分析,总结了敦煌学发展趋势,学者研究团队关系,指出了敦煌学的研究的演进轨迹和热点,并对发文机构和发文刊物做了详细梳理。这在一定程度上廓清了敦煌学研究的整体状态、主题结构及历史演变等特征,对敦煌学研究有良好的参考借鉴作用。
关键词:敦煌学;知识图谱;Citespace;可视化分析
中图分类号:C7 文献标识码:A 文章编号:1000-4106(2020)04-0147-10
Abstract:Using the scientific metrology software Citespace, this paper conducts a detailed visual analysis of the journal collection in the CNKI academic research database and the Dunhuang literature in the CSSCI library. This method of analysis condenses the past 26 years of Dunhuang studies into various “maps,” including a map of relations between scholars, a knowledge map of keywords, a map of which topics have been most popular, and a map of the institutions that have published research and the academic journals through which their work was published. This visual analysis yields information on various areas of Dunhuang studies. In particular, trends in the development of Dunhuang studies and the relationship between research teams has been summarized by this process, which shows the evolutionary path this field of study has taken and the hotspots of research activity by which it has traveled. The strategy of mapping provides a clear look at the academic organizations and journals that manifest the current state of Dunhuang studies, and clarifies the characteristics, structure of themes, and historical evolution of the discipline.
Keywords:Dunhuang studies; knowledge map; Citespace; visual analysis
一 目的和意義
敦煌学自20世纪初发端以来,研究成果丰硕,相关研究论著目录专著已有多部,尤以樊锦诗、李国、杨富学编《中国敦煌学论著目录》最为全面,据统计截止2007年仅论文数量逾17000余篇[1];如此庞大数量的敦煌学研究论著信息为学者提供了极大的便利,也为分析研究提供了基础数据支撑。由于这些论著多为目录收集分类的定性研究,而与之关联的反映学科现状及热点的定量研究却鲜有论及。因此对敦煌学研究成果进行系统性的梳理,绘制出年敦煌学研究的趋势图、学者关系图、关键词知识图谱、热点演进知识图谱、文献共被引知识图谱、发文机构图与发文期刊图,应用科学计量学、数据和信息可视化的方法对敦煌学进行多元、分时、动态分析是本次研究的主要目的。
鉴于中文核心期刊库与中文社会科学引文索引库(CSSCI)收录的权威性、代表性,本文选取CNKI数据库中的中文核心期刊库与中文社会科学引文索引库收录的敦煌学研究论文为数据源,以知识图谱分析软件Citespace为工具,以期建立敦煌学研究知识图谱;用知识图谱研究中常用的文献计量分析法和可视化呈现为手段,从敦煌学研究的发展历史、人物关系、主题分布、机构分布和刊物分布等多方面梳理该领域的发展概况,识别敦煌学研究的整体发展脉络,通过挖掘敦煌学研究随时间的演进过程;掌握其前沿与热点,最后利用数据分析的方法对研究机构及发文刊物进行解读获取其学科和刊载特征。因此,针对敦煌学的知识图谱研究是非常必要的,其结果对于了解敦煌学研究整体状态有良好的参考借鉴意义。
二 研究方法和数据来源
(一)分析工具
21世纪以来应用于信息科技及图书情报领域的知识图谱分析技术得到长足发展,已经形成基础理论、方法和应用研究组成的完整的知识体系,知识图谱的可视化技术与方法的应用在多学科领域中,已经有非常成熟分析软件且有多种成功应用范例。目前国内最为常用的为美国德雷塞尔大学陈超美教授开发的软件Citespace[2],具有完整的功能及应用说明文档,重要的是具有相对较好的中文数据支持功能,是一款适合敦煌学研究的可视化分析工具。
(二)数据获取及筛选
为保证数据的科学严谨,以及分析数据的真实规范性,数据获取包含自1992年起中文核心期刊目录、1998年起CSSCI目录,截至日期为2018年12月31日,共收录27年敦煌学研究目录数据。敦煌学涉及学科广泛,研究范围囊括中国图书分类22个类目的17个类目[3]。为了获取最大量数据,检索采用主题词为“敦煌”,检索文献分类目录去除了“农业科技”“经济与管理科学” “社会科学I辑”部分无关子类目,按照初选宁多勿缺的原则,获取最大量的初选目录,然后再手工剔除无关文献,以保证目录数据完整。最后共获取文献7231条作为基本数据,逐条审查去除短讯、公告及不相关文献以获得数据以便分析使用,最终有效记录6346条。
(三)分析结果
1. 发文量的时间分析
中文核心期刊及CSSCI的收录原因,从图中看出本次数据最早为1992年,相对敦煌学研究的起始时间较晚[4]。整体看,文章发表呈现增长的趋势,其中增长突出的时间段为2000至2009年。图中1994、2000、2009年这三个节点为论文发表突发年份,图形中显示为高峰点,经过统计比对刊物年度发文量找到原因:1994年《档案》较前一年多发9篇,《敦煌研究》增加6篇,形成1994年小的峰值;2000年《敦煌研究》较1999年多发表26篇,发文刊物增加12家,其他刊物发文也略有增加因而形成小峰值;2009年较2008年《艺术百家》增加17篇,《中国藏学》增加7篇,《文献》、《敦煌研究》等刊物的发文均有增加,最终形成本次统计的年发文量的高峰值。忽略三个峰值整体看趋势是稳定(2000年之前)至增长(2000—2009年)至稳定(2009以后)的趋势。
2. 作者共现分析
(1)通过作者共现分析,能够识别出一个学科或领域的核心作者及其之间的合作强度和互引关系[5]。在Citespace中将为时间跨度为1992年—2018年,单个时间分割为1年,选取每1年发文最多的前50名作者形成关系网络图,图谱显示共有作者节点559个,404连线,网络密度为0.0026。其中,节点大小代表作者发文次数,发文越多越高,圆点越大。结点之间的连线表示两个作者之间的关系,连线越粗,表明共现次数越多,联系越紧密。
图2中节点最大的是郑炳林、沙武田、杨富学三位学者,他们的名字分别出现为65次,53次,52次。发文10次以上有49名学者,反映出敦煌学研究学者群的强大实力。学者群分别以郑炳林、沙武田、樊锦诗、王旭东、汪万福为核心形成互相关联网络,在图形上反映出两个明显的学者关系网:以郑炳林教授为代表的敦煌学学者关系网显示出敦煌学学者紧密的学术关联关系;以王旭东为代表的石窟保护研究团体学者形成另一个学者协作关系网;其中樊锦诗、彭金章两位先生是两个学术团体的关联者,两位先生作为连接桥将文科、理工科紧密地结合起来,形成互相关联的学者合作关联网络,是敦煌学研究和石窟保护研究互相关联、齐头共进的典型形象展示。同时也可以看出存在部分比较分散的研究团队和个人,显示出这些学术团队、个人与其他学术团队学术联系较弱,长此以往将不利于个人或团队的学术发展。
(2)學者发文排名统计
论文发表量前20名的作者排名如表1所示。
发文最多的为郑炳林教授,其次为沙武田教授,第三为杨富学教授;发文量第四、第五的是王旭东、汪万福博士为石窟保护研究的学者,另有排名第十的郭青林、第十九的苏伯民博士也是石窟保护研究的学者,前20名中他们四位都为敦煌研究院学者,说明敦煌研究院在石窟保护领域研究中占主导地位,其他16位为敦煌学社科领域的学者,反映出石窟保护研究、敦煌学社科领域研究的协同发展的良好局面。
(3)关键词分析
关键词表达了论文的研究主题,是论文的核心与精髓。可通过绘制高频关键词共现网络,利用关键词之间的紧密程度分析知识图谱研究的主题[6]。Citespace对敦煌学关键词进行分析,分析的时间跨度为1992—2018年,单个时间分区分割为2年,提取每2年的时间分区中被引频次最高的50个关键词,生成关键词节点351个,连线1523条,网络密度0.0248的知识图谱。
高被引关键词最早都出现在1992—1994年,且部分是中介中心性大于0.1的关键节点[7],在关系网络中出现关键词趋于集中接近重叠的状态,致使图像显示不清而不利于识别,因此将关键词出现频次大于100的关键词视图显示设置为“不显示”,得到如图相对清晰的关键词图谱(图3)。关键词出现排名前20的词汇数量多(“敦煌”作为检索词出现1194次,不具有图形显示意义,略去),出现频率高,时间段集中,如表2所示。
图3是经过优化显示后的关键词知识图谱(隐藏了频次大于100的17个关键词),颜色随时间变化由紫色渐变为黄色,黄色显示为最新出现关键词,节点越大关键词字体越大意味着出现的次数越多,可以看到351个关键词都是通过不同颜色的节点连线连接起来,说明敦煌学研究的主题丰富且关联性良好,连线越粗关联数量越大,反应出相关研究的数量多具有重要性,紫色连线和黄色的连线基本均匀分布且相互关联显示出早期和近期研究都基于核心基础上且具有良好的学术继承性。
表2为排名前20的敦煌学研究的关键词。中心性测度了主题的重要程度[8],中心性大于等于0.1的词汇有11个:莫高窟、敦煌壁画、敦煌文献、敦煌石窟、敦煌遗书、敦煌学、敦煌研究院、敦煌学研究、唐代、藏经洞文书、藏经洞,这些词汇在图谱中重点显示,成为关联各个不同主题的关键节点。大于100次的高频关键词出现在1992—1994年,这些关键词节点在网络中出现时间集中、关联紧密,图像显示为重合节点,在一定程度上说明敦煌学知识图谱的研究都是围绕这些核心展开的,反映出敦煌学研究的核心词汇有较好的继承性。
(4)敦煌学研究热点演变分析
关键词是作者对文章核心研究内容的精炼,学科领域里高频次出现的关键词和从数据样本中对每一篇文献进行提取后分析出的名词短语可被视为该领域的研究热点[9]。在Citespace软件中,高频次关键词被用来确定一个领域的研究热点[10]。借助Citespace可视化软件绘出关键词的时区图能够清晰地展示时间维度上敦煌学研究的演进过程,每个时间分割区间内可见的高频关键词即可视为该区间的研究热点。
为了视图清晰,图4为优化显示的时区分布视图(只显示了部分高频关键词)。可以看出关键词集中出现且与其他节点连线丰富,表明该时区积累了大量有影响的成果,密集的连线且不同颜色的均匀分布反映出研究的传承良好,研究没有中断。随着时间演变,高频关键词不断变化,区间内的高频关键词即为区间内的研究热点,每个区间内的前2位关键词统计见表3。图中也可见几个时间段关键词显示相对较少,反映出时间段内研究相对分散、热点不突出:区间如2010—2011年、2016—2017年。
按照每2年时间分区排名前50的关键词统计排名统计方式,总计取得351个关键词,其中最早出现在1992—1993年的关键词有86个,接近四分之一的量。1992—1993年论文数量为242篇,占论文总数的3.8%,反映出这个时期敦煌学研究的范围的广泛性,同时也体现这个时期的学术研究成果的重要性,具有承上启下的作用。
图4中关键词散乱复杂但是仍然可看出突出的几个关键词:敦煌学、归义军、唐代、文物保护、丝绸之路、一带一路。这些词汇在图4时区分布视图中体现为深紫色的圆点,且连线丰富,也是表3中的高频词,在时间趋势上这些特征词汇可解读为区段内的研究热点及趋势:2000年前敦煌学、归义军、唐代这些关键词的出现反映出基于藏经洞及敦煌石窟的研究为核心,研究数量多且广泛,研究突出的典型为:归义军研究和唐代相关研究;2000年起敦煌学研究在以前的核心基础上出现“文物保护”、“数字化”且成为研究热点,与敦煌石窟关联的“丝绸之路”相关研究也成为热点;2010年后国家“一带一路”战略背景下与敦煌有关的民族研究、文化交流、宗教研究成为敦煌学研究的又一个热点。
为了说明这些高频关键词的重要性,更清晰的看出关联关系及演变过程,以“敦煌学”关键词为例,从关键词时区图(图4)中单独将“敦煌学”时区图子网络提取显示,如图5。
可以看出“敦煌学”关键词出现区间在区间1994年,出现次数170次,与各区间关键词的连线较粗说明相关研究成果丰富,同时看出随着时间序列的演进,关键词“敦煌学”与其他关键词的连线保持延续。排除与表2高频关键词的复杂关联可以看出1994年以后与“敦煌学”关联的研究有:王道士、唐研究、敦煌文化、目录学、伯希和、丝绸之路、数字化、书法艺术、敦煌哲学、综述,反映出在各个区间段与“敦煌学”关联的主题由基于敦煌石窟和藏经洞出土文献向综合(“丝绸之路”“学术史”“综述”)研究发展,并利用不同学科(“目录学”“书法艺术”“数字化”)拓展研究方法。
(5)引用文献分析
文献的被引次数即参考文献中被引次数,在一定程度上可以直接反映文献本身的学术价值。被引次数越多,学术价值自然就越高。由于CNKI数据库导出数据不支持文献共被引分析,本次被引文献分析采用CSSCI数据库数据,检索词为“敦煌”条件为“所有字段”,时间为1998—2018年,可用分析数据4527条,参数设置为软件初始默认。文献共被引知识图谱如图6。
按时间序列共被引文献的主要关系网有:
1998—2000年:彭金章沙武田1998年發表的《敦煌莫高窟北区洞窟清理发掘简报》被引7次,是敦煌莫高窟北区石窟考古研究的重要成果,与其有共被引关系的文献有荣新江的《敦煌归义军曹氏统治者为粟特后裔说》,以及沙武田的《吐蕃统治时期敦煌石窟供养人画像考察》等。其次是郭宏等人1999发表的《敦煌莫高窟壁画酥碱病害机理研究之三》被引6次,系列文章揭示敦煌壁画发生酥碱病变的主要原因,为后来壁画修复材料和工艺筛选提供了可靠的依据,与其关联文献有李最雄《敦煌石窟的保护现状和面临的任务》等。
2001—2010年:王旭东等2002年发表《银川西夏3号陵的现状及保护加固研究》被引8次,提出了木质锚杆锚固、裂隙灌浆、表面防风化加固与加强游客管理等综合保护措施,是土遗址保护研究的范例,被后来的土遗址保护文献广泛引证,与其关联的文献有赵海英等《西北干旱区土遗址的主要病害及成因》等。
2011—2018年:杨富学2011年发表《《乐山堂神记》与福建摩尼教——霞浦与敦煌吐鲁番等摩尼教文献的比较研究》被引12次,是继陈进国博士与林鋆先生后对摩尼教文献《乐山堂神记》的深入解读,通过与敦煌吐鲁番出土摩尼教文献对比分析了摩尼教在福建的演进史并确认了摩尼教的华化时间,是摩尼教研究的重要文章,与其相关文献有马小鹤《明教“五佛”考——霞浦文书研究》等。杨利民2013年发表《敦煌哲学:概念的界定与研究的价值》被引7次,对敦煌哲学这一概念界定并分析了研究价值,与其关联文献有范鹏2013年发表的《敦煌哲学:如何可能与怎样可行》等文献,敦煌哲学的提出对拓展敦煌学丰富中国哲学具有重要意义。
(6)发文机构分析
由图7看出发文最多的三个机构为敦煌研究院、兰州大学和西北师范大学,三个机构都位于甘肃省,在敦煌学研究上既有地域优势,又有学术优势;从作者排名表也可看出,论文发表数量前十名的作者除了一位浙江大学的张涌泉外,其他都来自排名前两位机构。同时也可以看出敦煌学的研究排名前十的机构除了敦煌研究院、西北师范大学外其余都为全国重点高校,足见敦煌学研究具有较高的水准且广泛地域分布,并非局限于区域性研究。机构中发文数量存在极大差别,也说明不同机构在敦煌学相关研究程度的差异。
(7)发文期刊分析
本次分析刊物总数为537种,图表为发表论文前30的刊物,基本为社科、艺术类刊物,图表为1992—2018年刊文数量,最多为《敦煌研究》,其次为《敦煌学辑刊》,《中国藏学》,《文献》,《甘肃社会科学》,为发文排名前五的刊物。作为敦煌学研究的两大重要刊物《敦煌研究》、《敦煌学辑刊》刊文占总数约为41%。《敦煌研究》以接近2000篇的数量遥遥领先,反映出在敦煌学研究的重要作用。需要说明本文分析数据与刊物实际数据存在差异,原因除了检索无法百分之百囊括敦煌学及相关文献外,还与CNKI数据库收录中文核心期刊库及CSSCI收录相关。因此,本文知识图谱分析展示目前CNKI数据库收录所显示的真实结果,反映了作为趋势的客观研究结果。
四 结论及不足
本文运用Citespace科学计量学软件,对CNKI数据库收录的核心期刊库和CSSCI数据库中敦煌学研究的数据进行分析,绘制出26年敦煌学研究的趋势图,学者关系图,关键词知识图谱,热点演进知识图谱及发文机构发文期刊图,通过图形分析,得出以下结论:
1. 26年来对敦煌学研究趋势处于稳定—增长—稳定的趋势,尤其2000年至2009年为敦煌学研究论著的高速发展期,研究成果丰硕,数量较前一阶段翻番。
2. 整体学者团队的学术圈子广泛、联系紧密且具有强大的学术实力,形成了敦煌学研究团队稳定的学术关系网。
3. 敦煌学研究关键词数量主题丰富明确,不同主题的研究遍布各时间区段具有良好的继承性,区段内热点明显,突出主题关键词为敦煌学、归义军、唐代、文物保护、丝绸之路、一带一路等。
4. 高被引文献反映出文献具有较高学术影响力,CSSCI数据库中高被引学者有杨富学、王旭东等。
5. 发文机构多为高校和科研机构,具有较高的研究水准且地域分布广泛。
6. 刊载论著的刊物有537种,以社科、艺术类居多,也有部分基础科学类刊物,数据显示《敦煌研究》、《敦煌学辑刊》为重要载文刊物。
本文分析基础文献源自核心期刊和CSSCI数据库,基本能涵盖敦煌学研究的大多数研究成果。一些与敦煌学相关的刊物:《敦煌吐鲁番研究》、《敦煌学》、《出土文献研究》等,以及历年的研究论文集、会议论文集等刊载文献因为没有被核心期刊和CSSCI数据库收录,所以不在本次分析之内,因此分析结果展示解读上存在一定的缺失和局限性。另外,在数据采集、软件分析过程中各种因素的不足对结果有一定的影响,如:
1. 经过各种检索方式测试,此次敦煌学研究文献的检索是通过主题方式最大限度地获取敦煌学相关文献后人工逐条剔除文档而形成,文献遗漏在所难免,因此对大量相关文献的精确获取方法有待继续学习研究。
2. Citespace软件对CNKI支持亟待完善,不能完成文献、期刊的共被引分析,文献耦合分析及双图叠加等功能[11]。为了分析的完整性,本文单独对CSSCI数据库相关文献做了文献被引分析,结果存在一定的局限性。
3. 由于核心期刊及CSSCI收录期刊的原因,从CNKI采集原始数据受限定,数据收录并非全部从1992年起,而是以数据库最早收录时间为起始时间,因此,数据统计结果的呈现是受条件限制的,并非包含所有时间段数据。如在CNKI数据库中《敦煌学辑刊》CSSCI收录时间为2004年起,核心期刊收录《敦煌学辑刊》的时间为2008年起,本次数据采集起始时间采用2004年为起始时间。
4. 采集文献数据比分析文献数据多41条,原因为数据转换时这些数据结构不一致,不被软件识别而导致数量差异,因此,转换软件对CNKI数据的兼容性有待优化。
5. 关键词分析时由于敦煌学关键词数量较大且关联关系紧密造成图像重叠严重,影响文字视图和图形分辨,需取消部分高频关键词后才呈现出较相对清晰视图,希望后续软件在显示算法上有所改进。
6. 基于数据库文献分析的Citespace软件在应用中并不能满足所有需求,新型的文本可视化方法不断涌现,尤其是使用自然语言处理和可视化结合的分析方法需要笔者不断的学习,以做出更加完整和准确的评价。
参考文献:
[1]樊锦诗,李国,杨富学,编.中国敦煌学论著目录[M].甘肃人民出版社,2010:1.
[2]韩增林,李彬,张坤领,李漩.基于Citespace的中国海洋经济研究的知识图谱分析[J].地理科学,2016(5):643-650.
[3]师俊杰.专业图书馆馆藏及借阅情况统计分析[J].甘肃科技,2018(1):57-60.
[4]季羡林,主编.敦煌学大辞典[M].上海:上海辞书出版社,1998:17-20.
[5]胡泽文,孙建军,武夷山.国内知识图谱应用研究综述[J].图书情报工作,2013(3):131-137.
[6]曹树金,吴育冰,韦景竹,马翠嫦.知识图谱研究的脉络、流派与趋势——基于SSCI与CSSCI期刊论文的计量与可视化[J],中国图书馆学报.2015(5):16-34.
[7]邱均平,吕红.近五年国际图书情报学研究热点、前沿及其知识基础——基于17种外文期刊知识图谱的可视化分析[J].图书情报知识,2013(3):4-14.
[8]刘则渊,陈悦,侯海燕,等.科学知识图谱:方法与应用[M].北京:人民出版社,2008:223.
[9]赵蓉英,许丽敏.文献计量学发展演进与研究前沿的知识图谱探析[J].中国图书馆学报,2010(5):60-68.
[10]闻丽俐,徐勤:基于Citespace的国内阅读眼动研究(1992—2017)科学知识图谱分析[J].河南工业大学学报,2018(2):83-93.
[11]李杰,陈超美,著.Citespace:科技文本挖掘及可视化[M].北京:首都經济贸易大学出版社,2016:65-66.