APP下载

文献计量学视角下的全球数字人文发展现状研究

2020-02-08段力萌

图书馆 2020年1期
关键词:发文人文领域

段力萌 魏 凤

(1.中国科学院武汉文献情报中心 武汉 430071;2.中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190;3.科技大数据湖北省重点实验室 武汉 430071)

1 引言

数字人文(Digital Humanities),又称人文计算(Humanities Computing),是由人文知识、计算机网络基础知识、数据分析和可视化技术以及算法模型等多种知识和技术相融合而发展形成的新兴跨学科研究领域[1-5]。近年来,云计算、大数据、机器学习以及人工智能等新兴技术的发展,为人文科学、自然科学和社会科学都带来了巨大的变化和影响[6-7]。数字人文在全球大数据浪潮与技术革新的背景下应运而生,给传统的人文科学、自然科学和社会科学的研究提供了新的研究方法和研究范式[8-9]。数字人文的发展,既是数字时代信息技术向社会各行业各领域全面渗透在人文科学领域的具体体现,也是人文科学自身响应时代发展要求,对思维模式、研究范式、研究平台等进行变革的有益尝试[10-12]。2018 年,伴随着数字中国理念的兴起和哈佛大学中国历代人物传记资料库(CBDB)的示范效应,数字人文研究进一步受到中国人文学界的关注,催生了众多领域的新研究,成为了2018 年度中国十大学术热点之一,也成为了高校图书馆支撑与参与学术研究的新路径[13]。

分析全球数字人文的研究现状和发展趋势,能够把握当前数字人文领域的研究热点,有利于推动国内在该领域的发展。本文运用CiteSpace 和Derwent Data Analyzer(TDA)对数字人文领域全球的文献资源进行计量分析和挖掘,旨在揭示数字人文领域的研究趋势以及各个国家、地区以及机构对该领域的研究现状;文章还对全球数字人文领域的国家、机构和作者的合作网络关系以及当前研究热点进行分析,为促进我国数字人文领域的发展,提高数字人文研究水平提供意见和建议。

2 数据来源与研究方法

2.1 数据来源

文献计量分析主要通过Web of ScienceTM核心合集数据库进行,Web of ScienceTM核心合集数据库是全球获取学术信息的重要数据库,收录了各个学科领域中最具权威性和影响力的学术期刊、会议论文集以及学术著作[14]。笔者以“数字人文”和“人文计算”作为关键词,检索式为“TS=(Digital Humanities OR Humanities Computing OR (Computing in the Humanities))”进行检索。检索时间截至2019 年7月25 日,共检索出1 610 条记录。

2.2 分析工具和方法

为了反映数字人文领域的全球发展态势与分布状况,本文以全球数字人文领域文献为研究对象,开展数字人文领域的发展趋势分析。为了针对数字人文领域开展相关研究,本文主要采用了文献调研法、文献计量法和可视化分析等方法。①文献调研法:开展数字人文领域论文调研,了解数字人文领域的相关研究内容;②文献计量法:通过对文献信息的检索,对数字人文领域的发展趋势、国家、机构等分布状况开展文献计量分析;③可视化分析:主要应用CiteSpace 和Derwent Data Analyzer 分析工具。 CiteSpace 是用来分析和可视共被引网络的Java 应用程序,着眼于科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款软件[15]。Derwent Data Analyzer®是一个具有强大分析功能的文本挖掘软件,可以对文本数据进行多角度的数据挖掘和可视化的全景分析[16]。

笔者通过分析数字人文领域的研究趋势、主要国家、地区和机构以及学科、来源期刊,并进一步对全球数字人文领域的国家、机构和作者的合作网络关系、高被引论文进行探讨,研究了数字人文领域关键词、突现词,以期把握目前数字人文领域的研究热点和新兴研究领域。

3 研究结果

3.1 全球数字人文研究趋势及现状分析

3.1.1 研究趋势

数字人文领域出现的首篇文章是Duro A 在1968 年发表的《意大利的人文计算活动》(Humanities Computing Activities in Italy)[17]。该文描述了人文计算领域的先驱——意大利著名人文学者Roberto Busa 在20 世纪40 年代开始利用计算机分析文学文本,将计算机作为人文研究和社会科学的一种辅助手段[18]。该研究表明数字人文的产生本质上属于一种方法论和研究范式的创新,其目标是将现代信息技术融入传统的人文研究与教学过程中,从而在根本上改变人文知识的获取、标注、比较、取样、阐释与表现方式[19]。根据图1,可将数字人文领域的发展分为3 个阶段:

图1 全球数字人文领域Web of ScienceTM 核心合集论文年度分布图

(1)第一阶段:1968—2000 年。该阶段发文量比较少,年均发文量均在10 篇及10 篇以下,处于理论积累期。该阶段的计算机技术多用来处理人文资料,进行知识生产,主要进行人文知识的电子和数字化保存,使得知识的载体发生了根本性变革。

(2)第二阶段:2001 年—2010 年。该阶段发文量有了明显增加,年均10 篇,到2010 年,发文量更是高达54篇,处于数字人文发展期。该阶段发文量显著增加受益于2001 年4 月布莱克维尔出版社(Blackwell Publishing)首次出版了一部以“数字人文”为书名的图书《数字人文指南》(Companion to Digital Humanities)[20]。在此期间,数字人文组织联盟(Alliance of Digital Humanities Organizations,ADHO)于2005 年成立[21], 2007 年成立了国际数字人文中心网络(centerNet)[22],数字人文相关的组织和研究中心也相继成立[23]。除计算机科学外,信息科学与图书馆学、文学、语言学等众多学科也开展了数字人文研究。

(3)第三阶段:2011年至今(2019年的数据还不完整)。发文量呈现快速增长的趋势,处于数字人文发展的高速增长期。该阶段出现大规模数字人文研究者,自从2010 年数字人文的概念正式被提出以来, 多个专业领域对它的关注和研究一直呈现上升的趋势[24]。

3.1.2 国家和机构分析

(1)国家和地区分布

图2 数字人文领域文献的Top 10 国家/地区分布

根据国家、地区的分布情况(图2—3),可以发现数字人文领域发文量最多的国家分别为美国和英国,占比分别达到32.86%和13.91%,二者已经超过了总发文数的40%。除此之外,数字人文领域研究成果最多的分别为德国(126 篇)、加拿大(95 篇)和意大利(74 篇)。中国在数字人文领域的发文数量为38 篇,排在第10 位。数字人文研究在全球范围内均有分布,分布于76 个国家和地区。由于欧洲拥有多个数字人文领域的科研中心和联盟,所以发文热度较高的国家大多在欧洲,但是学术研究的重心却是美国。中国在数字人文领域的研究成果比较少,仍有很大的发展空间,因此仍需加强在数字人文领域的科研投入。

图3 数字人文领域文献的国家/地区分布图

(2)机构分布

通过对全球数字人文领域Top 10 的发文机构进行分析(图4),可以发现英国的伦敦大学发文量最多,一共为103篇,占总发文量的6.40%。伦敦大学学院和伦敦国王学院是伦敦大学的主要发文机构,前者共发表47 篇论文,后者发表了44 篇,发文量总和占伦敦大学在数字人文领域总发文量的88%,可见这两个机构是伦敦大学在数字人文领域的主要研究机构。发文量排名第二的机构是美国的加利福尼亚大学,发文数量为36 篇,其余的8 所机构分别为英国牛津大学、美国得克萨斯大学、美国伊利诺伊大学、美国纽约城市大学、美国印第安纳大学、美国佛罗里达州立大学、荷兰乌德勒支大学、美国马里兰大学帕克分校,发文量分别为24 篇、23 篇、22 篇、18 篇、18 篇、18 篇、18 篇、17 篇。

图4 数字人文领域文献的机构分布图

全球数字人文领域发文TOP 10 的机构中,英国的伦敦大学高居榜首,其次是加利福尼亚大学,牛津大学紧跟其后,处于第三。全球发文前十的机构中,美国7 个,英国2个以及荷兰1 个。与图2—3 相呼应,美国的发文量和机构数量均遥遥领先,科研产出最多,也是在全球数字人文领域活跃度最高的国家。其次是英国,其中英国伦敦大学系统的伦敦大学学院和伦敦国王学院走在数字人文领域研究的前列。印第安纳大学发文总数为18 篇,其中印第安纳大学布鲁明顿分校在数字人文领域的发文总数达到了16 篇,它是印第安纳大学主要的发文机构。在全球TOP 10 的机构中,没有出现中国的机构。

通过对全球数字人文领域的文献分布国家和机构进行分析,可以看到,数字人文的研究受到全球顶尖大学的关注,是全球关注的热点研究领域。中国目前在数字人文领域的研究文献量相对不多,国内需加强对数字人文的研究。

3.1.3 学科分布分析

图5 数字人文领域文献的学科分布图

通过分析数字人文领域文献的学科分布情况,能够了解数字人文领域的研究主要集中在哪些学科领域,从而揭示其研究所具有的交叉性与前沿性。

图5 显示,数字人文领域的研究成果主要集中在计算机科学(674 篇,41.86%)、图书馆学和信息科学(380 篇,23.60%)领域,同时还分布在艺术人文及其他专题、工程、教育教学研究、语言学、社会科学及其他专题、传播学和文学等共86 个研究领域。这说明目前数字人文领域的研究集中在计算机科学和图情领域,同时还在多个学科中活跃,展现出数字人文多学科交叉的特色。

3.1.4 来源期刊分析

图6 数字人文领域文献来源出版物分布图

表 6 展示了数字人文领域被Web of ScienceTM核心合集数据库收录的论文发表TOP 10 的期刊。排名靠前的期刊分别为Lecture Notes in Computer Science(计算机科学会议论文集,80 篇),由牛津大学出版社出版的Literary and Linguistic Computing(文学与语言学计算,58 篇)以及Digital Scholarship in the Humanities(人文学科数字奖学金,56 篇),除此之外,还有Computers and the Humanities(计算机与人文科学,36 篇)、Debates in the Digital Humanities(数字人文的争论,30 篇)等。这说明数字人文领域的文献多数是在计算机科学领域、文学与语言学领域以及人文科学领域的期刊投稿和发文。这些领域是数字人文研究的重点领域,数字人文在其他领域虽然也有涉及,但是数量比较少,还存在着较大的发展空间。

图7 数字人文领域Web of ScienceTM 核心合集论文国家合作网络图

3.2 全球数字人文领域合作关系分析

3.2.1 国家和机构合作关系分析

图8 数字人文领域Web of ScienceTM 核心合集论文机构合作网络图

由图8 可以看出,合作最频繁的机构是英国伦敦国王学院和牛津大学,但尚未形成比较完整和成熟的机构合作链。机构之间的合作比较零散,多是参与数字人文联盟和组织的成员机构之间的合作。英国伦敦国王学院对数字人文议题表现积极的同时,也展现了积极合作的态度。

3.2.2 作者合作关系分析

从发文作者和作者合作网络图(表1 和图9)来看,数字人文领域还没有出现最具权威的研究人员。在Web of ScienceTM核心合集发表论文的3 341 位学者中,发文仅1篇的学者有2 959 位,占总发文学者数量的88.57%;发文量为2 篇的学者有251 位,占总数的7.5%;发文量在3 篇及3 篇以上的有131 位学者,只占总数的3.9%。5 位学者的发文量超过了10,分别为伦敦大学学院的Nyhan J(15篇)、Flinn A(14 篇)、Terras M(12 篇),英国华威大学的Warwick C(15 篇)和美国克雷顿大学的Kokensparger B(11 篇)。其他发文量相对较多的学者有伦敦国王学院的Blanke T(9 篇)、Mccarty W(9 篇),美国亚利桑那大学的Carter BW(8 篇),美国得克萨斯大学的Furuta R(8篇)以及伦敦大学学院的Blandford A(7 篇)。全球数字人文领域发文量TOP 10 的作者均来自英国和美国,可见美国和英国在数字人文领域具有绝对优势地位。

表1 数字人文领域Web of ScienceTM 核心合集论文TOP 10 作者

图9 数字人文领域Web of ScienceTM 核心合集论文作者合作网络图

TOP 10 作者中有4 位来自于伦敦大学学院,再结合全球数字人文领域作者的合作网络图来分析,揭示出数字人文研究呈现出的合作为项目合作和同一学校研究人员的合作,合作强度并不大,更多的学者侧重于独立研究。数字人文作为交叉学科,最好是能够多学科融合研究,增强合作能力,不断在熟悉的领域进行新的创新,同一方法应用在不同领域进行创新研究。

3.3 全球数字人文领域高被引论文分析

高被引论文是ESI 中按学科领域和出版年统计的被引次数排名前 1% 的论文(Article 和Review)[25],在数字人文领域共检索出8 篇高被引论文。

由表2 所示,最高被引的是2011 年美国学者联合发表的《iPlant 协作:用于植物生物学的网络基础设施》(The iPlant Collaborative: Cyberinfrastructure for Plant Biology)[26],被引频次高达201 次。该文主要描述的是美国国家科学基金会资助的一个项目iPlant Collaborative(iPlant),旨在创建一个创新、全面和基础性的网络基础设施,以支持植物生物学研究。iPlant 在开发的是网络基础设施,允许不同领域(包括植物生物学)的科学家以新的方式应对重大挑战,激发和促进跨学科研究,促进生物学和计算机科学研究的相互作用,培养下一代科学家在研究和教育中使用计算机及网络基础设施的问题。满足人类对农业和森林产品的预期需求以及对自然生态系统可持续管理的期望将需要信息技术应用的协同作用。

表2 全球数字人文领域的高被引论文

其次是意大利、美国以及德国等国家的多名学者于2016 年发表的被引频次为169 次的《人造夜空亮度新世界地图集》(The new world atlas of artificial night sky brightness)一文[27]。该文提出将计算机技术应用到光污染领域,由于在全球范围内缺乏对光污染规模的量化,为了克服这个问题,它提供了人造天空亮度的世界地图集,利用自制的光污染传播软件,使用新的高分辨率卫星数据和新的精确天空亮度测量值进行计算。

3.4 全球数字人文领域关键词分析

3.4.1 研究热点和前沿

从文献统计的子主题统计图以及基于数字人文领域关键词生成的图谱(图10 和图11)来看,数字人文领域研究的热点为:Digital Humanities(数字人文概念)、Humanities(人文概念)、Science(科学)、Ditital Libraries(数字图书馆)、Information(信息)、Culture(文化)、Digital History(数字历史)、System(系统)、Big Data(大数据)、Collaboration(协作)、Artificial Intelligence(人工智能)、Model(模型)等。可见,数字人文作为一门跨学科研究,主要利用计算机系统、科学技术、人工智能、大数据等对人文、图书馆、历史、文化以及政治等进行研究。目前广泛参与的主要有计算机科学、图情领域、历史学、政治学、传播学、文学以及艺术学领域。

图10 全球数字人文领域的子主题分布图

图11 基于CiteSpace 的全球数字人文领域的关键词图谱

3.4.2 研究前沿和新兴趋势分析

表3 显示,在数字人文研究领域,2010 年 Digital Humanity 突现值为5.73,这是因为从2010 年数字人文的概念正式被提出以来, 多个专业领域对它开始了关注和研究[28]。

近三年在数字人文领域首次出现的几个主题词主要有:Introductory Programming(编程入门)[9]、Python Assignment (Python 任务)[6]、Programming Assignment (编程任务)[6]和Digital Heritage(数字遗产)[5]。可见,数字人文领域的研究和计算机科学与人文科学研究的热点保持高度一致,Python 作为近几年科学计算和数据处理的热门语言,与数字人文相结合,能更好地为人文科学服务。

表3 数字人文文献关键词共现频次和中心度

在表4 和表5 中,评分最高的新兴主题词、组织,其出现次数基于新颖性、持久性、社区和成长性来计算。高评分主题词显示最近的使用率与数据集内的基线相比有所上升。高评分的组织经常使用高评分主题词。通过对数字人文近三年的新兴主题词和组织机构进行分析,我们可以看出,知识、传播学、数字奖学金、可视化和数字历史是目前的前沿研究。美国的伊利诺伊大学、德国的莱比锡大学、美国的德雷克塞尔大学以及纽约大学等是近几年研究数字人文的新兴组织机构。

表4 数字人文领域近三年出现的主题词以及新兴趋势得分

表5 数字人文领域近三年出现的组织机构以及新兴趋势得分

4 研究结论及建议

4.1 加快国内数字人文研究的建设

国外20 世纪60 年代开始数字人文相关的研究,目前已经日渐成熟,相关的研究方法、工具和数据库以及软件、平台层出不穷,而我国目前仍处于数字人文研究的起步阶段。因此,我们要充分借鉴国外的数字人文研究发展历程。

加快建设数字人文研究中心和团队。国内最早的数字人文机构是2011 年武汉大学建立的数字人文中心,2016年北京大学和2017 年南京大学相继建立数字人文小组。在项目化、合作化的大趋势下,国内开展数字人文研究,要做好数字人文机构和团队建设,这样才能更好地为数字人文项目服务,完成更有意义的数字人文研究。

多开展数字人文相关的学术活动、工作坊和相关培训。开展任何领域的研究都需要交流活动和合作。因此,国内各机构和高校应该充分发挥自身优势,利用人才优势,积极开展活动交流和在数字人文领域的实践,加强国内学者对数字人文领域的了解和探索,争取形成国内的数字人文作者合作网络。

加深对数据人文平台、数据库以及模型的研究。笔者通过分析全球数字人文的高被引论文,发现国外对数字人文的研究多是建立一个强大的网络基础设施或者是在一个新的领域建立图集、平台和模型,为后续的研究提供便利。国内应该充分借鉴此经验,在进行数字人文研究的同时,保留研究过程中的平台数据,对非结构化的数字文本内容按照某种使用目的进行结构化标注,建立专业领域数字人文研究的数据库以及模型,为数字人文的后续研究者提供便利和服务。

4.2 促进数字人文领域研究者的合作

全球数字人文领域已形成了以英国和美国为中心的合作网络群,英国和美国作为数字人文领域研究的先行者,其组织机构也有比较频繁的合作。这也给国内的数字人文研究者带来了启示。

加强机构内部人员合作。这是目前国内外最常见的合作形式。不过目前合作多是在同一项目组或同一部门的研究者之间进行,仍然缺乏跨部门合作和跨专业合作的研究,未来应该加强机构内部不同部门、不同学科之间的合作。

加强跨学科合作。数字人文领域的研究集中在计算机科学和图情领域,同时还在多个学科中存在,展现出数字人文多学科交叉的特色。国内的数字人文参与者应该加强跨学科合作,积极促进该领域学者的合著率。具体措施包括:①引入新的工具、方法解决传统的人文问题。计算机科学领域的研究者根据人文学者的研究需求定制一些工具和软件,引导人文学者使用并提出意见,通过不断迭代共同优化工具和软件,使其适应人文学者的需求,并供有类似需求的其他学科学者使用。②建立跨学科的桥梁。在不同学科之间进行的跨学科合作中,图书馆可以充分发挥优势,充当“连接者”的角色。人文学者的数字技术短板,不仅体现在不会使用技术,也体现在思维方式 上[29]。因此,图书馆可以向人文学者普及人文领域常用的数据库、数据集、数字工具等,同时向数字技术学者普及人文知识和需求,成为两者之间进行跨学科合作的桥梁。可以充当该角色的还有杂志社、各种系统软件供应商以及各大学会、学术中心和组织。③争取政策支持。国家基金会或者立项组织开展数字人文项目征集,能够从大方向上给予指导和支持。

开展跨机构合作。目前国内的科研合作大都是一种互利性的行为,跨机构合作越积极,说明相关领域的研究活动越活跃[30]。数字人文作为一个多学科交叉领域,进行跨机构合作可以更好地利用多机构的资源和基础设施,促进科研成果的产出。

进行跨国家/地区合作。借鉴英国和美国的数字人文发展,进行跨国家/地区合作能有效促进国内数字人文的发展。近些年来,国内的数字人文得到了初步发展,但是全球性合作的机构中心还相当短缺。因此,国内数字人文领域研究者要全面推进跨国家/地区的合作,做好以下几项工作:①加强国内机构特藏资源的共享和利用,用更开放的态度将特藏资源与其他国家的专家学者分享并充分挖掘其价值;②鼓励国内学者走出去,与数字人文领域的先进交流、沟通,积极参加国际学术会议、论坛和工作坊等;③吸引国外学者走进来,使各个专业领域的期刊面向全球,向国内外数字人文领域内的专家约稿,实现学术成果全球共享,同时提高国内数字人文领域研究产出的水平。

4.3 把握研究前沿,实现资源再生和资源共享

数字人文领域研究的新兴趋势显示,数字人文领域近期主要关注的研究方向是:①知识的传播和共享;②新技术、可视化技术和数字化的新应用领域;③数字化技术、数字遗产以及数字化图书馆的深度建设。我国应加快国内数字人文研究的建设,促进数字人文领域研究者的合作以及把握数字人文领域的发展方向,立足于本身优势,开展具有中国特色的数字人文研究。我国应该在数字人文发展迅猛之时,把握好数字人文发展的趋势和各种资源的流向,在数字人文的浪潮中找准自己优势,占据主动地位。数字化技术应得到更好的挖掘和利用,以促进资源再生和资源共享。

5 结语

本文通过文本挖掘软件TDA 和科学计量软件CiteSpace对全球数字人文研究领域的文献进行分析,并直接运用Web of Science 的TXT 全纪录格式,降低了数据清洗、数据处理和分析的难度。不足之处是未将国内外的研究进行对比,以便更好地为国内数字人文领域研究提供更有针对性的意见和建议。中国在数字人文领域的研究和其他国家还存在较大的差距,学者之间也未形成良好的合作网络。因此,中国在数字人文领域的研究还有很长的路要走。我们希望通过对数字人文领域的研究前沿和新兴趋势进行分析,给中国数字人文领域的发展带来有意义的启示和影响。我国对数字人文领域的关注日渐增多,相信在不远的未来,中国可以在全球数字人文领域占据更重要的位置,中国学者也会在国际舞台上发挥越来越重要的作用。

(来稿时间:2019 年9 月)

猜你喜欢

发文人文领域
电子战领域的争锋
美在山水,魂在人文
最朴素的人文
将现代科技应用于Hi-Fi领域 Perlisten S7tse
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
2020 IT领域大事记
领域·对峙
人文社科