APP下载

频度演化视角下国内外数字人文研究可视化分析

2021-02-03

图书馆研究与工作 2021年2期
关键词:人文文献领域

叶 颖

(中南财经政法大学图书馆 湖北武汉 430073)

1 引言

新技术的发展在为人文研究带来机遇的同时也对人文研究的科学性提出了新要求[1],当代人文研究已经扩展到了前所未有的广度,而数字人文便是描述这类研究的重要术语[2]。数字人文发展的开端源于二十世纪四十年代对中世纪时期哲学以及神学作品的数字化处理[3],而随着学科交叉融合越来越受到科研人员的重视,如今的数字人文正将先进的数字化计算工具应用到更大范围的学科研究中[4],通过数字技术与人文价值的互动,推动人文研究进入到新的领域。

国外学者对于数字人文研究的标志性事件是21世纪初“数字人文”这一名词的提出[5],起初该名词只是为了区分数字技术应用于人文学科的研究与人文资料的简单数字化。然而随着互联网技术的发展,数字技术在人文领域的思维、写作与教学过程中显示出的技术优势与引导作用越来越大[6],互联网、语义网、尤其是Web2.0的发展,使得数字技术的交互性、网络化和定制能力不断提高[7],数字人文项目从数字化和文本分析逐渐扩展到了可视化、空间地理标示和网络分析[8]。数字人文逐渐成为了一个范围广泛、核心含义与边界都无固定模式的学科[9]。

国内有关数字人文的研究开始于数字化进程与人文精神关系的讨论[10]。而后数字人文的相关研究逐渐被国内研究者们重视,从对国外数字人文前沿案例的分析[11]发展到以数据为驱动的人文学科研究模式转型[12],国内数字人文的相关研究在2016年后形成了“井喷式”发展[13],数字人文思想被越来越多的研究者所接受。

然而“数字人文”研究的发展正在随技术的更新而不断变化,从“人文计算”的以计算机技术对文本进行数字化处理[14],到人文学科研究对象数据的存储和索引以及语料库的建立[15],再到计算工具在所有文化产品交叉领域中的应用[16]。数字技术作为人文学科的研究工具已然成为了人文学科的中心[6]被应用到人文领域的写作、思维、教学中,因此研究数字人文学科领域的发展情况和学科知识结构对人文学科研究内容的广度和深度的扩展有着至关重要的作用。

2 数据来源与研究方法

2.1 数据来源

文章以Web of Science核心全集(1986—2019)数据库作为国外研究数据来源,选取“digital humanities”为主题进行检索,中国学术期刊(网络版)全文数据库(1915—2019)为国内研究数据来源,选取“数字人文”为主题进行检索。考虑到2019年度数据尚不完整,仅检索2018年及以前的数据,Web of Science选取文献类型为“Article”“Proceedings Paper”“Review”,并在机构中筛除国内科研机构,得到检索结果1 275条。中国学术期刊(网络版)全文数据库选取来源类别为“CSSCI”的文献,得到检索结果232条,经去除通知、启示等后得到检索结果220条。

2.2 研究方法

共词网络分析方法是探究学科热点的常见方法,最为普遍的是利用文献中关键词的共现关系构建共词网络,使用网络分析方法对学科发展脉络进行梳理、对热点进行分析。词频分析通过统计不同时期关键词出现次数对学科研究热点的发现进行挖掘,以此探究研究领域热点的变化、知识结构的变迁。通常的共词网络分析通过选择高频关键词来达到减少无关词干扰的目的,然而由于某些研究热点在初期快速增长时词频计数可能无法达到高频阈值,而获取这些正在增长的热点又恰恰是科研人员最需要的,因此文章结合词频分析与共词分析法,在按时序统计关键词的情况下,引入关键词频度演化变量At,对指定时间段t的关键词频Ft进行分析,即。若At在t时间段内持续大于1,则表明该关键词持续增长,有可能成为研究热点,小于1则说明频率减少,表明此类关键词热点呈下降趋势,等于0意味着关键词在当前统计时间段已没有出现,表明该关键词已经不再被科研人员所关注。因此At的大小表示关键词在某一时段中频度的演化情况,能够从数量上衡量关键词及关键词所代表研究领域的发展变化情况。同时文章基于可视化图模型G=(V,E),V∈(k1×kn),提出基于时序的图模型Ti来描述关键词频度演化过程中的共词网络,即Ti=(Vk(At),Ek)。其中表示指定时间段内关键词k的频度的演化情况,ak是关键词节点在可视化时的控制系数,取值为关键词在开始时间段频率的值,用来表示关键词节点的初始大小,m表示关键词的种类个数,Vk(At)是在时间段内词频持续增长关键词的集合。Ek={Vk(At)×Vl(At)},由于词频随时间段不同而变化,Ek表示关键词k与其在同一篇文献中出现的关键词的关联关系,是这些关键词频度演化过程中的共现关系矩阵。

Ti的网络规模可以根据关键词词频At阈值的设定而变化,在提取研究热点时At值越大表明筛选出的关键词增长率越高,发展情况也越迅速。At阈值的选取对研究结果有着重要影响,阈值偏低会造成可视化结果的节点和连线数过多,影响数据挖掘效果,阈值偏高会过滤掉大量信息,使新兴研究热点的出现时间延长,影响数据挖掘效率。文章根据词频与时间的比例设定阈值,以一种关键词在单位时间段内最少出现1次为依据,利用这样的关键词在所有关键词中的比例决定阈值,即

3 数据处理与分析

文章共提取外文文献的关键词2 622个和中文文献的英文关键词325个,经去重及合并单复数等筛选过程后得到关键词2 867个,时间跨度为2004—2018年。

3.1 研究热度对比分析

研究主题能够反映学科领域内的主要研究内容,对研究热度的变化进行动态分析有利于及时把握学科领域的研究重点和热点[17]。文章选取文献数、学科分布的宏观维度和关键词频度变化的微观维度对“数字人文”主题的国内外研究文献进行分析。

如表1的文献分布表所示,国外针对数字人文研究领域的研究文献数量逐年增加,这些文献所涉及的学科类别也同步增加,而且研究文献的增长势头在近5年内更是突飞猛进。相比较而言,国内学者对于数字人文研究领域的关注在近5年内才开始,虽然研究文献数量低于国外,但近2年的增加幅度较为明显,可以推断出国内学者越来越重视数字人文研究领域。由于国内数据库与国外数据库学科类别分类上具有明显差异,无法直接将两种类别数据进行比较。国内数字人文相关研究主要集中在图书情报领域,而国外的相关研究在信息科学与图书馆、人文综合、文学、语言学、历史、计算机等学科均有涉及,这说明国外数字人文相关研究已经广泛开展,国内外研究在参与学科上具有显著差异。

表1 数字人文研究主题文献分布表

关键词是研究文献主题的浓缩与概括,研究关键词频度的变化能够判断学科领域研究的集中度情况。如图1的关键词数量变化表所示,2014年以前国内外研究文献关键词的个数与关键词的种类数基本相同,研究文献的研究主题基本没有重复,学科的研究重点还在探究之中。国外研究文献自2014年,国内自2015年开始关键词的个数与种数之间差距开始显现,这说明学科研究热点逐步形成,具备探寻学科知识结构的条件。到最近的2018年,国外文献关键词种数与个数的比值为0.73,国内文献关键词种数与个数的比值为0.61,相较于国外,国内数字人文研究的集中度更高,学科研究热点更为密集,但2018年国内外相关研究在关键词个数与种数上存在明显不同的增长趋势,国内的相关研究的范围正在逐步扩大,研究热度在不断上升。

图1 关键词数量变化图

3.2 研究热点对比分析

关键词代表了文献的研究主题、内容和方法,同一篇文献中关键词拥有一定的关联关系,而通过关键词共现关系的耦合能够将不同文献联系在一起,便于探寻学科知识结构。同时,通过时间序列构建关键词共现网络能够挖掘学科研究主题的发展状况与成熟度。

文章将外文文献的关键词与中文文献的英文关键词分别进行提取,而后构建2004—2018年数字人文研究领域共词网络,共提取出2 867个关键词、4 529条关键词共现关系,关键词构成了共词网络的节点,共现关系形成了连接关键词的边。由于节点和边的数量较多,对分析存在一定的干扰,文章根据前文中阈值计算方法,统计时间段内关键词频数超过统计时间段t的关键词约为2%,故阈值Threshold(Ft)=2,于是将同一年度时间内共现频次小于2,即无法在关键词耦合中发挥作用的词视为无效关键词,得到国内外数字人文研究文献共词网络。通过对共词网络的分析,发现关键词出现重复的最早时间为2010年,这说明自2010年以后,数字人文研究领域的学者开始出现研究内容上的重叠。通过节点数和弧线密度的对比可以发现,国外面向数字人文领域的研究在内容数量及范围广度上均超过国内,如人文和文学的相关关键词形成研究热点的时间甚至早于数字人文,但国内在近两年的研究中也取得了极大的发展,研究主题的密集程度较国外更为集中。文章根据关键词的分布情况分别选取2009年—2012年、2013年—2015年、2016年—2018年这三个时间段共现频率大于2的关键词共现网络进行聚类和学科知识结构分析。如表2所示。

表2 共词网络高频关键词聚类结果

由表2的经高频词筛选后的可视化聚类结果可以发现,国外数字人文相关研究文献早期的研究关注点有文学、数字和人文、数字图书馆。而后随着数字人文研究的发展,文学逐渐向文化的方向发展,最近更是出现了后人文主义的相关研究。数字和人文逐渐扩展到数字历史和开放存取以及数据可视化。数字人文在数字图书馆中着重的研究则是文本挖掘和文档存储。同时地理信息系统、关联数据、本体则是国外数字人文近年来新出现的发展主题。

相比较而言,国内数字人文的相关研究范围要小于国外,起步时间也晚于国外。研究内容与国外部分研究方向一致且更偏向应用研究,如图书馆服务和科研支持等。2018年高校图书馆、文本分析、莎士比亚、关联数据等相关研究开始出现,在研究范围上逐步与国外研究一致,同时也有诸如马克思主义等富有中国特色的数字人文研究。

3.3 研究主题发展情况分析

数字人文是一个随数字技术不断发展的研究领域,数字技术的革新对数字人文研究方向的发展有着重要的指引作用,因此了解数字人文研究主题的发展情况对科研人员进行下一步研究工作至关重要。

研究主题变化的一个重要特征就是文献关键词词频的增加与减少,文章通过计算文献关键词频度演化与共现关系间的变化关系,从而挖掘数字人文研究领域不同主题自身研究热度和关联关系的变化情况。

通过统计及分析发现国外数字人文的相关研究最早在2006年由数字图书馆主题开始,随后增加到开放存取、新媒体、教育学等。国内数字人文2016年左右才开始形成一定的类团,从关键词关联关系来看,数字人文开始阶段的研究主题是针对美国高校图书馆数字人文案例的分析,随后扩展到数字人文思想在图书馆资源管理与服务创新工作中的应用,如图书馆参与数字人文的实践与推广和图书馆推进人文知识的数字化与交流等,而在2018年出现了通过数字人文研究方法进行有关莎士比亚作品的可视化相关研究。

如表3所示,关键词后的括号表示该关键词增长峰值出现的时间,通过聚类和时间标引后的关键词类团可以发现:国外数字人文相关研究早期集中在人文领域研究的数字化工作中,研究学科对象有教育学、历史学等。而后,随着数字化应用以及数字化开发工作的深入,数字人文逐渐形成了自己独立的理论体系,如数字策展、数字历史等,这些理论的提出为数字化工具应用于人文研究提供了指引。近几年,国外学者的研究已经开始将大量的数字化、社会网络相关概念和计算方法融合进人文学科的相关研究中,如文献计量、社会网络分析、机器学习、空间地理可视化等,数字人文工具在人文学科研究中的作用已经进入到了广泛的实践阶段。

表3 研究主题类团发展情况表

国内数字人文相关研究则主要集中在图书情报领域,开始阶段主要集中在对国外,尤其是美国大学图书馆数字人文案例的分析与研究。而后数字人文、人文计算相关思想被应用于国内高校图书馆的转型和科研支持工作中,在图书情报领域取得了不小的突破。但在其他学科,数字人文的思想还没有在国内全面展开,应用学科范围和研究深度还不及国外人文学科相关研究。

4 结语

文章通过提取数字人文领域研究文献关键词共现关系和频度变化数据,对Web of Science核心全集(1986—2018)数据库和中国学术期刊(网络版)全文数据库(1915—2018)中数字人文的国内外研究文献,从关键词频度演化角度对研究热度、热点和学科主题发展情况进行了分析。共挖掘出5个国外数字人文研究持续十年以上的主题类团,分析了研究不同发展阶段的发展路线,展示了学科知识结构和主题的变化情况。同时通过国内外对比研究,探究了国内数字人文研究的发展特点与不足,为科研人员研究方向的选择提供了客观的参考。

猜你喜欢

人文文献领域
电子战领域的争锋
美在山水,魂在人文
最朴素的人文
将现代科技应用于Hi-Fi领域 Perlisten S7tse
Hostile takeovers in China and Japan
2020 IT领域大事记
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
领域·对峙
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing