量化数字人文综述
2020-01-09高瑾
高 瑾
在过去几十年中,数字人文获得许多学术领域的关注,并为日益增长的数字文化发展做出了巨大贡献(Siemens,2016)[1]xxi。相较文学、哲学或艺术等传统人文学科,数字人文的历史较短,学科发展迅,研究内容多变。随着其全球影响力的逐渐扩大,数字人文从深层次改变着人文学、社会学等一系列相关学科的研究方法与思维方式(de Smedt,2002)[2],并不断为人文学和计算机科学等领域的科研和教学开拓新的思路(Terras,2012)[3]。在数字人文的“大帐篷”之下,科研设施、研究中心、出版物、学术交流和教学计划等一系列学科建设不断增长,涵盖了各种快速发展的多元研究主题,从研究项目的开展到具体技术的开发,百花齐放(Weingart and Eichmann-Kalwara,2017)[4]。然而,在如此蓬勃发展的形势之下,我们对数字人文本身的学科结构却知之甚少,连对其历史的探究也因高度的跨学科性和边界模糊的学术范畴而止步不前。虽然数字人文作为一个“大帐篷”可以被看作一个整体,但其中究竟是支离破碎的零散研究论题还是在交流巩固之下形成的成熟学科体系也不得而知。
有学者尝试通过寻找数字人文的定义而解决上述问题,然而定义数字人文并厘定其知识边界的任务同样十分艰难。从Rockwell在1999年提出定义的必要(Rockwell,1999)[5],到2009年的“数字人文日”将“定义数字人文”正式搬上国际论坛,过去20年间,众多学者从不同角度出发,纷纷对其进行了定义,由此而引发的讨论和批评更是数不胜数。“定义数字人文”这一现象也因此成为了数字人文的核心问题之一。直到今日,虽然仍没有得到普遍认同的结论(Svensson,2010)[6],不过大多数学者都接受了McCarty对于定义的态度——“这是一个无法得出确切答案但是可以随着学科发展不断探索和完善的问题”(McCarty,2005;Terras et al.,2013)[7-8]。为了方便本文的论述,笔者将其定义为:数字技术与人文学科不断发展的一个交叉领域,其内容涉及两者间的相互作用,即人文学中数字资源的应用,以及数字时代人文角度的探讨(Siemens,2016;Nyhan and Flinn,2016)[1]xxi[9]1-2。
本文旨在回顾和讨论以欧美学者为主的针对数字人文学科结构和历史的相关量化研究,以期从前人关于数字人文的统计研究中归纳其知识范畴、评价出版物、概述社交媒体使用,从而尝试解答“何为数字人文”这一核心问题,并将其置于更广泛的学科知识地图中,帮助学界理解数字人文与其他学科间的联系。
1 数字人文
中国大陆“数字人文”这一学科名词属于翻译词汇,由英文词“Digital Humanities”直译而来。其学科名称在其他大多数语言环境中也都由英文词衍变而来,如德语(Digital Humanities①)、法语(Humanités Numériques)、西班牙语(Humanidades Digitales)。由于不同的翻译传统,全球不同汉语区域所使用的中文学科名称也有所不同。例如,中国大陆使用“数字人文”,中国台湾多使用“数位人文”,而中国香港多使用“数码人文”。同时,翻译工作也无法借鉴日语汉字翻译,因为日本学者选择了使用假名以直接音译的方式,避免了汉字的使用(即,“デジタル·ヒューマニティーズ”)。
然而,“数字人文”并不是这一领域唯一的名称,它还有许多“曾用名”,如“人文计算”(Humanities Computing)(Nyhan et al., 2013)[10]。从“人文计算”到“数字人文”的转变通常由2005 年划分开来,前者多用于1949-2005 年,而后者多出现于2006年至今。这一划分不光在时间线上切割出学科历史的不同阶段,也展示了学科发展从最初的“技术服务于人文”逐步向“领域内独特创新的方法和研究”的质的转变(Hayles,2012)[11]。虽然2006 年之后仍有声音挑战“数字人文”学术名称的地位,例如,批评该词汇“毫无含义”(Dinsman,2016)[12],提出各种新名称,诸如“数字研究”(Digital Studies)(Stiegler,2012)[13]、“数字自由艺术”(Digital Liberal Arts)(Pannapacker,2013)[14]、“计算批评”(Computational Criticism)(Dinsman, 2016)[12],提出数字人文的反义词“模拟人文”(Analog Humanities) (Sterne,2015)[15]等,然而这些讨论并未能撼动“数字人文”被大多数学者、机构和组织所接受并使用。这一学科标签的使用不仅给传统人文学带来深远的影响,而且为学者们创造了各种各样研究、教学、项目资金等机会,还促进了数字人文学者群体、科研社区、共同价值文化,以及学科范畴和历史的形成。
虽然数字人文作为一个研究领域持续快速地发展着,但它是否已经具有一门学科的地位和属性仍然存在争议(Schreibman et al.,2016)[16]。这不仅影响着大学人文学科的基础建设和图书馆、博物馆等一系列机构的工作,而且对研究相关题目的学者来说,也是重要的科研前提和方法论对象(Nyhan and Flinn,2016)[9]1-2。从学科设置、科研开展、资金启动等务实的角度来看,数字人文早已具备了作为一门学科的各种属性(如学者群体、出版物、国际学术活动),并发展为一个“学术生态系统”(Svensson,2016)[17]。
具体来说,首先,数字人文在世界范围内有完善的学者社区和定期交流活动,如最大的国际交流平台——数字人文组织联盟(Alliance of Digital Humanities Organization,ADHO)及其区域成员组织。从1964年首次在美国约克敦高地举办的“文学数据处理会议”(Literary Data ProcessingConference)(BessingerandParrish,1965)[18],到ADHO 每年最大规模的全球会议,再到北京大学举办的年度数字人文论坛(朱本军和聂华,2016,2017a,2017b)[19-21],各种规模的数字人文会议遍布全球每个大陆。各类数字人文组织、机构、活动和教学计划构建起一套完整的学科生态系统,不仅巩固了数字人文的学科地位和科研意义,而且为掌握新技术、创造新知识的学者提供更多的工作岗位和研究机会。
其次,数字人文从1966年开始就有了学科的正式期刊——《计算机与人文学》(Computers and the Humanities,CHum)。其后,其他有影响力的期刊也层出不穷,如ADHO直属的3种期刊:一是牛津大学出版社出版的《人文数字学术期刊》(Digital Scholarship in the Humanities,DSH)(原刊名为《文学与语言计算》,Literary and Linguistic Computing,LLC),成立于1986年,现已成为数字人文最核心的刊物;二是2007 年创刊且全文开放存取的《数字人文季刊》(Digital Humanities Quarterly,DHQ);三是加拿大数字人文学会1992 年创立的以法语为主的多语言期刊《数字研究》(Digital Studies/LeChamp Numérique)。此外,数字人文还拥有其他相关期刊和出版物,以协助研究、开展项目、帮助教学、管理图书馆和建设基础设施等,如《数字人文伴侣》《数字人文争论》《数字人文读本》(Schreibman et al.,2004;Gold,2012;Terras et al.,2013)[22-23,8]。
数字人文可以通过常规的定性定量方法进行学科监测和评估,这也从旁力证了数字人文日趋完善的学科属性。例如,英国的研究卓越框架(Research Excellence Framework,REF)就被用来评价数字人文的学科建设,以期分析出版物、发掘学科强项和出现的问题,从而使科研和教学活动健康发展(Nyhan and Flinn,2016)[9]1-2。
数字人文的“学术生态系统”为当前发展提供了新的思路,并反过来影响“数字”和“人文”这两个领域(Gold,2012)[23]1-2。虽然数字人文已经具备上述学科属性并且日趋成熟,但很多关于其学科范畴和历史等学科研究的问题依然亟待解决。例如,数字人文包含哪些子领域?它们之间的关系是什么?哪个影响力最大?早期的数字人文研究内容和现在有什么不同?研究内容如何随着时间推移而变化?谁是数字人文最有影响力的学者?他们之间有哪些合作模式?数字人文学者地理分布是否具有全球化特点?在性别和语言方面是否足够多样化?学者的性别和地理因素会对数字人文社区产生哪些结构性的影响?从1966 年开始到现在,学者们持续不断地根据个人经验和主观讨论来尝试回答这些问题。作为CHum主编,Raben描述了数字人文的学科范围(Raben,1966)[24]。但他当时并未将其与传统人文学区分开,而只是归为“使用计算机的广泛人文学研究领域”。直到2003年,McCarty根据经验绘制了数字人文的第一张知识结构图(2005年重新修订),从而将数字人文中“数字”与“人文”的部分以图解的方式各自独立出来,以帮助了解其研究主题和内在联系(McCarty,2003)[25]1233。该结构图不仅展示了各类研究方法、关键要素、核心主题“知识云”和它们之间存在的互相作用,而且提供了以图像定义数字人文的新思想,为其后的研究奠定了一个坚实的起点。
2004年Hockey出版了最具影响力的数字人文历史研究(Hockey,2004)[26],从个人观察出发,以回顾学科重要事件为主线将历史分为4个时期。然而,这一历史总结也随着文章的出版在2004年戛然而止,使得它没能涵盖“数字人文”作为学科名称出现后的15年历史。为补全历史,Nyhan 等以口述历史的方法采访40 位早期的数字人文先驱(Nyhan and Flinn,2016)[9],不仅从历史亲历者的个人视野出发带来了详尽描述和第一手数据,还创建了对公众开放的访谈文本和语音数据库,为之后的数据分析和量化历史研究提供了丰富素材。但是在过去几年间,特别是在《数字人文读本》(Defining Digital Humanities:A Reader)于 2013 年 12 月出版之后(Terras et al.,2013)[8],越来越多的声音不断强调数字人文的多样变化和持续发展的特点,这使得像以上这样用传统的文献回顾、个案分析、主观总结等方式进行的研究,不再能胜任厘清学科范畴和汇编学科历史的任务。
2 量化研究综述
如上所述,虽然早期基于个人主观总结的学科研究为探索数字人文做出了开创性的贡献,但是这些研究相对零散,通常点到为止,无法结合大量的数据进行全面回顾。而量化研究则可以有效解决这些因主观原因所产生的局限性。量化方法是数字人文领域最常使用的研究方法之一,而应用该方法来研究其本身不仅能够更周详地揭示学科本质,还可以为科研发展带来新的思路。
科学技术和科研方法的不断进步也为收集大量数据提供了技术前提,使量化数字人文的概念得以实践。从2006年至今的13年间,不断有学者使用数据代替描述来勾画数字人文的知识脉络和学者群体。这些统计和计算数据通过各种可视化方法,不仅宏观地展现了数字人文的总体概貌,而且还能够将前人所回顾的具体事件、个别案例、详细信息进行系统地串连,补充缺失的知识和来源,还原数字人文完整的“学科生态系统”(Börner,2011)[27]。
这些量化数字人文的研究,不仅可以使我们了解前人在学科研究方面做出的努力,而且能为未来全面解析和认识数字人文提供理论基础和实践经验。Weingart 与Earhart 等学者都曾收集和列举过相关的研究(Weingart,2018;Earhart,2018)[28-29]。本文在他们的收集基础上,对量化数字人文的研究进行系统性回顾与综述。除了补充更多相关研究,并分别从文献计量学和社会计量学两个方面来分析之外,本文对量化方法、数据收集,以及结果分析也进行了比对讨论,以期从量化的角度逐步划清数字人文的学科范围和发展历史。此外,通过分析这些定量研究,能够在对历史和学科发展有新理解的基础上,超越前人的努力来填补历史的缺失和知识结构的空白。
2.1 文献计量学
过去10年间,与数字人文有关的各种期刊和会议出版物增长迅速,为文献计量学研究提供了丰富的研究资料(Hellqvist,2010)[30]。通过收集标题、作者、关键词、参考文献等各类文献数据,文献计量(又称“信息计量”或“科学计量”)方法能够帮助我们发掘并构建数据间的联系,以此分析数字人文的科学产出、学科(知识)结构和子领域、社会环境、学术信息交流渠道,并预测未来发展趋势,等等(Tang et al.,2017)[31]。
2.1.1 知识结构
研究表明,数字人文知识结构在不断变化发展,量化研究的样本大小也对结果起着决定性影响。从定量的角度来看,数字人文的研究主题并没有学者们所认为的那样多元化。
2006 年 ,Terras 对 1996-2005 年 间 ACH/ALLC会议②(ADHO会议的前身)的摘要和作者数据进行了词频和作者研究(Terras,2006)[32]。结果显示,这10年间文本分析主题占到绝大部分,同时与会者主要来自图书馆信息学、英语研究、语言学等学科。
2009年,王晓光和Inaba在Terras的基础上加入了期刊的数据。除了ADHO会议集,他们还将两种期刊(LLC和DHQ)纳入研究范畴。3项数据来源共计得到548 篇文献,时间跨度5 年(2005-2009)。通过对应分析和共词分析,他们对提取的1,219 个词汇进行网络可视化(Wang and Inaba,2009)[33]处理,发现数字人文内部并没有明显的子领域。这一令人惊讶的结论与大多数之前的学科概述(McCarty,2003;Hockey,2004)[25-26]并不相符。
紧接着Leydesdorff 和Salah 也发现了数字人文的知识结构过于单一。2010年1月他们通过关键词检索,对829篇来自81种不同期刊1975-2009 年的文献构建期刊共引网络(Leydesdorff and Salah,2010)[34],发现这些期刊只来自几个固定的领域,如图书馆信息学(34.6%)、计算语言学(10.9%),以及计算机和文学的交叉学科(6.1%)。该结果证实数字人文研究仅仅与计算语言学和文本分析两个核心主题相关,并且出版物只集中在两种期刊聚类上,即图书馆信息学期刊和数字人文期刊。这与号称具有广泛包容性和多样性的数字人文“大帐篷”特征相差甚远。这或许是由于数据样本太小,因此2015年Salah等扩大数据量,重新构建期刊网络图(Salah et al.,2015)[35]78-89,见图1。这一次结果稍有好转,图1展示了数字人文在更广泛的学术环境中的定位,以及它与图书馆、计算机、信息学、媒体、文学史、艺术等其他领域更完整的关系。随着数据量的增加,与数字人文有关的文章除了发表在图书馆信息学和计算机两个学科的期刊上之外,还出现在文学、语言学、教育研究和历史等领域出版物上。当然,该研究的数据规模依然偏小,时间跨度也有局限。
图1 数字人文在广泛学术环境中的期刊网络图[35]83
2012-2017 年,Weingart 收集整理了ADHO 举办的6 年会议文献数据,不仅补充了Terras以及王晓光和Inaba停留在DH2009的分析,而且发现了更多的子领域。首先,与Terras的结论相似,Weingart 发现从DH2012 到DH2014,研究主题大多集中在“文学研究”和“文本挖掘”(Weingart,2014a,2013a,2013b,2012)[36-39]上。然而,从DH2015 开始,研究重点逐渐多元化,由基于文本的项目转向以创新方法和学科发展为中心,如应用新技术方法的历史研究(Weingart and Eichmann-Kalwara,2017)[4]。
2017 年,高瑾等继续对数字人文的各个子领域进行了深化研究。他们通过对3 种期刊(CHum,LLC/DSH,DHQ)的3,251篇时间跨度52年(1966-2017)的文献进行作者共被引网络分析,发现了数字人文的6大研究主题,即:先驱及历史研究、计算语言学、图书馆信息学、统计文学、新媒体、数据挖掘与技术分析(Gao et al.,2017;高瑾,2017)[40-41]。
这些定量研究结果为数学人文学者提供了有数据支持的可视化知识结构,使我们能够清晰地认识到数字人文的知识范围和重点研究内容。同时,加上时间这一新的维度,则可以更明确地探索数字人文领域的发源、形成、发展以及内容演变。
2.1.2 内容演变
数字人文的研究内容在其发展过程中动态变化着。王晓光和Inaba在2009年的工作不仅是首例数字人文网络化研究,而且是首个通过数据结果证实数字人文内容演变的研究。他们发现2005~2009 年间学科名称从“人文计算”转移到“数字人文”的明显趋势(Wang and Inaba,2009)[33](见图2)。在图2中,紫色的“人文计算”(Humanities Computing)一词在文章标题中的使用越来越少,并且其网络核心地位逐渐被棕色的“数字人文”(Digital Humanities)一词所取代。这些网络可视图印证了LLC/DSH主编Vanhoutte提出的以2005-2006年作为两个学科名称分水岭时间点(Vanhoutte,2013)[42]的论断,并为这一论断提供了可视化定量网络图作为有力证据。
之后,Spiro对2005-2011年间134个世界各地的数字人文教学大纲(及其相关项目)进行了分析,包括教育水平、学科分布、技术技能、需求模式。她发现,在这7年间,数字人文的教学内容不断吸纳各种新的元素(如视觉图像、音乐、视频、游戏、地图、模拟、3D 建模)(Spiro,2011)[43]。这一统计展现了数字人文内容演变新阶段的概况,不仅提供了不同类型的课程建设和实例指导,而且还用数据重点论述了这一领域的教学价值观(如开放性、网络化、互动性)。
图2 2005-2009年高频词共现网络[33]18
此外,不同文献来源也会对内容有影响。DHQ是领域内的新刊,2007年创刊,旨在鼓励多样化的数字人文研究。而正因为这一创刊目的,该期刊比其他期刊包含更多元的研究主题。De la Cruz等分析了DHQ8年来(2007-2014)文章关键词的变化趋势(De la Cruz et al.,2015)[44],发现其中的绝大多数研究与数字人文最新涌现的主题有关,如对数字人文及学者的讨论和新媒体研究。这一结果表明了DHQ的学术前沿性和突出的多样化主题出版偏好,以及不同数据样本对量化数字人文研究所产生的影响。
在DH2015 会议上,由Tang 领导的一组学者介绍了对数字人文期刊内容演变的分析(Tang et al.,2015)[45]。此后,他们通过搜索关键词,进行文档共引分析及网络可视化分析(见图3)。从图3看到,被引用最多的期刊是网络底部的LLC,然后是左边的A Companon to Digital Humanities(与书籍Defining Digital Humanities:A Reader紧密相连)。 Tang等将数据时间(1989~2014)分为每5年一段,通过对每个时间段单独进行网络分析,验证了数字人文正朝着主题多样化、作者全球化的方向发展。
随后,高瑾等(Gao et al.,2018)[46]也对52年来(1966-2017)的期刊数据进行了5个时间段的切分,并通过每段的作者共被引可视化,将数字人文的学科发展细化为5 个具体的阶段(见图4)。这一量化结果与Hockey提出的经典数字人文历史阶段契合(Hockey,2004)[26]。1966-1970 年为发源阶段,主题集中于文本的机器输入;1971-1985 年为巩固阶段,各个数字人文先驱为人熟知的索引项目逐渐引起高度关注(如Busa),数字人文由此形成了一个领域;1986-1990 年为发展阶段,计算语言学主题成为最主要的研究核心;1991-2005 年为互联网阶段,科技的进步给图书馆信息学、文学统计研究、历史研究、多语言研究等带来了新的研究主题,而计算语言学主题逐渐退出核心舞台;2006-2017年为后互联网阶段,虽然各种新媒体内容层出不穷,但图书馆文本分析依然有着巨大影响力,数字人文呈现出百花齐放的繁荣趋势。
图3 数字人文1989-2014年文档共引分析[31]
图4 1966-2017年数字人文作者共被引网络的5个发展阶段[46]
2.1.3 合作模式
量化研究除了可以展现知识结构和内容的演变之外,还可以对学者合作模式进行探索。以“多样化和包容性”为核心价值观的数字人文,一直以区别于人文学单一作者模式的多作者合作模式作为其独特标志。而量化研究不仅能够用数据对此进行验证,而且可以揭示数字人文与其它传统学科间的差异性。
Spiro 发现LLC期刊 2004-2008 年间 48%文章为多作者合作出版。这一结果远远大于同时期的传统人文学期刊《美国文学史》(American Literary History,ALH)的(合著)结果(仅有 1.93%文章由多个作者合作完成)。另一数字人文期刊DHQ2007-2014年间也有逾36%文章为合作出版(De la Cruz et al.,2015)[44]。另外,数字人文作者所在国家更为多样化。例如,LLC中16%文章为国际间合作(即作者来自不同国家),而ALH一篇也没有。Spiro 将这一重要合作模式差异解释为数字人文和传统人文学对学术实践的不同需求。例如,数字人文项目需要更多的合作、不同类型的专业知识和技术、各种设备资料;而传统人文学科更重视个体研究,其科研活动可以由单一学者独自完成,即完全独立地进行阅读、思考和写作。这一特点在欧洲区域性的数字人文会议中更加明显。Henny-Krahmer 与Sahle 分析德语地区的数字人文会议DHd2018的论文,发现72.7%论文由多位学者共同撰写[47]。
然而,在数字人文与其它非人文学领域的对比中,作者合作模式没有显著区别。2014 年Nyhan和Duke-Williams分析了2,291篇发表在CHum和LLC上的论文,并将其与《美国地理学家协会年刊》 (Annals of the Association of American Geographers,AAAG)上的文章进行对比,发现合作出版论文在数字人文两刊中分别占31%(CHum)和35%(LLC),而AAAG为40%。这与Spiro 的结论有些出入(Spiro,2009)[48]。究其原因,可能是因为Spiro只分析了非常小的一部分数字人文论文(145篇),而Nyhan 和Duke-Williams 搜集了相对全面的论文(2,291 篇),更完整地展示了作者合作度。Nyhan 和Duke-Williams也改进了Spiro对数字人文作者合作模式过于积极的肯定。当然,通过时间切片分析,他们的研究也正面地反映出多作者合作的趋势和科研合作现象在数字人文领域中日渐增加。
2.1.4 学者背景统计
在数字人文多样化和全球化浪潮下,各国各类研究中心和交流活动层出不穷,这吸引了量化分析的关注热点。学者们通过数据可视化考察了“大帐篷”下不同学者背景的客观分布情况。
(1)地理分布。从国家分布来说,以ADHO为代表的国际数字人文社区仍然以欧美学者为主。2006 年,Terras 发现 ADHO 会议 1996-2005 年间几乎所有参会者都来自西方国家,且北美占到一半以上(美国37%、加拿大24%)(Terras,2006)[32]。随后期刊DHQ的出版数据也得出相同的结果,2007-2014年间有大约75%作者来自北美科研机构(De la Cruz et al.,2015)[44]。Weingart在对比了2013-2015年的ADHO会议数据之后,发现在澳大利亚举办的DH2015因为大洋洲独特的地理位置而吸引到了比前两届(美国与瑞士)更为多样化的参会群体,如图5所示[49]。
图5 DH2013-2015作者地理分布[50]
图6 1966-2017年数字人文被引用量排名前三千的作者国别分布[46]
在DH2018会议上,高瑾等对CHum、LLC/DSH、DHQ等3种期刊1966-2017年所有被引作者进行了地理分析,并将被引用量排名最前的三千位作者进行了共被引网络可视化分析(Gao et al.,2018)[46](见图6),发现在被引用作者中,美国、英国、德国、加拿大等欧美国家的作者依然占据着绝大多数的被引用量。
除参与ADHO的欧美主流数字人文学者外,各种区域性的数字人文科研活动也成为人口统计研究的重要对象。区域性学术活动不仅参加者更为本地化,研究题目也更具地方特色。
在西班牙举办的数字人文会议上(如HDH 2015和第一届欧洲数字人文日EADH Day 2015),绝大多数参会者来自欧洲(Tello,2015)[51]。在德国举办的针对德国及德语区域的数字人文会议(DHd2016 和DHd2018)上,德国参会者分别占80%(Tello,2016)[52]和81.9%(Henny-Krahmer and Sahle,2018)[47]。荷兰语数字人文会议(DHBenelux2014-2018)和北欧地区数字人文会议(DHN2016-2018)也有着很大的本地学者参会比例(Kemman,2016a,2016b,2017,2018;Mäkelä and Tolonen,2018)[53-57]。
华语地区同样具有这一特点,详见朱本军和聂华对两届北京大学数字人文论坛(简称“北大论坛”)的学者分析(朱本军和聂华,2016,2017a)[19-20]。此外,Chen和Hsueh研究中国台湾最大数字人文会议——数位典藏与数位人文国际研讨会(DADH)2009-2012 年的会议论文(Chen and Hsueh,2013)[58],发现尽管来自日本、中国大陆、泰国、英国和美国的与会者数量逐年增加,但几乎所有论文都集中在研究中国相关问题上(70.8%)。
(2)性别分布。学者性别在数字人文领域尤为重要,然而在绝大多数欧美数字人文出版物中,很难找到女性学者。最近女性主义研究在数字人文领域引起越来越多的关注,很大一部分原因是由于这一极度不平衡的性别比例所带来的各种批评与辩论(Liu,2012;Nyhan and Terras,2017;Wernimont,2018)[59-61]。这使得“女权数字人文”(Feminist Digital Humanities)一词成为数字人文(至少在其英语出版物)讨论的热词之一。
图7 1966-2017年数字人文被引用量排名前三千的作者性别分布[46]
Weingart 发现ADHO 会议中存在极度不平衡的性别比例(DH2010-2013每年参会的女学者仅约占30%)(Weingart,2014d)[62]。之后高瑾等扩大数据量,对CHum、LLC/DSH、DHQ等3种期刊1966~2017 引用量最高的 3,118 名被引作者进行性别分析(Gao et al.,2018)[46](见图7),发现只有21%的作者为女性,但其中很大一部分有显著的引用数量,并位居引用排名前列。
然而,男性并不是一直在数字人文学者中占据主导地位。在欧洲的区域性学者群中,则有更多女性学者的身影。Tello 发现参加西班牙会议HDH2015 和 EADH Day 2015 的229名与会者中,约有55%的女学者(Tello,2015)[51]。
近年,笔者与Nyhan 和Duke-Williams 继续合作,深入研究其他特征对数字人文作者间合作关系的影响(如性别、国家、语言)。通过对新增数据的分析,发现女性学者在数字人文作者合著网络中起到显著且重要的“桥梁作用”(Nyhan et al.,forthcoming)[63]。也就是说,在多作者团队研究的环境下,女性数字人文学者通常是启发交流、建立关系、主导合作的人,在团队合作中起到关键的“桥梁作用”。
2.2 社会计量学
2009年,Borgman指出社会研究在数字人文中的重要性和短缺现象(Borgman,2009)[64],Leydesdorff和Salah提出单从出版物角度分析,无法全面涵盖数字人文的知识范畴和历史发展(Leydesdorff and Salah,2010)[34]。因此,有必要寻找其他形式的数据来源和分析角度。利用社会学方法对社交媒体进行定量研究能从更具互动性的角度对复杂的跨学科属性和高度合作的社会属性进行分析(Witting,2018)[65],因而被广泛应用于各领域,如人际关系研究(Jones et al.,2012)[66]、群体合作研究 (Kim et al.,2008)[67]、引文研究(Anheier et al.,1995)[68]、数字人文社区研究(Quan-Haase et al.,2015;Grandjean,2016)[69-70]。学者们的社交媒体使用行为,可为研究和理解其社会活动与学术生活之间的关系提供数据基础(Choo et al.,2015)[71]。学者的在线社交活动还可以揭示学者之间的非正式交流,如哪些学者是社交媒体上最活跃的用户、他们如何在网络上互动以协同工作、社交媒体活动和学术生产力有无联系。
2.2.1 推特(Twitter)研究
在所有在线应用中,推特(Twitter)是数字人文学术圈(至少是西方学术圈)最受欢迎的社交网络平台,不仅支持学者间的学术交流,而且还支持学术活动的实时讨论,即“后台渠道”(backchannel)(Ross et al.,2011)[72]。
虽然并非所有学者都使用Twitter(Van Noorden,2014)[73],但自2006年推出以来,它已被越来越多的学者接受,甚至成为进入欧美数字人文学术圈的必备技能之一(Côté and Darling,2018)[74]。很多数字人文Twitter“大号”拥有10万以上的关注人数。例如,截至2018 年底,Digital Humanities Now(@dhnow)拥有27,954名关注者,这一数字在过去6 年内增了10 倍(2012年为2,794人)(Terras,2012)[3]。
Twitter 因为对数据下载的开放和友好,逐渐成为研究在线社交网络的完美数据源。它欢迎各种API(应用程序编程接口),使数据下载和处理更加容易,也提供相对干净的量化数据(如“关注”“转发”“提到”“@”等学者间的网络关系),从而简化繁琐的数据清理难题(Eysenbach,2011;Peoplesetal.,2016;Thelwalletal.,2013)[75-77]。
(1)使用目的。数字人文学者使用Twitter的目的并不是唯一的,它随着时间和用户量的扩大而不断发展。2009年,French对两个数字人文会议(THATcamp 和MLA2009)的学者数据进行分析,发现学者在开会期间上Twitter主要是为了分享和阅读有关会议的新闻,而非点对点地在线聊天(French,2009)[78]。其中,在 Twitter 上推送THATcamp 会议信息的用户数甚至比实际参会的人数还多出1倍。两年后,在扩大会议数据量的情况下,Ross等发现除了分享新闻和资源之外,学者主要的Twitter社交需要还包括另外6类,即:对演讲的评论、讨论和对话、会议笔记、建立公关、询问问题以及其他;她们不仅首次提出了Twitter在数字人文交流中“后台渠道”的概念,而且还发现使用Twitter可以增强数字人文的会议体验,加强会后的学术合作关系(Ross et al.,2011)[72]。此外,她们用数据证实了学者使用Twitter的行为是随着时间不断变化的。以2009年为界,此前大多数用户只发送原创推文(90%),不喜欢转发他人的信息。但几年之后,转发量占到用户活动的大部分,而且含有网址链接的推文(24%)也在迅速增长。
数字人文的科研发展已经越来越依赖于Twitter 上的交流活动。2014 年Holmberg 和 Thelwall 通过比较 Twitter上的10 个学科(数字人文、天体物理学、生物化学、经济学、科学史、化学信息学、认知科学、药学、社会网络分析和社会学)447 位学者的账户活动(Holmberg and Thelwall,2014)[79],发现学术圈的学者比一般用户更喜欢转发资源和链接。此外,相较于其他学科,数字人文学者不仅互动更活跃、更依赖平台、更多线上对话和讨论(占推文的38%),而且学术地位越高的学者越喜欢使用Twitter。
2015 年 , Quan-Haase 等采访25位欧美数字人文学者,对他们使用Twitter的满意度进行调查(Quan-Haase et al.,2015)[69],发现Twitter上的数字人文社区正向着稳定的社会关系发展,并且数字人文研究的很多主题反过来开始很大程度上依赖于Twitter 而展开。这与Holmberg和Thelwall 提出的依赖关系不谋而合(Holmberg and Thelwall,2014)[79]。
(2)地理分布。2014 年墨西哥学者Galina 指出数字人文Twitter 社区地理和语言多元化的缺失(Galina,2014)[80]312-313,提出欧洲、拉美等西班牙语地区学者在Twitter上也非常活跃,只是因为语言不通而被英语主流学者忽视。该情况在其他非英语的数字人文社交网络群体中也屡见不鲜。 2013-2016 年, 瑞士学者Grandjean先后收集大量关于数字人文的Twitter数据,发现两个活跃且突出的法语和德语学者群体(Grandjean,2016)[70]。通过对 2,538 名数字人文Twitter用户构建“关注与被关注”的关系网络,Grandjean首次绘制全球视角下的Twitter数字人文可视化图像(见图8)。由图8可见清晰的英语(白色)、法语(蓝色)、德语(黄色)、西班牙语(红色)和其他语言(黑色)的集群,其中27%用户使用非英语在Twitter上进行交流,说同一种语言的用户更可能在网络图上聚集在一起。
图8 基于2,538名用户互相关注数据绘制的Twitter数字人文网络[70]
(3)性别分布。Twitter环境下的性别平衡也是数字人文研究关注的重点之一。比如,以Twitter 话题标签 #transformDH 和 #femDH 为代表的相关讨论引起众多数字人文学者的参与(Bailey et al.,2016)[81]。2010年,Fluharty分析164位数字人文Twitter用户的性别分布,发现只有 40%为女性(65 人)(Fluharty,2010)[82]。考虑到数字人文与人文学之间紧密的相关性,女性理论上应该占据非常重要的部分(如在现实行业中,女性图书馆员占80%、档案管理员66%、公共历史学家66%)。但参照2009年Twitter上所有用户的性别统计,发现整个女性用户群体只占到43%(Nielsen Mobile,2009)[83]。此外,Fluharty[82]还发现数字人文女性用户的平均关注人数(564)低于平均值(779),而男性用户往往对他们所关注的用户“过于挑剔”,即他关注的用户数总是少于关注他的人数(比例为0.57,而女性比例为0.69)。
总的来说,对Twitter的量化研究为了解数字人文知识结构和学者群体提供了另一个角度。通过对前人研究的梳理,我们能看到了一个沟通方式、地理语言更加多样化,并且性别更加平衡的社交环境,这与文献计量结果形成对比。
2.2.2 博客和论坛
除Twitter 外,博客也是数字人文学术传播的主要渠道。正因为对博客的依赖,数字人文甚至被McPherson描述为“博客人文”(Blogging Humanities)(McPherson,2009)[84]。博客圈与数字人文学者的日常互动密切相关,是学科发展的重要组成部分。博客交流介于文献出版和Twitter 对话之间,既不需要通过正式出版物出版,也不像推文那样短小而无法延展思想、深入论述。由此,博客这种非正式的传播方式正改变着学术出版的传统,同时也提升了数字技术在学术交流中的地位。此外,以邮件推送为主的论坛也为数字人文发展提供了肥沃的土壤,如数字人文最大的论坛Humanist。论坛在数字人文社区的形成和演变中也发挥着不容忽视的作用。
2011年Meeks迈出数字人文博客量化研究的第一步(Meeks,2011)[85]。通过收集博客文章、期刊和书籍内容,绘制了粗浅的数字人文主题词网络图(见图9)。
受 Meeks 启发,Burton 进一步对 396 个数字人文博客的106,804篇博文(1995-2013)构建模型,发现博客在数字人文学术交流中具有“基础设施”一般的重要性,其中32%的内容关于主流数字人文研究、20%学科建设、14%学科管理、10%博客技巧等(Burton,2015)[86]。
2015年,Puschmann和Bastos研究两个权威的数字人文博客HASTAC 和Hypotheses(PuschmannandBastos,2015)[87]。通过构造术语共生矩阵,他们的研究揭示了数字人文学者喜欢使用“人文”而不是“数字”的相关术语进行主题讨论,并发现了不同术语之间的不同用法,绘制了可视化网络图(见图10)。不同的主题术语聚类在一起,形成整个数字人文知识地图。在图10的4个集群中,最大的是左上方的档案馆和图书馆、右上方是教育和学习主题、右下方是一般人文、文化和艺术主题,而小部分的人类学和历史集群位于图中的左下方。
图9 数字人文主题和文档之间的可视化网络[85]
图10 数字人文相关术语的共现网络图③
除博客外,论坛也是进行学术交流的重要地方。1987年McCarty创立了现今依然十分活跃的邮件推送论坛Humanist(Rockwell and Sinclair,2012)[88],为数字人文学者提供一个“持久、温暖、非正式”的交流场所。
Rockwell 和 Sinclair 对 Humanist(1987~2008)进行分析 (Rockwell and Sinclair,2016)[89],发现其发展经历3 个焦点时期:1987-1995 年(人文计算)、1996-2000 年(过渡时期)、2001-2008年(向数字网络服务和合作项目转变)。这些结果与Wang和Inaba的结论一致,即该领域的名称明显从“人文计算”转向“数字人文”(Wang and Inaba,2009)[33]。此外,他们发现“数字人文”一词的使用不仅引发学校行政体系的改变,而且改变了数字内容的消费方式。互联网为Humanist 在1990年代中期发布和传播数字内容提供了更多的机会,从而改变了“人文计算”领域(关键词显示,论坛从对“硬件”和“软件”的讨论转变为关于“服务”的讨论)的发展方向。
2014 年 McClure 继续对Humanist 总计 27 年(1987-2014)1,150 万字的数据进行全面研究(McClure,2014)[90],并将这些单词归纳为138,476种类型,然后生成论坛主题的“概念图集”(见图11)。从图11可清楚地看到不同时期的讨论主题。例如,1980年代的“硬件”和“软件”就与Rockwell和Sinclair 的研究结果一致(Rockwell and Sinclair,2016)[89];1990年代的各种地名与当时全球化的数字人文中心和机构建设联系紧密;2000年之后出现许多将数字人文作为独立学科看待的主题词,标志着学科管理建设的开始;从2011年开始,出现了许多与新媒体相关的主题词,揭示了这一时期的各种新型研究项目。
对博客和论坛的量化研究是了解数字人文非常重要的一部分。一方面,相较文献来说,博客和论坛基本都是数字文本,便于进行文本处理;另一方面,相较社交媒体来说,博客和论坛有着深入的研究和充分展开的讨论,便于探索内容。这些研究不仅展示了数字人文“大帐篷”下各种主题术语的使用情况,并且反映出构成数字人文的具体内容及其与其它学科的关联性。
图11 Humanist论坛主题词网络可视化(1987-2014)
3 讨论
本文通过对数字人文定量分析的相关研究进行回顾,从文献和社交两个角度来揭示数字人文的学科(知识)结构、(内容)历史演变、合作模式和学者背景。通过分析研究学者间正式和非正式的交流渠道,本文旨在从数据的新角度帮助读者理解关于数字人文的一系列问题。
尽管量化研究存在误差而且只能通过数据对这些问题进行统计表述,但它们可以成为定性研究有力的数据线索,同时从宏观和个案角度为我们了解学科领域和学者群体奠定客观基础,甚至可以使我们“对研究的看法发生根本性的转变”(Bboyd and Crawford,2012)[91]。而且,它们还可以帮助我们填补还未认识到的数字人文历史和结构空白。这不仅方便我们了解“我们是谁”,同时将学科历史上的零散个例串联成整体脉络。从事这项工作的学者们站在“数字”和“人文”两个领域的十字路口,研究着这一双向关系中的联系和差异,探索着其学科目标和本质在当前数字时代的定位(Svensson,2010)[6]。
然而需要承认的是,量化研究也有许多局限性。高度跨学科的数字人文领域有很多无法用数据分析来解决的矛盾。虽然量化可以展示数字人文的主题分布、揭示“数字”和“人文”的占比,但不能仅仅依靠统计来解决真实环境下更加复杂的数字人文争论和批评,例如,仍有待加强的多样化学者群体和研究内容、对实事政治的较少关注、研究和教学的不平衡、仍需拓宽的开放存取的版权意识,以及对高科技高资金项目的趋之若鹜(Gold,2012)[23]。
其中,对地理分布和性别分布的统计虽然为案例研究提供了宏观脉络,但现实中区域发展和性别分配的缺陷依然存在。改善这些问题除了需要更频繁且有质量的学术交流之外,也需要认清数字人文在各国的发展并不一定代表着全球化。正如Mahony所指出的,并非所有区域的学术活动都与主流的ADHO 组织相关联(比如,北大论坛就没有),但对数字人文学者地理及性别分布多样化的研究填补了数字人文区域化发展缺失的空白,由此可以为未来解决地理和性别的不平衡提供数据指南(Mahony,2018)[92]。同时,也正因为这些不同背景的学者群体所起到的桥梁作用,使得原本充斥着不同语言、不同学术传统、不同研究范式的子集得以汇聚在一个具有包容特点的“大帐篷”之下。而目前的量化研究在分析“大帐篷”复杂的学术环境问题上,还停留在表层的统计阶段。
此外,数字人文中“数字”与“人文”的双向融合问题则更体现出定量研究的不足,需要大量的定性研究加以深入分析。数字人文整体上对科技相关主题趋利避害的缺点使得传统人文研究变得束手束脚,甚至有些人文学者开始怀疑和否定他们在这个数字时代开展研究的本质目的(Berry and Fagerjord,2017)[93]1。会不会编程的技能甚至一度成为进入数字人文学术圈的门槛;人们重视技术有时片面地超过了重视人文主题。部分大学管理制度盲目地将数字人文误认为人文学科新的替代领域,认为它能够带来新的技术、工作、资金和利益。这种“市场化”的数字人文因此被传统人文学科所排斥(McGann,2014)[94],并出现了很多批评的声音,认为这种现象会将高等教育推向经济利益最大化的价值观(Grusin,2013)[95]。当然,这种被计算技术所“威胁”的想法是非常片面的。数字人文不仅以各种方式为传统人文做出贡献,而人文社会学科欢迎和使用计算机进行文本处理的历史远早于其他大部分学科。在对计算机的应用做出贡献的同时,数字人文学者更应该与相对应的人文学科加强联系(Drucker,2012)[96],以回归研究的初衷,坚定人文内容的核心地位(Siemens,2016)[1]。
在量化基础上,对数字人文的进一步了解可以缓和人文学者对“数字”相关研究的负面印象,并且可帮助人文学研究合理发展新的研究模式(Berry and Fagerjord,2017)[93]1。反过来从“数字”角度讲,随着数字人文的发展,越来越多的计算机学者加入到促进人文学科技和新模式发展的潮流中。计算机专业的许多机构和院系,都聘请了数字人文专家或人文学者来协助他们开展人文主题中的数字应用工作和研究,如阿兰图灵大数据研究所(The Alan Turing Institute,2018)[97]以及谷歌数字博物馆。此外,许多著名的国际计算机会议也逐渐涌现数字人文研究的相关主题,如WWW 2018会议(WWW2018,2018)[98]。
为适应数字人文的发展潮流,人文学、社会学、计算机科学等相关学科需要建立对数字人文更全面的理解。这样不仅可以避免人文学与大众化的数字应用社区隔离开来(Berry and Dieter,2015)[99],也可以使计算机学者获得必备的人文学应用知识,并依此迎接新技术新思路的来临。
注释
①“数字人文”德语直译应该是“Digitale Geisteswissenschaften”,但是在德语语境下,大部分学者和机构都使用“Digital Humanities”。
②ACH/ALLC 会议为ADHO 会议的前身,此后的ADHO 会议以“DH+年份”(如DH2016)的格式表示。
③图片使用符合开放存取CC 4.0许可。