复数的数字人文
——比较视野下的中国数字人文
2020-11-15陈静
文/陈静
作为数字知识生产转型期的“数字人文”
在全球信息时代,以计算机为代表的数字技术、媒介与相应的一整套方法及知识话语已经渗透进了以高等教育、学术研究和出版为代表的知识生产系统中,改变着学术研究的对象、方法和合法性边缘,也由此产生了应用于人文研究的、新的数据工具、资源以及相应的机构和体制。从微观来看,人文学者除了利用计算机及文本处理软件写作、数据库查找资料、社交平台营造社群以及搜索引擎查询信息外,也都开始使用包括计算、统计、GIS、可视化、多媒体等数字技术和方法对文本、图像、声音、实体对象等传统人文科学研究对象进行多角度再现、分析与再创造,生产出基于信息技术的新型学术成果。从宏观来看,我们可以将这样一场变革描绘为以印刷术及书籍为物质基础和认识论前提而建立起的印刷知识生产体系向以数字技术和电子终端为物质基础和认识论前提的数字知识生产体系转变。
西方学界从20世纪60年代开始就对这场知识生产转型进行了一系列的讨论。这些理论脉络共同绘制了一个信息时代的知识生产转型期的丰富图谱,其中人文学者如何在信息方式变化了的社会语境中重新构建一个知识系统,如何从信息技术、媒介、新媒体和数字媒体的角度来探寻作为主体的人是如何认知、思考和传播知识等问题成为了新一轮知识系统/体制构建场景中的核心议题。与此同时,自20世纪90年代以来,作为知识存储和传播最主要方式之一的图书馆在大力发展基于数字技术的数字图书馆(digital library)的同时,也开始重视图书馆在科研技术中的对学术研究的支持实践。而作为数字技术与人文研究结合的典型代表,数字人文可以说纵横贯穿了各个人文研究及数字技术的领域,从个人学者到理论建构,再到技术研发和资源建设。尽管直至今日,“数字人文”都并没有形成一个公认的明晰定义,抑或是特定的某些群体性特征,但“数字人文”已经被普遍被接受为一种一定群体内的具有共识性的自我身份认知,一种新的科技发展生态环境中的人文学术发展的新路径,更是一种不可避免的数字生产转型期的范式形态。
当然,这里并不是说,数字人文就能取代传统人文研究。事实上,对数字人文的争论在近10年以来一直络绎不绝。数字人文经由早期的文本批评(textual critics),尤其是电子编辑(electronic editing)与“人文计算”(humanities computing)所开辟的两条范式,形成了一个具有丰富、多元且复杂的开放谱系格局,其内涵与范围都处在一个不断地被定义、被争论、被批判从而再被定义的过程中。随着研究边界的日渐扩张,参与者队伍的日益壮大,教学和科研机构的迅速增多以及出版成果的井喷式出现,都持续为数字人文的发展提供了机遇和条件,但也同时引起了一系列的争议和讨论。这些论争不仅发生在数字人文外部,也发生在数字人文的内部;既发生在推特、微信这样的社交媒体或者像博客、新闻媒体和开放获取的电子书这样的网站平台上,也发生在讲座、会议这样的学术场合或者报纸、书籍和期刊等传统出版物中。我们常常可以看到各个学科的学者、文博档馆员、计算机工程师、统计学家、设计师在文字间唇枪舌战。所有这些都从一个方面揭示了数字人文作为广泛获得关注、接受和质疑的新的学术领域,已经在全世界范围内形成了值得重视的强大力量,并且愈来愈深入地进入学术生态、知识生产的核心之中,成为一种数字时代人文学术知识生产的重要内在驱动力。
参照系:西方数字人文发展
在以英美为代表的西方学术世界中,数字人文所涉及的议题和领域已经非常广泛。在数字人文项目运作及机构设置方面,国外高校中的数字人文机构多数是以中心的方式存在,有少数是以研究生教育项目或者院系的方式出现。这种中心往往会跨越专业和学科的限定,强调跨学科性合作及多学科的参与,且往往有学校提供的技术人员,尤其是图书馆馆员及相关的技术专家参与其中。数字人文的网络基础设施更强调“融合性、合作性以及新兴的研究形式所具有的分散性本质”,同时与科学—技术导向或者驱动的基础设计建设有着非常大的差异。
这其实是一个究竟谁是数字人文学者,谁又来主导数字人文研究的问题。事实上,从这些年来看,跨学科、多学科协作已经成为了数字人文的一定程度上的“标配”。很多数字人文的中心和团队都是数据分析人员、图书馆员、计算机专家、设计师及人文学者共同参与,这些人往往要求能在项目框架内对人文研究目标、技术实现方式和跨学科工作流程达成共识。同时,数字人文中的“跨学科”不仅仅指的是人文与技术之间需要开展交流,同时还指在人文学科内部知识生产以及地方与全球知识生产之间要进行跨学科的交流与合作。我们在数字人文的发展过程中也必须保持清醒的反思意识,对数字人文产生及发展的社会语境要有所认知,才可能真正地发展出适合中国历史、社会及学术语境的数字人文学术范式。我们也必须清楚地意识到,西方数字人文发展的过程中充满了争议,而作为后发的中国数字人文学界,如何在后发的时空框架中以西方已有的经验为参照,发现具有中国语境中数字人文核心问题及理论体系,建立中国本土化的数字人文理论框架及实践路径,就成为比较视野下中国数字人文发展探索的核心议题。
复数的数字人文
西方数字人文所面临的知识生产方式转型及其所带来的张力状态在中国语境中同样存在。尽管西方数字人文兴起较早,对中国数字人文的发展有着很大的影响,但我们依然无法以一种西方模式来定义或者描述中国数字人文的发展历程和学术形态。这种差异一方面是因为人文与科技的互动以及跨学科研究自身在中西方语境中存在着历时性的差异,另一方面是因为科学技术在具体人文学科中的施用需要根据人文学科自身的资源、问题和学科特点进行具体化、定制化和特殊化。因此在面对如何发展中国数字人文发展的浪潮,如何在保持清醒的自觉反思的同时,有针对性地发展中国模式的数字人文理论与实践路径,就成为了中国数字人文学界在深入开展数字人文同时所必须面对的核心问题。
第一,我们必须意识到,数字人文在中国的发展具有其先在的特殊性,即文本与语言的特殊性。可以说,在中国或者说中文语境中,开展数字人文研究的最大障碍之一是语言障碍。一个是因为中文字符及文本有很多特殊性,而目前很多成熟的数据库、文本数字化的基础手段(比如光学字符识别[OCR])、断词方法等都是基于像英文这样的拉丁字母语言的,因此在中文文本,尤其是基于古代汉语的古典文献处理上的很多困难。这就要求中国的数字人文学者在开展相关研究中,必须意识到技术上我们与西方数字人文学界有着巨大差异。就目前而言,除了计算语言学、计算机科学、图书馆学等偏向基于技术研发的学科在处理中文文本时会有专门的一些技术方法和软件外,大部分人文学科的学者还尚未能真正掌握专门的文本处理和计算方法及技术。可喜的是,这两年像R语言和Python语言等编程语言的流行和普及,也为人文学者开展自主的文本处理研究提供了机会和可能。
第二,我们还必须承认,虽然在过去3年间,“数字人文”作为一个特定领域的发展,在中国也得到了越来越多的重视,各种会议、文章和讨论呈现井喷之势,但并没有如在西方语境中那样引发巨大的争议。尽管有一些警惕数字人文的文章出现,但目之所及,很多文章都是在为数字人文叫好。理解此现象,我们并不能就简单地认为中国语境对于数字人文更为友好或者更为宽容,事实上这更多的是因为数字人文在中国学界并没有像在英美社会中那样“强大”或者“威胁”传统研究范式,故而没有能引起更大范围内的讨论和争议。尤其是将其放置在中国的科学技术传统之中,我们就会发现,对于技术的盲目迷信与无知往往也会导致一种无反思性接受。此处想指出的是中国及中文语境对于技术的某种“宽容度”恰恰是因为对科技的“不讨论”。这种不讨论并非是说不论及科技,而是说,对于科技本身的探究并不深入。仅就数字人文领域而言,尽管这几年来相关研究和论文日益增多,但主要还是集中在图书馆及出版等领域。而文学、历史、哲学及艺术等领域中的学者涉及较少,特别是具体参与一些技术性工作、能懂得软件及代码编写的学者更是少之又少。这一点与西方数字人文群体相比,差异还是比较明显。当然,人才的培养是需要一定的时间,但从更为深入的层次来看,更重要的是人文学者普遍对于科技的无知与无感。尽管从20世纪90年代以来,关于互联网对于学术研究及写作的影响,已经有颇多讨论,例如网络文学、新媒体、数字文化等之类的研究题目已经俨然蔚为大观。但很多时候研究者对于像数据库、文字处理软件、互联网这样的数字技术及相关的软件的认知还存在不足,仅将之视为一种“中立”的工具或者单纯的数字产品,而对技术内在的深层运作机制、技术原理、逻辑方法、意识形态和伦理问题还缺少认知和批判性反思。尽管这种技术中立论的观点并非存在于某一特定语境,但就对新媒体、互联网和软件的相关研究而言,中文研究成果较之英语世界尚显得比较单一。
数字人文学者就一定对技术有感了吗?未必。事实上很多从事数字技术的人未必会对数字技术本身所具有的偏见、意识形态以及伦理问题有足够的认识。数字人文中具有技术优势的学者往往会强调技术的重要性,以至于对某种算法或者模式推崇备至,似乎在建设一个行业壁垒,并没有考虑到人文研究所具有的特殊性,即更高、更快、更有效并非适用于解决人文问题。一方面,数字人文学者有时也会有意识地回避“工具化”的问题。比如为了获得更多发表机会、更大范围的接受和降低理解难度,数字人文学者往往强调研究对象、算法模型和结果,而对像数字化、数据库技术有效性、数据格式及清理等前期准备过程中大量看似繁琐实则重要的基础性工作一笔带过。然而,数据结果呈现效果往往取决于这部分的工作。
第三,基于中文的数字人文网络基础设施方面已经做出了很多有益且具有影响力的成果,但目前中国数字人文发展中技术导向模式比较明显,而“学术问题意识”尚有所欠缺。
近10年来,很多团队针对大量有学术及商业价值的数据资源被重复建设,而看似不那么有价值或者开发难度过大的资源却长期被忽略的情况,建立了多个资源平台,开放或半开放给公众使用。这些平台都在对文献进行了一定的前期积累的情况下,开发了适合人文学者使用的工具和工作环境,不仅是像之前的传统数据库那样可以查询,同时还能允许用户与数据库进行互动,部分还提供了应用程序接口,使得其他数据库和系统可以方便地调用其中的数据,并灵活地以不同的方式呈现。尤其是图书馆、博物馆或者档案馆等机构在建立数据库方面具有一定的先天优势,因此,目前中国数字人文的发展主要还是以信息科学、计算机科学、计算语言学、图书馆学等技术方面比较具有优势的学科主导,主要的论文发表还是集聚在这些领域,而向历史、文学、艺术、哲学等传统人文学科渗透得并不深入。但数字人文想要成为一种普遍的、深入的研究范式,成为传统人文研究的有益补充,产生一系列具有同样有效且影响深远的成果,就必须要以研究问题优先。要形成中国数字人文的研究方式,就必须从人文学科发展的自身理论资源出发,从一种方法的借鉴和价值的判断回到学理建构。尤其是中国目前正处于数字人文的蓬勃发展期,正在从以数字化方式进行人文资源抢救、整理为主转向以数据驱动的学术研究主导,因此在这个时期必须更好地实现资源整合并能最大程度地支持人文学术研究,以问题导向来驱动、指导、参与数字资源建设,这样才能对中国数字人文发展的未来大有裨益。
第四,亟须提倡“数字人文”框架下的跨学科合作。跨学科合作之于数字人文研究的核心作用,西方学者已经讨论了很多。虽然在这个问题上,西方数字人文界也存在一定的难度,但就跨学科研究中国发展的历史经验而言,中国数字人文想要突破学科边界,难度更大。一方面是因为院系本身是以学科为主,所有的考核和成果都强学科导向,跨学科成果的认定存在困难;另一方面则是因为资源的分配和各类扶持政策多以专业或者院系为主,而跨学科研究项目比较难获得资助。回顾中国数字资源的建设,数据库建设多为国家或者商业经费,参与学者则主要是集中在图书馆、情报及出版专业,人文学者参与不多或者说并不占主导地位,主要原因之一就是数字资源的建设必须要求团队作战,而文史哲学者则更习惯于单打独斗。其次则是因为图情及出版专业有着先天的学科优势,数字图书馆与数字学术在图情及出版专业都有着较长的历史,且成果斐然。再则就是因为长期以来人文学科单个项目的资金有限,而数据资源的建设耗时久、代价高、劳动密集,单个学者或者小规模团队力往往力不能逮。然而,西方数字人文学界所面临的一些问题,却是作为后发的中国数字人文学界或许能避免的。尤其是在目前国家大力提倡“互联网+”“人工智能”等政策的前提下,是否可能借势推动科学技术与人文的结合,从而实现数字人文的跨学科的快速、顺利发展,也未必没有可能。尤其是在当前建设“新文科”的倡导之下,利用政策红利,来呼应新文科战略的“求变”策略,实现科学技术与人文社会科学深度融合,以科学的求真性、可验性和可重复性来推动人文科学研究的科学化发展,同时以基于数字技术及人工智能的新技术、新方法和新工具来回答新时期人文社会科学问题,并拓展人文社会科学在新时代的研究广度和深度。与此同时,数字人文的跨学科路径突破还有可能在创新人才培养方面实现。数字人文强调“数字”所指涉的研究范围,不仅包括使用编程语言进行文本计算、数据库搭建,也包括利用甚至开发软件开展相关研究。这就要求数字人文实践者不仅需要会使用一定的科技方法来进行人文知识研究、知识传播与管理,还需要介入科学技术的实际研发中去,参与到更具人文素养和人文精神的科学技术发展实践中去。可以说,面对新一轮科技革命与“新文科”发展需求,数字人文无疑指出了一条可能且可行的发展路径,而数字人文相关会议和课程的日益增加也体现了学界的一种自觉性响应。如何进一步推动并将数字人文与“新文科”发展战略实现深度的融合,以更高的战略性角度来思考数字人文在中国的发展模式与路径,建设具有中国特色的数字人文,从而更好地助力于“新文科”战略在理论体系创新和专业改革中的实施力度与深度,成为了数字人文发展的重要命题和时代任务。