APP下载

数字人文的工具理性、学术价值与研究成果的评估

2022-10-26李点

社会观察 2022年2期
关键词:阅读器工具学术

文/李点

数字人文的何作何为、何去何从是数字人文学科建设中的“天问”,从其问世之日起从未停息。在人类科学史上,所有新兴学科都在怀疑和质询的声音中生长成型,数字人文也不例外。在加利福尼亚的硅谷,“炒作周期”(hype cycle)是一个广为人知的术语。这个具有自嘲意味的术语描绘的是一般高科技公司发展成熟的五个周期,依次是“科技起因”“过度期望的高峰”“失望的低谷”“启迪的山坡”和“生产效率的高原”。

这个卓卓有名的“炒作周期”理论是否能有效地解释高科技公司的成败兴亡另当别论,但数字人文目前处于“失望的低谷”已从个别学者的窃窃私语几乎变成了学界的共识。跟前期的激烈批评不同——那时一些捍卫传统人文的学者往往对数字人文持彻底否定的立场,而近期的批评则来自数字人文的参与者,是一种反思与自省式的批评,有点恨铁不成钢的意味。弗朗科·莫瑞狄(Franco Moretti)可以算是这类批评的最好代表。莫瑞狄既是著名的传统比较文学学者,也是公认的数字人文的奠基者之一,他提出的“远读”(distant reading)的概念已成为数字人文的一个标识。然而在最近一次有关数字人文的对谈里,他对数字人文的学科现状却表露出相当悲观的情绪,认为“[数字人文]已取得的成绩并不令人满意……数字人文自己号称是了不起的新事物,然而至今为止我们拿不出什么证据证明如此”。莫瑞狄想传达的是对数字人文真切而又执着的关怀,同时也是对数字人文目前处于“失望的低谷”的焦虑。焦虑的根源在数字人文的研究现状与我们对它的“过度期望”不相般配,这是莫瑞狄的个人意见,但他很显然综合了众多批评者的声音。

数字人文孵育于20世纪六七十年代,成型于八九十年代,自2004年正式命名之后,进入迅速发展的时期,相当于前文所说的“过度期望的高峰”。迄今为止,数字人文当然不是一无所成;恰恰相反,它可以说是从无到有,硕果累累。除了海量的制作(图像、数据和编码)、论文和专著以外,数字人文的成果主要表现在学科本身的制度化建设,包括研究中心、专业协会与行业学术刊物。数字人文的制度化建设的迅猛发展离不开充足的科研经费支持,这方面数字人文相比传统人文有明显的优势,因为其与电脑科技的交叉得以模仿现行自然科学体制的操作模式,从而取得公共资源与私立基金会的资助。

然而,制度化建设的成功并不是一个学科成熟的决定性标志,有效研究成果及其影响才是。迄今为止,数字人文领域内发表的成果虽然非常可观,可是真正令人满意的杰作却是凤毛麟角。这正是莫瑞狄焦虑的根本原因所在,所以他对数字人文未来的工作提出如下建议:“也许数字人文接下来要做的最重要的事情是了解自己的研究成果的性质,也就是如何评估的问题。同时,我们必须反思为什么生产优异的成果如此之难,尽管我们的精力、人才和工具一样也不缺。”

数字人文研究成果的评估困难恰恰来自这个学科的新颖之处:即把数据分析带入文本分析,通过其产生的统计性的数量化结果而导出新的结论,产生新的知识。经过几十年的努力,数字人文的这种工具理性的价值已经得到了制度化的肯定,可是它的价值理性必须纳入现有的科学评估体系,包括传统人文的价值评估范式。很显然,数字人文的数量化文本分析方法跟传统人文的质量化分析方法是有区别的,因此要想建立一个统一的标准是件困难的事。所以早期的数字人文学者处于相对独立的状态,在学术领域的边缘地带独自辛勤耕耘。进入21世纪,数字人文的潜在学术价值不再令人怀疑,但是如何在现有的学术体系中评价数字人文研究成果引起了持久的争议,这首先对于数字人文学者的求职、升迁和奖励具有实际意义。有鉴于此,美国现代语言协会(Modern Languages Association)于2000年发布了关于评价数字人文与数字媒介学术成果的指导性建议,并于2012年更新。这份建议首先肯定数字媒介对教授职能在读写文化、学术研究、教学实践及公共服务方面带来的巨大变化,而数字人文代表的方法和理念是延续和张扬人文精神新的知识渠道。由于数字人文学科本身的繁复和多样,这份建议并没有给出非常具体的评价标准,只是强调在传统学术评价规则的框架之下包容更为广泛的研究成果样式,如电子出版物、开源期刊及数字与图像制作。

事实上,数字人文的兴起也得益于美国高等教育界自20世纪90年代以来对于高等教育的价值与目的的反思,包括有关学术文化传统的重新认识。1990年,著名教育学家欧内斯特·博耶(Ernest Boyer)发表了影响深远的研究报告《重估学术:教授职业的首要责任》,主张在高等院校日益增加的社会责任和迅速发展的信息化科技的前景之下,要突破由来已久的研究即学术的传统定义。他认为教学与研究决然对立的思维已经过时,提出了扩展学术定义的四点意见,即发现的学术、整合的学术、应用的学术和教学的学术,这四点意见基本上规范了之后关于学术文化的变革方向。

当今的美国高等教育与学术文化在很多方面已经发生了巨大的变化,如大学财政与管理的企业化、学科交叉的制度化、在线与多媒体教育科技的普遍化等。数字人文在这个大环境中迅速发展成型也是顺乎自然的事情。至少在博耶所提倡的学术文化新定义的三个方面,即整合的学术、应用的学术和教学的学术,数字人文发挥其先天的优势。我们注意到博耶把“发现的学术”列在第一位而突出其重要性。发现意味着创造、发明,是产生和传递新知识的基础,也是贯穿一切科学话语之中的核心价值符号。在这方面,数字人文的表现是不能令人满意的。一如弗朗科·莫瑞狄的悲观论调,我认为目前数字人文处于“失望的低谷”的说法并不过分。

那么数字人文目前面临的挑战是什么呢?笔者认为,一是评估体系的自我指涉,二是阐释理论的放弃。前者导致数字人文研究的自我封闭,大量的研究成果自娱自乐,而得不到人文学界的认可,更不能满足“发现的学术”的范式要求。后者倾向于过度相信数据,视之为自在、自明的文本,把文本解读简化于数据统计和数字推理。两者虽然在研究过程和成果呈现中表现不同,实质上都源于方法的理性化,即以工具理性为目的的实验主义哲学。

数字人文的学科立足点是对源数据的量化分析。对于这种分析的有效性的验证来自两个方面,第一是采集源数据的工具是否运行正常,第二是这个运行正常的工具所得出的结论是否可靠。常见的数字人文研究多注重于第一方面而轻视第二方面,或者把两者混而为一。这里的“工具”是指替代人眼阅读的机器阅读,包括研究者依据电脑编码语言定制的各种处理文本的专用应用程序,或由高科技公司及行业研究机构开发的智能数据库与通用阅读器,其中最有名的是由谷歌于2010年推出的“N像阅读器”(Ngram Viewer)。这个阅读器可以瞬时“阅读”谷歌书库中的海量文本,所以自问世以来成为数字人文研究者津津乐道的工具。因为其声望和影响,关于数字人文的评估争议也集中体现在N像阅读器的功用和效率上面。

N像阅读器实际上是一个计算机搜索引擎,它通过人为输入的任意关键词组合而给出词语频率和相联关系的图标或数据统计。这种阅读完美体现了莫瑞狄先于N像阅读器所猜想的“远读”的内涵,因为“远读”的实质就是借助于数字化手段的泛读,在海量的文本里通过“分析修辞、主题、借喻、风格和系统性来寻找范式和模型”。显而言之,完成这样的阅读非N像阅读器莫属。事实上,弗朗科·莫瑞狄身体力行,通过N像阅读器,较早地提供了一个关于“远读”的研究案例,即考察1740年到1850年之间出版的7000部英国小说中所体现的作家在小说主题和遣词造句中的性别意识,这是数字人文早期研究一个典范性的成果。

然而,借助N像阅读器的远读功能而产生的结论的学术价值并非毫无争议,最常见的批评是它们往往只是证实已知的常识,而非创造了新的知识。美国学者艾拉兹·埃登(Erez Aiden)和让-巴蒂斯特·米歇尔(JeanˉBaptiste Michel)合著的《未知的疆域:大数据作为探究人类文化的棱镜》是一个体现了数字人文的承诺与局限的例子。这两位学者置身于信息化时代的宏观视野,宣称“大数据革命”不光会改变我们如何认识自我,还会改变人文和社会科学的性质,并重新定位商业化社会与大学这个象牙之塔的关系。基于这个宏观视野,他们的关注点是大数据的历史痕迹和社会影响。于此,他们依据N像阅读器所提供的抽象数据语言来解释许多历史和社会现象,其中一个案例是该书第五章《沉默之声》对纳粹德国的艺术审查制度的研究。他们检索发现,许多著名现代艺术画家像马克·夏加尔(Marc Chagall)、保罗·克利(Paul Klee)在德国1933—1945年间出版的书籍中几乎不见踪影,这说明纳粹德国已成功地根除了作为“颓废艺术”的现代派艺术。这个结论,正如批评者所言,毫无新意,至多提供了关于纳粹德国焚书禁言的一个细节。它代表了很多数字人文学者在构思研究课题时的致命缺陷,即为已知的问题补充显然的答案。

如此看来,埃登和米歇尔的成就只能说是在整合与应用的学术方面有所贡献,而在发现的学术方面则无所建树。更恰当地说,他们证明了数字人文的工具价值,即N像阅读器远读的强大功能。作为N像阅读器的发明者的团队成员,他们对这个新颖的高科技“玩具”爱不释手,不惜以近300页的篇幅渲染其功能与价值,有一种“工具自恋”的意味。在数字人文界,这种工具自恋的确是一种常见的现象,尤其是在具有科技背景的数字人文学者当中。这种现象反映了数字人文对高科技产业炒作文化的追随,对其软件程序产品的商品特性的警醒不足,从而把学术性和市场化混为一谈。更为重要的是,工具自恋遮蔽了对工具本身应有的批评维度,对软件程序可能的偏见与局限视而不见,从而忽略其潜在的结果与效用偏差。在计算机科学的算法研究话语中,“垃圾进,垃圾出”(garbage in,garbage out)是一句很有反省意味的流行语,意指错误的数据输入会产生荒谬的数据输出。这不仅强调数据采集的人为前在性,也暗含算法程序的局限性。当今许多基于算法程序的数字化商业产品,尤其是使用预测模型(predictive modeling)的数据采集系统,在种族、性别与社会弱势群体方面都表现出不同程度的偏见与歧视。谷歌的N像阅读器及其伴侣谷歌书库也不例外,它们众多的缺陷如书目选择的随意性、科目类别的代表性以及光学扫描的文字误差都可能引发远读的失真。

毫无疑问,数字人文不能放弃对数字化工具的批评,但这不意味着放弃数字化工具本身。数字人文,从根本上来说,就是用数字化工具来回答传统人文的问题。对于任何一项数字人文研究,工具的重要性不言自明,而问题则更为重要。“正确”的问题应该体现人文精神的精髓,即代表人类对经验的超越和对未来的构想,指向增进理解和培育共情,其预想的答案一定含有发现的学术内容,并经得起现有学术评估体系的考验。在研究过程中,这个“正确”的问题与数字化工具碰撞、交融、磨合,有可能变成无意义的问题,也有可能变形为其他的问题,或引发出别样的衍生问题,这也许是数字人文研究不同于传统人文研究的地方。这种问题为重、工具为辅的研究构想已经在一些成功的数字人文学者那里体现出来,比如英国学者梅尔芭·卡迪-基恩(Melba CuddyˉKeane)及其合作团队关于“现代主义的关键词”的研究项目。这项研究在一定程度上揭示了成功的数字人文研究的构想与思路:预设的关键词通过远读得到证实或修正,新的关键词形成数据链或图标、曲线,指向潜在的范式、模型,通过再次阅读而连接传统人文的课题,从而厘正已知的知识或创造新的知识,最终体现发现的学术文化价值。

如果说数字化的远读一向是数字人文研究最重要的方法,那么现在已经到了重新考虑它的涵义的时候。首先,我们必须摒除莫瑞狄最初所设想的远读与近读(close reading,又译“细读”)完全对立的立场,重新认可近读的阐释功用。远读是机器的阅读,是初级阅读,它提供了关键词的谱系;近读是人的阅读,是再次阅读,它为关键词添加时空的坐标,然后为人类关注的现实性问题或终极问题给出可能的答案。远读与近读的糅合不应被视为对数字人文学科特性的消解;恰恰相反,它应被看作是电脑科技和传统人文的交叉性的标志。无论如何,数字人文的研究对象依然是文本,虽然这是数字化的文本,也可以说是文本的文本,文本性是其本质,而发现文本性及其意义依然是阐释学的范畴。数字化工具为我们提供了逼近文本隐喻(allegory of textuality)的新手段,而研究者用心的近读和机器强大的远读仍然是领悟文本隐喻的必然途径。

综而论之,偏重数字工具还是重视学术发现是当今的数字人文面临的一个抉择。如果我们只是继续或重复早期数字人文学者的研究思路,把编码制图作为首要任务,止步于采集新的数据来证明已知的结论,那么数字人文将不会得到学界的尊重,永远处于失望的低谷之中。数字人文的突破之路在于把关注的重心从工具理性的自我把玩转移到外向性的、可传达的发现性学术。这要求我们重新思考数据本身的价值及其对于人文研究的意义,相信数据的言说意义,但不迷信数据是社会现实的绝对、唯一的再现。在当今“数据崇拜”风行一时的数字化时代,这当然是一件很难的事情。然而,因为数字人文占有数字工具技术与人文传统精神的双重优势,数字人文学者对于破解这个难局负有义不容辞的责任。正因如此,我对数字人文的未来仍然抱有期待和希望。

猜你喜欢

阅读器工具学术
学术是公器,不是公地
学术动态
学术动态
波比的工具
The Magna Carta
波比的工具
Winner Takes All
对学术造假重拳出击
准备工具:步骤:
“巧用”工具