数字与文学的对话
——“数字人文规范对传统文学研究方法的挑战”研讨会纪要
2020-10-10项蕾,许婷,谭天等
时间:2020年5月8日14:00—17:00
主办单位:北京大学数字人文研究中心
主持人:邵燕君(北京大学中文系教授)
邵燕君:近年来,数字人文在整个人文学科领域都火热兴起。相对而言,在文学领域,尤其是现当代文学研究领域,这把火烧得是最慢的。或许,这里可称是“最后的堡垒”。这不仅由于文学的意蕴是最难用数字计算的,也是因为,文学研究的背后矗立着一个具有神圣意味的“伟大传统”。然而,自从数字文明兴起以来,建立在印刷文明“基础设施”(infrastructure)上的人文学科大厦就已经开始动摇。数字人文作为一种新的研究方法对传统人文研究的挑战是全方位的,文学研究领域并不能例外。
面对这样的挑战,作为传统的文学研究者难免是惶恐且不快的。这不仅由于自身的身份将发生改变——从具有文化使命感的意义阐释者转变为谦逊的分析者和观察者,而且在数字人文视野的参照下,原有研究方法的局限开始浮出水面:精英霸权的自我中心,主观判断的不证自明,以及肉眼凡胎的无能为力……
接受数字人文的方法,文学研究会不会丧失其独特的灵性?文学研究是不是会进一步被社科化?整个人文研究会不会被计算机化?这些都是重要的问题。在回答这些问题之前,我们需要问自己的是,我们能回避数字人文的冲击吗?显然不能。我们需要数字人文吗?其实需要。所以,真正的好问题是,什么是“好”的数字人文研究?我们该如何把传统文学研究推向“好”的路径上去?
半个世纪之前,媒介理论的先驱学者麦克卢汉就提出,在媒介革命来临之际,要使人类文明得到良性继承,需要深通旧媒介“语法”的文化精英们以艺术家的警觉去了解新媒介的“语法”,从而获得引渡文明的能力。
所以,今天的文学研究者,尤其是年轻一代的研究者,需要主动迎接这一挑战。不但得懂专业,还得懂数字技术,还得具备跨学科的人文素养。一个好的数字人文研究者,不但要以数字人文为“器”,还要以数字人文为“思”。但首先要保证,这把利器要掌握在“内行”人手中。我们只有主动去学习数字人文的新语法,才能把数字人文研究的新范式嫁接在原有的研究方法上,使其成为文学研究的加强版、升级版,将印刷文明阶段数百年积累的成果方法加上数字的引擎。如果我们一味拒斥,麻木不仁,一旦整个学术研究发生系统性转型,未及内部转型的学科就可能在“降维打击”中被格式化。
一 演讲嘉宾报告
姜文涛(浙江大学国际联合学院人文社会科学研究中心副主任):什么是好的数字人文?
我主要的研究方向是英国漫长的18世纪文学文化研究,这是英国社会现代化的一个历史时期,也是文学研究和写作逐步在大学体系内成为现代知识生产体系一部分的过程。我对这段时期的印刷文化和情感问题尤其感兴趣。而作为中国人,在研究外国文学的时候,我很自然地想到了本国文学文化中类似的现象,比如明清时期及其以来的印刷文化、情感与近现代等问题的关系。
在《什么是好的数字人文》这篇文章中,我提出了优秀的数字人文文学研究应具备的七条标准:人文学术意识、社会科学素养、学术史及学科史的视野、数字方法和技能、数据意识、反思性、开放性与协作性。也许对于文学研究和总体上的人文研究来说,数字人文技术提出的最大挑战,就是“数字方法和技能”与“数据意识”。我的《作为一种文学研究方法的数字人文——印刷文化基础设施,20世纪文学批评史,以及文学社会学》一文简单地梳理了西方现代文学批评史,并从中寻找早期使用数字和计算的文学批评和研究方法,希望能对从西方文学理论和批评史的角度来把握数字人文文学研究有一定的帮助。
数字人文文学研究如何切入到作为大学学科体制的中国文学研究发生发展的历史脉络之中,这会是一个很有意思的话题。我主要还是从事西方文学研究的,这方面的知识积累是很有限的。近些年,有关人文学历史的研究在西方再度兴起,一系列相关杂志与协会陆续出现。我想,这也许意味着作为研究型大学学科体制和知识生产之一部分的文学研究和宽泛意义上的人文研究已经在面临新的历史转折点了,数字人文的兴起也许为未来的人文社会研究提供了一种可能。
最后,我引用澳大利亚数字人文文学研究学者Katherine Bode的话作为结尾:“文学的意义不是单一的,而是社会构成性地锻造而成。在这个社会里,特定时刻中特定范式(历史的、哲学的、心理学的、社会学的,现在是统计学)的突出地位塑造了我们所知的一切和理解这一切的方式。任何情况下,学科的纯洁性都无法保护贫乏的方法论。跨学科性能增加方法论意识。”
邱伟云(山东大学历史文化学院历史学系副研究员):“增益文学研究方法”,而非“取代传统文学研究方法”
过去在数字人文研究中,我的主要工作是数字概念史的相关研究,亦即结合自然语言处理技术中的文本探勘方法与德国的概念史研究法,对长时段的历史或文学文本进行快读、远读与共读的工作。这样的方法,可以运用至研究政治、艺术、经济的概念,当然也可以使用至文学概念研究。
数字人文研究中有快读、远读与共读三点特征的提法,是武汉大学王晓光老师与南京大学陈静老师在《数字人文打开文化新视野(高峰之路)》中的主张:数字人文方法能帮助人文研究者加快阅读和利用文献资料的速度,聚焦比文本小很多或大很多的单位(如手法、主题、修辞、文类或体系),进行时间跨度较大或素材量较多的研究,在纷繁庞杂的信息中快速发现和定位议题,在学科脉络中把握关键问题,深刻探究问题所在,解释背后的义理与规律。我认为这是数字人文能够增益文学研究方法的重点所在。
这里,我使用的是“增益文学研究方法”,而非“取代传统文学研究方法”。在数字人文研究者的世界中,尤其是在华人数字人文学界,不存在如美国那种物竞天择、适者生存的研究方法新陈代谢论。因此今天我主要围绕着数字人文范式与传统文学研究方法的关系来讨论。在历史学界,目前仍有传统与数字的史学研究方法的挑战论述框架,这对发展全体视野下历史研究法而言是有损伤的,它先设地抹煞了数字人文作为历史研究法的可能性。学术是多元的,应当让各种方法并呈,不应有方法学的主次强弱之分,这样才能推进学科研究的前沿。
首先,什么是文学研究?进一步问,分别作为古典文学研究、现代文学研究、跨领域研究顶级期刊的《文学遗产》《文学评论》《文史哲》杂志,他们各自对“文学研究”的理解是不是相同?相同点何在?不同点何在?研究者的答案是一种印象式的回忆与结论,有其正确性,但却也有所差异,会造成似乎各述己志的结果。在全体史视野下,让不同的诠释与论述多元齐放,正是趋近真实的最好途径,因此过去的印象式研究法与结论当然有其存在的合法性,只是,如果可以通过数字技术,客观重演三种顶级期刊对文学研究的理解异同,这样的结论是否也有其合法性?
图1 《文学遗产》中的“文学”概念之花
在《文学遗产》的“文学”概念之花中,联结的最大关键词节点是中国文学史、诗歌、章回小说、版本、古代经典小说等。
图2 《文学评论》中的“文学”概念之花
在《文学评论》的“文学”概念之花中,较大的连结关键节点是意识形态、现代性、民族、现实主义、知识分子、思维形式、个性心理特征、民族、权力主体、马克思主义等。
图3 《文史哲》中的“文学”概念之花
在《文史哲》的“文学”概念之花中,较大的连结节点则是作家、政治、劳动、艺术、剥削阶级、资产阶级、诗人、日本等。
通过CitesPace软件,巨量地计算了《文学遗产》自1980年到2020年40年间共5403篇文章的关键词、《文学评论》自1959年至2020年61年间共6470篇文章的关键词、《文史哲》自1951年到2020年69年间共6150篇文章的关键词后,我们得以快速给出过去顶级学者过目不忘能力下的印象式结论,甚至更为精确地给出三份期刊对“文学”概念理解的异同,从此揭示出中国文学研究学界中对“文学”概念的多重理解。此例即可回应前述“快读”功能,上述数据的下载以及计算、绘制,我用6小时就完成了,假使不使用数字人文技术,那么又需要多久?又或是这种题目因受限于人力不会被当作问题提出来?
其次,什么是传统文学研究方法?是否有传统文学研究方法呢?预设传统文学研究方法存在对整体的文学研究发展而言是促使其前进还是倒退呢?
霍布斯鲍姆曾在1983年所写The Invention of Tradition一书中,提出了“被发明的传统”这个概念。在什么情况下,传统的发明会更频繁呢?当社会迅速转型削弱甚或摧毁了那些与“旧”传统相适宜的社会模式,并产生了旧传统已不再能适应的新社会模式时;当这些旧传统和它们的机构载体与传播者不再具有充分的适应性和灵活性,或已被消除时;亦即当需求方或供应方发生了相当大且迅速的变化时。“传统文学研究方法”概念被提出来,正是因为旧传统和它们的机构载体与传播者,亦即以印刷文明为主的文字史料载体与传播工具,在全信息时代下不再具有充分的适应性和灵活性。IDC公司统计2011年全球被创见与复制的数据总量为1.8ZB,远远超过人类有史以来所有印刷材料数据总量200PB,专家更是预测,到2020年全球数据量较2010年将增加43倍,达到35ZB。正是在这样从印刷文明转进到数字文明的奇点时刻,“传统”必须被提出。
是否在数字文明下,就不需要传统文学研究方法?其实不然,因为这里预设的所谓传统文学研究方法,就是指经由研究者通过经验阅读与分析的研究方法。在数字人文视野下,即使使用了机器阅读帮助研究者进行快读、远读,最后还是要回到“共读”阶段,才算完成一段好的数字人文研究诠释循环。即使未来我们转进到数字文明,被视为传统文学研究方法的经验式阅读分析方法仍然存在。
既然如此,所谓传统文学研究方法是何时以及如何被发明的?我们又是否需要标举“传统”与“非传统”文学研究方法的二元框架?在前述二元框架下“传统”与“非传统”是竞争的还是互助的?“传统文学研究方法”一词是否带有贬抑的意味?我们对这些问题的解答,将极大可能范定未来数字人文与文学研究的关系是取代还是互助。
霍布斯鲍姆也讨论了传统与非传统断裂之争,他说某些运动有意称自己是“传统主义者的”,并对那些通常被看作历史连续性和传统之栖身处的团体具有吸引力。事实上,维护或恢复传统的运动的出现已显示了传统与非传统的断裂。在浪漫主义以来的知识分子中已习以为常的这种运动,从来就不可能形成或是保存一种活的过去,而是必须成为“被发明的传统”。因此,我们是否要在数字人文与文学研究开始对话之际,设定传统与非传统的二元挑战框架?或者我们可以更多元开放地为数字之花在文学研究方法花园中赏赐一方天地?
我非常肯定数字之花应绽放于文学研究法花园,但我也不否认近来看到一些伪数字之花不断被种植,造成文史研究界对数字之花的怀疑与厌恶,它们也正是造成传统与非传统二元框架在西方被树立起来的个中原因。传统与非传统文学研究方法的二元框架因何而起?背后又隐藏着什么力量?
传统与非传统二元框架的兴起,乃是来自一些有着数字外表却无人文精神的塑料数字之花——就是毫无人文精神于其中,徒有数字炫技外表的研究。这正是2014年美国学者哥伦比亚大学美国学研究中心的亚当·克思奇在The New Republic杂志上发表的Technology Is Taking Over English Departments: The False Promise of the Digital Humanities一文中所批评的对象。该文力批某些数字人文倡导者的极端立场,认为他们流露出对传统人文核心价值的挑战乃至颠覆,如轻文字重图像,轻思想重制作,轻创作重编码,等等。
西方在学术市场经济与话语霸权争夺之下的传统文学与数字文学之争,是否需要延续到中国来?具有和而不同传统价值的中国的文学研究界,是否需要类似克思奇所主张的取代论的二元框架?克思奇的观察与批评有道理吗?有。最近我所审查的数字人文研究论文中,就出现很多这种塑料数字之花。
伪数字之花有三种特征。第一个特征是会有以今刑古的现象,从拿来主义出发,拿当代语料所训练出来的文本探勘工具去计算古代的词汇与情感,试问,古人与今人的用语与情感会一样吗?第二个特征有想当然的问题。有些数字人文研究专案没有与人文学者合作,径自拿数字工具去计算传统文学与历史史料,最后得出一批数据,直接从数据简约地做解释,未进行数字人文的诠释循环——从数据清理开始、计算数据,得出数据线索,回对史料,确认数据线索的正确或偏差,再决定修正工具或是直接就正确数据进行解释与结论的一套研究过程,——无法保证数字人文研究结果的可靠性。第三个特征是老生常谈,亦即未能提出数字人文视野下的好问题。数字人文研究方法确能验证前人研究成果,但是不能仅止于验证前人说法,如此无法点出数字人文研究法的存在合法性与主体性。数字人文研究的好问题必须是过去无法想象的新问题。
中国语境中的数字人文研究者如何从跟风转到解决克思奇命题?特别是文学研究领域。我感觉有四个方向:第一,从文学的情感研究出发结合情感计算,纳入古今/国别/文化等人文思考于计算之中;第二,从文学的概念研究出发结合概念计算,纳入词频/共现/词向量/主题模型等多种方法,以及历史语境脉络等去进行更为多元的探勘工作;第三,从文学的风格研究出发结合文本风格计算,纳入认知/行动/语境等人文思考于计算之中;第四,从文学的作者研究出发结合作者计算,纳入血缘/姻缘/拟亲缘/地缘/业缘等人文思考于计算之中。
只要我们能够在进行数字人文研究之际,时常保持人文学者的研究专技,就能避免种植出伪数字之花。
赵薇(中国社会科学院文学研究所助理研究员):“网络分析”——以李劼人《大波》为例
今天我要谈的是Network Analysis“网络分析”。从问题意识谈起。数字人文研究虽然具备一定的开放性和探索性,但在相当长的阶段内仍需要较强的问题意识来指引,背后需要有真问题。文学研究不仅仅是听凭数据驱动或方法冲动,特别是在数据量不够大、质量不够理想的时候。数字人文的文学研究,可能是大开大阖的远读和讲究精致感性的文学阅读对冲得最激烈的地方。如朱本军老师感慨:“人文学的容错率其实并不亚于(不高于)自然科学”,文学研究必然是门高精确度的“知识驱动”的学问。对问题史、批评史的深入梳理;对研究对象的深入了解;对技术方法的起码了解,这三者缺一不可,最高境界是要避免数字人文的工具化,问题与方法需要相互寻找、对接。
我在2015年准备博士论文时,对李劼人产生了一些困惑,当时似乎很能理解所谓“李劼人接受之谜”是怎么回事——为什么一个著述等身的大作家,却好像并没有获得相应的文学史地位——除了一些特定的历史原因,我隐约感到,这可能和他的人物观,组织情节时对人物话语的过分倚赖有关。以连篇累牍的对话作为连缀事件的主要手段,是受到了近世章回体世情小说(特别是晚清新小说)影响的文本组织形态,且和作品真正要表现的主题——信息的流布,或者说以人物对话为载体的小道蜚语在将保路运动推向武装革命中发挥的巨大作用有关。
所以,我最初较关心的问题是,这么频繁的人物上下场和复杂对话,是否掩盖了凭借我们一般意义上的故事阅读容易丢失的信息,掩盖了更深层次的叙事意图?写了这么多人物是否真有必要?他们的功能还和古典小说一样吗?当时,我用Gephi中特殊的布局方式先将人物网络的分支结构表现出来。(按加权度排列,不同颜色区分不同社群,下同)
图4 《大波》(1937)中的人物规模和人物联通状况
图5 《大波》(重写本)中的人物规模和人物联通状况
如图所示,旧版《大波》在由204人组成的网络中,有一个100人的巨分支,还有96个出场人物处于和谁也不联通的独立分支中;重写版中,出场人物上升到570人,独一无二的巨分支仍然只有120人。剩下四百多人,这些“零散”的“次要人物”大多在小说叙述或人物对话中一闪而过,他们浮桴于叙述话语的汪洋大海,未同那个“主要人物”的网络建立起有效的叙事关联。为什么在作者的观念中,写一百来人,要有四百来人“陪衬”?那些既作为功能元、又有性格的人物到底占多少?这是一个典型化、典型论的问题。在晚清小说体式向近现代“转型”的过程中,李劼人很可能是一个不可多得的样本,他写作的体式意义,要以怎样的解读方式,才能更直观地呈现出来?怎样的人物体系的形态特点,才能够协助他自如无误地表达他的旧民主主义革命观?这和所谓的自然主义又有什么关系?研究对象的独特性,在呼唤某种“量身定制”的方法:用网络分析的办法来把纷繁复杂的,“超出人们理解范围”叙述关系做可视化。几乎同时进入我视野的,是弗朗科·莫莱蒂于前一年结集出版的Distant Reading(《远读》)。他浅尝辄止地触及了一些网络分析的理念。他当时最大的局限是尚没有走到量化这一步。我们的研究要找到一个恰当的变量和计算方法,来衡量小说中所有人物之间的关系,建立关系型叙事网络。
第二个问题是关键的中间概念和中间理论。在开始一项数字人文研究的时候,一些重要的“中间概念”的文学解释意义,它的文学史、学术史的理论价值是值得深挖的。反过来说,也许我们应该从问题出发,去寻找可操作的、作为桥梁的中间概念和中间理论,做必要的历史勾连和意义阐明。这和数字人文的主要特征之一可操作化有关:中间概念一头连着文学史、文学批评史、文体论;另外,它必须可以测量、转化和对接实证。那么,去哪里找?
一方面,数字人文并非横空出世,它其实是深受社会科学实证量化的研究方法影响而兴起的。数字人文学者一定要有社会科学素养,理解“假设—验证”框架的实操意义。就是要相信,在社科中某个前量化状态的学科中,肯定有人已提出相似的概念和想法了,只要再往前一小步就很不容易了。
另一方面,我们的文学、文学理论、文学史的研究本身有悠久的传统。像本研究中的“人物体系”“人物功能”,以及最重要的,由可计算的“中介中心性”所提示的叙事中的“关键人物”等,都是其原有自的。那如何来计算?这就需要以角色对话情境为基础来构建引语网络。“对话关系”这样一个概念之所以对李劼人这样的近现代小说有相当重要的意义,除了前面已经说过的原因——和主题相关,另外也是受到晚清议政传统的影响,所谓以小道之言连缀“话柄”,连缀时事轶闻——当然,这和中国白话小说主潮是由宋元话本基础上发展起来的也有关。所有这些都是值得我们去深入发掘的。
从另一个方向来说,尽管莫莱蒂的工作已经很晚(2010年),图都是手工绘制,而且无权重、无方向,也没有将叙事聚焦作为变量引入中心性模型中,还是引人注目。从文学研究出发,他很好地建构了中间概念,他重新发展了沃洛克的人物空间概念,把中心性、聚类、无标度网络等计算概念和人物论中已有的概念进行对标,因而提出了“人物分层的重新再概念化”问题,也就是将人物按叙述功能的重要性重新做量化排布的想法。起到重估“主要人物/次要人物”“主人公/小人物”“圆形人物/扁平人物”二分的作用,颠覆了既有的人物理论,以网络分析的手段融合了自古以来的“性格中心论”和“功能中心论”两大人物理论的流脉。深挖这样的中间概念对之后工作是有价值的,它既有文学理论价值,又有现实的操作价值,既有学科内部的意义,又揭开了数字人文研究的前景。
中间概念也是典型的“计算批评”的概念。计算批评就是从抽象的统计表征和“文本细读”的结合部发力,进行人文质询,试图发现于不同尺度上聚焦的“文本”生产背后更深刻的文化逻辑。芝大团队用模式识别的办法来研究美国现代主义时期的英语俳句,“潜在俳句”这个由实验产生的中间概念,其实就是典型的计算批评概念,它的一半来自既往的批评史和学术史,另一半则来自测量、算法甚至是程序脚本。它让原先散见在个别诗作中可能是偶然的语言特征,在数百本期刊的观察尺度上,呈现了一个共享着特定要素的更大文本集合,这样就将某种“观念流传中的俳句模式”实实在在地展现出来了,让人们可以据此去探求某种诗学话语的生产机制,有效地释放了限制在原先文学批评史视域中的潜能。再如朗、戴安德、朱远骋做的“重复”和东亚文学现代性的研究。他们通过实验设计,借助心理语言学和语料库语言学的测量手段,借助“重复”(对应计算语言学的“冗余”等指标)概念,发现了传统细读中难以归纳的、近代东亚文学史上大规模存在的语言文学现象,并对其成因做因素分析。
由于计算批评的核心是算法,所以可以做文章的地方也是算法。原先莫莱蒂的算法过于简单,网络布局可以是多端的。这点他自己也承认,所以最后他放弃了。我们从他放弃的地方起步,经过反复试验和检索,以角色对话关系为对象,让对话总量和对话情境成为数据挖掘点,改造算法,建立起叙事网。还专门比较了针对加权网络设计的 Opsahl(2010)和之前Gephi软件采用的经典算法Brandes(2001),最后得出略有差异的结果,这种差异特别显示在“改写本”和1937年版本上。也正是在这一差异的提示下,我们提出关键人物,或说“半真人”、中间阶层形象序列的设置问题。经过“细读”检验会发现,其行止暗含了李劼人对辛亥革命的理解,对革命主体的认识。如果将注意力放在他们的功能探讨上,可以进一步发现李劼人习自英法的“历史的自然主义”与本土的龙门阵叙述是如何耦合的。最后,李劼人是否真的走在“典型化”的半途上?遵从“远读”的指引,我们可以从大量湮没无闻的次要人物中,发现那些有价值有意义、有性格、有风格的功能元。当然,这只是这个研究得出的结论之一。
这个探索比较早,算法没有经过统计检验,且文本量较小,只是初步获得了某种计算诗学的可行性。目前的工作是用晚清以来同样具有“摭拾话柄”特征的这一类新小说做更大规模的语料库,来从节点、群体和网络整体的层面上,对近世小说的体式构型和人物体系、人物观的演化做一个相对长时段的考察。这可能和欧洲同期的写实主义小说可以形成的抽象模式不同。这里将有一些有趣的问题,也将寻找更多有意味的可操作概念,比如,如果同时期文本中无标度网络大量出现,综合沃洛克、莫莱蒂、浦安迪等人的假设往前推一步,这也许是人物分布极不平等的一个表现,也是18—19世纪中期欧洲小说的一个特点,但却迥异于同时期中国章回体小说的人物布局。因此就可能重新激活一些问题,像是西洋小说技法刺激下晚清小说布局意识的转变和觉醒,这种“转变”可以通过对网络结构的动态拓扑分析呈现出来吗?诸如此类的问题都值得尝试。
最后,是这个探索方向我感觉到的一些问题:网络分析越来越多,但目前可以看到的计算和权重算法设计大都失之简单,从虚构作品中自动提取社交网络在实践中是一项相当复杂的综合任务。还有,很多研究,有的发表规格很高,在技术路径上具有探索意义,像对话网络、语义网络、无监督的神经网络……但可能会让文学研究者看了一笑置之,没有在中间环节上下功夫,无法获得贴切的文学解释,无法在不同学科的研究和评价框架间建立起有效关联和对话。
尽管对叙事性文本内部的人物网络做分析,我们通常会追溯到弗朗科·莫莱蒂,但他其实是从汉学家浦安迪对中国古典小说结构的研究中获得了灵光,这种做法和中国小说有不解之缘。有鉴于此,希望我们至少可以从真问题出发,将基于情境的对话角色识别工具早日开发出来。
二 评议及回应
杨玲(厦门大学中文系副教授):姜老师,我自己做文化研究,我感觉国外的文化研究经常和媒介研究合在一块。文化研究是非常关注媒介技术的,比如说现在有不少文化研究学者都在关注Platform Studies “平台研究”、Algorithm“算法”,所以我想知道Siskin等人从事数字人文工作为什么会排斥文化研究?数字人文真的是一项纯粹的技术性研究,可以摆脱社会机制、权力关系的探讨吗?您在文中也提到了Critical DH“批判性的数字人文”,那么它在整个数字人文里占什么样的位置?您怎么看数字人文和文化研究的关系?
姜文涛:我相对保守,在发言的时候一直在说“数字人文文学研究”。莫莱蒂在2000年左右提出了“远读”的概念,许多人认为这是数字人文进入文学研究的一个里程碑的历史时刻(这一点我不同意)。他在一个访谈里曾说过,其他科学,比如化学、物理,在20世纪发生了很大的变化,提出了很好的问题,对社会发展的推动力很大。他觉得文学研究在20世纪并没有做出什么,对社会发展没有什么贡献。我并不赞同他的这个观点,20世纪文学研究领域提出了很多方法,形成了很丰富的学术传统。其他两位老师提到融合论,我是赞同融合论的。当然,怎么融合,我个人觉得这会是一个很漫长的过程。
Siskin和William Warner都是北美英美文学研究很好的学者。为什么反对文化研究,却推动数字人文文学研究的发展?他们可能只是反对某些文化研究。我觉得,他们也会反对某些数字人文研究。对他们来说,英国19世纪初建立文学研究这个大学学科,是对当时社会上技术革命的反应。这项技术革命就是写作,作为人们日常生活的印刷文化,包括阅读。写作无处不在,你不去写作、不会阅读,也受到写作带来的知识和信息的影响。他们从这个角度,觉得现在的数字媒体时代,数字技术、数字媒体成了我们日常生活里不可忽视的一个部分,就像当时19世纪初期建立文学研究这个近代大学学科时一样。这里有种历史类比。
杨玲:请问邱老师,戴安德和姜文涛老师的文章《数字人文作为一种方法》里提到,数字人文研究的大多数项目没有推翻传统的预设,也没有产生新的叙事,只是在量化方面确认了我们已经知道的一些内容,没有太多挑战我认知的新的东西。我想问,您觉得如何才能利用数字人文的工具生产出新的知识和观点?
邱伟云:这个问题我们也从方法学角度思考过。数字人文研究方法有三种基本功能,第一是“验证”,验证前人做的研究结果,并借此树立其自身的合法性。第二个功能是“修正”,能对前人的研究结果进行修正,证明的是有效性。至于杨玲老师问的“新知识和新观点”,这对应的是第三个功能——创造新说,这也是最难的阶段,亦即证明数字人文方法的主体性,必须要提出以前的学者无法提出的问题与研究结论。目前数字人文研究者还不够多,相信随着加入的人越来越多,我们能更容易见到一些能够回答这个问题的好例子。我们团队之前做的研究里就可能已经有一些这样的例证,比如,胡适说“多谈些问题,少谈些主义”,针对这一说法我们就问了一个问题:中国近代有多少种主义?这个问题若要用人工方式去回答很难,但我们用数字人文方法找到一千六百余种“主义”,列出什么主义在何时开始出现,接下来又出现了什么主义。这个就是过去的人文学者难以提出的问题,当我们发现这种在数字人文视野下才能带给我们的新问题并且回答后,所得到的研究结果,就是一种过去无法想见的新知识和新观点了。
杨玲:赵薇这篇文章把数字人文方法落实到现当代文学的研究,让我们真正看到了数字人文工具所带来的新的文学研究的可能性。您刚刚谈到到底是要数据驱动还是方法驱动,而莫莱蒂谈到过理论的驱动,从理论的观念出发做数字人文研究,我想问您如何看待几种不同的驱动在数字人文研究中的应用?
第二个问题,您在《社会网络分析与“〈大波〉三部曲”的人物功能》那篇文章的结尾提道,“现代小说中具有较高‘中介中心性’的人物角色通常暗示了文本潜在的叙事意图”,我从这句话中嗅到了一丝“意图谬误”的味道。我有一点担心,数字人文方法运用到文学研究后,是否会导致文学解读的单一化?比如说数字人文学者能够自称发现文本的“真正的叙事意图”,从而提出某种“最客观”的解读,排斥其他主观化的解读,这就像意识形态批评那样的研究方法,总是声称自己能够发现隐藏在文学文本背后的某种“真相”,觉得自己是更高等、更好的学者。数字人文进入文学研究之后会不会导致新的“等级”?
另外,我比较关注的是受众对文本的解读,即所谓的decoding“解码”过程。数字人文对我们研究读者的文本解读是否会有一些帮助?
赵薇:第一个是“理论驱动”的问题。莫莱蒂在近年来的访谈还有一些序言中总是说他的研究是“理论驱动”。我觉得这很符合他的实情。数字人文发展到现在,很多人也在提“大数据驱动”“模式驱动”等,我对这些说法一直存疑。文学研究全靠数据驱动是不能完成的。文学的数字人文研究依靠高精度的“知识驱动”,必须要重视“人的环节”,凸显研究者的主体性。莫莱蒂本人是马克思主义理论家,他的“远读”系列——我觉得还不是数字人文——也是理论驱动的,这在搞文学的看来都会感到很欣喜,会默认为是非常好的探索。这背后实际上也涉及到底怎么看待理论和批评的问题,理论是什么?史料是什么?这些问题都相关联。我认为“理论驱动”还是比“数据驱动”好一些。
第二个是“意图谬误”的问题。我在我自己的文章中提的其实是一个基于很小的样本得出的暂时结论,说的是“中介中心性”在现代小说中,用我们的算法、我们建构网络的方式研究得出的结论也许提示、暗示了叙事的“潜在意图”,也就是说,我更关心的其实是“中介中心度”是否可以成为我做这样一个判断的指标。这个看法的得出是基于我对中国近代小说人物观演变的某个基本假设。比如说廖儁凡对《儒林外史》的研究,在古典小说里中介中心性最高的人物只单纯承担“跑过场”的职责;但到了后来的现代小说里面,这些跑过场的人物同时也具有了丰富而又意味的性格特征,他们的性格也成为小说风格很重要的组成部分。他们起到提示主题的作用,这其中似乎有着向典型人物发展的轨迹。
数字人文的文学研究也很难去发现作者独一无二的“原意”,而更多的恐怕是要破解这种定见。到底存不存在这样一个原本的文本的“本意”?以我写文章的立场,当然要彰显我提出的这样一种解读的合理性——这种解读在之前的文学批评史上没有或者很少存在过,我要从远读角度将这种可能的解读公之于世。事实上,正如您也提到过的,scalable reading“尺度阅读”是一个把握“远读”的非常好的概念,即在不同“比例尺”上远近拉动的阅读。“远读”从根本上讲是统计学的表征,方法是多种多样的,它不是要把角度和解读单一化,而恰恰是还原世界表征多样性的一种方式,它提供了多种多样看待世界的角度。在斯坦福文学实验室、芝加哥文本实验室的成果中,可以看到各式各样阅读观察法,如对主成分进行分析的“降维”阅读,对莎士比亚戏剧做聚类分析的文类阅读,还有对英语俳句做模式识别的阅读,对浪漫主义小说和日本私小说做多特征模型的对比阅读等。它们不再是单一维度的比例尺就可以解释的,但其结果有一个共同点,就是可以可视化——这也非常符合现代统计思维的特点。通过不同的坐标形式,无论是x轴和y轴的,还是三维的,折线图、散点图、网络图、热力图等方式,“远读”实际变成了“多维度阅读”,它跳出“看山是山,看水是水”的方式,“横看竖看、左看右看”,“彻底跳出来看”的目的是看清原先单一尺度下无法看清的模式和规律,更是为了看出这个模式生成背后的社会历史原因。所以,我的理解是,远读不是要把意图单一化,而应该是把它丰富化的过程。
徐爽:(巴黎狄德罗大学—巴黎七大研究员):我来自法国,法国的文学研究是以细读为传统的,至今细读文本仍占据文学评论的主要地位,所以法国文学评论界对数字人文研究方法的运用,和美国不太一样,保持很谨慎的态度,会提出一些认识论上的问题。综合我的观察,有几个方面的思考。第一,界面问题。耶鲁大学法国文学教授 Christophe Schuwey 在2019年出版的Interfaces-L’apport des humanités numériques à la literature(《界面——数字人文对文学的贡献》)认为,数字人文带给文学研究的关键性的思考是界面问题,因为它改变了我们与文本、与书本以及与作者的关系。第二,文学与科技的关系。法国高等社会科学研究院的研究员Pierre Mounier在其著作 Les Humanités Numériques,une histoire critique(《人文数字,一段批评史》,2018)中提出,数字人文以科技为发展前提,人类会不会因此处于科技模式的控制之下?这就需要重新定义人和社会之间的道义契约。第三,数字社交性的概念。另一位法国文学教授Sophie Marcotte 从数字社交性和社会性促进小说的新发展这样一个角度来展开研究[La sociabilité numérique comme ressort de la fiction(《作为小说推动力的数字社交性》),2016],因为数字社交性除了抽象的人际关系和人与人之间的感情接触以外,还引入了一个新的元素,即建立这个关系的工具、服务和设施,这让我想到了特别是在研究网络文学时,数字社交性能提供给我们一些启示。最后,我们如何定义文学中的数据,文学批评能否建立在计算之上?我们需要重新审视什么是文学研究,以及它的科学性——当我们提到文学研究中的科学性,这是一个褒义词还是贬义词?
王玉玊(中国艺术研究院助理研究员):我觉得“中间概念”,其实是一个“翻译”的问题,是把数字的、统计的方法翻译成传统的、文学意义的建构或表述。赵薇老师提到,这些中间概念不是凭空新造的,而是从既有的文学研究概念中发掘出的一些可以和数字方法相连接、相转化的概念。对这样的中间概念的发掘,也是激活传统文学概念、激活传统文学研究方法的方式,可说是邱老师提到的数字人文方法“增益”传统文学研究方法的一个组成部分。这种“翻译”工作还把数字方法的“理科思维”和传统文学研究的“文科思维”做了连接和转译。数字人文所做的这种连接正是它自身非常有魅力、同时也给我们带来挑战的一个方面。
有两个问题想要请教一下,首先是各位老师都很强调的“可重复性”概念,举例讨论的也往往是一些已经被归纳出来、在不同文本中可重复操作的方法、技巧和文学概念,但实际上在文学中不可避免地存在着某些不可重复的、独创性的要素,这些内容能否成为数字人文文学研究中的组成部分?或者说,这些要素怎样存在于数字人文的研究范式里?其次,对于数字人文的“翻译”,无论是研究过程中的数字方法,还是最后得出的结果,在把它们转译到文学研究的表达中时,我们该如何去判断这些“翻译”自身的正确性?如果我根据既往的经验,对一个文学现象有某种判断,但当我用数字方法去验证时,却发现结果与预期不同,该如何去判断究竟是我的经验出了错,还是我使用的数字方法有问题?除了依靠个人经验,还有没有一些比较通行的思路和方法可以参考和借鉴?
赵薇:对“中间概念”是否就是翻译、转译的过程,我觉得这个理解非常好。“中间概念”是我前两天刚刚概括出的想法,实际上邱老师在这方面有过更精准的表述。他们团队的整个流程:先由文学学者提出传统人文研究的议题,再由统计学者转译成可以量化的理论建模,接着由计算机学者进行编程和计算,最后再由人文学者进行应用诠释。
从邱老师的这个诠释循环出发,我认为对于文学的数字人文研究来说,比较容易对接的是第二个环节:由统计学者转译成可以量化的理论建模。只不过,对文学研究来说,最开始我们更需要从文学批评、问题史中去寻找、形成可以“转译”的重要问题。可计量的概念的寻找非常重要,我们也可以到文学外的邻近学科中去寻找,尤其是社会科学里的。我一直强调量化的文学社会学,文学社会学中有很多现成的概念可以被我们使用。斯坦福文学实验室就发表过一些关于声望、流行度的文章,这些文章都是对一些现成的社会学概念做量化。社会学本身已经是量化的学科,文学研究自身也有长久的“经验研究”传统,可以借由这些概念去打通文学研究到数字人文的路径。
邱伟云:理科跟文科思维有差别,我常说数字人文学者是要养成的,必须要培养中间人。赵老师提到,我们要去把人文问题进行量化转译,这种转译是需要功力的,要去思考怎么样可以进行量化的提问。我们只有完成量化转译,才能够去进行较好的数字研究,而不是像刚才我讲的拿来主义,数字人文的每一套方法都必须不断配合研究的问题来进行调整的。
文学有独创不可重复的存在,这一点是如何存在于数字人文研究之中的,这是很值得去研究的好问题。谈到俳句研究,有学者建立了一个俳句模型,将材料放进去,出现了一个像是俳句又不像是俳句的材料,被叫作“潜在俳句”。
赵薇:“潜在俳句”是被机器误判为俳句的文本集合,是把原先批评家们认定为“俳句”的范围扩大了。机器认定的俳句可能在批评史上根本不存在,它们不被认为是“俳句”,甚至不被认为是“诗”。
邱伟云:和这种“潜在俳句”类似,我们在研究当中也发现了一些跳出原有规律的现象。历史学家王汎森先生曾经有一个论点,叫研究历史中的空白。历史学者总会去研究“历史之有”,但是那些史料中没有的东西、空白的地方也可以研究。换言之,做数字人文是寻找规律,那些跳出规律的东西也值得去研究。“不可重复的存在”或许可以从这个角度再去讨论。
赵薇:文学阅读和研究的独创性能否成为数字人文研究的组成部分,这让我想到一个非常实际的问题。现在的数字人文研究,常常去寻求已经建好的一些数据库、语料库平台的帮助,直接从中找数据、找现成关系开始研究,它们的算法都是建库的人内置好的。但是对所谓的文学“内部研究”来说,这种做法可能要讨论。王晓光老师曾经说过,当前的基础设施有两种趋势:一种是一对一设计,根据人文研究需求进行相应的技术开发;另一种则是建立更大的通用型平台,通过调用API,打通各大平台,这也是更大的一种趋势。针对大多数文学研究,还是需要个性化设计,才能对问题有细致精微的把握,但这在现实中有相当的难度。深度合作到底如何实现?我觉得这个疑问还是有一定代表性的。
邱伟云:文学工作者会对文学有自己的判断,但如果通过数据验证之后,出现了不同或者相反的现象,那么这到底是文学工作者的经验出错还是计算方法的问题?我们会进行讨论,证明是工具的问题,我们就会修改工具。如果是既有经验的问题,是我们原来的经验框架不足以想象和解释新现象,那么这或许就是一个新知识或新观点的发现。面对运用数据验证后出现与过去人文经验的判断不同或相反的现象,其实我们是很高兴的,因为这就是你推陈出新的契机与可能。
很多同学想做数字人文研究,但对工具不熟悉。工具很多,但怎么使用是大问题。我们在做网络分析时,会思考所谓的共现关系怎样计算才比较好,会有一个配合着人文问题意识,反复思考着最适切的网络共现计算方法的阶段,亦即数字人文研究法诠释循环中,由人文学者与统计学者合作将问题意识转译成可量化处理问题的理论建模阶段。如果我提供工具,但你完全不知道工具里的算式内容,不知道数据怎么计算出来,你也没办法对工具进行修改。那么,使用这样的工具,你就无法体现出作为研究者在进行数字人文研究时应当具有的主体性,研究结果是被使用工具所宰制的。不明就里地使用工具进行数字人文研究,在“机制即讯息”的框架下,你只能获得该工具机制范定下所能得到的、具有限制性的数据结果。大家取得工具后,一定要意识到并且实际深入地了解与思考这些工具是怎样被设计的,背后的计算原理是什么,你同不同意这工具所采用的这套算法。只有研究者完整了解且同意工具中的所有设计机制与内涵,你才能去使用它,而不会落入算法黑箱中。这是我最后想要补充的一点注意事项。