APP下载

数字人文视域下文艺研究的数据准备和知识生产
——对档案资源建设的思考

2022-11-09吴春梅

剧影月报 2022年3期
关键词:人文文学数字

■吴春梅

(作者单位:中国现代文学馆)

数字人文,一般被理解为以数字信息技术为方法来研究人文领域的问题。人文研究的对象是人类的精神世界及其积淀的精神文化,它主要运用意义分析和解释的方法来研证人的观念、精神、情感、价值和悟性等。因此,人文研究的过程更强调个性、特色、差异。当我们尝试将数字技术融入到人文研究领域时,人文研究者很快就意识到了数字科技已经不可逆转地渗透到他们的生活、工作之中,从而改变了他们的工作方式、研究方式和对象的载体。上海大学文学院教授曾军曾在《数字人文的人文之维》中指出:“数字人文研究作为人文研究与数字技术的跨学科结合,同时包含了两个维度的趋向:其一是‘人文研究数字化’,即用数字技术解决人文问题;其二是‘数字技术人文化’,即以人文方式发展数字技术,‘让数字更人文’。”传统的人文研究是以文献史料为基础,而数字人文则是以数据为研究问题的基础,因此数字人文兴起的前提,就是人文资料和文献史料的数据化和数字化。随着技术的驱动、研究者数据思维的逐步形成和新时代新写作手法的不断涌现,赋予数字人文更深层次的内涵,即以数字化的文献史料和新传播方式产生的数字化文本为数据基础,利用大数据处理和算法分析的方法实现人文学术研究。作为以收集、保管中国现当代作家史料为主要职责的中国现代文学馆,在数字时代如何合理地构建文学史料的大数据?为研究者提供怎样的数字化资源?怎样将数字化资源应用于文学研究?能够提供何种数字技术方法来支持人文领域的研究?面对层出不穷的新写作手法和数据库文本资料,如何收集、保管?都是文学馆要面对和亟待解决的问题。

一、驱动人文研究的数据准备

(一)现当代文学文献史料数字化是数字人文的基础。在传统研究方式上,学者进行学术研究的基础性工作就是大量阅读文献资料,了解本专业的研究背景,广泛接触前沿理论,才能进行深一层次的思考,得到更进一步的成果,达到“后浪推前浪”的效果。就文学领域来说,无人不赞叹钱锺书先生旁征博引,纵贯古今中西的治学能力。著名国学大师吴宓曾专门写诗称赞他的才华:“才情学识谁兼具,新旧中西子竟通。大器能成由早慧,人谋有补赖天工。”然而,就是凭借超群的记忆能力和博览群书的勤奋态度,钱先生在晚年也深感力不从心,他在《管锥编》再版序言中写道:“《管锥编》问世以还,数承读者贻书启益。余重阅一过,亦见树义之蕴蓄未宣、举证之援据中者,往往而有。”此言大概就是缘于钱先生自觉年事已高,记忆力衰退,感叹自己不再能以博闻强记、考辨举证的能力为学术擅长而自居。上世纪八十年代,钱先生从女儿钱媛处得知英国利用计算机储存和查阅莎士比亚资料,并在戏剧研究领域取得显著成果后,受到启发而于1984年开始倡导把计算机技术引入到中国古典文献的搜集、疏证和整理中来。钱先生的治学方式是,“在大量读书的基础上,发现相关文献之间的内在联系,进而抽绎出问题,并以大量例证予以解析。这显然是一种抽丝剥茧、披沙拣金的过程。发现大量的材料是前提,深厚的学养、敏锐的眼光和判断力是关键。而在大量书籍中找寻材料与计算机的模式识别数据挖掘显然具有某种程度上的相似性,只是计算机效率更高,速度更快。”这种数据概念无疑为学者埋首“故纸堆”的传统研究方式,从治学时间和治学能力上都带来了很大程度的缩短和降低。

强大的搜索功能和对海量数据的储存和处理能力是计算机的特长,钱锺书先生以超前的视野预见到,计算机技术对知识生产方式上可能带来变革。中南民族大学数字人文资源研究中心主任王兆鹏认为,“传统的文学研究是以主观的理解阐释、客观的文献史料为基础,偶尔会用到数据,但数据只是点缀和补充。而数字人文研究,以数据作为讨论问题的基础,需要将文献史料转化为数据。”从研究对象的角度,对于实物文献的数字化是目前为数字人文研究提供可能性所能做到的数据准备,即全力建设好中国现当代文学文献基础设施。在这方面,已经走在前面的有,台北中研院近史所建立的“胡适档案资料库”,北京中国社科院近史所档案馆建立的“顾维钧档案数据库”,北京大学图书馆建立的“陈翰笙档案资料库”,中南大学文学院建立的“网络文学文献数据库”等。正在建置中的项目有,山东师范大学申报的“中国近现代文学期刊全文数据库建设与研究(1872-1949)”,华中师范大学文学院申报的“中国新诗传播接受文献集成、研究及数据库建设(1917-1949)”,重庆师范大学申报的“抗战大后方文学史料数据库建设研究”,“延安时期未刊文献资料收集、整理与数据库建设”,“中国文学史著作整理、研究及数据库建设”,“中国近现代文学期刊全文数据库建设与研究(1872-1949)”等。这些已建成或正在建置的基础设施,已经从专题角度为现当代文学提供了研究的可能性。而对学者而言,建设一个整合的、互联互通的、可持续的基础设施是对馆藏机构的学术诉求。

(二)新媒介文学文本为人文研究带来新的可能。数字人文的出现是现代研究方法发展的一个缩影,随着数字技术的发展,学术研究已经从理论驱动发展到数据驱动。数据已经成为学术研究的基础,首先由于数字技术的出现,让研究对象完全以数据的形式呈现出来。随着新的历史条件的变化和社会科技的发展,新时代的文学文本以崭新的途径进行传播和流传。电脑书写时代使手稿变得弥足珍贵;电子邮件、社交软件的盛行使信函成为永远的历史;微博、微信的普及极大地加快了信息传播速度,提高了传播效果,拓宽了传播范围,降低了准入门槛,提高了公众参与度;网络文学的“网络”属性和它的生产机制无疑增强了公众对作者写作的影响力。这些数字科技的产物天然是属于“数字人文”的,并伴随数字技术的发展不断更新迭代。“从传播学媒介研究的视角来看,技术就是媒介。”[数字技术的发展改变了文学创作者封闭写作的习惯,延伸了人文研究者获取资料的能力,扩展了多方交流的途径。当代评论家陈福民在《破局者:金宇澄和他的〈繁花〉》中记录,“金宇澄在谈及《繁花》在弄堂网连载更新时说,‘起因是我想在网上,写一些无名无姓者的市井事迹,于是起了网名,上去开帖。我经历了80 年代的手写稿时代,小说写在格子稿纸上,编辑阅读手写稿,得到读者反馈,过程更缓慢,等得更久。现在匿名写到网上,就有了意见,带来奇怪的促进作用,与闭门面壁的感觉完全不同。’作为一个作家,他的这种出场姿态也十分值得玩味。他从一个事实上的老作家变身“文学新人”去愉快地匿名写作,后来人们都知道,《繁花》的写作过程完全是自由自在无功利的。”网络文学的生产机制是在互联网媒介中,依靠数字技术发展形成和不断更新的。在这种生产机制中生产出的文学作品无疑具备网络的特性,即开放、平等、互动。那么,“从数字人文的角度介入网络文学研究,并不仅仅是‘可能的选项’,而理应成为某种不可或缺的、内在化的思维范式。”然而,目前网络文学发表平台不胜枚举,如榕树下原创文学网、晋江文学城、起点中文网、小说阅读网、潇湘书院、红袖添香、云起书院等,都各具特色、各有偏重,且都具备了一定的专题检索功能。虽然,资本驱动的商业文学网站从架构和功能上与学术资源库已具备一定的相似性,但正是由于它的商业本质,使“它终究只需要对投资者和用户(作者、读者)负责,既无义务也无意向为学术研究提供服务”。这是人文学者对于学术自觉的担忧,也是呼吁建立学术导向的网络文学数据库的缘由。但是,网络文学从兴起到发展壮大虽然只有二十几年的时间,已经形成了庞大的数据集群,现在进行广泛收集、整合谈何容易。何况涉及的研究数据各有不同,包括网络文学原文本、读者评论、粉丝社群、积分规则和数量、点积量等信息。当然,中国现代文学馆作为现当代文学资料中心的自觉性不容许网络文学领域的缺失。如此看来,与文学网站、社交平台的战略合作才是目前切实可行的挽救网络文学研究所需数据信息的有效途径。

(三)智能技术助力文学领域人文研究的科技转化。数字人文起源于人文计算,而人文计算通常是在大数据的基础上完成。因此,数字人文的前提就是以数据作为讨论问题的基础,在资料数据化、可视化方面做准备,利用计算机的运算速度优势完成搜索、统计、汇总、分析等功能。人工智能在数据存储和推理方面已经取得了巨大的突破,从而实现了自我学习,自我更新的能力。因此,智能技术在知识生产方面发挥作用指日可待。只要有一定量级的数据积累,遵循一定的知识生产规则和研究范式,整合文化和意识形态资源完成设定的目标问题就不难实现。然而,设定目的研究本身即是人文研究方向,“人文”服从目的律,“数字”服从因果律。因此,如若将人文与数字更为紧密的联结,有效的手段还是以数据作为学术研究的基本要素,以人文学者的研究目标为导向设计开发恰当的数字人文分析工具,解决不同的问题。文学馆作为资料中心的职能之一就是提供基于数据的服务,因此更应关注到学者在学术研究时希望以何种多元的数字方法切入现代文学研究。上海师范大学学者王贺总结出七个方向的研究方法:一是利用数据库、互联网从事包括现代文学版本、图像史料的内的诸多文献史料研究。二是利用数据库、互联网人事作家生平传记研究。三是利用数据库、互联网从事文学社团、思潮、流派的谱系研究。四是利用数据库、互联网从事文学思想史、观念史的研究。五是利用数据库、互联网从事文学文本的文体学(风格学)、修辞学、语言学研究和情感分析等。六是利用数据库、互联网将研究数据可视化并展开分析。七是利用数据库、互联网从事以现代文学(史)为主体的跨学科、跨地域、跨族裔、跨语言的比较与综合研究。数字技术已经改变了文学研究的对象,“并非我们熟悉的数千年人类文明的载体——纸质文献、出版物,而是一种全新的信息生产、储存和传播形式——数字文献。”王贺预言,它势必“持续地影响我们的阅读、思考、写作及日常生活。”

利用数字人文方法进行现当代文学研究,在数据准备方面切实有效的工作路径可以从数据可视化和文本深度挖掘开始。对于可视化的素材,仰仗老一辈学者的积累和专业机构持之以恒的收集和数字化转换工作的成果积蓄,已经构建出结构化程度较高的数据基础。而文本深度挖掘则是对数据资源内容进行精细化揭示,实现资源的知识化、专题化服务。图书馆界已经开始探索实施,对资源进行内容细粒度标引,对文本类资源实现篇章级、段落级的标引,实现主题词、关键词级的标引建设,对音视频类资源做关键词、主题词控制的内容标引。这是一种以人工智能为基础,全面面向未来的知识图谱布局,实现了传统文化数字化、文化服务形式信息化和文化资源共享,也必然会为数字人文研究提供更为全面的数据支持。

数字基础建置对于馆藏机构参与数字人文建设而言十分重要,这需要进行大量的工作并投入大量的资源。而像一些学者呼吁的,希望建设一个互联互通的数字基础设施,而不是建立每一个机构独立的基础设施,更需要巨额的投入和费用。建设一个整合的、互联互通的基础设施需要资金和人才的双重投入,单纯依靠公立馆藏机构是难以为继的,公立机构的适度商业化运营能否成为解决问题的途径也并不明朗。可能遇到的问题,一是公立机构对馆藏资源分享的意愿不足;二是一旦资方觉得数字化的馆藏资源并未达到预料中的成效,继续投入基础设施建设的意愿就会有所迟疑,导致项目半途而废。

二、数字技术人文化

(一)数字技术驱动人文研究

随着人工智能技术的发展,数字人文方法也在不断地升级调整,数字人文已经从“博闻强记”的存储、搜索时代发展到利用数字技术对数据资源进行分析处理的时代。接下来的数字人文研究方式将是对数据的阐述,这使人文研究外延扩大到跨领域的合作研究。从纸本阅读到检索平台,从检索平台到分析工具,从分析工具到人工智能,人文学科的学术研究正在向数字化智能化的方向转变。当视觉识别技术广泛应用后,随着深度学习技术的发展,人工智能程序的识别准确率已经超过了人类的平均水平。目前,对史料照片进行分类、检索、比较、鉴别的功能已经是照片管理系统的基本功能,见图识人更是在大量人像标引数据的基础上利用智能识别技术的现实应用。计算机识别技术的不断自我深度学习,能否在汉字手写体识别、字迹甄别方面有进一步突破,从应用层面上让电脑代替人工进行学术资料生产,势必极大地提高工作效率。而搜索引擎根据提出的知识性问题给出对应的回答也是在人工智能技术助力下转变为知识引擎和个人助理的成果,减少了学者搜集资料的工作量,也能够扩大研究范围。时下最热门的深度学习,是对数据的训练,是建立在大数据基础上的。它是对特定问题建模,不断地尝试、修正,直至最终逼近目标的学习方法。遵循这样的学习方法可以解决研究领域内相似的问题。那么,我们就可以将其应用到智能翻译、智能识别、知识推荐等领域中在知识生产中发挥其价值。

《数字人文:媒介驱动的学术生产方式变革》一文中指出,人文学科与数字科技相融合使各学科间的交叉研究有了更多的可能性,“正是由于数字媒介的中介作用,人文学科领域日益走向问题为导向的学术生产格局,打破了固化的思维习惯,转而根据问题的特性采用多维的研究方法,不同局限于定量和定性的分野,试图充分发挥数字技术在量化和质化研究中的长处,在跨学科的视野中探索问题的解决方案。”这种改变学术研究方式的变革是数字技术带来的,也将随着数字技术的不断更新、发展改变人们的思维模式和学术发展方向。

(二)数字化的文学知识生产需要人文研究方法

数字人文研究是一种跨学科的研究方法,从最初的数字科技参与人文资源的数字化生产,到人文学者开始习惯利用数字化资源,直至当前采用数字技术进行研究和实践的数字人文发展路径。早有学者看到,数字人文研究正在“逐渐从数字技术为主的研究导向转向以人文性为主、技术为辅的研究导向,让以数字技术解决人文课题变得有温度”。尤其在文学研究领域,如德国浪漫派作家、最早的纯粹意义上的文学学者之一弗·施莱格尔所言,文学不是“粗糙的书本堆积”,而是对某种“精神”的抒发,对某种共同生活状态的表达。那么随着数字技术的发展和研究环境的变化,人文研究主动参与到数字化的文学知识生产过程将势在必行。

在这里有必要强调的一点是,数字技术生产出的文学知识具有文献、资料的属性,而非属于直觉、审美的文学作品。电脑的本质是处理事实和规则的,它可以根据以往的数据预测结果,但无法像人脑那样随心所欲地畅想,凭借难以置信的直觉预测莫名其妙的可能性。固然“深蓝”(Deep Blue)可以战胜加里·卡斯帕罗夫(Garry Kasparov),“阿尔法狗”(AlphaGO)可以战胜李世石,但是人工智能却不会下出安慰棋,即在胶着的对战之后输掉棋局,且输得不显山不露水、让对手心满意足的这种人类行为。在文学领域,人工智能也曾做出尝试,2016年谷歌工程师让人工智能学习了2865篇爱情小说,然后又教人工智能一些英语诗歌创作的基本格式,于是人工智能算法就真的写出了一首又一首情感小诗。虽然这些英文诗读起来真有一些多愁善感的意味,但并不具有文本意义,人工智能始终无法写出“乡愁是一枚小小的邮票,我在这头,母亲在那头”这种奈人寻味的诗句的。

因此,短时间内无需存在人类智能被人工智能取代的隐忧,值得被文学研究者关注的是如何驾驭海量的数字资源?怎样以数字的思维来完成文学领域的学术研究。如四川师范大学文学院教授谭光辉所言,“记忆已不是最重要的,知识积累并非知识生产的决定性因素,而目的、意识形态、文化、政治、能力、思维方式、信息储存和传播技术等因素对知识生产的影响更大。”数字技术发展的依托必然是人文学科已经取得的研究成果。而人文学科通过对情感的反思和研究,必将为数字技术的实现做出重要的贡献。虽然在现当代文学研究领域数字人文之火还仅呈现星星之态,但已经有很多目光敏锐的学者预测到它的燎原之势,在不同场合和媒介参与讨论和撰写文章,表达出对文学与数字联结的兴趣,并在此方面做出了尝试。中国社会科学院文学研究所助理研究员赵薇就以问题意识为指引,将数字人文方法落实到现当代文学的研究,从李劼人的《大波》中人物网络的结构分析,就“李劼人接受之谜”做出了数据上的实证和解答。

当数字人文深刻地改变文学研究者的知识结构和研究路径后,势必会提出传统文学研究无法提出的问题与研究结论,这才是数字人文开花结果之时,即实现新知识生产机制。如山东大学历史文化学院历史学系副研究员邱伟云团队的工作流程:“先由文学学者提出传统人文研究的议题,再由统计学者转译成可以量化的理论建模,接着由计算机学者进行编程和计算,最后再由人文学者进行应用诠释。”如此,馆藏机构需要在进行基础设施建设时,思考、整合文学研究者可能提出的人文问题,在馆藏数据的准确度、精细度标引上多下功夫。学者们普遍认同,针对大多数文学研究,还是需要个性化设计,才能对问题有细致精微的把握。那么,理想的工作状态就应该是各尽所能,即馆藏机构做好完备、可靠的数据准备工作,而文学研究者要主动进行基于项目的学术研究,利用馆藏机构提供的文学史料数据构想人文研究课题、组织利用资源、建立数字模型、进行数字分析,以完成一种文学学术研究项目驱动,馆藏机构提供数据基础,科技团队进行算法支持的数字人文研究模式。

总之,数字人文是人文学科学术研究的未来,人文学者将渐渐习惯于用数据思维进行人文研究。计算机以其善长的储存和速算优势去做那些规律性、事实性的工作,如字句校勘、索引编纂、资料汇编等。学者们则要具备大数据集群搜索的能力,在浩如烟海的不同知识和学科库中,寻找彼此之间的关系,建立知识与人生存处境之间的关联,让知识活起来,让学术互相融合,“将知识如何使人生活得更美好作为叩问知识问题的终极关怀”。如中国人民大学历史学院副教授胡恒所言,“数字人文不仅仅是数据库检索,而是包含了计量、可视化、社会网络分析等层次很丰富的研究方法。”“从事数字人文研究,数字化是手段,最终还是要回归到传统的人文问题。”

猜你喜欢

人文文学数字
人文时光(组诗)
美在山水,魂在人文
最朴素的人文
街头“诅咒”文学是如何出现的
答数字
数字看G20
文学小说
人文社科
成双成对
数字变变变