APP下载

网络文学研究中的数字人文视野※
——以晋江文学城积分榜单及“清穿文”为例

2020-04-18

中国现代文学研究丛刊 2020年8期
关键词:晋江网络文学人文

内容提要:论文以“清穿文”这一网络文学类型及其主要发表平台晋江文学城为例,讨论了从数字人文的理论视野出发开展网络文学研究的可行性与必要性。分析了包括文学网站积分榜单计算公式在内的网络文学生产机制与数字人文思维之间缠绕共生的关系,由此指出相关研究工具的匮乏和数据资料库的缺失。为了加强理论自觉,推进学科建设,当前最迫切的工作,就是尽快开发具有针对性的研究工具,以及建设完善一个学术向的网络文学资料数据库,抓紧搜集、保存现有的各种研究资料。

当我们借助数字人文(Digital Humanities)的研究方法与问题意识,去审视中国网络文学的创作实践,自不难发现二者之间客观存在的适配性:网络文学天然是数字人文的,它的整套生产机制,都是在互联网这个数字媒介的环境之中,伴随着数字技术的发展逐步确立并不断更新的。

这事实上意味着,从数字人文的角度介入网络文学研究,并不仅仅只是“可能的选项”,而理应成为某种不可或缺的、内在化的思维范式。由此反观当前网络文学的前沿研究,如围绕生产机制、粉丝社群文化的研究,又或是对类型文的研究(目前的方法主要是脉络梳理+经典文本细读)等,如能被纳入数字人文的理论框架,必将打开一重全新的视野。同时,过往研究之中客观存在的诸多困境,以及若干难以落实的推论,也有望运用数字人文的工具、方法得到解决。当然,更重要的是,在数字人文的思维模式下,还可能提出以当下的研究视域很难预见的新问题。

为避免讨论过于抽象,本论将以围绕“清穿文”及其主要发表平台晋江文学城①(以下简称“晋江”)的研究为例,具体地阐释数字人文的理论与方法介入网络文学研究的可能性、面临的困局以及解决的途径。

一 作为网络文学生产机制内核的算法设计

“清穿文”是流行于网络文学发展初期(2004—2007)的一个非常重要的创作潮流和子类型,通常描写现代女性穿越②到清朝,与阿哥、亲王们(或别的王公大臣、贵族子弟)恋爱的言情小说。其肇始之作,是2004年7月开始连载于晋江原创网③的《梦回大清》(金子),与它齐名的作品,还包括《步步惊心》(桐华,晋江原创网,2006)和《瑶华》(晚晴风情,晋江原创网,2006),即所谓的“清穿三座大山”。

中文学界对穿越/清穿小说的广泛关注,大约始于2011年,即《步步惊心》电视剧热播之后。这显然是一种回溯性的肯定,远远晚于清穿文在网络文学界内部的流行,甚至也晚于影视资本对它的挖掘。考虑到文学网站通常为UGC(User Generated Content,用户生产内容)架构,刊载的作品均由用户自主上传,近乎于零门槛,印刷文明时代那种以编辑、学者为中心的、精英化的遴选机制,自然也就无从谈起。海量文本泥沙俱下,清穿文却在浩如烟海的网络言情小说之中自成脉络,《步步惊心》也迅速脱颖而出,成为最受瞩目的代表作。这便足以证明,在网络文学的生产机制和阅读反馈机制内部,是存在着某种评判作品优劣的标准以及相应的推介渠道的。

这些标准和渠道的具象化,就是文学网站上常见的各类积分榜单。尽管不同网站内部的榜单设置也不尽相同,但核心思路都是依据某种算法规则④,将网站上刊载的所有作品按照点击量、付费订阅量或好评率等标准进行量化排序。

参见晋江文学城颁布于2005年3月2日(正是清穿文最为流行的时期)的一版积分计算公式⑤:

全文点击数/章节数×Ln(全文字数)×平均打分+(Ln(书评字数)×书评打分)之和+精华书评特别加分

不难看出,在上述公式中,能影响到作品积分的系数主要包括三类:第一类是作品本身的客观数据,如全文字数;第二类则是对读者浏览、评价作品的行为进行的量化与赋值,如全文点击数、书评字数和平均打分等;第三类是网站编辑对作品的奖励和推荐,如精华评论特别加分。⑥套用这个公式计算出的最终数值,即一部小说的“作品积分”,是晋江在排列各种推荐榜单时的重要参考依据,对于总分排行榜、半年榜、月榜和新晋作者榜等榜单而言⑦,甚至是唯一的依据。这些通过积分排序筛选出的作品,通常都是同时期最优秀、最受欢迎的,而有幸登上榜单页面,显然也会为它们带来更多实体出版和影视改编的机会。“清穿三座大山”早年间都曾是榜单上的常客。

相比起印刷文明时代的编辑审稿制和学院体系内的精英批评话语,文学网站诉诸积分算法,虽然的确是将选择、评价一部小说的权力让渡给了读者⑧,却也绝非仅止于此。最为关键的秘密,其实就隐藏在公式之中:尽管每位用户(包括读者和作者)的行为(点击、写书评)与喜恶(打正分或负分),都经由相对客观、固定的渠道转化成了数据,但总积分数值的输出,却是糅合了网站自身利益与倾向的加权计算。也就是说,虽然对小说的点击和评分是由读者决定的,每一章写多少字是由作者决定的,但这些字数、点击和评分的数值最终能在多大程度上影响总积分的大小,却是由文学网站决定的。通过调整算法,网站就能将当下的运营理念贯彻到这个庞然大物的每一根毛细血管里。譬如,在晋江颁布于2016年的新版积分公式之中,就新增了作者签约年限和版权授权状况等系数,这显然是在当时IP(Intellectual Property)运营热潮的推动下做出的修订。⑨

晋江推出这套积分计算公式的根本目的,一方面是对读者的阅读时间、审美能力和判断力加以征用,把原本由个别编辑、学者承担的遴选任务分摊给每个用户,对站内数量庞大的小说展开地毯式摸底与分拣,为网站后续的版权运营工作(如洽谈实体出版、售卖影视改编权等)提供依据;另一方面,也是在利用算法引导和控制用户的行为。事实证明,这种控制和引导是行之有效的:作者要想迅速提升人气、崭露头角,就不免对积分规则多加钻研,保持稳定更新⑩;读者为了支持自己喜欢的作者和作品,也会积极地、反复地进行评论、点击或打赏。[11]这些行为的最终结果,均为网站带来了更多的流量和销售额。除此之外,网站编辑往往也会通过参考积分数值的变化,掌握并管理作者的创作情况。

尽管在积分计算公式的字里行间,的确暗含着网站对用户的隐性剥削,但这仅仅是硬币的一面,因为用户也完全可以通过理解规则、利用规则来影响某部作品的积分,甚至于网站的决策。透过这行短短的积分计算公式,折射出的,是一个小型“文学场”内部的各方博弈。其中,居于核心位置的公式,固然是在建构阶序(受欢迎的优秀作品和平庸的、失败的作品),却也同时设定了规则与玩法。例如“平均打分”这个系数,指的就是读者对小说各个章节打出的所有评分的平均值,实际可选分值从正2分到负2分不等。这类口碑评价体系在互联网行业并不罕见,豆瓣、大众点评和滴滴打车等网站或应用中,都包含这项功能。然而大多数文学网站,例如阅文系尤其是起点中文网(以下简称“起点”),似乎还是更看重点击、收藏[12]和订阅这些实打实的客观数据,允许读者对作品进行评分并将其纳入积分算法的主流文学网站,其实只有晋江。

乍看上去,打分毕竟是一种主观好恶,似乎容易影响榜单的客观性。但对于晋江这样一个深耕粉丝文化的“女性向”[13]文学网站而言,却有着独特的意义。作为一种细水长流的日常操作,针对每一章更新进行的打分,显然更容易在读者和作者之间建立起深厚的羁绊关系。不仅如此,该评分系统的特殊之处还在于,它是可以打出负值的。这是一种暗含着攻击性的设置,它意味着,晋江的用户完全可以通过打负分,甚至是大量“刷负分”的操作,来降低一部作品的积分和排名。而相比之下,起点的用户却不可能通过任何操作削减作品的积分,而最多只能“还原”,例如取消之前的订阅或收藏等。不同的规则也导向了不同的行为模式,在晋江,由于负分的存在,批判性的审美判断、个人情绪的发泄甚至有组织的抵制行为,都成为可能。不同粉丝团体(包括作者粉、作品粉等)之间的相互攻讦、党同伐异,也往往通过“刷负分”来达成。[14]这正是当前“女性向”网络文学社群的基本生态,它参差多变、难以一言蔽之,却始终与网站算法互为因果,环环相扣。

文学网站本质上属于互联网公司,甚至普遍具有游戏公司的背景,将算法视为指导网站运营的依据和建构社群文化(企业文化)的基础,是很值得理解的策略。因为它显然遵循着互联网产品运营的基本逻辑,所能举出的例子也绝不仅仅是前面列出的那些。[15]

上述一系列事实,集中体现了数字媒介和数字技术对传统人文学科的重要研究领域之一——文学——的生产机制的深度重构。归根结底,这种依靠积分算法评判作品优劣、筛选人气作品的机制,无论创造它的人是否有此自觉,但本质上都是数字人文思维的产物。同理,当这种数据化的、新媒体运营的理念开始与文学的创作、接受和传播等各个环节紧密缠绕,直面这一新兴文化现象的网络文学研究者,只要曾经直接深入网络文学生产机制的内部,那么无论自觉还是不自觉,他其实已经在进行着某种数字人文式的研究了。

众所周知,数字人文研究起源于文献典籍的数字化与数据库化。然而经过本节的讨论,我们几乎可以肯定,与必然需要经历数字化与数据库化步骤的传统人文学科不同,网络文学的起点,就是数字人文。甚至可以说,越是贴近网络文学生产机制内核的研究,就越和数字人文研究殊途同归。而研究网络文学的生产机制,也未尝不能是研究数字人文本身。

二 网络文学研究与数字人文分析工具

尽管网络文学与数字人文之间的联系是如此紧密,但现有的适用于中文文本的数字人文研究工具和项目,显然都不是针对网络文学作品的研究需求开发的。以数字人文研究平台Docusky[16]为例,该平台所提供的半自动标记工具包含有多种功能:有的可以为研究者上传的文档标注人名、地名、年代及官名,这无疑有助于古典文献的分析和整理;有的能标记小说中出现的对话的参与者、类别和次数等,对解读长篇小说的剧情走向及人物性格具有一定的参考价值;还有词频统计这个常见功能,可用于分析某个作者的用词偏好、写作习惯或者以关键词为依据分析人文思潮的变迁等。

然而这些常规的分析工具对于网络文学作品的研究而言,却起不到太大的助益。网络小说不同于古典文献,以幻想题材居多,标记人名、地名本无太大意义;并且相对于剧情、人物性格等要素,类型和结构的流变才是更为核心的问题;此外,网络文学研究对具体某位作者的遣词造句和写作风格也并不是特别关注。

如此看来,着眼于网络文学作品的研究需求搜寻和开发更为恰当的分析工具,就成了当务之急。可供开拓的方向大致有以下几种。

首先是能针对不同类型的网文,提炼出它们的叙事结构的分析工具。长篇类型小说在网络文学中占据着非常显著的位置,其最大的特征就是类型化,同类型的小说在叙事结构和风格上高度近似,而各大主流类型本身,又都是在复杂的演化、融合的过程中慢慢成型的。

“清穿文”就是一个非常典型的例子。作为穿越文中知名度最高的一个子类型,这批作品的故事背景和人物形象多取材于20世纪末21世纪初热播的一批清宫剧,特别是《雍正王朝》。因受其影响,相当一部分“清穿文”都将时间跨度设定在了康熙四十年左右至雍正继位初期。如果我们将这批“清穿文”汇总到一处,再把每本书都提到过的关键性历史节点标记出来,例如康熙四十七年废太子、或者康熙驾崩雍正继位等,据此拉出一条公共的时间轴。再以这条时间轴为参照系,把每一部“清穿文”的剧情一层一层地叠加在这个时间轴上,凡遇到发生冲突的情况,例如有些小说里女主选上了秀女,有些小说则没选上,就画出分叉的两条线索,以此类推。那么不难想象,最终形成的剧情流程总图,就会像是一条从康熙四十年发源的长河,先是迅速分裂出无数条平行的支流,偶尔收束,再分流,然后不断向着雍正初年的入海口奔涌而去。如果这些繁复而又有序的变化能通过工具批量化地加以处理并可视化,必将对“清穿文”的结构类型分布做出更为全面的总结与展示。

其次可以考虑开发的,是提取小说主要角色的萌要素的分析工具。所谓“萌要素”[17],是日本学者东浩纪在其专著《动物化的后现代》中提出的概念。特指ACG[18]作品中某些与角色形象相关的,风格化、类型化的元素,包括着装(水手服、女仆装等)、发型(双马尾、黑色长直发等)或性格特征(傲娇、天然呆等)等。[19]东浩纪认为,1990年代中期以后的日本御宅族[20]群体,由于身处后现代语境之中,早已不再执着于作品背后的宏大叙事,转而开始关注具体角色身上所携带的,能够唤起读者强烈爱意的“萌要素”。与这一趋势相呼应,ACG作品中的角色,也逐渐转变为各种萌要素拼贴、集合与再循环的产物。这批萌要素汇总一处,就是所谓的“萌要素数据库”,而御宅族群体对ACG作品及作品中人物的消费,本质上其实是针对这个数据库的消费。[21]

这一消费萌要素的趋势,也早已在中国的网络文学界蔓延开来。“清穿文”中那些取材于清宫剧的人物形象,如康熙朝诸皇子,他们在进入“清穿文”的世界,成为女主人公情感、欲望的投射对象的过程中,显然也遭遇过一次微妙的“人设化”[22]处理:先从电视剧的文本里拆解出若干较有辨识度的人物性格特征,例如四阿哥胤禛的坚毅隐忍杀伐果决、八阿哥胤禩的谦谦君子温润如玉等,将其“萌要素化”,再利用这些“萌要素”,拼贴出一个外表上看似与原形象相差无几的“人设”来:四阿哥因此化身为“霸道总裁”,八阿哥则是公认的“暖男”。而这些“人设”在“清穿文”的创作过程中,也经由粉丝社群的交流讨论,逐渐成为整个类型内部通用的“公共知识”和“基本共识”。这暗示着一个耐人寻味的事实,即网络时代的作者和读者,他们的欲望模式也同样是数据库化的。数字技术和数字媒介环境对网络文学的影响与重构,又岂止停留在生产机制层面呢。

在理想的状态下,如果可以利用分析工具解析海量文本中隐藏的萌要素,再加以汇总整理,必能得出有趣的结论,甚至最终形成一个由萌要素组成的字面意义上的“数据库”。在数字人文分析工具“一叶·故事荟”[23]中,就包含了一个“人物侧写”的功能,即通过给出小说中主要人物的名称,分析提取与之联系最为密切的关键词。但这个功能毕竟没有针对萌要素的识别进行过优化,经过笔者的几轮试用,结果也确实不能尽如人意。不过既然有珠玉在前,此类分析工具的开发,就已经具备了相当的基础。

除此之外,网络文学的粉丝社群也是非常值得注意的研究对象,或可利用社会网络分析的相关研究方法和工具进行介入。最典型的例子仍然是“清穿文”的粉丝社群。由于整个“清穿文”的作者、读者群体都是直接或间接的清宫剧粉丝,又往往容易将强烈的爱意投射到某个特定的人物身上,成为所谓的“角色粉”,例如四阿哥胤禛的粉丝团,就被称为“四爷党”,同理八阿哥胤禩的粉丝团则被称为“八爷党”。姑且不论这些粉丝社群的组织形态本身就非常具有研究价值,它们对“清穿文”创作的反哺作用也是显而易见的,比方说,这些“角色粉”的社群内部就常常围绕着相应的人物形象展开交流讨论以及史料挖掘等。尽管“清穿文”的创作热潮早已过去,而当年这些粉丝团的讨论现场也已消失殆尽,但与之类似的现象却仍在不断上演,例如起点中文网开启本章说功能之后,某些作者就会从读者评论里吸取有价值的想法融入自己的创作。这些读者与读者、读者与作者之间的交往关系,无疑是网络文学的生产、接受环节之中不可或缺的重要组成部分。

倘若不必将视野局限于网络文学的文本,那便不难意识到,近十年来,网络文学作品改编的影视剧已越来越常见。《步步惊心》电视剧的热播,正是这股潮流的开端。既然如此,利用包括多模态语篇分析[24](multimodal discourse analysis)在内的各种理论,开发用于分析对比网络文学文本及其改编影视剧的工具,似乎也是一个可行的方向。

三 建立网络文学研究数据资料库的必要性

在没有数字人文技术介入的情况下,如果想要研究网络文学之中的某个特定类型,例如“清穿文”,常见的做法是从中挑选出代表性的文本进行细读,再借此挖掘与阐释整个类型的特征与发展脉络。这一研究思路本身并无问题,却终究只能从结果向前追溯,无法系统、完整地呈现一个类型在演变过程中所有枝节,若引入数字人文的相关工具,或可处理此类问题。但对于“清穿文”而言,到遴选研究对象这一步,还是不免遇到一些困难:文学网站的库存书目往往数以百万计,如何才能尽可能全面准确地挖掘出符合条件的文本?目前为止,最具可行性的解决方案,就是利用内嵌在文学网站主页上的搜索栏,依据关键词和标签进行检索。这就不免令人联想起数字人文研究的核心成果与重要工具——学术文献数据库的使用,事实上,单以保存/检索数字文本这项功能而论,二者之间其实并不存在任何本质差异。正如前文所言,数字人文研究起源于文献典籍的数字化与数据库化,网络文学显然直接越过了“数字化”这个步骤,那么,文学网站是否能够直接承担数据库的功能呢?

仍以晋江文学城为例,该网站现有藏书331万部,签约版权作品也已超过25万部。[25]为方便读者查找书目,晋江在首页上提供了两种检索方式,第一种是关键词检索,即依据作品、作者或主人公的姓名搜寻具体的某部作品;第二种则是通过限定时代(包括近代现代、古色古香等4种)、类型(包括爱情、武侠、仙侠、科幻等16种)和风格(包括悲剧、正剧和轻松等5种)等标签,筛选出符合条件的作品列表。其中,“内容标签”这个分类之下,就包含着一个叫作“清穿”的标签。[26]

乍看上去,这套标签检索系统与学术文献数据库中的某些功能倒也颇为相似,但作为以UGC为核心运营理念的文学网站,晋江站内的标签编辑模块,一直由作者自行打理。该模块内嵌在发布/修改小说的后台页面上,可以根据个人的理解与偏好自由选择添加[27],并没有统一的操作规范,也就无从苛求它的准确性。除此之外,UGC这个属性,还意味着内容的积累与增殖,以及新的创作潮流和类型的不断涌现。然而网站标签库的更新却要滞后许多,至少“清穿文”的命名和“清穿”标签的引入就绝不可能早于第一批“清穿文”的发表。事实上,连载于2004—2006年的“清穿文”,其常用标签就多为“穿越时空”和“灵魂转换”,但在这两个标签之中,却又包含着大量并非“清穿文”的作品。

仅凭搜索标签,显然是不够的。那么能否利用爬虫软件,通过限定故事年代背景,再结合相应标签等信息进行抓取呢?确实未尝不可,但晋江归根结底是一个营利性的商业网站,一旦站内作品出现版权变动或被某项新政策波及,那么相关页面便会立即锁定,无法浏览。“清穿文”恰好是上述两种状况的重灾区,前文提到过的“清穿三座大山”,即《步步惊心》《梦回大清》和《瑶华》,目前均处于锁定或部分锁定的状态。虽然上述几部小说的纸质书和电子文档早已广为流传,但更多不那么知名的作品,或许便就此湮灭了。况且,原发布页面的丢失也意味着一部小说连载至今的所有读者评论、积分和点击量等重要信息的损毁,这种缺憾是无可挽回的。

总而言之,尽管以晋江为代表的绝大多数文学网站在架构和功能等方面与学术文献数据库存在一定程度上的相似性,但作为一个UGC属性的商业网站,它终究只需要对投资者和用户(作者、读者)负责,既无义务也无意向为学术研究提供服务。并且,由于站内发布文本的总量极其巨大,也就谈不上对小说的错字病句进行勘误或者核实作品标签的准确性,距离正规学术文献数据库的标准,还差得很远。

尽管如此,从数字人文的研究视野出发,利用检索、爬虫软件抓取等手法遴选““清穿文””研究对象的基本思路,仍然是合理有效的。只不过一旦进入实操环节,就不免暴露出当前中国网络文学研究面临的一层隐忧,即学术导向的数据资料库的缺位。相比一些传统人文学科(如历史学、古代文学等)在文献典籍数字化和数据库化过程中投入的大量人力物力,网络文学研究作为一门新兴学科,亟需加快脚步。目前可以着手的工作有两个:一、与文学网站合作,开辟学术搜索端口;二、着手搭建专用的学术资料数据库,广泛收集、整理和挽救网络文学研究所需的各种数据信息和材料。

随着信息时代的来临,许多传统人文学科早已通过文献典籍数据库的建设以及相关分析工具的开发,翻开了数字人文的新篇章。而原本就生长在互联网算法规则与技术逻辑之中的文学网站及其内部的创作实践,却在诞生的一刻,就注定了要与数字人文的思维紧密纠缠。基于天然的媒介优势,如何一边继承过往研究成果,一边借助数字人文的视野来推进学科建设与理论自觉,必将成为未来的网络文学研究者们面临的最大挑战。

注释:

猜你喜欢

晋江网络文学人文
晚霞如歌正飞扬
——福建晋江老年大学之歌
“晋江经验”之探啧:梳理及评析
对待网络文学要去掉“偏见与傲慢”
网络文学竟然可以这样“玩”
揭秘网络文学
在晋江发现“她力量”
晋江奇迹,其他老区也要做到、也能做到
网络文学的诞生
人文绍兴
人文社科