自我重复与东亚文学现代性，1900—1930①

2018-07-10霍伊特戴安德朱远骋

山东社会科学 2018年7期

[美]霍伊特·朗　[美]戴安德　[美]朱远骋撰　汪　蘅译

(芝加哥大学东亚语言与文化系，美国芝加哥　60637；宾夕法尼亚大学沃顿商学院，美国宾夕法尼亚州　19019)

定义上的模糊对文学学者如何理解类型必不可少：任何文本的身份识别总是多元决定(overdetermined)的。同样重要的还有这样一种观念，认为几组文本能够通过将自己与其他文本区分开而保持一致。本文中我们使用计算方法，认为对于现在列在“私小说”和浪漫主义文学标志下的叙事实践，词汇重复的加强趋势是个显著的一致点。我们所说的趋势比所有自我指涉的作品都有的基本特征弱，但比仅有少量作品才有的次要特征强。这一趋势在两种文化语境中都存在，这促使我们思考重复在文学风格中的作用，以及其作为一种文学风格的作用。一方面，我们认为重复指明了与私小说和浪漫主义文学都相关的具体的形式转化：写作的白话化和对西式语法结构的采纳。另一方面，我们认为重复也与内容层面上的变化有关，尤其和重视叙述心理现实主义和精神失常有关。在这方面，作为风格的重复是一种表面现象，辨识了在自我的智识成形(figuration)和确定的语言战略之间发生的一组更深刻复杂的相互作用。我们认为，透过计算察看这个表面，开启了新的比较框架，可分析东亚文学现代性的空间内这些相互作用的效用。

我们的论证分为三部分。第一部分，我们建立理论基础，将重复性与学者早先归于日本私小说和中国浪漫主义小说的一组定性特征(qualitative traits)相联系。在收集了一组可测量的、抓住了语言中不同重复种类的语言特点后，我们测试了这些特点和同时期小说作品相比在多大程度上是这些类型的典型特征。第二部分，过去在审美、社会语言学和心理学方面对重复的学术研究认为，重复对意义构建十分重要，我们借鉴这方面的研究，讨论了我们的实验发现。通过评估文学评论家和语言学家如何尝试为语言中的重复建立模型、对比定性和定量建立模型的不同优势，我们赋予定量模型历史意义，并表明它已经与之前从语言表面解读反常心理过程症状的努力紧密相关。第三部分，我们转向几个在分析中确认的重复最多的段落，思考如何从文本表面解读作为风格的重复。我们确信有多种解读方式：作为风格趋势，连接跨越文化和语言边界的文学关系；作为出于不同审美目的而由作者激活的趋势；最后，作为建立在语义意义或意识形态基础上的比较框架的补充。

一、作为趋势的重复(Repetition as Tendency)

在日本，文学的自我塑造(self-fashioning)这一现代事业是在19、20世纪之交后严肃开启并于1910年代繁荣起来的。这种写作追溯性地集合在“私小说”(shishōsetsu)的标签下，其中许多将自然主义的具象逻辑(representational logic)转化为痴迷于记录自我的内心思想和日常经验，无论其有多令人震惊或庸常。在一位日本评论家1909年所称的这个“自白的年代”，中国“五四”一代作家中有许多当时以学生身份居住在日本。*Shimamura Hōgetsu, “Jo ni kaete jinseikanjō no shizenshugi o ronzu” [By Way of a Preface: On Naturalism and my Weltanschauung]. Cited in Fowler, 100.其中一些回国后，于1921年组成了创造社，如今这个文学群体与考察并探索个人主体性的浪漫主义兴趣紧密相连。私小说和浪漫主义作家一起产生了形形色色的自我指涉写作，对日本和中国现代小说史都极为重要。

但是正典产生了一致性问题，这些归类也一样。数十年来对这些作家的学术研究表明，没有什么单一因素能界定其小说。评论家分离出贯穿其中的诸多意识形态趋势，质疑其时间内聚性(temporal cohesion)，并将其叙事小说的地位问题化，以此对文本一致性提出争议。*对这一评论的透彻分析，尤其对伊藤整(Ito Sei)、平野谦(Hirano ken)和小林秀雄(Kobayashi Hiedeo)的贡献，见Fowler, chapter 3; 以及Irmela Hijiya-Kirschnereit, Rituals of Self-Revelation:Shishōsetsu as Literary Genre and Socio-cultural Phenomenon (Cambridge, MA: Council on East Asian Studies, Harvard University, 1996), chapter 9.私小说和浪漫主义小说是否是有意义的类型标签依然模糊，这甚至导致了极端的相对主义主张，全然否认存在一致的形式或类型；声称这些标签只是不着边际的话语和意识形态范式，可通过它阅读任何文本。*参见Tomi Suzuki, Narrating the Self: Fictions of Japanese Modernity (Stanford, CA: Stanford UniversityPress, 1996), 5-6.有的学者虽然没有否认此类文学中存在变化，却从相反的假设出发，将私小说和浪漫主义小说看作有明确形式或实证模式的类型。他们关注叙事结构、修辞风格或社会和媒介语境，试图分离出一套能维系这些文本的特征。*中国的情况参见Edward Gunn, Rewriting Chinese: Style and Innovation in Twentieth-Century ChineseProse(Stanford: SUP, 1991); Liu, Translingual Practice; Haiyan Lee, Revolution of the Heart: A Genealogy of Love in China, 1900-1950(Stanford: Stanford University Press, 2007); 及RaymondHsu,The Style of Lu Hsun: Vocabulary and Usage (Hong Kong: Centre of Asian Studies, University of Hong Kong Press, 1979).日本的情况参见Fowler, Rhetoric of Confession; Hijiya-Kerschnereit, Rituals of Self-Revelation; 和Barbara Mito Reed, “Language, Narrative Structure, and the Shōsetsu” (diss.Princeton University, 1988)

我们在本文中的目标并非要统辖这一持续的类型辩论，这样做会有失我们作为评论家的身份。没有解决这一争论的单一途径，因为对这些类型标签本体论现实(ontological reality)的辩护或反对都建立在对比较单位的不同假设上。是作者、理想的读者，还是文本的某些方面？在这里，我们明确将注意力集中于共同的语言模式。它们提供了比较的范围，包含数以千计的文本和多种语言语境。它们也提供了粒度(granularity)层面，可通过这个层面观察汇聚一起的风格趋势，以实例说明作为文学建构的现代自我。或者借用弗兰克·莫雷蒂对布尔乔亚风格的分析，作为由“无意识的语法模式和语义联合、而非清晰明确的观念”组成的“精神状态”。*Moretti, The Bourgeois: Between History and Literature (London: Verso, 2013), 19.我们需要回答的第一个问题是：在“私小说”和“浪漫主义”标签下的小说中是否存在任何这种精神状态。

最初提到，有几个高阶现象(higher order phenomena)表现了这组小说的特点。学者们早已注意到它的兴起分别与日本的“言文一致”(genbun-itchi)和中国的白话文运动影响下现代书面白话文的强化密切相连。还有人指出与白话化同时发生的对舶来的叙事技巧和欧化语法的广泛实验，但与前者迥然不同。*中国的情况参见Liu and Gunn. 日本的情况参见 Kisaka Motoi, Kindai bunshō seiritsu no shosō[Various Aspects of the Formation of Modern Style] (Osaka: Wazumi shoin, 1988), Chapter 3. 书面日本语的方言风格和概念结构及语法结构转移之间的辨别，见Karatani, 49-51. 通常认为这二者是“言文一致”(genbun itchi)的新文学语言的发展中既有差异又有联系的两个运动。一方面，这些舶来品包括自由间接引语、漫长的内心独白、拒绝情节设置等。*情节化方面，私小说曾被形容为“沉闷乏味”的描述，除了“某人的生活别无他物”(Yasuoka Shōtarō, 25); “片段、短促”(Yokomitsu Ri’ichi, 52) ，或者个人体验的“随机”记叙 (Kume Masao, 46); “用于私人表达的媒介，受损于对结构太关注”(Ito Sei, 63); 还有，“一串印象主义的沉思”(Uno Koji, 7)。上述引文全部引自Fowler。中国方面，郁达夫的作品被单挑出来用于强调“不完整的、无目地的、充满不确定的”旅程。引自Liu, 149，郭沫若对他一部作品的初期批评的著名回应：“将他的作品看作有开始、高潮和结尾的简单叙述是错误的——他是在试图以梦的象征主义的形式表现无意识。”引自Liu，131。另一方面，也包括使用人称代词、物做主语、西式句法和对主/宾关系夸张的说明等。确实，日语和汉语作为非屈折语，传统上对于句子中是否具有语法上的主语有很大灵活性，很多人关注在创造新的自我叙述结构的同时，这两种语言是否会被施加影响并改变外形。在日语的情况中，有人认为这种灵活性使得叙事权能(narratorial authority)和人物视角间发生滑移(slippage)，模糊了私小说作为现实主义小说的身份。*见Reed, 144-169; Fowler, Chapter 2; and Liu, 153-54.

虽然这些复杂的文学语言发展为理解自我指涉小说的独特性提供了重要基础，但它们作为特征并不能很好地作出衡量，也不一定能将此类小说同其他也采用相仿的白话风格或西式语法结构的当代类型分隔开。因此我们的目标是找到一组定量测量方法，能让我们比较数百个文本，同时有可能在自我指涉小说中挑出能指示这些高阶现象的语言趋势。这些现象曾经捕获了其对文学语言影响的某些方面，现在实际意味着我们要为它们创造有效的指标(proxy)。从情节和叙事的角度，我们推断，相比情节驱动的作品及其更动态的叙事焦点，这些文本更强烈的心理学焦点可能更适于语义场的收缩和更小的词汇多样性。换句话说，私小说和浪漫主义小说是否倾向于将词汇焦点集中在更小的词汇表上？另外，从风格的角度我们推测，向白话文写作转移的一个结果可能是语言中重复和冗余增加。采用西式语法特征，尤其是每句话中指明主语和宾语这一倾向可能只会进一步加剧这种趋势。

虽然有些推断只是合理的直觉，但是在与书面词语相关的情况下如何理解口述性这方面，我们对白话文写作的假设有很长历史。如果我们将冗余理解为某些语言单位(即字母、音素、语素)的重复，要么因为它们在语境上彼此依赖，要么因为它们强化了信息的可信性，那么所有的自然语言本质上都是冗余的。*实际上有人辩称冗余的水平甚至在所有语言中都很稳定。参见Marcelo A. Montemurro and Damián H. Zanette,”Universal Entropy of Word Ordering Across Linguistic Families.” In PLoS ONE 6(5): e19875.它们建立于其上的规则和惯例允许我们预测——例如——跟在另一个单词或一系列单词后的那个词，并因此能够省去上下文暗示的词。许多人认为这种内置的语言冗余一般在口语和口头文化中更为极端。瓦尔特·翁(Walter Ong)在米尔曼·帕里(Milman Parry)关于当代南斯拉夫口传史诗的研究基础上认为，固定套话表达和重复有助于口头文化里的记忆，在口头讲述的话语里，“大脑必须前进得更慢，紧跟注意焦点，其中大部分是它已经处理过的内容。冗余，即重复刚说过的话，保证说话人和听者在轨道上。”*Walter Ong, Orality and Literacy: The Technologizing of the Word [1982] (1991): 35-40.研究对话的语言学家指出“重复不仅位于特定话语如何被创造(在说话者之间)的核心，而且位于话语本身如何被创造的核心”；这个观念也被文学学者采用，以确定西式文本中口语风格的语言标记(markers)。*Deborah Tannen, Talking Voices: Repetition, Dialogue, and Imagery in Conversational Discourse(Cambridge: Cambridge University Press, 2007), 49. 最近一篇对文学中重复和口语风格研究的概述文章见Marissa Gemma, Frédéric Glorieuz, and Jean-Gabriel Ganascia, “Operationalizing the Colloquial Style: Repetition in 19th-Century American Fiction,”in Digital Scholarship in the Humanities 2015 fqv066 (doi: 10.1093/llc/fqv066)，本文也是对这一工作进行定量扩展的极为出色的尝试。我们想知道，在何种程度上，口述性的这种重复特质在日语和汉语文学新的白话风格中显明自己？

幸运的是，语言学家对重复的持续兴趣产生了大量定量测量，以捕捉冗余和词汇多样性的各个方面。其中许多测量方法，尤其单词为主要分析单位的测量，其共同来源是1930年代到1950年代间在美国和欧洲研究的心理语言学领域，这段时间的特点是人们对用于教学或临床评估的词汇多样性测量方法的开发的广泛兴趣。研究人员想知道，考虑到特定的写作或言语样本，是相同单词以更高频率重复得更多，还是许多不同单词以较低频率使用？1935年，乔治·齐普夫阐述了以他名字命名的法则，声明在给定的自然语言样本中，词频排名的分布遵循幂定律，因此任何单词的频率与其在频率表上的排名成反比(也就是说，最常见的词出现的次数是排名第二的常见词的2倍，以此类推)。1938年，约翰·B·卡罗尔开发了多样性测量方法，其基础是观察到单词多样性随着文本规模的增长必然接近极限。他的测量关注的是常见词在一篇文章中倾向于重复的频率，他断言这样的测量方式有助于评估人的言语行为与语言规范间的相对遵循度。*John Carroll, “Analysis of Verbal Behavior,” in Psychological Review 51 (March, 1944): 102-119.第二年，温德尔·约翰逊引入了类符—型符比(TTR)：文本中独特的单词的数量除以总单词量。他猜想这个比例可以作为“窘迫或迷失程度的测量方式”起作用，而且可以帮助定量“一根筋”或者“偏执狂”现象。*Wendell Johnson, Language and Speech Hygiene: An Application of General Semantics, Outline of a Course (Chicago: Chicago Institute of General Semantics, 1939), 11.1940年代见证了更多建立在这些基础性测量方法上的尝试，以便评估给定文本片段中的词汇有多重复、统一或集中。简单来说，其中有些测量方法拥有对文本长度变化较不敏感的优势，能够减弱或忽略罕见词的影响。

引人注目的是，它们还和一种在1950年代变得非常有影响的测量方式共享数理关系：熵，它代表了从另一角度解决重复问题的测量方法。有些心理语言学家追随克劳德·香农和华伦·韦弗在贝尔实验室的研究，开始用更基于概率的(probabilistic)方法处理重复，不仅分析使用的单词的多样性，还分析单词先后顺序的可预测性，也称为“转移概率”(transitional probabilities)。他们通过冗余和信息的双透镜重新聚焦了有关重复的观念。在一个信息论文本中，一条消息的冗余量(它的熵)反应了其中的“信息”量。此处信息指基于所有可用组成单位基础上的消息的可能性，也是在统辖所有组成单位排列方式的现存规则或模式条件下、所有的单位组合方式的可能性。简单说，信息代表了初始限制条件下，一条消息能以多少种不同方式构建。那么，信息极其丰富的语言也许就是其中任何给定单词都有均等机会出现在彼此旁边的语言。这种人造语言中，每条消息都携带新信息，因为每条消息都和它之前那条同样随机、不可预测。这些消息也将完全无法理解，这也是为什么所有自然语言都有某些内置的冗余。

尽管熵证明对许多心理语言学家而言是理论上富有成效的概念，但是要用任何整体方法测量它也确实非常棘手。它不仅随着测量中的文本长度变化，还随着研究中的序列长度和分析单位变化。序列变长时，用于预测本序列中下一项目随机性的潜在组合的数量也会变大。因此，熵会随文本或语料库被测部分的多少而发生偏向，也会随着单位数量及其潜在组合数量的增加而越来越难以处理。从实践中看，这意味着初期将熵用于文本受限于较小的分析单位(即字母、音节)，因为人们可能期待在给定的部分文本中看到更完整的潜在组合的区间。*可参见Wilhem Fucks的研究，他在1952年尝试将信息论用于文体测算，并比较了散文和诗歌中音节的熵。“On the Mathematical Analysis of Style,” in Biometrika 39, no. 9 (1952): 122-129.这也意味着焦点保持在个体的词或词对上，就像古斯塔夫·赫尔丹用熵推断作家在写作中如何操纵表达法的可变性以避免不恰当的重复。*Gustav Herdan, Language as Choice and Chance (Groningen: P. Noordhoff, 1956), 167.受限于个体单词层面时，熵仅仅捕捉样本全部单词在该样本中可用的不同单词中的分布。这种情况下，熵最低的段落就是每个单词都独特、不同的段落；熵最高的段落中每个词都相同，因此高度冗余。*其他关于熵作为有效的词汇丰富性测量方法的评论文章，可见P. Thoiron, “Diversity Index and Entropy as Measures of Lexical Richness,” in Computers and the Humanities 20, no. 3 (1986): 197-202; 以及 David Hoover, “Another Perspective on Vocabulary Richness,” in Computers and the Humanities, 37, no. 2 (2003): 151-178.

测量词汇多样性和熵的不同方法虽有局限，但也确实提供了量化文本重复量的基线。用这个基线，我们首先确定了与同时期写作的其他小说相比，私小说或浪漫主义小说是否显示了夸张的重复倾向。白话风格、西式语法结构和心理聚焦相结合，是否转化为更狭窄的单词范围并重复得更多？为了回答这个问题，我们首先为每种语言构建了语料库。在日本文学方面，我们收集了学者专门指定或解读为私小说类型的约65种文本。我们还收入了自我指涉或心理作品，其作者与此种类型有关或只暂时以此种写作模式做实验。作品大部分出版于1910年代和1920年代，约30位作者。之后我们收集了规模相仿的通俗语料库，我们期待它们在内容和叙事焦点层面明显偏离，但在文学语言层面并不如此。它主要是1920年代和1930年代由现代白话风格写就的高度情节化的历史小说和侦探小说。*私小说语料库通过非原始的英文和日文来源创建，包括Fowler; Hasegawa Izumi, “Meijiã·Taishōã·Shōwa shishōsetsu sanjūgo sen” [A Selection of 35 I-Novels from Meiji, Taishō, and Shōwa], in Kokubungaku: kaishaku to kanshō 27, no. 14 (1962); Wataskushi shōsetsu handobukku [The I-Novel Handbook], Akiyama Shun and Katsumata Hiroshi, eds. (Bensei shuppan, 2014). 与私小说有关的作者的其他文本的选择是通过Nihon kindai bungaku daijiten(Encyclopedia of Modern Japanese Literature日本现代文学百科全书)辨识，基于其自传性内容的程度来选择。最后，还收入了几部标志性的自然主义风格文本，但并不被认为是私小说：例如德田秋声(Tokuda Shūsei’)的《粗暴》(Arakure)和有岛武郎(Arishima Takeo)的《某个女人》(Aru onna)。文本来自青空文库(Aozora Bunko)(日本的古登堡计划)或由我们自己数字化。通俗作品语料库从青空文库建立，包括类型作者的作品，如海野十三(Unno Jūza)、甲贺三郎(Kōga Saburō)、吉川英治(Yoshikawa Eiji)、中里介山(Nakazato Kaizan)和野村胡堂(Nomura Kodō)。可在本文所附的Dataverse找到语料库作品标题完整列表和有关元数据。需要注意，为与中文的情况对等，我们用在本次实验中的比较语料库的种类因此受限，未来用同时期纯粹的现实主义小说与私小说作比较将很重要。本项目还创建了一个无产阶级小说语料库，但为了简化分析，不得不丢弃不用。

因为缺乏对等的通俗类型小说语料库，我们对中国文学采取了略为不同的方法。首先，我们确定了与创造社密切相关的主要“五四”作家的100多个浪漫主义文本，包括郁达夫、郭沫若和张资平等的1920年代作品。不过我们的控制组是一组100本同时代通俗文学作品，例如历史演义小说和“鸳鸯蝴蝶派”故事。*浪漫主义语料库的核心是郑伯奇为影响深远的《中国新文学大系》第五集创造社文学卷所写的导论中提到的文本和作者。(郑伯奇编辑：《中国新文学大系》第五集，良友图书印刷公司1981年版)。在这部经典文集中，我们主要关注1925年之前的作品，以避免与“五卅惨案”后郭沫若开始提倡的政治化的、倾向大众的作品混杂。控制组语料库的核心基于“鸳鸯蝴蝶派文学”重要作品列表，参见魏绍昌编辑的《鸳鸯蝴蝶派研究资料》卷二(上海文艺出版社1962年版)。尽管如此，许多文本可能不是严格意义上的“鸳蝴派”派作品，而是更通俗的(商业上成功的)《三国演义》风格的历史演义小说。最初我们的项目目的是比较1930年代的浪漫主义小说、通俗小说和社会主义现实主义小说，但最后这个语料库证明难以根据重复的脉络与浪漫主义加以辨别，部分原因是1930年代的社会主义现实主义的文学风格受到“五四”时期风格发展的深刻影响。我们希望避免历时比较引起的影响问题，因而将社会主义现实主义语料库丢弃不用。将来研究中文类型相互作用的项目将包括这个社会主义现实主义语料库，还有鲁迅(其早期小说与浪漫主义同期)的作品、1920年代末和1930年代初所谓新感觉派的自恋体小说。虽然选择这些作品是因其高度情节化的特质以及缺乏心理聚焦，这和日本的情况一样，但其中大多数也以旧白话风格写作，这同浪漫派作家发展出的白话文模式显著不同。所以这种情况下是从内容和语言风格方面作比较。尽管有此差异，我们在两种情况下的目标都是要明确，对重复和冗余的各种测量方法是否足以界定私小说和浪漫主义小说有类型上与众不同的倾向，超越了纸页上字词的意义。

因此下一步是应用这些测量方法。因为像TTR和熵这样的测量方法往往与所测段落的长度高度相关，所以对它们的应用要使结果独立于文本长度。尤其对这两种方法，这意味着将文本分为1000字片段；测量这批片段的TTR和熵，包括停用词(stopwords)；再计算文本所有片段的平均值、标准差和累计和(方程1)。

标准差告诉我们所有语块(chunks)TTR和熵的波动，累计和告诉我们数值趋于比均值高或低多少。我们意识到我们的熵值测量法与个体词的边际分布相关，考虑到其序列本质，也在词的联合分布基础上计算了熵。借自伊奥阿尼斯·孔托伊阿尼斯的这个方法采取非参数角度，捕捉词序或字序间的远程关系(long-range dependencies)。*I. Kontoyiannis, “The Complexity and Entropy of Literary Styles,” in NSF Technical Report, no.97 (June 1996-October 1997): 1-15.这种情况下它是非参数性的，因为没有和马尔科夫模型为基础的熵测量的较小的语境(一元模型，二元模型等)绑定。因此，对文本的单位(我们的研究里就是单独的字)序列中每个位置i来说，这个方法寻找始于位置i、不存在于i之前的最长序列。例如，在i=100的位置，它将寻找之前100个字当中出现的最长的字序列。不同的i的长度用于估计整个文本的熵。这里我们选择关注个体音标和汉字的序列，这样一来，较低熵值就说明相同字序列的重复更多。虽然用于找到配对序列的窗口的规模依然取决于我们最短文本的长度，使得到的熵估计(entropy estimates)有所偏差，但估计值本身与文本长度无关。

我们担心仅有TTR和熵给重复提供的窗口太窄，另外应用了两个数理上与熵有关但原本作为词汇多样性指标而创造的特征。第一个是乔治·尤尔的“特征K”，于1944年开发出来测量文本中的词汇重复性或一致性。它依靠词序和频率做计算，将所有词频之和与特定频率单词的数量相关联，尤尔的设计使之独立于样本规模。*参见George Yule, The Statistical Study of Literary Vocabulary [1944] (Hamden, CT: Archon Books, 1968). 测量计算如下：10,000×(M2-M1)/(M1×M1). M1是单词类符的数量。给定序号频率上的单词数乘以序号的平方 (例如，所有出现2次的词乘以22) ，然后所有数值相加得到M2。它还预设特定文本样本中词的发生遵循泊松分布(Poisson distribution)，将词作为任何间隔(即样本长度)中以已知平均比率发生的固定事件(fixed event)处理。赫尔丹后来校正了这一推测，开发了调整后的K，在60年代被广泛用作词汇集中度的风格测量方法，包括尝试分析精神分裂语言。*Juhan Tuldava, “Stylistics, Author Identification,” in Quantitative Linguistics: An International Handbook, ed. Reinhard Köhler, et. al (Berlin: Walter de Gruyter, 2005), 374. 另见Arthur Holstein, “A Statistical Analysis of Schizophrenic Language,” in Statistical Methods in Linguistics 4 (1965): 10:14.我们纳入的另一个特征是词汇集中度指标，也是在1944年，由法国语言学家皮埃尔·吉罗开发的众所周知的“吉罗的C”，表示文本累积词频的比例由文本中最常见的50个“实义”词(content words)所占据。高指标值表示“作者将注意力集中在相对狭窄的、具有完全意义的单词范围内”，反过来也证明了“主题的紧凑、主旨的集中，(和)某些情况下的现成句子”*Tuldava, 375. 吉罗的C是将最常用的50个词的频率相加再除以单词总数。。这个测量方法比尤尔的K对文本长度敏感，因此解释力较弱，但它的解释更直观。二者都有无需将文本分为小块的益处。重要的是，二者都和熵类似，依赖相对词频之和。*关于尤尔的K和熵值测量方法的关系，参见Kumiko Tanaka-Ishii and Shunsuke Aihara,“Computational Constancy Measures of Texts,” in Association for Computational Linguistics 41, no. 3 (2015): 481-502.

我们逐一检查了这些测量方法，发现几乎所有方法都擅长将私小说和浪漫主义小说与同时期通俗作品区分开。日语语料库平均TTR和熵的分布表明，私小说一般在二者的计数中得分都较低，表明词汇多样性较低、重复较多。整体上，我们发现多数测量方法表明这种小说模式有更多重复性，而且令人惊讶地指出这个趋势似乎跨语言成立。*我们用成对的t检验和邦费罗尼校正来确定每个特征分布间的显著性。显著性表明比较的两个样本中每个特征的均值并不相等。显著性在p<= .05 水平上评定。数据行与指定的类型标签呼应，数据列与预测的类型标签呼应。在汉语作品方面，分离也同样明显。(图1)

图1　平均熵按类型分布的小提琴图。宽度代表一个类型中有特定平均熵的文本的相对比例。日本的情况(左)，我们看到熵低于通俗作品的私小说的段宽(band)更窄。中国的情况(右)，我们看到熵低于通俗作品的浪漫主义小说的比例大得多

尤尔的K和吉罗的C也揭示出两种情况在统计学上的显著差异，反映出自我指涉小说词汇一致性和紧密型的倾向。*中文情况中这两个测量方法不那么可靠，原因在于二者和长度更相关。这可能与中文语料库文本长度的变化大有关系，语料库包括一些非常短的文本和一些特别长的文本。有趣的是，自我指涉小说也倾向于有更多重复性的极端波动，它们的TTR和熵的标准差更高也表明这点。这些文本平均来说更为重复，但也显示出在较少重复的段落和较多重复的段落之间更剧烈的转换。有个测量方法没有显示范畴间明显差异，即孔托伊阿尼斯的熵测量法，这表明没有哪个文本组比其他组有明显更广泛的依赖性。不过，与其他特征联合分析时，它确实有助于确认某些以词为基础的测量方式无法捕捉其重复方式的自我指涉文本，后面我们将回到这点。我们惊讶地发现，整体而言大多数测量方法都指向此种小说模式中更多的重复性，而且重要的是这一趋势似乎跨语言成立。

因为仅凭这些方法无法解释引起重复增加的可能原因，所以下一步我们就用粒度更细(finer-grained)的词汇和语法特征给它们做三角测量。也就是说我们为白话风格、语法结构和自我指涉的内容等高阶现象寻求额外的测算指标。包括明显的事物，如叙事模式(是否第一人称)、与思想感情相关的动词的比率。*我们计入的日语词如下：思、感じ、考え、心持、気分、心配、気持、考へ；我们计入的中文词如下：想、觉得、知道、心里、晓得、精神、想起、感到、觉、感觉、思想、感情。也包括可能与西式语法和翻译作品的影响相关的特征：第一或第三人称代词的比率；标点符号比率；仅有句号的比率；语法功能词(停用词)比率。所有这些特征就本身而言，除了叙事模式，都证明是整体类型差异的可靠指标。考虑到私小说和浪漫主义小说的自白和唯我本质，我们推测代词和“思想/感情”动词都是如此，但是停用词(这些作品中更常见)和标点(较少)就不明显。至少在日本的情况中后者的一个可能原因在于这些作品包含的对话更少。*我们在中文情况中无法确定这点，因为有些通俗文本的OCR结果不太可靠，需要进一步校对，保证标点精确反映原始文本。我们可以想象，自我沉思不会留给闲聊多少时间。比照我们对重复性的测量，将这些粒度更细的特征绘图，最有趣的发现是熵和表达沉思、感情和精神注意力的动词比率间存在相关。这个关系对日本和中国都成立，无论作品是第一人称还是第三人称，在每个类型内也成立。(图2)

比较私小说和浪漫主义小说文本中最冗余的100个段落和最不冗余的100个段落，揭示出最为冗余的段落中有些“思想/感情”动词尤其明显。*为了确立特殊性，我们用卡方检验比较了100个熵能最高的语块和100个熵能最低的语块中的词频。出现4次以下的词被排除。低熵私小说最特殊的思想/感情词是：考え(思考) 和几个思う(思考)的词性变化，而浪漫主义篇章中它们是心(心/脑)和知道(知道)，卡方测试值确认这些都位于前5%最特殊的词当中。这些结果表明简单的词汇重复和认知表现之间的强相关。

图2　比照日本和中国的平均熵绘制的“思想/感情”词比率图。线性回归线按类型适配。两种情况下我们都能观察到，随着“思想/感情”词比率增加(横轴)，文本平均熵下降(纵轴)，表明更多词汇重复

确认重复是私小说和浪漫主义小说明确倾向的最后一步是将所有个体特征合为一个单独模型，以评估它们在区分这部小说和通俗作品时的相对权重。我们想知道，这样的模型，只靠熵、TTR、“思想/感情”词等测量方法，能多好地预测文本类型。使用有最佳子集选择(subset selection)的逻辑回归分类符(classifier)，我们确认了我们在个体特征上看到的情况。*逻辑回归分类器使用一套独立变量(此处即特征)，从范畴上决定作品的类别(或类型)。它考虑这些特征在语料库子集中的分布，并确认它们在不同类型中是否差异显著。最佳子集挑选会尝试特征的每种组合可能性，以界定两组文本中最具区分性的组合。虽然在计算上难以处理十个以上的特征(即1000个组合)，但我们还是得到了一个相对较小的特征集。我们用了一组不同的起始特征多次运行分类，“最佳”特征几乎总是相同，从而让我们对这一程序的可靠性有了信心。分类器用这些特征来确定之前未见过的作品的范畴。在日本的情况里，分类符猜到文本指定类型的准确率为样本的80%。事实上，它只需要孔托伊阿尼斯熵的测量法和思想/动作词比率、停用词和句号就实现了这一精确性。这不是说其他特征就没有辨别力，只是说明没有它们分类符也能表现得一样好。在中国这边，模型几乎每次都猜到正确类型(表1)，只需要平均熵和尤尔的K就可做到。这里，只需词汇的冗余和一致性就足以分开两个语料库。不幸的是，和日本的情况不同，我们无法为语言差异做控制，这就很难确定重复性主要是语言效应，还是心理叙述的影响也起了作用。不过，两个结果都支持这个观点，即重复对于私小说和浪漫主义小说作家所做的实验而言至关重要。作为自我重复的冲动，汇集起来产生了自我指涉写作类型的审美潮流看起来明显跨越了不同文化和语言语境。

日语语料库通俗小说私小说通俗小说5.11.9私小说0.95.0

汉语语料库通俗小说浪漫主义小说通俗小说12.30.1浪漫主义小说0.15.6

表1我们的逻辑回归分类符的混淆矩阵。这些矩阵用10倍交叉验证作出，表示分类符平均多久预测一次
设定分类标签。中文的情况里，我们看到“通俗”作品几乎完全没有被分类为“浪漫主义”作品，反之亦然。
在日文情况里，“通俗”作品与“私小说”区分开略为困难

二、解读重复(Reading Repetition)

在20世纪早期自我指涉小说中的这个冲动被识别后，尚未明了这种趋势在风格层面或在产生新“精神状态”种类这方面的意义。考虑到我们使用的重复的定义受到限制，此趋势需要与其他方式做比对，对重复的意义划界并解读。我们的测量方法正好捕捉到千字窗口中作家重复同一组有限单词的相对程度。他或她在给定文本的诸多窗口中这么做得越多，文本整体越重复。我们的目标是弄明白这种持续的词汇压缩是否符合特定语言模式、叙事情境或题材，以及是否产生特定审美效果。

当然了，读者不会以零散的千字语块来阅读文本。我们测量的重复代表了可能会让文学学者感兴趣的诸多种类重复中的细小碎片。J·希利斯·米勒在《小说与重复》中编目了其他选项：“小范围内，有言语要素(verbal elements)的重复：单词，修辞格，形状或手势，或者更微妙地，如隐喻般行事的隐秘的重复……较大范围内，事件或场景可在文本内复制……一个人物可重复之前的世代，或者历史或神话人物……最后，作者可以在一部小说中重复来自他其他小说的母体、主题、人物或事件。”*J. Hillis Miller, Fiction and Repetition: Seven English Novels (Cambridge, MA: Harvard University Press, 1982), 1-2.米勒继续说明，我们部分地通过觉察到这些重现来阐释小说，因为“任何小说都是由重复和重复中的重复，或以链条方式与其他重复相连的重复构成的复杂组织”*Miller, Fiction and Repetition, 2.。当然，问题就藏在觉察中。如吉尔·德勒兹所言，某些事物或事件的重复对于它在人的心里获得固定身份必不可少——读者的心也是如此——但重复得以安置(posit)的方式是抽象的，这个身份总是虚置的(virtual)。我们概括出一件事的发生与下一次之间的无尽变化，让重复的概念成为可能。*James Williams, Gilles Deleuze’s Difference and Repetition: A Critical Introduction and Guide (Edinburgh:Edinburgh University Press, 2013), 11-12.作为读者，我们对文学文本中重复的觉察总是要基于某种限定重复边界并遏制无穷维度的方法，沿着这些维度，事物或事件的任何两个事例都可能不同。

如果研究个体文本或关注较小的分析单位，如音素或词，这个方法容易说清楚，对诗歌头韵、排比或押韵的研究是这方面的典型。但如果这些单位变得复杂，研究者试图在不止少数几个文本中追踪这种重复，就比较困难了。例如，为了追踪一个主题或母体的重复，需要显著抽象方能在诸多实例中确定主题或母题的身份。抽象中的一致性越少，就越难以肯定同样的事情正在重复，也越难以对重复提供定量解释，既然只有某些内容比可能预期的重复得更多(或更少)时重复才有意义。研究重复的语言学家尤其遵循这一事实，因而特别小心，要把计数的对象和计数从中获得重要性的背景都表达清楚。例如最近的一个方法论调查就列出了不少于十个重复可以采取的形式，包括绝对重复(单频)、位置重复(文本中给定位置上预期之外的偏高或偏低频率)、关联重复(给定框架内的两件事同时发生得比预期更频繁)、数据块中的重复(一个事物根据文本数据块的合法分布而重复)。*完整列表参见Gabriel Altmann and Reinhard Köhler, Forms and Degrees of Repetition in Texts (Berlin: Walter de Gruyter, 2015), 5-6.重要的是每种情况都假定重复只在与现有用法模式相关时才有定量的意义，无论就这件事本身而言，还是它与某些语境有关的用法，或者与时间有关的用法。*Deborah Tannen称这些重复的多重语境为“固定性维度”(dimensions of fixity)，提出虽然“所有的表达都形式相对固定，但还是无法不注意到有些语言例证比其他的更固定。这可被视为反应了这些维度的几个连续体。首先，有形式上相对固定性的连续体，然后有语境上相对固定性的连续体，以及第三个，时间上的。”参见其Talking Voices: Repetition, Dialogue, and Imagery in Conversational Discourse (Cambridge: Cambridge University Press, 2007), 55.这种严格的假设也许限制了我们能计数的事物的种类，但相对定性方法，优势在于我们得以增强分析并推断大量文本中重复的相对程度。

与此同时，这个优势并不会让对重复的定量方法变得在德勒兹的意义上更不“虚置”(virtual)，也不会有助于解释此种重复的语言功能或象征效果。语言学家们自己也很小心地指出，重复的发生有许多原因。当然存在外在的结构因素，例如语法或一种语言词汇量施加的自然限制。也可以为了建立主题联系、提供修辞重点、达到风格效果、甚至为了控制信息流而有目的、有策略地使用重复。在粒度更细的层面，它用来在对话中辅助理解，通过为新信息提供框架而提高效率，增强对话的共同参与感并因此强化社会纽带。甚至可能是无意识的，例如说话者重复正在说的内容并有瞬间延迟，或者模仿其他人的言语。当模仿变成强迫性的或自动的，而非被外界刺激激发，那么对重复的解释会偏离，朝心理学和精神或神经疾病的方向去。*对重复的更广泛的阐释可能，参见Altmann and Köhler, 2-3; 以及Tannen, chapter 3.考虑到许多研究材料明显的心理学倾向，这最后一种解读尤其与我们的研究相关。

弗洛伊德是最早严密思考重复的心理学功能的人之一，将重复发生的行为阐释为心灵机制面对不愉快的、被压抑的记忆时的抵抗。*Freud, “Remembering, Repeating, and Working-Through” [1914], in Standard Edition vol. 12, 145-157.他在《超越快乐原则》(1920)一书中充分探讨了这个题目，并深究了对重复冲动的不同解释，分别将之归因于病人试图赢得对情境的把控、病人自我(ego)中对压抑的表达，以及“死亡冲动”——一种植根于细胞层面、要返回前有机状态的冲动。尽管他对语言在精神病理学中的作用很关注，但这位“谈话疗法”的奠基人却在很大程度上忽略了重复在言语或散文中的具体行为，反而关注梦、游戏和其他外在表现或压抑的形式。

随着1940年代和1950年代心理语言学的兴起，语言重复重要性的讨论获得推动，对重复的解释作为窥探人类心理的窗口发生了强烈的定量转向。如威廉·莱维尔特(William Levelt)在他写的该领域的通史中提出，“突然有可能定量在发出者和接收者之间传播的信息量了，其冗余、传播率和频道噪音，诸如此类。”*Levelt, A History of Psycholinguistics: The Pre-Chomskyan Era (Oxford: Oxford University Press, 2013), 5.乔治·齐普夫(George Zipf)对词频的研究是这一转变的先驱，他那如今广为人知的法则即由他对大脑的一种深刻特质的信念所激发，他称之为“省力原则”。他从一套交流模型中得到这一性质。在这样的模型中，说话者将(他们的)词汇规模减至单个词而获益，而听者则更愿意“增加词汇规模，直到每个不同的意思都有个明显不同的词”*George Zipf, Human Behavior and the Principle of Least Effort (Cambridge, MA: Addison-Wesley Press, 1949), 21. 本文论最初阐述于The Psycho-Biology of Language: An Introduction to Dynamic Philology (Boston: Houghton Mifflin Company, 1935). 对其理论的总结参见Levelt, 453.。交流中这两种力生出的平衡产生了他的定律描述的平滑的序号-频率关系(rank-frequency relation)。不过这个规范却是由观察到的对它的偏离而确定的。具体说，齐普夫分析了他记录的自闭症和精神分裂患者的言语，认为序号-频率关系中一个较为急剧的负斜率(negative slope)说明较小的一组词过载了较大的一组意义，表明这些病患不太会根据共同文化词汇来调校自己的个人语言。*Zipf (1949): 285-87.

词汇重复和多样性作为偏离社会规范的指标也吸引了约翰·卡罗尔(John Carroll)和温德尔·约翰逊(Wendell Johnson)等早期心理语言学家。约翰逊在1940年代初参加了几个研究，在其他方法之外，也用到他的TTR测量方法来比较成人和儿童、不同的年龄组、不同IQ组、不同性别、精神分裂症患者和普通成年人之间的言语和书写。*Levelt, A History of Psycholinguistics, 456.研究发现，更高的IQ与更高的词汇多样性和更高的TTR相关，大学新生的TTR比精神分裂症患者略高，电话讲话比精神分裂症患者更重复。认为更低的用词多样性和更多重复意味着某种反常情况(例如教育程度较低、向他人倾诉的能力更低，或极端口述性)，这对早期心理语言学家有关语言和认知的看法起了重要作用。后来，熵及其伴随着的冗余也成了令人信服的框架，用于思考语言的心理学，无论是罗曼·雅各布森(Roman Jakobson)对语言作为符号的深思，认为其惯例在内在的、情感的语言(倾向于更多冗余)与外化的、智识的语言之间有区别，还是安东尼·韦尔登(Anthony Wilden)用冗余重新解释弗洛伊德对以多元决定方式显露的多种心灵症状的描述。他认为，重复冲动的确是抵御内心噪音的保障。*Roman Jakobson, “Langue and Parole: Code and Message,” in On Language, eds. Linda R. Waugh and Monique Monville-Burston (Cambridge, MA: Harvard University Press, 1990): 97-98; Anthony Wilden, System and Structure: Essays in Communication and Exchange (London: Tavistock Publications Limited, 1972), 35-37.最近，斯坦福文学实验室在对通俗和经典小说差异的研究中经过TTR测量后提示重复和创伤叙述之间存在潜在关联。见Mark Algee-Hewitt, et al., “Canon/Archive” (2015), 9-10.

图3　基于我们分类模型的最像“私小说”的标题。右侧文本原本标签为“私小说”。左侧文本是“通俗”作品。标题越接近1.0，根据之前从语料库学到的内容，模型就越会认为这是一部私小说

因此，重复的形式帮助界定甚至建构了现代的心理学主体。这段简史为丰富的解释空间增加了又一关键维度，通过它重复能被解读。如我们所见，它提供了一个范围，可凭借它想象口头与书写、内在语言与外化言语、精神分裂等隔离的心理状态与有社会意识的常规主体性之间的差异。通过量化私小说和浪漫主义小说的重复趋势，我们得以进入这个数百文本范围的空间。我们的测量方法也有助于在空间内沿连续体为文本定位。我们能做到这点是因为其相对冗余，也考虑到测得的特征作为复合体与某种类型中观察到的特征相符的程度，而非其他类型。下图展现了由我们的分类器和模型中的特征判断的最有可能是“私小说”的日语文本。(图3)一部作品在图中位置越高，分类器就越有信心认为该作品也有语料库其他“私小说”中观察到的定量趋势。

虽然沿着此类连续体为文本重新定位产生新的比较机会，还是需要靠我们在重复的解释空间里航行。能否仅仅以对口语风格的欲望或采用外国语法，就解释我们所测量到的重复？我们能否从中看到将重复性与内在精神过程和可能的精神崩溃相联系的策略？我们曾经说过重复作为风格是所有这些事情的附带现象，但只有通过察看个体文本，我们才能理解它们如何跨越不同文化和语言语境同特定的文学主体性模型互动。这一步很关键，还因为像我们测量的那样，如果只有重复，那么几乎不能捕捉到将自我指涉小说与其他写作模式分隔开的那些差异。我们的测量结果表明，有些私小说和浪漫主义小说相对而言不重复，而少数通俗作品(在日本，这大多是侦探小说)重复性接近最自我冗余的作品。探索这些例外对未来的研究很重要，但这里我们将考虑推动重复趋势至极端的文本，它们有助于加强比较分析的焦点，即作为风格的重复规定了重复置于其上的具体美学用法，并让我们通过测量得以观察这些方法。

三、作为风格的重复(Repetition as Style)

在这更窄的透镜里，图3顶端的作品被认为最像“私小说”，原因是对重复和某些词汇和比喻条目(即思考词、停用词、句号)的倾向。其中几个证实了将重复视为文学语言转变和尝试叙述心理内在性和精神错乱相结合后的表面效应。例如，葛西善藏(Kasai Zenzō)的后期作品《柯树叶》(椎の若葉，1924)就值得注意，因为这是在12小时内口授给书记员的。*该作者由于饮酒过度，后期时常长期卧床，口授是出版商唯一能从他那儿发掘材料的办法。见Fowler, 272-73.爱德华·富勒评论道，这赋予作品一种口述性，“断然而重复地表明了自己”，尤其因为葛西拒绝审阅自己口授的内容，这让他如同一个漫谈的讲故事的人，不断通过选择性记忆重提自己之前的话语，导致“越来越冗余的概括……(和)狂乱而近乎公式化的对精神错乱的冥想”*Fowler, Rhetoric of Confession, 274.。结果是高度“不连贯的”叙事风格不规则地从一桩轶事转换至下一桩，即使是在相同的精神场地猛烈翻腾。被评论家平野谦(Hirano Ken)授予日本第一部“真正的”私小说称号的《疑惑》(Giwaku, 1913)中，如富勒所言向我们呈现出类似的“幽闭恐惧症”*Fowler, Rhetoric of Confession, 151. 平野在其著作《艺术与私生活》(1964)中作出这一评论。转引自Fowler, 150-51.。小说作者近松秋江(Chikamatsu Shūkō)因为展现了“对私生活短视的心事重重”和纵情于“自我生成的疑虑”的主角而闻名，制造了一种“孤立的(相对于个性化的)意识”，几乎全然隔绝于政治、社会和家庭关切，并反复停留在作者生平的某段时期。*Fowler, Rhetoric of Confession, 151-52.《疑惑》便是如此，这些时期通常涉及被旧情人抛弃以及在主角梳理记忆、搜寻过去的欺骗证据时随之而来的恶心、狂怒和绝望的感受。但这里我们所得的只有这些感受。小说的全部行为发生在叙事者脑内，起首几句就暗示了这一事实：“大多是裹上被子后脑袋里就开始描写杀你，以及我坐牢时的光景，再重写，描写再重写。想着你嫁到了何处，想着把你找出来，心情窒息得每天每天只有不停地想象着同样的东西。”*译自《近松秋江：文集》[Chikamatsu Shūkō: An Anthology], ed. Hirano Ken, in Nihon bungaku zenshu, vol. 14 (Shūeisha, 1974), 100.

《疑惑》出现的时期，关于精神崩溃的叙述被某些人视为文学价值的标志。作家舟木重雄(Funaki Shigeo)在《疑惑》出版当年评论道，如今正在产生的最高质量的作品中，“没有哪个不在某种程度上承认神经(shinkei)的运作”*见Hibi Yoshitaka, ‘Jiko hyōsho’ no bungaku-shi [A Literary History of ‘Self Representation] (Tokyo: Kanrin shobō, 2002), 228. 这句话的语境是对志贺直哉(Shiga Naoya)近期作品的评论，后者后来成为这个时代最获认可的私小说作家。。舟木本人就撰写被称为“神经衰弱小说”的这种自我指涉子类型(sub-genre)小说，这也强化了认为心理退化和精神痛苦是现代艺术正当来源和主题的看法。*Hibi, 228-34. 另见Christopher Hill,“Exhausted by their Battles with the World: Neurasthenia and Civilization Critique in Early Twentieth-Century Japan,” in Perversion and Modern Japan, ed. Nina Cornyetz and Keith Vincent (London: Routledge, 2009); 及Pau Pitarch-Fernandez, “Cultivated Madness: Aesthetics, Psychology and the Value of the Author in Early 20th-Century Japan.” PhD dissertation, Columbia University, 2015.欧洲自然主义写作有些种类亦有此看法。夏尔·巴古利(Charles Baguley)对法国自然主义作品的研究认为，虽然自然主义小说在范围上太笼统，无法引发具体的主题决定因素，但他们有一种典型运动是朝着“瓦解和困惑的方向”，“从秩序向无序，从精神稳定向歇斯底里和疯狂”。*David Baguley, Naturalist Fiction: The Entropic Vision (Cambridge: Cambridge University Press, 1990), 207.作为风格的重复是一种方式，葛西和近松等作家通过它能将这种运动朝向精神崩溃方向写作，所用的正是用来描述它的语言。

我们语料库里最像“私小说”的文本是武者小路实笃(Mushanokōji Saneatsu)1910年的《天真的人》(Omedetakihito)。虽然在评论史上不算成功，但武者小路本人在1920年代追溯既往时认可这本书为私小说奠基之作。小说家宇野浩二(Uno Kōji)说，他“出众的风格”为书面语改革结合了真正的口语风格，是“某种意义上私小说的起源”。*宇野浩二的论文《对私小说的个人看法》(“Watakushi shōsetsu shiken”) [Personal View of the I-novel], i转引自Lippit, 29.确实，像武者小路这样的自然主义作家，作为一个群体，与口语语言的发展及西式句法和表达法的采纳都紧密相连。*Kisaka, 382-83. 铃木登美(Tomi Suzuki)提到，谷崎润一郎(Tanizaki Jun’ichirō)在一篇1929年的论文中也曾作出此种联系，他在文中说，“对现代白话风格的西化和人造性贡献最多的是日本自然主义运动中的作家”，其中多数继续朝书面语的西化发展。Suzuki, 176.本类型公认奠基者之一的一部作品—— 以来自作者的留言开头：“我相信存在一种自私的文学，为自我的文学”——作为最像“私小说”的作品出现，这给了我们信心：重复正在这个类型里获得确凿的趋势。

《天真的人》如何处理精神崩溃表现了主题的另一变化，值得更详细的分析。这部中篇小说对疯狂的描绘既偏执又自恋，内心思想的重复和冗余驱动着这部作品的许多心理描写，甚至达到令读者发自肺腑地感到文本重复性的程度。在对一个男人可怜巴巴试图吸引一个女孩注意的描写中，在第一页我们就5次被叙述者告知：“我渴求女人。”每次他都几乎逐字重复这句。头几页中还很明显的是过度使用第一人称代词“自分”(jibun)，几乎每隔一句话就用来表示主语，语法上全无必要。好像叙述者感到每一刻都被迫不着边际地重申他的自我的在场，以免读者忘了谁在叙述。这种冲动在搪塞的时刻变得尤其严重，一再反复地推迟与他迷恋的女子阿鹤(Tsuru)真正邂逅。

我听说星期五是西洋人忌讳的日子。因此两三年前即使想和她见面也尽量避免在星期五出门。但是有时觉得这种迷信不好而故意出门。但是感觉一点儿不好。她搬家后见面就得去更远。所以更讨厌在星期五特意出门了。但是那是迷信，有时觉得迷信不好也会刻意出门。那时竟会想不碰上反而更好一些。况且将近一年没有遇上鹤了，却还是不喜欢特意在星期五出门去见她。但是好想见面。这种时候，觉得反正之前从没遇见过，不遇见到底是好还是不好怎么着都行。这样慢慢就停止去遇见了。*Mushanokōji Mushanokōji, “Omedetaki hito,” Gendai Nihon bungaku zenshū, vol. 40 (Chikuma Shobō, 1973), 7-8.

此处及整个文本里，阿鹤只是块屏幕，用来反射叙述者复杂难懂的内心斟酌，他对她的欲望似乎毫无驱动的缘由，他越是想方设法避开与她实际遇见，欲望就越发强烈。她成了异想天开的借口，让叙述者思索肉欲的本质、自我的本质以及假如他找到法子和她结婚的话他本身自我迷恋的可能后果。无需说，这样的婚姻没有发生。他们仅有的一次确实相见是火车上偶遇，叙述者再次未能将思想转为行动。

快到四谷的时候我站了起来。看向鹤的方向。鹤迎上了我的目光。鹤马上移开了视线。我痛定思痛决心从鹤的前面走过去。电车即将停止，鹤却没有站起来。朝我背过脸去。电车哐当停了下来。我正要从鹤的前面经过。这时鹤忽然站了起来。我暗喜。我的手碰到了鹤的后背。我决定跟在鹤的后面下车。就在这时，车门旁一位带着孩子的人站了起来。我没有勇气厚着脸拨开那个男人去紧跟着鹤。我让那俩人插进了我和鹤的中间。*Saneatsu, “Omedetaki hito,” 25.

重复不仅表示内心混乱，还起到减缓行动的作用，将每一步与下一步连接，同时保存单一的关注感。当叙述者最终鼓起勇气喊出她的名字，她回应以一句粗率的“我能帮你吗?”接着朝另一个方向走开。虽然所有迹象都相反，他却将此看作她对他爱的信号，尽管这是我们最后一次看到她。但是，这却是必须如此，如果阿鹤作为活生生的、呼吸着的角色进入故事，只会让叙述者的单轨思路脱轨。重复和冗余的风格在这里并未引发疯狂本身，而是日本小说中前所未有的极为自我中心的叙事模式。

在中国的浪漫主义文学语料库里，我们再次发现高重复率与过度思想(excessive thought)的交汇处有许多自我迷恋的作品。(图4)奇怪的是大多数极端离群值属于同一个作者：叶灵凤(1905—1975)。叶在中国现代文学史的位置总是在变化，没有定论。叶在浪漫主义写作的图景中出现得相对较晚，他于1925年加入创造社时，该社团已经从沉溺的自我叙述转向到有政治倾向的民族认同和阶级意识兴趣。叶渴望在快速发展的现代文学领域占据一个位置，他将自己包装成花花公子和反传统者，以写作撩人的三角恋、城市的颓废和弗洛伊德式的性欲描绘为特色的小说很快获得成功，并以意在“达到精神混乱”的方式将关注放在身体和心理的“反常”(从手淫、阉割和同性恋到双性恋、自杀和乱伦)上。*Yingjin Zhang, The City in Modern Chinese Literature and Film: Configurations of Space, Time, and Gender (Stanford: Stanford University Press, 1996), 211.这样的叙述会在1930年代由穆时英、刘呐鸥和施蛰存等所谓“新感觉派”作家推动的现代派文学高峰期为他赢得中心地位。但在1920年代，他的作品依然和浪漫主义结盟，让叶得到“第二代浪漫主义者”的地位。其阈限性(liminality)使得叶在自己的时代难以划分范畴，直到今天，在学术研究中他还是一位研究不足的人物。*叶在学术研究中的边缘化也因为他在1920年代后期对鲁迅的攻击，以及他在1930年代的政治情况。参见Zhang, 208.

图4　对照中文文本平均熵绘制的“思想/感觉”词的比率，某些离群作品标明书名加以突出

叶1928年的故事《爱的战士》是他最为重复的文本之一，这是个以城市青年三角恋为特色的代表性篇章。叙事在年轻女作者莎菲和她花言巧语的情郎小萍之间转换视角，后者幻想自己是爱神国里的拿破仑。每一部分极少对话或角色互动，基本是关于角色内心状态的孤立沉思。故事开端是莎菲在写日记，渴望着小萍：

我不相信这是春天。低的，低的，这是一块已经低得要压到我的头上的一块灰布。我不相信这上面曾经有过金红的太阳，我不相信这上面曾经有过镜子样的月亮。不会有这些。这都是梦中的事，这都是幸福的人骗着不幸的人的话。你相信么？你相信这下面会有一片油绿的草地，青的溪水旁边有一株粉红的桃花，花下有一位青年的男子正在抱着——什么？我不相信。我没有勇气能再写下去。*Ye Lingfeng xiaoshuo quanbian Vol. 1 (Shanghai: Xuelin chubanshe, 1997), 168.

仔细看，容易看出如“低的”“我”“相信”这些词的重现如何最终得到低熵值分(entropy score)。节奏贯穿整个叙述并增加了两位叙事者过度伤感的语调，赋予文本一剂强烈的想象的内在性。随着故事发展，莎菲对恋情越来越幻灭，小萍则反过来，对女性的好色追逐愈发大胆。故事黑暗地终结于莎菲为报复小萍不忠而灌醉并刺死他，胜利地宣称自己为“爱的战士”。*这个结局突出了叶受到奥斯卡·王尔德《莎乐美》及其对以爱之名杀人的蛇蝎美人描绘的影响。参见Xiaoyi Zhou, “Salome in China: The Aesthetic Art of Dying,” in Wilde Writings: Contextual Conditions, ed. Joseph Bristow (Toronto: University of Toronto Press, 2003), 295-316.这暴烈的过度反应反过来让莎菲的重复性写作风格显得危险地怪异、狂躁。莎菲并不是特别引人同情的角色，故事也不该被解读为一个女权主义者对父权的控诉。相反，重复从风格上增强了叶对耸人听闻之事的嗜好，有学者认为这是典型的“刻奇的”(kitschy)夸示行为。*虽然叶灵凤的小说包含了“新颖性”和实验，但他显然决定媚俗，也就是说重复、平庸、老套……(他的故事)既先锋又为大众文化乐于接受。参见Jianmei Liu, “Shanghai Variations on ‘evolution Plus Love;,” in Modern Chinese Literature and Culture, 14, no. 1 (Spring, 2002), 82 and 84.这种刻奇的媚俗可以理解为尝试将现代自我的修辞推到过分的地步，建立并放大浪漫主义先驱们特有的心理叙述的重复风格。

强化的重复是否有助于解释叶在文学领域的离群位置，或者反之？这两种解释都有可能。但我们更重要的观点是，这种相关表明，当此类型在大转型边缘时，创造社浪漫主义的语言倾向如何被推到极致。*史书美(Shu-mei Shih)形容1920年代叶的新兴文学团体将“郭沫若的‘自我的爆发’和郁达夫的自我沉溺推到极端，不顾一切限制性规范，夸大自我，颂扬性行为而没有困扰五四前辈的那种焦虑”。见Lure of the Modern: Writing Modernism in Semicolonial China, 1917-1937 (Berkeley: University of California Press, 2001), 255.位于自我指涉浪漫派写作边缘的一位作家成为最极端的例证，而不是日本那样位于起源处的作家，这表明我们的测量也许捕捉到了这些写作模式相对轨迹中的不同时刻。此处，叶令人吃惊的突出程度提出了新的问题：词汇冗余与1920年代上海“五四”文学商业生存能力之间的关系，以及文学运动的追随者会将该运动始创者发展的风格趋势夸张到何等程度。*随着创造社的政治化，浪漫主义文学类型在1920年代后期迅速衰落，所以我们的语料库没有超过1928年。因而需要做更多工作去测量叶后期作品中重复的进化，或者将他同1930年代的同时代人进行比较。

虽然叶的故事平均而言最为重复，我们察看其他高度冗余的篇章时，浪漫主义运动的一些重要人物也显现出来。例如郁达夫的《街灯》(1926)和郭沫若的小说《落叶》(1925)就包含一些极为重复的段落。整体上这些作品与叶的故事有几个共同特点，例如以现在时写就，情节极简。*并不是说叙述者不会追忆过去。在《后悔》(郭沫若)、《菊子夫人》(叶灵凤)和《落叶》(郭沫若)中，缅怀往事的叙述者对回忆和他们在其中记录叙事的假定的当下(putative presence)之间的时间差距非常自觉。它们也都倾向于采用强调呼语(direct address)的叙事模式，要么以信件和日记的框架设置，要么以冗长的间接引语语块的形式。孔托伊阿尼斯测量方式确定的低熵值的作品中，这种白话文风格和大量间接引语同样突出显现，上述方法捕捉到较长词序的重复而不只是个体词。(表2)

表2非参数熵值测量基础上熵最低的15部中文语料库文本。按这个测量方法，最高熵值在7.1到8.4之间，因此是2倍冗余。每个类型的中线值是5.7

我们在这里也看到了叶灵凤作品，但也有几个郭沫若的浪漫主义短篇小说：《十字架》(1924)、《叶罗提之墓》(1924)和《亭子间中》(1925)。后面这些文本突出的重复对于人类读者来说更为明显，无论是频繁的感叹或强调状语，例如“十分细心地细心地……轻轻地轻轻地”(《亭子间中》)，或者近乎逐字复制句子：“看护妇把手伸去替他省脉，意识昏迷的他却在叫道：——‘啊，多谢你呀，嫂嫂。’看护妇又把手伸前去插体温表在他的右胁窝下，他又在叫道：——‘啊，多谢你呀，嫂嫂。’”(《叶罗提之墓》)。从郭沫若这样的经典作家笔下出来的这种过度重复的风格往往被视为那个时期白话文写作的标志。

然而，尽管郭沫若的故事全都引发挫败的“五四”时期个人(以及，碰巧，刻画死亡主题)特有的强烈伤感氛围，但许多重复率最高的中文文本不限于唤起创伤或痛苦。事实上，我们发现唤起“苦闷”——一种暗示痛苦/绝望的有影响的情绪——的词，和“思想/感觉”词不同，和低熵之间没有富于意义的关联。相反，如我们在叶灵凤的作品里所见的，冗余也是性挑动、感伤和自由恋爱的重要资源(或效果)。这种重复起作用的方向与弗洛伊德的死亡冲动相反，倒是符合一种快乐原则。*弗洛伊德在此处出现特别有理由，因为叶灵凤自己就是弗洛伊德心理学的狂热崇拜者。参见Jingyuan Zhang, Psychoanalysis in China: Literary Transformations 1919-1949 (Ithaca: Cornell University Press, 1992).这种快乐也许是寻欢作乐的、有罪的、自恋的、力比多的，或狂躁的，表明重复、内在性和感伤之间非常复杂的关系，有助于界定浪漫主义小说中的文学主体性。*关于感伤，参见Haiyan Lee关于中国现代文学“情感的结构”的说法：“现代的主体首先是感伤的主体。”Revolution of the Heart: A Genealogy of Love in China, 1900-1950 (Stanford: SUP, 2007), 7.不过，更为彻底地探索重复与具体的弗洛伊德式心理机制的关系，或与一般感伤的关系，则不在本文范围内。

四、结语

作为风格的重复观念有什么可以提供给东亚文学现代性的历史？如最初所言，这些历史交替地维护了一批自我指涉文学的一致性，这些文学将语言的转变与心理学叙述相连，也强调了不可能将其贬低为一套单一的形式特征。我们这篇论文的目标在于拿起一些与这种文学相关的一贯性，将其置换至定量语域，继而创造一个框架，用于探究类型的一致与类型的模糊之间的差距。这个框架在利用学者们对这种文学已有知识的同时，也意在应用可使用的计算功能，将这知识扩展到迄今尚未开拓的比较方向上。

学者已然知晓的是日本私小说作者和中国浪漫主义作家在1920年代早期围绕着一种新的语法心态(grammatical mentality)相交于此，这种语法心态综合了语言变化和对心理自我的痴迷。因此，一方面武者小路和叶灵凤等作者的作品阐释了将书面语口语化和采纳西式语法概念及结构相结合的风格革命。自然主义作家逐渐成为这种革命在日本的典范，在中国则是“五四”一代作家(包括浪漫主义作家)，他们倡导汉语写作的口语化和欧化。这样的语言实验旨在提供一种与现代个体的主体性相称的写作模型，实际则提供了自我“发现”的条件。柄谷行人和刘禾等学者已经表明，在日本和中国文学史上内化的现代主体(modern interiorized subject)的发展中，白话写作都是生成式的(generative)，而非反应式的(reactive)：新的文学语言与其说是对表达心理内在的新欲望的反应，不如说是使这些表达得以可能的条件。*Karatani, 61.了解到中国浪漫主义作家直接从日本同行那里吸取灵感，私小说在此时期广泛译为中文，只会强化共同的审美和意识形态工程的感受，突破了空间、语言和文化的差异(division)。

也许，存在着一种比较方法说明这些歧异如何以无数方式将个体文本中更广泛的语言转变和心理叙事潮流的征象具体化。此处，我们采取了另一种思路，尝试归纳地界定将跨越不同个体表达的这些潮流互动联系起来的特征。我们在比较语境中大规模察看私小说和浪漫主义文学，并发现了它们的重复趋势。诚然，对于本时期文学写作更为广泛复杂的转变来说，我们的重复定量模型只是一个松散的指标。但是我们的初步结果表明，它捕捉到了这些潮流互动里的某些东西，识别了来自这种互动的语法心态的代表性作品。另外，正因为重复不等同于这些潮流或与之并存，我们的模型才提供了新的、不熟悉的工具，对自我指涉的作品彼此比较和关联。武者小路实笃和叶灵凤的文本从未共同出现在东亚文学现代性的比较史上，但难以忽视它们作为性欲和幻想叙事的交叠。这交叠并非我们设计模型时要捕捉的。它只知道这些文本倾向于更多重复，重复又和与认知有关的词松散相关。但是通过将重复作为风格特征分离出来，我们得以审视这种更为抽象的文本语域——布罗代尔所说的“无意识历史”的范围——将熟悉与不熟悉的作品置于新的比较语境。*参见“History and the Social Sciences: The Longue Durée,” trans. Sarah Matthews, in On History (Chicago: University of Chicago Press, 1980), 25-54.这个语境同时挑出了武者小路实笃和叶灵凤(或者近松秋江和郭沫若)这样独特的作者，他们特意采取了服务于自我发现的极端重复风格。同时，它揭示出这一选择是由来自内部的心理压力和来自外部的社会语言学压力所驱动的变化中的语法心态的共同征象。它让我们得以检视东亚文学现代性的文本面(textual surface)，并思考在此之下发生的更深的系统转变所激起的那些更宽泛的波动。