浅议统计语言学在作家语言风格研究中的实际应用
2018-05-08万晓雯
摘要:统计语言学是应用统计数学的方法来研究语言现象的语言学科,研究领域广泛,学界常常运用统计语言学,通过分析语言单位的出现频率及作家的用词频率、词长分布和句长分布,确定作家的写作风格。通过“判定《静静的顿河》作者”“证明《红楼梦》是否出自一人之手”两个案例可以看出,统计语言学的研究方法在进入文学研究领域后,取得了非常好的实用效果。但是,在实际应用中,除了各类词汇等可控变量,还有其他潜在因素导致统计语言学的结论有时并非绝对精准。通过进行多方面、深层次地原因分析和推断,我们发现,要得到准确的研究结果,必须做好研究的前期准备,要选择具有相似语言环境的语料,要注意避开文学语言的形象思维影响,不能滥用统计语言学研究方法,并在操作过程中严格控制各种变量,以科学的思想指导研究。
关键词:统计语言学 语言风格研究 实际应用
作为大数据时代语言学研究的一个热点领域,统计语言学(statistical linguistics)属于数理语言学的一个分支,涉及语言学、计算机科学和数学等多个学科门类,是应用数理统计、概率论和信息论等统计数学的方法来研究语言现象的语言学科。
一、统计语言学的研究领域
相较于自然科学,人文科学的研究多涉及人(包括研究者本人)的大脑,因此很容易导致“自我中心性错误”和“内省性错误”。无论是过多地依赖本人的经验,还是过多地依赖自己的内省来做出判断,都会导致研究缺乏客观性与科学性,其价值是有限的。统计语言学则是倡导用科学的方法进行实验,进而得出结论,“特别注重语言本身的系统性和动态性特点,强调语言描写的真实性和精确性”。
从其研究内容看,统计语言学大致可分为语音统计学、词汇统计学、语法统计学和语义统计学,分别研究语言的语音、词汇、语法和语义的统计特征。从其功能看,统计语言学可分为描述统计与推断统计:描述统计的作用是对数据进行整理、归纳和总结,压缩数据,把握其一般性的特征和全貌;推断统计则是根据描述统计提供的结果,进一步对有关联系加以推断。
“统计语言学可用来发现语言学内在规律(词频与词排序之间的关系)、常用词和非常用词、词语搭配、短语获取、语言习得、语域变异以及作品风格分析等领域。”可以看到,统计语言学的研究领域广泛,但其中最主要、最熟稔的实际应用,当属通过语言单位的出现频率及作家的用词频率、词长分布和句长分布,确定作家的写作风格。统计语言学进入文学研究领域后,还催生出了另一个学科,即文艺风格学,一种应用现代语言学成果和技术来分析研究文学作品的边缘学科。如苏联学者用该方法研究赫尔岑、屠格涅夫的语言风格,国内也有人用这种方法研究巴金、曹禺、老舍等人的语言风格。
二、统计语言学与语言风格研究
黎运汉在《汉语风格学》中指出:“语言表现风格是综合运用风格手段的结果,从调音、遣词、择句到设格、谋篇等的风格手段,综合地反映在一篇文章、一部作品,或一种语体,或一个作家的作品,或一个时代的作家的作品,或一个民族的作家的作品里,这就从成了他们各自的表现风格。”换言之,语言风格的差异,正是由于作者使用特定语言单位的频率不同而造成的。于是,通过对语言结构特征的分析,我们可以比较直观地感受到不同文体与不同作者的风格,得出不同作者语言风格的同一性或區别性特征,而不仅仅是通过一系列描述型的论述,阐述文体或者语言风格问的差异。统计语言学的诞生,使语言单位的出现频率和分布数据变得重要,成为一种彰显作家语言风格的数学特征。
运用统计语言学判定作家风格的数学特征,其具体过程是:选取两位作家的公认代表作品作为语料样本,首先对样本进行分词处理,以文本为基本单位计算各类语言要素在文本中所占的频率和百分比,根据两个样本的平均值,比较语言要素分布是否具有差异。一般而言,为了测试数学统计特征是否能够有效辨别不同作家语言风格,还可以选用一个作家的其他作品为语料样本,计算该样本与统计所用语料样本的相关性。
鉴于其在判定作家风格方面的显著功效,统计语言学也被成功地运用到“作者考证”这个充满争议的研究领域中。在通过分析匿名文章的写作风格进而判定其真正作者方面,统计语言学也展现出了非常好的应用效果。以往,当某本名著的作者产生争议时,我们只能够凭借经验、历史文献和作家生平记录来进行考证。如今有了统计语言学,我们可以通过严谨的数据分析,提出更有说服力的证据。
三、实际应用案例
(一)《静静的顿河》的作者纠纷案
统计语言学最著名的实际应用,就是成功破解了文学史上关于《静静的顿河》的作者纠纷案。
《静静的顿河》在苏联文学史上占有较高的地位。此书全景式地描写了俄国内战时期顿河流域的社会景观,甚至有人将其与《战争与和平》等名著相提并论。然而自从《静静的顿河》第一册出版,就饱受剽窃的质疑。原因是作者肖洛霍夫少年参军,仅仅接受了几年正规教育,青年时期就能写出如此高水准的长篇小说,实在让文学界人士难以信服。更令人疑惑的是,肖洛霍夫本人生前对于自己剽窃的指控一直未曾公开表态。直到1999年,《静静的顿河》手稿被找到,经鉴定,有605页手稿是肖霍洛夫的笔迹,还有285页是肖洛霍夫的家人代为誊写的。但随即有人提出反对意见,声称该手稿其实是对克留柯夫原稿的抄写,并不能消除肖霍洛夫剽窃的嫌疑。于是,《静静的顿河》一书真正作者的争议,伴随着各种各样的谣言和似真似假的匿名诽谤,众说纷纭,真相始终扑朔迷离。学者们做出的各种学术考证,也始终难以让读者们普遍接受,更不用说使学界信服。
挪威奥斯陆大学的前苏联文学教授盖尔克其萨对肖洛霍夫、克留柯夫其他代表作品和《静静的顿河》分别采样,对三部作品的平均句长、句长分档、不同词类及其在句中的顺序、某些词汇特点、词频等进行了统计和分析,整理、归纳总结这些数据后,得出了令人信服的结论。为了更好地对比,盖尔克其萨把《静静的顿河》、肖洛霍夫的其他代表作品及克留柯夫的代表作品分成了三组,逐一研究统计:
首先研究的是一部作品中不同的词汇量与总词汇量的百分比,三组的数据分别为64.6%、65.5%和58.9%。其中克留科夫的作品的百分比明显低于肖霍洛夫的作品和《静静的顿河》。因此可以推断,克留柯夫的作品具有重复使用相同词汇的特点。
其次研究的是词汇分布频率,选取20个俄文中常见的词汇,比较这些词汇占作品中的全部词汇的百分比,三组的数据分别为23.3%、22.8%、26.2%,明显可以看出肖霍洛夫的作品与《静静的顿河》更为接近。
最后研究的是作品中出现过一次的词汇所占的百分比,三组的数据分别为81.9%、80.9%和76.9%。克留柯夫的作品仍然与另外两部表现出较大的差异
研究表明,所有参数都存在一致的趋势,但克留柯夫作品的与《静静的顿河》之间,存在着显著的统计差异。《静静的顿河》的语言风格与肖洛霍夫作品的语言风格几乎完全一致,与克留柯夫的作品语言风格却存在较大差异,这就令人信服地证明了《静静的顿河》的真正作者。由此可见,统计语言学的介入,使苏联文学界的这宗多年悬而未决的疑案真相得以明晰。
(二)《红楼梦》后四十回作者归属案
在中国,作为四大名著之一的《红楼梦》自问世以来就有很多悬而未决的问题,尤其是关于《红楼梦》是否出于一人之手的争论。从前,普遍的说法是:《红楼梦》的前八十回是曹雪芹所作,后四十回系时代稍后的高鹗所作;或者认为前八十回与后四十回不是同一人所作;再者便是坚持认为前八十回、后四十回均为曹雪芹一人所作。可以看到,问题的焦点聚集在后四十回的作者归属问题上。自清代以来,做“红学”研究的学者们对这一问题虽历经多方考证,仍然是莫衷一是、众说纷纭。
然而,在统计学进入文学研究领域,统计语言学的研究成果被引入红学研究之后,这一结论又面临着新的挑战。1981年,美国威斯康星大学的讲师陈炳藻发表的论文《从词汇上的统计论<红楼梦>的作者问题》中,通过对重要关键词的词频统计与分析得出后四十回仍为曹雪芹所写的结论。陈炳藻同时还另选了《儿女英雄传》作为对照组进行比较研究,具体方法是从每组里任选八万字作为样本,从各样本中挑出名词、动词、形容词、副词、虚词共五类,运用统计学方法算出各组之间用词的相关程度。陈炳藻的分析结果是:《红楼梦》前八十回与后四十回所用词汇的相关程度远远超过《红楼梦》与《兒女英雄传》所用词汇的相关程度,根据上述描写统计结果,推断出前八十回与后四十回均为曹雪芹一人所作这一结论。
与陈炳藻的分析不同,1987年陈大康在《从数理语言学看后四十回的作者》一文中,同样运用统计学相关原理,将《红楼梦》一百二十回分成三组,每组四十回,并统计了其中所含字、词、句等88个项目,“用斯米尔诺夫总体分布检验法得到前八十回与后四十回作者不同的结论”。陈大康发现前两组在字词选用、字词特征及句式规律上都表现出了惊人的相似性,而后四十回则迥异,由此得出后四十回非曹雪芹所作的结论。
张卫东、刘丽川通过统计《红楼梦》中230个非常用字尤其是4个粗话脏词和3个异体字的使用情况,以及每回结尾的差异,发现前八十回与后四十回有极大的差异,由此认为该小说并非由一人完成。
以上都是运用统计语言学的方法来解决语言学问题的实例。在语言陈述也无能为力的情况下,通过描述统计数据对数据进行归纳总结,有力地证明假设,或根据统计提供的结果推断出科学的结论,这正是统计语言学的魅力所在。
四、实际应用中出现的差异及原因分析
在运用统计语言学解决问题时,要求必须针对实验的性质特征选择合适的检验方法,同时在检验开始前要尽量找出所有的变量,尽量控制除自变量外的其他影响因素,合理操作实验,以避免检验结果不准确的情况发生。在这过程中,如果忽略了其中的任何一条,都可能引起操作结果的差异。
除了上述注意事项,一些其他的潜在因素也会影响推断统计的精确度,甚至有时会得出迥异的结论。例如上述关于《红楼梦》是否出于一人之手的争论,历次分析同样是采用了统计学的方法,却得出了截然相反的结论。结合两书及作者情况的不同,笔者认为得出截然相反结论的原因如下:
1.文学作品中的语言虽然经过作者的刻意经营,是对自然语言的变形,但并不是无限度地扭曲,其用词脱离不了作品内容。《儿女英雄传》作为《红楼梦》文本的参照对象,其对比结果是否先天存在偏差,仍然有待商榷。《儿女英雄传》主要表达女主人公的豪侠仗义并辅以爱情描述,《红楼梦》以贾宝玉、林黛玉的爱情悲剧为主线并辅以封建社会的衰败阐述。单纯从故事内容来讲,两书表达的主题不同,在叙述描写时选词自然也应有所不同,其用词造句的差异是不言而喻的。《儿女英雄传》中的人物以市井民间人士为主,相应的市井俚语也会多一些。言谈用语诙谐活泼、俏皮有趣。《红楼梦》中的人物以贵族门第人士为主,言谈用语规矩略刻板一些,对文言虚词的使用也会相应多一些。可以推断,两书所用词汇的相关程度存在较大差异,与其内容的不同有一定的关系。
2.《儿女英雄传》全书采用评话形式,《红楼梦》是白话文著作。龚千炎在《<儿女英雄传>是<红楼梦>通向现代北京话的中途站》中指出:“《儿女英雄传》反映的基本是19世纪中叶的北京话,《红楼梦》反映的基本是18世纪中叶的北京话,从北京话的近期历史看,《儿女英雄传》是《红楼梦》通向现代北京话的中途站。”汉语发展到近代,特别是白话文的进一步普及,对两书的选词用句有着必然的影响。正是因为《儿女英雄传》的语法上承《红楼梦》,下探现代北京话,具有许多过渡期的特点,从而导致了两书的所用词汇相关程度呈现较大差异。
3.《儿女英雄传》的作者文康,与《红楼梦》的作者曹雪芹并非同一人,语言风格自然不会相近。文康与曹雪芹同为“八旗子弟”,两篇作品都不自觉流露出他们的满族意识,比如尊崇女性、注重礼节以及对满族兴衰和满族命运的关注等等。但是,他们的人生境况虽然相似,文康却不具备曹雪芹那种人文关怀、审美情思和“举世皆浊我独清”的高洁性情,而更近似于一个屈服于封建“礼”的束缚之下的世俗之人,两人的语言风格也必然存在较大不同。
综上,由于《儿女英雄传》与《红楼梦》除了名词、动词、形容词、副词、虚词等可控变量以外,还存在其他各种潜在的影响因素,导致在进行对比研究时得出了具有差异的结果。“从目前来看,学界的研究多是从某些方面对《红楼梦》尤其是后四十回的作者归属进行判定。”笔者认为,若要解决这一悬案,唯有系统深入地对《红楼梦》整体的语言风格进行研究,再对前八十回与后四十回的进行比较,得出来的结果方能令人信服。
五、在实际应用中应注意的问题
统计语言学进入文学研究领域后如鱼得水,特别是在作家语言风格的研究中大显身手。但是基于科学研究的严谨性,我们也必须看到在统计语言学应用过程中必须注意的问题。
(一)选择具有相似语言环境的语料
统计语言学的结论之所以被认为是科学的,正是由于其依赖于数据的横向分析和纵向分析。但是,分析研究文学作品语言风格,不能只是单方面地从字、词、词类等层面进行,还应考虑句法、语义、语篇等层面的问题。特别是考虑到时代不同、地域不同等外部因素对语言的影响,极易导致语言学上的定性定量分析结果出现偏差,因此,必须注意的一点是,在选取语料时应注意选择具有相似语言环境的语料。
(二)注意避开文学语言的形象思维影响
“语言具有奇妙的结构,数学具有逻辑之美。”相较于人文科学容易导致的“自我中心性错误”和“内省性错误”,自然科学尤其是数理研究具有明显的准确性、客观性优势。统计语言学如同拆分机器一般,将文学作品中的语句逐一拆分为最小单位的零件,然后进行分类归纳整理,分析每个语言单位所发挥的作用,最終使整体研究结果无限接近于准确。
但是,数学统计方法还不能从根本上代替语言学原有的研究手段,毕竟文学作品有其不能忽视的特点。文学是用形象思维的方法创造的,而统计语言学讲求的是逻辑思维,使两者有着不可分割的联系,却也有着截然不同的性质。文学语言往往停留在理解的层次,其风格是看不见摸不着的,所以诉诸于语言。在统计语言学中,不管是词类划分、语音分类,还是语法公式的总结等等,都是在逻辑思维下的结果,最后得出的结论都是有形的、具体的语言材料。文学语言虽然能够适用从自然语言角度来的分析方法,但这个过程也是容易因形象思维和逻辑思维的不同引起差异,这是我们必须要注意的。要得到准确的研究结果,必须做好研究的前期准备,并在操作过程中严格控制各种变量,以科学的思想指导研究。
(三)统计语言学的应用不能无的放矢
统计语言学的出现,使我们文学研究的方法从定性走向定量,得以具体地描述作家语言风格。值得注意的是,统计语言学法在应用时一定要有个明确的目的,至少应该有一个基于理论的推断或猜想,比如判定不同作者之间风格的不同,或者对未知作者的假设与猜想。有了假设和猜想,然后再用各式各样的语言结构统计分析去证明。切忌为了统计而统计,导致统计语言学的滥用或者做了无用功。
六、结语
统计语言学在比较不同作者文学作品的风格特征,识别同一作者的不同写作风格,推测文学作品的来源,判定匿名文学作品的作者,辨别文学作品真伪等多个方面都得到了广泛而深入的运用。通过以上案例可以看到,基于语料库和数理统计方法,通过分析作家的用词频率、词长分布和句长分布等数据,确定作家的语言结构分布特征(即统计语言学视角下的语言风格),已经成为对语言风格进行描写的重要方法。多年来,统计语言学用于作者判定的一系列实验,破解了许多未知作者的疑案,充分证明了这种方法是可行可信的。更重要的是,基于统计语言学研究成果得出的对比分析结果,都可以从语言学的角度进行分析和解释,而不是纸上谈兵。
统计语言学的实际应用不止于此,有待于继续深入研究。“标注体系和工具对统计结果的影响,语言风格在字、词、句等语言结构和语法、语义、语用层面的全面计量描写等,都是今后值得继续和深入研究的课题。”本文仅作管中窥豹之用,以期能够让统计语言学在文学领域的研究引起更多重视,并能引入更多的科学统计方法做这方面的研究,从而使未来统计语言学的方法与成果更加精准,甚至用途也能够进一步拓展。
作者简介:万晓雯,女,济南市历下区燕山学校教师。