APP下载

妙用统计探案

2018-06-14林革

科学24小时 2018年6期
关键词:柯林斯朱莉红楼梦

林革

“朱莉叶斯”究竟是谁

200多年前,英国曾经发生过一件轰动一时的事情——当时的英国有份杂志连续刊登了一组以信函形式撰写的,署名为“朱莉叶斯”的文章,作者对英国国王乔治三世周围的一些大臣和贵族进行了猛烈的抨击,这在全国上下掀起了轩然大波。那些挨骂遭曝光的王公贵族气急败坏,叫嚣着要找这个胆大包天的人算帐。但是这个作者很懂得保护自己,“朱莉叶斯”只不过是他杜撰的笔名而已。作者究竟是何方神圣、姓甚名谁、职业背景如何等信息被隐藏得严严实实,无从知晓,就连杂志社对这位神秘人物也是只见其文不见其人。所以那些丢尽颜面的“上层人士”调查了很久也找不到任何线索,除了无可奈何地跳脚骂街也只能不了了之,于是这事也成了一桩悬案。

更耐人寻味的是,这件事尘封了若干年后,又被有关人士重新关注,这组文章被有心人专门收集整理,并以《朱莉葉斯信函》为题正式出版。当人们冷静理智地重读这些时过境迁的文章时,许多人在深刻的反思中意识到朱莉叶斯作品的文学价值,专业人士甚至认为它们在英国文学史上应该占有一席之地。不过,首先要明确作者究竟是谁啊。为了解开这个谜团,许多人展开了大量的调查,并获得了一些线索,缩小了排查范围。比如在19世纪末,大家将注意力集中到一个叫弗朗西斯的爵士身上,认为他很可能就是那个“朱莉叶斯”,但仍没有确凿的、令人信服的证据来证明文章出自他手。这的确是件令人头疼的事!

幸好,20世纪60年代,瑞士的文史专家爱尔加哈德开始用统计学的方法研究这个问题。他仔细分析研究了《朱莉叶斯信函》中500个词语和50组同义词的使用规律,然后比对了200多年前的300多个作家的写作习惯,发现只有弗朗西斯与《朱莉叶斯信函》的作者用词习惯相符。在数学工具面前,一切真相大白,神秘的批评家弗朗西斯终于浮出水面!

他们真是抢劫犯吗

这是一个真实的故事,发生在美国加利福尼亚州的圣彼德罗市的一个偏僻小胡同里,一位老太太遭强盗抢劫。当时,案发现场有个目击者,他看见从事发地点窜出一个梳着马尾辫的白人女子,跳上一辆等候着的黄色汽车。而开车的是一个留着一把大胡子的黑人男子,两人迅速逃之夭夭。那么,抢劫老太太的两名凶犯究竟是谁?侦查人员在侦察过程中查到了有作案嫌疑的柯林斯夫妇。这对夫妇中,柯林斯是个留着大胡子的黑人,他的老婆是个白人,平时就喜欢梳马尾辫。这对夫妇从外貌上完全符合目击者的描述,但柯林斯夫妇却矢口否认自己与此案有关。由于侦查人员缺乏更有力的证据,法院聘请了某大学的一位著名概率论专家来作鉴定。

这位数学家在法庭上侃侃而谈,他根据自己擅长的概率理论推测道:在圣彼德罗市大街上,遇到黄色汽车占遇到各色汽车的可能性约为1/10;看到车内同时坐着一个黑人男性和一个白人女性的可能性约为1/1000;如果再把“马尾辫”和“一把大胡子”的因素考虑进去,那么同时满足目击者叙述特征的可能性约为1/12000000。也就是说,当时加利福尼亚州总人口1200万居民中约有一对;换句话说,基本可以肯定柯林斯夫妇就是抢劫犯。当时的陪审员们被这位鉴定人的“精确”推理慑服了,于是大家一致认定两位被告人有罪,柯林斯夫妇因此身陷囹圄。不过故事并未结束,他们入狱3年了,仍然一直坚决否认,从未停止过上诉。这件事终于引起了社会舆论的关注,也促使最高法院作出重新审理的决定。

为了使案件重审更具科学性,最高法院委派自身就是概率论行家的法官雷蒙·沙利文主持重审工作。他经过认真计算,得出的结论是:还存在着其他的可能性,这种可能性就是加利福尼亚州还有另外一对夫妇符合目击者所说的这些特征。也就是说,原鉴定人的推断中存在着明显的漏洞和错误。故事的发展也完全证实了这一点,某一日,真正的抢劫犯落入法网,证实案犯确实另有其人,柯林斯夫妇被无罪释放。

《静静的顿河》的作者之争

世界文学名著《静静的顿河》是苏联作家肖洛霍夫所写,他因此荣获了1965年的诺贝尔文学奖。这部巨著从诞生之日起便注定了它具有巨大的影响力,因为单就围绕它的作者是谁,就像它获得诺贝尔文学奖一样,在苏联文学界引起极大的争议。

在20世纪20年代末,当小说第一、二部面世时,就有人提出它是肖洛霍夫的抄袭之作,原著的书名也是《静静的顿河》。1930年,肖洛霍夫曾在一封信中承认他知道那本书,不过那是一本关于1917年顿河流域的旅行札记,并非是一部长篇小说。1974年,流亡国外的学者索尔仁尼琴再次提出《静静的顿河》是肖洛霍夫剽窃的作品。其根据有二:一是作为一个学历低、资历浅的20来岁的青年,在当时是决不可能写出那样有广度和深度的鸿篇巨著的;二是全书的思想内容和写作技巧之间不平衡,体现出不是一人的创作风格,其中“真正有艺术价值”的部分,则是从一个名叫克鲁乌科夫的作家那里抄袭来的。肖洛霍夫只不过将已去世作家未出版的手稿重新改写了前两卷的5%和后两卷的30%,就改头换面地以他的名义发表了。尽管更多的苏联作家和评论界人士持反对意见,但一时疑云四起,众说纷纭,人们都期待得到客观公正的解释。

挪威奥斯陆大学的苏联文学教授盖尔·克其萨,用电子计算机对该文学作品进行了数理统计的分析研究,也就是根据某人经常使用的字词在文中出现的频率,就可以大致判断出这本书的风格,从而较为方便地推断出该书的作者。简而言之,这种方法就是利用各位作者写作特点上的差异,进行统计推理判断。克其萨教授与他的挪威、瑞典同事,把肖洛霍夫的无可争议的作品作为第一组,《静静的顿河》作为第二组,克鲁乌科夫的作品作为第三组,进行了统计分析:抽取样品、编制程序、测定句子长度、计算词类的分布与组合情况。他们主要研究了三个重要参数。第一个参数是一部作品中不同的词汇量与总词汇量的百分比统计,结果表明:第一组为65.5%,第二组为64.6%,两者非常接近。而第三组却只有58.9%,明显低于前两个数据。克鲁乌科夫更喜欢经常重复使用同样的词汇。第二个参数是词汇分布频率,学者们选取了20个俄文中常见的词汇,来研究比较它们占作品中的全部词汇的百分比,分别是第一组22.8%,第二组23.3%,第三组26.2%,由此可知,第一组与第二组比较接近。最后一个参数是作品中出现过一次的词汇所占的百分比,对此肖洛霍夫的作品为80.9%,《静静的顿河》为81.9%,克鲁乌科夫的作品则只有76.9%。

研究表明,前两组的所有参数都存在一致的趋势,而克鲁乌科夫的作品与《静静的顿河》之间,存在着显著的统计学差异。由此可见,这部杰作的真正作者是肖洛霍夫。这个研究成果发表在世界知名的权威杂志《计算机与人文科学》上,轰动一时,由此肖洛霍夫的作者身份也基本盖棺定论。

《红楼梦》的作者有几个

《红楼梦》,又称《石头记》,是我国四大古典名著之一。它描写了一个封建贵族大家庭从繁荣走向衰败的故事,是18世纪中國封建社会的真实缩影和写照。《红楼梦》这本鸿篇巨作在中国文学史上占有重要的地位,被誉为中国最具文学成就,也最具影响的古典小说,是中国长篇小说创作的巅峰之作。

由于种种历史原因,这本杰作的最终著作归属权一直没有得到认定。长期以来,人们普遍认为《红楼梦》的前80回是由曹雪芹所著(这是得到共识的部分),而后40回是由高鹗续写完成(也是争议所在)。但很多红学专家对此抱有不同看法,并且就此问题争论了数百年,可谓“公说公有理,婆说婆有理”,谁也没能说服谁,难以形成一个定论。而随着时间的推移和计算机技术的发展,数据统计逐步进入文学领域,于是大多数人认可的结论遭到了强有力的挑战。

1981年,首届国际《红楼梦》研讨会在美国召开,美国威斯康星大学讲师陈炳藻独树一帜,提出了一个惊人的发现:剔除人为的情感因素,根据逻辑严密、计算准确的计算机判断,《红楼梦》的120回都是由曹雪芹一个人完成的。原来陈炳藻是从字、词出现频率入手,他把曹雪芹常用的句式、词语和搭配方法等,作为样本输入到计算机里,通过计算机把《红楼梦》的前80回和后40回进行统计、处理、分析、对比,发现它们的联系程度高达80%。他由此断定,《红楼梦》前后120回均系曹雪芹所作。

应该说,他的这个推断方法是相对可靠的,推断结论也具有一定依据。因为每个作家的经历不同,文风不同,使用语言的习惯也就不同。语体风格是人们在语言文字表达活动中的个人言语特征,是人格在语言文字活动中的某种体现。这种风格会在一定程序上通过数量特征体现出来。例如,句长和词长可以代表作者遣词造句的风格。此外,字、词在作品中出现的频率也是个人风格的体现,而两个作者在这些方面都极端相似的可能性显然不是很大。陈炳藻正是利用计算机分别计算前后两部分作品的平均词长和平均句长,对两部分作品使用的字、词、句的频率进行统计研究,最终根据关联度确定这两部分是一个作者的统一风格。通俗地说,通过统计研究认定,《红楼梦》的作者只有一个,那就是曹雪芹。

后来,我国学者李贤平运用了47个虚字在《红楼梦》的每一回中出现的频率,通过计算距离等各种统计方法,综合评定这部书各回写作风格的接近程度,结果发现前后统一的测量度令人信服,所以他推断《红楼梦》出自曹雪芹一人之手。这从科学的手段证实了一些红学家们的论断,得到了越来越多的红学人士的认同,这是中国文学史上的争议首次使用数学方法得到了排除的事例。这一研究成果于1987年发表后,在红学论坛上引起轰动,并得到中外专家的高度好评。

目前,因为利用计算机和统计学原理进行各领域的数据处理具有研究的精细性、思路的拓展性、结论的合理性特点,所以引起越来越多的专业研究人员的重视。

猜你喜欢

柯林斯朱莉红楼梦
细品《红楼梦》中的养生茶
失败也是收获
假如《红楼梦》也有朋友圈……
一颗水晶球
续红楼梦
良心手术
澳大利亚“柯林斯”级潜艇将延长服役至2030年
铁母鸡
NEW WORDS
杀人真人秀