APP下载

计算机民俗学研究:百年学术论文主题地图绘制

2016-10-28约翰洛顿乔纳森古德温著乔英斐扬译

文化遗产 2016年5期
关键词:民俗学语料库民俗

[美]约翰·洛顿 乔纳森·古德温著  乔英斐 李 扬译



计算机民俗学研究:百年学术论文主题地图绘制

[美]约翰·洛顿乔纳森·古德温著乔英斐李扬译

像大部分学者一样,民俗学者通过两方面的结合来了解自己的学科历史,一方面是自身的阅读,另一方面是源自研究型训练和专业互动的共识。民俗学科历史被快捷梳理,高度偶然随机的过程逐渐被普遍认可为历史的必然性。本文是一个检验计算机方法在思想史研究中应用大型项目的初步报告,我们对运用主题建模方式去理解某一领域中的主题及范式的兴衰进行了探究。我们使用期刊数据库的研究数据应用程序接口访问了源自三份民俗研究期刊(美国民俗学刊,西部民俗,民俗研究)的6778篇文章的内容,运用“潜在狄利克雷分布”(Latent Dirichlet Allocation)主题建模形式,描述了125年间的学术作品的50种不同主题。其中最有趣的就是在我们学科中著名的“转向表演研究”现象。

AFS民族志词典:思想史计算机分析民俗与民众生活期刊杂志

期刊百年索引在1988年年底发表时,确实是一部鸿篇巨制。它共有500页,据编辑统计,是由一个接近20人的团队进行了大量的工作才完成的。这份期刊及其所在的大学为其提供了资助,另外,学会又为其印刷提供了资金,在这些资助支持下,这部索引得以圆满完成。但最重要的是,当时的期刊编辑在前言中强调,这部索引是民俗学家和计算机程序员共同合作的产物,它建成了一个稳健的数据库基础系统。*编辑布鲁斯·杰克逊(Bruce Jackson)指出,为该索引提供资金支持的有L.J.和玛丽·C·斯卡格斯(Mary C. Skaggs)基金,约翰·W.(John W.)和克拉拉·C·希金斯(Clara C. Higgins)基金,以及纽约州立大学水牛城分校艺术与人文学院。另外,美国民俗学会执行委员会也为该索引出版过程中的印刷和邮寄费用提供了支持(杰克逊 1988:1)。

这部索引最终文件的大小高达50M,这在当时是非常惊人的数据,布鲁斯·杰克逊承认,这个项目“甚至动用了IBM 3081大型机”(1988:1)。译码的数据输入和校对工作由不同的索引编撰者完成,最终这部索引辞典开头以“该期刊第一个百年中所发表的9655篇论文、评论、笔记、讣告及公告”(杰克逊、塔夫脱,1988:5)开始;最后以三份目录结束,依次是作者目录、主题目录、标题目录。当一个民俗学家将这部索引拿到手上时,他不仅拿到了打开这个知识领域大门的钥匙,同时仅仅通过浏览他就能真正地感受到这一领域已发展到哪里以及如何发展到此的。所以,这部索引既是一部历史,也是一幅地图。

在一段时间内,这部索引成为查找期刊中各类民俗学学术研究成果的便捷参考工具和方法。但是,索引的最后几页预示了其即将到来的消亡:此期刊的最后一期第101期,不仅包含索引,还有整卷内容的目录。目录第一页的底部是一份以“《美国民俗学刊》(JAF)开通网络版”为标题的公告。这个简单的公告成为出版业转变的开始,软硬件开发者与使用者之间的动态关系带来了计算机的发展,这就为出版业运用各种信息技术进行出版业务提供了可能性。二十五年以后,也就是我正在写作这篇文章的时候,我们大部分人都已经熟悉了使用期刊数据库查询期刊的方式,并且有可能花费更多的时间在这上面,而非“百年索引”的纸版工具书上。原本用于编写索引辞典的计算机技术已开始用于开发替代这部索引的搜索工具。同时我们也承认,尽管期刊数据库界面具有无可比拟的流畅性,但或许正是因为此而使得它不能像使用索引辞典那样便捷地进行内容浏览。此外,索引的固定属性决定了它的使用会受到出版时编辑所选术语的限制。这些术语以及索引本身,在某种程度上与收入索引的论文一样是历史的产物。

让我们暂时停留在索引辞典上,想象一下自己走进了图书馆查阅特定的某一期期刊。这时我们的指尖便会从上到下滑过期刊的书脊一一查找,直到我们找到想要的那一本,然后从书架上拿下来,快速翻到要查阅的那一页。我们承认,这样的想象或许是有些过时了。大部分人都已太过习惯于缩小本领域甚至是任何领域的视野,仅仅通过在电脑屏幕上的搜索框里输入几个单词、术语或名称进行查找,所以我们很少为过去120年间所积累下来的浩繁卷帙所累。然而,当我们已经习惯于使用精确度从本学科的历史记录中查找材料时,我们就趋向于不再从整体上观照材料。因此,当我们站在图书馆里时,我们会再一次感到震惊。

当我们要从书库中查找一本期刊的时候,一定会去回顾更大整体中的许多期刊,这都是与我们当前工作有关的。如果我们走近去细读特定的文章,那么当我们要退后一步的时候会怎样?我们可以远观么?在人文学科中,我们既要细读也要远观的观点日益强化。文学家佛朗哥·莫雷蒂(Franco Moretti)指出:“远观是获取知识的一个条件,它使得你能够注意到比文章本身更大或更小的部分,如方法、主题、修辞,抑或是体裁、系统”(莫雷蒂,2000:57)。这种思考方法当然是民俗学家非常熟悉的。在20世纪,他们在索引编撰工作中所付出的努力,创制了有关故事类型和主题索引方面的精密类型系统。

在某种程度上,类型学知识创造了前一个时代极为重要的索引,我们建议将其推向另一个重要时期,尝试利用它编撰客观的本学科思想史。我们建议民俗学家像其他领域的学者一样通过两方面的结合来了解自己的学科历史,一方面是自身的阅读,另一方面是源自研究型训练和专业互动的共识。作为一种有效的口头交流形式,民俗学科历史被快捷梳理,高度偶然随机的过程逐渐被普遍认可为历史的必然性。

我们搜遍125年间的民俗学学术研究成果的目的,只是为了绘制出其主题的历史转换地图。我们只选用了论文作为研究对象,并深信其最适合呈现我们所认为的将在这项工作中呈现出来的观念图形(ideational topography)。为了充分利用各种计算机方法,我们选用了三份期刊用于研究,如下:《美国民俗学刊》(JAF)、《民俗研究》(JFR)(包括其前身《民俗研究所期刊》)、《西部民俗》(WF,包括《加利福尼亚民俗季刊》)。

虽然我们会在本文的下一部分进行详细讨论,但我们仍愿意预先指出被检测文章的总数。占大多数的人文学科论文共有6778篇,这些论文的总字数维持在用于计算机科学主题建模分析的各种语料库的大小范围之内。这个数据能够保证你找到方法去获取一种模型,用于预见不能立刻识别的趋势。你仅仅翻开一份期刊的第一期第一页,就会产生某种曲解,随着阅读更多其他的期刊,辨识其趋势就成为可能,甚至会出现令人满意的结果。

我们承认首先通过统计计算的方式,用扎实的学科史来造福于民俗学研究的并非我们。吉尔·特里·鲁迪(Jill Terry Rudy)和西蒙·布朗纳(Simon Bronner)都在使得我们正在从事的探索工作成为可能上发挥了重要作用。有趣的是,在我们看来,他们最近的研究都表现出对“转向表演”的兴趣。尽管他们现在思考的原因和方式已经发生了转变,但是他们都利用了计算机分析本身总结出来的方式,其数据则取自更大的数据库:鲁迪从社会学引文索引和人文学科引文索引中引用信息;而布朗纳则从期刊数据库中引用信息。鲁迪十年前曾于此期刊发表过的研究成果就源自于她对《作为表演的口头艺术》的兴趣,她论述了“在成果和接受两方面,这篇文章如何既符合又偏离了民俗学研究的历史轨道”(鲁迪,2002:6)。同我们一样,她的研究兴趣在于个人的和观念的关系网相互交叉、相互塑造的方式。*的确,大量的研究都在通过使用“范围(domain)、个人(individual)、领域(field)”的DIFI体系来建立创新文化计算模型,民俗研究紧随其步伐,长期以来民俗学家一直都聚焦于亨利·格拉斯(Henry Glassie)所说的“由人的社会、思想所构成的文化”。本领域早期的研究概况,参见契克森特米哈依(Csikszentmihalyi)、费尔德曼(Feldman)、加德纳(Gardner)合作的文章(1994)。布朗纳的研究力图证明,民俗学转向表演的过程中伴随着后结构主义用“诠释”(interpretation)取代早期强调的“解释”(explanation)的转变,这两个词差别很大。为了证实他的研究,除了进行细读以外,他还强调了这些文章仅仅是民俗学研究文集更大趋向的指针而已。他在期刊数据库中检索了这两个词的使用,指出:

后结构主义的转变与用“诠释”取代早期的“解释”相互联系,而且用数据来证实这种观点是可行的。通过检索期刊数据库,我发现,在1888年至1946年期间,民俗学期刊中对“诠释”的使用次数只有284次;而在时间段1947年至2005年期间,其使用次数则为1094次,近乎原来的四倍之多。实际上,早期“解释”一词的使用次数为388次,占据了主要地位;但是后期“诠释”的使用次数增加,比“解释”多出321次。(布朗纳,2006:415)

鲁迪和布朗纳均要求其读者,至少能将民俗学研究史料的一部分,看作是有其自身模式和关系的、可资验证作的实体(包括一个网络、一部文集等),它们并不受限于传统的文本与其作者及历史的联系。

借助鲁迪和布朗纳的启发,我们痴迷于将美国民俗学研究论文作为研究客体本身。我们想知道,再加上一个二十五年和两份期刊,这部百年索引会变成什么样?我们将如何去理解它的扩展形式?我们以索引作品中可能被翻阅次数最多的主题索引作为起点。毕竟,它既是我们大部分人的研究起点,也是我们真正需要推进的部分。我们意识到,虽然我们都乐于看到自己的名字出现在出版物中,但是真正驱动我们并使我们完成研究的途径,是吸引其他学者参与到就特定主题进行的讨论。

因此,我们决定聚焦于主题,不过以下将要描述的特定主题是许多人所不熟悉的。我们所要探究的主题不是由学科专家决定的,而是从文本中抽取出来的,也就是说文本中的文字决定和影响着主题。我们运用了名为“潜在狄利克雷分布”的分析模型对主题进行分析。我们认为它非常适用于表演研究体系内的民俗学研究,其实质是通过语言进行的社会建构。心理学家托马斯·兰道尔(Thomas Landauer)将其描述为一种非常近似的语言学方法——潜在语义分析(LSA),具体如下:

其前提很简单。大量(并非全部)话语的含义取决于构成它的词汇的含义,大量(并非全部)词汇的含义又取决于其存在的语境。“潜在语义分析”(LSA)提供了两种模型:一种是大量(并非全部)相对稳定、共享、主要的词汇含义是如何从语境中衍生出来的,另一种是大量(并非全部)话语含义是如何由其构成词汇确定的。

主题建模使“以贯穿文章始终的主题为依据的文献探究”成为可能(布莱,2012:77)。我们的兴趣在于探索民俗学研究的主题是如何在我们能够搜集到的特定文本中体现的(以可行的形式——稍后详述)。如果我们仅以文本本身为起点,用一系列用于描述词汇与文本关系的计算机算法来读取文本或者有人更愿意将文本输入这些算法,那么我们会发现并命名什么样的常见模型?同样,这种探究活动能挖掘出尚未发现的——甚至隐含的——值得深入思考的动态或趋势吗?

本文笔者,一位是民俗学家,一位是文学学者,我们的合作就是在强调这个项目的探索性。我们都寄希望于计算机方法(或定量法)。此项合作源自于我们共同的兴趣,即对信息与工具如何相互作用的探索。我们相信主题建模为我们提供了一种去理解学科话语属性的方法。但这不是唯一的方法,我们将在下文详述其他我们感兴趣的方法。很显然,学术论文也不是学科话语的唯一形式,但我们认为,在初次探索中,更应使用现成的学术论文以及顺手的、最具保障的工具。

这里要提前强调一下,我们认为用于学科历史研究的定量法,例如此法形成的概述,为学者们提供了理解和质疑标准学科叙述的新方法。至于民俗学研究,主题建模揭示出了其稳固的模型,即在20世纪90年代与表演相关的名词越来越重要,这与一般学科历史是一致的。这种一致性标志着此法能够揭示不为人知的学科变化或尚未确认的学科转变的可能性。虽然这些方法依赖于复杂的数据,但是其常具暗示性的结果却与定性评估、理论背景进行了极好的对接。

学者常常质疑关于学科变化的传统理解——与复杂的原始文献相比较,学科史的结论未免失之于简单。如果这种介入的力度足够大,其本身就会导致新的学科转向。我们认为民俗学中的表演研究转向适合作为检验的对象。我们拟来对学科转向进行重新评估认定——使用计算机来进行。

主题建模

我们当前项目的作用可以用远观来比喻,类似的文库尽可能地采用了所有有关期刊,但它正面临着一个确定的难题,即地图范围关系。格雷戈里·贝特森(Gregory Bateson)指出,问题不在于地图描述的精确性,而在于其结构与我们目标的可比性。最好的例子是伦敦地铁交通图,这份地图牺牲了地理的精确性以便标识沿线站点,即哪个站点和哪条路线相连,哪个站点设在哪个收费区内,总之尽可能使之容易理解。换句话说,它更加强调拓扑关系而非精确的地理位置。在伦敦乘坐过地铁的人都知道,有时候地图上站点之间的距离比实际距离远很多,因此去地下乘坐地铁会比在地面上步行花费更多时间。反之亦然,线路上站点之间整齐的间距,导致不了解情况的使用者认为地面上的距离会比看起来更短。凸面后视镜也是同样的道理,压缩就意味着某种程度的变形:目标必须是一种压缩,在应用情境中,使用者不难理解其变形。

这对我们来说非常重要,为了达到我们追求的压缩目标,并用一种可应用于所有被研究文本的方式来实现目标,我们找到了一种实现方法,这种方法聚焦于实际运用的语言,从具体开始,然后逐步趋向抽象观念。毕竟,我们的目标是判断已确定的抽象观念,如“转向表演”,在其本身的数据中是否为可辨识的。机器学习研究者及其它计算机科学研究者已研发出一种可从大量文本中推断语义的技术。各种各样的隐含语义分析方式,以那些著名的方法为例,它们在用各自的方式处理文本时同有三个基本假设:文本具有潜在语义结构(简称为“主题”);可以通过关注各种文本中同时出现的词汇来推断出其主题;词汇与主题相关,主题与文本相关。这些方法各自不同的数学体系使得它们得以相互区分。

为使方法背景的介绍尽可能简洁,我们将尽快转向我们选择的主题建模方法,这种方法已被证实在人文学科中的使用相当普遍,且因此而获得了令人瞩目的声望——所以出于求知的驱动,我们会将其试用于本领域一个常见语料库的分析,由此可以探究这一方法在其他研究领域的潜在效用。我们将通过对过去120年间发表在三份期刊上的近7000篇文章进行分析来探究民俗学思想史,用于这一探究活动的技术即著名的“潜在狄利克雷分布”(LDA)。“潜在”如上文所言是指该算法的筛选过程。“狄利克雷”(Dirichlet)是一位德国数学家的名字(来自于比利时家庭)。*布莱(Blei)指出,该算法的早期版本有一个比较乏味的名称“模型三”。大卫·布莱(David Blei)、安德鲁·Y· Ng(Andrew Y. Ng)及迈克尔·I·乔丹(Michael I. Jordan)在2002年首先介绍了这种算法。他们的论文《潜在狄利克雷分布》于次年发表(布莱、恩格、乔丹,2003)。“潜在狄利克雷分布”有关算法因而成为众多研究的主题。布莱写了一篇关于此算法的使用说明,他以一种非专业的方式解释了这种基本统计方法。在这篇文章里,布莱将“潜在狄利克雷分布”定义为“试图获取直观知识的统计模型,这种模型极易通过其生成过程加以描述,它通过虚构的随机过程假定了文档的呈现”(布莱,2011:2-3)。这一模型中的主体是通过分析整个文档集中的词汇分布而得出的。最初,它是根据狄利克雷分布的预先假设随机进行的。然后,随着文档的增多,算法也逐步改善主题分布情况。

要注意,“潜在狄利克雷分布”与上下文无关。它使用的是著名的“词包”法。也就是每一篇文档中的词汇出现频率会被测量。常见的词及与即将进行的研究语义关系不明确的词都会在使用算法之前被过滤掉。这个过程常常需要重复多次,以确定由光学字符识别错误生成的词及原来未被过滤掉的无用词汇。期刊数据库的研究数据列出了每个数据库的“词-词频”列表。“潜在狄利克雷分布”的算法会在加工之前将文档转化成“词-词频”矩阵。因为我们进行主题建模的工具——“马利特”(MALLET)需要自己将文档转化为矩阵,所以必须将“词-词频”表转化成一篇无序文档。但是这个过程并不会影响模型的运转。

比起这种算法能否模拟人类的概括能力,更重要的问题是,通过这种统计方法所概括出的主题是否能与读者通过阅读概括出的主题近似。例如,普通版本的“潜在狄利克雷分布”不会关注构成主题的名词随时间发生的变化。布莱和J.D.拉弗蒂(J. D. Lafferty)开发的名为“动态主题建模”的新算法则力图描述主题随着时间的推移产生的变化(布莱、拉弗蒂,2006)。但是普通“潜在狄利克雷分布”算法也可以追踪时序型语料库中主题分布的变化。从维基百科到《纽约时报》,这些语料库都已成功地运用“潜在狄利克雷分布”主题建模进行了分析。布莱的团队已使用期刊数据库中的期刊《科学》的数字化语料库进行了全面的实验,他们用动态主题建模的方法显示了主题随时间产生的变化,以及《美国政治学评论》网络浏览主题的变化。*《科学》浏览地址:http://topics.cs.princeton.edu/science/;《美国政治学评论》浏览地址:http://topics.cs.princeton.edu/pilisci-riview/。

如上所述,期刊数据库研究数据界面显然不会返回完整的论文文本,每个文本都会以一系列的双入口形式返回,包括文本使用的每一个词及其使用频次。由于“马利特”需要接收完整的文本而非“词-词频”(例如:the-345)列表,所以我们要设法使文本脱离两栏数据的形式。*“潜在狄利克雷分布”使用最广泛的工具就是马利特(MALLET)( http://mallet.cs.umass.edu/ ),其他工具也是可行的。我们会用一些简单的编码来表示第二栏中的词频数据,将原来的“词-词频”列表转化成符合马利特方法需要的新文档。下一步就是利用“马利特”将数据模型化。这个软件允许使用者指定某些可变因素,例如将要生成的主题数量。这个参数对于我们达成目标非常重要,因为“潜在狄利克雷分布”不能协助选择要适当的主题范围。太少了,不同主题会融合在一起;太多了,相关主题就过于分散,所以选择合理的数量是一个探索过程。最终,我们将50作为能够有效阐明语料库话语范围的数量。

为了证明我们的假设,即“潜在狄利克雷分布”可以揭示民俗学转向表演的隐含话语结构,我们从期刊数据库的研究数据中下载了一个语料库,其中包含发表于《美国民俗学刊》、《西部民俗》及其前身《加利福尼亚民俗季刊》、《民俗研究》(加上其续刊《民俗研究所期刊》)的所有文章。早期关于英国期刊《民俗学》的实验结果显示,英国民俗学研究指向学科实践,并未像美国那样强烈地受到转向表演研究的影响。另外需要注意,还有许多其他重要的民俗学期刊目前没有电子版,所以我们的分析结果自然会因受限于目前所拥有的资料而存在偏差。但是我们相信,目前我们所拥有的语料库足够大,对于学科转变的建模工作来说是具有代表性的。

“马利特”生成了一个列表,包含作为主题的名词及这些名词在整个语料库中所占的相对比例。其中的主题大多与我们所感兴趣的表演直接相关,如下:

表演 社会的 口头的 叙述 文本 观众 语境 语言 讲演 结构 话语仪式 表演(复数) 分析 风格 事件 戏剧 意义 事件

由以上内容可见“表演”(performance)和“表演”的复数(performances)作为各自独立的词同时出现了。语料库可以借助现有的软件工具按屈折变化形式归类或精简为词根形式,*我们使用皮东(Python)自然语言工具包(NLTK)的世界网界面对语料库进行了分类。NLTK是皮东(Python)库中的一个强大的工具包,可以对文本和语料库进行基本和高级语言计算。但将此模型用于按屈折变化形式归类的语料库中仍然会生成类似的主题:

文化的 表演 话语 实践 文本 研究 模式 社会的 作品 语境 文化 风格 权力 认同视角 身体 发布 经验 空间

重要的是“表演”(performance)也在其他主题中出现。例如,它赫然出现在节日主题中:

舞蹈 节日 马迪格拉嘉年华 舞者 节日 戏剧 日 跳舞 庆祝 服装 年 狂欢节 群体表演 习俗 队伍 事件 圣诞节 地方的

一个主题如此紧密关联,以至于我们怀疑,构成主题的参数未来的调整可能无法将这些主题归为一类:

社会的 集体 社区 表演 成员 事件 个人 仪式 行为 人们 角色 环境 关系 社会 传统的 结构 功能 观众 时代

那么我们就会将这些主题作为更大主题集合的一部分去谈论它们相互间的关系,更大的主题集合将在本文的下一部分被称为“表演”集群。

我们正在探索以主题建模为工具绘制一个领域的思想史地图,以上给出的词汇直接取自于“马利特”软件的输出内容,它是按顺序列出词汇的:靠左边的词汇与整个词群所反映的主题联系更密切。“潜在狄利克雷分布”是用以补充文档检索技术的。如果太过依赖于使解释符合给定主题的词目,那我们发现的模型中就可能存在随机的松散的联系以致以偏概全。*本·施密特(Ben Schmidt)证明将此用于捕鲸航行的数据也非常有趣,他指出“潜在狄利克雷分布”不是一个仅限于文本的模型。(施密特 2012)

认识到“潜在狄利克雷分布”的局限使我们能够利用它去探究民俗学学科语料库,而不会将其模型作为预测该学科发展趋势的独立证据。除了关于分类变量如何被大量描述的基本观念外,此模型没有任何民俗或语言知识,但其生成的主题和文档集群使我们得以检验我们关于本学科如何随时间产生变化的观点。民俗学表述行为的变化只是人文学科更大变化的一部分,人文学科正由分类和描述转向日益复杂的解释。我们运用机器学习分类工具来检验民俗学理解自身表述转变的方式。主题建模远非客观陈述,但其结果不存在自反性退化,自反性退化常用来描述学科历史的解释性说明出现疑点的情况。

换句话说,我们是在以主题建模的方式对不完全但是具有代表性的民俗学研究作品进行生成性研究。传统研究可以揭示出关键词的相对频次,这种生成性研究则可绘制出将关键词联系在一起的话语结构。将此结构地图与现有的学科知识相结合使我们能够对现有的关于学科变化的假设进行检验。

民俗学研究中计算机方法的应用

图1:所有主题,1888-2012

总览基于超过一百年的民俗研究绘制的50幅历史图表,我们想要从其中获得什么呢?我们期待能够得到几个通用模型:受关注度下降的主题模型,受关注度上升的主题模型,及一些不变因素的模型。我们也非常期待能够发现任何特别的上升、下降或其他形式的历史动态,这同样不会令我们失望。这里最容易看到的是,50个主题的五年均值返回了一些有意思的结果。图1为分类语料库中50个主题的五年均值。当我们预计主题建模将揭示出当时符合民俗学表述行为转变的上升趋势时,图2中“文化的 表演 话语”主题从1888-2012年的五年均值显示其在20世纪70年代出现了明显的上升趋势。

图2:“文化的 表演 话语”主题,时间约为1888-2012

如果我们转向有关的真实文本,列出“马利特”软件已排好序的占本主题最大比例的20篇文章,我们就会看到表1的结果。从某种程度上说,在我们探究工作的这一点上,我们至少已经确认主题模型与学科本身的主题中心意义是一致的。另外,此表还显示出元批评研究在所有名词中得到了最高关注,从学者对表演理论及其在特定场合的实际应用的深入研究即可见。实际上,其中四篇文章都来自于同一份期刊《西部民俗》。*值得注意的是,本文前面引用的吉尔·特里·鲁迪的研究只在该主题前列文档中下降了四位,证实了元话语研究包含更高的主题关键词密度。

表1:“文化的 表演 话语”主题的前二十篇论文,按主题在论文中的显著程度排序

这种民俗学的量化研究,使我们有可能探究与转向表演类似的主题趋向。为了简洁和使我们的观察尽量客观,我们筛选出了8个主题,它们均在“最后四分之一时期较活跃”(其他趋势将在下文中加以探讨)。表2完整地列出了这8个主题,并且按照反映每个主题的文档的数量进行了排序。

表2:以下八个主题呈现出与主题“文化的 表演 话语”相同的动态趋势

我们标注为“表演”的主题在表中位列第三。位于它之上的是主题4(作品 研究 民俗),在这个主题中,学科工作者“民俗学家”和学科话语进行的手段,例如出版和项目,同等重要。位于列表顶端的主题21(做 制作 世界)使我们产生了一时的困惑,但之后我们远观了研究的起点,然后再拉近距去理解现象的本质,我们查看了与该主题有关的文本,发现读者在这里更加熟悉的概念是“民俗心理学方法”。一部分作者在此表中规律性出现的现象可作为我们这一结论的例证:大卫·赫弗德(David Hufford),阿兰·邓迪斯(Alan Dundes),艾利奥特·奥里恩(Elliott Oring),布鲁斯·杰克逊,罗杰·亚伯拉罕斯(Roger Abrahams),罗伯特·乔治斯(Robert Georges)以及 沃尔夫冈·米德(Wolfgang Mieder)。

面对这样的图表,我们认为必须对关注心理学方法的高峰和下降进行探索,结果发现我们最初关注的主题“表演”显示出一个相似的,即使不是下降,也至少是平稳的趋势。总览我们定义为“最后四分之一时期较活跃”的8个主题,我们几乎都看到了相似的下降和平稳趋势,除了主题9(文化的 政治的 民族的)。但另一方面,此趋势表明心理学和表演可能或者是发现了某些政治决议,或者仅仅是取代之前的关注转而关注政治。这里,安德鲁·戈德斯通(Andrew Goldstone)和泰德·安德伍德(Ted Underwood)描述了某些解释的危险因素及其机会因素:

随着主题数量(及其他参数)的变化,模型会呈现出同一个基础集合的不同情况。但这并不意味着主题建模是一种含混不定的方法或不可靠的证据。所有的情况都是有根据的。可以这么说,这些不同的情况是从不同距离观察的结果,有着不同的粒度水平;但他们是同一证据的所有情况,并且是明显相容的。不同模型为不同的证据诠释提供支撑,但这些诠释并非是绝对冲突的。

其他主题集中在五大趋势上,我们将根据简单客观的图表将这五大趋势描述为:前半期活跃、早期高峰、中期高峰、恒定、动态。构成每种趋势的主题列表及每种主题所涉及到的文本数量都在表3中。

表3

2568食物药物病人恒定2462笑话幽默性的恒定0557谚语德国人谚语的恒定0151妇女儿童女性的恒定4049人们非洲人夏威夷人恒定4849华人日本人韩国人恒定1246犹太族的犹太人土耳其的恒定1446教堂宗教的上帝恒定3642黑色非洲人黑人区的白人恒定0739xcxb印度恒定1726爱尔兰人吉普赛人匈牙利人恒定3923意大利人瑞典人挪威人恒定0617国王kiii恒定

表3显示有7种主题在前半期异常活跃。因为在这段时间《西部民俗》和《民俗研究》均未出版,所以这一时段及下一时段的趋势都是《美国民俗学刊》自身历史的产物。即使仅对这些主题内容进行简单的浏览也能看出,正如威廉·威尔斯·纽厄尔(William Wells Newell)曾在他的开篇中概括的,它们反映着《美国民俗学刊》的诸多项目,这些项目后来被不同的学会成员发展起来。在以上按顺序排列的表格中有来自世界各地的民间传说(44),美洲土著的故事和仪式、(34、20、22、37、29),美国民歌(02)及美国黑人传说(22)。

接下来的四个趋势是由更少的主题代表的。我们将这种早期得到较高关注但又迅速下滑的趋势称为“早期高峰”,这些主题是探讨拉丁美洲民间传说的,包括新墨西哥州传说(47、13);操法语者的传说,大多数是关于在路易斯安那州从事深夜工作的加拿大人的;以及非常有趣的跨越新旧世界的混合传说集及其研究。有趣的是,这几个高峰都在同一时期,它们的出现和下滑都是在20世纪两次世界大战的间期,大约是1917年到1942年。

在这些主题之后,高峰出现在中期的有两种主题“年度 西部 政府”(00)和“加利福尼亚 地方 山脉”(30),产生这种情况的部分原因是本领域的一份重要期刊《西部民俗》的出现。

最后,在研究的时期内表现为显著的动态趋势的有三种主题,它们的表现难以简单概括。这三种主题分别为:“好的 人们 制作”,表现为这一主题的文章数量高达425篇,在整个语料库中居首;“时代 讲述 故事”,表现为这一主题的文章有317篇;“形式 数量 部分”,表现为这一主题的文章有299篇。与该主题有关的词汇集群的完整列表(表4)也未能揭示出其本质。相反,这些主题与我们的观点惊人的相似。只要看一下与每个主题相关的文本就会发现,“好的 人们 制作”主题表述了民间信仰;“时代 讲述 故事”是笑话、传说、口传故事以及来自同一历史背景的行业传说的混合体;“形式 数量 部分”则包含了地方传说集,其中包括地名、传播研究、物质文化形式的调查及对神话的论述。

表4:离群主题(Outlier Topics)的历史趋势,1888-2012

然而,问题仍然存在,是否有对这种动态趋势的特殊本质进行解释的方法。拿民间信仰来说,它在社团历史的早期似乎就已经达到了顶峰,接着在一战期间急转直下。在20世纪20年代,民间信仰的受关注度一直较低,30年代有所上升,在二战早期再次下降。50、60年代再次急剧上升,伴随着民间信仰广受关注,在转向表演方面的趋势似乎并不显著。

包含了“地方传说”之义的主题各项之间的联系与上文所述的“民间信仰”模式有些类似。对这一主题的关注度也是在社团历史的早期达到顶峰,在20年代呈下降趋势,在30年代保持较低水平,直到二战以后才得到了显著重视。这种趋势需要进一步的探究,我们注意到对地方传说的关注度一直保持在较高水平上,在表演研究出现的期间,它也并不像其他主题那样出现下降。反而在比例上一直是缓慢上升的,在接近90年代的时候达到顶峰。上文已经提到过,在这一期间,表演研究已经越发趋向自反性。

在此示意图的其他部分中,我们会发现“舞蹈 节日”主题的下降并不是那么急剧,出现相对晚一点。因为它与表演论述的联系并不是那么紧密,所以这个结果正是我们所期待的。以“文化 表演”为主题的代表性文章包括《融合与市场:民俗学新型范例》和《谁的尸体?尸体传说简介》(卡普昌,1993;扬,1994)。明显以“社会的 集体 团体”为主题的文章包括《巴马那民间戏的时代意识与成长》和《布朗的招待酒吧:作为艺术表演的职业角色》(布林克,1982;贝尔,1976)。

在该图中我们也注意到有两种主题是西班牙语的产物,它们在这些年的出版物中异常突出。但我们没有足够多相关的外语出版材料来显示这种在内在于英语语料库的外语名词集群的独立性。

重要的是我们也要注意到对语料库进行归类产生的有趣差异为我们的深入研究提供了保证。例如,未按屈折变化形式归类和按屈折变化形式归类语料库的两个最具代表性的主题分别是“重大的 男人(复数形式) 制作(过去式) 时代 长的 白天 小的 结束 离开 大的 年轻的 好的 头 顺序 场所 举行 背景 手 制作”和“形式 数目 部分 建立 时代 普通的 实例 制作(过去式) 现在 事实 相似的 类型 一般的 群体 材料 区域 观点 建立 研究。此处按屈折变化形式分类的语料库更加具体明确,其中含有更多能够显示民俗研究进程的单词。像“制作(过去式)”和“结束”这样的单词应该包含在阻止词表中。这种单词的出现是人文学科逐步细化导致的。另一个能够显著影响结果的因素是,一个单词在进入主题模型的概率矩阵之前出现在语料库中的频次。

不严格的非按屈折变化形式分类的模型的一个有趣细节是这个主题:“民俗 研究 民俗学家 材料 学者 材料 搜集 文学 道森(dorson)”。这样一个和民俗实践紧密联系的主题包含最杰出的民俗学者之一并不奇怪。但通常即使是讨论最多的学者名字也很少出现在期刊文章的主题中,只有一个作为民俗学者的作者姓氏出现在这些主题中,毋庸置疑就是邓迪斯。*“麦克弗森(Macpherson)”和 “叶芝(Yeats)”因对凯尔特民俗研究所做出的贡献出现在了一个主题中:“爱尔兰人、爱尔兰、盖尔人、凯尔特人、麦克弗森、奥西恩、苏格兰人、图特(tut) 、约翰、肖恩、芬兰、巴(ba) 、威尔士人、 ii、芒(mun) 、叶芝、苏格兰等”,但是我们认为这些在多数情况下是属于研究主题而非学者 。名字分散出现在主题中,但是“理查德(Rechard)”这个名字就很难判断是否是指一个特定的学者,因为姓氏在引用中出现的频率太低,所以难以确定名字所指的学者。按屈折变化形式分类的语料库则不包含任何学者名字。

另一个对读者来说比较有趣的此期刊的主题建模过程产物是,出版地与和与新闻报道及其他资源相关的项目聚集在一起:“年、西部的、州、新闻、约克郡、天使城、圣、加利福尼亚、项目、报纸、四月、报道、三月、日报、通讯、七月、战争”。期刊《西部民俗》的名字出现在这个主题中;我们已将“美国的”和“民俗”从语料库中移除了,以避免此类主题比例失衡。但是“西部的”这个单词在其他语境中的潜在意义足以保证将其纳入其中。

一篇文章和一个能够代表学科转变的主题的相关程度,并不能表明该文章的重要性和影响力。实际上那些预示着方法论转变的文章反而有可能包含着“更少”的后来与之相关的关键词集群。找出这种转变的来源并不是本文的目标,因为现存的学术研究在这方面已经做得很好,并且将会不断地对此重估以确定民俗学是否遵循了其他学科的发展模式。*例如,芭芭拉·科什巴莱特-吉布列特(Barbara Kirshenblatt-Gimblett)的《民俗危机》(1998)。而我们关注的是发现即将发生的转变的迹象,以及计算机方法是否能够像学科叙述那样为这些片断的转变归纳出同样的年表。

绘制更好的民俗研究地图

豪尔赫·路易斯·博尔赫斯曾描述过一个声名狼藉的帝国如此追求描事状物的完美:“制图师工会打造出一幅与该帝国疆域面积同等大小的地图,而且是极其精确的相一致”。在博尔赫斯的叙述中,这个帝国的百姓最终丢弃了这幅地图,那些剩余的碎片成为了动物和乞丐的遮蔽物。如格雷戈里·贝特森所解释,博尔赫斯的虚构世界的讽刺意味是“领土乃自在之物,人不能用它做任何事”(1972:454)。地图即我们所构想和具体化的更大的实体的代表和压缩,我们希望利用它来互动和导航。地图要求我们置身于想象之中,投身于这种实体替代物中并相信那些道路会引导我们到达我们想去的地方。

这个地图的比喻非常有用,是因为在这个例子中制图所用的数学计算相当复杂。这里的地图就是一个主题模型,其背后的地图制作就对通过“马利特”发现的潜在狄利克雷分布的执行。这项特别技术的执行是一个概率过程,最终导致了连贯的词汇集群规律性地相伴出现,这些集群即我们所说的主题。因为这个有目的的过程一开始在某种程度上是随机的,随着这种算法不断重复作用于这些文本,这个过程才渐入佳境。尽管使用的是相同的材料,这个过程仍会自然产生互有微小差异的主题。在调查研究的后期,我们可能能够非常顺利地浏览不同时代的几十个甚至是几百个集合,希望在主题的稳定构成成分上获得统计回归。

根据前一部分所描述的结果,我们有理由相信我们已经能够得出民俗研究在第一个百年中的草图——这个草图具有发展成为更稳健的地图的巨大潜力。未来的探索者可能会引领我们修改主题数量,以尝试确定是否存在一个针对这种特别语料库的理想数量,但是面对不断扩大和变化的大量作品,任何这样的理想都只是暂时的。我们相信重要的是现在的模型能通过收集一些特别的文本,发现学科在一般意义上的发展和分布特征。另一个模型可能会很好地从一个主题向另一个主题转换一两个词汇,但要考虑到,在我们的心中,地图是否呈现了特定的地貌特征,如丘陵或者山地。贝特森说:“每一个有效差异都在指示一个、一列以及所有类别的等级划分。换句话说,这些差异为其自身的分类提供了依据。”(贝特森 1972:457)从旅行者的观点来看,重要的是风景的变化。分明的界线是政治的产物,而不是事实本身。我们相信民俗学者及所有学科的学者都能够接受这种特别的方法论所带来的少许潜在变化。

最初的工作限制在历史趋势的研究上,实际有更多的工作要做。八个各自独立的潜在主题在转向表演的过程中相互缠绕在一起,这种情况给我们提出的挑战是尝试去理解这些思想是如何相互联系的。有了这些主题,我们也可以生成可能出现在这些文本中的引文的网络图表。这个方法能让读者不仅看到思想观念、意识形态或民俗研究意识形态的网络图,也能看到作者网络图。作为一个整体,隐藏在学科和领域背后的文化和社会为我们提供了一个良好的机会去系统地理解我们自身及我们的工作。作为一个小型社会,我们的社会只是众多社会中的一个系统,然而这种限制同样为我们提供了机会。

在要做的工作中,我们仅是刚刚开始分类,据戈德斯通和安德伍德的观察,这些主题中的一部分更像学科分类,一部分则仅仅是与特定的理论方法相联系的词汇集群。我们在民俗研究思想史的探究上反复运用“集群”,以此来思考我们力图探究的地图类别以及任何可能已经出现但尚不清晰的潜在分类方法。主题本身就是共同出现在文本中的词汇集群。这些主题以历史图表或是网络可视化的形式绘制出来,构成了集群(此术语在网络研究中称为“成分”)的一部分,集群可以帮助我们理解较大领域中的分支领域。我们坚信,这种方法不仅能够为我们提供民俗研究中的隐含观点,还能帮助我们理解相近领域中的分支领域如何相互联系和相互交叉的,甚至可能帮助我们沟通其他相关观念。*也有一些工作现在还难以实现,因为有大量的人类学期刊被防火墙拦截了,无法用我们的建模方法所要求的方式访问。可以肯定的是,随着越来越多的有关期刊可以通过像期刊数据库的研究项目数据这样的界面访问,我们将能够进一步理解民俗研究。

在扩展工作中,我们期望能发现更多的有关该历史趋势的细节,并且能够更好地评价作者、观念、文本、和调查领域之间相互交叉和互动的方式。探究文本之间的关系,特别是在那些合著现象很常见的领域内,一种常见的方法既是绘制包含作者和文本的双体系图表(bimodal graph,见图3)。以这样的图表作为起点,可设计两种网络图:合著文章的作者的网络图和有相同作者的文本的网络图。同类的双体系网络图也适用于引文,类似的项目很常见。*这个项目早期的工作集中在生成引文网络上,利用当时短期内通过期刊数据库(JSTOR)可接触到的引文数据。在初步的评估工作中,数据极为复杂,并要求进行大量有效的结构化处理。戈德斯通和安德伍德在其他领域中尝试了这种图表,他们利用《美国现代语言学协会会刊》(PMLA)创建了一个双体系图表,该图表内容为“趋向于出现在同类文章中的主题是相互联系的”(戈德斯通和安德伍德 2012)

图3:包括作者、文本的双体系例图,以合作者的数量作为权重划分作者和文本的网络投射图。

图4:作者,文本,主题。

即使仅从这几个不多的例子来看,也很容易发现从一个双体系图表跨越到另一个具有多种可能性,例如我们可利用双体系图表探究作者和特定主题之间的关系(见图4)。不难想象,可以将这种图表应用于不同的相关期刊或者反复地比较引文网络和主题网络等研究中。

所有这些关系及其网络图表使得探究各组关系之间可能存在的共同点、不同点及变化成为可能。我们相信这些共同点可能能够证实都我们对民俗研究这个领域的一般理解,而这些变化则可能提出一些有趣的问题,这些问题将需要我们对该学科共同体和思想史进一步细究。例如,这些变化仅仅会揭露隐含的学科关注焦点吗?它们会引起学科边缘向学科中心转化的革新吗?这种学科中心和学科边缘的互换多久以后会发生?

很明显,这种新的绘制思想地图和学科历史的方法为构成成分间的相互关联提供了很大的可能性。这些关系为理解个人或集体所做的但尚未显露出来的工作提供了新的理解方法。如上所述,根据戈德斯通和安德伍德的观点,主题建模在揭示如何写作上与揭示写作内容上同样好用,这可能为那些想通过文体来探究学术话语模式的人提供了一条途径。当像主题建模这种方法开始得到大规模应用时,它就为我们提供了近距离审视事物的新方法。主题建模并非抹杀学术个性,它作为一种远观也使得细读成为可能,细读使我们更能够从个人角度审视文章及其作者。传统中的个人角色对民俗研究来说一直都是关注重点。最后,思想史编纂的方法很多,它使我们能够从镜子中反观自己,就像我们通过实践的窗口去观察世界一样。

1.格雷戈里·贝特森.1972.意志生态学入门.纽约:百龄坛图书。

2.迈克尔·J·贝尔.1976. 布朗的招待酒吧:作为艺术表演的职业角色.西部民俗35(2):93-107。

3.大卫·M·布莱.2011.概率主题模型导论.美国计算机协会通讯:1-16.

http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf.

——.2012.可能性主题建模. ACM 通讯55(4):77-84。

4.大卫·M·布莱,约翰·D·拉弗蒂.2006.动态主题模型.第23届机器学习国际研讨会会议记录138:113-20.宾夕法尼亚州匹兹堡市,7月25至29日。

5.大卫·M·布莱,安德鲁·Y·Ng,迈克尔·I·乔丹.2003.潜在狄利克雷分布.机器学习研究期刊3:993-1022。

6.豪尔赫·路易斯·博尔赫斯,1972. 丑恶世界史.诺曼·托马斯·德·乔瓦尼译.纽约:企鹅图书有限公司。

7.詹姆斯·T·布林克.1982. 巴马那民间戏的时代意识与成长.美国民俗期刊95(378):415-34。

8.西蒙·J.布朗纳.2006.民间逻辑:民俗学解读.西部民俗65(4):401-34。

9.米哈伊·契克森特米哈依,大卫·亨利·费尔德曼,霍华德·加德纳.1994.改变世界:创意研究体系. 康涅狄格州威斯伍德市:普雷格出版社。

10.戈德斯通,安德鲁,泰德·安德伍德.2012.美国现代语言学协会会刊(PMLA)提出的主题模型为文学研究提供了何种借鉴?12月14日http://tedunderwood.com/2012/12/14/what-can-topic-models-of-pala-teach-us-about-the-history-of-literary-scholarship/

11.布鲁斯·杰克逊.1988.序言.美国民俗学刊101(402):1-3。

12.布鲁斯·杰克逊,迈克尔·塔夫脱.1998.百年民俗学.美国民俗学刊101(402):5-19。

13.黛博拉·A·卡普兰.1993.融合与市场:民俗学新兴范例.西部民俗52(2-4):303-26。

14.芭芭拉·科什巴莱特-吉布列特.1998.民俗危机.美国民俗学刊111(441):281-327。

15.托马斯·兰道尔.1999.潜在语义分析.话语过程27(3):303-10。

16.约翰·朗顿,凯尔·费尔克.2011.从学科引文网络看范式转换.美国民俗协会年会报告论文,印第安纳州布卢明顿市,10月12日至15日。

17.佛朗哥·莫雷蒂.2000.世界文学猜想.新左派评论1:54-68。

18.吉尔·特里·鲁迪.2002.评《作为表演的口头艺术》:通过修辞分析进行的跨学科引文研究.美国民俗学刊115(455):5-27。

19.本·施密特.2012.有了“马利特”,每个问题都仿佛是一枚钉子,11月2日http://sappingattention.blogspot,come/2012/11/when-you-have-mallet-everything-looks.html

20.凯瑟琳·扬.1994.谁的尸体?尸体传说简介.美国民俗学刊107(423):3-8。

[责任编辑]王霄冰

约翰·洛顿(John Laudun),路易斯安纳大学英语系副教授;乔纳森·古德温(Jonathan Goodwin),路易斯安纳大学拉斐特分校英语系助理教授。此译文的翻译和发表得到作者授权,特此致谢。

[译者简介]乔英斐(1987-),女,山东莱阳人,中山大学中国语言文学系博士研究生;李扬(1962-),男,四川自贡人,中国海洋大学文学与新闻传播学院教授。(广东 广州,510275)

K890

A

1674-0890(2016)05-069-14

猜你喜欢

民俗学语料库民俗
民俗中的“牛”
平行语料库在翻译教学中的应用研究
上海社会科学院文学研究所民俗学学科点简介
《语料库翻译文体学》评介
民俗节
总括*
《超越“20世纪民俗学”: 我们从与福田亚细男的讨论中学习什么?》序 言
庆六一 同成长民俗欢乐行
试论中国现当代文学的民俗学意识
语篇元功能的语料库支撑范式介入