APP下载

文化组学: 大数据时代的人类文化研究

2018-02-11浙江财经大学北京外国语大学王文斌

外语教学理论与实践 2018年2期
关键词:语料库词语图书

浙江财经大学 邵 斌 北京外国语大学 王文斌

提 要: “文化组学”是通过对海量数据的定量分析来揭示人类文化及其演变趋势的研究,它被视为是大数据背景下进行人文计算的有效方法,推进了“数字人文”的发展。本文首先对起始于《科学》和《自然》杂志上的“文化组学”研究进行了详细的述介,之后对其主要应用领域,如语言演变、文化研究、情感分析、未来预测等方面进行了综述,以期引起国内学界对该领域的关注,从而有助于把握大数据时代人文科学研究的新趋势。

一、 引言

2011年初,哈佛大学J. B. Michel 博士和E. L. Aiden博士的研究组在自然科学顶级杂志《科学》(Science)上发表的《基于数以百万计数字化图书的文化定量分析》一文,其影响是革命性的。它带来了一个全新的研究领域:“文化组学”(Culturomics),并进一步促使人文科学范式转型为“数字人文”(Digital Humanities)。

Culturomics一词为culture(文化)和genomics(基因组学)的缩合。显然,“文化组学”是通过与“基因组学”类比而来的: 正如大规模基因组的DNA序列能够揭示生命信息一样,大规模的语言数据也能揭示人类思想和文化及其演变趋势。Michel等(2011)将“文化组学”定义为“通过对海量数据的定量分析来揭示人类文化及其演变趋势的研究”,该研究以“谷歌图书语料库”为基础,它收录的是自1500年以来出版的,包含英、法、德、西、俄、汉和希伯来语7种语言的3 000万册电子图书文本,总计达5千亿词。因此,谷歌图书语料库不仅是“大数据”(Big Data),更是“长数据”(Long Data),即在大数据中加入了时间维度。需指出的是,由于受图书版权所限,人们无法直接基于谷歌图书的内容进行研究,为此Michel等人开发了“谷歌图书N-gram*N-gram为计算语言学领域的术语,指的是从语料库中提取出的一词或多词序列。在谷歌图书词频查看器中,N的范围被限定为1—5,即包含1-gram至5-gram,如“America”、“United States”或“the United States of America”等。谷歌图书的N-gram可在以下网站检索并下载: https: //books.google. com/ngrams/。词频查看器”(Google books N-gram Viewer),可将语料库中的单词或词组每年的使用频率变化以曲线图形式进行呈现。Aiden(2010)曾谈及基于词频查看器进行文化研究的合理性,“如果词语被视作是一个文化单元,那么这种方法即有意义: 基因组里包含了可继承的生命信息,世代相传;与之类似,人类书本中所使用的词语也同样继承了文化信息”(见Ornes, 2010)。

文化组学研究使得人文社会科学的历时计算成为可能,它迅速成为学界关注的焦点。国外已有数以百计的著述探索其理论及应用。国内一开始只有少数研究对此有所介绍,如邵培仁和林群(2012)、黄鸣奋(2013)等。此后,陈云松(2015)、陈云松等(2015a,2015b)通过文化组学视角对社会学的发展、近500年来中国世界文化遗产的国际知名度、近三百年中国城市的国际知名度进行了系列研究,并进而提出“社会组学”(societalimics)的概念。龚为纲和罗教讲(2015)基于文化组学视角对19世纪“海上丝绸之路”上的丝绸、瓷器和茶叶的文化影响力进行了定量分析。邵斌(2017)基于文化组学视角对浙江文化关键词在英语世界的影响力进行了分析。但相比于大量的国外研究,国内研究在数量和质量方面都有待拓展和提升。有鉴于此,本文拟对国外的文化组学研究做一综述,本文先从《科学》和《自然》(Nature)杂志上的文化组学早期研究着手,之后概述其在各个领域的应用,以期有助于学界把握大数据时代人文科学研究的新趋势。

二、 《科学》和《自然》杂志上的“文化组学”研究

Michel等(2011)运用词频查看器主要开展了以下5个方面的研究: 一是对英语词汇总量的预测。据其测算,英语词汇在1900年时有近55万,在1950年时近60万,至2000年则增至100万词,现今每年递增8 400词。研究发现,63%的词汇都是低频词*频率界限设定为谷歌图书中每10亿词中出现1次,即10-9,低于该值即为低频词。,52%的词汇未被《牛津英语词典》所收录。二是对语法演变的探索。该文以英语不规则动词为例来论证使用频率与语法演变之间的关系。研究发现,高频的不规则动词发生规则化的概率较小,而低频动词则容易规则化*规则化是指动词的过去式和过去分词加规则的屈折后缀-ed的现象。。三是测算人的名气。如果将名气视作是人名在语料库中的出现频率,那么名气可加以计算。研究以1800年和1950年作为考察的先后时间点,结果发现人们初次成名的年龄从43岁降至29岁,名气翻倍所需时间从8.1年减至3.3年,名气的“半衰期”(指名气减半所需的时间)从120年跌至71年。简言之,当代人出名更早,成名更快,但被人遗忘也更快了。四是追踪出版审查制度。历史上对某个人或某种思想的压制会留下可以计量的痕迹。比如英语和德语的谷歌图书中都显示犹太画家马克·夏加尔在1910年前后开始成名,但在英语世界里,其名气一直持续上升,而在1936年至1944年的德语世界里,其名气却跌至谷底,显然这是因纳粹德国对犹太人的迫害而导致该画家“销声匿迹”。五是拓展“文化组学”研究范围。报纸、手稿、电话录音、电子邮件、地图等也都可成为文化组学的数据来源。

事实上,Aiden和Michel 等人基于大数据对语言演变进行研究的成果《语言演化动态的定量研究》一文*Aiden在该文中署名为Erez Lieberman,未加上其姓Aiden。,早在2007年就发表于《自然》杂志。在该论文中,Aiden等详细论述了过去1200年间,英语不规则动词的规则化演变趋势这一语言发展规律。他们发现,所选取的177个古英语不规则动词到了中古英语时期仍保留不规则性的有145个,到现代英语时期只剩下98个。此外还发现,不规则动词的规则化速度与其使用频率的平方根成反比: 如果动词A的频率是动词B的1/100,则其规则化速度是后者的10倍。Aiden等(2007)的重要性在于通过量化方法揭示语言演变的规律,进而预测其未来的变化趋势。

之后,Aiden和Michel(2013)的研究成果又以专著形式呈现,即Uncharted:BigDataasaLensonHumanCulture一书,邵斌和陈晶晶(2015)对该书做了评介。此外,该书的中译本《可视化未来: 数据透视下的人文大趋势》也已出版。限于篇幅,此处不赘。

三、 “文化组学”研究的发展及应用

“文化组学”概念一经提出便引起了国外学界的广泛关注。下文主要针对“文化组学”在语言演变、文化研究、情感分析和未来预测等方面的应用做一综述。

1. 语言演变

基于词频查看器的语言演变研究主要聚焦于英语词汇的整体变化,探索词汇演变的一般规律。比如,Petersen等(2012a)考察了过去200多年间(1800-2008),英语、西班牙语和希伯来语的图书语料库中1 000万词的动态变化特征。研究发现: 词的“死亡率”呈递增性,近50年有加剧趋势。词语消亡的主因是近义词之间的零和竞争关系。比如X-ray 一词的频繁使用导致与其近义的Radiogram和Roentgenogram两词的消亡。与此同时,新词的“出生率”则呈现减缓趋势,这体现了人们对新词的“递减边际需求”(decreasing marginal need)。数据还表明,一个新词由“出生”到“成年”需要30至50年时间,即新词需经过三五十年的使用才可能被词典所收录。Petersen等(2012b)借助“异速标度分析”(allometric scaling analysis)的统计方法对过去200年间谷歌图书7种语言中的1500万词进行考察。研究发现: 当语料库容量很大时,词汇的年增长率呈下降趋势。这说明到一定总量时,新词的产生速度会有所减缓,即词库扩张到某一数量时会有所“收敛”。Hills和Adelman(2015)采取文化组学视角,使用包含谷歌图书在内的总计超过3500亿词的语料库,选择4万个表达具体性的英语词汇,考察过去两百年间美国英语在可学性(learnability)方面的变化。研究发现,美国英语的具体性在不断加强,即其可学性在增加。此外,也有研究基于大数据对词汇语义演变进行考察。譬如,Wijaya 和 Yeniterzi(2011)提取谷歌图书中的5-gram,观察节点词与周围词语的共现变化,自动检测节点词的词汇语义演变的时间及趋势。

2. 文化研究

基于词频查看器的文化研究主要考察文化相关词的使用频率,以此探究文化演变的趋势。Twenge等(2012a)选用谷歌图书中的当代美国图书部分(1960-2008),窥探美国人对“个体化语词”(individualistic words and phrases)的使用变化。结果发现: 语料库中的个体化词语(如 identity、personalize、self、standout、unique等)以及个体化短语(如all about me、focus on the self等)的频率显著增加,可见过去半个世纪美国社会的个体化倾向愈加明显,集体主义思潮日趋式微。Twenge(2012b)还用类似方法研究了同一时期76万册美国图书中的代词使用。结果发现: 第一人称复数代词(如we、us)的使用数量下降了10%,第一人称单数代词(如I、me)增加了42%,而第二人称代词(如you、your)则增加了3倍。这一研究同样表明美国文化中的个体主义倾向。Greenfield(2013)使用词频查看器探索美国文化演变与生态演变之间的关系。研究发现,在过去200年间(1800-2000),与乡村生态有关的、表示乡村、义务、责任、服从权威、社会归属、给予、宗教和行动等语义的词语都呈下降趋势(如rural、obliged、give、act、obedience、authority、belong、pray等词),而表示都市、选择、拥有、内心感受、个体、自我、独特、以孩子为中心等语义的、适应城市生态的词语都呈上升趋势(如urban、choose、get、feel、individual、self、unique、child等词)。研究表明美国社会从乡村生态转向城市生态的过程中,文化也随之发生类似转向。Kesebir 和 Kesebir(2012)追踪了20世纪美国图书中与“道德和美德”相关的词语。结果发现,这些词语呈现大幅减少趋势,说明美国公共话语中的道德和美德话题在缩减。具体而言,涉及一般道德特征的词(如 character、conscience、decency、dignity、rectitude、righteousness、uprightness、virtue),其频率在减少,涉及某种具体美德的词语,例如谦虚(如humility、modesty)、感激(如gratitude、thankfulness)、勇气(如courage、bravery)、关怀(如kindness、generosity)等下降显著。他们认为,“道德和美德”词语使用频率下降是美国提倡个体意识所致,即鼓励人们考虑自身的利益,而相对忽视他人的需求。Xu 和 Hamamura(2014)使用汉语图书的词频查看器与问卷调查相对照的方法,考察了自20世纪80年代以来中国的民间信仰变化。研究发现了中国现代化进程中所出现的物质主义、个体主义以及西方化等倾向,比如“物质化”“财富”“个体化”“自由”等词语的频率有所增加。此外,谷歌图书的数据与问卷调查的结果呈现某些不一致性。比如,问卷调查中不再流行的话题,如“中庸”“内敛”“传统道德”等,在谷歌图书中仍呈上升趋势,这说明谷歌图书所代表的知识分子作者群与问卷所代表的一般民众对儒家思想的认知存在差异。Caruana-Galizia(2016)使用德语图书语料库对Demokratie(民主)、Freiheit(自由)、Frieden(和平)、Herrlichkeit (荣耀), Gerechtigkeit(正义)和 Heldentumd(英雄主义)6个德语词进行了历时研究后发现,在纳粹统治期间,这些词与纳粹词语(Nazi words)高度正相关。这说明这些词被纳粹分子歪曲语义以粉饰太平,煽动民众。这一发现印证了Orwell在1946年的预言: 在极权统治下,语言也会堕落(Orwell,2009: 371)。Juola(2013)则从谷歌图书中提取2-gram来测算文化复杂性,其理论基础是“信息论”(Information Theory),即开放性的语料库代表文化体验的广度,语料库中的信息程度越高,则其体现的文化就越复杂。结果发现,在20世纪的美国图书中,2-gram的频数从1900年的1 777万个增加到2000年的4165万个,由此可见文化复杂程度的递增。同时表征词语分布的“熵值”(entropy)也同步增加,说明分布信息复杂度的增加,即文化随着时间推移会日渐复杂化。

3. 情感分析

基于大数据的情感分析多用定量方法考察情感词语的频率,进而分析人类情感的历时变化。文化组学的发展使得此类研究呈现出大数据的特点,有学者甚至通过对“推特”(Twitter)的情感词语分析成功预测股市变化(Bollenetal., 2011)。Acerbi等(2013)通过词频查看器研究了20世纪的英语谷歌图书中的情感表达。结果发现,在20世纪,情感词语的整体使用频率在降低。就具体情感而言,“厌恶类”情感词语的使用减少最多,而“恐惧类”情感词语的使用在1970年以来则有所增加。研究还发现,情感词语的变化与重大社会事件(如二战、经济大萧条以及婴儿潮等)具有高度相关性。比如,二战期间“悲伤类”情感词语的频率达到顶峰。Bentley等(2014)还考察了“文学悲观指数”(literary misery index)和“经济悲观指数”(economic misery index)之间的联系。“文学悲观指数”以“不幸词”与“幸福词”的数量之差来计算,“经济悲观指数”则是通货膨胀率和失业率之和。他们从20世纪的英语谷歌图书中提取情感词语的频率,发现某一年份的“文学悲观指数”与此前十年内“经济悲观指数”的平均值成正相关,比如1975年前后爆发的能源危机导致了70年代末“文学悲观指数”的增加。Oishi(2013)则对不同时代的“幸福”概念作了细致研究。该文通过对1800至2008年期间美国谷歌图书中的“happy nation”和“happy person”两个短语的考察发现,happy nation的使用日益减少,而happy person频率则在增加,1920年是其转折点,两者频率之比从初始的2.82减少至0.18。由此大体可见,在美国英语中,happiness的语义在1920年前后发生了改变,从一种集体情感转变为个体情感,从“偶然降临的幸运”变为“通过追求可获得的幸福”。Mohammad(2012)则对电子邮件和图书中的情感词语进行了定量分析。论文首先通过“众包”(crowdsourcing)形式获取“‘词—情感’关联词表”,这14200个词涵盖喜、哀、怒、惧、信、恶、惊、待八种人类情感,之后他再考察5-gram中情感词语的共现词。结果发现,一战期间,德国、美国和中国图书中的“恐惧类”词语都有所增加,类似变化在1900年前后的中国图书中也有体现,这可能与当时“义和团运动”有关。研究还发现,情感词语的搭配竟体现出性别差异,“喜悦类”词语多和女性共现,而“愤怒类”词语多和男性共现。

4. 未来预测

Leetaru(2011)的《“文化组学”2.0》一文可以说是文化组学研究另一标志性成果。此前的文化组学研究多着眼于考察过去的文化演变,但Leetaru却通过收集当下数据来预测大规模的人类未来行为。Leetaru(2011)没有采用谷歌图书的数据,他收集的是过去30年间的新闻数据,因为后者更具时效性。该新闻数据库包含1亿篇文章,对它进行“情绪和地理分析”(tone and geographic analysis),可以预测人类行为。Leetaru探索了三个个案,一是预测社会动荡。比如,数据库的数据显示在2011年1月份,全球媒体对埃及政府的正面情绪已降至过去30年来的最低点,而当年2月穆巴拉克政权就被推翻。二是预测事件发生的地点。新闻事件具有空间维度,故可将事件发生的地点进行可视化地理分析。通过数据分析发现,当年本·拉登的藏身之处指向巴基斯坦北部的Islamabad和Peshawar两个城市之间,后来本·拉登果真在距离上述两地不到200公里的地方找到。三是将全球“文明”*此处的“文明”被定义为拥有共同文化和政治基础的国家集合。地图化。通过对新闻的“地理聚类”(geographic clustering)以及各地区城市之间的“情绪关联”分析,可发现世界被分为六大文明。各种文明之间的关系也能呈现,比如亚洲和大洋洲文明与其他文明都有正面关联,且是唯一与中东文明具有正面关联的文明。与Leetaru(2011)类似,Chadefaux(2014)基于谷歌新闻数据库对战争的早期警示信号进行研究,该数据库包含6 000万个网页,搜索词包括与战争及冲突相关的23个词语,如tension、crisis、 conflict、antagonism、clash、contention、discord等。统计显示,这些数据的确是冲突或战争的预言者。Leetaru(2011)和Chadefaux(2014)等研究是文化组学的重要拓展内容。首先,他们使用的数据突破了谷歌图书的限制,而采用更具有及时性的数据,如新闻和网页;其次,他们通过定量分析预测未来,大大推动了文化组学研究的发展。

文化组学研究在最近六七年获得如火如荼的发展,对人文社科研究已产生革命性影响,但也不乏质疑之声,如Morse-gagné(2011)质疑谷歌图书语料库的平衡性问题,即其年均词数并不一致,这对历时语料库而言是个瑕疵。Schwartz(2011)认为Michel 等(2011)的研究存在缺陷,一是谷歌图书并未包含所有图书,而仅是部分电子化的图书,研究结论难免以偏概全;二是图书与期刊和报纸相比,并不紧扣时代脉搏,很难反映当下文化。Liu(2012)则认为文化批判的缺席将阻碍“数字人文”成为人文学科的真正伴侣,Porsdam(2011)也认为,“数字人文”研究中“数字太多,人文太少”。然而,质疑之声虽偶有出现,但“文化组学”对于文化及其演变研究的冲击仍是空前的。事实上,从本文综述可知,早期存在的问题后来已经有所改进,比如数据来源不再局限于谷歌图书。最近两年,更多的研究着力于进一步完善“文化组学”研究,比如Tahmasebi等(2015)提出的“基于知识的文化组学”(Knowledge-based Culturomics)以及Suchanek 和 Preda(2015)提出的“语义文化组学”(Semantic Culturomics)都是试图对大数据进行语义挖掘,从而改善原本单纯基于频率统计的研究。

四、 结语

Aiden 和 Michel(2013: 8)指出大数据会改变人文科学和社会科学的研究范式。 文化组学概念提出虽只有短短六七年,但它对人文社科研究已产生了广泛的影响。可以想见,随着海量数据的激增,今后人们会进一步优化其检索方法,拓展其应用领域,建构其理论框架,深化其解释力度。正如美国语言学家Mark Liberman(2010)所言:“2010年与1610年相仿佛。数字文本和话语的激增和存档,以及分析工具的更新和计算方法的便捷,使得21世纪成为发明望远镜和显微镜的17世纪初的时代翻版。如今所能观察到的不同时空及文化语境中的型式,其规模不啻为以往的数百万倍。无论身在何处,借助此类新工具,即可发现有趣的新兴型式。” 可以说,文化组学视角是大数据时代用来观察人类文化的透视镜。

本文对《科学》和《自然》杂志上的“文化组学”研究进行了较为详细的介绍,并对“文化组学”的主要应用领域,如语言演变、文化研究、情感分析、未来预测等方面进行了综述。“文化组学”的影响力巨大,被学者们视为大数据时代人文社科研究的特色所在,是加强人文与社会科学计算性的重要方法。本文对之进行综述,以期引起国内学界的关注,从而有助于把握大数据时代人文与社会科学研究的发展趋势。

猜你喜欢

语料库词语图书
容易混淆的词语
平行语料库在翻译教学中的应用研究
找词语
图书推荐
《语料库翻译文体学》评介
欢迎来到图书借阅角
班里有个图书角
一枚词语一门静
语篇元功能的语料库支撑范式介入