APP下载

大数据背景下甘肃文化在英语世界的传播:基于文化组学的实证研究

2019-03-23张晖柳淑瑛毛红梅

甘肃开放大学学报 2019年6期
关键词:词频语料库甘肃

张晖,柳淑瑛,毛红梅

(1.天水师范学院外国语学院,甘肃天水 741000 2.南洋理工大学国立教育学院,新加坡 639798)

一、引言

甘肃省是西北地区连接中亚、西亚、欧洲的重要通道,被誉为是古丝绸之路的“锁匙之地”,也是“一带一路”倡议中重点发展的丝路经济带的“黄金段”。千百年来,丝绸之路的历史遗存以及华夏文明与外来游牧文化的交流融合使甘肃省成为我国重要的文化资源富集区。甘肃省丰富的文化资源一直吸引着学术界广泛的关注。过去十几年,对甘肃文化的研究主要集中在传统建筑[1]、民族音乐[2]、美术[3]、服饰[4]、方言[5]、饮食[6]、宗教[7]等领域。这些研究旨在就甘肃文化的某个具体层面的特点进行阐释,主要针对国内读者进行传播。近年来,有学者开始关注甘肃文化对外传播的问题。例如,李俊霞对甘肃文化产品进入国际市场的现状进行了分析,并提出了推动甘肃文化产品走向世界的策略[8]。王宁霞认为,向外界传播灿烂悠久的甘肃文化,有助于构建中国的积极国家形象[9]。但是,这些研究主要是对个人观点的阐述,较少有学者对甘肃文化对外传播的现状开展实证性研究。本研究试图在当今大数据时代的背景下,采用文化组学的方法,从实证性的角度研究甘肃文化在英语世界中的传播,以期弥补现有研究的不足。本研究的重要性体现在使用谷歌图书语料库的海量大数据来量化甘肃文化在英语世界中的传播趋势。

二、文化组学的概念及其相关研究

(一)文化组学的概念

2011年,美国哈佛大学Michel的研究团队在《科学》杂志发表了题为《使用数百万数字化书籍对文化进行定量分析》一文,创造性地提出了“文化组学”这一概念[10]。在该文中,Michel的团队报道了谷歌图书语料库的创建过程,以及他们如何使用该语料库进行计算分析与数据挖掘,从而定量研究文化现象的发展趋势。具体来说,该研究团队基于谷歌图书语料的海量数据,利用Ngram工具,将文化组学作为一种研究方法,重点考察诸如词汇发展、语法演变、集体记忆、新技术应用、追求名望、文化审查以及历史流行病学等语言或文化现象的历史演变发展过程。Michel等在文章中指出,文化组学给语言研究和文化研究提供了崭新的思路,它将严密的定量研究的界限拓展到了一系列跨越社会科学和人文科学的现象上来[10]。

Michel团队将文化组学定义为“利用收集到的高通量数据,对人类文化进行分析”[10]。简言之,文化组学可以被理解为一种基于大数据语料库的研究模式,该模式通过对大量数字化文本的定量分析来研究人类的文化现象。Silber-Varod等人认为,文化组学研究得以实现的理论基础就在于,文本中的语言选择记录并反映出文化的变化模式,而采用文本分析的方法,对大数据语料库进行挖掘,有助于识别并衡量文本中所记录的文化的变化趋势[11]。

(二)文化组学相关研究

文化组学的概念自提出以来,很快在语言学、文学和心理学的研究中得到了应用。在语言学领域中,文化组学的方法常被用来研究语言的演变过程。例如,Hills和Adelman采用文化组学方法研究了美国英语的易学习性[12]。他们使用谷歌图书语料库,对40000个单词的具体化程度进行了评估。研究发现,从1800年到2000年,美国英语词汇的具体化程度有所提高,说明美国英语的易学习程度在逐步增加。Dubossarsky等人采用谷歌图书语料库,重点研究英语词汇随时间而产生的语义变化[13]。其研究发现,词汇的语义变化程度与词类有关。通常而言,动词的语义变化多于名词,而名词的语义变化多于形容词。除了对美国英语进行研究之外,学者们还从文化组学的角度对德语[14]和俄语[15]的历史发展变化开展了考察。

在文学领域,文化组学的研究主要与文体学相关。Hughes等人[16]将古腾堡数字图书馆作为语料库,开展了大规模的文体分析,以期从定量的角度研究文学风格的动态变化趋势。该研究在分析了537名作者的7733个文学作品后,发现作者使用的非内容词汇(content-freewords)有助于将同时代的作者进行聚类,并且同一时期的作者倾向于使用相同的非内容词汇,这从侧面为文学研究中提出的“时代风格”的概念提供了定量证据。另外,Green[17]也对文化组学在西方文学经典语料库中的应用问题开展了研究。Green介绍了西方文学经典语料库的构成,研发过程以及语料库的结构,并展现了如何从文化组学角度利用该语料库对文体进行分析。

此外,文化组学还在心理学研究领域得到了广泛的使用,常被心理学家用来研究社会文化心理的发展变化。Twenge等人对美国图书中人称代词使用变化情况进行了研究[18]。该研究选取谷歌图书语料库中1960年至2008年间出版的76万本书籍作为研究对象,结果显示语料库中第一人称复数代词(we和us)的使用减少了10%,而第一人称单数代词(I和me)的使用增加了42%。作者认为自1960年以来,美国社会中的个人主义有所增加,而集体主义有所减少。Vehichkovsky等人[19]采用同样的方法在谷歌图书语料库的俄语子库中对俄罗斯的社会心理价值进行了分析,并得出了与美国相类似的结果。

(三)中国背景下的文化组学研究

总体而言,以中国作为研究背景的文化组学研究尚不多见。国内现有的研究仍以对文化组学的概念进行介绍和综述为主,缺乏实证性研究。为数不多的实证性研究集中在中国社会文化价值观的变化层面。例如,Xu和Hamamura对谷歌图书语料库中的74个主题词汇进行了检索,以期找出中国民众的文化心理变化模式[20]。该研究发现,从1980年到2008年,语料库中前五个使用频率上升的话题包括开放、压力、自由、多样化和多元化,而前五个使用频率下降的话题包括服从、含蓄、阶级、温饱和中庸。同样,Zeng和Greenfield使用谷歌图书语料库对中国社会从1970年到2008年的社会价值观变化情况进行了考察[21]。其研究发现,表征个人主义价值观的词汇的使用频率有所增加,而表征集体主义价值观的词汇使用频率或者有所下降,或者与个人主义价值观词汇相比,其上升幅度较为缓慢。该研究认为,随着社会大环境诸如城镇化,经济发展以及高等教育政策的变化,中国社会的价值观也在不断地发生变化。

与上述关注文化价值观变化的研究不同,邵斌从文化组学的角度考察了浙江文化在海外的影响力[22]。该研究利用谷歌图书语料库,检索了21个与浙江文化相关的词汇。这些词汇大体上分为文化名人、古代文明、物质文化遗产和非物质文化遗产四类。研究发现,与非物质文化遗产词汇相比,物质文化遗产词汇较早得到英语世界的关注,说明英美人先认识浙江文化的物质领域,之后再扩大到非物质文化领域。另外,研究还发现,自20世纪70年代末以来,英语世界对浙江文化的关注度显著增强,说明改革开放政策的实施提升了浙江的国际影响力。

综上所述,在大数据时代,文化组学已成为一个新兴的研究领域。学者们凭借文化组学的方法,对大数据进行挖掘,从而发现文化现象的发展脉络与趋势。但是,国内丰富的文化资源与文化现象尚未引起文化组学学者的广泛关注。另外,现有的以中国作为研究背景的文化组学研究集中于探讨社会文化价值的历时演变,忽视了对中国文化在海外的传播与接受程度进行研究。文献检索还发现,学术界目前还没有专门针对甘肃文化在英语世界的传播的情况进行过系统的考察。

三、研究设计

(一)研究目的与研究问题

本研究将对谷歌图书语料库的英语子库的海量大数据进行挖掘,从实证性的角度考察甘肃文化在英语世界传播的变化趋势。研究过程中着力解决两个问题。

(1)从1900年至2008年,与其他西北省区相比,甘肃在谷歌图书语料库中的受关注程度如何?

(2)从1900年至2008年,甘肃不同类别的文化资源在谷歌图书语料库中的出现呈现出何种特点?

可以看出,本研究重点考察的时间段为1900年至2008年。将1900年作为考察的起始时间是因为20世纪见证了东西方之间一系列的文化交流事件。同时,世界历史和中国历史也在20世纪内发生了深刻的变化。将考察时间的终点定在2008年是因为GoogleBooksNgram语料库中数据收集的截止日期为2008年。2008年之后的数据谷歌公司尚未发布。

(二)语料库

本研究使用谷歌图书语料库第二版,该语料库于2012年发布。根据谷歌公司工程师Lin团队的介绍,与2010年发布的第一版相比,第二版语料库所扫描的图书数量大幅增加,总共收录了8116764本书籍,约占1500年到2008年间世界上所有出版书籍的6%,其形符(token)总数达到了8613亿[23]。该语料库下设8种语言的子库,分别是英语、西班牙语、法语、德语、俄语、意大利语、汉语和希伯来语。由于本研究旨在对甘肃文化在英语世界的传播情况进行分析,所以我们选择英语子库进行检索。英语子库是谷歌图书语料库第二版中最大的子库。该子库由454万册电子图书构成,形符总数达到了4686亿。

(三)研究步骤

研究过程分为两个步骤。第一步是确定需要考察的文化关键词;第二步是利用谷歌图书词频查看器(GoogleBooksNgram Viewer)为选定的关键词生成可视化的词频变化曲线图,以便进一步的分析。

为了解决第一个研究问题,我们首先选取西北五省区的汉语拼音名称用于检索。此外,我们还考虑到了威妥玛拼音。威妥玛拼音是一套将标准汉语读音罗马化的音译系统。该系统由英国人威妥玛(SirThomasFrancisWade)于19世纪中叶创立。在20世纪50年代汉语拼音推广之前,威妥玛拼音一直是中文最主要的英语音译系统,在西方国家有着广泛的影响。所以,除汉语拼音外,本研究也将西北五省区名称的威妥玛拼音作为检索项。西北五省区名称的检索项如表1所示。

表1 西北五省区名称检索项

在研究甘肃文化资源产业化开发时,甘露曾将甘肃的文化资源分成六类,分别是自然文化、历史文化、民族民俗文化,宗教文化、红色文化和现代文化[24]。在解决第二个问题时,我们依据甘露提出的六大类文化资源的划分,在每类中选取4个代表性词汇,总计选取出24个与甘肃文化有关的代表性词汇。随后,我们为这些词汇提供了约定俗称的英语版本。例如,兰州大学对应的英文为LanzhouUniversity,河西走廊对应的英文为HexiCorridor。但是,我们也注意到,某些词汇在英语中存在多个不同的表达方式。例如,敦煌莫高窟对应的英文可以是MogaoCaves,也可以是MogaoGrottoes,而且也存在DunhuangCaves的说法。因此,本研究在确定检索项时,也将同一个词汇的不同英文表达方式考虑在内,以期能够较为全面地进行检索。需要检索的六大类24个关键词如表2所示。

表2 甘肃文化关键词列表

在检索项确定之后,我们使用谷歌图书词频查看器为所选定的词汇生成词频变化曲线。我们勾选查看器中的不区分大小写功能以便得到更多稳定的数据。同时,我们将平滑程度设定为3,从而使生成的图像更加清晰,易于分析。

四、结果与讨论

(一)甘肃在英语世界受到的关注度

西北五省区名称的词频变化曲线如图1所示。可以发现,从1900年至1940年,甘肃在英语世界的受关注程度不断增加。这可能与甘肃是古丝绸之路的重要组成部分有关。许多西方探险家从19世纪末至20世纪初开始对古丝绸之路表现出浓厚的兴趣。特别是20世纪初敦煌莫高窟藏经洞的发现引起了英国考古学家斯坦因和法国汉学家伯希和的注意。他们来到敦煌,用胶布粘取了许多壁画,并将大量精美壁画和珍贵文献带回欧洲,引发了西方学者对莫高窟研究的巨大兴趣。自此之后,甘肃在英语世界得到了持续的关注。但是,从1940年到1949年,由于第二次世界大战和国内战争的原因,英语国家对甘肃的关注度开始下降。随后,从1950年至1965年,由于国家将甘肃作为优先发展的工业基地,英语世界对甘肃的关注出现了稳步地回升。自1965年起,甘肃在英语世界所受到的关注开始不断下降。但是,在20世纪80年代期间,英语世界对甘肃的关注有一个小幅度的回升,反应出改革开放伊始,甘肃省为了促进经济发展,加大了与西方国家交流的力度。

图1 西北五省区名称词频变化曲线

另外,图1还显示,在本研究考察的整个时间段当中,甘肃、陕西、新疆的词频出现较高,说明上述三省区是英语世界关注我国西北地区的重点。青海和宁夏受到的关注度则相对偏低,直到20世纪80年代改革开放之后,英语世界对青海和宁夏的关注才逐步增加。另外,将甘肃与其他省份进行比较,可以看出,在1940年之前,陕西受到了最多的关注,其次是甘肃和新疆。陕西受到较多的关注是因为陕西在中国历史上具有重要的历史和文化意义。但是,在1940—2008年期间,新疆跃升为英语世界在西北地区关注的焦点,而陕西和甘肃分列下降到了第二和第三位。这可能与多年来新疆所面临的分裂问题和民族问题持续受到以英语国家为代表的西方世界的关注有关。

基于以上分析,可以作出以下推断。在1949年之前,甘肃在英语世界的传播主要是受到了西方国家对莫高窟的浓厚兴趣的推动。而1949年建国后甘肃省所取得的巨大的经济建设和社会发展成就尚未通过英国国家出版的图书取得到良好的传播。这一发现从侧面印证了裘禾敏[25]关于汉语作为源语的图书在对外输出中一直处于弱势地位的论断。另外,从整个20世纪到2008年,与同处西北地区的新疆和陕西相比,甘肃几乎没有成为西方国家重点关注的地区,甘肃在英语世界中的曝光率相当有限。因此,甘肃有必要积极提高外宣能力,提升其在国际上的知名度,讲好中国故事甘肃篇,打造具有自身特色的外宣品牌,树立甘肃省良好的对外传播形象。

(二)甘肃文化在谷歌图书语料库中的分布特点

1.语料库中红色文化关键词缺失

我们将分属于六类的24个甘肃文化关键词在语料库中进行了检索,发现四个代表红色文化的关键词未能产生任何的检索结果。一方面,这说明英语世界对甘肃,乃至中国的近现代革命历史的关注程度极低。另一方面,这也反映出甘肃革命历史文化向英语世界的宣传工作不足。因此,各级宣传部门应该加大工作力度,加强甘肃革命历史文化在海外的传播。一个可以采取的具体措施是组织专家学者翻译并出版一批反应中国和甘肃的革命历史经典作品,从而促进英语国家民众对包括甘肃革命史在内的中国近现代革命历史和背景的了解。

2.20世纪70年代中后期以来文化关键词得以迅速传播

除上述表示红色文化的关键词以外,其余代表自然文化、历史文化、民族民俗文化、宗教文化和现代文化的20个关键词在谷歌图书语料库中都产生了检索结果。我们对每类关键词的检索结果进行简要的归纳。从图2中可以发现,早在20世纪40年代末,月牙泉就开始受到英语世界的关注,但其词频一直较低,保持在0.0000001%左右。从20世纪70年代中期开始,英语世界对甘肃自然文化资源的关注显著增加。例如,祁连山的词频在1998年达到了最高,约为0.00000092%,而腾格里沙漠的词频也达到了约0.00000018%。这可能是因为自20世纪70年代以来,人们越来越意识到研究和保护生态系统的重要性。祁连山作为流经河西走廊众多河流的发源地,腾格里沙漠作为中国第四大沙漠,他们在西北地区的生态系统中发挥了重要的作用,得到了英语国家持续的关注。此外,从20世纪70年代中期到80年代中期,刘家峡的词频急剧上升。这应该与刘家峡水电站于1974年竣工,是黄河上游最大的水电站有直接的关系。

图2 自然文化关键词词频变化曲线

图3反映出历史文化关键词的变化曲线。在20世纪初期,伏羲文化已经传播到了英语世界,但当时其在语料库的词频极低,只有约0.0000000118%。从20世纪70年代中后期开始,英语世界对伏羲文化的关注度开始飙升,于2008年达到了0.0000021%。这主要源自甘肃省在海内外对伏羲文化长期的推广。自1988年以来,甘肃省每年都在伏羲文化的发源地天水市举办盛大的伏羲公祭活动。此外,河西走廊从20世纪70年代中后期开始出现的频率也较高,这与河西走廊悠久的历史与厚重的文化相关。与伏羲文化和河西走廊相比,嘉峪关关城和马踏飞燕在语料库中出现的频率则相对较低。但值得一提的是,他们在语料库中出现的时间基本也都集中在20世纪70年代末,而当时正是国家全面推行改革开放的前期。

图3 历史文化关键词词频变化曲线

图4反映出民族与民俗文化关键词的词频变化曲线。从20世纪20年代中期到30年代中期的十多年中,裕固族作为甘肃特有的少数民族开始引起英语世界的关注。并且从40年代开始,尽管出现频率只有0.0000004%,但对裕固族的关注一直延续到21世纪。但是,从70年代开始,同样作为甘肃特有的少数民族东乡族的出现的频率迅速超越了裕固族,获得了英语国家读者更多的关注。在1996年,东乡族的词频达到了历史最高0.00000177%。这说明,甘肃独特的民族文化长期以来不断吸引着英语国家的读者。相比之下,牛肉面和花儿民歌的出现的频率则比较低,表明甘肃本土的饮食与民族音乐可能并不符合英语世界的口味与欣赏习惯,对西方读者的吸引力较低。

宗教文化关键词的词频变化曲线如图5所示。位于甘南的拉卜楞寺最早于20世纪初期就已经在英语国家得到了一定程度的关注。拉卜楞寺作为宗教文化关键词在整个20世纪内均有所出现。拉卜楞寺是藏传佛教格鲁派六大寺院之一,在整个藏传佛教界享有重要的地位,所以较早引发了英语国家读者的兴趣。从20世纪70年代中期开始,敦煌莫高窟和天水麦积山石窟的词频开始显著增长。尤其是莫高窟,其词频于1986年达到了0.0000012620%。尽管此后有所下滑,但莫高窟的词频曲线仍然要明显高于其他三个宗教文化关键词。这一方面说明莫高窟内精美的造像和壁画的艺术价值深深的吸引了西方读者。另一方面也说明中国的汉传佛教自20世纪70年代以来开始引发英语世界的较大兴趣。有趣的是,代表道教文化的旅游圣地崆峒山在四个宗教关键词中出现频率最低,其关注程度最高只有约0.0000001%,这从侧面说明道教文化在英语世界中尚未得到较好的传播,其影响力很低。

图4 民族与民俗文化关键词词频变化曲线

图5 宗教文化关键词词频变化曲线

图6是现代文化关键词的词频变化曲线。该图中最明显的趋势是除读者杂志以外,其余三个关键词都是在20世纪70年代中后期开始增长。出人意料的是,与其他三个关键词相比,兰州大学显然受到了英语国家明显的关注,其词频在1989年更是达到了0.00000105%。这应该与兰州大学在物理、化学、地理等领域长期以来的国际知名度以及在英语世界中出版的众多英文学术书籍有直接的关系。相比较而言,读者杂志的在语料库中出现的频率不高。这说明,尽管读者杂志被誉为是“中国期刊第一品牌”,拥有极高的知名度,但其影响力仅限于国内或海外华人圈,在以英语世界为代表的西方社会中影响力十分有限。酒泉卫星发射中心和兰州石化的频率较低,说明其在英语世界中的传播力较低。

图6 现代文化关键词词频变化曲线

在对20个甘肃文化关键词进行检索后,我们发现有关甘肃的民族类关键词和宗教类关键词早在20世纪上半叶就已经在语料库中零星出现,说明新中国成立前,甘肃在英语国家影响力很弱。但是,在20世纪下半叶,尤其是20世纪70年代中后期以后,甘肃文化关键词的词频在语料库中迅速增长,表明甘肃与英语国家间开始了全方位的交流。这一发现与邵斌(2017)对浙江文化关键词开展文化组学研究结果相一致。邵斌发现从20世纪70年代末开始,英国世界对浙江文化给予了极大的关注。这两个研究都证明,70年代末开始实施的改革开放政策不仅是对中国经济体制进行的改革,也是国际社会开始关注中国文化的转折点。

2.甘肃的历史文化与民族文化对英语世界吸引力较强

前文已对甘肃文化在英语世界中的传播情况以时间为轴进行了考察,但是每个不同的文化类别在英语世界的关注程度尚不清晰。理想情况下,应将所有20个文化关键词全部放入谷歌图书词频查看器,生成曲线图。但是,一张带有20个彩色曲线轨迹的图像难以辨认与解释。所以,我们决定将每个类别中词频最高的关键词进行横向比较,以期得到不同文化类别间的差异,如图7所示。

图7 每类别词频最高的关键词变化曲线

从图7中可以看出,从20世纪下半叶到2008年,伏羲文化和东乡族文化交替成为英语世界关注甘肃文化的焦点。这说明以伏羲文化与东乡族文化为代表的甘肃历史文化与民族文化对英语国家的读者有很强的吸引力。甘肃省应考虑进一步加大对历史文化资源和民族文化资源等非物质文化资源的开发与利用,以吸引更多潜在的西方游客。这一研究结果与邵斌(2017)研究浙江时所发现的英语国家更加关注浙江物质文化遗产的发现略有不同。究其原因,我们认为尽管甘肃长期缺乏物质资源,但甘肃作为古丝绸之路的交通要冲,在长期中外交通融合过程中形成了较为发达的非物质文化遗产。从图7中我们还能够发现,兰州大学、敦煌莫高窟和祁连山等在20世纪90年代以后出现的频率较低。这说明甘肃省的现代文化、宗教文化和自然文化在英语国家的传播尚有很大的发展空间。建议甘肃省外宣部门加大宣传力度,促进上述文化领域在英语世界的传播。

五、结语

本研究从文化组学的角度出发,利用谷歌图书语料库中的英文子库,对甘肃文化关键词从1900年到2008年在英语世界的传播情况进行了实证性考察。研究发现,与西北地区的主要省区相比,甘肃省在英语世界中得到的关注度相对不

足。针对甘肃文化在谷歌图书语料库中的分布特点,研究发现:(1)语料库中红色文化关键词缺失;(2)甘肃文化关键词在英语世界的传播主要始于20世纪70年代中后期;(3)甘肃的历史文化与民族文化对英语世界吸引力较强,而现代文化、宗教文化和自然文化的吸引力较弱。基于以上研究发现,我们建议宣传部门应采取具体的措施,加强甘肃形象在以英语世界为代表的西方社会中的全面传播。需要指出的是,本研究主要的不足之处是由于谷歌图书语料库2008年之后的数据缺失,我们无法洞察到2008年至今甘肃文化在英语世界传播的情况。另外,谷歌语料库收录语料时只考虑到了语种的差别,而忽视了英语国家内部之间图书的差异。今后研究的重点可以考察地方文化在某个特定英语国家的传播情况。例如可以使用美国英语历史语料库(CorpusofHistoricalAmericanEnglish)研究甘肃文化在具体英语国家的传播力度。

猜你喜欢

词频语料库甘肃
行走甘肃
甘肃卷
大美甘肃,我们来了
《语料库翻译文体学》评介
甘肃卷
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
词频,一部隐秘的历史
以关键词词频法透视《大学图书馆学报》学术研究特色