基于自建酒店西班牙语小型语料库的研究和应用
2017-08-31刘皓
刘 皓
(西安外国语大学,陕西 西安 710128)
【语言与文化】
基于自建酒店西班牙语小型语料库的研究和应用
刘 皓
(西安外国语大学,陕西 西安 710128)
随着我国经济的快速发展,西班牙语专业因其广泛的用途越来越受到重视。本文在自建酒店西班牙语小型语料库的基础上,利用Word Smith软件分析了酒店西班牙语语言的特征及西班牙酒店网页的语言特色与功能,以为进一步建设汉西双语语料库奠定基础、积累经验。
酒店西班牙语;语料库;WordSmith
一、研究背景
汉语、英语和西班牙语是世界上使用人数最多的三种语言。近年来,随着全球经济的飞速发展,西班牙及拉美等国在国际贸易往来中扮演着越来越重要的角色,西班牙语俨然已成为使用最广泛的国际贸易往来语种之一。[1]2007年,在哥伦比亚召开的第四届世界西班牙语大会上,西班牙语国家的一些经济学家和出版专家一致认为,随着中国和西班牙语国家经济的崛起,汉语和西班牙语将削弱英语在经贸领域的主导地位。[2]可见,英、汉、西“三足鼎立”的时代已经到来。
在大数据的时代背景下,语料库语言学在经历了近半个世纪的发展,得到了相当程度的普及,并且日趋成熟。具体表现为从最初语料库的建设、检索工具的研发等初级阶段迈向了系统的理论创新和广泛具体的实际应用阶段。
西班牙语语料库的研究以西语国家(西班牙、墨西哥等)为主,主要有CORPUS DEL ESPAOL, Corpus—Spanish FrameNet Project, Spanish Learner Language Oral Corpora(SPLLOC)等。西班牙皇家语言学院的“21世纪语料库”是世界上规模最大的西语语料库,收录有现在西班牙和拉丁美洲最新的3亿个西班牙语词条。以西语为第二语语料库(CEDEL2)和西班牙语学习者口语语料库(SPLLOC)是以母语为英语的西班牙语学习者为语料建立的语料库。中国台湾成功大学建设的“台湾多国语言学习者语料库”,其中包括台湾西语学习者语料库。
虽然汉语和西班牙语是世界上使用人口最多的语言,但由于历史的原因,现有汉语和西班牙语料资源较少,处理难度高,国内的研究才刚起步。
旅游业是西班牙的第一大产业,也是中国急需发展的绿色产业。基于西班牙语使用的广泛性、中国和西班牙旅游的国际地位和旅游业对酒店的需求,笔者建立了一个酒店西班牙专业语料库,并对其进行了初步分析与研究。
二、酒店西班牙语料库的建立
对任何语料库的研究都从语料库的建设开始,语料库的建设主要包括语料库类型确立、语料的选取及语料入库等环节。
(一)语料库类型与选材原则
Donkd E. Walker将语料库划分为异质型、同质型、系统型和专用型四种类型[3],语料库的用途是确定语料库类型的主要依据。[4]酒店西班牙语语料库主要是针对从事酒店业务的管理者和消费群体,其是一个专用型的西班牙母语语料库。
语料库的类型确定后,就要制定语料库的选材原则及选材范围。在此过程中,考虑到该语料库的目的和使用对象,并按照通用性、描述性、实用性、科学性、现势性等原则选择酒店网页作为语料库建设的材料及研究对象。和传统类型的文本材料相比,网页具有一系列独有的附加优势,因为它处在一个不断更新的环境中,它所提供的语料不管是在形式上还是内容上,都处于不断更新、日趋丰富的过程中。基于本小型教学语料库的用途,具体所采集的酒店网页语料文本涉及以下四类。
1.简介类:一般位于酒店官方网站的首页,用于劝说和促使消费者购买酒店的服务,接受采取某些消费行为的信息。
2.设施设备类:空调、电视、通风设备、服务、餐厅、迷你吧台、自助餐、吹风机、无线网络、洗衣店、自动贩卖机等。
3.运营管理:预定、取消、办理入住、退房、酒店政策、价目单、促销等。
4.评论类:该类评论语料可从网上采集,其提供了丰富的用于表达观点、情感、评价的文本材料。
(二)语料库的规模
根据语料库类型与选材原则,本文选取了西班牙三大自治区安达卢西亚、加利西亚及瓦伦西亚不同星级的46家酒店的网页文本共计2.1万字作为具体的语料数据,并将其保存为“txt”格式导入WordSmith软件进行具体的研究分析和应用。
三、利用Word Smith对自建语料库进行分析
Word Smith Tools软件是英国语料库专家麦克尔·斯考特(Mike Scott)设计编写的,它共包含Word List(单词列表工具)、Key Words(主题词检索工具)、Concord(检索工具)、Splitter(文本分割工具)、Text Converter(文本替换工具)、Viewer(文本浏览工具)六个程序。[5]其中,Word List、Concord是主要的文本检索工具,也是笔者用于酒店西班牙语语料库具体研究分析的主要工具。
(一)Word List(单词列表工具)
Word List最主要的用处在于生成语料库所涉及文本的总体信息列表,以及语料库中单词使用的频率列表。前者显示的数据主要包括以下几个方面:第一列为所有文本的总体数据,其他各列则分别显示各个文本的具体对应数据;第一行Text File为文本名称,第二行Bytes为各个文本所包含的字节,第三行Tokens为词次,第四行Types为类符数,第五行Type/Token Ratio为类符、词次比,第六行Standardised Type/Token为标准化的类符/词次比,第七行Ave. Word Length为单词平均长度,第八行Sentences为句子数量,第九行Sent.length为句子长度,第十行sd.Sent. Length为标准化句子长度,第十一行paragraphs为段落数,第十二行Para.length为段落长度,第十三行sd.Para.length为标准化段落长度;另外若干项分别显示了不同字母个数的单词在文本中的数量,具体如图1所示。
图1 单词词表统计
而语料库中单词使用的频率列表可按照需要生成两种顺序的单词频率列表:语料库中所涵盖的所有单词即可按照字母顺序排列,也可按照单词出现频率从高到低进行排序,依次显示它在所选文本中出现的次数(Freq)及该词占文本总单词数的百分比率(%)。单词频率列表提供了更多研究语料库词汇的可能,其具体可以应用于以下几方面。
1.可以利用按照字母顺序排序的单词频率列表进行不同词性同根词的学习。
2.确定专门用途语料库中的常见词块,并进行有针对性的教学。
3.比较不同文本中特定词汇的使用频率。
4.比较不同语言中对认知词汇对应翻译语的使用频率。
5.制作酒店西班牙语专门用途单词列表。
(二)Concord(检索工具)
Concord主要用于查询和统计语料库中某个或某些词汇或短语出现的频率数。相较于传统字典只能给出单词的意思及少量例句而言,它的优势在于可以通过语境跨度(span)及语境词的设定来对检索词进行高级检索,进而检索出所有文本中符合检索条件带有检索词的语句。通过大量原汁原味的句子,可以更好地学习检索词在不同真实语境下的使用方法。例如,输入的检索词为habitación(房间),设定为“5L to 5R”,即把语境跨度设定为从检索词左边第5个词开始到检索词右边第5个词截止。[6]它是所导入的三个文本中所有包含habitación检索词的语句,共有161项,其中,第一项有5 264个词(占86%),其源文件是hotele-1.txt.(具体如图2所示)。
通过检索列表,可以一目了然地看出哪些词可以和habitación一起搭配使用,进而反映出西班牙语酒店业中不同房型的表达方法:habitación individual;habitación simple, habitación doble;habitación triple, habitación cuádruple;habitación standard/
estándar, habitación;superior, habitación matrimonial, habitaciónfamiliar, habitación de luxe, habitación;club superior, habitación suite, habitación;classic, habitación ejecutiva,等等。
此外,Concord检索功能还提供了诸多选项卡,通过这些选项卡可以获得与核心词(即检索词)搭配相关的更多数据及信息,如使用最为广泛的“clusters”“collocates”及“patterns”。下面仍以habitación检索词为例,分别介绍这三种工具的具体用法。
1.Clusters可以用来分析带有检索词的词丛,即其常见的组合方式,按照频率从高到低进行排序,在专门用途西班牙语的教学中就可以做到有的放矢(图3)。
图2 Concord检索功能示例
图3 词从列表示例
2.Collocates主要用于观察与检索词进行搭配的词汇、二者共同出现的频次以及该搭配词汇的具体位置。以habitación一词为例(图4),列出三个文本中与其搭配的所有单词,并以频率从高到低的顺序进行排列。分别显示搭配词与检索词共同出现的频次、搭配词位于检索词左侧的频次、搭配词位于检索词右侧的频次,以及具体到以检索词为中心左右各五个跨度搭配词的频次。例如,habitación在和servicio搭配时,在所有文本中共同出现了38次,其中,servicio位于habitación左侧的有28次,位于其右侧的有10次。更具体的位置,servicio位于habitación左五位置出现了2次,左四1次,左三3次,左二21次,左一1次,右二5次,右三1次,右四1次,右五3次。由此可以看出,这两个词汇在搭配时的偏好位置为servicio处于habitación左二位置。
图4 collocates列表示例
3.Patterns工具用来生成和检索词在各个位置高频搭配词的总结列表。通过该表,核心词和各种词性单词的搭配位置及用法一目了然。图5是以habitación一词为检索词所生成的patterns列表,可以明显看出,和其所搭配的高频形容词有“individual”“estándar”“amplia”“doble”“exterior”“ juniro”“ deluxe”等,和其所搭配的高频动词有“disponer” “tener”“ofrecer”“ ser”等。
图5 Patterns列表示例
四、结语
(1)运用WordSmith4.0分析了酒店西班牙语语言的特征与应用,以及西班牙酒店网页的语言特色与功能。本文是将语料库语言学应用于旅游酒店领域的研究尝试,结合语料库和行业标准,以期探索行业西班牙语言研究新模式。
(2)中国语料库的研究历经35年的发展,研究成果颇丰,但仍存在一些研究不足。当下研究多局限于英语和汉语,西班牙语、法语、俄语等语言的语料库研究较少,阿拉伯语语料库的文献更是空白。酒店西班牙语小型语料库的建设在西班牙语料库方面进行了有益的尝试,其为进一步建设汉西双语语料库奠定了基础,积累了经验。
(3)运用Word Smith等文本分析工具对语料进行分析、研究与应用,突破了传统的西班牙语教学模式,为学习者创造了广阔的平台。
[1]栾昀.我国专门用途西班牙语(EFE)教学探讨[J].青年文学家,2012,(6):56-57.
[2]许云鹏,林如萱.汉语和西班牙语将削弱英语的主导地位[EB/OL].(2007-03-29)[2017-03-25].http://news.xinhuanet.com/world/2007-03/29/content_5910803.htm.
[3]刘连元.现代汉语语料库研制[J].语言文字应用,2013,(5):3-9.
[4]张淑文.CONULEXID语料库系统中的文章库介绍[C].中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集,2001.
[5]申蕾,李晓霞,赵莉.基于语料库研究方法对《孙子兵法》中外两个英译本的分析[J].长春师范学院学报(人文社会科学版),1996,(3):81-83.
[6]王立非,梁茂成.Word Smith方法在外语教学研究中的应用[J].外语电化教学,2007,(115):3-7.
【责任编辑:王 崇】
H319;H34
A
1673-7725(2017)07-0176-04
2017-05-10
刘皓(1986-),女,陕西西安人,助教,主要从事西班牙语与语料库研究。