APP下载

语料库语言学的过去、现在与未来

2013-12-29王聪颖

考试周刊 2013年48期

摘要: 本文简要叙述了语料库语言学的历史,重点描述了语料库语言学与词汇研究,翻译理论研究,以及汉语研究等领域的合作及进展情况,指出语料库语言学对其他学科的发展作出了巨大贡献。展望了语料库语言学的未来发展方向和趋势,指出未来几十年语料库语言学将迎来繁荣期,语料库语言学必将为推动其他学科的发展发挥巨大作用。

关键词: 语料库语言学 过去 现在 未来

一、语料库语言学的发展史

语料库语言学研究是以大规模的机器可读语料为基础的,一般认为始于上世纪60年代。但是在机读语料库出现之前,语料库研究已广泛用于圣经和文学研究、词汇、方言研究等领域,这一时期也被称为“前电子语料库时期”。

在SEU语料库创建不久,英语语料库的编制进入了电子时代。语料库电子时代又分为第一代和第二代。

第一代电子语料库时期建立的主要语料库有布朗语料库(The Brown Corpus)、兰卡斯特-奥斯陆/卑尔根语料库(LOB Corpus)、伦敦-隆德语料库(LLC)等。LOB语料库由英国兰卡斯特大学和挪威奥斯陆大学与挪威人文科学计算中心共同合作建立。LOB语料库被认为可与布朗语料库相媲美,它收集了1961年出版的英国书面,同样有500篇文本,每篇约2000词,共计100万词次。1975年,瑞典隆德大学开始将英国SEU语料库收集的英语口语材料转化成机读的形式,并在原来语料的基础上增加了13篇文本,经过加工整理,收录100篇文本,于1980年建立起伦敦-隆德英语口语料库。

在第一代电子语料库的基础上,第二代电子语料库收录内容不再仅限于口语语料,语言信息更多,相比之下,更加完善,实用。第二代电子语料库主要有COBUILD语料库、朗文语料库、国际英语语料库等。

COBUILD计划是英国柯林斯出版社和伯明翰大学的一个合作项目,历时4年多,于1984年完成。1990年SINCLAIR宣布,COBUILD语料库经过扩展,更名为英语库。1997年,其所含的语料已超过3亿词次,并且还在不断扩大。朗文语料库网由英国的三大语料库组成,它们是朗文兰卡斯特英语语言语料库、朗文口语语料库和朗文学习者英语语料库。该语料库取材自1900年以来英国英语、美国英语和世界上其他主要的英语变体,涉及书面英语和口头英语两种形式,是一个覆盖范围很广的语料库,计划库容为5000万词次,到90年代早期,库容已达到3000万词次。国际英语语料库的最大特点是其严密的组织和语料库的国际性和代表性,统一的标准和周密的设计确保了语料库的质量,其潜在的研究与应用价值与日俱增[1]。

在我国已完成的语料库有上海交大的黄人杰、杨惠中主持完成的专门用途英语语料库、交通大学科技英语语料库,北京大学计算语言研究所开发建设的Babel汉英平行语料库,北外中国外语教育研究中心创建的北外双语对应语料库,以及由上海交通大学外国语学院翻译与词典学研究中心创建的莎士比亚戏剧英汉平行语料库等。

二、语料库与其他学科的关系

1.语料库的学科定位

什么是语料库语言学?很多学者和语言学家都各自给出过定义:

(1)K.Ailmer&B.Altenberg 指出,根据篇章材料对语言的研究称为语料库语言学[2]。

(2)基于现实生活中语言运用的实例进行的语言研究称为语料库语言学(T.McEnery & A.Wilson,1996:1)[3]。

(3)黄昌宁指出:“语料库语言学是80年代才崭露头角的一门计算机语言学的新的分支学科。它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用[4]。”

2.语料库的应用

语料库语言学经过半个多世纪的发展,已与多个学科结合在一起,形成典型的跨学科领域。目前,语料库已被用于词典编纂、词汇研究、句法研究、语义研究、语用研究与话语分析、文体学研究、机器翻译、社会语言学研究等领域,并取得了丰硕的成果。

(1)语料库在词汇研究领域的应用

近年来,借助语料库对于词汇学的研究取得了一定的进展。卫乃兴指出:“词语搭配是当今语料库语言学研究中最为活跃的领域,它处于中心地位。”王克非和胡显耀借助语料库对翻译汉语词汇和源语词汇进行对比分析,考察翻译汉语区别于汉语源语语料的词汇使用特征。采用定量分析研究词汇使用情况显然更有说服力,从这个意义上说,语料库在词汇研究领域十分有价值。

另外,卫乃兴在词汇搭配方面做出了积极的探索。卫指出,研究专业性搭配可进一步丰富词语搭配研究的内容,对描述科技文章中词语组合的特点与规律,其语义特点和语篇组织特点都有重要价值[5]。

(2)语料库与翻译学

语料库翻译学的创始人是以英国曼彻斯特大学翻译与跨文化研究中心MONA BAKER教授为代表的一批学者。语料库翻译学是指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计与理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究[6]。

一般来说,用于翻译学研究的语料库有平行语料库,翻译语料库,可比语料库和口译语料库等。现已建成的比较成熟的译学研究语料库有翻译英语语料库、Babel汉英平行语料库、北外双语对应语料库、中国法律法规汉英平行语料库、全国公示语翻译语料库、莎士比亚戏剧英汉平行语料库、奥斯陆多语语料库等,很多语料库资源是共享的,研究者可以根据需要选择合适的语料库[7]。

语料库翻译学研究虽然只有短短十几年的发展历史,但起步较快,发展势头迅猛。语料库翻译学区别于传统的译学,为翻译学科的发展提供了新的思路和发展方向,使得译学研究内容得到不断拓展和延伸。

(3)语料库与汉语研究

语料库语言学的发展和英语语料库的建设推动了汉语语料库的建设和汉语的研究。

我国在离散单词、简单口令的语音识别方面已经取得不少进展。90年代,中国科学院自动化研究所研制了“汉语大词汇量语音识别与口呼文本输入系统”,以声韵调为基元来进行语音识别,识别时采用了隐马尔可夫模型及人工神经网络方法[8]。

另外,在汉字识别系统的研究方面也取得了很多成绩。我国从上世纪70年代开始汉字自动识别的研究工作,清华大学、北京邮电大学、武汉工业大学等研发的系统汉字识别率都相对较高,成绩喜人。

此外,很多学者利用语料库进行语义韵研究。语料库在人工智能和外语教学等方面也大有用武之地。很多时候,语料库用于其他学科并不是泾渭分明的,语料库研究范式可以将多个学科研究有机地结合在一起,从而能够更好地服务于各个学科。

三、语料库的未来

梁茂成曾指出[9],由于大型语料库包含了大量的语言事实,无论是从事理论研究的理论语言学家,还是从事实研究的经验语言学家,语料库都将成为最重要的数据源。

在未来语料库语言学探索的道路上,其发展趋势将会呈现以下特点:

首先,随着科技的进步,尤其是计算机网络信息技术的爆炸式发展,语料库的库容将不是难题。语料库的容量将会进一步增大,以满足增大样本的需求,以便于更加全面客观地进行语言研究。

其次,语料库的类型将会更加多样化。为了不同学科和研究的需要,未来的语料库将会更加多样,以适应不同研究的需要。

再次,语料库与其他学科的联系将会更加紧密,甚至语料库与多个学科同时融合在一起,从而更好地开展研究工作。正如刘满堂指出,随着语料库应用领域的不断扩大,语言研究各领域越来越依赖于电子语料库这一研究工具,语料库语言语言学正逐渐成为一个跨学科的语言学分支[10]。语料库与翻译学、词典学、计算语言学、人工智能等学科结合,必将极大地促进各个学科的发展。

四、结语

语料库语言学是一门新兴的学科,同时它又是一门交叉学科。基于这点,语言库语言学有着广阔的前景和发展空间。未来语料库自身建设和完善是摆在研究者面前的新的有意义的课题。此外,语料库与其他各个学科的结合和应用还有待进一步探索。

参考文献:

[1]刘满堂.近40年英语语料库及语料库语言学研究的回顾与展望[J].陕西教育学院学报,2004,20(1):98-100.

[2]Ailmer,J.& B.Altenberg(eds.) English Corpus Linguistics:Studies in Honor of Jan Svartvik[C].Longman.1991.

[3]T.McEnery,A.&A.Wilson.Corpus Linguistics[M].Edinburgh:Edinburgh University Press,1996.

[4]黄昌宁.语料库语言学[M].北京:商务印书馆,2002.

[5]卫乃兴.专业性搭配初探[J].解放军外国语学院学报2001,24,(4):20-23.

[6]胡开宝.语料库翻译学概论[M].上海:上海交通大学出版社,2011:1.

[7]胡开宝.基于语料库的莎剧《哈姆雷特》汉译本中“把”字句应用及其动因研究[J].外语学刊,2009(1):111-115.

[8]冯志伟.基于语料库的机器翻译系统[J].术语标准化与信息技术,2010,1:28.

[9]梁茂成.理性主义、经验主义与语料库语言学[J].中国英语教育,2009,4.

[10]刘满堂.近40年英语语料库及语料库语言学研究的回顾与展望[J].陕西教育学院学报,2004,20(1):102.