APP下载

语料库在报刊英语研究中的应用

2015-11-07孔霜梅

科技视界 2015年32期
关键词:语料库

孔霜梅

【摘 要】语料库语言学为语言研究与教学提供了一种全新的方法和思路。报刊英语语料库为语言研究提供了崭新的研究视角,让语言研究更加科学客观,对报刊英语语言的研究和教学做出了巨大贡献。 本文主要回顾国内外报刊英语语料库的建设和应用成果,指出国内对报刊英语研究的不足之处,同时展望报刊英语语料库的发展趋势。

【关键词】语料库;报刊英语语料库;报刊英语研究

1 语料库

20世纪60年代初夸克(Randolph Quirk)等人创建了现代英语语料库。现代英语语料库对英语语言学界产生了深远的影响。语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言文本或话语片段而建成的具有一定容量的大型电子文库[1]。80年代之后,语料库语言学成为一门新兴语言学分支学科。语料库语言学是在语料库的基础上对语言进行分析和研究的科学,为语言研究与教学提供了一种全新的方法和思路。语料库语言学研究语言行为,而不是语言能力,它通过研究语言在实际情景中的运用来获取语言的使用规律。近年来,随着第二代大规模语料库的诞生,不断地涌现出语料库研究的相关成果,研究内容涉及到二语习得、句法和语义、音系学、翻译和个人自主学习等方面。语料库在现代语言学研究和语言教育中发挥着越来越重要的作用,为语言研究提供了崭新的思维模式。

报刊英语语料库属于新闻英语语料库的一个重要分支。是根据统计学理论、语料库语言学理论和新闻学理论,运用科学的抽样方法,收集报刊中自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库[2]。随着科技信息和电脑技术的发展,大量的语料库应用工具使得语言学工作者在进行语料库研究的时候能够像操作计算机文件系统一样方便的使用语料库。报刊英语语料库借助计算机处理语料,需要对语料库进行文本分析和检索。语料库研究中常用的检索工具有MicroConcord、Wordsmith Tools、Concordance、TACT (Text Analysis Computing Tools)等,它们的基本功能包括词表生成、语篇统计、排序等等[3]。这些语料库的检索工具和分析软件都能够应用于语料库, 帮助报刊英语研究者实现可行性的研究目标。

报刊英语语料库为语言研究提供了崭新的研究视角,让语言研究更加科学客观,对报刊英语语言的研究和教学做出了巨大贡献。 本文主要回顾国内外新闻英语语料库的建设和应用成果,指出国内新闻英语研究的不足之处,同时展望英语报刊语料库的发展趋势。

2 国内外报刊英语语料库研究现状

2.1 国外报刊英语语料库的研究现状

路透社语料库于2000年开发完成。收集了从1996年8月20日到1997年8月19日英国路透社发布的806791篇新闻样本,共2亿词次。该语料库由路透社开发,采用了扩展标记语言,具有扩展性、开放性、结构化、互操作性和支持多国语言的特点,为英国通讯社语言的学术研究提供了参照。

北美新闻文本语料库由美国宾夕法尼亚大学语言学数据协会的David Graff组织开发完成。该库主要应用在信息检索和语言建模两方面。该库采用标准通用置标语言SGML,共3亿5千万词次。库样本主要来自《洛杉矶时报》、《华盛顿邮报》、 《纽约时报》 和路透社从1994到1997年的新闻文本。为新闻报刊的语言研究提供了参照。

罗斯托克英语报刊历史语料库由德国罗斯托克大学的学者Kristina Schneider组织开发。该库主要用于英语新闻业的历时研究。样本来自60家英国报纸,时间自1700年到2000年,以大约30年为间隔进行等距抽样。库的结构分布以两条小报轴线和一条大报轴线为标准,每条轴线上的每个时期取样本2万词次,全库规模达60万词次。该语料库为英语新闻语言的原型研究和不同时期不同报刊语言的平行比较研究提供了参考。

METER语料库是由英国设菲尔德大学在英国工程物理科学研究会的资助下开发的一个对比语料库。库样本来源于英国报联社(British Press Association, PA)和9家采用PA原始通讯稿的英国全国性报纸。该库帮助研究者对通讯社新闻文本和英文报纸新闻文本之间的微妙关系以及新闻文本再使用的过程、原则、识别提供了参考。

苏黎世英文报纸语料库是个历时语料库。 该库采样于1671年至1791年共120年间的英国报纸,总词次达120万。语料库采用标准化SGML体系,分为两大部分,国外新闻和国内新闻。所有语料以30年的时间等分成四部分。该语料库不仅促进了对17和18世纪英文报纸的研究并且使报刊语言特点的历时比较成为可能。

贝德娜雷克英国报纸语料库由悉尼大学语言学系的Monika Bednarek创建。仅7万词次,但报纸和新闻的各个要素基本上都考虑在内,而不像大型语料库那样直接收录不加以区分。该语料库对英国的大报和小报进行了专门划分,故有两个子库,大报库和小报库。专门用于对英国报纸语言进行比较话语分析。

另外,美国国防部高级研究规划署开发了《华尔街日报》口语语料库,英国剑桥大学开发了剑桥版英国口音《华尔街日报》口语语料库。口语语料库用于连续语音识别系统研究,为报刊英语的口语研究提供了参考。

2.2 国内报刊英语语料库的研究现状

受国外语料库语言学研究和发展的影响,国内语料库的建设和研究也呈现出快速发展的趋势。但是报刊语料库的建设还不完善,基于语料库的报刊语言和教学的相关研究却还在起步阶段。

郑志恒博士开发了国内首个百万词级的报刊英语语料库。该库的建设采用数据驱动的实证主义研究方法,定性和定量相结合的分析手段。全库采用SGML置标语言,能够方便使用Wordsmith Tools等语料库分析和检索软件进行识别处理。该语料库有四个子库, 分别为英国报刊纯新闻报道文本子库、英国报刊意见性报道文本子库、美国报刊纯新闻报刊文本子库和美国报刊意见性报道文本子库。

范蓓依据语料库的建库原则,以《中国日报(英文版)》 头版新闻为语料建立小型语料库。该研究主要利用语料库回答了两个问题:《中国日报》的语言在改革开放三十年中有哪些变化? 造成这些变化的原因是什么? 研究结合历时语言学和社会语言学的研究成果,通过对词频、词汇搭配、典型句型特征、关键词对照等方面进行历时性研究,展示了语言在不同年代的使用情况,揭示了语言变化格局,佐证了社会的发展与变迁[4]。

对外经贸大学的徐珺结合语料库技术和商务英汉翻译理论,构建财经新闻英汉平行语料库。应用语料库对财经新闻英译汉的翻译语言特征进行了研究[5]。该库样本主要来自《金融时报》、《华尔街日报》、《福布斯》、《财富》及其相应中文网站的财经新闻的报道,时间范围是2012年6月至2013年10月,共计935个英汉平行文本,全部文本实现了英汉段落层级对齐。

3 结语

语料库不是简单的任意话语的集合,它是依据科学的抽样原则而选择的有限话语集,语料库要以计算机可处理的形式储存,要具有代表性,而且要最大限度地反映研究对象的特点[6]。报刊英语语料库同报刊的大型电子文档有着最本质的区别。报刊英语语料库实际上是通过对报刊中自然语言运用的统计学抽样,以一定大小的语言样本代表报刊英语中所确定的语言运用总体[7]。国内的语料库被广泛应用于教学、翻译、词汇、语义、词典和语法等语言研究领域。我国语料库研究已取得了丰硕的研究成果,但同时也存在一定的问题。在今后的研究中,应该充分地利用语料库对新闻类语言展开更深入的研究,从而促进英语报刊语料库建设和应用的发展。

【参考文献】

[1]杨慧中. 语料库语言学导论[M].上海: 上海外语教育出版社,2002.

[2]郑志恒. 英美报刊英语标注语料库建设研究[J]. 外语研究, 2007(2).

[3]余国良. 语料库语言学的研究与应用[M].四川大学出版社,2009.

[4]范蓓. 基于语料库的《中国日报》语言变化历时分析[D]. 上海师范大学,2009.

[5]徐珺, 自正权. 基于语料库的英语财经新闻汉译本的词汇特征研究[J]. 中国外语,2014(5).

[6]McEnery,T. &A.Wilson.Corpus Linguistics [M].Edinburgh: Edinburgh University Press, 2001.

[7]郑志恒.报刊英语语料库概论[M]. 南京大学出版社, 2009.

[责任编辑:曹明明]

猜你喜欢

语料库
《语料库翻译文体学》评介
基于语料库的“はずだ”语义用法分析
基于语料库“隐秘”的词类标注初步探究
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
基于英汉双语平行语料库的无根回译研究
基于语料库的近义词辨析研究——以suspect和doubt为例
低碳经济英语语料库建设与应用
基于网络语料库的“给力”研究