对自建小型语料库的理论探索
2020-09-10宋元元
【摘要】 20世纪以来,语料库语言学蓬勃发展。在外语教学中,语料库的建设与应用已成为一个有效的教学手段。其中小型语料库的自建与应用引起越来越多的关注和重视。然而,对于外语教师和科研工作者而言,在自建小型语料库前应该掌握一些必要的理论原则。本文探讨了什么是语料库语言学、小型语料库的定义、代表性和存在意义,为今后自建小型语料库做好充足的理论准备。
【关键词】 语料库;语料库语言学;小型语料库;代表性;存在意义
【中图分类号】H319 【文献标识码】A 【文章编号】2096-8264(2020)15-0089-02
一、前言
随着计算机技术的发展,以电子形式保存语言材料而存在的语料库应用于语言研究和语言工程中用以揭示语言规律的方法,成为主流。大型语料库在语言研究、语言教学、词典编纂等方面取得显著成果的同时,自建小型语料库也逐渐兴起,引起愈来愈多的关注。杨惠中教授在《语料库语言学导论》一书中指出语料库的设计和建设是在系统的理论语言学原则指导下进行的。因此我们建设以教学为目的的小型语料库时,首先要从理论原则上进行梳理,采取科学审慎的态度。
二、语料库语言学与语料库
语料库语言学是语言学、计算机科学、认知语言学和应用语言学边缘的一门新的交叉学科,以真实的语言数据为依托,对大量的语言事实进行宏观分析,从而揭示语言使用的规律,已逐渐成为语言研究的主流。它从真实语言事实的角度揭示自然语言的复杂性。虽然对语料库语言学的研究经历了不短的历史,但至今还没有一个公认的定义。Corpus linguistics is not an end in itself but is one source of evidence for Improving descriptions of the structure and use of languages, and for various applications, including the processing of natural language by machine and understanding how to learn or teach a language.(何平安,2019:3引自Kennedy,2000)
在语料库语言学定义中,围绕着两大核心元素展开:语言学和语料库。语言学是指研究各种语言的学科。语料库的定义在不断的发展中,至今没有统一标准。
“corpus”一词来自拉丁语“corpus”英文表达为corpus,法文亦是corpus,译为“文集”“汇总”之意。语料库是自然发生的语言文本的集合,用来描述一种语言的状态或变体。集合语料库的全部目的是收集大量的数据。(A corpus is a cleection of naturally-occurring language textm chosen to characterize a state or variety of a language. The whole point of assembling a corpurs is to gather data in quantity.)(何平安,2019:2引自Sinclair,1991:171,1995:121)。眾多语言学家如赫努、里奇等都有各自的语料库定义。我国语言学家杨惠中教授认为语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库(杨惠中,2002:33)。本文涉及的语料库是指以电子文档形式构成的计算机语料库。
语料库语言学的发展将语料库广泛应用于语言研究、语言教学、语言工程等各种领域。语料库方法不仅代表着一种新的研究方法,也代表着新的思维方法、一种全新的事业(杨惠中,2002:35 引自Rundell 1996:2)。语料库必将在未来的语言教学中发挥不可磨灭的作用,没有语料库数据支撑的语言教学是不完整的。
三、小型语料库
语料库的类型从语言种类划分有单语、双语和多语语料库,从应用层面划分有通用和专用语料库,从语料信道划分为书面语和口语语料库等等。但是什么是小型语料库,从哪一层面进行划分呢?小型的对立面是大型或超大型语料库。语料库建设初期,有一百万词的计算机语料库就被视为大型语料库,而现如今随着计算机技术的发展,这样大型的语料库已沦为小型语料库。什么是大什么是小,至今语言学界仍没有统一定论。从语料库规模上来看,划分大小的依据模棱两可。辛克莱Sinclair(1991)建议,1000-2000万词次可以构成一个有用的、小型的一般语料库。辛克莱着重强调了一般普通语料库,而小型语料库多属于专用语料库。Susan Hunston (2006)指出世界上存在成千上万的,为了特殊研究目的而建成的,仅含有几千个词条的语料库。
语料库的大小取决于语料库的设计原则和研究需求,以及建库过程中语料资源的获取难度及其他因素(杨惠中 2002:37)。本文涉及自建的语料库是专门用于《基础法语》课程中语法教学专用语料库,旨在帮助低年级法语专业学生提供重点词汇的应用信息,提高法语专业四级的通过率。因此,本语料库是小型专用语料库。
四、小型语料库的代表性
笔者此文中谈及的小型语料库是外语(法语)教学专业语料库,是一种专门语料库(corpus spécialisé)。本语料库的设计和建设是按照明确的语言学原则指导下进行的,采用随机抽样方法收集语料,并不是简单的语料堆积,不是大型文档。决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小(杨惠中2002:36)。我们采用随机抽样法,抽样的范围是我校《基础法语》课程所涵盖的全部教程和习题,包括外研社出版的马晓宏《法语1、2、3、4》和即将更换的新教材《En route》,习题主要是围绕法语专业四级考试所应用的习题教程,还包括2010年-2019年的法语专业四级考试的真题。然后再确定语料的分层结构如书面语和口语对话,新闻报道、小说、诗歌等。我们通过控制抽样过程和缩小语料比例关系偏差,来增强小型语料库的代表性。
对于一些语料库研究者来说,语料库的容量越大,语料库的代表性越强。可见小型语料库因为其词容量有限,其代表性受到质疑。“围绕某些可识别的文类与各种语体标准所提供的语料库材料,其构成应以用户需要为基础,即用户能够根据自己的学习和研究需要,通过汇集(语料库材料)或把语料库重新切割成各个微型语料库,获得自己的平衡和代表性”(杨惠中2002:45 引自Murison-Bowie 1993:50)。也就是说考虑到语料库的研究目的和具体用途,语料取样保持良好的平衡,即使是小型语料库,其代表性也是不容置疑的。
何平安教授也指出在建立小型教学语料库过程中要注意语料的语域定位、语料的典型性和实用性、语料的时代性、语料的规模大小和语料的难度五大问题。那么在系统的理论语言学原则指导下建设的小型语料库,其代表性不会降低反而会增强。小型语料库的代表性虽有质疑,但也可以在某种特殊目标性建库中凸显,发挥此语料库的功用。
五、小型语料库存在的意义
语料库语言学的蓬勃发展反映了人类对知识的渴望、对语言使用的需求和对现代科学技术发展的推动力。国外比较著名的语料库有美国英语版的BROWN和英国英语版的LOB笔语语料库、美国密歇根大学的MICASE、欧盟投资建设的七国青少年外语学习平台Sacodey1、BNC英国国家语料库、RWC日语语料库等等。
20世纪80年代,我国的语料库语言学开始起步,上海交通大学建立了国内首个百万词的科技英语语料库JDEST(何平安2019,10引自Yang,1986)。何平安教授指出国内语料库语言学自21世纪以来逐步推开,其中特点之一语料库应用在外语教学中其作用和价值不断凸显,语料库的用户群体也不断增长,外语教师、学生等尝试设计建立自己的语料库。小型语料库数量激增。
将语料库应用于语言教学已不再是一种创新的方法(Natalie Kübler,2014)。
为什么在教学过程中不使用现成的、标注的大型语料库呢?原因一是网络上现成的大型语料库价格昂贵,对教师而言可及性不高。原因二是大型语料库多是标注型熟语料库,需要使用者具有良好的技能知识才能使用。对教师来说负担过重。原因三是大型语料库提供的数据冗余。例如在法兰西库(Frantext)中搜索动词connaître的搭配,显示上千条词例,这对于教师教学和学生学习而言,词例过多反而不易掌握该词的教学目标。
随着计算机技术的发展,语料库索引软件大量涌现。而且很多软件不是为某一语料库单独设计开发的,而是可以应用于不同类型不同語种的语料库,有些甚至是免费的如AntConc、Wordsmith Tools等等。借助先进的语料库软件,基于合理的语言学理论建立的小型语料库,应用于外语教学和学习中,势必使我们的外语学习事半功倍。
自建小型语料库的优势是可以根据自己的目标选择特定的语料,可以更好地实现教学(Natalie Kübler,2014)。外语教师在自建小型语料库的过程中并将语料库应用于教学,不仅仅结合了自身的语言经验和语言直觉而且利用先进的技术,基于数据驱动原则,真正体现了外语教学的科技性和先进性。
六、结语
计算机技术飞速发展,势必促进语料库资源的普及。建立小型教学专用语料库,不仅操作相对简单,还可以加深广大外语教师对语言的认识,方便他们的教学与研究。语料库终将成为外语教师教学中常用的工具。但小型语料库的建设仍存在很多不确定的问题。因此在自建小型语料库前要先进行理论方面的探索。
参考文献:
[1]梁茂成.利用WordPilot在外语教学中自建小型语料库[J].外语电化教学,2003,94,(06):42-45.
[2]赵宏展.对小型语料库的初步研究[J].辽宁行政学院学报,2006,12:214-215.
[3]Natalie Kübler. Mettre en oeuvre la linguistique de corpus à l’université[J]. Recherches en diadactique des languues et des cultures,2014.
[4]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.
[5]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2007.
[6]何平安.语料库辅助英语教学入门[M].北京:外语教学与研究出版社,2019.
[7]Susan Hunston.应用语言学中的语料库[M].北京:世界图书出版社公司北京公司,2006.
作者简介:
宋元元,女,满族,辽宁凤城人,硕士,研究方向:外国语言学及应用语言学。