语料库分类体系与大学医学英语教学

2018-09-10罗永胜傅顺

高教学刊 2018年15期

罗永胜傅顺

摘要：各式各样的语料库已经建立，然而没有一个自上而下的分类体系。文章在已有语料库类型的基础上总结出语料库分类视角和标准，并讨论了语料库类型学对医学英语教学与研究的启示。

关键词：语料库；分类；视角与标准；医学英语教学

中图分类号：G642 文献标志码：A 文章编号：2096-000X（2018）15-0105-03

Abstract： Various corpora have been established， but there is no top-down classification system. Based on the existing corpus types， this paper summarizes the perspective and standards of corpus classification， and discusses the implications of corpus typology for medical English teaching and research.

Keywords： corpus； classification； perspective and standard； medical English teaching

语料库类型学研究已经相当成熟，几乎任何一本语料库介绍方面的著作或者论文都会涉及到语料库的分类问题。比如Sinclair（1991：23）根据语料来源和用途将语料库分为两种：一是样本语料库（Sample Corpora），二是监控语料库（Monitor Corpora）。Kennedy（2000：19-23）根据不同标准将语料库分为通用语料库（General Corpora）和专用语料库（Specialized Corpora）；书面语料库（Written Corpora）和口语语料库（Spoken Corpora）；抽样文本语料库（Sample-text Corpora）和全文本语料库（Full-text Corpora）；原语语料库（Raw Corpora）和标注语料库（Parsed Corpora）；静态语料库（Static Corpora）和动态语料库（Dynamic Corpora）；历时语料库（Diachronic Corpora）和共时语料库（Synchronic Corpora）。杨惠中（2002：29）则将语料库分为通用语料库、专用语料库、口语语料库、学生英语语料库、平行语料库等五种。何安平（2004：3-4）则把语料库分为原始语料库，赋码语料库，平行语料库，学习者语料库，网格式语料库。秦洪武，王克非（2014：2-7）区分了历史语料库与历时语料库。不难看出，这些分类没有统一的标准和体系，也没有形成共识，只是对已有的语料库类型进行命名，没有从顶层设计上对语料库进行一个基于类型学的系统分类。此外我们在对近15年我国医学英语语料库研究现状也发现类似的问题：各式各样的医学英语语料库已经建立，但是没有自上而下的分类体系。本文拟在已有语料库类型的基础上总结出语料库分类标准，然后谈谈各种类型的语料能够给医學英语教学研究带来什么样的启示。

一、语料库的分类视角和标准

任何事物的分类，必然有一个标准。标准的前提是视角。视角不一样，标准就不一样。比如目前世界上有几十亿人口，如何对这些人进行分类？根据肤色来分，可以把人分为白色人种，黑色人种，黄色人种和棕色人种。黑、白、黄、棕四种颜色是分类的标准，而肤色是视角。根据年龄来分，可以把人分为婴幼儿，少年人，青年人，中年人，老年人。年龄是视角，而年龄的大小则是标准。根据国别来分，可以把人分为中国人，美国人，英国人等等。国别就是视角，而个人所属的国籍就是标准。目前语料库的分类基本上没有区分视角和标准两个概念。大部分语料库的著作中只是描述了语料库的类型，但是并没有说清楚分类的视角和标准是什么。比如Sinclair（1991），何安平（2002），他们在自己的著作中详细地描述了各种类型的语料库及其特点——尽管从这些分类中，我们可以看出作者的分类视角和标准，但是他们并没有讨论分类的视角和标准是什么。

（一）语料库的分类视角

根据Sinclair（1991），Kennedy（2000），杨惠中（2002），何安平（2004），Mayer（2008），秦洪武，王克非（2014）等对语料库的分类，我们至少可以总结出以下语料库分类视角：第一、语料库的语料来源。语料源自何处？源于英国英语，美国英语，加拿大英语，中国英语，印度英语，还是香港英语？第二、语料库的收集方式；语料是如何收集起来的？通过抽样分析还是全文分析？第三、语料库的语料库处理程度。语料收集好之后，如何处理？处理到什么程度？第四，语料库主要用途。用于语言学习，还是用于语言监控？是用于分析一门语言的一般特征？还是用于分析某一特殊语言现象？第五、语料库语料层次。产出语料的人员水平如何？是外语学习者还是本族语使用者？第六、语料库时间属性。语料库是按照共时原则收集的还是按照历时原则收集的？收集的语料是什么时期的？第七、语料库包含语言的种类。语料库包含几种语言？一种、两种，还是三种或者更多？第八、语料库语言形式载体，语料是口语的，还是书面语的，或者说多模态的？第九、语料库的规模。语料库里面包含有多少词语？几百万、几千万，还是10亿以上？

很容易看出，语料库分类的视角实际上就是制定分类标准的起点。从某一视角出发，可以提出各种各样的问题。这些问题的答案就是语料库分类的标准。视角不一样，问题的起点就不一样，得出的标准就不一样。而标准不一样，语料库类型就不一样。同一个语料库，从不同的视角出发，可以是不同类型的语料库。之所以判断某一语料库属于某一类型，是因为该语料库具有该视角下的特点。这一特点是和标准相吻合的。

（二）语料库的分类标准

每一种视角都是一个分类标准的起点。根据2.1中的9个分类视角，我们可以制定各种各样的分类标准。下面我们就来讨论各个视角下的分类标准。

第一、语料来源。任何语料必定有一个产出的来源，比如语料来源于什么国家，来源于什么样的学科，来源于什么样的人。根据来源于什么国家，将语料库分为英国国家语料库，美国国家语料库，中国国家语料库，加拿大英语语料库等等。目前有名的语料库，有英国国家语料库（BNC），美国国家语料库（ANC）等等。根据语料来源于什么学科，我们可以把语料库分为医学英语语料库，科技英语语料库，学术英语语料库等等，目前世界上已经建立了各个学科的语料库。还有一些语料库直接以语料产出者命名。如，莎士比亚作品语料库，中国英语学习者英语语料库等等，鲁迅作品语料库等等。大部分语料库都是以语料库来源来命名的。

第二、语料收集方式。语料库收集方式一般有两种，一种是抽样收集法，另一种是全文收集法。前者叫做抽样文本（Sample-text）语料库，如早期的BRON和LOB語料库，主要采取随机或者分层抽样的方法收集语料，以保证语料库的代表性；后者叫做全文本（Full-text）语料库，如莎士比亚英语语料库，《红楼梦》汉英平行语料库等等。前者存在一个代表性问题，后者则不存在。

第三、语料处理程度。语料按照一定的标准和原则收集起来之后，通常会根据不同的研究目的对语料进行处理，比如进行词性、语音、语义、语法、语用、语篇等各个层面的语言信息进行赋码标注，以期对某种语言现象展开系统研究。处理的程度不一样，也可以导致语料库类型不一样。从这一视角出发，按照是否标注或者赋码的标准，目前主要有两种语料库：原始语料库和赋码语料库。前者只是按照既定的原则汇编相关语料，如ICAME Collection of English Language Corpora，没有经过赋码处理；后者则经过相关的赋码处理，如已作词性赋码的BROWN和LOB（何安平，2004：3-4）

第四、主要用途。从用途出发，根据使用范围的大小，语料库可以分为两类：通用语料库和专用语料库。通用语料库主要用于语言监控和一门语言整体上的把控，以及大型词典编撰等，通常是大型和超大型的语料库，早期的有BROWN、LOB等，后来的BNC、ANC、COBUILD等。专用语料库指用于某种特殊目的的语料库，如JDEST学术英语语料库，用于研究学术英语；Helsimki Corpus of Historical用于研究古英语；CLEC用于研究中国学生英语；MEC，用于研究医学英语等。随着语料库语言学的发展，通用英语语料库规模越来越大，而专用英语语料库则是品种越来越多。

第五、语言层次。这里主要是指语料产出者的整体语言水平或者说语言熟练程度和把控程度，主要分类标准是看语料的产出者是母语使用者还是外语使用者。根据这一标准，通常也可以分为两种：学习者语料库和母语语料库。母语语料库语料来源主要本族语语言使用者，各个国家所建立监控语料库和特殊用途语料库都可以属于这个范畴，如北京大学现代汉语语料库，伯明翰大学的COBUILD语料库等；而学习者语料库主要用于研究中介语特征，如中国英语学习者语料库，中国英语学习者口语语料库等等。前者所代表的语言水平较高，而后者所代表的语言水平较低，且参差不齐，主要用于研究二语习得者的语言发展轨迹。

第六、时空属性。时空是目前宇宙任何事物都无法摆脱的一个属性。任何一个问题都可以从发展的视角来看，也可以从静止的视角来看，可以从历时的视角来看，也可以从共时的视角来看。语料库作为语言研究重要工具和对象，也可以从时空的视角出发，根据语料是收集各个历时时期的，还是某一特殊历史时期的，可以分为共时语料库和历时语料库。共时语料库主要收集某一时期的语料库，用于研究某一时期的语言特征，如BROWN语料库就收集美国1961年的书面语；而历时语料库则收集一定时间跨度的语料，如Helsinki Corpus of English Texts收集了公元700-1700年之间的文本，主要用于研究语言的变化规律（Kennedy 2000：22）。

第七、语言种类。语料库可以由一种语言构成，也可以由两种语言构成，甚至还可以由多种语言构成。根据语料库所包含语言种类的多少，可以将语料库分为单语语料库、双语平行语料库，多语平行语料库。单语语料库顾名思义就只包含一种语言的语料库，目前世界上大多数语料库都是这种，主要用于研究某一语言的特征和规律。而双语平行语料库则主要用于两种语言之间对比研究和翻译研究，如用于研究翻译的《红楼梦》汉英平行语料库。也有多语语料库，但是目前很少见，如联合国平行语料库，就包含了五种语言。

第八、形式载体。任何一种思想都可以通过多种形式载体表现出来。语言只是思想的一种表达方式。即便是语言载体，也有多种形式如口语、书面语以及多模态。多模态是目前比较流行的一个术语，各种表达模式综合在一起，就是多模态的表达形式。根据这一标准，语料库可分为口语语料库和笔语语料库多模态语料库。目前笔语语料库比较多，大部分语料库都是属于这一类型；口语语料库相对少一点，但是发展迅速，代表性的有美国英语口语语料库（CSAE），中国英语学习者口语语料库等等。多模态语料库比较晚才出现，但是也有不少成果，国外的有CHIL、NESPOLE、IFADV等[1]，国内的有SCCSD[2]，这些成果为多模态语料库语言学的构建奠定了基础。

第九、语料库规模。任何一个语料库所包含词汇数量都是可以计算的，语料库的规模就是指语料库所包含词汇的数量。目前似乎没有学者讨论过如何根据语料库的规模对语料库进行分类，但是笔者检索知网，通过规模来命名的语料库大体有三种微型语料库、小型语料库和大型语料库。由于现代信息技术发达，我们可以把100万词次以内的语料库称之为微型语料库，百万到千万级别的叫做小型语料库，亿级以上的叫做大型语料库，10亿级以上的叫做巨型语料库，如IWEB Corpus已经有140亿词次。

从以上语料库分类讨论可以看出，目前语料库类型已经比较完备，而且数量众多，队伍庞大。每一个语料库都有可能具备以上9个视角中范畴下一个特征。比如中国英语学习者语料库（CLEC），语料来源于中国英语学习者、通过采抽样的方法收集、有赋码、语言层次不高、只是收集了某一时期的学生作文、主要针对中国英语学习者的中介语研究、所含语言只有一种、规模不大只有100万词次。毋庸置疑，各种语料库分类视角和分类标准实际上就是描述语料库语言特征的理论基础。只有自上而下地制定各种分类视角和分类标准，语料库才有可能得到系统的描述，真正系统的语料库语言学才能够建立起来。

二、对学医学英语教学的启示

随着医学英语教学与研究的兴起，医学英语已经成为了一种特殊的语言研究对象。各种类型的医学英语语料库也已经陆续建立起来了。未来的医学院校大学英语总体上来说会转向医学英语。随着中学生的英语水平越来越高，大学通识英语课程有可能在医科大学中消失。那么医科大学的大学英语教什么，如何教就成为医学院校亟待解决的问题。语料库的分类体系可以给这些问题带来启示。

首先，可以参照语料库的分类体系构建医学英语语料库的分类体系，在此基础之上建立各种各样的医学英语语料库，然后开展各种医学英语语料库在医学英语教学中的应用研究。任何一个学科的本身都是一个巨大的知识体系，当我们把医学英语作为一个独立的研究对象单独挑选出来的时候，它本身就可以构成一个独立的学科。这个独立的学科所研究的对象就是所有的医学英语。而医学是一个体系庞大的学科门类，各个分支学科都有自己独特语言特征，因此可以根据语料库来源构建各种分支学科的医学英语语料库。如护理英语语料库，医院会话英语语料库，神经外科英语语料库等等。医学作为一个整体，也有许多在语言上区别于非医学学科门类的特征，因此还可以建立通用医学英语语料库，与专用医学英语语料库区分开来。此外还可以建立中国医学生学生作文语料库，医学生毕业论文语料库，医学英文原版教材语料库，等等。总而言之，可以参照以上分类体系，建立各种医学英语语料库，给医学英语教学研究奠定语料基础。

其次，可以在医学英语语料库体系的基础上建立医学英语课程群。医学英语语料库体系构建起来之后，就可以在此基础上构建大学医学英语课程体系。比如在通用医学英语语料库的基础上，可以构建大学通识医学英语课程，主要讲授医学英语的一般发展规律和医学英语中最常见的语言现象和词汇。这些词汇和语言现象都可以通过语料库统计找到。在护理英语语料库的基础上，可以开始护理英语课程，学习护理英语中最常见的语言现象和规律，为进一步通过英语学习护理专业知识打下基础。当然也可以在医学人文英语语料库的基础上开设医学人文英语课程，在医学学术英语语料库的基础上开设医学学术英语课程。

最后，可以直接在各种医学英语语料库的基础上编写医学英语教材，并直接利用医学英语语料库来开展医学英语课堂教学活动。在大数据时代，仅仅依赖一些所谓经典的文章很难反映一门学科的语言特征。医学英语课程的主要目的不是为了医学知识和技能的学习，而是为了掌握医学英语语言特征，以为更好地学习医学知识和技能服务。因此能够体现医学英语整体语言特征的学习材料才是最好的学习材料。而医学英语语料库结合大数据分析软件和技术，是最能体现语言整体特征的学习材料，可以体现医学英语最普通的特征。经典文献结合医学英语语料库编写出来的教材一定能够更加帮助学生医学语言知识，从而更好地服务医学专业学习。同时，医学英语语料库也可以借助语料库检索工具，直接用于医学英语课堂教学，让学生从最真实的语料中体验语言的规律。

三、结束语

任何一门学科的建立都要从定义研究对象开始。对象定义好后，就是对研究对象进行分类。只有分类系统化才能够使得整个学科建设体系化。只要对研究对象进行分类就必须建立分类标准，而任何標准的建立都必须有一个视角。本文从视角和标准出发，自上而下地对语料库进行了一个较为系统的分类。认为语料库至少可以从语料来源，语料处理程度，主要用途等等9个方面来建立分类标准。并在此基础上，提出来构建相应的医学英语语料库分类体系，在医学英语语料库体系的基础上开展大学英语英语课程体系、编写医学英语教材、开展医学英语课堂教学设想。希望本文能够对构建真正意义上的语料库语言学体系和医学英语学科体系带来启发。

参考文献：

[1]John Sinclair. Corpus Concordance Collocation[M].Oxford： Oxford University Press.1991.

[2]Jenny Thomas & Mick Short. Using Corpora for language Research [M].Beijing： Foreign Language Teaching and Research Press.2001.

[3]Grame Kennedy. An Introduction to Corpus Linguistics[M]. Beijing： Foreign Language Teaching and Research Press. 2000.

[4]Charles F. Meyer. English Corpus Linguistics： An Introduction[M]. Shanghai： Shanghai Foreign Language Education Press. 2008.

[5]秦洪武，王克非.历史语料库：类型、研制与应用[J].外语与外语教学，2014（04）：1-7.

[6]何安平.语料库语言学与英语教学[M].北京：外语教学与研究出版社，2004.

[7]杨惠中.语料库语言学导论[M].上海：上海外语教育出版社，2002.