学科群英语语料库建设的基本思路
----以语言学、社会学、人类学和心理学为例
2018-11-26于丽
于 丽
(黑龙江大学 应用外语学院, 黑龙江 哈尔滨 150080)
目前被人们熟知的大规模英语语料库有布朗家族(BROWN)、柯林斯-伯明翰大学国际语言资料库(COBUILD)、英语国家语料库(BNC)、美国当代英语语料库(COCA)等。国内较为有代表性的大规模语料库有上海交通大学的中国英语学习者语料库(CLEC)、中国学习者英语口语语料库(COLSEC)、科技英语语料库(JDEST),北京外国语大学的中国学生英语口笔语语料库(SWECCL)、汉英对应语料库等。除了大型语料库外,研究者依据自身的需要建立的各类小型语料库也很多,例如,秦建华的美剧字幕语料库[1]、林美珍的教学竞赛视频语料库[2]和李德超等的英语旅游文本类比语料库[3]等。基于语料库的研究方法已被学界广泛接受、认同,研究领域涉及词典编撰、语言教学、翻译、话语分析等多个领域。
从现有的语料库来看,虽然语料的选取对不同的学科门类都有所涉及,但限于研究的目的不同,缺少服务于学科英语教学的学科英语语料库,尤其是缺少以学科群为单位建立的语料库。为此,本研究立足服务于学科英语教学,建立以语言学、心理学、社会学与人类学英语为学科群的学科英语语料库。
一、 研究路径
语料库是一种以取样的方式建立起来的文本或语音信息转写的集合,用以代表某一特定的语言、语言变体或其他语言范畴。基于语料库的研究是一种通过大量真实的语言材料揭示语言使用规律的研究,具有概率性和对比参照性。概率性体现为语言选择的倾向性,以概率的方式表达;对比参照性,是指某一个单独的概率没有现实意义,只有在与其他数值相参照的情况下,才能揭示语言使用的基本规律。也就是说,研究某一语料库的语言使用情况,应该同时具有一个对比参照语料库。
从学科英语语料库的研究来看,对比可以从多层次展开,根据国家教育部学位授予和人才培养学科目录(2011年),可以是学科门类间、同一级别的学科间、各级别学科内的次级学科间、学科群内的学科间等的对比参照。语言学、心理学、社会学和人类学英语研究的根本目的是为学科群英语及隶属学科英语教学提供语言学参考路径。学科间的对比参照可以揭示学科语言的本体特征。但是如果将研究置于教育机制内*伯恩斯坦(1990)提出教育机制,认为教育机制包括知识产出域、语境重构域和再生产域的实践,对知识的产生、传播进行社会学阐释。,以服务于语言教学为目的,则学科间的对比参照、确定学科语言的本体特征只是研究的第一步。对比理应进一步发生在教育机制内的知识产出域、语境重置域和再生产域间,形成“学科语言本体特征-语言教学内容-学习者产出语言”之间的对比参照,诊断教学内容,调整教学话语。为此,以服务于教学为根本目的,学科英语的研究应立足于知识产出域,建立语言学、心理学、社会学和人类学英语语料库,揭示学科群英语及其隶属学科的本体特征;建立相关学科语境重构域和知识产出域内的英语语料库;进行教育机制的各实践域间对比研究;建构学科英语教学的教学话语。
通过知识产出域英语语料库的建设,发现语言学、心理学、社会学和人类学英语的本体特征,是后续研究的基本参照。为此,笔者试从建库意义、语料选择的理据、语料库的结构与语料来源、语料的整理与标注、标注的准确与一致性等方面逐一论证,对语料库建设和后续统筹进行规划,为系列研究提供总体参照。
二、 学科群语料库建设与研究的意义
语言学、心理学、社会学和人类学分属于不同的学科门类,4个学科在研究方法上相互借鉴,研究内容上相互交叉,研究结果互为佐证,相互促动,并在学科知识发展的过程中,突破了原有的学科界限,形成了交叉学科和边缘学科。四者在知识体系分化的同时,也出现了综合化的趋势,具有高度相关性,在实际研究和应用中具有典型的学科群特征。语言识解经验、学科在知识体系上的分化与综合必然体现语言词汇语法层面选择概率的趋同与变异。
以学科群为单位进行语言研究,建立语料库,并对语料进行系统的语法和语义标注,具有几方面的意义:能够揭示学科群的语言本体特征,深化人们对学科群语言本体的认识;能够揭示学科群内隶属学科的语言本体特征,深化人们对每个学科语言本体的认识;对学科群及其隶属学科语言特征的认知,可以加强学科间的交流和沟通,促进各学科共同发展;对语言本体的认知能够直接服务于语言教学,使教学大纲、教材等的设计和编写更有针对性和理据性。
三、 语料选择的理据
学科的本质是知识分类体系,与知识的生产联系在一起[4]。语言学、心理学、社会学和人类学,虽然从学科的划分来看,分别隶属于文学类、教育学类和法学类,但在学科知识体系的产生、发展过程中形成了心理语言学、社会语言学、人类社会学、社会心理学和心理人类学等多个交叉学科,当然其学科归属也就存在着不确定性。在学科知识出现分化与综合趋势的同时,用于识解相关学科经验的语言及学科英语词汇的选择自然会在所属群内既体现共性,也体现学科的个体性特征。
学科英语是识解学科经验的功能变体,它可以用语场、语旨和语式进行具体说明:语场是物理、生物、社会科学等领域的知识及其延伸、传播和探究;语旨涉及讲话者与受话者的关系,包含专家、学习者、外行3个群体,讲话者和受话者可以同属于一个群体,也可以隶属于不同的群体;语式涉及语音或书写,即口语与书面语[5]140。在语场,也就是学科领域相同的情况下,语旨和语式两个变量构成的不同的组合关系所产生的话语都属于该学科话语的范畴。
一个完整的学科话语语料库,理论上应该包括系统内的所有话语。但在研究实践中很难一次涉及所有话语范畴,多是优先选择某一话语范畴。语料的选取服务于研究需要。研究语言学、心理学、社会学和人类学英语的目的是揭示学科群及其隶属学科英语的语言本体特征,为高校学科英语课程的设置和教学提供语言学参考路径,即建库的根本目的是高校的英语教育。
伯恩斯坦在20世纪90年代提出教育机制(Pedagogic device),将知识的产生与传播关联起来,认为教育机制包括知识产出域、语境重构域和知识再生产域3个领域的实践,说的是在社会机制调节下知识的产生、传播过程。知识产出域内的实践是新知识的建构、改进和定位;语境重构域内的实践是对知识产出域内话语的选择、转用(approriated)和转化(transform),使其成为教学话语,能够在知识再生产域内被传授和学习;知识再生产域是教学实践发生的场所[6]206。语境重构域和知识再生产域对知识的转化与传播,以大学、专门科研机构和科学学会等知识产出域的知识为前提。语言识解及学科语言识解经验,既包括学科知识本身,即语场、经验意义,也必然涉及知识的传播与交流,即语旨、人际意义。也就是说,教育机制的每一个实践域,语言都同时识解知识本体和域内的人际关系。即使学科知识体系相同,域内的人际关系不同,也会产生不同的语言表征形式。学科语言教育是使学习者在专业学习和职业岗位等不同语域中能够用英语有效地进行交流[7]。即学习者学习的目的是能够在知识产出域有效地交流,掌握相关学科知识产出域的知识表征方式。每一个学科知识的传播,都受教育机制组织的制约。能够被传授的语言知识也必然来自知识产出域。为此,以服务语言教学为根本目的,语料库中的语料应优先选自知识产出域。
知识产出域内专家与专家之间的知识传播与交流,以语式为依据,又可进一步分为口语和书面语。依据语类,口头交流中有学术报告、交流研讨等;书面语涉及到专著、研究报告、学术论文等。基于学科群语料库研究的目的和特征,综合考虑语料选择的可比性、时代性、代表性、交叉学科的学科归属性等特征,在语式和语类的选择上,最权威的语料是书面语中的学术论文。这是因为:
(1) 语类的共享性,所选语料应该是各个学科话语范畴都有所涵盖的语类,而不应该是某一学科独特的语类;
(2) 语料的共时性,在众多语类中,学术论文的时效性优于专著,同时可避免不同学科经典教材由于出版时间带来的语言风格上的时代差异;
(3) 学科的归属性,选择发表于综合学术期刊的学术论文,可以有效规避语料的学科主观归类;
(4) 语言学、心理学、社会学和人类学英语语料库是学科群性质的语料库,研究的重点是对学科群及其隶属学科语言本体的认识,而不是单个学科内分支学科之间的异同,选择综合类期刊可以使语料的学科覆盖面相对全面,更具有学科代表性;
(5) 在语料库容量相对固定的情况下,选择学术期刊为语料,可涉及多个专家学者,在一定程度上降低单一作者写作风格的影响。
四、 语料库结构与语料来源
语言学、心理学、社会学和人类学英语语料库预计总库容量为至少100万词,包括4个子库,分别为语言学英语语料库、心理学英语语料库、社会学英语语料库和人类学英语语料库,它们互为参照,每个容量为至少25万词。为减少期刊的个性化要求对语言选择的影响,同时确保所选期刊的质量、学科覆盖面、语言的共时性和真实性、样本抽取的随机性,每个学科的语料选自5个影响因子较高的综合类英文期刊,每个期刊选择2013—2017年5年间的论文,每年随机抽选1篇文章,即每个学科25篇文章。期刊具体选择见表1所示。
表1 语料库结构与语料来源
五、 语料的整理与标注
语料的整理与标注是语料库建设的关键环节,是信息检索、统计的依据。
1. 语料的整理与清洁
语料库中的语料文章通过“独秀咨询”获得,均是PDF格式,需要转换为纯文本格式。由于研究的对象是单一文字模态,在文本转换过程中,需去除文章中的表格和插图等非文字信息。另外,因是研究文章知识建构中词汇和语法层的选择特征,在文本整理过程中,仅保存文章标题和正文两部分信息,其他诸如作者、期刊来源、出版日期等元信息均以子库和命名的方式体现。例如,语言学子库又以期刊类别为依据分为English Language and Linguistics,Journal of English Linguistics,J. Linguistics, Language and Linguistics和Lingua 5个子库。期刊子库内文章以作者和出版日期命名,例如,Saina Wuyun(2016)。
在整理的基础上,对文本进行进一步的清理。首先,借助“文本整理器”对文字符号(全角—半角)、空格段落(多余的空格、跳格等)和标点符号等信息进行初步清理。而后,再进行逐一人工清理,确保文本的整洁,以利于信息检索的准确。文本文件保存为UTF-8格式。
2. 语料标注方案
语料库的标注是给语料添加解释性语言信息的过程,是对语料库的增值[7]49。语言学、心理学、社会学和人类学英语语料库建设的目的是揭示学科群及其隶属学科的语言本体特征。早在1989年韩礼德就在SomeGrammaticalProblemsinScientificEnglish中提出导致科学语篇难以理解的7个特征:连锁定义、技术分类、特殊表达、词汇密度、句法歧义、语法隐喻和语义非连续性[8]。这7个特征既是科学语篇的共性特征,也是不同学科之间异同的对比点。因韩礼德对特殊表达和语法隐喻的解释中存在交叉,鉴于语法隐喻在科学语篇中的特殊地位,避免赘述,所以在分析标注中对其只探讨固定的语法表达。
(1) 连锁定义。是一系列术语之间的互相界定,即a is defined as an x which has feature y which is called b[9]164(对术语a的理解必须基于对术语x、y和b的理解)。
(2) 技术分类。是知识体系的组织方式,分为两类:部分—整体关系,b is a part of y;上下义关系[9]164,a is a kind of x。
(3) 特殊表达。是一个学科独有的技术语法,而非术语。这种特殊表达包括两种类型:一个领域特有的固定表达,这个表达只能被整体界定,不能通过构成它的词语得到解释,例如在数学中,solving the open sentence over D[9]166; 语法隐喻。
(4) 词汇密度。是依据一个语法结构中词汇(实意词)的紧密程度,衡量语篇信息密度的方式。
(5) 句法歧义。表现为在名词词组和小句层面的语义模糊。这种歧义主要来自小句层面和词组级阶的隐喻综合体。例如,Higher productivity means more supporting services[9]169。既可以理解为“高产带来更多的支持性服务”,也可以理解为“高产源自更多的支持性服务”,这是因为序列通过小句体现,而关系词转为动词、致使逻辑关系模糊,又引发小句层面句法歧义。再如,对于名词词组the announcement of Mary’s acceptance[9]171,没有办法确定是“玛丽接受”还是“玛丽被接受”。
(6) 语法隐喻。是在从语义成分到词汇语法结构配置的体现过程中出现的[10],表现为语义层与词汇语法层配置的错位。在语篇中体现为语法隐喻的基本类型和隐喻综合体。语法隐喻的基本类型分为13类:属性转为实体、过程转为实体、环境成分转为实体、关系词转为实体、过程转为属性、环境成分转为属性、关系词转为属性、环境成分转为过程、关系词转为过程、关系词转为环境成分、[无]转为实体、[无]转为过程和实体转为[扩展][11]41-42。任何基本类型语法隐喻的发生,都可能影响整个小句,进而影响整个小句复合体,在级阶和地位上的置换都几乎不可避免地包括许多其他置换,形成对语法结构的重新构型,产生语法隐喻综合体[12]80。
(7) 语义非连续性。是作者所做的语义跳跃,指一个语篇中首次被提及的新信息,被预设为已知信息,作为理解另一个新信息的起点。作者或许并没有明示过程之间的逻辑关系,需要读者通过推理得出结论[9]177。
语料标注依据上述7点逐一展开,标注中除词汇密度中的词性利用TreeTagger软件自动标注外,其他6点特征均借助UAM 2.0 手工标注完成,建立连锁定义、专门分类、特殊表达、语法隐喻、句法歧义、语义非连续性6个层次的标注系统和相应的赋码方案。
六、 标注的准确性与一致性
对于人工标注而言,因其中涉及大量的语义标注,准确性和一致性只能是相对的。具体方案如下:
1. 制定识别标准
全员培训,掌握7个维度的内含意义,商讨、制定每个维度、每个类别的识别标准。
2. 试标注
依据识别标准, 学科负责人任选学科内一篇文章试标注, 同时记录标注过程中的不确定成分。
3. 交叉标注
学科负责人之间交换文章,再次独立标注,同样记录标注过程中的不确定成分。这一过程重复进行三次,直到每一个负责人完成4个学科4篇文章的标注工作。
4. 对比交叉标注的结果
对标注中出现的不同之处,标注者提供各自的理由,通过集体讨论,确定最终标准。同时汇集标注中存在的问题,逐一讨论,解决。
5. 独立正式标注
在前期准备的基础上,对各学科文本进行独立标注,随时记录不确定成分。每完成一篇文本的标注,组织交流研讨,保证问题能够及时解决,确保标注的相对准确和一致。
七、 后续语料库完善与研究方向
前期语料库建设的主要目的是揭示学科群及其隶属学科的语言本体特征,为高校学科英语的课程设计、设置和教学提供一个语言学的参考路径。后续研究工作应从两个维度展开:
1. 完善现有语料库,并对其进行语类扩充,扩大涵盖的共享话语范畴
通过访谈的形式,咨询各学科领域的权威、专家、学者,在综合考虑时代性、个体语言风格等因素的基础上,确定学科内最具代表性的专著、教材等语言材料。
2. 以伯恩斯坦教育机制的3个实践域为参照,建设语境重构域语料库和知识再生产域语料库
语境重构域以对语言知识进行语境重构的学科英语教材为语料,分为本科、硕士和博士3个级别。知识再生产域语料包括课堂教学话语和学习者产出的语言材料。学习者产出的语料库选择用英语完成的毕业论文或相关摘要,同样分为本科、硕士和博士3个级别,目的在于揭示语境重构域内学科语言知识体系的发展趋向和知识再生产域内学习者学科语言知识体系的发展情况,与知识产出域的语料库共同形成一个相对学科英语视域的教育机制。
如果说前期的研究是学科群内隶属学科间的对比参照, 后续的研究则侧重通过学科内3个子库的互为参照, 形成系统, 理清这4个学科英语的知识体系, 确认语境重构域内教材设计是否体现学科英语本体特征, 了解学习者学科英语发展状况, 有针对性地反馈语境重构域和知识再生产域的实践, 避免单独研究某一个域内的话语而得出盲目的结论。 以服务于教育为根本目的的研究, 必然是教育机制内各实践域的递归参照过程。