MatDEAP材料科学学术英语语料库的创建*
2020-07-02北京外国语大学北京理工大学闫鹏飞
北京外国语大学/北京理工大学 闫鹏飞
北京理工大学 谢文龙
提要:基于学术英语研究的理论价值和实践意义,本文详细介绍了MatDEAP材料科学学术英语语料库的建库目标、语料来源、目标语类、语料采集及清理原则和方法等,并探讨了该语料库的应用前景。
1.引言
学术英语作为“学术人员为推进学科发展而进行知识构建、信息交流与学术传播所使用的英语变体”(卫乃兴 2016:271),具有重要的语言学地位和理论研究价值。首先,学术话语参与者的专业身份、所述命题的特有属性以及话语行为的约定功能,均突显学术英语的情境范畴和交际维度,是典型的受限语言(Firth 1968:98-112)。以学术英语中颇具代表性的科学文本为例,Harris(1991:18-21)明确指出,科学语言(science languages)作为一种子语言(sublanguage),其语法特征与整体语言语法(the grammar of the whole language)之间只是同宗、同源,并非子集与全集的关系。除细节差异外,科学语言的语法特征表现出诸多特有属性,如特定的词汇类型及搭配倾向、有限的句子类型及依存关系。Sinclair(2004:69-72)在对文本结构的论述中也提及,语言活动大多具有目的性,依靠受限于语境(即语境共现)的一整套特定形式以表述、构建完整的意义与功能,并据此倡导开展各种具体语境中的语言变体研究。而基于语域变异分析路径,Biber(2012:18-34)则指出,语域对于描写与探究词语搭配、短语序列、语法形式以及相互之间的结构关联和型式互动至关重要。例如,书面学术语篇中的介词短语大体表现为相对固定的功能词序列及其中嵌套的可填充多种实词型式的语法槽位,并进而呈现出与名词短语的对接倾向,由此构成这一语域突显的词汇语法局部特征。由此可见,学术英语对于探究情境意义构建具有重要的理论价值。
科学研究和学术交流的国际化趋势对专业人员尤其是大学生的学术交际能力提出了很高要求,也由此突显了学术英语研究的教学应用价值和实践指导意义。纵观世界知名的三大科技文献检索系统SCI、EI和ISTP,90%以上的文献是用英文撰写发表。其中,最具代表性和权威性的SCI所收录的英文文献占比更是高达95%以上。在英语作为国际学术通用语的背景下,专业人员的学术交际能力突出体现为遵守学术共同体行为规范,善于从英文文献中汲取学术前沿信息并能够将自身科研发现用英文撰写与发表。学术话语作为专业人员的“集体社会活动”(Hyland 2004:148),其交际意图、篇章组织和语言形式必然呈现互动性、规约性和指向性。首先,学术语篇的交互意图不只表现于专业信息的传递和客观命题的论述,还体现为话语主体的“立场”和“介入”(Hyland 2005:176),即学术立场与主观视角的建构。其次,基于交际意图和科学思维,学术话语的篇章组织一定程度上呈现出部分共性结构与模式,如研究论文的IMRD结构(Introduction、Methods、Results和Discussion)及其引言部分的CARS模式(Create-a-Research-Space,即确定研究领域—基于文献回顾指出研究空间—明确研究目标并占据此研究空间)(Swales 1990:134;Swales & Feak 1994:174)。当然,由于研究对象和范式的不同,各个学科的学术语篇所采用的语步结构和组织策略也存在差异。例如,能源工程领域研究论文倾向于将研究结果和讨论归为一体,其中所含“结果报道、解释和评价”三个语步呈现整体循环模式而非单向线性轨迹(Ye 2019)。最后,学术语篇的语言特征除反映客观命题和专业信息外,更指向旨在构建的交际意图和立场态度,并具体表现为词汇、短语、语法、句法、语义等多维度特征的聚类倾向。例如,材料科学领域研究论文的引言部分倾向于综合使用第一人称复数形式we、指示代词、形容词与名词作定语的复杂短语、无主被动式、be动词作主动词的句式和程度意义副词等多种语言手段,以期拉近与读者之间的距离,极力突出自身话语主体地位的同时又尝试较为低调、客观地表述所持观点。鉴于上述学术文本的特有内涵与属性,作为高等教育重要组成部分的大学英语,顺应学术交流国际化趋势并满足学生学业发展切实需求,其侧重点应该调整至学术英语(孙有中、李莉文 2011;叶云屏 2013;蔡基刚 2014;卫乃兴 2016),瞄准其中的交际功能、语篇组织和语言特征开展教学,以高效培养学生的学术交际能力,持续助力其专业学习与科研实践。
对于学术语篇的交际功能、语篇组织和语言特征研究,尤其是涉及不同学科领域的对比分析,内省数据显然先天不足,而语料库作为可靠的数据源,其所包含的大量、真实且具有较好代表性的语言样本,为语言观察、描写及概括提供了可靠依据。一定程度上讲,基于语料库中的言语事实和从言语事实中归纳出来的语言理论将逐渐成为主流(梁茂成 2010)。因此,对于学术英语研究而言,基于大批量文本和计算机技术的数据挖掘及语言学解读毋庸置疑是其主要路径和发展方向之一。已有的学术英语研究较多涉及语言学(如Yang & Allison 2003;Lorés 2004;Liang 2015)、医学(如Nwogu 1997;Skelton & Edwards 2000;许家金2017)、生物化学(如Kanoksilapatham 2005)、生物医学(如Saber 2012;Kanoksilapatham 2015)、社会学(如Brett 1994)、教育学(如Basturkmen 2009)、电气工程(如Hyland 2008),计算机科学(如Posteguillo 1999)、软件工程(如Kanoksilapatham 2015)、能源工程(如Ye 2019)等,而涉及材料科学领域尤其是基于较大批量语料的实证研究相对较少。鉴于材料科学的基础性、前沿性和交叉性,也为推动这一学科领域的学术英语教学与研究,我们创建了MatDEAP材料科学学术英语语料库。本文将详细介绍其建库目标、语料采集方案、文本清理原则及方法等,并探讨其应用方向和实践意义。
2.建库目标
在北京外国语大学中国外语与教育研究中心DEAP学术英语语料库(Database of English for Academic Purposes)的总体框架下,MatDEAP材料科学学术英语语料库旨在创建能够较好代表材料科学学科领域及其研究方向、选自SCI高影响因子英文国际期刊、涵盖研究论文等主要语类的全文语料库,以期深度助力学术英语教学与研究。初步建成的MatDEAP语料库源自材料科学6大学科方向及领域的18种高影响因子英文国际期刊,包括研究论文、综述文章、通讯文章、快报和前瞻性文章5种语类,共计901个文本、库容5,249,032词次(见表1)。
表1 MatDEAP材料科学学术英语语料库构成
(待续)
(续表)
3.来源期刊与目标语类
依据建库目标,首先,MatDEAP材料科学学术英语语料库须能够较好反映这一学科的专业内涵,体现这一学科的研究特色。本项目依据国务院学位委员会第六届学科评议组编写的《学位授予和人才培养一级学科简介》,对标其中0805材料科学与工程学科内涵和范围,确定材料物理与化学、材料学、材料加工工程、高分子材料与工程、资源循环科学与工程5大学科方向。此外,鉴于近些年纳米材料研究的前沿性和交叉性,并经由北京理工大学材料学院部分专业教授和博士生提供专业咨询,本项目在上述学科方向基础上增列纳米材料科学这一热点领域,由此构成材料科学的6大学科方向及领域(见表1)。
其次,MatDEAP语料库须能够较好代表这一学科权威、主流的学术交流渠道和知识构建形式。本项目依据Web of Science 2017年期刊引文报告、期刊简介及征稿范围,并经专业人士提供指导,针对每个学科方向及领域选取3种高影响因子英文国际期刊,最终确定18种语料来源期刊,涵盖Nature、Elsevier、ACS(American Chemical Society)、Wiley和RSC(Royal Society of Chemistry)5大知名出版商(见表1)。
基于前期调研,本项目语料采集聚焦上述期刊所收录的5种主要语类,中英文名称及编码分别为研究论文(research article,简称RA)、综述文章(review article,简称RV)、包含快讯和短讯在内的通讯文章(communication,简称CM)、快报(letter,简称LT)和前瞻性文章(perspective,简称PP)。其中,不同出版商和学术期刊对研究论文的语类标签不尽一致,具体包括research article、research paper、original research article、full-length paper以 及 部 分 期刊中的article等。本语料库创建过程中将上述标签统一为研究论文(research article)。目标语类不包括占比极小或不具代表性的评论文章(comment)、进展报告(progress report)、专题文章(feature article)、新闻观点(news、views)等。除此之外,目标语类也不包括以下3 种类型:(1)文本长度明显较短,如全文不超过5段内容且没有划分语篇结构;(2)全文没有引用或提供参考文献;(3)文本中个别语篇结构简略表述为一两句话。例如,部分期刊文章的研究方法部分为All experimental details are included in the Supporting Information,而Supporting Information通常为PDF、Excel、图片或视频格式,其中所含信息不便于或无法进行有效采集。
4.语料采集和文本命名
本项目在语料采集过程中遵循最大程度全文原则,即尽可能保留全部文本信息,但不包括参考文献、附件形式的Supporting Information及其他附加信息如Rights and Permissions、About This Article、Further Reading等。
鉴于笔者所在学校图书馆购买了建库涉及的所有数据库,为了保证语料采集效率和质量,本项目通过网页链接直接抓取所需文章,一定程度上规避了PDF文件在格式转换过程中可能出现的乱码、错行等问题。同时,为了规避网页中的噪声,语料采集流程进一步细化为按照表2所列语篇结构逐一复制至本地。
表2 MatDEAP期刊文章所含语篇结构类型
除文章题目、作者及所属单位、摘要和关键词外,不同数据库、英文期刊和语篇类型所包含的语篇结构,既有共性成分,也有局部差异。例如,实证研究论文正文从内容属性上讲,基本包括引言、研究方法、结果(及讨论)、结论等语篇结构,但各个部分的具体标签和组合方式也呈现明显差异。例如,Nature Materials所收录研究论文的引言部分标记为Main,而非传统的Introduction。语料库检索还发现,研究方法的语篇标签大体可分为材料与方法(materials and methods)、实验部分(experimental section)和实验建模(experimental modelling)三类,体现了这一学科知识构建的不同范式和路径,即以实验为主导的归纳研究、交叉验证和模型构建。除共有语篇结构外,所采集文本依据期刊格式要求和具体交际意图也凸显部分非特有结构,如文章亮点(Highlights)、专业术语(Nomenclature)、广义研究价值(Broader Context)、研究应用(Applications)、观点/展望(Outlook/Perspective)等。
依照上述最大程度全文原则和语料抓取流程,本项目以实际采集时间为准,选取各个期刊最新的卷及(或)期,其中不包括特刊与专刊,根据文章发表时间由近及远采集50余篇目标语类文本;与此同时,详细记录各个文本的学科方向、来源期刊、出版商、文章题目、语篇类型、URL地址等,最终汇总生成Excel元信息表。
所采集期刊文章按照“学科方向_期刊序号_语类及编号”格式统一命名,以简明标记文本主要外部属性,从而便于后续批量提取特定类别。例如,“MPC_J1_RA10”指材料物理与化学这一学科方向第1本期刊中的第10篇研究论文;“MSS_J2_RV05”指材料学方向第2本期刊中的第5篇综述文章;“NMS_J3_CM02”指纳米材料科学方向第3本期刊中的第2篇通讯文章。
5.语料清理原则与方法
语料库建设较多采用的纯文本格式对于文本修饰、图形符号、特殊字符的显示存在一定局限性,因此本项目在语料清理过程中遵循最大程度原文原则,尽可能保留期刊文章中的结构信息和专业内容。
第一,公式符号相对而言是理工科学术语篇的主要特点之一,也是文本清理的最大难点。对于公式符号的处理,本项目未采取直接整体删除的方式,而是通过批量排查和人工核对,在保证语法准确、句法结构和语义表述相对完整的同时,替换或简化图形格式及特异字符,以最大程度地保留专业信息。以数学公式为例,若是图片格式,依据其单复数替换为FORMULA或FORMULAS;若是文本格式,依据其句法功能保留结构信息、简化函数参数或替换特异符号。数学公式具有多重句法功能,既可单独作主句,也可作宾语从句、同位语从句或表语从句;既可充当主语,也可充当宾语、同位语、或与介词搭配构成状语和定语成分。数学公式的多重句法功能详见图1检索等号“=”生成的部分索引行。
图1 数学公式的多重句法功能:以检索“=”为例
第二,除公式符号外,图表与表格的清理过程也尽可能保留部分专业信息。材料科学期刊文章中的图表表格主体部分多为图片,格式无法复制、内容无法采集,因此只能保留标题及注释。
第三,材料科学学术语篇中的文献引用标记大多采用数字编排格式。为了用于可能的文献引用、言据性和评价意义研究,本项目语料采集及清理过程中保留了文中引用标记。但是,考虑到文中引用尤其是处于句中非标点符号位置的数字标记对于连续文本的形式分割和结构异化,以及由此可能导致的语料检索时型式无法匹配、词性赋码和句法剖析等语料标注时精度无法保证等诸多问题,后续实证分析或许需要依据具体研究目的及语料加工程度对之进行批量删除。
第四,文本清理过程中还发现部分网页导读指示语,诸如“Open in figure viewer PowerPoint”“Download high-res image (1MB)”“Download full-size image”“(see details in Supporting information)”“Supporting information is available from the Wiley Online Library or from the author.”“(For interpretation of the references to colour in this figure legend,the reader is referred to the web version of this article.)”等。期刊排版提供的上述指示语旨在引导读者更好了解所读文献的部分细节和附加信息,并非期刊文章旨在传递的专业信息和构建的学科知识,因此也最大程度地予以清除。最后,本项目对于语料中的其他问题如非正常断行与换行、标点符号编码不一致等也进行了批量排查和替换。
总之,本项目语料清理遵循最大程度原文原则,人工排查和批量检索相结合,并具体表现为“发现问题—观察索引行—编写正则式—提取目标项—解决问题”的N次循环,力求保留所采集语料的结构信息和专业内容。当然,语料清理尤其是涉及特定学科领域的专业文献,难免存在疏漏和不当,还恳请后续使用MatDEAP的专家学者、专业人士谅解并指正。
6.应用展望
作为北京外国语大学中国外语与教育研究中心DEAP学术英语语料库的重要组成部分,MatDEAP材料科学学术英语语料库对学术英语理论研究与教学实践具有重要的价值和意义。首先,MatDEAP提供了新的对比视角。不论作为参照库抑或观察库,MatDEAP可用于开展学科之间以及学科内部的语类对比研究,也可用于基于作者国别属性或语言能力的对比分析,如中外学者、专家与新手学术文本特征研究。其次,MatDEAP提供了新的研究维度。后续研究可聚焦这一学科领域特定的微观语言特征和语篇组织策略,也可推进探究诸多语篇互动背后的交际目的与功能,并最终尝试归纳这一学科相较于其他学科而言共有和特有的知识构建特征与方式。最后,基于语料库语言学研究范式的形式分析和意义解读,MatDEAP可呈现与这一学科显著共现的词汇、短语、语法、句法和语篇特征以及在此基础之上的语义和功能倾向,从而为学术英语教学提供语言形式、意义和功能均较为典型的真实材料。