MgmtDEAP管理科学与工程学术英语语料库的创建
2022-04-12邓静子 韩正猛 张宇轩 李雨龙 吴禹成 陈荣 梁芸
提要:MgmtDEAP管理科学与工程学术英语语料库是“DEAP学术英语语料库”的重要组成部分。本文主要介绍该语料库的建库目标、建库原则、建库过程和应用前景。在详细阐述该语料库的学科分布、期刊选取、语料下载与命名、格式转换、文本清理、文本标注和文本校对等建库步骤后,进而探讨其在语言研究、学科建设、教学、教材和词典建设与经济建设等方面的应用意义。
关键词:管理科学与工程学、学术英语、语料库
1 引言
语料库是一个由大量在真实情况下使用的语言信息经过科学收集和组织而集成的专供研究使用的资料库。语料库语言学是以语篇语料为基础对语言进行研究的一门学科(郭曙纶 2011)。20世纪60年代,语料库语言学的研究开始兴起,当时大型通用书面语与口语语料库的开发才刚刚起步。20世纪80年代,语料库语言学研究达到兴盛时期,但当时的语料库研究方法只着重挖掘语言数据的重要性和重复出现词语的语言规律(布占廷等 2018)。进入21世纪,随着计算机研究方法的深入发展,研究者可以借此进行超大规模的数据采集和加工,因而计算机化的超大型语料库逐渐问世,专业性、针对性较强的中小型语料库的构建也成为可能。
英语语料库有很多不同的类型。从应用层面来看,可以将其划分为通用英语语料库和专门用途英语语料库。相比客观追求语言原貌的通用英语语料库,专门用途英语语料库有着独特优势,更加符合特定的研究需要,能够给相关领域的研究人员提供大量专业、鲜活、真实的语言材料,从而服务于特定的研究目的,助力特定的研究领域。尤其是在当今计算机技术深度发展、网络高度融合、语料库发展势头正猛的背景下,专门用途英语语料库有着更为广阔的发展天地和更加重要的用途。目前,许多学科和研究领域都相继搭建了专门用途英语语料库,如解放军外国语学院的“军事英语语料库”、北京外国语大学的“学术英语语料库”等(董爱华 2013)。其中由北京外国语大学许家金教授于2016年牵头建设的DEAP学术英语语料库是目前国内最大的学术英语语料库。该库拟建成总容量超过一亿词次,包含人文社会科学、自然科学各主要学科领域的专门用途英语平衡语料库。目前,该语料库下的农学、艺术学、生命科学、化学、土木工程、经济学、教育学、环境工程、地理学、信息科学(计算机科学)、语言学、文学、材料科学、数学、医学(临床)、军事学、新闻学、哲学、物理学、政治学、心理学、船舶与海洋工程学、社会学、统计学等24个子语料库已经建成。整个DEAP语料库的总容量已经达到1.227亿词,包含27,128篇各学科领域论文,已经超过建库的初始目标,成为国内迄今最大的学术英语语料库。本项目作为DEAP学术英语语料库建设项目的子课题之一,主要研究管理科学与工程学的学术英语语料库的构建,目的是建成与上述24个子语料库相似规模的学术英语语料库。该库的建成对于管理科学与工程学的学术研究将具有重要推进作用。
与其他学科领域的语料库建设现状相比,目前国内管理科学与工程领域的学术英语语料库由于已建成数目较少,涵盖的学科领域较狭窄,还处于初级阶段。梁波、黄琨桢(2013)自行创建了小型的药事管理学英语笔语语料库。万雯婷(2014)将30篇管理科学论文的结论部分建成了一个小型学术英语语料库,等等。这些文本语料库一般容量较小,无法全面地反映管理科学与工程学科领域的整体面貌。同时,因为没有确立统一的规范与标准,所以对建库原则和制定语料标注方法的阐述不够全面,所建成的语料库也缺少代表性。鉴于语料库的建设对于管理科学与工程学的学科建设和教学研究具有重要意义,本课题组集体攻关,在DEAP学术英语语料库项目的建库思想和许家金教授的指导下,建立了MgmtDEAP管理科学与工程学术英语语料库。该语料库不仅可以对管理科学与工程学科的学术英语文献信息进行整合,还可以通过语料库软件实现对研究文献的检索、内容关联、文本分析等一系列人工难以完成的工作,进而帮助研究人员了解该学科的国际研究现状、总结国际化研究成果,进而促进国内管理科学与工程学科学术研究与国际学术研究接轨,提高管理科学与工程学科的学术研究水平。本文主要包括两方面内容:说明管理科学与工程学术英语语料库建库的基本步骤(建库目标、语料收集、语料整理等);阐述该语料库的应用意义。
2 建库目标
MgmtDEAP管理科学与工程学术英语语料库的建设严格按照中国外语教育基金“专用英语语料库建设项目——DEAP学术英语语料库总库”的设计方案和基本要求进行。在建设过程中,我们根据《学位授予和人才培养一级学科简介》(国务院学位委员会第六届学科评议组 2013)确定了管理科学与工程学科下属的10个二级学科,并以此为依据选择相关期刊。在充分考虑该语料库的学科代表性和体现核心期刊论文语言特征的基础上,选取29种高质量英文学术期刊作为目标期刊,从中下载收集了777篇论文,建成库容为780万词次的“MgmtDEAP管理科学与工程学术英语语料库”,服务于该领域的学术研究和教学实践。以下我们从语料收集、语料整理等方面来介绍该语料库的构建过程。
3 语料收集
语料库的构建原则是在进行大规模文献的下载收集前,先确立文献的下载收集标准(分层取样),界定语料库基本特征,然后展开语料收集工作。
语料收集工作将语料库建设分层取样原则和语料库基本特点相结合,在综合考量所选取语料的代表性、平衡性和时效性的基础上,我们按照学科分布、期刊选取、语料下载和命名的工作顺序完成该语料库的语料收集工作。
3.1 学科分布
根据国务院学位委员会、教育部《学位授予和人才培养学科目录(2013年)》,在管理学(代码12)下,所设定的管理科学与工程(代码1201)的学科范围主要包括管理科学、管理系统工程、工业工程、信息管理与信息系统、工程管理、社会管理工程、管理心理与行为科学、电子商务技术、科技与创新管理、服务科学与工程(国务院学位委员会第六届学科评议组 2013)。
管理科学与工程学术英语语料库的语料文本覆盖以上全部学科方向,具有完整性、代表性和平衡性,能够全面展示出该学科的国际化研究现状和基本发展趋势,并能体现出该领域国际学术论文的英语语言特征。
3.2 期刊选取
本课题组以教育部确定的管理科学与工程学的学科领域为基准,参考中科院2019年JCR(Journal Citation Report)收录的关于管理科学与工程的学科代表期刊和Web of Science中管理学专门类别列举的233种期刊,并将其包含的所有核心期刊与管理科学与工程学科下设的各个方向进行逐项比对,按照影响因子降序排列,选取了33种核心期刊。在选取过程中,为了平衡各个学科方向选取的期刊数量,我们在各个学科方向中至少选取1种期刊(但至多不超过4种)。通过咨询管理科学与工程学科专家学者的建议后,本课题组确立了29种国际核心期刊,具体信息如表1所示。
3.3 语料下载与命名
如前所述,本课题组选定了29种核心期刊,并下载其中论文。在下载过程中,为使抽样论文尽可能具有代表性,我们首先选用被引频次作为下载标准。但在下载过程中发现,由于受时间存续性的影响,所选论文发表时间越早,该论文被引用的概率就越大,不能简单以“被引频次”来判定所选论文的代表性。据此,为确保所选论文的代表性,我们重新议定期刊论文的下载标准,即每一年的期刊论文收集数量按照权重进行分配(权重=本年内该期刊文献数量/三年内该期刊文献数量),计算得出每种期刊从2018—2020年共收集27篇论文。这27篇论文根据该期刊年度被引频次由高至低来确立,收集格式为PDF或HTML文件。以下为论文语料下载方法的基本描述。
首先,在Web of Science数据库里检索选定的期刊名称,得到该期刊的全部文献列表。其次,将“出版年份”设定为2018,按“被引频次”排序,从高到低选取文本进行下载,并将其中的通信类、会议类等其他类型文体舍弃(章柏成、杨玲 2020)。之后,依次将出版年份调整至2019年、2020年,重复上述文献检索下载过程。以平均分配为基本原则,每种期刊每年下载9篇文档,但也根据被引频次对年度期刊数量进行弹性调整,优先考虑被引频次高的论文。以期刊Journal of Computer-Mediated Communication为例,根据以上步骤,该期刊2018年下载论文13篇,2019年下载论文12篇,2020年下载论文3篇。最终课题组共收集777篇HTML或PDF格式的论文,语料库规模达到780万词次以上,基本满足该语料库的建设要求。
为方便该语料库与DEAP语料库总库汇总,MgmtDEAP管理科学与工程学术英语语料库采用“学科方向–期刊(序号)–年份–文献类型–序号”的顺序,对所采集的文件进行分类命名。其中,学科方向采用汉语拼音首字母表示,如运筹学与管理学科的代号为YCXYGLKX;期刊采用Journal的首字母J,并附上该期刊在课题组确定的期刊列表中的序号;文献类型主要分为Article、Correction、Editorial Material、Proceeding Paper、Review五种类型,均采用英文单词的前两个字母表示(见表2)。例如,文件名YCXYGLKX–J4–2018–AR1表明该文本是运筹学与管理科学方向下第4种期刊2018年的第1篇文章,文献类型为论文。
4 语料整理
语料整理环节主要按照格式转换、文本清理、文本标注、格式转换和文本校对等步骤进行,见图1。
从文献数据库中下载的原始论文语料,经过格式转换后会出现内容缺失、排版混乱、数据噪声等问题,因此需要对文本进行深度清理,再对清理后的语料进行标注和文本校对。上述工作步骤环环相扣,依次递进,逐步推进,形成了语料库语料整理的技术闭环系统。
4.1 格式转换
从 Web of Science 数据库中下载的2018—2020年的代表性论文共777篇,多为PDF文件格式,而语料库要求的文本格式为UTF-8编码的TXT格式,因此PDF文件格式文献无法直接用于语料库研究,需要对下载的PDF格式文献进行文献格式的转换。本课题组经过研究决定,先将PDF格式文献转换为WORD格式文献,再将WORD格式文献转换为TXT格式文献。由于所选文献数量较多,我们首先使用Abbyy Finereader软件将下载的PDF格式文献批量转换为可编辑的WORD格式文献,转换后的WORD格式文献仍以原文献名称进行命名。但转换后的WORD格式文献与原PDF格式文献相比,内容和格式都存在较大出入,如图2和图3所示。
为保证文献格式转换质量,我们先将PDF格式文献转换为可搜索的PDF文档,再用Abbyy Finereader软件将PDF文档转换为WORD格式文本。
4.2 文本清理
PDF格式文献转换成WORD格式文献后的文本仍然存在诸多问题,如文献内容和格式不匹配、版本文字识别错误、符号标点错误、文字排版错误、图片错位等问题,这就需要由人工来完成文本清理工作。当WORD格式文献转换为TXT格式文献后,与原来的PDF格式文献的差距将进一步加大,影响该语料库的整体质量。为此,我们对转换后的WORD格式文献进行了以下三个方面的文本清理工作。一是制定文本清理手册,统一指导文本清理工作。遵循内容一致、错误排查、整洁美观的原则展开文本清理工作。二是逐行与原PDF格式文献进行比照修改文献内容。在文献内容核对中,先是复制替换WORD格式文献中的错误内容,同时采取手动输入方式修改文献错误内容。如果文档中出现大面积的重复错误,则采取批量替换的方式进行清理,主要涉及中文字符、分页符、全角符号及部分字词等。三是保留论文的主体内容,即文章的标题、摘要和正文,删除所有与正文无关的内容,如尾注、脚注、参考文献等。至此,文本清理工作基本完成。
4.3 文本标注
语料库标注是指针对语言处理任务的需求,按照预先制定好的标注原则、规范和操作规程,为语言单位标注恰当标记符的过程,其结果是带有标注信息的语料库(邢富坤 2015)。文本信息的产生与语境条件有关且从中反映出不同的信息交流目的,所以有必要对语料进行对比分析(陈峰 2021)。因此,标注文本信息可以为语料库研究提供检索与分析的条件和依据。语料标注的内容通常分为元信息内容标注与文字结构信息内容标注两个方面。由于文本元信息的内容已由课题组收录到编写的语料库索引表中,因此本阶段标注的对象仅为文本结构信息。由于可扩展标记语言(extensible markup language,简称XML)的扩展性与交换性较好,有利于其在任何应用程序中读写数据(胡佳佳 2011),我们采用XML的方法来标注文本结构信息。需要特别注意的是,在XML语言中,所有的标志都应该成对存在,即有一个开始标志,也应该有一个终止标志,如lt;Tlgt; lt;/Tlgt;,前者为起始标记,后者为结束标记。因此,在人工标注过程中,要注意对语料进行成对标注。由此,本课题组采用人工标注的方式对清洁后的文本进行标注。标注的对象包括文章的标题、摘要,以及文中的数学公式、图表等,如表3所示。
需要注明的是,文中章节标题标注的层级仅涉及一级标题和二级标题。另外,如果数学公式或图表出现在一句话中间,需要在标注后将断裂的句子还原到标注符号后面。
在标注工作开始前,本课题组成员参照总项目要求和已有的语料库研究成果,界定了标注内容和规范标准,并制定了详细的标注方案。课题组成员在文本标注过程中,遵循标注的规范标准,严格执行标注工作流程,有效地保证了文本标注的精准性和完整性。由于本研究构建的语料库具有一定规模,课题组使用标注辅助工具AnnoTool(界面如图4所示)开展标注工作。该软件具有操作简单的特点,可以将固定的标签格式自动添加到文本中,并且支持用户自定义设置,可有效提高标注工作效率,减轻人工标注的负担。
4.4 文本校对
为确保文本标注结果的准确性和可靠性,在完成上述工作步骤后,本课题组对全部文本进行了两次全方位的校对。第一次是在完成文本标注工作以后,课题组成员对各自完成的任务进行交叉检查。检查的主要内容包括:(1)标注后的文本内容是否与原文献一致;(2)文本格式及标点符号是否符合规范;(3)文本标注内容是否完整、准确;(4)起止和终止标记的数目是否一致。交叉校对后发现标注后文本存在以下问题:一是存在乱码和中文字符;二是存在英语语法错误。相关文本负责人对有问题的文本进行了修改。第二次是在WORD格式文献转换成TXT格式文献后,课题组成员对各自完成的任务进行自查。主要检验语料能否在语料库分析软件上正确运行并显示出分析结果,为语料库分析工作做准备。
综上,本语料库的构建遵循最大程度“还原”原有文献面貌的原则,通过对文本选取、文本转换、文本清理、文本校对等步骤的严格把控,力求保证所采集语料的完整性、真实性、代表性和精准性。需要说明的是,由于MgmtDEAP管理科学与工程学术英语语料库的构建涉及特定学科领域的专业研究文献,专业知识宽泛,知识内容比较复杂,学术性较强,该语料库建设难免存在疏漏和不当之处。希望该领域的专家学者给予谅解和批评指正,以期进一步完善该语料库的建设发展。
5 基于MgmtDEAP管理科学与工程学术英语语料库的应用研究
MgmtDEAP管理科学与工程学术英语语料库将被收录于北京外国语大学中国外语与教育研究中心DEAP学术英语语料库,可以应用于管理科学与工程学科领域的以下方面。
5.1 语言研究
根据语言材料的采集和使用途径,现代语言学研究的方法主要有三种,即内省法、诱导法和语料库研究方法(孙云莉 2021)。不同的研究方法对应着不同的语料收集方式。其中语料库研究方法遵循语言研究的规则,按照不同学科领域的文献发表情况对已有学术论文进行抽样,收集具有代表性的语料,组成一个储存于计算机的文本库(桂诗春、杨惠中 2003)。通过语料库,语言学学者可以利用计算机技术对学术论文中的语料进行拆解与研究,兼顾定量与定性分析,使研究过程更加高效、精准,使研究成果更为可靠、科学,在语言研究方面具有广阔的应用场景,为业界学者提供科学研究的方法工具。 因此,MgmtDEAP管理科学与工程学术英语语料库的建立,可以客观地反映出该学科领域国际核心期刊论文的语言特征,让研究者能直观地总结出该学科论文中经常出现的词汇、句子、语法,总结出论文的语言特点,并由此理解其语义与功能,从而支撑该领域高质量英语论文的文体研究、篇章研究和英汉双语对比研究,进而改变现有管理科学与工程语言研究方法的局限性,填补该领域大型学术英语语料库建设的空白。
5.2 学科建设
作为国内管理学中唯一按照一级学科招生的门类学科,管理科学与工程学科领域涉及不确定性决策研究、公共工程、资源优化等多个方面,在国内外学者都热衷于对其下属领域进行相关研究的同时,该语料库更多聚焦于管理科学与工程学科的整体性研究。学者们借助该语料库,通过使用计算机技术和定量分析方法,梳理出该学科的整体科研成果和国际化研究现状,了解学科的发展历史,比较学科不同时期的发展热点和存在的不足,从而对管理科学与工程学科有一个全景式的整体描述,这对于该学科的建设发展将起到重要的推进作用。
5.3 教学方面
该语料库可以梳理出管理科学与工程学科的核心理论和热点问题,从而确定学科课程教学必须涵盖的核心教学内容,进一步提升课堂教学内容质量,帮助学生们了解和掌握这门学科的内涵和外延。在此基础上,该语料库还可以为开展本领域的学术英语教学提供资源和教学素材,从而推动相关院校、相关专业的特色化英语教学建设。
5.4 教材和词典建设
由于该语料库语料覆盖管理科学与工程学的不同学科方向,可以为编写该学科教材提供真实的语言数据,并满足该学科学术英语词典编撰者的不同需求,从而增强管理科学与工程学术英语教学的针对性和实际效果。
5.5 经济建设
该语料库的建立可以为我国经济结构建设、供给侧改革,社会治理和其他领域的科学管理提供学术性的参考意见;为上市公司、中小型企业的产业转型和制度管理提供学理依据。
6 结语
本文主要介绍了MgmtDEAP管理科学与工程学术英语语料库的建库目标、建库原则、建库过程和建库意见,详细阐述了该语料库的学科分布、期刊选取、语料下载与命名、格式转换、文本清理、文本标注和文本校对等建库步骤。在建库过程中,本课题选取了777篇发表于SCI管理科学与工程学科领域核心期刊的论文,发表时间集中于2018—2020年。本课题组成员在完成文献收集工作后,对所收集论文进行了分类整理,并对文中特定的语料单位进行清理、标注,最后转换成UTF-8编码的TXT格式文献,最终建成管理科学与工程学术英语语料库。该语料库涵盖了管理工程与科学学科下10个子方向的研究成果,文献内容时效性强,可以服务于管理科学与工程学的科研与教学工作,并为学者们提供了全新的研究视角和研究方法工具。同时,该语料库的建立进一步拓宽了国内学术英语的研究领域,增加了管理工程与科学领域的学术英语语料素材。值得肯定的是,MgmtDEAP管理科学与工程学术英语语料库的构建,将为专门用途英语语料库的建设提供有益参考,并推动管理科学与工程的应用与研究(闫鹏飞、谢文龙 2020)。这也是英语语言学界人士感到受益的事情。我们相信,MgmtDEAP管理科学与工程学术英语语料库建设及其相关应用研究,必将大有可为。
参考文献
布占廷,王昕,王乐. LinDEAP语言学学术英语语料库的创建[J]. 语料库语言学,2018(2):78-90.
陈峰. 化工英语语料库的构建与应用前景[J]. 材料保护,2021(3):9-10.
董爱华. 专门用途语料库的建设、应用、问题与发展趋势[J]. 北京印刷学院学报,2013(5):59-74.
桂诗春,杨惠中. 中国学习者英语语料库[M]. 上海:上海外语教育出版社,2003.
郭曙纶. 汉语语料库应用教程[M]. 上海:上海外语教育出版社,2011.
国务院学位委员会第六届学科评议组. 学位授予和人才培养一级学科简介[M]. 北京:高等教育出版社,2013.
胡佳佳. 《说文解字》语料库的XML标注设计[J]. 社会科学论坛,2011(7):214-223.
梁波,黄琨桢. 小型药事管理学英语笔语语料库的建设与后续研究初探[J]. 语文学刊,2013(9):98-111.
孙云莉. 语料库语言学研究的概述、现状和前景[J]. 英语广场,2021(28):62-65.
万雯婷. 基于语料库的管理学论文结论部分的体裁分析[J]. 语文学刊,2014(10):165-168.
邢富坤. 面向语言处理的语料库标注:回顾与反思[J]. 解放军外国语学院学报,2015(3):8-13.
闫鹏飞,谢文龙. MatDEAP材料科学学术英语语料库的创建[J]. 语料库语言学,2020(1):97-106.
章柏成,杨玲. CivDEAP土木工程学术英语语料库的创建[J]. 语料库语言学,2020(1):78-87.
通信地址: 410000 湖南省长沙市 国防科技大学文理学院