APP下载

农科学术论文摘要汉英语料库建设与应用前景

2020-12-04张瑞娥韩名利

关键词:农科学术论文语料

□王 翊 张瑞娥 韩名利

一、引言

21世纪以来,以微电子技术为基础的现代信息技术蓬勃发展,与社会经济产生了广泛而深度的融合,数据信息呈现出规模空前、增长率高、类型多样及流转快速等特征。对大数据的获取、存储、分析、加工及管理技术正对全球经济运行机制及人类社会生活方式产生着深刻的影响。国务院于2015年9月印发《促进大数据发展行动纲要》(国发〔2015〕50号),明确了大数据的重要意义和发展形势,并提出用5-10年时间建立“经济运行新机制”,培育“产业发展新生态”,开启“创新驱动新格局”,打造“社会治理新模式”,构建“民生服务新体系”的发展目标[1]。大数据技术的研发和应用深化,俨然已成为促进经济转型发展,推动国计民生建设的新动力。

语料库是大数据技术在语言信息处理方面的应用,对于完善大数据产业链和丰富其产品体系具有重要意义。经历了20世纪上半叶手工数据收集统计的“1.0时代”,20世纪下半叶电子存储,计算机检索的“2.0时代”,新世纪以来,语料库技术已逐渐进入了集成海量语境信息的“3.0”时代[2],为自然语言处理、语言学、翻译学等研究领域提供了高效的技术方法,且业已促成语料库语言学、语料库翻译学、语料库批评翻译学等学科的建立和发展,应用前景十分广阔。

现今,国内外语料库的建设与开发均呈现出较为明显的两极化趋势,即朝着“基于互联网的通用型超大规模语料库”和“行业型、专业化的小型专门用途语料库”两个方向发展[3]。相较于通用语料库,专门用途语料库与特定领域的学科专业联系紧密,其语料来源于特定语域及话语范畴,主题特征鲜明,为专门用途语言研究、语言教学、词典编纂等领域研究提供了强有力的支撑。

目前,各类型专门用途语料库的建设皆取得了长足进展,研究范围涵盖文学、商务、法律、旅游、医药、军事等众多学科领域,如英国埃塞克斯大学建立的“英语旅游文本语料库”[4]、香港城市大学建立的“香港法律汉英双语语料库”[5]、上海交通大学研制的“英汉医学平行语料库”[6]、绍兴文理学院建立的“中国古典文学英译双语平行语料库”[7]、黑龙江大学建设的“商务英语语料库”[8]、解放军外国语学院建设的“军事英语语料库”[9]等。

然而,对于涉及农业科技专门用途语料库建设的探讨尚不多见,范晶晶、李丽霞提出了建立“农业学术英语语料库”的构想及相关建库思路[10];张永萍、娄瑞娟探讨了“农林英汉术语平行语料库”的建设意义、整体设计、语料收集及标注检索设计,并提出了将该语料库用于翻译教学及MTI学生术语能力培养的设想[11];葛晓帅、司艳辉从设计建设、用途、特点等方面对自建“山东农业大学硕博士论文摘要语料库”进行了介绍[12]。虽然已有一些学者对农科领域语料库的研制提出了较有建设性的设想,然而语料库所选语料的种类及涵盖范围有待进一步扩展,语料的采集标准、标注方案、检索工具的选择及语料库的具体应用仍存在较大的探索空间。

此外,现阶段基于语料库的农业科技专门用途英语(ESP)研究、翻译研究等均反映出研究者对于建立农科专门用途语料库的需求,王闵利、李丽霞以254篇园艺专业及246篇动科专业英文论文为语料建立语料库,分析学术英语写作中主语“It”外置结构的形式及功能特征[13];王利莉采用PowerConc及Colligator对收集自美国之音(VOA)的592篇农业英语新闻报道中高频动词进行检索观察,分析探究其搭配规律、类连接及语意韵特征[14];祁雨思以“Bioresource Technology”期刊为采集载体,选取100篇农业工程领域学术论文为语料并使用AntConc对其中名词化后缀的分布情况进行检索描述,从而对其名词化功能进行分析探讨[15];杨苗苗通过从联合国粮农组织(FAO)网站选取若干年份《粮食及农业状况》双语报告构建平行语料库,用Wordsmith提取“把”字句和“被”字句的双语信息,并以此探究英语被动句中谓语动词的语义特征与其汉语翻译之间的联系[16]。以上以单一研究目的驱动的语料库建设虽然有助于研究者对语料数据的充分阐释,但由于容量较小,类型、主题较为局限,语料的代表性、平衡性仍不够理想,对语料的加工仍有待深入。

有鉴于此,我们依托“安徽科技学院农林英语研究所”拟建立“农科学术论文摘要汉英语料库”,旨在扩展专门用途语料库的应用范围,为农科专门用途英语(ESP)研究、翻译研究创建平台,为相关语言及翻译教学提供素材,助力涉外农业人才培养及农业产业信息化的应用创新,同时也一定程度上响应国家“十三五”规划关于推进农业大数据的发展战略。

二、语料库总体设计框架

本文所建“农科学术论文摘要汉英语料库”由“汉-英平行语料库”、“英语单语语料库”及“汉-英-英多向可比语料库”三个子库构成。本文所涉“汉-英平行语料库”指的是“由原文文本及其平行对应的译语文本构成的双语或多语语料库”[17],即由所选农科类学术论文汉语摘要及其对应英文译文构成的“翻译语料库”,而非“由取样标准一致的单语语料库构成”[18],且通过Tmxmall Aligner实现句级对齐;“英语单语语料库”即以英语为原语的农科学术论文摘要语料库;“汉-英-英多向可比语料库”包含上述“翻译语料库”及“英语单语语料库”,且两者通过可比度计算在篇章层面进行匹配对齐,以实现汉语原语、英语译语及英语原创平行文本之间的多向可比。语料库建库的总体框架如图1所示。

图1 “农科学术论文摘要汉英语料库”总体设计

平行语料库可为语言特征的转换与对等研究、词汇提取与词典编纂、翻译教学以及相关实证研究提供语料基础,可比语料库则有助于考查和描述不同原创语之间,译语和原创语之间的系统性异同。本语料库建设采用平行语料库与可比语料库相结合的架构,以期增强与相关学科研究及教学活动的兼容度,扩大其潜在应用范围。

三、语料库建设思路

从语料收集的类型及涵盖范围来看,本农科学术论文摘要汉英语料库具有明确的选材标准,并注重选材的代表性和系统性,力求较为全面地反映特定领域的语言事实,具有同质性(homogeneity)、系统性(systematicness)及专用性(specificity)的特点[19]。鉴于性质、用途以及实际操作的可及性考虑,将该语料库的设计规模暂定为150万词左右的小型语料库,其设计研制过程主要涉及语料收集、语料加工、语料检索、管理与维护四个方面。

(一)语料采集

语料库是依据一定采样标准收集的,能够反映某种语言或语言变体在真实语境下使用情况的大规模电子文本集合,采样的标准和规范直接影响着语料的质量和语料库的使用效果。一般来说,语料采集需要遵循代表性和平衡性的原则,即既要保证所选语料能够体现语言整体或其指定部分的特性[20],又需考虑语料所属体裁、领域分布比率的均衡问题。

本语料库所选语料为学术论文摘要,设计意图在于较为系统地涵盖农科各领域最新研究成果和方向,较为全面地反映当前农科专门用途语言(汉、英)的语言特征。考虑到语料的代表性,语料收集将以《中国农业科学院院选核心期刊目录》(20121219175534)为期刊选取依据,“汉-英平行语料库”以农科类中文核心期刊,如:《中国农业科学》、《农业工程学报》、《土壤学报》、《作物学报》等为语料来源,收集近10年(2010-2019)相关研究中英文摘要;“英语单语语料库”则以农科类国际核心期刊,如:“Genome Research”,“Agricultural Systems”,“Plant Physiology”,“Journal Of Animal Science” 等为语料来源,收集近10年(2010-2019)相关研究英文摘要。

出于语料平衡性考虑,收集过程将采取分层抽样与简单随机抽样相结合的方法。依据语料库的库容标准(约150万词)及单个摘要文本的平均字数(200-250词左右),所需文本的抽样总量大致为6000-7500篇左右(包括具有翻译转换关系的文本对),结合抽样操作的便捷性,将中英核心期刊抽样数量定为各2400篇左右。参照学科二级子类划分及中国农业科学院给出的期刊分类,将文本抽样分层为综合类、作物科学类、植物保护类、畜牧类、农业资源环境类等12个部类,每个部类平均抽取约200篇;各部类200篇文本按照10年历时平均分布,每年抽取20篇;该20篇文章的来源期刊,按照其影响因子IF的分布,即:1≤IF<2、2≤IF<3、3≤IF<4、IF>4分为4层(根据各部类期刊IF值分布作具体调整)进行选取,每层随机抽取1种期刊,所刊论文按引用量抽取前5篇。以“英语单语语料库”2015年所选语料为例,具体抽样方案如表1、表2、表3所示。

表1 “英语单语语料库”2015年语料抽样总体分布

表2 “农业工程与机械”类文本抽样分布

表3 期刊“Irrigation Science”论文抽样情况

以上所涉中英语料将分别从中国知网(CNKI)及Elsevier SDOS、Springer-Verlag等期刊数据库下载获取并以Unicode内码格式存储。由于所需语料数量众多,纯人工手动收集效率较低,本语料库拟采用Python爬虫技术通过获取网站完整源码,分析URL规律后设置相应函数实现对语料信息的自动获取,并尝试对文献更新进行跟踪,为语料库的扩容做准备。

(二)语料加工

语料库所收集的语料若未经任何加工处理,则属生语料(Raw Text),无法有效地用于相关检索及研究。语料的加工过程因语料库的性质和用途而各异,本“农科学术论文摘要汉英语料库”的加工处理主要包括以下几个方面。

1.语料降噪

通过网络或其他方式收集的语料很可能会含有不合规范的段落标记及文字、标点符号,如全角字母符号、跳格、软回车等,这些“文本噪音”会对语料的加工及检索产生干扰,在对语料进行标注前有必要通过“降噪”对其进行预处理。由于手动单个清理费时费力,这里将先使用相应的文本整理器(Text Editor)进行自动批量处理,再人工进行查验。

2.语料标注

语料文本的产生往往受语境条件的制约且反映出不同的交际目的,语言研究中的对比分析不可避免,对文本各种信息的标注记录将成为重要的检索依据[21]。对语料的标注一般围绕文本结构信息及内部语言信息两方面进行,出于整体设计及研究目的需要,本语料库建设的初期标注工作主要涉及分词、词形还原、词性赋码、元信息标注等方面。

分词是将文本中所有字符(character)转换成形符(token)的过程,是进行语料库自动标注、词频统计及深度加工的前期准备工作。如今基于Python的开源分词工具已不难获取,这里考虑分别使用Jieba和NLTK对中英文本进行分词,分词后的文本将分别以cn.seg及en.tok为扩展名与原有纯文本保存于同一文件夹内。以“汉-英平行语料库”2016年所选取《土壤学报》中一篇摘要文本为例,其分词情况如图2、图3所示。

图2 使用Jieba分词步骤

图3 “秦岭…的探讨”摘要文本分词结果(部分)

词形还原即是将英文文本中单词的屈折形式(名词词形变化、动词词位变化等)替换为单词原形,以满足特定研究的需要。NLTK模块中的WordNet提供了词形还原函数,可以用于完成相关还原工作,还原后的所有屈折形式将被视为同一个类符(type)。

词性赋码是对文本进行的词性标注,是对文本语法结构和特征进行分析研究的必要条件。可用的词性赋码工具有:TreeTagger、CLAW4、Thulac、Pynlpir等,以及一些在线工具,其赋码思路和准确性有所差别,使用之后再辅以人工查验。中文文本赋码后如图4所示。

图4 “秦岭…的探讨”摘要文本分词性赋码结果(部分)

元信息(Metadata)可按照信息的类型分为编辑性信息、分析性信息、描述性信息及管理信息[22],具体包括文本说明信息、文本信息、文本结构信息、元元信息等,这里选择采用XML标注语言对文本元信息进行简单的层级标注,如图5所示。

图5 “Water balances and …dry-seeded rice systems”摘要文本元信息标注

以上标注包含了文本类型、来源期刊、页码、字数、标题、作者、关键词等相关信息,便于进行分类检索。

3.可比度计算

本语料库建设拟将“英语单语语料库”和“汉-英平行语料库”两个子库中的英语语料进行可比度计算及文本匹配,以构建可比语料库。对于可比语料库而言,语料的可比度是衡量语料质量的重要指标,虽然学界尚未对可比度有较为明确的定义,通常来说可以将其理解为对应语料在文体、语域、主题、语义等方面的相似程度,即多数情况下语料的“可比度”可以等同于其“相似度”[23]。鉴于语料抽样方案已将文本抽取分为12个部类,相较于不同部类而言,同一部类的文本显然具有较高相似度,故相似度计算将依次在各部类中200个文本间进行。

自然语言处理(NLP)中对于文本相似度的计算方法大致基于文本表面相似度计算和文本语义相似度计算两个方向[24]。文本表面相似度算法主要以字符或术语的匹配程度和距离为依据,如:Levenshtein距离(编辑距离)、SimHash、Jaro距离等;文本语义相似度算法则更注重衡量字词在文本中的真实含义,如:N-gram、Word2vec、TF-IDF及ConvNet等。

这里拟采用的基本思路是:1.提取“汉-英平行语料库”中的英语语料文本特征;2.以每个文本的维度实数值构建向量空间模型(VSM);3.基于VSM做分类运算,得出分类模型;4.依照以上步骤1、2将“英语单语语料库”中的文本转换成文本向量;5.将文本向量依次输入分类模型,得出分类数值。其整体处理流程如图6所示。

图6 文本可比度计算整体流程

建立分类模型需要预先将文本分类标注并导入类别数值,将“英语单语语料库”中文本的向量实数值输入分类模型便可得出其与“汉-英平行语料库”中文本的匹配值(区间为0-1),取最大匹配值进行文本匹配即可。

4.语料对齐

对于平行语料库的加工而言,语料对齐工作必不可少,对齐单位可分为篇章、段落、句、词几个层次,单位粒度越小,提供的语言信息就越多,其应用的价值也就越大[25]。出于实际需求和加工成本考虑,本“汉-英平行语料库”拟使用Tmxmall Aligner 进行句级对齐,以2018年《生态学报》中所抽取的一篇摘要文本为例,其具体对齐结果如图7所示。

图7 “中国生态…建设”摘要汉英文本对齐

对齐后的文件将依据3.2.3可比度计算后的文本匹配结果与“英语单语语料库”中的文本实现篇章级对齐,以构建“汉-英-英可比语料库”,最终文本将分别以双文本对齐和三文本对齐的形式存储为tmx及txt两种格式。此外可利用Tmxmall Aligner依据词频直接提取术语,用于术语库的制作。

(三)语料检索

语料检索是对语料库数据进行筛选提取,发现及验证语言规律的重要途径,正确选择检索工具和检索方法是有效获取和分析索引结果的重要保证。本“农科学术论文摘要汉英语料库”建设涉及单语、平行、可比三种库型,语料包含汉英双语且反映二者间的转换关系,所以对于语料检索的要求不仅限于能够分别提取汉英语料的信息,还需实现对语言间翻译对应关系的考察分析。

语料库检索工具可根据语言种类、载体及用途分为单语/双语、基于网络/单机、通用/专用等几种类型[26],常用的处理软件有AntConc、ParaConc、Wordsmith、BFSU ParaConc、GCEPCC等。鉴于本语料库文本以Unicode编码格式存储,且使用XML语言标注结构化信息,结合各检索软件的特色优势,这里拟分别选用基于单机的AntConc和ParaConc工具对单语语料库及平行语料库进行检索分析。

此外,北京外国语大学近年开发了面向大规模英汉平行语料库的检索工具“语料库检索平台V2.0”[27],该工具同时具有单、双语简单/复杂检索及搭配分析功能;其自主设计的ProConc语言兼有通配符和正则表达式的优点,可有效用于对复杂信息的提取;其分别以Python和C语言编写框架和核心算法,高效且兼容性好[28]。虽然该工具设计目的在于处理上亿词量的大规模语料,其优点及特色功能对于包含平行语料的小型专门用途语料库来说同样适用,这里将考虑后期引入该检索工具以提升检索效果。

(四)管理与维护

语料库建设是一项长期的系统工程,其投入使用后才是生命周期的开始,仍需不断进行完善、管理和维护。后期可考虑根据研究需要定期更新或扩充语料,调整语料的分布比例及逻辑结构,对语料进行更深层次的标注等。此外,语料库中的语料经过了筛选和加工,是具有研究价值的数据资料,其安全性理应得到保障,后期建设可考虑自建语料管理程序,并以普通用户、语料管理员、系统管理员三个级别设立用户权限,避免数据被随意复制删改[29]。

四、应用前景

本语料库的设计特点在于将平行语料库和可比语料库相结合,这有助于揭示语言的共性和不同语言及语言变体所特有的内在规律,对比探索原语、译语及目的语母语之间的异同,为语言对比及翻译研究提供语料资源,为相关教学实践提供语料素材。具体来说,其应用前景主要体现在以下几个方面:

1.基于“农科学术论文摘要汉英语料库”的专门用途英语(ESP)研究。本语料库设计中的“英语单语语料库”所含语料属原创语料,且集中于特定文本类型、主题、语域,具有较为一致的语境特征,可为研究特定语境下的英语语言特点及语言使用提供有利条件。具体内容可涉及语料库语言学常关注的词项搭配、句法类连接、语义韵等方面,此外还可以运用定量研究法进行语域、语篇、修辞及目标情景分析,话语方式和策略研究等。

2.基于“农科学术论文摘要汉英语料库”的翻译研究。本语料库设计中的“汉英平行语料库”及“汉-英-英多向可比语料库”包含大量具有翻译转换关系及译语-原创语可比关系的双语语料,且经过对齐处理及可比度匹配,后期建设将继续进行语法标注、翻译信息标注等深度加工。这有利于借助统计学方法从词汇及句式的对应关系、翻译策略及方法的选择等问题入手,进行相关翻译实践研究;从翻译文本词汇、句式的结构特点,句法、语篇的总体特征、语言搭配等方面入手,以原创语文本为参照,探索具体语言对翻译语言特征、译者风格等语料库翻译学特有的研究领域[30];此外,经过对齐的平行语料是制作翻译记忆库的优质资源,可直接服务于翻译实践或用于机器翻译、计算机辅助翻译等相关研究。

3.基于“农科学术论文摘要汉英语料库”的教学研究。语料库中语料来源真实、丰富且数量庞大,能够较好地反映和解释语言在实际使用过程中所呈现的典型特征和规律,从而为外语教学提供纪实性辅助和参考;同时,其相关技术手段,如索引行、词频统计、术语表生成、关键词表等,也可为自主学习提供有效的技术支持。从语料库及其子库分类、语料所属语域、文体类型来看,本语料库与农科专门用途英语教学、学术论文写作教学及翻译教学有着较强的内在联系,通过对语料的加工检索可获取行业高频词汇、习惯搭配,并以此为基础分析总结语篇特点,从而为传统的ESP教学模式提供补充;通过引导写作学习者利用检索工具获取真实语料素材并进行模仿创新,探索语料库驱动学习模式下的学术论文写作教学改革;通过剖析平行语料库中典型翻译案例的双语特点、翻译策略、译法技巧,以弥补以往教学实例脱离语境的不足。

五、结语

语料库是信息技术应用于语言处理的产物,为语言学、翻译学等领域研究提供了全新的方法论及研究范式,其定量与定性相结合的研究方法也弥补了以往内省式研究的不足,增强了相关研究的客观性、科学性[31]。小型化专门用途语料库的建设可满足对于特定语域、主题、话语范畴语言及语言变体的研究需要,符合当今语料库的建设发展趋势。本文所述“农科学术论文摘要汉英语料库”建成后以期用于农科专门用途英语研究及相关领域的翻译研究,且为ESP、学术论文写作、应用翻译等领域的教学改革提供新的路径。诚然,要实现语料库的预期效用,现阶段对于语料的加工尚显不足,初期的元信息标注和词性标注完成后语法标注将继续跟进,此外其他深加工的处理方式如翻译信息标注也在进一步探索中。

猜你喜欢

农科学术论文语料
本期主要学术论文英文题目及摘要
学术论文征集启示
农科城如何为乡村提供“振兴样板”
学术论文征集启事
公费农科生培养试点工作实施
农科问答
农科110专家,你们辛苦啦! 省总工会与省科协联合举办农科110专家送清凉慰问活动
面向低资源神经机器翻译的回译方法
可比语料库构建与可比度计算研究综述
国内外语用学实证研究比较:语料类型与收集方法