英汉平行历时语料库的创建与语料检索
2015-12-24黄万丽,秦洪武
英汉平行历时语料库的创建与语料检索
黄万丽秦洪武
(曲阜师范大学,曲阜,276826/273165)
摘要:本文探讨了英汉平行历时语料库创建的基本理论依据和建库原则,介绍了历时性英汉平行语料库的语料总体状况、语料的抽样框架、语料的存储方式和实现手段。本文还展示了检索系统的设计思路和它具备的多条件复合检索功能,同时也演示了该检索系统支持的多种检索方法。
关键词:历时平行语料库,双语检索系统,英汉翻译
1. 引言
Lüdeling和Kytö(2008:ⅵ)指出,现代语料库语言学得益于历时比较语言学,因为后者使用的研究素材总是文本或者文本的集合。而且,19世纪发展起来的语言谱系识别技术一直沿用至今,语言变化研究依旧仰赖早期的文本(也就是语料)。在此背景下,自上世纪80年代以来,随着人们对语言历史发展兴趣重燃,以及计算机和信息技术在语言处理领域的广泛应用,可机读的便于检索和提取语言数据的历时语料库得到了飞速发展。在我国,历时语料库建设起步较晚,双语历时语料目前还是空白。在这种状况下,我们建设历时平行语料库在很大程度上顺应了时代的要求。本文探讨了构建英汉平行历时库时相关的设计、制作和检索问题,以及该类语料库可能提供的使用方式。
2. 研究背景和研究意义
研究语言变化,必然使用既往语言素材。既往的自然是历史的,但历史的不一定是历时的,因为后者专指按照时间先后连续抽取的素材,这种连续性甚至可以延伸到当前时间。比如,在历史语料库里,按照时间先后连续收集的语料是历时的,但其中能代表某一时段并作为独立自足单元收集的语料则属于共时语料,可用于共时语言研究。
历史语言学家所言的历时和现在历时语言学家心里的时间框架不同(Renouf 2007:38)。传统的历时语料库往往有很大的时间跨度,动辄几个世纪甚至跨越千年。与之相比,现代历时语言学家对比的文本通常只有10到30年的时间跨度,使用的语料库自然只有很短的时间间隔,主要包括两种:第一种是采用相同取样框架和设置,但按照时间顺序从不同时段选取语料,如20世纪60年的LOB语料库和它在九十年代的克隆语料库FLOB,这类语料库属于历时语料库,支持历时语言研究;第二种是监控语料库,这类语料库中的文本按照特定设计收集,所收文本在时间上具有连续性。根据Renouf(2007:36),监控/动态语料库到1990年才出现,来自Renouf主持的AVIATOR项目,库中语料为1988年以来《泰晤士报》的文本,文本按照时序不间断收集;另一同类型监控语料库由ACRONYM项目于1994年开始创建,不过收集的语料是《独立报》的新闻文本。
秦洪武,曲阜师范大学外国语学院教授、博士。主要研究方向为语言学与翻译。电子邮箱:qinhongwu@163.com
从历史和历时的包容关系看,我们可以把在大跨度时间段内收集的历时语料称作历史语料库,而把当代出现的在跨度较小的时段内收集的历时语料称作现代历时语料库。本文探讨现代历时平行语料库的创建,以及这类语料库可能的用途。
目前已经建成的英汉平行语料库在规模和平衡性方面大都存在缺陷,还不能满足翻译研究和翻译实践的需求;而现有的检索工具,在检索深度和双语检索方面还有许多不足。而且,单机版的检索工具也不利于资源共享,不利于提高双语资源的利用效率。针对这些问题,开发大型、平衡同时又能支持复合性检索的双语语料库就非常有必要,尤其是对这类语料库的web检索和应用更是重点。
3. 英汉平行语料库的创建
语料库的构建主要包括语料采集、语料加工和信息存储三个过程。
3.1语料采集
为建设时间跨度较大、平衡性较好的英汉平行语料库,本项研究将语料采集范围设定为1910年至今的翻译语料,保证了有较大的时间跨度以便更加利于历时语言研究;此外,语料的文体和体裁力求多样,文学和非文学领域分布相对均匀,主要有民国以来的新闻、杂志、各种文学和非文学类作品,以及当代的网络资源,这在一定程度上实现了语料的平衡性。早期语料的采集一般通过对扫描后的图像文件采用OCR识别,然后进行校对并保存为纯文本。目前该库采集的语料约为三千万字词(更多内容见王克非、秦洪武2012)。
3.2语料加工
平行语料库中的语料不同于用在计算机辅助翻译上的语料,它不仅有句对齐,还有更大的对齐单位,如段对齐,以便满足教学和研究的需要(王克非、熊文新2009)。采集后的初始语料需要进一步加工处理,包括篇头元数据赋码、双语文本句对齐、汉语分词、英汉语词性标注四个过程。如图1所示。
图1 语料加工过程
首先要进行的是元数据赋码,即对英汉对应语料所属语篇的文本属性或依附属性进行标注,标注的属性信息主要有源文本语种、目标语语种、文体类别、英汉篇名、作者、译者、出版社、出版年份、所属时代。其中文体类别分为三级,分别是文类、文体和体裁,这样更利于观察语料的平衡性和特定语体语料的检索和文体研究。
句对齐指将英汉对应语料以句对为单位对齐。本文将语料的对齐分为两级:段落级和句级。段落级指的是英汉语料中相对应的一段文字信息;而句级指英汉语料中最小的对齐单位,允许一个对齐单位包含多个句子,如,一句英文在汉语译文中可能对应多句汉语,反之亦然。
汉语分词指的是将一个汉字序列切分成由独立的词构成的序列,它是中文信息处理的基础和关键。目前有很多已经比较成熟的分词算法(甘秋云2013),如基于词典的分词算法、基于统计的分词算法、词典和统计相结合的分词算法以及基于理解的分词算法。当前也存在很多中文分词软件,如IKAnalyzer、CWS和ICTCLAS4J等。本语料库使用的汉语分词和词性标注软件为ICTCLAS。而英文词性标注软件前期语料为CLAWS,后期语料为Stanford POS Tagger。
采用现有的算法或软件进行中文分词、词性标注和句对齐都可能出现错误。因此,语料制作的每个步骤都需要专业人员进行人工校对、修改,最后得到可载入数据库的平行语料。
3.3语料存储
当前语料库资源的存储主要有两种形式:文件存储和数据库存储。其中文件存储又包含文本文件和xml文件。当前现有的语料加工软件多是基于文本文件的,为了同现有的软件兼容,本文构建的语料库采用了xml文件和数据库两种存储方式。
采用xml文件存储语料的一个最大优势就是可以利用xml文件中的标签和属性反映语料的元数据赋码信息、词性信息和句对齐信息;此外,该类语料还可以非常方便地和多数翻译辅助软件进行数据交换。xml文本的结构如下:
-
-
-
-
-
几乎所有便宜的背后都隐藏着风险。其实方便也是这样。你看,便宜的“便”,就是方便的“便”,读音不同,但写法一样,本质也一样。
作为语言材料的有序集合,语料库通常文字数量较大,动辄达到千万级字符的规模,几个亿的语料库也不鲜见。鉴于此,如果采用文件存储,一是会造成数据查询效率降低,不利于数据挖掘和分析;二是会给数据的管理和维护带来困难。因此,除了使用xml文件之外,本项目还采用了关系型数据库Oracle存储语料。这是目前世界上使用最为广泛的数据库管理系统,其主要优势包括:
(1) 提供完整的数据管理功能。数据库本身具备良好的存储、管理和维护功能,而Oracle数据库在大数据支持和数据安全性上更有优势,存储和管理大规模语料时就更可靠和稳定,也便于扩容。
(2) 作为关系型数据库,Oracle能提供灵活的数据检索功能和二次开发接口设计。语料库建设的一个关键环节是信息的检索和利用,而利用数据库标准语言SQL(Structured Query Languag,结构化查询语言)可方便快捷地开发图形化的语料库管理系统,满足用户对语料库不同需求的检索和使用。
(3) 提供强大的分布式处理和数据分析功能。可通过网络方便地读写远端数据库中的双语语料数据,并能轻松地实现数据仓库、数据挖掘与分析的操作,方便对各种语言特征进行统计分析,如词频统计、历时语言变化和多语言对比等。
本项目的双语平行语料库在数据库中主要设计了三个表格,分别是语篇表ARTICLES、句对表SECTIONS和单词表WORDS。其中,ARTICLES表中的每一条记录都是一对平行的英汉语篇,以及与之相关的元数据赋码信息,将语料加工阶段标注的元属性信息设计在该表格中可以最大限度的减少数据的冗余,其设计结构如下表1所示:
表1 语篇表ARTICLES的字段设计及说明
(续表)
SECTIONS表中的一条记录对应一个英汉平行的句对及词性信息,其设计结构如下表2所示:
由上表可知,本项目将词性标注前后的英汉内容分开存储,这在数据存储上有一定的冗余,却大大提高了用户的检索效率。
WORDS表中的一条记录对应一个英语单词或汉语字符及词性信息,该表的设计不仅可以大大提高单词翻译的检索效率,方便对单词常用搭配的检索,并为后续的词典编纂研究提供可扩展的接口。其设计结构如下表3所示:
表3 单词表WORDS的字段设计及说明
(续表)
4. 英汉翻译历时语料库检索系统的设计
为方便语料库的使用,我们设计了基于Web的图形化的语料库检索系统。用户根据需要直接选择或输入查询条件,后台接收用户请求后即可自动生成SQL语句实现对数据库中语料的访问和检索,将生成结果处理后呈现给用户。该检索系统主要实现以下功能:
(1) 较强的语料库检索功能。该检索系统可以提供针对英汉的通配符的模糊检索、带词性和不带词性的检索,以及灵活的正则表达式检索。相对于常用的通配符检索,正则表达式检索更能保证检索的正确率,也更灵活、更具针对性。
(2) 多检索条件的限制。该检索系统将语料中的元数据赋码作为检索条件供用户选择或输入,包括源语言、文类、文体、体裁、作者、译者、出版社、所属时间段以及大小写是否敏感。多种条件可以单独或结合使用。
(3) 检索结果呈现的多样性。检索结果中匹配字符串以红色凸显,显示每个句对的英汉句数对比,并进行词频统计。除此之外,还可以选择显示句对的词性和来源信息。
(4) 安全的访问控制。该系统针对不同级别的用户提供不同的检索能力,用户分为四种级别:管理员、教师、学生和访客,其访问权限依次减小。如管理员可以检索语料库中所有资源、追加语料、保存检索结果和管理系统所有用户;教师可以访问特定数量的语料、保存检索结果;学生只能检索特定数量的语料;访客在检索功能上还进行一定限制等。
本项目基于Oracle数据库,采用Apache Tomcat作Web服务器,前台采用JSP和Ajax技术,后台采用JAVA语言编程设计开发了一个基于web的语料库检索系统。用户自身的计算机不需要任何特别的安装和配置,在联网的情况下通过浏览器即可访问。
5. 英汉翻译历时语料库检索系统的应用
5.1多重检索条件的应用
5.1.1文本属性信息的使用
为实现有针对性的历时语料检索,本检索系统充分利用篇头的元数据和元字符,实现了中英文多重复合检索,主要涉及文本的文体属性、著译者和时间信息等,这样就能有效地将语料文本中的篇头信息用作检索条件。如下图所示,检索页面中提供了丰富的检索条件对话框。缺省状态下满足所有隐藏的检索条件,如文类包含文学和非文学。如果选择文学,则可以选择更多的限制条件如文体和体裁。
检索条件中的时段输入框对于检索某个特定时间段的语料非常有用,在空白状态下,时段处于缺省状态,包含1910至2010年的全部年份。如果检索某个时间段的语料,直接在输入框中填入四位数的年份即可,从左向右填写时段。如:“1919-1930”。如果只检索某一年份的语料,则需要重复年份,如检索1921年的语料时则输入“1921-1921”。
5.1.2多条件检索
本检索系统提供了双语语料的精确和模糊检索、双语对齐信息和比较灵活的语料呈现方式。这些设置可满足不同的检索要求和研究需要,详细内容如下图所示:
“英文”和“中文”的设置既满足单独检索,也支持双语对应词同时检索;而“区分大小写”功能对英语有效,有助于检索需要区分大小写的英语表达形式。“对齐”是指对齐单位的大小,缺省状态下选择“句级”;如果需要更大的语境,可以点选“段级”。区分对齐单位是为了满足寻求更大语境的研究需要。
该检索系统还可以根据“词性”和语料的“来源”限制检索范围,使更具针对性的检索成为可能。
5.1.3字库库容的计算和显示
为满足研究需要,检索系统使用篇头元数据中的
5.1.4通配符检索
本检索系统支持通配符检索,如下所示:
通配符解 释检索表达式例 示?任意一个字符a???ofalotof;afewof*任意数量的中英文词a*ofacompletetriumphof#包括空格在内的任意数量的英文字符a#ofalittleislandcalledPhilae,notfarfromthefirstgreatwaterfallof
通配符在检索时通常不能有效地区分标点符号、空格和文字。从这个角度说,通配符无法满足精确检索的要求(秦洪武、王克非2013),故用途有限。所以本检索系统提供了正则表达式检索。
5.2正则表达式检索
5.2.1正则表达式
正则表达式使用一系列看上去复杂的元字符(metacharacters,见附表),如‘p(a|o)?rt’,实则繁而不乱,遵循着明确的规则,更没有想象的那般深奥。如在表达式‘p(a|o)?rt’中‘|’表示二选一(a或者o),‘?’表示匹配前面的子表达式零次或一次,所以可以检索到part,port这类的词汇。使用正则表达式还可以检索到词语串,如语料库中‘story_NN has_VBZ it_PRP that_IN’一类的表达可以使用‘S+/N*sS+_V*sit_PRPsthat_IN’形式来检索,同时还能检索到rumor had it that、legend has it that、word has it that等语言实例。
使用正则表达式检索时需要开启检索条件中的REGEX功能,进入正则表达式检索状态。
5.2.2本检索系统使用的正则表达式
英汉翻译历时语料库在线检索系统使用的元字符基于Oracle数据库提供的元字符。Oracle提供的元字符很多,这里只介绍和英汉语言特征相关的元字符使用。
正则表达式检索的元字符说明
关键词同时,该检索系统还可以实现英汉语同时检索。如下面的例示中,将英语purpose和汉语“目的”带着词性使用正则表达式同时检索。
[中图分类号]H08
doi[编码] 10.3969/j.issn.1674-8921.2015.03.003
作者简介:黄万丽,曲阜师范大学信息科学与工程学院讲师。主要研究方向为语料库研究、大数据处理。电子邮箱:wanlih1983@126.com
基金项目*本文为国家社科“历时语料类比中的翻译与现代汉语互动研究”(编号10BYY008)和国家社科基金重大招标项目“大规模英汉平行语料库的建立与加工”(编号10&ZD127)的部分研究成果。
正则表达式可以通过POS线索检索可能的句法结构,如使用正则表达式“S+/CS+[0-9]+that/S+[0-9]+”可以检索到下面的双语数据,其中就含有英语的so that,such that,provided that等结构信息。
5.2.3其他检索方式
使用正则表达式能够精确地提取具有汉语独有特征的数据,如汉语里的双声和叠韵等字符组合形式。根据本检索系统,可以使用的检索方式至少有下面几种。
表达式“(S)(S)2(S)”可以匹配汉语的组合形式如:大吃大喝、美轮美奂;如:
同样,表达式“(S)(S)(S)4”可以匹配汉语的组合形式如:时时刻刻、断断续续;而表达式“刚+”可以匹配汉语的组合形式如:刚、刚刚、刚才。
此外,还可以根据特定语言项目在句子中的位置来检索特定的语言项目的使用状况,如表达式“S+/yS+/S+”匹配在句末出现的语气词。
正则表达式检索还有很多可以用元字符和组合方式,适用于汉语语言特征检索的各种检索表达式可参见秦洪武、王克非(2013)。
6. 小结
本文主要描述了英汉平行历时语料库的构建、检索系统的设计和应用三方面的内容。与现有的其他语料库相比,本文构建的语料库主要有以下特点:规模大、文体类型全面、时间跨度广,且采用数据库存储,方便数据的管理和维护。