网络语料库分析系统CQPweb的建设及应用
2017-01-05刘萍吴良平
刘萍 吴良平
摘要:新一代网络语料库分析系统CQPweb具有词频分析、搭配分析、分布分析、索引行以及主题词分析等多种分析功能。CQPweb于2014年首次引入国内,目前国内已建成三个CQPweb,更多语料库研究者期待着创建自己的CQPweb。鉴于此,本文以HZAUCQPweb为例,详细介绍了CQPweb的创建流程,所要求的环境条件、技术要求、CQPweb的体系结构、管理权限等。HZAU CQPweb建成后,被应用于学术写作教学,探讨了CQPweb的三个主要分析功能,即词频、搭配、分布分析功能在解答写作困惑方面的作用。应用研究揭示:基于CQPweb的数据驱动学习在提高学生的语言意识、促进主动学习和知识内化等诸多方面优势凸显。本研究旨在促进CQPweb在国内的推广应用。
关键词:CQPweb;平台建设;数据驱动学习;学术写作教学
一、引言
近年来,随着计算机技术的进步,语料库开发与建设迅猛发展。然而技术门槛与版权问题阻碍了语料库资源的共享。最新一代网络语料库分析系统CQPweb极大地简化了语料库检索操作,很大程度上消除了技术障碍。同时,CQPweb将语料库文本储存于网络服务器,用户无法复制或重构语料库文本,使语料库版权得到保护。因而,有很多语料库研究者期待架构自己的CQPweb,上载自建的语料库,用于教学与科研。鉴于此,本文以HZAU CQPweb为例,介绍CQPweb的建构流程及其应用。集易用性、兼容性与强大功能于一体的CQPweb特别适合数据驱动学习(data-driven learning)。在教学中采用CQPweb,引入数字驱动学习的教学理念,将促进教学方法、教学手段的更新。CQPweb充分利用数据索引,能对大规模文本进行快速处理,符合大数据时代特征,代表着今后语料库分析工具的发展趋势。
二、概述
1.cQPweb的发展历程
CQPweb是第四代基于网络的语料库分析系统(McEnery&Hardie 2012:44),其主要分析功能包括:索引行、搭配、词频、关键词、分布分析等。CQP(Corpus Query Processor)最初由德国斯图加特大学于1994年在Solaris平台开发(Christ 1994)。1998年,StefanEvert以Linux为平台继续开发(Evert 2008)。2006年Hoffman&Evert结合了两个单独的查询技术语料库工作平台Corpus Workbench(CWB,CQP为其核心组件)和MySQL关系数据库,产生了新一代以CWB/CQP和MySQL为后台的语料库分析系统BNCweb,既提高了系统的操作性能,又给予CWB/CQP一个更友好的用户界面。但是,该系统只能检索英国国家语料库BNC,不兼容其他语料库。为了突破此局限,兰卡斯特大学Andrew Hardie用PHP语言改写了BNCweb,更全面的数据模型使其兼容几乎所有类型的语料库,他将改进后的系统命名为CQPweb。2008年,首个CQPweb问世,它以开源软件形式发布,此后不断推出新版本。
2.cQPweb的优势特征
CQPweb采用浏览器一服务器的分布式数据处理方式,能实现跨平台检索,在功能性、易用性、灵活性三个方面实现了重大突破。Hardie认为对语料库兼容并收的灵活性是CQPweb的主要创新特点(Hardie 2012:380)。相对于其他语料库分析工具,CQPweb优势突显。目前广泛使用的第三代语料库分析工具,
如WordSmith Tools、MonoConc、AntConc等,虽然拥有良好的图形用户界面,易用性高,但是它们不支持数据索引或复杂检索,因而检索速度和功能大为逊色。还有一些语料库工具虽然检索功能强大,但易用性差。例如德国斯图加特大学的CWB/CQP支持大型语料库的快速、复杂检索,但其检索技术门槛高,多数普通研究者不会使用。另外一些语料库检索工具虽然易用,并且功能强大,但是兼容性差。例如上述BNCweb仅能针对BNC检索,无法加载用户自建语料库。相比之下,CQPweb以常人熟知的浏览器为用户端,采用标准化的语料格式,能加载和检索任意语料,在功能、易用、灵活三者之间取得了较好平衡,成为目前功能最为全面的网络语料库分析系统。
3.国内外cQPweb的开发与应用
在国外,CQPweb以其独特的优势受到用户青睐,目前,英、美、德、西班牙、加拿大等多个国家的大学和研究机构采用了CQPweb,服务于教学和科研(许家金、吴良平2014:12),取得了良好的效果。例如兰卡斯特大学在语料库语言学教学中采用了CQPweb,因为语料库检索操作被大大简化,学生有更多精力聚焦于教学内容本身,因而学习效率得到提高(Hardie 2012:387)。另一方面,CQPweb的兼容性极大地拓展了其适用范围,它甚至成为人文科学、社会科学领域研究者的研究利器。例如Maatz(2014)利用CQPweb进行对比研究,发现精神分裂症患者对第一人称代词“I”的使用多于正常人,这一发现有助于精神分裂症患者的病理研究。
在国内,CQPweb作为一个新概念、新事物,2014年由许家金、吴良平(2014)发表的专题论文首次引介。同年,国内第一个CQPweb系统“北京外国语大学多语种在线语料库检索平台BFSU CQPweb”问世。该系统公开发布了代表7种语言的33个不同类型的语料库,促进了语料库资源与工具的共享,同时促进了基于语料库网络平台的语言研究。在BFSU CQPweb示范效应的影响下,香港理工大学、华中农业大学也先后架构了各自基于校园网的CQPweb。这些先驱CQPweb系统使国内语料库研究者体验了CQPweb的强大功能、便利操作,以及它对语料库版权有良好的保护,因而激发了一批语料库研究者创建CQPweb的热情。他们纷纷在论坛、网站等学术阵地寻求创建CQPweb的技术与流程。然而,现有的相关文献少之又少,仅有的一篇中文文献(许家金、吴良平2014)未有涉及CQPweb的具体创建流程及其在学科教学中的具体应用。
鉴于此,本研究详细介绍华中农业大学CQPweb(以下简称HZAU CQPweb)的创建流程及应用研究,旨在为同类研究提供参考借鉴。
三、H7AU GOPweb的创建流程
HZAU CQPweb为农科英语语料库网络系统平台,采用CQPweb v3.0.7作为建构基础。建构网络型CQPweb需要两个基本条件:(1)CQPweb系统;(2)CQPweb专有格式语料库。CQPweb(自带安装说明文档)可从其官方网站自行下载与安装。专有格式语料库安装到CQPweb系统后,用户方能检索。以HZAUCQPweb为例,我们从环境条件、技术要求、体系结构、管理权限等方面阐述CQPweb的建设流程。
1.创建cQPweb的技术参数与准备条件
CQPweb系统实为运行在Linux操作系统的一套开源程序,其主要构成元素为后台OpenCorpus Workbench 3.0+和用户界面CQPweb。软件条件为:GNU Linux 2.6+、Apache-2.0+、MySQL-5.0+、PHP5.3+、Perl-5.8+。硬件条件为:32位或64位Intel/AMD处理器、双倍于语料库大小的空闲硬盘空间,以及适量内存(假设1亿词次规模的语料大小为1GB,将其架设在CQPweb平台上所需的硬盘空间则约为2GB。依此类推)。HZAU CQPweb采用64位Linux,4GB内存,目前运行良好。
CQPweb可处理复杂数据类型语料,但对输入文件格式要求严苛。在上载文本前,需要对文本进行清洁与处理,以减少出错几率,涉及多个步骤:(1)删除源文本中的页眉、页脚、图表及说明、参考文献等语言学信息不强的部分;(2)切割与提取论文的各章节部分;(3)统一采用UTF-8编码;(4)去除空行、行首与行尾空格等空白;(5)转换全角符号至半角;(6)删除异字(如英文文本中夹杂的汉字);(7)添加词性赋码;(8)转换语料格式为CQPweb专有格式。专有格式是CQPweb能加载任意语料,成为通用语料库分析系统的关键。其中论文章节部分的切割、提取需要专业背景知识。HZAU CQPweb建设中,调动了不同农科专业方向的博士生参与此项工作,以确保语料提取、加工的质量。
2.HZAU cQPweb两个数据模型与语料库的三层构架
CQPweb的检索功能的实现依靠两个数据模型:语料库文本数据模型和语料库元信息模型。前者支持一般检索,后者支持分类检索。两个数据模型的结构描述如下:
语料库文本数据模型采用一行一单词的竖排格式,每个单词后面可带词性、词形还原等若干标注成分(Hardie 2012:390)。在文本数据模型中,每个单词都标注了词性赋码,单词与词性赋码之间由制表符分隔,并排成CQPweb专有竖排格式。
语料库元信息指与语料相关的文本结构信息或社会语言学信息,如章节号、刊物来源等信息。语料库元信息模型分为两栏,左边为文本的ID,右边为文本的学科分类元信息。如果有一文本的ID为D01,其对应的学科元信息为DWKX,那么元信息模型中的D01DWKX解读为“动物科学(DWKX)文本库中的第1个文本”。文件ID与元信息之间由制表符分隔。元信息用于CQPweb限定条件检索(Restricted query),例如将带有DWKX(动物科学)元信息数据的所有文本可作为一个学科大类进行检索。HZAU CQP web能够实现章节部分的分类检索也是基于同样的原理。
上述两个数据模型运行在CQPweb后台的服务器上,而在HZAU CQPweb前端的浏览器网页上(http://211.69.132.28/)呈现给用户的是语料库的三层架构:第一层是农科专业期刊论文语料库,收录英语母语者发表的期刊论文。第二层是汉语母语学习者语料库,收录农科专业的硕士生、博士生撰写的英语学术论文。这两个语料库构架一样,均由按照章节部分和学科分类的两个子库构成:章节子库包含摘要(ABS)、引言(1NT)、方法(MET)、结果(RET)、讨论(DIS)、结论(CON)6个库;学科子库包含植物科学(ZWKX)、动物科学(DWKX)、生命科学(SMKE)、园艺林学(YYLX)、农业经济(NYJJ)等9个库。第三层是对比语料库,包括经过授权的英语母语学习者语料库BAWE和文学作品语料库DICKENS,主要用于对比研究。
3.cQPweb的系统结构与管理员权限
作为一套开源程序的集合,CQPweb系统主要分为服务器端和用户端两个部分,包括多个相互联系的组件。检索过程开始于用户在浏览器的用户界面输入查询语句,服务器端收到查询请求后,与CWB和MySQL两者进行交互,将最终结果通过浏览器呈现给查询用户,至此检索完毕。在检索过程中,用户的任务仅为输入恰当查询语句(参看许家金、吴良平2014:14),而后一切交由CQPweb自动运行处理。
系统管理员权限为:(1)语料库管理;(2)用户管理。在语料库管理方面,管理员可安装、修改、删除语料库,根据需要随时展示或隐藏特定语料库,还可以修改系统配置文件,对用户界面进行视觉效果调整。例如使用不同背景颜色区分不同语料库,降低认知负荷,便于同一系统上大批量部署语料库。在用户管理方面,系统管理员可创建单个用户或批量用户,并根据实际需要对用户进行分组,赋予不同访问权限,例如仅对某一特定用户组开放某一特定语料库。这种灵活的用户组策略便于管理不同权限的语料库,也为同一系统部署不同权限的语料库提供了可能。
四、COPweb的多种分析功能在学术写作教学中的应用
HZAU CQPweb建成后,我们将其应用于农科专业博士生学术英语写作课程教学,在教学中,引入数据驱动学习(Data DrivenLearning,简称DDL)的教学理念。数据驱动学习由Tim Johns(1991)提出,其主要思想为:学习者作为研究者,通过对大量语料数据的观察,自己归纳、发现语言使用规律。教师作为引导者,为学生提供语料库资源与工具,指引学习者探索、发现。在DDL教学理念的指导下,传统上由教师讲授的部分内容被转化成学生的自主学习任务,以促进学生借助语料库,自己探求语言困惑的答案,从而掌握DDL学习方法,达到授人以渔的目的。
采用DDL的学习方式后,教师引导学生尝试利用CQPweb平台上的各种检索分析工具,如词频、搭配、分布、索引行以及主题词分析等,解答写作实践中的疑问。限于篇幅,在此仅展示CQPweb的三个主要的分析功能:词频分析、搭配分析与分布分析在写作教学中的应用情况。
1.词频分析与搭配分析
在英语写作过程中学生常遭遇选词与搭配方面困惑,例如学术英语论文写作中一篇论文常要多次用到“研究”一词,写作者常纠结于多用research,还是多用studV,表示“关于……的研究”这两个名词到底与介词of还是on的搭配更为频繁?英、汉母语写作者在选词与搭配上有无差异呢?CQPweb的检索结果如表1所示:
cQPweb的频数解析(Frequency breakdown)功能显示的数据表明:表达“研究”之意时,英、汉母语者都更多地倾向使用study(studies)而不是research(es)。study of的出现频率比study on高。相反,research on的搭配比research of多。虽然英、汉母语者对这二词的选词与搭配倾向总体一致,但是期刊论文语料库与学习者语料库的对比结果表明:英、汉语母语者在搭配用法的频次上存在显著差异,汉语母语者使用studV on、research on以及research of这三词的搭配显著高于英语母语者(p 频次与搭配分析结果不言而喻地解决了学生写作中选词用语的困惑。CQPweb分析数据呈现出英、汉母语者在语言使用上的差异,揭示出汉语母语者总体上存在对某些语言现象的过度使用或误用。该分析有利于学生提高其语言敏感性,使其有意识地在选词用语上接近英语母语者,从而提高语言使用的准确性和适切性,该分析也有利于教师提高教学针对性。 2.分布分析 本研究中的学术英语写作主要涉及科技英语论文写作。时态的使用时常困惑着科技论文的写作者。把握不同时态在科技论文各部分的总体分布,有助于提高时态使用的准确性。现在时与过去时是科技英语论文最常用的两种时态,这两种时态在科技论文不同部分的分布情况如何呢? 科技英语论文常用被动语态,作为被动语态标志的be动词在科技论文中使用频繁,具有一定的代表性。我们不妨以be动词的现在时和过去时为例,研究两种时态在科技论文各部分的分布情况。我们以is和are代表现在时(科技论文中少有be动词的第一人称单数形式am),以was和were代表过去时。CQPweb的分布分析功能(distribution)以图表形式呈现出be动词的现在时与过去时在论文各部分的分布情况如下: 图1显示:be动词的现在时在讨论(DIS)、引言(INT)、结论(CON)部分用得较多,在结果(RES)使用较少,方法部分(MET)使用最少。图2的显示结果与图1互补:be动词的过去时在方法部分(MET)使用最多,结果部分(RES)次之,在结论(CON)和讨论(DIS)部分较少。从DDL教学理念出发,在学生观察CQPweb提供的数据及图表之后,教师应引导学生对数据进行讨论分析,以便学生自己发现时态使用的规律。讨论得出以下结论:时态的使用因论文各部分写作内容的差异而不同:方法部分主要描述实验材料的获取,陈述事件,因而多用过去式;结果部分描述瞬时观察到的事实与数据,具有时效性,因而多用过去式;结论部分描述对观察结果提炼后得出的一般规律,因而多用现在时。 传统教学中,时态的使用规律往往由教师传授,采用DDL学习方法后,语言使用规律通过学生自己观察、讨论而发现。数据驱动的探究式、发现式的DDL学习方式比教师的生硬灌输更能发挥学习者的主观能动性,促使学习者主动探究,有利于语言知识内化吸收。而CQPweb系统平台为DDL学习提供了便捷条件。 基于HZAU CQPweb的学术英语写作课程结束后,DDL学习情况的问卷调查结果表明:总体来说,师生对教学中采用CQPweb持积极肯定的态度。师生一致认同:利用CQPweb提供的语料库资源与工具,进行数据驱动学习,有利于提高教学的针对性和学生的语言意识、促进主动学习和知识内化。但是,HZAUCQPweb的实际应用也表明:初次使用CQPweb的师生普遍认为语料库检索操作仍然不够方便,对词汇层面以上语言现象的检索感觉困难。 五、结语 本文概述了新一代网络语料库分析系统CQPweb的发展历程、功能优势、国内外CQPweb的开发与应用。总体而言,CQPweb在国外发展快,应用广,在国内处于起步阶段,尚需推广。本文以HZAU CQPweb为例,介绍了CQPweb的建设流程,包括建设的环境条件、技术要求、体系结构、管理权限等。HZAUCQPweb建成后,应用于学术英语写作教学。应用研究表明,师生普遍认同CQPweb对写作教学的促进作用,支持基于CQPweb的数据驱动学习方式,同时,用户也反映CQPweb易用性有待进一步提高。目前,作为新生事物的CQPweb的开发与应用发展迅速,几乎每月都有新版的CQPweb推出(源自CQPweb系统信息)。国内学者应该实时跟进国外的新发展,同时也尝试开发一些本土化的分析功能,以满足国内基于网络语料库分析系统的语言教学与研究之需。