网络语料库的共享模式与运行机制
2011-05-08刘日升黄红梅
刘日升 黄红梅
(大连外国语学院图书馆,辽宁 大连 116044)
1 网络语料库及其共享特质分析
网络语料库是网络数据库的一种,但由于其使用目的不同,网络语料库有其独特的特点,表面上看,网络语料库存放的是在语言的实际使用中真实出现过的语言材料,但就其本质,网络语料库不仅存放原始的语料文本还有经过加工后带有语言学信息标注的语料文本。
由于网络语料库是从传统语料库发展而来的,所以最初的网络语料库仍然保有传统语料库的特性,体现的一个重要特征就是在保有传统语料库内容的基础上开发语料库检索工具,并提供网络在线服务,用户无需安装任何软件,只需要利用网络就可以对语料库进行远程检索,这种形式的语料库称为在线语料库,为用户提供了一个Web检索平台,使用户尽快地了解和使用语料库。因此在线语料库是为已经建好的传统语料库提供在线检索,这决定了在线语料库的发展必然受制于传统语料库,因而在开放性上不够完全。随着网络的开发和发展,网络语料库的发展方向逐渐转变为以网络文本为资源基础、以网络检索软件为技术手段的Web语料库。Web语料库区别于在线语料库的重要特征是Web语料库可以将整个网络上能够公开访问到的文本资源作为语料资源,自动通过网络协议将指定URL上定义的信息吸收过来,与本地的语料库系统连接,实时联机充实语料库。[1]Web语料库与在线语料库一样,可以通过在线检索系统对网络文本资源进行检索,并以传统语料库检索格式提供检索结果。
网络语料库与传统语料库的最大区别在于网络语料库的开放性,网络语料库的优势是综合了语料库技术、互联网技术和计算机技术,将网络共享、数字化、自动化等特征与语料库对语料的量化分析研究综合起来。[2]但从其本质上来说,网络语料库共享性特质集中体现在网络语料库所依托的网络平台,网络自身就是一个规范的共享平台,因此赋予了网络语料库共享的特性。网络数据库在线检索平台的开放性赋予了网络语料库共享的特性,此外,Web语料库还由于其语料来源的开放性而呈现出共享的特性。[3]
2 网络语料库共享的现状研究
2.1 网络语料库共享的理论研究现状
语料库研究近年来备受关注,见图1和图2,图1是来自中国知网的学术趋势图,图2是利用从中国知网中检索到的数据(以题名为检索途径;以语料库为检索词)绘出的语料库研究趋势图。从图1和图2中可以看出,从2002年到2005年语料库研究呈直线上升,从2005年至今,语料库研究仍在呈上升趋势,但比较稳定,这种研究现象揭示了从2002年到2005年理论界对语料库还处于认识阶段,而到了2005年以后才逐步深入地探讨和研究语料库。随着语料库研究的深入,语料库共享逐渐受到关注,但研究的深度不够。从知网中以语料库和共享为关键词统计得出,从2002年至今,对语料库共享相关问题的研究只有4条,其中主要是以网络语料库为背景进行共享研究的,这说明网络语料库的共享已经得到关注,但仍然需要向纵深方向发展。
语料库研究领域的另一大特色是以实践来驱动理论研究,首先有了语料库的原始形态,然后语料库的各项功能和应用才得到了广泛的理论研究,又由于研究的深入,越来越多的人需要了解和利用语料库,但由于传统语料库受观念、技术等因素影响,语料库难以实现共享,因此近年来与语料库共享的相关问题得到了广泛的关注,如语料库的规范研究,许多专业信息处理人员加入语料库的规范研究中,从技术上为语料库的共享打下了基础。此外,网络语料库以其优越的开放性为语料库研究引入了新的切入点,推动了语料库共享的研究,使语料库共享的理论研究成为语料库研究热点之一。
2.2 网络语料库共享的实践模式与运行机制
虽然目前语料库的理论研究越来越受到关注,可以利用的语料库也非常广泛,但由于版权、资金等原因,大多数语料库仍被少数人掌握,从而推动了语料库共建共享的合作实践,同时促进了网络语料库共享实践的发展(见表1),出现多种实践模式和运行机制。
表1 代表性网络语料库[4][5]
The Russian Reference Corpus(BOKR) 免费 http://bokrcorpora.narod.ru/index-en.html The CORIS corpus 免费 http://corpus.cilta.unibo.it:8080/CORISCorpQuery.html The Hellenic National Corpus 免费 http://hnc.ilsp.gr/find.asp The German National Corpus 免费 http://www.dwds.de/cgi-bin/rest/loginstart监测语料库免费 http://www.harpercollins.co.uk/about-harpercollins/Imprints/collins/Pages/Collins.aspx The global English Monitor Corpus 免费 http://www.bham.ac.uk/The Bank of English共时语料库the International Corpus of English(ICE) 会员 http://ice-corpora.net/ice/index.htm The CREA corpus of Spanish 免费 http://www.rae.es/rae.htm l Linguistic Variation in Chinese Speech Communities(LIVAC) 免费 http://www.rcl.cityu.edu.hk/历时语料库The Helsinki Corpus of English Texts 会员 http://ota.ahds.ac.uk/scripts/download.php?otaid=1477 The Lampeter Corpus of Early Modern English Tracts 会员 http://ota.ahds.ac.uk/headers/2400.xml The Dictionary of Old English Corpus in Electronic Form 付费 https://tir.doe.utoronto.ca/store/index.php?page=corpus Early English Books Online(EEBO) 付费 http://eebo.chadwyck.com/home The Corpus of Early English Correspondence 会员 http://ota.ahds.ac.uk/headers/2510.xml The Innsbruck Computer Archive of Machine-Readable English Texts付费 http://nora.hd.uib.no/icame.html口语语料库The London-Lund Corpus(LLC) 付费 http://icame.uib.no/The Aix-MARSEC database 免费 http://www.lpl.univ-aix.fr/~EPGA/The Lancaster/IBM Spoken English Corpus 付费 http://icame.uib.no/The Bergen Corpus of London Teenage Language(COLT) 付费 www.hf.uib.no/i/Engelsk/COLT/The Longman Spoken American Corpus 内部 http://www.longman.com/dictionaries/corpus/lccont.htm l The Santa Barbara Corpus of Spoken American English(SBCSAE)会员 http://www.ldc.upenn.edu/The Saarbrücken Corpus of Spoken English 免费 http://www.talkbank.org/The Switchboard Corpus 会员 http://www.ldc.upenn.edu/TheWellington Corpus of Spoken New Zealand English(WSC) 付费 http://icame.uib.no/The Limerick corpus of Irish English(L-CIE) 付费 www.ul.ie/~lcie/homepage.htm学术及专业英语语料库The Michigan Corpus of Academic Spoken English(MICASE) 免费 http://micase.elicorpora.info/The British Academic Spoken English(BASE)corpus 免费 http://www.reading.ac.uk/AcaDepts/ll/base_corpus/index.htm The Corpus of Professional Spoken American English(CPSAE) 付费 http://www.athel.com/cspa.htm l Corpus of Professional English(CPE) 会员 http://www.perc21.org/menu.htm l解析语料库Parsed historical corpora 付费 http://www.ling.upenn.edu/hist-corpora/PPCME2-RELEASE-3/The Lancaster Parsed Corpus(LPC) 付费 http://icame.uib.no/The SUSANNE corpus 免费 http://www.grsampson.net/Resources.htm l
2.2.1 项目驱动式运行机制
项目驱动式的运行机制是由国家或组织设立专项研究,提供基金资助,建立网络语料库。项目驱动式运行机制是目前网络语料库共享的主流形式,在国内外都得到了广泛的应用,如国外的英国国家语料库(BNC)、美国国家语料库(ANC)、柯林斯-伯明翰大学的国际语料库(Cobuild)、美国当代英语语料库(COCA);国内的中国英语教育语料库(CEEC)、中国学习者英语语料库(CLEC)、中国学习者英语口语语料库(COLSEC)、中国英语学生口语语料库(SWECC)等。
我国项目驱动式运行机制下的语料库共享模式通常是以光盘的形式公开发行,提供有偿共享,没有提供免费的网络版。而国外项目驱动式运行机制下的网络语料库采用的共享模式分为免费使用和会员制共享两种模式。
免费使用共享模式下的网络语料库用户可以通过网络在线免费使用和检索语料库,使用的权限又分为限制性共享和无限制性共享。限制性共享模式通常采用网络试用语料库的形式,提供网络语料库的部分语料免费使用,有的语料库对检索平台的功能也采用部分开放的形式。限制性共享模式的典型例证是Cobuild语料库,这是网络时代最早出现的大型语料库,该语料库的词容量已达几亿条,但可在网络直接检索与试用的语料库含词只有4500万条。其他例证参见表1。无限制性共享通常是国外国家级的语料库,也有少数个人开发的,参见表1,无限制性共享语料库免费向公众开放,可以通过网络免费下载,其中BNC号称是目前网络上直接免费使用的最大的语料库。COAA是由个人开发的一个网络免费语料库,2008年2月才在网络上正式推出。
会员制共享模式采用联合式共建共享,在网络语料库的建设中所有会员都需要参与,同时参与的会员对语料库享有免费使用的权力,并且只在会员内部实行共享。典型的例证是ICE语料库和LDC语言数据联合会的系列语料库,访问网址参见表1。ICE语料库虽然是由个人主持开发的语料库,但它汇集全球22个国家和地区的英语语料[4],可以进行跨国界、跨区域、跨文化的英语对比分析,为其共建成员提供了资源共享平台。而LDC语言数据联合会隶属于美国宾夕法尼亚大学,有163个语料库,实行会员制,采用合作的方式共建语料库,因而对其成果实行会员共享制。[6]
2.2.2 商业营销式运行机制
项目驱动式运行机制的许多网络语料库提供的是免费共享或要求用户只需支付网络服务费就可以在线研究,但商业营销式运行机制是出于商业目的建立网络语料库的,这种共享模式是由专门的机构来负责语料库的销售,被称为语料库资源分销商,这些专门的机构有真正商业意义的公司,但很多都是一些学术性机构,在国外这种模式很常见,比较知名的分销商有 CSLU(Centre for Spoken Language Understanding)、ELRA (The European Language Resources Association)、ELSNET(European Network in Language and Speech)、The ENABLER(European National Activities for Basic Language Resources)、ICAME(International Computer Archive of Modern and Medieval English)、OTA(Oxford Text Archive)、The LDC(Linguistic Data Consortium)等[4]。商业营销式运行机制下的网络语料库通常需要付费共享,网络语料库被作为产品出售或出售使用许可权,参见表1。但有的分销商对非营利性个人学术研究为目的用户通过在线注册审核提供免费下载服务,而对出于商业目的而利用的用户采用付费的有偿共享模式,如OTA。
除了作为产品出售或出售使用许可权,商业营销式运行机制下的网络语料库还有一种共享模式——交换。交换的形式一般是单位或个人建立的小型网络语料库之间采用的共享模式,拥有私人语料库的语料研究者为了免费共享他人的语料库研究成果而采用的一种折中方式。
3 共享模式与运行机制的优化
从表1可以看出,网络语料库提供免费共享的主要是国家级综合语料库,而用于专业研究的专题语料库的免费率只有39%,而高校教师用于教学和科研的是专题语料库,因此网络语料库的共享实践还需向纵深发展,从多处着眼,实现专题网络语料库的共享。
3.1 搭建充分开放的语料库共享网络平台
专题网络语料库大多是个人或语料库分销商制作的,搭建的平台技术及人为的制约没有采用统一的共享平台,因而专题网络语料库的共享需要搭建一个充分开放的语料库共享网络平台,实现现有专题网络语料库的整合管理与检索利用,同时成为今后网络语料库共享平台的规范。所以,共享的网络语料库平台必须构建在标准化和规范化基础之上,即语料的组织、整合、关联、存储、传输及检索利用需要遵循国际统一的标准和规范。目前,已有许多网络技术已能够支持网络语料库共享的这一技术要求,如网格技术、P2P技术及Web服务。
网格技术与网络语料库共享的切合点是网格技术可以快速地将用户需要的语料资源从不同的网络语料库中找出来并综合在一起,并且,网格技术可以通过建立知识元结构,网络利用知识元独立性和链接方式将整个网络语料库立体分布在网格节点上,通过不同的结构链接方法对语料进行标引,将网络语料库中的隐性知识转化为显性知识。[7]
P2P技术与网络语料库共享模式优化的结合点主要体现在P2P技术具有文件共享、分布式搜索、分布式计算功能。P2P技术已经是一门很成熟的网络技术,在流媒体、远程教育系统开发与应用、教育资源开发与管理等网络应用领域有很强的技术优势,网络语料库可以借鉴这些网络应用领域的成功案例实现专题网络语料库的分布式检索和语料共享功能。[8]
Web服务技术在共享网络语料库的建设中已经得到了成功运用,运用的核心技术是XML“可扩展标记语言”,成为共享网络语料库通用的描述语言,解决了不同平台之间数据结构/模式的差异,使得语料资源统一起来成为通用语言,专题网络语料库共享模式的优化仍需推进Web服务,要将所有操作和操作数据进行规范化描述,形成规范文档的发布,以供共享用户系统共同遵守。此外,Web服务具有开放性,在与其他Web服务进行交互时,与语言和系统平台无关,因此通过Web服务实现专题网络语料库共享最经济实用。[9]
3.2 建立系统开放式共享模式及运行机制
专题网络语料库共享的制约因素除了网络平台,另一个重要因素是语料的版权问题[10],而系统开放式共享模式和运行机制将有效地解决这一制约因素。
系统开放式共享模式和运行机制是将整个系统中的资源作为语料来源,从而建立系统内共享模式。系统开放式共享模式及运行机制的这一开放理念与专题网络语料库用户群的需求相契合。这是由于专题网络语料库的用户主要是高等院校的科研人员,他们利用专题网络语料库进行教学和学术研究,而高等院校系统内的图书馆收藏了丰富的信息资源,这些信息资源种类繁多,学科体系完备,以多种载体形式存在(如多媒体、印刷型、数据库等),为专题网络语料库的语料来源提供了有力的保障,并且各国版权法都在不同程度上赋予图书馆对信息资源“合理使用”的权利,因而建立高校系统开放式共享模式是切实可行的。
此外,系统开放式运行机制适用于合作单位具有一定的垂直隶属关系、有稳定的政策和财力支持、适宜于解决全局的稀缺的高价的靠单个单位无法建设或购买的语料库保障问题,而我国高等教育系统完全适合系统开放式运行机制的这一要求,能够保障专题网络语料库在系统内统一建设,并能提供人员、资金、设施、技术保障,便于统一组织协调,最大限度地减少专题网络语料库的重复建设,大大提高语料库的利用率。
高校系统在共享工程方面具有丰富的经验,成功的典范是CALIS(中国高等教育文献保障体系),而专题网络语料库可以借鉴CALIS的成功经验,建立高等教育系统开放式共享模式,由资源收藏丰富、学科特色突出、技术和人才实力雄厚的单位作为中心单位,负责专题网络语料库的总体建设,而其他成员单位承担共建共享的权利和义务,在免费利用专题网络语料库的同时,负责补充完善语料库中的语料,将本单位有收藏但语料库中没有的语料进行上传,并且上传单位一定要具备上传资格,这由系统的主管单位来认定,对上传语料数据的单位给予一定的奖励。系统开放式共享模式的特征是通过共享协作网络,面向异地用户,提供专题网络语料库及其检索共享,这种模式采用集中的数字化语料系统和统一的利用平台,实现资源集中、系统集中和管理集中。
系统开放式运行机制采用项目驱动的方式由系统主管单位拨出专项资金,并且专款专用,但系统开放式运行机制的项目驱动式与以往的项目驱动式的区别在于系统开放式运行机制以项目共建的形式由各个中心单位共同建设,在系统内进行分工协作,根据学科设置和研究需要制作各种专题网络语料库,但所有的专题网络语料库需要在系统规定的统一平台上建设,以便系统内共享。
系统开放式共享模式及运行机制的核心思想是系统开放和系统内语料共建,以共建促进开放,以开放实现共享,尤其能够推进创新型、成果型项目的共享。这是因为在初始的语料库及其检索系统完善之后就是对各个语料库及统一的语料库检索系统进行深度知识挖掘与整序,会产生一系列创新型和成果型项目,如语料库工具及文本分析软件等,为语料库的研究者提供新的视角和方法,这必将催生新观点、新思维的语料库语言学。
[1]俞倩兰,温晓行.Web语料库建设初探[J].计算机工程,2001(5):178,188.
[2]邢富坤.Web语料库及其特征初探——与传统语料库的对比研究[J].外语电化教学,2006(4):62-66.
[3]胡凤国.基于Web检索的语料库资源共享——现状和展望.第二届全国学生计算语言学研讨会论文集,2004.
[4] Well-known and influential corpora:A survey.http://www.lancs.ac.uk/postgrad/xiaoz/papers/corpus%20survey.htm#_T oc92298862.
[5] The International Corpus of English.http://ice-corpora.net/ice/index.htm.
[6] 俞倩兰,王国新,邹永林.基于Web的语料库建设.常熟高专学报,2000(2):81-85.
[7] 李培峰,朱巧明,钱培德.基于Web的大规模语料库构建方法.计算机工程,2008(4):41-43.
[8] 王春梅,张银犬.基于P2P技术的个人数字图书馆资源共享策略.情报杂志,2008(4):125-127.
[9]袁泉.谈web服务在数字图书馆信息资源共享中的应用.高校情报论坛,2007(3):30-33.
[10] 许智坚.谈语料库资源共享中的几个核心问题.中北大学学报:社会科学版,2008(5):55-59