“SEAlang项目”在非通用语教学与科研中的应用
2017-03-31武智
武智
摘 要 本文将介绍SEAlang项目(Southeast Asia Language Projects)在东南亚非通用语教学与科研中的应用。主要以介评SEAlang项目中的老挝语词典、单语语料库及文献典藏目录检索功能为主。
关键词 老挝语 词典检索 语料库 语言学典藏
中图分类号:G642 文献标识码:A DOI:10.16400/j.cnki.kjdks.2016.12.020
Abstract This article will introduce the application of SEAlang project in the teaching and scientific research of non - common language in Southeast Asia. Mainly in the review of SEAlang projects in the Lao language dictionary and monolingual corpora and literature collection directory retrieval function.
Keywords Lao language; dictionary retrieval; corpus; linguistics collection
0 引言
SEAlang项目①主要收集、开发和分享东南亚语言的相关资料,包括碑文、原始语言的重构、历史及现代词典编纂、文本语料库等,是一个以数字化形式分析和标记文献材料的在线软件工具。该项目主要内容包括:在线词典(单语、双语)、文本语料库(单语、双语平行)、东南亚文献典藏目录等。其中在线词典(单语、双语)及文本语料库包含语种有:巴厘语、布吉斯语、缅甸语、宿雾语、查瓦卡诺语、希利盖农语、伊洛卡诺语、印尼语、爪哇语、克伦语、高棉语、老挝语、泰语、越南语、马来语、马来诺语、掸语、他加祿语、德顿语等。
从地理位置上看,该项目主要对东南亚大陆国家(泰国、缅甸、老挝、柬埔寨)及东南亚海岛国家(菲律宾、马来西亚、印度尼西亚)进行语言资源开发,并致力于开发东南亚非通用语种的教学及翻译工具,为东南亚语言学、计算语言学、历史、词典学、词源学、区域研究及跨语言信息检索提供帮助,为东南亚裔美国人及相关领域学者提供免费的语言学习资料工具。
1 词典检索功能②
SEAlang在线老挝语-英语词典的词库主要来源于两个版本的已出版词典。一部由William L. Patterson 及 Mario E. Severino (1995, Dunwoody Press)编纂的老挝语-英语词典,此版是在参考老挝语-俄语词典(1982, Russkiy Yazik,Moscow)的基础上进行编纂的,超过32000条词汇,也收入了1975年老挝政府实施新语言政策③以来部分老挝语用法。另一部词典也为老挝语-英语词典(1972, Allen Kerr),词典内容也参考了相关词典及出版物,并在老挝语母语者协助下完成,词典包括44000条词汇,8798183 条释义,一些动植物词条也包含在内。此外,在查询结果显示界面的每一个词条后标注了来自哪部词典,供使用者参考。
图1为词典查询界面,A区为字串查询区,B区为查询结果排列区。
1.1 字串查询区(A)
见图2,查询方法:可用老挝语、英文及IPA进行搜索,在Lao对话框中输入要查询的老挝语词汇及Text框中输入英文字串,④点击Go键或回车(Enter)进行查询。IPA查询功能还在开发中,不提供声调的搜索。点击Habeas Corpus可迅速跳转至语料,显示该词条在语料库中的搭配情况。
1.2 查询结果排列区(B)
如图3,以搜索单词“”一词为例,查询结果排列方式区基本标签有:英语释义,词性,词源等。如单击Show all可显示与“”前后搭配的全部词条。点击蓝色leading 、黄色trailing可显示该词置于某词组或短语前后的搭配情况。
Kerr的词典保留了早期老挝语的拼写方式,而P & S (William L. Patterson 、Mario E. Severino)的词典里用了现代拼写标准,并在A区搜索选项里为用户提供了选择(,, , .),类似汉语的模糊音搜索设置。如“”一词的旧时拼法就为“” ,再如“ ”一词,只有拼写为“ ”才能查询到其释义。Kerr词典里的罗马拼音转写自原始文本,而P & S的拼写则是采用了约翰.M.德丁(Dr. John M. Durdin)的老挝语脚本工具,⑤二者在标调上略有不同。该在线词典在每项词条后标注了出自哪部词典并会显示该词的词源,如“”显示来自巴利语。此外,还附上了词典使用视频。⑥
1.3 玛哈西拉·维拉冯版《老挝语词典》⑦
玛哈西拉·维拉冯所编纂的《老挝语词典》(1960),共收录11500条词汇,24000条释义。此版线词典的检索界面及方法基本同SEAlang老挝语在线词典,其最大特点为在此页面可浏览DjVu格式的扫描版原文书,可输入特定页码进行检索,及在字串查询区中检索目标词在语料库中的用法。如图4所示。
1.4 优点与不足
SEAlang老挝语词典相较其他在线老挝语-英语词典收录的词条数量多,义项及词性较丰富,查询方便快捷,不必查阅厚重的纸版词典,可提高查词速度、阅读效率及阅读量,激发学生阅读兴趣。此在线电子词典也可用移动设备浏览,便携实用性强。
但SEAlang老挝语词典也存在一些不足,如:P&S 词典的词条个别词标注为拟声词,实际上是重叠词,一些词条标注不恰当甚至有误。再如很多词条仅有基本释义无例句。玛哈西拉·维拉冯版《老挝语词典》缺点为词条少,义项及词性标注不够丰富,其电子版部分词条的显示不够清晰。
2 老挝语语料库检索功能⑧
2.1 语料库检索方式
SEAlang项目中的老挝语单语语料库中的语料为生语料,主要由在互联网上发布的老挝语文本构成,作研究及学习之用。上下文搜索将会显示搜索目标置于上下文语境中的词语搭配情况。此语料库包括4206351条词项同现及17083194 条例句。本文将结合字串查询区(C)、查询结果排列方式区(D)等方面介绍SEAlang老挝语语料库主要的检索功能(图5)。
Corpus Search标签下的搜索框内输入检索词,点击Go即可显示结果。如图6所示,以搜索“”为例,显示与“”搭配的词组及短语,有49项左搭配词、42项右搭配词及267条例句。以及在上下文中置于其左右各5个词语与其搭配的情况及所占百分比,也可选为其与10、20个词语的搭配情况。点击图标可显示在线老挝语键盘,并且具备输入预测功能。Habeas lexis键可迅速查询检索词在词典中的释义。Collocates为搭配统计功能,能将检索词的搭配按照统计数据从高到低排列,从而给研究者或学习者一个直观的印象。
2.2 优点与不足
老挝语单语语料库检索软件主要用于单语语言研究、单语辞书编纂和自然语言开发等方面,也广泛应用于语言课堂中。使用者可以从语料库中检索并提取含有某个词( 可以是词的某一部分,也可以是词的组合) 的语言范例。此外,单语语料库分析工具可以列出字频、词频表以及对应和搭配表。通过这些功能,使用者可以了解所检索的词在各种语境下使用的具体记录,有助于掌握该词在具体语境中的使用情况。帮助教师或学生根据词频率得知哪些词在具体的语境中更加重要、更加专业,有利于在翻译过程中进行取舍。⑨
SEAlang老挝语单语语料库存在的主要问题有三点即:语料来源单一、语料不够丰富、为未经处理的生语料库。此外,其语料多数来自老挝语网络新闻及文章,语料库文本类型不够丰富。
3 东南亚语言学典藏⑩
东南亚语言学典藏简称SALA(Southeast Asian Linguistics Archives)主要收集扫描文献、编制索引和传播东南亚语言学术性出版物,采用创新方法匯集该领域分散的文献,旨在建立一个庞大的东南亚语言学典藏目录程序,包括以下几项内容:(1)可在线搜索的文献库:包括东南亚语言学的重要期刊、会议论文集、系列丛书、合集及未发表的文献资料(田野笔记、论文)等,并提供上述文章及出版物电子版。(2)文献引用、分析引文索引、文献评价的工具,计算其影响因子、G指数(G-index)等。并为读者提供了多种参考文献引用格式,如:Harvard、APA、Chicago、MLA、Citation within the text、Zotero、BibTeX等格式。(3)应用程序界面:允许SALA与其他在线工具之间的互操作(例如:Multi-Tree, LL-MAP, and our own SEAlang Library及孟高棉语言项目等),以及与其他数字档案馆的数据共享和引文跟踪。此外,SALA还收录了东南亚语言学领域著名学者们未公开发表的文章,及各大学的学位论文。
3.1 文献搜索方式
SALA支持两种搜索方法:特定搜索(如标题、作者)及全文搜索。可按期刊、会议论文集、系列专著、作者、关键词标签、语言等标签搜索文献,缩小搜索范围,更为精确的找到所需文献。如图7,例如在搜索框输入 “Lao”,点击Search选项后的“&Tags”标签,搜索结果会显示共有274篇题目及关键词包含“Lao”的文献,文献引用情况及排序结果、文献发表的年代及数量,这些文献发表的时间跨度为1904-2006年。见图8。
3.2 优点与不足
SALA启用自动语义查询扩展,使用户以简易快捷的方式搜索及引用目标文献。SALA可以帮助学者们迅速找到自己需要的早期相关文献,包括一些难寻的未出版文献。
由于全部文献都采用了光学字符识别技术技术(OCR),对于非英语及IPA文本而言,全文搜索功能不太理想。此外,一些相关领域的文献未被编目、出版,无法像JSTOR一样将此类文献聚合。
4 结语
SEAlang项目每个语种的语料及文献数量不同,其中泰语及高棉语族的语料及文献数量最多,并且还专门建立了泰语语音语料库、孟高棉语言项目、高棉铭文语料库,望其他东南亚语言文学研究学者也能充分利用此项目程序,更好地服务于科研及教学。
本文仅从使用者角度介评SEAlang项目,难免挂一漏万,误谬之处敬请专家学者批评指正。
注释
① http://SEAlang.net/
② http://SEAlang.net/lao/dictionary.htm
③ 50年代至70年代初期,在老挝爱国战线解放区,为了群众扫盲和使用方便,又对老挝文字进行了一此改革,删繁就简,重新规范,使文字拼写与语言更趋一致。(董友忱,万国博览——亚洲卷,新华出版社,1998年09月第1版,第498页)
④ 由于此词典为老挝语-英语词典,故在Text框中输入词典释义文本中所包含的英文字串,亦可显示对应的老挝语词条。
⑤ 参见 http://www.laoscript.net
⑥ http://SEAlang.net/help/
⑦ http://sealang.net/dictionary/sila/
⑧ http://SEAlang.net/lao/corpus.htm
⑨ 刘稳良.电子语料库与语文辞书的编纂修订[J].上海翻译,2013(4).
⑩ http://sealang.net/sala/index.htm
参考文献
[1] The SEAlang Projects: Southeast Asian Language & Linguistics Resources,Center for Research in Computational Linguistics , Doug Cooper.
[2] 董友忱.万国博览-亚洲卷[M].北京:新华出版社,1998.
[3] 汪兴富,Mark Davies,刘国辉.美国当代英语语料库(COCA)——英语教学与研究的良好平台[J].外语电化教学,2008(5).