主持人语
2011-04-02梁茂成
梁茂成
近年来,语料库越来越受到语言研究者的青睐,但随着语料库研究方法的推广和普及,各种新的困难和问题也不断地暴露出来,而解决困难过程中的更多思考也给语料库相关研究带来了新的思想、策略和工具。本专栏中共包含四篇文章,涉及语料库研究的不同方面。
许家金、梁茂成的研究介绍了其研究团队自行开发的子语料库创建工具Sub-corpus Creator。在当代,语料库创建者对所采集的语料常常进行两种类型的标注。第一种标注是元信息标注(metadata markup),即将语料来源、产生时间、产出者身份、产出者性别等若干非语言信息以标签形式加入到语料库中,以便于使用者区分不同类型的文本,进而分析同类文本的共同属性和不同类型文本的差异。另一种标注是语言信息标注(linguistic annotation),即对语料库文本内部的语言信息(如语用信息、语音信息、篇章信息、句法信息、词类信息等)进行标记,以便于使用者提取特定语言信息。Sub-corpus Creator可以利用以上两类信息,从大型语料库中抽取符合某种条件的文本创建子语料库。将子语料库与总库或其它子语料库进行对比,是语料库语言学研究的常见方法。Sub-corpus Creator的检索式完全支持正则表达式,极大地方便了子语料库的创建,也有利于我们开拓更多的研究维度。
陈功的研究主要涉及如何对语料库中的语言信息进行有效检索。准确检索并析出所得结果直接关系到研究的可信度。语料库研究最令人信服的一个方面是其可重复性。也就是说,利用同一个语料库,采用同一种方法,无论谁来操作,所得到的结果应该是相同的。然而,在已有的研究中,一些研究者所使用的检索方法常常不够严密,使得析出结果与真正的语言事实大相径庭。基于此类挂一漏万的结果,一些研究者借用种种理论进行了所谓的“深度分析”。在如今语言研究不断科学化的今天,“不知不为过”绝不可成为研究不严密的借口。陈功的研究对常见的检索进行了分类,并对检索中容易出现的错误成因进行了分析,对提高研究信度有意义。
刘国兵的研究是一项基于语料库的实证研究。研究中考察了学习者语料库中的典型虚化动词TAKE及其搭配和类联接的使用情况。虚化动词不同于普通的实义动词,其意义常常取决于与其结伴的其他词。研究带给我们的启示是,语言教学中万不可孤立地教授虚化动词的用法,只有结合常见搭配和类联接进行虚化动词的教学才可能取得较好的效果。
周明海等人的研究首先考察了近年来国内外具有代表性的十二个句子语义知识库,特别关注了辅助语义角色的标注,并在此基础上,从语义角色的精细程度、数量设置、相对核心、标注格式等角度阐述了作者对构建句子语义知识库的几点认识。