晋语词缀“圪”的语料库研究机制分析
2018-03-30陈凯敏刘姣凤
陈凯敏 刘姣凤
摘 要: 得益于语料库工具在语言研究中的运用,在一定程度上阻止了方言的急剧衰落,方言最活跃的层面当属词汇,“圪”是晋语词汇中构词能力很强的一个词缀,其在晋语区里有极大的语言生活范围。在“圪”缀词分析中,引入语料库研究机制,穷进性搜集用例,用分析代码进行分词和词性标注、与方言词典进行一一校对,总结出“圪”缀构词的位置极其形式意义。
关键词: 晋语语料库 “圪”词缀 研究机制
一、语料库研究中的词汇学
在词汇学研究中,引进语料库理论,其重要性与实证数据的重要性紧密相连,研究语言变体的可能在很大程度上依赖于实证数据的运用,因为某些如方言之类的变体不能简单地用纯理性的方法分析。语料库在词汇研究的各个不同方面都起到了一定的作用,为词典编撰、词的搭配、变体中的词义、词的出现频率统计和词的形态变化规律等研究提供了科学的依据。由于语料的分类、标注和计算机检索手段的发展使得词句的量化分析更容易。
经过中国现代汉语语言学界诸多学者努力,基于语料库的词汇各方面研究已经取得丰硕成果。相对于现代汉语普通话,笔者认为,方言更具有历史性,其各层面的研究更值得关注,比如晋语就有很多词汇带有古汉语的特色。另外,方言还具有深厚的文化内涵和风俗底蕴,对于研究当地历史、人文、地理等都有重要的参考价值,这些文化价值更多地体现在词汇演变上。
二、思路及其方法
本文会用到三种工具对“圪”缀词汇及用例进行统计,具体是中国知网、北京大学中国语言学研究中心(以下简称CCL语料库检索系统)和汉语链中的在线语料库。首先从《山西方言调查研究报告》中的资料中提取出“圪”缀词汇的生语料,以便与CCL语料库检索系统中的同类词汇进行比对。接着穷尽性地从CCL检索系统中检索出所有的“圪”缀词汇用例,再分离出具体词汇。最后用在线语料库软件对这些用例进行词性标注,得出经过处理的成熟语料库,然后用语言学的词法分析原理对这些“圪”缀词汇进行构词理据分析。
(一)两种语料库的简介
1.CCL语料库及其检索系统主要包括现代汉语语料库、古代汉语语料库、汉英双语语料库三种检索方式。语料库中的中文文本是以汉字为基本单位的未经分词处理的语料。CCL支持复杂检索表达式、对标点符号的查询、在“结果集”中继续检索等多种检索方式。关于查询结果的显示方式,用户有多重选择,本文选择下载结果显示为text文件。查询表达式中可以使用的特殊符号包括8个:|、$、#、+、-、~、!、:(基本项、简单项、复杂项和过滤项。)。因为本文无须用到这些符号和公式,所以这些符号具体含义此处不再详述。
2.汉语链之在线语料库(www.cncorpus.org)是教育部语言文字应用研究所计算语言学研究时开发的一款软件,集语料库在线检索、语料自动分析处理和在线资源下载于一身的方便快捷检索系统。它的检索项主要有现代汉语语料库、古代汉语语料库和语料库字词索引三项,分析处理项有分词和词性标注、汉语检索窗口,选择“普通查询”,可以尽可能穷尽地搜索“圪”缀词用例,保证研究语料的丰富性,从而增强研究结果的真实性和科学性。查询结果显示:共有“286”条结果。每一页有50条,一共6页。转换成TXT文件,为以后词性标注做准备,选例如下:
1:...种字体对照,总共有14.7万多个字。石碑原在洛阳汉魏故城朱家[圪]培龙虎滩一带,已毁。宋代以来常有残石出土,共得字3047个,其...【文件名:\当代\CWAC\ALB0035.txt】
2:...物动词和不及物动词,作及物动词用时是使动用法,如“要豁就豁石[圪]节的坝”。【文件名:\当代\应用文\议论文\语言学论文\076.txt】
3:【榆木[圪]垯】坚硬的榆树根,喻思想顽固。【文件名:\当代\应用文\词典\中国成语大辞典(条目).txt】
4:【[圪]蹴】(gē·jiu)<方>蹲:老饲养员~在门前石凳上听广播。【文件名:\当代\应用文\词典\倒序现汉词典.txt文章标题:现代汉语词典】
(二)具体操作过程
第一步:在CCL语料库及其检索系统中选择“现代汉语语料库”检拼音标注和字词频率统计三种处理方式。无疑给词汇学研究提供了便捷,省去了人工手动标注的很多时间,是一款非常实用的语料分析处理软件。在这里有必要提一下它的词类标记代码(本文词汇的标注基于如下):
第二步:在漢语链之在线语料库软件中选择“语料分析处理”项,文字内容(最长100000字)框内打开从CCL语料库中下载的“圪”缀用词实例的TXT文件,选择“自动分词&词性标注”处理项,“处理结果”框里显示如下:
第三步:具体参考《山西方言调查研究报告》的词汇对照表,与“圪”缀TXT语料对比分析,再利用“现代汉语词典”在线查询系统与已经标注过的用例中的“圪”缀词汇进行词性的校对,最后总结出晋语“圪”缀构词的规律和原则。
三、结语
以《山西方言调查研究报告》和《晋语词汇》对照表为词义标注的文献基础,以CCL语料库检索系统和汉语链之在线语料库为语料搜集的检索工具,对“圪”缀词汇用例进行现有语料库的穷尽性的搜集并作分词和词性标注,从词的最基本的构建部件——语素入手,分析“圪”缀构词的形式和意义,为以后语言学者研究方言词汇提供了构词分析的“熟语料”。本文把语料库研究机制和方言词汇词缀分析相融合,证明是可行的。
参考文献:
[1]陈潇.语料库、语料库语言学及其应用[J].佛山科学技术学院学报(社会科学版),2006(4):25.
[2]白云.晋语“圪”字研究[J].语文研究,2005(01):57-59.
[3]夏丹.基于标注语料库的给予类动词的“词汇—句法语义”衔接研究[D].南京:南京师范大学,2015:45.
[4]王晓培.词基驱动的词库分层模式[D].天津:南开大学,2015:13.
[5]侯精一,温端政.山西方言调查研究报告[M].山西:山西高校联合出版社,1993:126-133.
[6]http://ccl.pku.edu.cn:8080/ccl_corpus/.
[7]http://www.cncorpus.org/CpsParser.aspx.