42卷本方言词典用字统计研究—— 兼论吴语与江淮官话词汇用字
2013-06-14吴莉滕菲
吴莉滕菲
(南京师范大学 文学院,江苏 南京 210097)
一、本文研究目的与研究方案
1.研究目的
通过统计、处理42卷本方言词典中的低频词和共有词,得出42卷本方言词典低频词用字表和共有词用字表,为课题“汉语方言自然口语有声基础语料库建设”采录字表的设计提供一种资料参证,同时也为日后他人进行方言调查时制定字表提供参考。
基于以上统计数据,以江淮官话和北部吴语为专题研究对象,比较两者“衣、食、住、行”四种义类词汇在用字量上的差别,以考察这两个方言区词汇用字的特征与差异,以及方言词汇用字与区域文化的关系。
2.研究材料
本文统计研究的基础材料是“42卷本方言词汇集”,该词汇集由南京师范大学文学院2006级硕士研究生张笑芳整理李荣先生主编的42卷本《现代汉语方言大词典》所得。它按照《现代汉语方言大词典》划分词汇的30个大义类,把各方言点义类相同的词集中在同一张excel表格中,共形成30张excel表格:一、天文,二、地理,三、时令时间,四、农业,五、植物,六、动物,七、房舍,八、器具用品,九、称谓,十、亲属,十一、身体,十二、疾病医疗,十三、衣服穿带,十四、饮食,十五、红白大事,十六、日常生活,十七、讼事,十八、交际,十九、商业交通,二十、文化教育,二十一、文体活动,二十二、动作,二十三、位置,二十四、代词,二十五、形容词,二十六、副词介词等,二十七、量词,二十八、附加成分,二十九、数字等,三十、其他。这30个义类基本涵盖了人们生活的各方面,不仅反映了当地人民的生活面貌,也利于本文对方言区各义类用字的比较与分析。
“42卷本方言词典词汇集”汇集了《现代汉语方言大词典》的所有词汇,覆盖十大方言区(官话、赣语、徽语、晋语、客家话、闽语、平话、吴语、粤语、湘语)的42个方言点,能够较好地反映我国方言词汇的基本面貌,方言分区与各地域文化也大体对应,利于进行方言区之间的比较。
3.研究方法概述
(1)分列法:“分列”是excel中“数据”菜单下的子菜单,主要功能是把一列中的数据分成两列或多列,用分列法可提取方言词汇的用字。
(2)分类汇总法:按指定的分类变量值对所有记录进行分组,以便对每组变量中的各记录进行描述、统计与分析,便于不同义类、词频、方言间的用字提取与比较。
(3)算术统计法:用简单的算术统计法提取42卷本方言词典共有词用字表、低频词用字表,分析低频词各义类用字百分比,以及江淮官话区与吴语区“衣、食、住、行”四类词用字量。
(4)比较法:将42卷本方言词典共有词用字量与低频词用字量进行比较,得出方言词频与用字量间的关系。同时以江淮官话和北部吴语在“衣、食、住、行”四义类中的低频词用字比较为例,探求不同方言区词汇用字特点与差异。
(5)图表法:本文将用图表显示统计、比较各项数量关系,便于直观观察与分析,从而得出最终结论。
4.术语释义
(1)词频:本文指某个方言词在42卷本方言词汇中出现的频率。
(2)低频词:本文指在42卷本方言词典中出现频次在13次以下的词。
(3)共有词:本文指在42卷本方言词典中出现频次在13次及以上的词。
(4)义类:本文指42卷本方言词汇集中按excel表格整理的天文、地理等30个分类。
(5)共有词用字:本文指42卷本方言词典中构成共有词的所有用字。
(6)低频词用字:本文指42卷本方言词典中构成低频词的所有用字。
(7)总复现次数:本文指某个方言词在42卷本方言词典中重复出现的次数。
二、42卷本方言词典低频词用字表的研制
1.筛选低频词
以方言词汇的“总复现次数”作为区分低频词和共有词的参量,根据张笑芳的研究,以“13”作为低频词和共有词的分界点。笔者首先对“42卷本方言词典词汇集”按义类划分的30张excel表格进行相关处理,筛选出每张表格中总复现次数在13次以下的词。筛选的具体过程如下:
(1)打开“天文”义类的excel表格→点击“数据”菜单下的子菜单“排序”按钮→分别以“总复现次数”和“词条”作为主要关键字和次要关键字,按升序排列→点击“确定”,使词条按照由低到高总复现次数依次排列。
(2)在“总复现次数”这一列找到“13”这一临界点→删除该表中总复现次数在13次以上的词条→得到该表的低频词。
(3)依次打开其余各义类的excel表格,重复上述2个步骤,筛选出30张excel表中的低频词,并保存。
2.对低频词做分列处理
通过上述操作,得到了各方言点在30个义类表中的低频词表。研制低频词的用字必须以字为单位,本文用分列法提取低频词表的用字:
(1)打开经筛选过的“天文”义类excel表格→选中“词条”这一列(此处的词均为低频词)→点击“数据”菜单下的子菜单“分列”,将多字词条分列为单字。
(2)在弹出的文本框向导中选中“固定宽度”,点击“下一步”→设置字段宽度(2个字符)→单击鼠标建立分列线→点击“完成”,把该表中低频词在不同位置上的用字分列提取出来。
3.删除低频词的重复用字
基于上节的操作,把“天文”义类excel表格中低频词在不同位置上的用字提取了出来,因只是简单的“分列”,其中必然包含大量重复用字,因此要进一步整理,删除重复的用字。
(1)打开一张新的excel表格,通过“复制”与“粘贴”,把刚刚分列所得的各列用字集中于一列。
(2)选中该列用字→点击“数据”菜单下的子菜单“排序”按钮,选“升序排列”,让重复的汉字集中在一起。
(3)选中重新排序的这列用字→点击“数据”菜单下的子菜单“删除重复项”,删节该列中重复的字→得到“天文”这一义类低频词用字表→保存,文件名为“天文类低频词用字表”。
(4)依次打开其他各义类excel表格,重复上述(1)-(3)的操作,得出42卷本方言词典各义类的低频词用字表,并分别保存。
4.汇总各义类低频词用字表,最终形成“42卷本方言词典低频词用字表”
(1)建立一张新的excel表格,依次打开新保存的各义类低频词用字表,通过“复制”和“粘贴”操作,把各义类的低频词用字集中到新建的excel表格中的一列。
(2)选中该列用字,点击“数据”菜单下的子菜单“排序”按钮,使其按升序排列,让重复的汉字集中在一起。
(3)选中重新排序的这列用字→点击“数据”菜单下的子菜单“删除重复项”→删节该列中重复的字→得到42卷本所有低频词的用字→保存,文件名为“42卷本方言词典低频词用字表”。
三、42卷本方言词典共有词用字表的研制
“42卷本方言词共有词用字表”的研制与上节研制“42卷本方言词低频词用字表”大致相同,只是在最初筛选共有词时,要选择“总复现次数”在13次以上(含13次)的词,其余操作步骤相同。
四、42卷本方言词典低频词与共有词用字分析
将“42卷本方言词典低频词用字表”和“42卷本方言词典共有词用字表”合为一张表,即依照第三节中(2)(3)步骤排序、删重,得到“42卷本方言词典词汇用字表”。统计这三张表中方言词汇的用字量,得到表1的数据。
表142 卷本方言词典低频词、共有词和所有词用字量
42卷本方言词典词汇总的用字量为7628个,总复现次数在13次以下的低频词的用字量是7625,总复现次数在13次以上(含13次)的共有词的用字量为1662,两者在总用字量中所占的比重分别为99.9%和22.8%。由此可见,方言词汇低频词的总复现次数虽然较低,但其用字的涵盖面却是相当广,基本囊括了共有词的用字。
低频词的复现次数虽然不多,但却集中显现了方言点的词汇特点。在42卷本方言词典中复现次数为1的词,意味着只在此方言中出现,而在其他41个方言中未见,应是典型的方言特征词,是考察方言词汇特点的好材料。于是,我们统计“42卷本方言词典词汇集”中只出现一次的词,其数量为167580,约占方言词典收词总数的47%,可见这些词的比重之大。
综合以上两点,笔者认为低频词用字的涵盖面广,词汇自身体现了所属方言区的词语特色,对其用字进行研究可以在一定程度上反映该方言区的特色,起到区别其他方言区用字的作用,值得研究。
五、江淮官话与北部吴语“衣、食、住、行”类低频词用字研究
基于上节的阐述与分析,我们选择了江淮官话和北部吴语进行专题研究。江淮官话以南京和扬州为代表,北部吴语以丹阳和崇明为代表,统计分析这4个方言点低频词中“衣、食、住、行”四大义类词的用字情况,以比较江淮官话和北部吴语词汇用字的差异与特点。
先看直观柱状图:
图1 江淮官话和北部吴语“衣食住行”类低频词用字
图1显示,吴语在“衣”类低频词用字比江淮官话要多,“住”类的用字与江淮官话基本持平,而“食、行”两类的用字则明显少于江淮官话。
再看表2的具体数据:
表2 江淮官话和北部吴语“衣食住行”类低频词用字量比较表
吴语两个点在“衣食住行”类低频词总用字量是1274,江淮官话为1514,两者整体差异并非很大。但逐一对比这四个义类词汇的用字量可以发现,两方言区除“住”类词的用字量基本持平外,其余三义类词的用字量均有较明显差别。其中,江淮官话“衣”类的用字量少于吴语,约为吴语的80%;而“食”类用字量江淮官话又多于吴语,约是吴语的1.2倍。差异最大的是“行”类,江淮官话用了547字,约为吴语的1.5倍。
江淮官话与北部吴语虽然地缘接近,但不同义类词汇的用字量并不相同,各有侧重,这与各方言的地域文化有关。就本文统计的江淮官话和北部吴语“行”类词用字量的差异而言,江淮官话区大多处于沿江地带,因而“行”类词中的“船”族词以及与“船”相关的词必然不少,且分类较细。例如,42卷本方言词典中收录的江淮官话词汇中就有“蓬蓬船”、“凉蓬船”、“汽船”、“轮渡”等水上交通工具词语,而在吴语中则没有,因而这类江淮官话的词汇用字便会多于吴语。方言词语用字量的多少以及在不同义类上分布的不平衡,在一定程度上反映了各方言区各具特色的区域文化。
[1]张笑芳.基于《现代汉语方言大词典》的词汇统计研究[D].南京师范大学硕士学位论文,2009.
[2]钱大香.基于《现代汉语方言语音词汇库》的汉语方言关系计量研究[D].南京师范大学硕士学位论文,2009.
[3]苏新春.国家语委“通用语料库·核心库”的词表提取及词汇构成分析[J].江苏大学学报(社会科学版),2007(1).
[4]陈鹏飞.计量方法在汉语方言关系研究中的运用[J].天津师范大学学报(社科版),2006(2).
[5]张凯.汉语构词基本字的统计分析[J].语言教学与研究,1997(1).
[6]沈榕秋.汉语方言的定量研究[J].语文研究,1994(2).