语体文应用字汇
2014-09-03国立东南大学陈鹤琴
国立东南大学 陈鹤琴
语体文应用字汇
国立东南大学 陈鹤琴
编者按
《语体文应用字汇》(以下简称《字汇》)算得上我国最早具有现代语料库意义的一项成果。它产生于上世纪20年代初,距今90余年。《字汇》常见有3个版本,原版1922年发表于《新教育》杂志第5卷第5期987页至995页。本次重刊的即是依据1922的版本,只是将当初的繁体字转为简体。含完整字频表的《字汇》曾于1928年由商务印书馆刊印发行。再有,2008年出版的《陈鹤琴全集》(第6卷)收录了该《字汇》。
《字汇》的主要贡献有:1)我国最早的汉语语料库建设及应用;2)陈鹤琴指出汉字的排序与相对频率成反比,这一点在1935年才由George Zipf提出,即广为流传的“齐夫定律”;3)《字汇》的编写主要服务于基础阶段汉语教学。也确曾作为陶行知、朱经农编写《平民千字课》的用字依据;4)从教学法的角度来说,陈鹤琴还明确提出优先教授常用字词,罕用词次之的教学理念。
值此《语料库语言学》创编之际,特重刊《语体文应用字汇》,以彰显陈鹤琴先生在我国语料库语言学研究中所作出的开创性贡献。
为尊重历史,对于《字汇》中的词语、数字和标点的使用,我们都原文照录。与现今汉语不一致之处,请勿以语病视之。
此次《字汇》文稿誊录和校对得到陈晨、陈浪、房印杰、黄俊、刘守智、王波、吴边、吴进善、章宗婧等的协助,在此一并致谢。
I.语体文应用字汇之重要
(1)可用为小学校基本字汇
近来各地小学校逐渐采用语体文了,但采用语体文的第一个问题,就是规定语体文应用字汇,因为选择语体文教材,应当先知道那一种的字是最通用的,最通用的字共有几多,又必须知道那一种字是儿童应该先学的,那一种字应该后学的。这些问题非常要紧。解决这些问题最简单而且最有效力的方法,即在借重语体文应用字汇。
(2)可用为编制测验的根据
现在美国常用教育测验来改进教学法,分别年级等,如小学默读测验,默字测验,可以知道学生的默读与默写能力,是由测验所得的结果,可把那些最好的学生给他升级,最差的学生给他留级,或施行特别教法以图补救。这样一方可以知道学生的学力,一方可以知道教授的效力;两点晓得,在改进学生的学力上和改良教员的教法上就都有根据了。不过这种测验的编制,必须根据确实且切实用,方有效果。语体文应用字汇,在在皆确实调查,且系最近的调查。既然可靠,又切实用。用来作为编制测验的根据,虽不敢说丝毫无弊,却比较凭意编制或根据其他字汇编制的测验,必定可靠多多了。
(3)可用为成人教育之工具
成人教育在中国成为一个大问题,因中国大多数的成人都是不识字的。倘使我们要解决这个问题,
(987页)
必须创办成人学校或各种教育成人的机关。但成人求学的时期很短,而且所学必须简易切于实用。费时要少,收效要大的法子虽然不少,采用语体文的教授,却是快捷方式之一。用此方法,语体文字汇就又占着重要的地位了。
II.字汇研究之历史
英文应用字汇有几种:爱耳司(Аyres)曾用书信报章文学小说,以及学生的著作,共得字数368000,从中摘取单字1000,作为英文基本字汇。江司(Jones)搜集自二年级到八年级学生1050人的著作75000篇,制成字汇,共得字数15000000,单字个数4532。爱笃生(Аnderson)搜集3723篇成人所做的文字,代表35种职业,共得字数361184,单字个数9223。最近桑戴克(Thorndike)费了许多年的功夫,也做了一本字汇,共同字数4565000,单字个数10000,所研究的材料共四十一种。以上所举特就几种重要的言之,至于那些不十分重要的研究略而不说了。
中文应用字汇也有几种:Рastor Р.Kranz根据Soothhill的研究,编造常用四千字录。此外尚有欧美教士所做的字汇研究,因没有详细调查,无须报告。
III.字汇研究之方法
中国字汇的分部非常复杂,编造测验初步的手续,若采用旧字汇分部方法,归纳起来,麻烦非常。为便利计,用“永”字八法作为字汇编造初步分部的标准。凡以“点”开始的字都归入“点”部,以“横”开始的字都归入“横”部。如“天”字归入“横”部,“江”字
(988页)
归入“点”部是,余类推。但中国字用“永”字八法来分部,属于“钩”部的字简直没有,属于“捺”部的字也很罕见。分部归纳的时候,把所搜集材料所有的字分别归纳于适宜各部。同样的字用符号记数法合计起来,计数的符号,或用“正”字笔画或用“册”记号笔画,“册”记号比“正”字更觉便利。归纳后,所有的单字,依用的次数之多寡,排列先后。本字汇的研究两年前即着手进行,现在已有初步的结束,大约一年后即可完竣。本字汇研究方法,计有两种:第一,专研究个别的单字;第二,研究联词和有独立的意义的单字。比方“今天早晨我进学校去读书”一句话,用第一种研究方法,就是把这句话的字逐个归入各部,若用第二种研究法,那么“今天”“早晨”“学校”“上课”等各为一联词,照第一字开始一画,依第一种分部法归入各部。“我”“进”“去”等字都是有独立意义的单字,也要把他归入相当部内。凡专名词一概除去不计。论其用途,第一种研究效用较小,不过藉此可以知道中国语体文通用单字共有几多,通用单字应用次数之多寡,与其价值之轻重。第二种研究效用浩大,他的材料,与结果容完竣后一同报告。
IV.研究的材料与结果
所搜集的材料都是语体文,共分六大类:(1)儿童用书,(2)新闻报,(3)杂志,(4)小学生课外著作,(5)古今小说,(6)杂类。共计554498个字,4261个单子。在这些字之中,有的用的次数很多,有的用的次数很少,现在把字汇材料,用字次数,与字汇举例三表
(989页)
A 字汇材料表
同列于下:
(续表)
同上 第一四期 2229同上 第一五期 1022同上 第二〇期 1477故事读本(商) 甲编 乙编 14463儿童世界游记(商) 第一册 第二册 10469常识谈话(商) 第二 第八 第九 11444同上 第四 第七 7530同上 第一 2665同上 第三 2849以上共计 127294
报刊类
(续表)
杂志类
小学生课外著作类
古今小说类
(续表)
杂类
B 用字次数表
(续表)
C 语体文应用字汇举例
从上面用字次数表看来,次数愈小,字数愈大;次数愈大,字数愈小。次数与字数适成反比例,所谓次数就是指在以上554498字中,所遇见的次数也。凡次数很少的字,他的用处和价值可以说是很小。次数很大的字,他的用处和价值可以说是很大。如次数“1”的574字用处极小,而次数“5000”的10字用处极大是。
(待续)
(续表)
用字汇举例
(续表)
志谢:以上所报告的研究,非有敝校教育科之补助,诸同事之指导,并李君尚春以及其他各助理细心合作,断难成全,因此特附笔致谢。
(995页)
附注
《字汇》1922、1928、2008三个版本的电子文档可由http://www.bfsu-corpus.org/static/ corpus-classics/下载得到。
陈鹤琴简历
陈鹤琴(1892-1982),浙江上虞人,我国著名儿童教育家、儿童心理学家。早年毕业于清华大学,留学美国五年,1919年获得哥伦比亚大学硕士学位。陈鹤琴回国后,最初任南京高等师范学校教授,国立东南大学(后更名国立中央大学、南京大学)成立后,任教授兼教务主任。在此期间,他致力于研究儿童心理学和幼儿教育学。1922年发表《语体文应用字汇》,为第一项基于大规模真实语料的汉字字频研究成果,开创了我国汉字字量的科学研究。对编写小学课本和普及教育起了推动作用。