汉语词表建设概述
2012-04-13刘云
刘 云
(华中师范大学文学院,湖北武汉,430079)
词表是词语按照一定的原则收集起来的词汇集合。词表既是汉语词汇计量研究的对象,又是汉语词汇计量研究的结果,对语言教学与研究、图书情报分类检索、词典编撰和中文信息处理等都有着重要的价值。就目前已经刊行的词表而言,主要集中在三个方面:语文词典收录的词目表、语言信息处理用词表、图书情报的主题词表。
一、语文词典收录的词目表
语文词典词目的研制在我国有悠久的历史,古代汉语单音节词占优势,因此语文词目表的研制在古代表现为字书的编撰。汉字是一种表意文字,要学习文化知识首先面临的就是识字的任务。我国自古就有集中识字的传统,要识字就得有识字的教材。周宣王时太史籀编写的教学童书《史籀篇》是我国蒙学识字教材的源头。秦始皇统一中国后,实行“书同文”的政策,对以前各国文字的使用进行彻底的整理,命令丞相李斯、中车府令赵高和太史令胡毋敬模仿《史籀篇》的体例,改籀文为秦篆,分别编写了《仓颉》七章、《爰历》六章、《博学》七章,到汉初将这三部字书合并为《苍颉篇》。此后,识字课本的编纂开始增多,据《汉书·艺文志》,在西汉武帝时司马相如作《凡将篇》,元帝时黄门令史游作《急就篇》,成帝时将作大匠李长作《元尚篇》[1]。后来出现的《千字文》、《三字经》、《百家姓》等识字课本,所选的字也都是常见的字,句式简短、对称、押韵,用字重复率极低。三本书合起来的总字数是2708个,去重后的字数是1426个,这些字有84.27%属于如今3500个常用字的范围内[2]。不过,当时还没有统计字频,只是根据语感选用,我国第一部汉语频率字典是陈鹤琴在1928年编成的《语体文应用字汇》,他分析了554478个词,得出4261个常用字,但这还不是严格意义上的频率词表。
新中国成立后,为了推广普通话,普及文化知识,需要编写各种识字教材,因此,各级各部门都非常重视对汉语常用字词的统计,陆续公布了一些基于频率统计的字表和词表,如1950年9月中央人民政府教育部社会教育司发布的《常用汉字登记表》收字1017个,1952年6月中央人民政府教育部发布的《常用字表》收字2000个,1958年8月山东省教育厅发布的《普通话常用字表》收字3000个,1962年中国文字改革委员会发布的《普通话三千常用词表》收词3000个,1965年3月北京市教育局发布的《常用字表》收字3100个等。其中《普通话三千常用词表》是这一时期词汇统计研究最重要的成果,词表收词达3218个。这一时期的统计工作基本上是面向中小学语文教学的,常用字的字频手工统计占了绝对优势,词频统计刚刚开始,而且规模一般比较小,统计结果也只是用来编写常用字表或词表,相关的词汇统计研究尚未真正展开。
对汉语词汇频率的统计研究,最早要算郑林曦所编《普通话三千常用词表》。该词表初稿本于1959年出版,收词3624个,增订本于1987年出版,收词3996个。这是我国第一本分词类排列的常用词表,该词表采取选择和统计、检验相结合的方法,据编者自己进行的常用性检验,初稿本的词汇出现频率平均约为80%,增订本的词汇出现频率提高到87%。这项成果不是建立在严格的词频统计的基础上的,计算机技术得到广泛应用之后,我国便开展了大规模的不同用途的汉语词频统计工作。刘英林、宋绍周在《论汉语教学字词的统计与分级(代序)》中概括了我国20世纪90年代之前普通话词表的研制情况,提及那一时期制订的词表有[3]:
普通话三千常用词表(3000词),1959年,文字改革委员会汉字组
两千双字词表(2000词),1960年,《文字改革》发表
外国学生用四千词表(4000词),1964年,北京语言学院
外国人实用汉语常用词表(3040词),1981年,北京语言学院
报刊词语三千六百条(3600词),1983年,北京语言学院
中小学文科教学七千词表(7000词),承德医学院、中国人民大学
现代汉语七千词表(7000词),中国人民大学
拟制文件六千词表(6800词),燕山计算机应用研究中心
信息处理用现代汉语五千词表(收双音以上词语5639条),1985年,现代汉语工程实用词库国家标准研制组
现代汉语频率词典(常用词部分8548词),1985年,北京语言学院
对外汉语教学常用词表(4000词),1986年,北京语言学院
汉语水平等级标准和等级大纲(《词汇大纲》部分收甲、乙、丙三级常用词5168个),1988年,中国对外汉语教学学会
现代汉语常用词词频词典(常用词部分9000),1989年,北京航空航天大学等
中小学汉语常用词表(常用词部分8107),1990年,北京师范大学现代教育技术研究所
现代汉语常用词库(常用词部分9000),1990年,山东大学
北京口语调查(常用词部分6966),1991年,北京语言学院
利用计算机统计词频并进而建立各种词表主要开展了以下工作:
(1)北京师范大学现代教育技术研究所同中文系合作,从1983年至1985年完成了中小学语文教材的词频统计与分析研究。课题组对当时全国统一使用的1983—1984年度的中小学语文教材(共24册)作了大规模的词频统计与分析。利用计算机把词频值(即词的出现频度的高低)和方差值(即词在各种文体中的覆盖率)都达到某一界限的词全部挑选出来,确认为常用词,编成常用词表。这项成果于1985年7月通过国家鉴定,形成了《现代汉语词表》、《三千常用词表》、《八千常用词表》、《一万常用词表》和《现代汉语构词字典》等具体成果。这项研究对于中小学词汇教学的意义毋庸置疑,但是词频统计的取材范围局限于一套统编教材,不足以充分证明所选词语的“常用性”。
(2)国家语委语用所现代汉语通用词课题组,在近2亿汉字语料的基础上,吸收国内外主要的词频统计成果,并运用新的抽样语料进行覆盖率检验,采集“全社会性质的、跨行业的、应用广泛的”通用词汇集。通用词包括人们通常说的“常用词”、“次常用词”,还包括少量频度较低但分布率较高、人们十分熟悉的词语。该项研究的成果《现代汉语通用词·基本集》于1997年通过专家审定,基本集以语法词为主,兼收惯用语和成语,收词6万多个,其中一级词5191个,二级词8792个,共13983个。除《现代汉语通用词·基本集》以外,还有扩充集,扩充集以短语为主。通用词集的研制兼顾了抽样语料的通俗性、广泛性、规范性,采用通用度计算公式,尽量克服抽样偏差或统计偏差造成的“假象高频词干扰”[4]。
(3)经教育部、国家语委批准,我国出台了汉语国际教育方面的第一个国家标准《汉语国际教育用音节汉字词汇等级划分》。《汉语国际教育用音节汉字词汇等级划分》创立了适用于汉语国际教育的音节汉字词汇的三维基准体系,一级音节608个,二级音节301个,三级音节163个,三级附录音节38个,共计1110个;一级汉字900个,二级汉字900个,三级汉字900个,三级附录汉字300个,共计3000个;一级词汇2245个,二级词汇3211个,三级词汇4175个,三级附录词汇1461个,共计11092个。与此配套的《汉语口语水平等级标准及测试大纲》也同步实施,测试的词语表分为初等(2100条)、中等(3100条)、高等(3100条)三个层级,共8300条词语,主要测试在日常生活领域运用汉语口语交际的语音水平、理解水平和表达水平。
(4)汉语常用词词表的研制。汉语常用词表的研制历史由来已久,学者们经过多次实践,研制出多个面向不同需求的常用词词表,例如,1985年北京语言学院研制的《现代汉语频率词典》,1989年北京航空航天大学的《现代汉语常用词词频词典》,北京师范大学的《中小学汉语教学词表》,1990年山东大学的《现代汉语常用词库》以及1992年国家汉语水平考试委员会办公室考试中心研制的《汉语水平词汇与汉字等级大纲》(简称HSK 词汇大纲)。其中HSK 词汇大纲的影响较大,大纲中词汇的筛选不仅集成了上述各类词表的资源成果,同时还邀请对外汉语教学专家进行人工干预。《汉语水平词汇与汉字等级大纲》收词8822个,由易到难分甲、乙、丙、丁四个等级,其中甲级词1033个,乙级词2018个,丙级词2202个,丁级词3569个。词汇大纲曾经作为我国对外汉语总体设计、教材编写、课堂教学、教学测试的重要依据,在学界发挥了重要的作用。汉语常用词词表研制方面规模最大、影响最大的要数《现代汉语常用词表》课题组编的《现代汉语常用词表(草案)》。《现代汉语常用词表(草案)》提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语56008个,形成了《现代汉语常用词表(草案)》给出了词语的词形。词表的研制采取词和语兼顾原则,草案的词语收录,以单音节词和双音节词为主,同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语,兼顾系统性和实用性原则。草案的词语收录,既注意词语的系统性,又注意词语在语用中的实用性,最终形成的《现代汉语常用词表》,收录词语共56008个[5]。包括单音节词3181个,双音节词语40351个,三音节词语6459个,四音节词语5855个,五音节和五音节以上词语162个。词表确定词语的使用频度顺序采用的是“词频频级排序法”。由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级排序法就是同一语料库中所有词语按频次数的多少进行的一种排序方法。相同频次的为一个频级。相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音按字母升序排列。词表的研制成果可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用[6]。
进入21世纪后,先后有六次大规模的词汇统计,分别是《中国语言生活状况报告(2005)》、《中国语言生活状况报告(2006)》、《中国语言生活状况报告(2007)》、《中国语言生活状况报告(2008)》、《中国语言生活状况报告(2009)》和《中国语言生活状况报告(2010)》。纵观这六次大规模的词汇统计,每次统计的样本都相当大,这里以《中国语言生活状况报告(2010)》为例,全部语料共计601649583词次,词种2175837个。覆盖率达到90%的高频词语13672个,占全部词种数的0.63%。媒体的词语使用具有以下特点:(1)高频词语数量及高频词语用字数量较稳定。高频词语数量稳定在1万余条,高频词语用字数量稳定在2700条左右。这些高频词语在媒体中使用稳定,主要是语文词语,也包括少数专名和时间表达式。(2)高频词语中使用频率变化较大的词语体现了年度的社会生活。如:与2009年词语相比,2010年度下列高频词语使用频率有明显增加,这些词语反映2010年的社会图景:微博、低碳、团购、加息、二手房、房贷、高铁、央企、准备金率、纠结、给力、上海世博会、亚运会、海地、玉树、舟曲、智利、希腊、泥石流、火山、国美、富士康、阿凡达、曹操。(3)媒体中大量词语出现频率较低,占年度全部词种约92%的低频词语仅覆盖全部语料的1%。这些词语主要是人名、地名、组织机构名以及时间、数字表达式等[7]。
除了以上这些直接体现频率的词表外,方言调查词汇手册和《现代汉语词典》在某种意义上也是一种语文词表。
方言调查。新中国成立后,1955年召开了“现代汉语规范问题学术会议”,著名语言学家丁声树、李荣在会上作了《汉语方言调查》的学术报告,提出为了推广普通话必须重视汉语方言的调查与研究,“不仅要调查语音情况,还要重视方言词汇和方言语法的研究”,并建议“在两年内完成汉语方言初步普查的计划”[8]。1955年中科院语言研究所丁声树和李荣主编的《方言调查词汇手册》(《方言》1989年第2期),收词300多条,小型﹑初步的调查可以以它为基础。1956年中科院语言研究所编写了《方言词汇调查手册》。1958年语言研究所方言组编写了《方言调查词汇表》(《方言》1981年第3期),之后,方言研究室在《方言调查词汇表》的基础上制定了《汉语方言词汇调查详表》,供课题组内部使用,一直没有公开发表过。北京大学中文系语言学教研室编纂的《汉语方言词汇》(1964),收录了18个代表点方言905条词语,其修订版《汉语方言词汇》(1995)收录了20 个代表点方言1230 条。1991年起,方言研究室组织编纂《现代汉语方言大词典》,为此制定了《汉语方言词汇调查表》,后来,方言研究室资料室对原来的词汇表做了一些必要的修正和改动,删去了编码,定名为《汉语方言词语调查条目表》(《方言》2003年第1期)。《汉语方言词语调查条目表》共有29大类,前23类按照意义来分,后6类按照词类来分。每大类下再分若干小类,列词目3000余条。《现代汉语方言大词典》分为42种分卷本,分卷本具有统一的编纂体例,使用统一的词汇表,因此有大致相同的词语收录范围。每卷本收录8000条上下的词语条目,以实词为主,兼收虚词。
词典的词目是按照一定的原则收录的,整个词典的词目就是一个一定规模的词表。《现代汉语词典》是新中国成立后编写的第一部中型汉语词典。《现代汉语词典》1978年正式公开发行第1版,收词约56000条,在正式公开发行之前,还有三种铅印本:1960年的试印本、1965年的试用本送审稿和1973年的试用本[9]。《现代汉语词典》以其科学性、规范性、实用性把我国的语文词典推向了一个新的起点,在推广普通话、促进汉语规范化方面,在我国语文教育、语言文字的应用及理论研究方面都发挥了积极作用,受到了社会各界的重视和欢迎。试印本正文共收词43000条,1965年修改成的试用本,多收了一些古汉语词汇和方言词汇,正文增到50000条,到1978年第1版,收词条目增到56000余条。1983年出版的第2版主要是消除残存的“文革”的影响,收词方面变动不大,共收词56147条,其中单字词目10540条,复音词目45607条。1996年出版的修订第3版,收词61000余条,修订的重点在于增删条目,增收词语达9000余条,主要是新词;删词约4000条,主要是过于专业或过时的自然科学、社会科学专科条目[10]。2002年出版的第4版,用粉红色的纸张将1200多条新词汇附在原《现代汉语词典》第3版正文后面,单独排序。2005年的第5版与1996年出版的第3版相比,增加了词语7200余条,其中新词新义约占三分之一,删去词语2700余条,还增、删了不少词义。收词方面增新删旧,调整平衡,能较为全面地反映词汇的新发展,以适应读者的需要。新修订版增收的内容主要包括新词新义和为调整、平衡而增补的词语两个方面[11]。可见,5个版本的《现代汉语词典》收词范围不断扩大,收词数量呈“三级跳”式扩展,第1~2版收词相差无几,在56000条词目左右;第4版较第3版略有增多,两者都有60000余条;第5版收词数量又上了一个台阶,达到65000余条。总体而言,5个版本的《现代汉语词典》都遵守了“收词要收‘通用(普通)的词’”、“次要的‘应该酌量选收’”的收词原则。
二、语言信息处理用词表
语言信息处理后台一般要有一个一定规模的后台词表,汉语的词汇平面构成了现阶段中文信息处理主要应用领域(汉字识别,汉语语音识别及合成,全文信息检索及文本自动分类,文本自动校对等)的主要支撑平台。中文信息处理界影响较大的词表有北京语言学院完成的“现代汉语词汇的统计与分析”专题研究,北京航空学院等完成的“现代汉语词频统计”项目,许嘉璐、傅永和主持的国家社科基金“九五”重大项目《信息处理用现代汉语词汇研究》,孙茂松构建的《信息处理用现代汉语分词词表》,北京大学俞士汶主编的《汉语语法信息词典》。
(1)北京语言学院语言教学研究所从1979年末至1986年完成了“现代汉语词汇的统计与分析”专题研究,对4类(报刊政论、科普、生活口语、文学作品)语体179种180万字的语料进行统计,共得到词条31159个,其中出现频率在10次以上的常用词,只有8000个,其累计频率占95%强,其余23159个词的累计频率仅占不到5%。据此编撰了《现代汉语频率词典》,是我国第一部有着严格统计学意义的反映词量、词长、词汇分布、词语构成等断代词汇状况的词典,其结果具有较高的客观性和准确性。这项成果对对外汉语教学产生了比较大的影响,国家对外汉语教学领导小组办公室还据此确立了《汉语水平词汇与汉字等级大纲》(1992)和《汉语水平等级标准与语法等级大纲》(1995)里的词汇量化标准8822个。
(2)北京航空学院等11个单位从1981年到1986年完成了“现代汉语词频统计”项目。此次词频统计选材3亿汉字,选了1919年到1982年的正式出版物,并分四个时期,其统计成果有三个方面:①四个时期十类分科频度表,共35个频度表;②四个时期中每一时期均有社会科学综合频度表、自然科学综合频度表和社会科学、自然科学综合频度表;③四个时期的综合频度表。这次词频统计是当时规模最大、取材范围最广的一次,统计结果具有一定的代表性。主要成果体现为刘源主编的《现代汉语常用词词频词典》,但该统计也存在不足,例如收词时没有一个严格的“词”的标准。
(3)由许嘉璐、傅永和主持的国家社科基金“九五”重大项目《信息处理用现代汉语词汇研究》于2001年3月通过专家鉴定,其子课题“信息处理用现代汉语分词词表”制定了一个面向信息处理的、具有较强通用性及覆盖能力的现代汉语分词词表,整个词表分成7大分库:普通词库、带字母词库、专名库、常用接续库、成语库、俗语库(以上均针对多字词)以及单字词库。以一个包含158000个词的工作初表为基础,将这个表中的每个词置于一个8亿字左右的语料中作词频统计,最后采用“定性+定量”的处理策略,形成了《信息处理用现代汉语分词词表》,这个词表共收词92843个,其中一级常用词56606个,二级常用词36237个[12]。
(4)国家技术监督局1993年发布了中华人民共和国国家标准GB/T13715-92《信息处理用现代汉语分词规范》,定义了一个新的概念“分词单位”,即“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组”,其中“词”和“词组”这两个概念与语言学中的相同[13]。可见,“分词单位”较语言学意义上的“词”要宽泛些,涵盖了语言学中的“词”以及一部分看上去比较接近词的“词组”。《信息处理用现代汉语分词规范》中多次出现“结合紧密、使用稳定”的表述,这个表述比较模糊、难以操作。由此,孙茂松主持的国家社科“九五”规划重大项目《信息处理用现代汉语词汇研究》子课题“信息处理用现代汉语分词词表”就是想制定一个面向信息处理的、具有较强通用性及覆盖能力的现代汉语分词词表。课题组把经过精心挑选的十多部词典合并去重后,得到一个包含158000条多字词的工作初表;然后,对工作初表中的每个词,均从一个8亿字的生语料库中自动获取了其串频、词频、互信息等统计数据;最后,审校者运用各类语言学规则(定性)并参照上述统计数据(定量),对工作初表中的158000个词逐条作出是否应该收入词表的判断。经过多次审校,最后得到课题最终成果的词表,词表的总词数为92843条,其中一级常用词共56606条,二级常用词共36237条。整个词表分成7大分库:普通词库、带字母词库、专名库、常用接续库、成语库、俗语库(以上均针对多字词)以及单字词库[14]。
(5)北京大学俞士汶等编写的《现代汉语语法信息词典》是一部供计算机分析与生成汉语句子而使用的机器词典。其收词原则有:①规范原则,符合国家标准《信息处理用现代汉语分词规范》的词语,都属于电子词典的收词范围;不符合分词规范的词语,原则上将不予收录。②高频原则,为了做到收词量一定而词的覆盖面最大或词的覆盖面足够大而收词量最少,电子词典在规范原则的基础上,遵守高频原则,尽可能多地选收那些使用频率高、适用面广的词语,尽量少收低频词。③稳定原则,电子词典在选收词语时,不仅要遵守规范原则、高频原则,而且要遵守稳定原则,尽可能多地收录稳定性强的词语,对那些只通行于过去某一段时期,而现在已较少使用的词语,即使统计频率较高,一般也不予收录。④词部件原则,汉语中词语数目无限多,可是构成这些词语的基本部件却是有限的,语法信息词典着重收录可以作为“词部件”的基本构词成分、词和固定短语,对于由这些词部件构成的上级语言单位,如派生词、复合词、重叠形式、自由短语等,尽可能少收,甚至不收。⑤语法义项原则,具有同一词形的同形词语,以及兼类词语、语法功能有较大差别的多义词,都看作不同的词语而列入收录范围,这种做法的依据就是语法义项原则,即根据词语的词类及其它语法功能的异同,来建立相应的语法义项,同一个词形具有几个语法义项,就作为几个词语收录。⑥实用原则,以规范的现代汉语普通话词语为主,尽量少收古汉语词语、方言词语;增补了少量使用频率特别高的自由短语,如“一个、一下子、一会儿、各种、百分之、全国、这种”等;5字以上词语暂不收录,这些词语在大规模的语料中出现的几率非常低;增补了中文标点符号。
三、图书情报的主题词表
图书情报界的词表建设以1980年的《汉语主题词表》为界,之前是经验积累期,之后是收获期。20世纪60年代我国只出过一部主题词表《航空科技资料主题词表》,这是新中国成立后的第一部词表,20世纪70年代的词表有《科学技术用语叙词表》、《电子技术汉语主题词表》、《常规武器装备主题词表》、《国防科学技术主题词表》、《原子能科技资料主题词表》、《机械工程主题词表》,1980年出版了《汉语主题词表》[15]。
《汉语主题词表》是我国第一部大型的综合性的叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个,词族数3707个,一级范畴数58个,二级674个,三级1080个[16]。1991年自然科学部分出增订本,增补新词8221条,删除不适用词5434条[17]。《汉语主题词表》是当时世界上收词最多的叙词表,也是世界上少数几种综合性叙词表之一。《汉语主题词表》是一部显示主题词与词间语义关系的规范化动态性的检索语言词表,以词和词组为基本单元,以规范化的检索语言来揭示图书情报的内容;以参照款目来反映主题词之间的等同关系、相互关系和从属关系;以主题组配等形式来提高检全率,该表既适合于机械检索也适应于手工检索。从《汉语主题词表》诞生时起,我国图书情报界就大力推广和建议使用《汉语主题词表》,并且对专业叙词表选词有重要的参考作用。在《汉语主题词表》出版以后,虽然可以对各专业领域进行标引和检索,但对于不同的具体专业,由于相关概念术语词汇量偏少,引发了对专业叙词表的现实需求,各专业的研究人员参考《汉语主题词表》的选词规范和编制技术,编制了各类专业叙词表。在选词方面,各专业叙词表的基础词汇(多数来自《汉语主题词表》)是在《汉语主题词表》专业核心概念的基础上的丰富和扩展。各专业词表选定的主题词,主要是各学科领域文献中经常出现、在情报检索中有使用价值和一定的使用频率、能作为主题汇集一定量文献或具有叙词组配功能的名词术语;词表选定的主题词,必须词形简练、词义明确、严格遵守一词一义原则,并且通过概念组配应能表达文献或用户查询的特定主题;词表选定的主题词,符合我国科技发展的实际需要,尽量与国内外主要科技主题词表相兼容,并注意到主题词的科学性与思想性。此后的20世纪80年代出版了《常规武器工业叙词表》、《农业主题词表》、《图书情报学主题词表》、《环境科学叙词表》、《自动化科学技术主题词表》等40多种专业叙词表。20世纪90年代出版了《计算机科学技术汉语叙词表》、《世界汉语教学主题词表》、《数学汉语主题词表》、《中国铁路叙词表》、《大气科学主题词表》等30多种专业叙词表,进入21世纪,还陆陆续续有各种专业叙词表不断涌现[18]。
此外,较有影响的还有《中国分类主题词表》和《国务院公文主题词表》。《中国分类主题词表》(1994)是在《中图法》第三版和《汉语主题词表》第一版的基础上编制的、两者兼容的一体化情报检索语言,是一部大型综合性的信息文献标引工具。它问世后在图书馆及情报界得到了广泛应用,2005年9月由北京图书馆出版社出版了第二版,包括印刷版和电子版。《国务院公文主题词表》(1997年12月修订)共由15类1049个主题词组成,分为主表和附表两大部分,主表有13类751个主题词,附表有2类298个主题词。词表分为三个层次。第一层是对主题词区域的分类,如“综合经济”、“财政、金融”类等。第二层是类别词,即对主题词的具体分类,如“工交、能源、邮电”类中的“工业”、“交通”、“能源”和“邮电”等。第三层是类属词,如“体制”、“职能”、“编制”等。第二层和第三层统称为主题词,用于文件的标引。
根据高文飞、赵新力《我国主题词表的发展研究》(《图书情报工作》2008年第9期)介绍,我国编制出版的主题词表有130部,可以从年代分布、专业领域分布、词表规模等方面对这些主题词表进行归类。从年代分布看,1956年至1965年是我国主题词表发展的探索阶段。1966年至1975年,我国主题词表发展处于停滞状态。1976年至1985年是我国主题词表编制起步阶段,这期间共编制主题词表22部,占所收集全部词表的16.92%。1986年至1995年是我国主题词表飞跃发展时期,这一阶段共编制主题词表82 部,占所收集全部词表的63.08%。1996年至2005年,我国主题词表编制热潮开始回落,编制主题词表24部,占所收集全部词表的18.46%。这一时期,我国主题词表发展由编制新表转为以对已有词表进行修订为主。从专业领域来看,社会科学词表有31部,占23.85%;自然科学词表共88部,占67.69%。包容社会科学和自然科学两个领域的综合性词表有11部,占8.46%。根据词表收词量的多少,将词表分为大、中、小三类。收词量在10000条以上的为大型词表,收词量在10000 条至1000 条之间的为中型词表,收词量在1000条以下的为小型词表。所收集的130部词表中有详细介绍的89部词表的词汇规模分布如下:中型词表最多,占55.06%;其次是大型词表,占35.95%;小型词表最少,仅有8部,占8.99%。我国大型词表所占比例相对较大,34部大型词表中收词量在20000条以上的词表达14部,其中《汉语主题词表》收词量达108568条,《军用主题词表》收录主题词52500条。我国编制的小型词表较少,多为未公开出版的由国家部委或机构团体编制供内部使用的词表。
注释:
[1]参见《汉书·艺文志》:“《苍颉》七章者,秦丞相李斯所作也;《爰历》六章者,车府令赵高所作也;《博学》七章者,太史令胡毋敬所作也;文字多取《史籀篇》,而篆体复颇异,所谓秦篆者也。是时始造隶书矣,起于官狱多事,苟趋省易,施之于徒隶也。汉兴,闾里书师合《苍颉》、《爰历》、《博学》三篇,断六十字以为一章,凡五十五章,并为《苍颉篇》。武帝时司马相如作《凡将篇》,无复字。元帝时黄门令史游作《急就篇》,成帝时将作大匠李长作《元尚篇》,皆《苍颉》中正字也。《凡将》则颇有出矣。至元始中,征天下通小学者以百数,各令记字于庭中。扬雄取其有用者以作《训纂篇》,顺续《苍颉》,又易《苍颉》中重复之字,凡八十九章。”北京:中华书局,1962年,第1721页。
[2]参见郑国民、刘彩祥、王元华、陈双新:《小学语文常用读物的字种与字量研究——“三、百、千”“四书”、古诗80首等六种读物的用字》,《语言文字应用》2003年第4期。
[3]参见刘英林、宋绍周:《论汉语教学字词的统计与分级(代序)》,载国家对外汉语教学领导小组办公室汉语水平考试部:《汉语水平词汇与汉字等级大纲》,北京:北京语言学院出版社,1992年。
[4]参见通用词研究课题组:《现代汉语通用词研究的若干原则和方法》,《语文建设》1994年第4期。
[5]相同词形的词语因意义不同或读音不同出现在不同位置时,算作不同词条。
[6]参见《现代汉语常用词表》课题组:《现代汉语常用词表(草案)》,北京:商务印书馆,2008年。
[7]参见《中国语言生活状况报告(2010)》,北京:商务印书馆,2011年。
[8]参见丁声树、李荣:《汉语方言调查》,载现代汉语规范问题学术会议秘书处编:《现代汉语规范问题学术会议文件汇编》,北京:科学出版社,1956年。
[9]参见刘庆隆:《现代汉语词典的收词》,《辞书研究》1982年第1期。
[10]参见韩敬体:《〈现代汉语词典〉(修订本)介绍》,《中国语文》1996年第6期。
[11]在本文完成之后,商务印书馆于2012年7月出版了《现代汉语词典》(第六版)。
[12]参见孙茂松等:《〈信息处理用词汇研究〉九五项目结题汇报 信息处理用现代汉语分词词表》,《语言文字应用》2001年第4期。
[13]参见国家技术监督局:《中华人民共和国国家标准GB/T 13715-92信息处理用现代汉语分词规范》,北京:中国标准出版社,1993。
[14]参见孙茂松等:《〈信息处理用词汇研究〉九五项目结题汇报 信息处理用现代汉语分词词表》,《语言文字应用》2001年第4期。
[15]参见梁冰、乔晓东:《从维基文化看我国词表建设》,《图书情报工作》2007年第7期。
[16]参见中国科学技术情报研究所、北京图书馆:《汉语主题词表》,北京:科学技术文献出版社,1980年。
[17]参见中国科学技术情报研究所:《汉语主题词表:自然科学》(增订本),北京:科学技术文献出版社,1991年。
[18]参见梁冰、乔晓东:《从维基文化看我国词表建设》,《图书情报工作》2007年第7期。