华文水平测试词汇大纲研制的理念与程序①
2020-06-22王洁
王 洁
(暨南大学华文学院,广东,广州510610)
华文水平测试(简称“华测”)是以海外华裔青少年为测试对象的华语文能力标准化考试。华测的配套大纲有:汉字大纲、词汇大纲、语法大纲、任务大纲、文化大纲。
大纲研制的主要环节是条目收录、条目定级、条目标注。本文介绍词汇大纲的研制。
由于汉语字词的特殊关系,需先明确汉字大纲和词汇大纲的分工。
1.汉字大纲、词汇大纲的分工
首先,词汇大纲中的单字条目不同于汉字大纲中的条目。
汉字大纲中收录的是汉字,所以都是单字条目。词汇大纲中收录的是词语(包含一些不成词的单字语素,见下文2.3.1),有单字条目,也有多字条目。汉字大纲需要从认读字和书写字的角度对条目进行收录及定级,词汇大纲则需要从单字词或语素的角度对单字条目进行收录及定级。
其次,无论是单字条目还是多字条目,词汇大纲对词语的收录及定级不受词语用字难度的影响。比如“西瓜”“香蕉”在词汇大纲中都是一级,不会因为“香蕉”比较难写就将其放到较高等级。具体到听说读写考试,“香蕉”是一级,意味着该词在一级的听力考试和口语考试中可以考查,一级的阅读考试和写作考试能否考查,需要查阅其用字的认读级别和书写级别。
2.条目收录
一个具体的语言片段是否有资格进入词汇大纲,有两个判断标准:首先,是不是词;其次,是否超出考试的最高难度。前一个标准涉及到汉语中“词”的界限问题,在2.3讨论;后一个标准主要基于词频统计数据来掌控,词汇大纲的研制始于语料的收集和词频统计,由此得到一个初始的底表,见2.1。从底表中的词语到词汇大纲中的条目,还需经过删除、补充、修改、合并、拆分等操作,见2.2。
2.1 底表
小学、初中、高中的语料来源见表1。
表1:各学段语料库
我们对上述三个语料库分别进行了词频统计,并将得到的词语列表与《现代汉语常用词表(草案)》(简称《常用词表》)进行了关联。具体步骤如下:
(1)小学段词语的观察范围:小学库词语种数(type)47141,保留频次大于等于10的共15689,其中《常用词表》中没有的共3556,经人工干预,3556中又回收了464,进入小学段观察范围的词语种数为12597(15689-3556+464)。
(2)初中段词语的观察范围:初中库词语种数37249,去掉已在小学段观察范围内的词语后剩余26124,保留其中频次大于等于3且在《常用词表》中出现的词语共4916。
(3)高中段词语的观察范围:高中库词语种数为36530,去掉已在小学段、初中段观察范围内的词语后剩余21685,保留其中频次大于等于3且在《常用词表》中出现的词语共2356。
(4)三个语料库的低频部分回收:小学库频次小于10的词语、初中库频次小于3的词语、高中库频次小于3的词语,三者取并集,去除之前已进入观察范围①比如“含蓄”一词在小学库的频次为3,未能进入小学段的观察范围,但在初中库的频次为5,已经进入了初中段的观察范围。的词语后剩余词语种数15779。对其通过人工干预进行回收,其中单字词语、三字及三字以上的词语逐个干预,决定是否回收;二字词语由于数量较多(11559),只对《常用词表》频序在30000以内的词语(6540)进行了干预。总共回收4257。
经过以上四步,底表共有词语种数24126(12597+4916+2356+4257)
2.2 从底表词语到大纲条目
从底表中的词语到词汇大纲中的条目,主要涉及以下几类操作:删除、补充、修改、合并、拆分。
2.2.1 删除
需要删除的情况主要包括:
(1)更像是词组的“词”。语料库的词频统计是基于分词软件分词的,而分词软件自带的词表往往会包含一些超词单位,如“剩下”“离家”“多次”“每逢”“无人”“在外”“黑瘦”“是不是”等。
(2)重叠形式。分词软件对语料库中出现的aa、aabb、abab等重叠形式会动态识别,即会把“高高兴兴”等作为一个切分单位,而这类词语是受规则控制的,没必要收入词汇大纲。但是,有必要保留ab不是词的aabb式,如“轰轰烈烈”“跌跌撞撞”等。
(3)生僻词语。包括少见事物、现象等,如“茱萸”“悬梁”。
(4)语料中出现的字串与语文词典中的词语用字相同,但实际所指不同。比如“学友”,语料中的“学友”作为一个切分单位,是因为分词软件自带词表中有“学友”一词,“学友”确实可算是语文词典中的一个词,《现代汉语词典(第7版)》(简称《现汉7》)收为条目“【学友】xuéyǒu名同学:同三五~郊外踏青。”而语料中出现的“学友”是人名。发现这类字串时,会将其删除。
2.2.2 补充
为了保证系统性,需要补充一些底表中没有出现的词语。比如底表中有“厘米”“毫米”,没有“分米”,就需要将“分米”补充进来。再如有“阳性”,补充“阴性”;有“船长”,补充“机长”。
2.2.3修改
修改操作主要集中在如下情况:
(1)只出现在更大环境的词语。比如“昙花”几乎只出现在“昙花一现”中,将“昙花”改为“昙花一现”。再如“系铃人”改为“解铃还须系铃人”,“作痛”改为“隐隐作痛”。
(2)有固定唯一搭配的词语。比如“远门”只和动词“出”搭配,尽管“出远门”中间可以插入其他成分(“出了一趟远门”),但搭配很固定,将“远门”改为“出远门”,再如“懒觉”改为“睡懒觉”。
(3)简称更常用。比如“高速铁路”改为“高铁”。
2.2.4 合并
同义且难度无差别的词语进行合并。如“鞋子”和“鞋”合并为一个条目“鞋子|鞋”,再如“芭蕾舞|芭蕾”“冰淇淋|冰激凌”“电扇|电风扇|风扇”“调换|掉换”“天长地久|地久天长”“百折不挠|百折不回”“妈妈|妈”。同义但难度有差别的词语不合并,如“狗”和“犬”不合并。
2.2.5 拆分
一些同形词、多义词的意义(义项)之间差别较大,不拆分无法分别定级,需要进行拆分。举例见表2。
表2:拆分后条目举例
2.3 汉语“词”的界限问题及大纲收条
词汇大纲收录的对象理应是“词”,但汉语存在“词”的划界难题:“词”和“语素”的界限问题;“词”和“词组”的界限问题。
2.3.1 单字语素的去留
语素和词的界限问题其实是单字语素是否成词的问题。大纲既收单字词,也收一些组合能力较强的不够独立的单字语素。原因是后者如果不收,会导致伪超纲问题。
理论上,不够独立的单字语素不该收入词汇大纲,但是对于其中那些组合能力较强的,如果大纲不收,实践中会导致很多包含该类单字的组合超纲,这些字组被大纲拒之门外,既非难度超纲,亦非本身非“词”(理论上包含不成词语素的语言片段一定是词,不可能是词组)。比如,大纲收了“学校”,又收了包含“校”的一些组合“校长”“校园”“校车”“军校”“母校”“华校”等,却没收“校”及包含“校”的另外一些组合“校门”“校歌”“艺校”等,如此,当试题语料中出现大纲中未收的组合时,如“校门”,无论将其当作一个词还是两个词,都会超纲。解决方法就是将组合能力较强的不够独立的语素也收入大纲,如此虽不能彻底解决问题(组合能力弱的语素,其构成的组合往往也不能绝对穷尽,比如“厕”,常见的组合就有“厕所”“公厕”“男厕”“女厕”“厕纸”“洁厕”等),但可以在很大比例上解决问题。
具体做法如下:首先,已收单字条目的用字整理。已拆分的单字条目还原其用字,如“米1”“米2”还原为“米”,已合并的条目中包含单字条目的提取出单字,如“鞋子|鞋”,提取出“鞋”。整理后,已收单字条目的用字为2317个。其次,单字组合能力的统计。以《通用规范汉字表》中的一级3500字为观察范围,统计该3500字在《常用词表》中构二字词语的数量,作为单字组合能力的指标。再次,将2317字与3500字作比对。3500字中构二字词数量大于等于30且未在2317字中的,补充进大纲。这样,又补充了“目”“务”“农”“联”“程”等25个单字条目。
需要说明两点:(1)补充数量不多。汉语中有大量不够独立但在分词语料中常常落单的语素,这类语素在词频统计结果中作为单字“词”的频率不低,已经存在于2.1的底表中了,在2.2.1的删除操作时,由于语素收录的理念,对其选择了保留。(2)语素的组合能力通过汉字来统计还很粗疏,原因是存在一字多义(包括同形和多义)。一字多义的存在,使得很多时候某一汉字的组合能力并不能准确反映某一语素的组合能力。
2.3.2 透明组合的取舍
汉语“词”和“词组”的界限问题集中在透明组合上。
关于透明组合,组合成分中至少有一方不独立的情况,在理论上一定是词,只是实践中无法尽收;组合成分皆独立的情况在理论上有双重身分(比如把“晴”看成自由语素,“天”看成自由语素,“晴天”在理论上就可以算作词,而把“晴”看成单纯词,“天”看成单纯词,“晴天”在理论上就可以看作词组),实践中同样无法尽收。为此,我们从“同聚类字组”的多寡来考虑问题。透明组合分三种情况,见表3。这里说的“同聚类字组”是指一方组合成分相同(同用字、同意义、同位置),且组合关系相同。
表3:透明组合情况举例
各种情况的处理如下:情况a,直接参照《现汉7》的取舍标准;情况b,每个聚类因成员有限而相对封闭,可以做到收录的系统性,同一聚类的组合收则皆收,弃则皆弃;情况c,每个聚类都是开放集合,意味着不可能做到收录的系统性,目前的做法是参照频率信息收录部分组合。
2.4 进一步补充
2.4.1 相关大纲词表
条目基本确定后,与相关大纲、词表进行比较,以进一步补充完善。
相关大纲或词表有:1992年的《汉语水平词汇与汉字等级大纲》(8822词),2010年的《汉语国际教育用音节汉字词汇等级划分》(11092词),2010年的《新汉语水平考试大纲(词汇)》(5000词),2015年的《HSK考试大纲(词汇大纲)》(5000词),《义务教育常用词表(草案)》(14323词)。
初步筛选:《汉语水平词汇与汉字等级大纲》比较早,且《汉语国际教育用音节汉字词汇等级划分》可算是《汉语水平词汇与汉字等级大纲》的修订①刘英琳、马箭飞(2010)指出:研制《汉语国际教育用音节和汉字词汇等级划分》不是对1992年《汉语水平词汇与汉字等级大纲》所作的简单的、一般性的修订。,因此直接考虑《汉语国际教育用音节汉字词汇等级划分》。《HSK考试大纲(词汇大纲)》是对《新汉语水平考试大纲(词汇)》的修订,直接考虑《HSK考试大纲(词汇大纲)》。《义务教育常用词表(草案)》的具体条目未见公布,无法比较,暂不考虑。进一步筛选:《HSK考试大纲(词汇大纲)》的总词汇量是“5000及以上”,实际列出的条目是5000,规模太小,也不考虑。因此,只与《汉语国际教育用音节汉字词汇等级划分》做比较。
为表述方便,华测的词汇大纲称为《华测词纲》,《汉语国际教育用音节汉字词汇等级划分》称为《等级划分》。
2.4.2 参照《等级划分》进一步补充
将《华测词纲》中的条目(已拆分、合并的条目还原为未拆分、未合并的条目)与《等级划分》中的条目(也存在一些拆分、合并的条目,前者如“对”有两个条目,后者如“爸爸|爸”“混浊(浑浊)”等,做类似还原处理)进行比较。《等级划分》中有而《华测词纲》里没有的条目共1539个,从中补充了368个。未补充进《华测词纲》的词语主要有以下类型:(1)偏难的词语。华测的最高级别是高中毕业群体,虽然已接轨成人,但有些词语离该群体的日常生活还是较远,如“兜售”“拜会”“隐情”等。(2)比较松散的结构。刘英琳、马箭飞(2010)指出《等级划分》中会收一些常见、常用结构,如“打电话、看病”“比如说、是不是”“请问、家里”等。这与《华测词纲》的收词理念不一样。(3)《华测词纲》“附录词语”收录的词语。《华测词纲》分基本词语和附录词语,后者收录一些特殊类别的词语,如地名、朝代名、节日等,见下文5。1539个词语中已出现在《华测词纲》附录中的词语,也不再作为基本词语补充。比如“中秋节”在《等级划分》中,不在《华测词纲》的基本词语里,但在《华测词纲》的附录词语里,无需补充。
3.条目定级
根据华测的总体设计,共有5个级别:一级(小学二年级)、二级(小学四年级)、三级(小学毕业)、四级(初中毕业)、五级(高中毕业)。
基于作文语料库(语言输出性质)、教材语料库(语言输入性质),算法加人工干预,经过3次定级完成整个定级工作。
3.1 初次定级
基于作文语料库(2.1中的小学库、初中库、高中库)的分布信息,进行自动定级。
小学库中的词语根据年级分布信息设定算法自动定为一级、二级、三级。初中库中的词语初次定为四级,高中库中的词语初次定为五级。
小学库的相关统计数据见表4。除了每个条目在小学库中的总次数,还按年级(一二年级、三四年级、五六年级)分别统计次数,由于各年级段的语料规模不一致,进而计算频率(技术上换算为百万词频,即实际频率统一乘100万,含义为每100万词的语料中会出现多少次),然后根据频率计算每个条目在各年级段的分布比例,最后按照统一的算法进行定级。具体的算法是:如果“一二年级比例”大于等于30%,级别为“一”;否则如果“一二年级比例”+“三四年级比例”之和大于等于60%,级别为“二”;否则级别为“三”。
表4:初次定级统计数据及条目举例
3.2 二次定级
人工干预进行二次定级。
首先,对不适合自动定级的词语,通过人工干预定级。三库中低频回收入底表的条目以及补充、修改、拆分、合并的条目,人工干预定级。
其次,对自动定级结果明显不合理的条目进行人工干预,重新定级。如“娶”的自动定级结果为“一”,人工干预后定级为“三”。
再次,语料分词错误会导致统计偏差,进而影响自动定级结果,也需人工干预来发现并调整级别。如“学会”一条,语料库中出现了大量的“学会”,其实是“学会做什么”的“学会”,并不是《现汉7》中作为词的“学会”(【学会】xuéhuì名由研究某一学科的人组成的学术团体,如物理学会、生物学会等。)经过人工干预,保留了“学会”,但将其级别由“一”调整为“五”。
3.3 三次定级
基于教材语料库,对各条目的级别做进一步调整。
所利用的国内语文教材和国外华文教材及对应级别见表5。有的教材无法收集到从小学一年级一直到高中毕业全套,有的教材本身就不覆盖全部学段,此外,由于国外的学制与国内学制并不完全一样,所以国外教材的级别只是做了大致对应。
表5:教材语料库
底表中各条目在教材库中的分布信息(在几套教材中出现),见表6举例。参照该信息,人工干预进行三次定级。比如“必然”二次定级为“四”,参照教材分布信息,三次定级仍为“四”;“习性”二次定级为“三”,三次定级调整为“四”;“袖子”二次定级为“一”,参照教材分布信息,似乎调整为“三”更合适,但教材的语料规模毕竟有限,仅供参考而已,考虑到“袖子”一词认知年龄很低且没有习得难度,仍保留为“一”。
3.4 等级分布
基本词语等级分布见表7。
表6:教材库条目分布信息举例
表7:基本词语条目等级分布
4.条目标注
大纲中每个条目的标注信息,除了“等级”外,还有“拼音”“词类”“示例”。
首先,拼音。《现汉7》的拼音标注非常细致,会对轻读重读、多字条目中间是否可插入其他成分、多字条目是连写还是分写等进行区分,详见其“凡例3注音”。对词汇大纲来说,语文词典式的拼音标注过于繁琐,因此大纲采用最基本的音节加声调标注。
其次,词类。基本采用《现汉7》的标注,详见其“凡例5词类标注”。有几点说明:(1)参照《现汉7》,大纲在词类标注上也对词与非词进行区分,非词的包括:不够独立的单字语素条目给出的标记是“语素”;极少数二字条目(如“但愿”“极了”“没错”等10个左右)、一部分三字条目、绝大多数三字以上条目不做标注。(2)《现汉7》的词类标注是具体到义项的,所以不存在兼类,大纲收录的多义条目,如果义项间差别不大且不同义项没有难度差别,就不会拆分为不同条目,因此会有兼类情况。比如“陈设”标注为“动、名”,“韵”标注为“名、语素”。(3)基本参照《现汉7》而没有完全严格按照其标注结果,原因是汉语“词”的类别问题和“词”的界限问题一样存在很多争议,比如《现汉7》对“海啸”标注的是名词,而对“地震”标注的是动词,我们认为二者从内部结构看,构词成分同类、组合关系一致,从整体语义看属于同语义场,因此我们都标注为“名”。
再次,示例。拆分产生的条目,为了区别,会给出“示例”信息,如上文表2所示。其他条目不给出“示例”。
5.附录词语
将收录的条目分为基本词语和附录词语。上文表7的统计数据是基本词语部分。附录词语不分等级。
附录词语类别包括:大写数字、天干、地支、笔画、朝代、货币、节日、民族、行星、星座、姓氏、地名-洲、地名-洲区划、地名-国家、地名-省中国、地名-城市中国、地名-城市世界、地名-洋、地名-山河江海、化学元素、节气、标点、字体、军衔、中国军队编制单位。
这些类别有的是封闭集合,有的是半封闭集合,有的是开放集合。每个类别在罗列所包含的词语时,有的穷举,有的枚举,规律性强的给出规律提示。见表8举例。
6.结语
本文首先明确了华测汉字大纲与词汇大纲的分工,然后介绍了词汇大纲条目收录、定级、标注的具体工作。
表8:附录词语类别举例
大纲收录的都是现代汉语普通话词汇,没有涉及海外华语特色词,是基于以下两点考虑:(1)华测是面向海外华裔群体的通用考试,并非针对某个国家地区开发,而华语特色词具有地域专用性,因此不适合作为通用条目收入大纲。(2)大纲主要服务于输入性考试(听力、阅读)的语料难度控制及考点词汇选择,当考生在输出性考试(口语、写作)中使用了华语特色词时,华测采用接受的评判标准。