APP下载

汉字应用水平测试信度和效度研究
——以上海市2012和2015年测试为例

2022-11-04王淑华

关键词:信度效度大纲

王淑华

(上海大学 文学院,上海 200444)

为提高国民语言文字素质,推进中华文化传承,教育部、国家语委组织语言学、教育测量学等不同领域的专家,在充分调查和取样的基础上,研制了《汉字应用水平测试等级及测试大纲》(2006年8月28日发布),并于2007年正式推出汉字应用水平测试。目前已在北京、天津、河北、辽宁、黑龙江、上海、江苏、江西、山东、河南、湖南、云南、甘肃、宁夏等14个省(自治区、直辖市)组织开展,已有20万以上人次获得成绩认证。

汉字应用水平测试属于国家级语言类标准化测试,用来检测中等以上受教育程度人群的汉字应用水平,可作为部分与汉字关系密切的职业或行业录用人才的参考。

信度和效度是评价测试质量的两个重要指标。汉字应用水平测试作为一项国家级语言类标准化水平测试,理应具备较为理想的信度和效度。

一、研究目标和方法

汉字应用水平测试从首测到现在已经超过10年,其间测试范围、题型、等级划分、入级标准、受测对象测试成绩和入级结构等均发生了一定程度的变化。[1]比较明显的分界线是在2014年。在此之前实行的是2006年发布的大纲,在此之后开始使用的是新大纲(2014年试行,2016年发布)。

通过对新大纲实施前后汉字应用水平测试的信度和效度进行分析,探究十多年来汉字应用水平测试的稳定性、可靠性和有效性。我们分别以上海市2012和2015年的测试成绩作为新大纲实施前后测试成绩的代表。考虑上海市参测人数较多 ,故从2012年和2015年的受测者中随机抽取400位左右作为样本,最终抽取结果是2012年407位,2015年413位。样本成绩概况如下:

表1 汉字应用水平测试样本成绩表

下面我们将运用教育测量学的方法,使用Spss20.0对新大纲实施前后汉字应用水平测试的信度和效度进行研究。

二、研究结果

1.汉字应用水平测试信度分析

(1)信度和汉字应用水平测试。信度是指测验结果的一致性、稳定性及可靠性。信度系数越高即表示该测验的结果越一致、稳定与可靠。常见的信度有再测信度、复本信度、内部一致性信度和评分者信度。[2]117

就汉字应用水平测试而言,上文提到的4种信度,再测信度不具备现实性,因为测试目前并未大面积开展,所以很难找到适合规模的受测者在适当的时间内参加两次汉字应用水平测试。复本信度也较难操作,2007年和2008年测试曾有多种卷面,但2009年以后仅有一种。汉字应用水平测试试题的主观性试题较少,仅占整个卷面的25%左右,故也不宜仅考察评分者信度。因此,本文采用的是较为常用而且相对方便的内部一致性信度。

内部一致性信度有两个重要指标,一个是分半信度,一个是克隆巴赫α系数。分半系数是按不同的方法(如前后分半、奇偶分半、随机分半、人工分半等)将卷面试题分成两个组成部分,计算这两部分得分的相关系数。目前,国际上对信度的分析,通常采用α系数进行衡量,它提供的信度可以视为所有分半信度的平均值,α系数越高时,信度就越高。一般认为,对于总量表来说, 0.65~0.69为最小可接受值,0.70~0.79为比较可靠,0.80~0.90为相当可靠;0.9以上为非常可靠;对分量表来说,系数最好在0.70以上,0.60~0.69也可以接受。

(2)2012和2015年汉字应用水平测试信度分析。我们计算了2012和2015年测试试卷整体信度和每个部分的信度,具体如下:

表2 汉字应用水平测试试卷信度系数表

从表2可以看出,2012和2015年度汉字应用水平测试试卷的α系数非常接近,整卷信度都超过了0.9,说明这两份测试试卷的可靠性非常好,有很高的使用价值。曹昭计算了河北省2007年四个批次汉字应用水平测试信度,结果分别为0.934、0.964、0.975、0.973。[3]对比这6份测试试卷的信度可知,汉字应用水平测试试卷命题过程经过了精心的组织与安排,质量相当稳定,具有较高的可靠性。继续观察2012和2015年度每个部分的信度系数,可以发现它们都较为接近,4个部分的差值依次为0.032、-0.028、0.022、0.003。2012年第一、三、四部分的系数略高于2015年的对应部分,但2015年的整卷系数和第二部分的系数高于2012年。可见,虽然2012和2015年度的试卷题型发生了较大的变化 ,但整卷和各组成部分的α系数并未发生明显变化。

就测试试卷4个具体的组成部分而言,汉字书写部分的信度系数在两个年度中均是最高值,字音认读和字形辨误居中,汉字选用部分在两个年度均是最低值,不过也居于0.6~0.7之间,属于可以接受的范围。我们进一步计算了测试试卷4个组成部分试题的平均难度和区分度 ,发现其呈现出的趋势也与信度系数基本相同,具体如下:

表3 汉字应用水平测试试卷组成部分的难度和区分度

从表3可以看出,2012年的字音认读部分难度和区分度均处于合理区间,但2015年略低于理想水平;字形辨误部分,两年的难度和区分度均略低于理想水平; 汉字选用部分,两年的难度和区分度也均低于理想水平,尤其是区分度,不仅是两个年度最低水平,而且距理想值相差较大;汉字书写部分表现最佳,两年的难度和区分度均处于合理的区间。结合表2和表3,可以发现,相较于其他部分的试题,汉字选用部分应该给予更多关注,以提高其难度和区分度,进而提高整个组成部分的信度。

2.汉字应用水平测试效度分析

(1)效度和汉字应用水平测试。效度是测量的有效性,即测量工具的准确性、有用性,能测出其所要测量特质的程度。效度是科学的测量工具所必须具备的最重要的条件。正常情况下,测量不会“完全有效”或“完全无效”,所以,效度只有程度上的差异。

美国心理学会编制的《教育与心理测验标准》第3、4版将效度分为3种类型:内容效度、效标关联效度和构想效度。[2]122这种分类是业界最常采用的效度分类方法。

汉字应用水平测试尚处于试点阶段,受测群体主要是学生和教师,还有部分是编辑、公务员、广告从业人员等。由于目前没有类似的可以与该测试进行比较或关联的其他指标、测试或变量作为效标,因此,不适合采用效标关联效度,故下文对汉字应用水平测试效度的验证,采用内容效度和构想效度相结合的方法。

(2)2012和2015年汉字应用水平测试效度分析:①内容效度。内容效度又称逻辑效度,指测验项目对应测内容或行为领域取样的适当程度,即测量内容的适当性和相符性。其分析常采用逻辑方法,依靠专家对测验题目与应测内容范围的吻合程度做出判断。常用方法是把所有题目按考试内容分布和考察目标分布进行双向分类,形成一份“题目双向分类表”。以这个表为基础,对测试内容效度的满意程度做出判断或描述。对汉字应用水平测试内容效度的分析可以从试题卷对测试字表和测试点的覆盖程度等两个角度来进行。

试题卷对测试字表的覆盖程度。《汉字应用水平等级及测试大纲》明确规定,汉字应用水平测试的范围是《通用规范汉字表》中的一级字和部分二级字,测试内容是“汉字应用水平测试字表”(简称为“字表”)中全部汉字的字形、字音、字义及用法。字表总字量为5 500字,分甲、乙、丙三个子表,其中甲表4 000字,乙表500字,丙表1 000字。试题卷由四个部分共120道试题构成,四个部分的内容均按7∶2∶1的比例从甲、乙、丙三表中选取。

我们统计了2012和2015年各部分总体用字和直接测试字的字表属性,具体如下:

表4 2012年汉字应用水平测试组成部分字种和测试字字表属性n(%)

表5 2015年汉字应用水平测试组成部分字种和测试字字表属性n(%)

从表4和表5可以看出;

第一,两个年度各部分的总字种和测试字在满足大纲比例要求方面均有所欠缺。总的倾向是甲表字使用较多,乙表字、丙表字较少;

第二,两个年度所用总字种的字表比例较为接近,测试字的比例较总字种更接近大纲的要求。2015年度各部分测试字的字表比例优于2012年的对应部分,尤其是2015年的第四部分汉字书写,跟大纲要求完全一致。

第三,2012年度卷面中出现了4个表外字,其中1个为测试字。考虑到在汉字实际应用的阅读和书写实践中,会经常遇到表外字,因此,在试卷中出现适当比例的表外字是较为合理的,尤其是不以直接测试字的形式出现时,能更准确地衡量受测者的汉字能力。

总的来说,测试研制部门应采取相关措施,以保证试题测试内容尤其是测试字的字表比例满足大纲要求,这是测试内容效度的一个重要方面。

试题卷对大纲测试点的覆盖程度。大纲要求的具体测试点主要包括如下内容:能否准确识别和使用字表中汉字的规范字形,能否辨析并纠正书写和使用中的各类错误;能否准确判断和使用这些汉字的普通话读音,在使用环境中,能否识别和使用其中多音字的恰当读音;在使用环境中,能否掌握和使用这些汉字的常用意义、基本用法和一些特殊用法;是否具备了顺畅地阅读以规范汉字为媒介的现代文献资料的汉字基础,能否在广泛领域或一般领域用汉字进行书面表达。[4]2-3

两个年度测试试卷均分为4个组成部分,每部分30题。下面我们对照大纲的表述,依次来分析2012和2015年测试试卷每个组成部分的内容效度。

表6 汉字应用水平测试试卷各组成部分内容效度分析 HJ*3

从表6可以看出,大纲的测试点中,除了“能否在广泛领域或一般领域用汉字进行书面表达”一点在测试试卷中未有涉及,汉字的普通话读音、规范字形和常用意义等均在多处进行了考查。其中,辨别形声字、同音字、形近字和音近字,并在词语或更大语境中准确使用这些汉字的能力,规范书写汉字字形,是汉字应用水平测试的重要测试点。因此,可以认为汉字应用水平测试在覆盖大纲测试点方面,表现良好。

2015年的试题有较强的“去语境化”的趋势:字音认读部分的题干调整为汉字;字形辨误部分的题干调整为词语,不再出现以句子为题干的试题;汉字书写部分的题干调整为词语和句子,不再出现以语段为题干的试题。因此,2015年试卷,对多音字的读音、具备顺畅地阅读以规范汉字为媒介的现代文献资料的汉字基础这两点的考查,均弱于2012年。

②构想效度。构想效度又称结构效度。一般认为,所谓结构,是“心理学或社会学上的一种理论构想或特质。它本身观察不到,并且也无法直接测量到,但学术理论假设它是存在的,以便能够来解释或预测个人或团体的行为表现。”[5]60-61结构效度就是指一个测验实际测到所要测量的理论结构或特质的程度,或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。一般是先采用因子分析的方法进行公因子的提取,然后通过累计解释的方差百分比来比较效度高低。

首先,我们要对有效样本数据进行KMO抽样适当性检验和Bartlett球形检验,然后观察检验结果。KMO值在0和1之间,越接近于1,说明变量间的相关性越强,原有变量越适合作因子分析;KMO值越接近于0,说明变量间的相关性越弱,原有变量越不适合做因子分析。常用的KMO度量标准如下:0.9以上表示非常适合;0.8~0.9表示很适合;0.7~0.8以上表示适合;0.6~0.7表示勉强适合;0.5~0.6表示不太适合,0.5以下表示不适合。Bartlett球形检验的p值小于或等于0.01,表示非常适合。

接下来我们采用主成分分析法,进行最大方差法的正交旋转,最终提取特征值大于1的因子若干个,假如这些共同因子累计解释的变异量为大于60%的话 ,说明该部分内容的结构效度较好。2012年和2015年汉字应用水平测试试卷结构效度如下:

表7 2012和2015年汉字应用水平测试试卷结构效度

从上表可以看出,就KMO值而言,2012年和2015年除第三部分,整体和另三个部分的值均在0.7以上,第四部分还超过了0.8;Bartlett球形检验p值均小于0.01。就整卷而言,共同因子的解释变量均达到65%以上,说明2012年和2015年汉字应用水平测试试卷的效度都在可以接受的范围,但也存在继续改进的空间。

三、讨论:提高汉字应用水平测试信度和效度的措施

影响测试信度的主要因素是受测者、施测者、施测情境、测量工具、两次施测时间间隔等;影响测试效度的主要因素是测量工具、测试实施过程等,其中测量工具是主要因素。

就汉字应用水平测试本身来说,测试要求在80分钟内完成120个得分点,时间合适,题量充足;就具体施测过程来说,测试通常在每年11月中旬的非工作日举行,因未涉听力与口语,对测试环境要求不高,各地语委在测前均会组织监考人员参加培训,并按时巡查,以应对意外情况的发生,管理组织工作到位;因此,提高汉字应用水平测试的信度和效度主要可以从受测者、施测者、测试工具等方面入手。

(1)扩大受测范围,增强受测者之间的异质性。受测者就个人而言,其测试成绩常受个体身心状况、注意力集中程度等因素的影响。不过,这些因素较难控制,我们暂不讨论。而就受测群体而言,目前汉字应用水平测试的受测对象主要集中在学生与教师两大群体中,考虑到汉字应用能力应该是每一个汉语母语者应具备的基本能力,未来测试应逐渐扩展至其他人群。受测者之间的异质程度越高,信度就越高。

(2)提高评分者信度,降低测试人工阅卷部分的主观性。汉字应用水平测试第四部分“汉字书写”(共30道题)为主观性试题,由阅卷老师进行评阅。阅卷时,不同评阅教师、同一教师在不同时间对连笔、形近笔画之间的替代、部分笔画居于“米”字格外等问题的容忍程度可能有别,对位于不同位置的笔画变形、笔画形状和笔画之间关系的准确程度要求不一,这些都会导致评分者误差的产生。

国家语委可以组织各地语委同时进行预阅卷工作 ,扩大预阅卷的数量和范围,了解本次测试所涉汉字评分标准可能存在差异的各种表现,制定出相应的评分标准,再加强对阅卷员的培训工作,可以最大限度地保证评分标准解释的确定性,减少评分员主观判断的成分,以此提高评分者信度。

(3)丰富测试题型,全面覆盖汉字应用水平测试大纲中的测试点。上文已指出,2012和2015年试卷各组成部分的用字情况在满足大纲要求(甲、乙、丙3表比例为7:2:1)方面均有所欠缺,未考查到受测者“用书面汉字进行表达”的能力,且对汉字字义的考查不够明确。2015年测试试卷对多音字的考查较少,对现代文献阅读能力的考查较少,这些都是可以改进的地方。测试研发者应尽量开发更多试题类型,以适应大纲对汉字能力不同侧面的考核要求。

(4)加强题库建设,提高试题对大纲不同字表的准确覆盖程度。题库是按照一定的教育测量理论在计算机系统中实现的大量试题的集合。对于任何一项测试来说,题库都是非常重要的资源。以汉字应用水平测试字表中的汉字为核心,建立汉字应用水平测试题库,标注题库中所有汉字的字表属性,利用计算机程序完成初步的组卷工作,再进行人工干预,可以有效提高试题覆盖甲、乙、丙三个字表的准确程度。

(5)对测试结果进行定量分析,加强对试题难度与区分度的把握。对测试试卷的分析表明,各组成部分尤其是汉字选用部分,有一些试题总体难度和区分度均未达到理想区间,不符合要求。因此,如何保证汉字应用水平测试各组成部分试题的难度和区分度处于理想区间,是测试开发者需要重视的一个问题。对历年试卷的用字用词情况和测试结果等进行定量分析,逐步丰富题库中的试题属性,可促进汉字应用水平测试命题工作朝更规范、科学的方向发展。

猜你喜欢

信度效度大纲
农业农村部公布31项新制定修订农机推广鉴定大纲
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
大学生积极自我量表初步编制
论高职英语多元化综合评价模式的效度与信度
应试良方
计算机辅助英语测试研究
显示或隐藏“大纲”或“幻灯片”选项卡
墨子论度