基于SPSS的《汉语课堂教学设计》期末成绩分析与解释
2021-12-07尉亮
尉 亮
(新疆大学国际文化交流学院,新疆 乌鲁木齐 830046)
1、引言
考试成绩是评价学生学业水平和教师教学效果的重要指标之一,目前汉语国际教育专业相关的成绩分析主要集中于对留学生HSK成绩的分析,[1]或者是对《国际汉语教师证书》考试成绩分析,[2]还鲜有对汉语国际教育本科专业相关课程的成绩进行分析的研究。因此本文基于教育测量学、教育统计学的相关理论,利用SPSS20.0软件对汉语国际教育专业的《汉语课堂教学设计》这门课程的期末考试成绩进行分析与解释,以期检测教学成效,提升教学质量,为本专业其他课程成绩的分析提供借鉴和参考。
《汉语课堂教学设计》是汉语国际教育本科专业开设的一门专业核心课。课程结合对外汉语课堂教学的实例,系统讲授了教学设计的相关理论、基本概念,并阐明了对外汉语课堂教学设计所要遵循的流程和方法。在传统教学模式下教学过程存在教学方法单一,学生参与度不高等问题。为了改善这一状况,课程于2020年9月采用“BOPPPS+SPOC”混合式教学模式进行教学改革,旨在完成“知识传授”、“能力培养”、“价值塑造”的教学总体目标。课程期末考试成绩便是评价教学目标是否达成的重要指标之一,而且基于各种测验结果所进行的分析,能够让教师进一步诊断学生在认识结构上的缺陷,从而为实施补救教学提供依据,确保教学目标的落实。[3]因此,对本课程的成绩分析实属当务之急。
本研究拟解决两个主要问题:(1)《汉语课堂教师设计》课程期末考试成绩是否属于正态分布?(2)《汉语课堂教师设计》课程期末考试试题质量如何?
2、研究设计
2.1 研究对象
本文研究对象为汉国教17-1班35名学生的期末考试成绩。因为疫情原因课程采取在爱课程的SPOC平台进行线上考试。试卷共六道大题,27道小题,分别为单选题(10道)、多选题(10道)、分析题(3道)、案例题(2道)、论述题(1道)、教案设计题(1道)。
2.2 研究方法
本文通过SPSS20.0中文版对收集的数据进程定量统计分析。具体研究过程是先将35名学生进行编号,然后依次在Excel表格中录入每一道小题的得分,核算大题和总分成绩,接着录入每个编号对应学生的平时成绩,最后依据研究的问题通过SPSS软件进行统计。
3、研究结果分析与讨论
《汉语课堂教学设计》期末考试成绩分析主要分两个方面,一是通过统计学生分数的分布情况、最高分、最低分、平均分、标准差等指标来分析成绩本身;二是通过分析试题的信度、效度、难度、区分度来衡量试卷质量的优劣。一份设计良好的试卷需要具有很好的信度、效度、区分度,难度适中。[4]
3.1 测试成绩分析
3.1.1 分数的分布
为了分析整个考试的情况,首先检验考试的分数是否呈正态分布,即得低分或高分的人数较少,大部分学生的成绩介于两者之间,整个考试分数形成中间高、两边低的钟形。将数据输入SPSS,绘制成绩直方图,如图1所示:
图1 学生成绩直方图
从图1可得,多数考生的分数较高,成绩分布出现负偏态。为了进一步进行描述,通过公式算出偏态值g1=-0.204;峰值g2=-0.443,两者都小于0。虽然从理论上而言,最理想的偏态值和峰值都应该为0。但一般来讲,一个考试的偏态值和峰值如果能控制在±1之内,其分数分布可认为基本符合正态分布。[5]由此可见,本次考试成绩分布基本正常。
3.1.2 成绩的集中量数与离散量数分析
成绩统计分析的基本描述性指标主要有学生总数、最高分、最低分、平均分等,相应的描述性统计量主要包括最大值、最小值、均值、全距、标准差等。其中,均值是用来表示数据集中趋势的统计量,标准差是描述数据变异性特征最常用的统计指标。用SPSS统计各类量数,具体结果见表1:
表1 期末成绩基本描述性统计
由表1可知,此次期末考试最高分是88分,最低分是60分。平均分为75.51,说明成绩的典型水平是76分左右。标准差是7.031,“标准差是表示一组数据离散程度的最好指标,其值越大,说明次数分布的离散程度越大;其值越小,说明次数分布的数据比较集中,离散程度越小”。[6]为了较为直观地阐明此次成绩的分布情况,笔者将与与传统教学模式下汉国教15-1班学生的成绩(平均值为75,标准差为8.14)进行比较发现,二者的平均分基本相同,但本次期末考试的标准差却更低,说明学生成绩之间的差异更小,成绩较为集中,也侧面印证了混合式教学改革小有成效。
3.2 试卷质量分析与讨论
3.2.1 信度分析
信度指的是测量结果的稳定性或可靠的程度,亦即测量的结果是否真实、客观地反映了考生的实际水平。[7]衡量信度的重要指标主要有重测信度、复本信度。一般来说,克隆巴赫阿尔法系数(Cronbach,Alpha)是检验工具信度最重要的指标。[8]运用spss软件采用克隆巴赫α系数计算得出本次试卷的信度是0.664。测验的信度一般在0和1之间取值,数值越接近1,信度就越高。根据学者王孝玲提供的一般性的参考标准,从测验的性质、内容来说,教师自编学习成绩测验的信度系数应在0.60以上。[9]可见,本次试卷信度较高,测试结果具有一定的可靠性。
3.2.2 效度分析
效度是指测量结果的准确性和有效性的程度,亦即测量是否达到了预期的目的。[10]《教育与心理测验标准》将测验的效度分为效标关联效度、内容效度和结构效度这三类。考虑到内容效度和结构效度具有自身的局限性和一定的适用性,笔者采用效标关联效度来衡量试卷的效度。所谓的效标关联效度,是指测验分数与一个外部效标的一致性程度,效标即效度标准。作为效度验证的参考标准,效标的选择应具有相关性、有效性、可靠性、无污染、客观性、实用性。[11]据此本文采用学生的平时成绩作为效标。混合式教学模式下的平时成绩包括学生在spoc平台观看视频学习,完成单元测验,进行回帖讨论,提交单元作业;同时还包括线上课堂表现(成果汇报、前沿热点讨论、读书报告、文献阅读交流)。这种注重过程性评价的平时成绩效度较高,能较为真实地反映学生的水平,在期末考试成绩公布前教师已进行了评定,从而确保了校标的无污染,而且简单易行,便于操作。
确定效标关联效度方法是直接求测验分数(期末考试成绩)与效标(平时成绩)测量间的相关系数。通过SPSS运用积差相关(Pearson法)求得测验的相关系数r=O.772。对r值进行显著性检验,df=35-2=33,r0.01(33)=0.372,r=O.772>r0.01(33)=0.372,由此可知在0.01显著性水平下平时成绩和期末成绩的相关程度非常显著,说明本次期末试卷同时效度高,可以用于考查学生对教学设计相关知识的掌握程度。
3.2.3 难度分析
难度是指测验试题或测量项目的难易程度,通常用符号P表示,在能力测验领域被称为项目的难度水平;在非能力测验领域被称为“通俗性”或“流行性”水平。[12]
用通过率法P=R/N(R表示答对题的人数,N表示参加测验的总人数)算客观题的难度,用平均值法P=/ω(表示某测试题的平均得分,ω表示该试题的满分)算主观题的难度。具体统计结果如表2所示:
表2 试卷各题及整体难度P值
P值介于0和1之间,P值越大,则表示测验题越简单;P值越小,则表示测验题越难。P值的恰当与否主要取决于测验的目的和性质。一般而言,选拔性测试多数试题难度系数应分布在0.3~0.7之间,整个试卷的平均难度为0.5左右为宜。期末考试为目标参照性考试,考试目的是衡量考生对特定知识和技能的掌握程度,难度可适当偏高,控制在06-0.9之间。[13]由表2进一步计算得出各题的平均难度分别为:单选题P=0.89,多选题P=0.8,分析题P=0.39,案例题P=0.76,论述题P=0.66,教案设计题P=0.75。由此可见,选择题对学生而言最为容易,特别是Q8、Q12、Q16、Q20难度系数为1,说明所有学生都答对了;Q6、Q7难度系数接近1,说明绝大多数学生都答对了。究其原因,选择题重在考察学生的基础知识,在混合式教学模式下,每个基础知识被录制成十分钟的短视频上传到线上平台,学生可以根据自己的节奏反复观看学习,每节后面配有相应测试题,因此学生掌握的情况较好。案例题和教案设计题对学生较为简单,一方面是因为试题难度中等;另外一方面是在混合式教学模式下学生通过线上spoc平台,对相关的案例进行了讨论回帖,分析能力和批判性思维能力得到了锻炼。平时的教学中学生阅读、讨论、分析了中高级优秀教案集,并撰写了数十篇教案,从而对教案设计也是驾轻就熟。论述题难度适中,分析题最难,按照布卢姆的教学目法分类,该题主要考察学生组织、归纳和综合所学知识解决实际问题的能力和一定的创新能力,对学生的要求比较高,学生作答情况相比前几题较差也实属正常。
试卷的整体难度是0.71,大致属于常模参照性测验所要求的0.3~0.7这个区间,可见难度适中,考生得分基本趋于正态分布。
3.2.4 区分度分析
区分度是指测验项目对不同考生实际学业水平的区分程度或鉴别能力,通常用符号D表示。[14]作为测验是否有效的“指示器”,区分度的取值范围为±1。采用皮尔逊(Pearson)相关分析法计算出本试卷区分度的结果如表3所示:
表3 试卷各题区分度D值
根据学者朱德全的观点,当D值在0.4以上时,说明试题的区分度非常好;当D值为0.30~0.39,说明试题的区分度良好,若修改会更好;当D值为0.20~0.29,说明区分度尚可,通常还需要修改;D值在0.19以下时,说明区分度差,必须淘汰或加以修改。[15]本试卷各题的区分度均≥0.4,证明改卷的区分度非常高,能有效鉴别学生的实际水平。在本次期末考试中知识掌握较好的学生得到了高分,知识基础薄弱的学生得分相对低一些。
4、结语
用SPSS分析《汉语课堂教学设计》期末考试数据发现:就成绩分布而言,此次考试的最高分是88分,最低分是60分,分数极差为28分,平均分为75.51,标准差为7.031,整体成绩基本趋于正态分布。
就试卷质量而言,试题的信度为0.662,虽然作为教师自编测试题达到了0.6的标准,但也只属于美国学者德维利斯(DeVellis)认为的最小可接受值(0.65~0.70),距离相当好的标准(0.70~0.80)还有一些差距,应重新修改不达标的试题;试题的效标关联效度是0.772,可见平时成绩与期末成绩关联系数较高,平时成绩高的学生此次期末考试成绩也高,反之则低,一定程度上说明测验达到了预期的目标;试题的平均难度为0,71,总体难度适中。但选择题中的一些题偏易,对那些0.9≤D≤1题应进行修改或删减,使平均难度系数尽量保持在0.5左右;试卷各题的区分度较高,均在0.4以上,能考察出学生的真实水平。
总体而言,本次期末考试学生成绩分布正常,学生之间差异较小。试题质量较高,题量适中,符合大纲要求,知识覆盖面较广。试题区分度较高,测量出了学生的真实水平。试题整体难度适中,个别偏易试题需要修改删减。试题信度符合标准,效度较高。通过如上的统计分析,将符合信度、效度、难度、区分度各项指标的试题分门别类地归入试题库,确保科学、规范、有效的测试卷形成的同时,也为汉语国际教育专业其他课程成绩的分析、试卷库的建立提供一定的思考和借鉴。