APP下载

基于物理情境的九年级学生科学思维测试工具编制及验证

2024-01-01田雪葳尹子娟刘文科王晶莹

教学研究 2024年4期
关键词:质量分析科学思维

摘要:科学思维是2022版新课程标准中核心素养的重要组成部分。为评估九年级学生的科学思维能力,特设计了一套测评工具,并基于Rasch模型从评分者信度、单维性、试题评分结构、试题拟合度、分离度、误差统计、怀特图等方面评估工具的整体质量。经分析,测评工具整体信效度较高,试题拟合度和分离度符合要求,误差在可接受范围内。怀特图的分析结果显示,学生们的科学思维水平普遍有待提高。总体上看,这套测评工具符合要求,可信度比较强。基于Rasch模型的测试质量分析也为进一步优化测试工具提供了参考。

关键词:科学思维;质量分析;九年级学生;Rasch模型

中图分类号:G62"文献标识码:A"文章编号:1005-4634(2024)04-0010-07

以科学思维为导向的科学教育改革受到了西方国家的高度关注,美国于2013年颁布《新一代科学课程标准》(Next Generation Science Standards,简称NGSS)"[1],明确提出科学思维导向的课程与教学目标,确定了批判性思维、计算思维、比例推理、定性和定量思维等8种思维能力。我国《义务教育物理课程标准(2022年版)》(以下简称22版物理新课标)指向核心素养,其重要组成部分即科学思维,并聚焦于科学高阶思维,涉及科学推理、科学论证、模型建构、质疑创新等能力"[2],强调通过科学观察、实验探究、推理计算等方法,培养学生的物理观念、科学思维以及科学态度与责任等核心素养。其中,科学思维主要涵盖模型建构、科学推理、科学论证、质疑创新等要素,是从物理学视角对客观事物的本质属性、内在规律及相互关系进行认识的方式,是客观事物本质属性的反映,是一种认识世界的方法。22版物理新课标强调运用分析综合、推理论证等科学方法,基于事实证据和科学推理进行论证、批判和反驳,进而提出创造性见解,以提高学生科学创新能力、科学实践能力和培养科学思维习惯"[2]。由此可见,国内外课程标准均强调科学思维培育,在国际测评中,我国中学生虽然屡次在数学和科学方面取得出色的成绩,但是诸如科学推理、协作式问题解决能力等却没有表现出优势,且STEM职业期望不容乐观。事实上,科学思维能力需要从小培养,学龄前儿童就已展现出识别和测试因果关系的基础能力"[3],但这些潜力的充分发挥仍需依靠学校的专门课程和系统化教学"[4]。为了持续并有效地提升学生的科学思维能力,需要通过科学化的测试来定期评估他们的进展,从而及时调整和优化课程结构与教学方式。值得注意的是,科学思维测评在国际上已被视为关键评估领域,但当前我国仍缺乏与新课程标准紧密契合的科学思维测评工具。

2022版物理新课标中的科学思维是指一种高阶能力,不仅包括严密的科学推理过程,还需要科学论证进行推论,从而加工处理以表征建模的能力,需要一套严密的逻辑体系"[2]。正是由于这种能力的复杂性,很难直接去考察和测量,需要通过真实情境下的任务题来考察。低年龄段儿童的阅读理解和写作能力较弱,不宜采用纸笔的书面方式进行,以免影响结果的真实性。国际学生测评项目(Programme for International Student Assessment, 简称PISA)的测试对象是15岁学生,在我国正好对应为九年级,该学段学生的认知能力处于形式运算阶段,思维的可逆性、灵活性和逻辑思维能力均得到快速发展,也是科学思维培养的黄金期。因此,本研究聚焦于科学思维发展的关键阶段——九年级学生,将其作为测评对象。鉴于学科内容导向的科学思维测评工具更符合我国的教学情境和学习文化,本研究开发了基于物理情境的纸笔测试任务题来评估学生的科学思维能力,并对此测评工具进行了Rasch模型的检验,旨在准确测量我国典型地区九年级学生的科学思维水平。最后,对试题的合理性进行了验证,以确保评估的准确性和有效性。

1研究方法

1.1研究工具

本任务题共有3道大题,每道题分别设置2~3个小问",均为简答论述题。第一题的第一小问主要考察了串联电路电流相等,额定电压相同时额定功率大电阻小、实际功率大的相关电学知识,考察学生科学推理能力中提出问题与做出假设、解释数据与生成结论维度,科学论证能力中观点、事实证据与理论基础和推理与反驳维度;第二小问主要考察了并联电路电压相等、并联电路与串联电路的识别与使用的相关电学知识,考察了学生科学推理能力中的设计实验与生成证据维度,科学建模能力中的模型建构与使用、模型比较、修正与检验、建模元认知与元建模维度。第二题的第一小问和第二小问主要考察了电路模型中各个元件的用途、滑动变阻器和定值电阻的作用、串联电路分压原理的相关电学知识,考察学生科学建模能力中的模型建构与使用、模型比较、修正与检验、建模元认知与元建模维度。第三小问主要考察了电路中外接法与内接法误差产生的原因、电流表和电压表的阻值和伏安特性曲线的相关电学知识,考察了学生科学推理能力中提出问题与作出假设、设计实验与生成证据、解释数据与生成结论维度,科学论证能力中观点、事实证据与理论基础和推理与反驳维度。第三题的第一小问主要考察了影响导线电阻大小的因素、电路干路导线粗的原因、并联电路中干路电流是支流电流之和/干路电流大于支路电流、焦耳定律和欧姆定律的相关电学知识,考察学生科学推理能力中提出问题与做出假设、解释数据与生成结论维度,科学论证能力中观点、事实证据与理论基础和推理与反驳维度;第二小问主要考察了构建正确的电路模型、并联电路各支路间电压相等,各支路用电器相互独立/互不影响的相关电学知识,考察了学生科学推理能力中设计实验与生成证据维度,科学建模能力中模型建构与使用、模型比较、修正与检验、建模元认知与元建模维度。计分方式按照回答踩分点将等级划分为水平0、水平1、水平2,共计得分点17个;该测试满分为54分,测试时长为40分钟。总体而言,测试项目的综合能力要求符合科学思维的内容水平。

1.2研究对象

本次测试对象为九年级学生,抽取了北京、上海、浙江和山东主要行政区的中等偏上的学校,并且对各个地区学校的有效男女人数进行了统计,男生人数总计642人,女生为789人。原始测试卷共收集到1 390份,经过人工筛选剔除份无效问卷71份,最终保留1 319份有效数据,有效率达95%。共有4位评分员进行主观评分。首轮根据制定的量规进行100份问卷的评定,计算两两之间的一致性,并且组织讨论不一致的地方,打磨量规再次评分,直至达到80%以上的一致率。第二轮继续抽取100份问卷,同第一轮步骤再次进行评分。第三轮继续抽取100份问卷,持续磨合量规并进行评分,计算评分一致性,并在一次评定达到80%的一致性后进行独立评定。最后进行抽评,抽评的方法也是由两两交叉进行抽评,抽取有效数据的20%,且其一致性均达到0.8以上,并再次进行校对统一得到最终的有效数据。

1.3Rasch模型测量原理

Rasch模型主要分析被试者能力水平与测验项目之间的关系,常将学生能力与项目难度放在同一标尺上比较,对于能力型任务题质量的检测具有广泛的适用性"[5]。其在能力测评工具开发方面具有3个显著优势:第一,该模型可以将非线性数据转化为等距离特征的线性数据,使得数据之间的差异具备客观性与可比性;第二,Rasch模型可以将被试和项目放在同一个标准上进行测量,这时项目难度和学生水平就可以进行比较;第三,Rasch模型测量的被试能力和项目难度水平具有独立性,不受样本和项目变化的影响"[6]。项目反应理论讨论被试的能力水平与测验项目,克服了经典测量理论中的样本依赖问题,能够使测试过程更加稳定和客观"[7]。

2数据分析

2.1描述性统计与分布检验

为明晰科学思维的表现,计算其极大值、极小值、平均值、标准差、方差、偏度和峰度。结果显示,1 319名学生的平均分为16.143 4,最大值为52分,最小值为2分,标准误为0.067,方差为107.423。"由此可见,学生能力差距较大,各地区学生差距也较为明显。合格的测评工具测得的结果应该是呈正态分布的,测试难易合适,即得高分和低分的学生较少,本测试检验结果如图1所示,学生科学思维的成绩整体呈正态分布。其中,得分在7~20分的人数最多;高分数段的人数偏少,低分数段的人数偏多,说明题目对学生而言比较难,学生科学思维能力水平不佳。

为进一步呈现成绩分布特征,做出科学思维累积率(图2)和趋势累积率(图3)示意图,前者的预计累计率用纵坐标表示,后者的实测累计率用横坐标表示,两者相等时测试结果呈正态分布,图像应该是一条直线。另外,在趋势图中,如果数据呈正态分布,那么数据点应该均匀分布在Y=0的直线两侧"[8]。从图2可见,实测累计概率与预计累计概率比较接近,因此可以认为科学思维成绩是正态分布的。这个结果也说明测试项目的区分度较好,结合表1数据,偏态系数为0.625,表明学生成绩呈正偏态,即低分学生比较多,这个结果与图3呈现一致。峰态系数为-0.136,接近0,分布峰的形状较正态分布更平、分布现状相对矮胖,基本呈现正态分布。

2.2测试信效度

本研究运用SPSS26.0分析该数据的信效度水平。通过Kappa系数考查人工评分者的一致性,以确定评分者信度。当Kappa值介于0.75~1时,"较高程度的评分者之间具有一致性"[9]。人工[HJ59x]评分步骤如上文所述,最终达到总体项目的一致性信度为0.921。说明此测评工具的人工评分信度是可靠的,该测试项目信度良好。通过Winsetps 3.81.0导入了1 319个观测值数据,对全部27个评价项目进行估算。并从以下5方面统计整体工具质量,即平均难度估计值(measure)、数据与模型拟合指数(infit与outfit)、误差(error)、信度(reliability)和分离度(seperation),具体结果见表1。学生的measure为-1.26,说明测试项目整体对被试偏难,但测试项目的measure值为0,说明试题难度处于中等水平,评价项目较好地拟合了被试的能力水平,适合该样本的评估。items separation为试卷的分离度,数值为10.10gt;2,说明该试题分离度好,items reliability的值为0.99,说明信度很好。infit与outfit是否拟合主要是看两者之间的值,理想值为1,0.5~1.5之间属于可接受范围"[10]。items infit MNSQ为1.01,items outfit MNSQ为0.99,接近理想值,这说明测试项目整体的拟合度较好。"

项目单维性分析假设每个评价项目都在同一潜在特质上被测量"[11],即被试在项目中的回答仅源自潜在特质或能力,其他因素不起作用"[12]。一般使用主成分分析方法来测查项目单维性,标准残差对比图通常表明项目难度估计值与评价项目载荷系数之间的关系"[7]。评价项目共计27个,分别用图4的大小写字母(A、a)表示,纵坐标是项目载荷系数,横坐标是项目难度,理想区间为-0.4~+0.4,超出该范围的,则认为不满足单维性要求"[13]。图4中所有项目的载荷系数均在-0.4~+0.4之间,因此本研究开发的测评工具单维性较好。

图5展示了试题评分等级结构的分析结果。图中的纵坐标(probaility of response)表示被试者得分为0、1和2的概率,横坐标(person [minus] item measure)表示被试者能力与项目难度值之间的差异。在曲线交叉的地方即阈值(threshold)位置,对应的纵坐标表示被试者获得两种分数的概率相同。试题每个维度的评分等级类别曲线都有明显的峰且平直,并且在横坐标覆盖一定的范围,表现良好。

误差分析与项目拟合上,该模型的标准来自项目难度平均估计值(measure)、标准误(model S.E.)、拟合指数(infit与outfit)和点测量相关(ptmea corr.)。表2中项目序号的估计值排列即为测试项目的拟合数据。Outfit和Infit的取值范围在0~正无穷大,其最为理想值为1。通常认为outfit和infit的值可接受范围在0.5~1.5,说明拟合度较好"[14]。在拟合指数中,前者比后者更为重要,outfit MNSQ的值介于0.69~1.43之间,infit MNSQ的值介于0.76~1.39之间,都在可接受范围内,ZSTD范围在-2~2之间,说明被试样本的实际作答与rasch模型预期结果一致,整体认为测试项目数据与rasch模型拟合度良好。标准误(model S.E.)通常表示测试项目与被试能力之间匹配的稳定性,误差值较小表示稳定性较高"[15]。本研究所有项目的误差估计值非常小均在0.05左右,表明测试项目对学生能力水平的预估比较稳定,即测评工具具有较高信度。

点测量相关(pt-measure corr)通常衡量评价项目得分与总分的相关度,可以反映测试项目与所测目标的一致程度,即测评工具的聚合效度(convergent validity)。相关系数的大小表示测试项目与预设目标的接近程度,值越高表征符合预设目标程度越强"[17]。如表2所示,所有测试项目的相关系数均为正值,说明所有项目所测量的结构指向是一致的,即符合项目特征曲线单调性递增假设"[16]。除了第11道题的相关系数为0.25,略低于可以接受的最低值0.30之外,其余26道项目的相关系数均可以接受,点测量相关较高,表示评价工具的效度良好。怀特图可用于检测测试项目难度与学生能力水平之间的关系分布,图6左侧是学生能力水平分布,左侧M代表学生能力平均水平,相邻两个数字代表之间相差1个logit值,左侧位置越偏上表明学生能力水平越好,反之则较弱,中间一条线是logit标尺,右侧是测试项目的难度分布,右侧的M代表测试项目难度的平均水平,位置越高代表测试项目越难,相反,位置越低测试项目难度越低"[17]。当右边每一道测试项目都有一定数量的学生对应,则说明怀特图较好,左边的每个“#”表示2名学生,每个“.”代表1名学生。从图6可见,第2个维度是难度最大的测试项目,几乎所有测试项目都在平均水平徘徊。部分学生的水平分布在测试项目难度平均线以下,说明某些测试项目对于这部分学生而言偏难,学生能力水平低于平均水平。测试项目难度水平在平均水平以上的区域也有一定数量的学生,其能力水平高于测试项目难度,科学思维能力较强。

3结论与反思

通过Winsteps软件对这套科学思维能力测试题进行Rasch检验,涉及对整体工具质量、项目单维性、试题评分结构、项目难度与学生能力关系(怀特图)、项目拟合与误差分析方面进行项目信效度分析。本测试项目难度略高于学生水平,也说明学生的科学思维能力相对不佳。其中,实验题目难度最大,学生能力水平范围大于试题难度分布,且处于试题难度水平之下的学生较多,学生的科学思维能力较弱。在工具质量上,项目的outfit MNSQ 值和infit MNSQ值都在可接受范围0.5~"1.5之间,表明项目与被试之间都能够很好地拟合,得到有效预估,能够充分预估被试的科学思维水平,项目的信效度较好。从项目的评分等级结构看,评分等级分布比较良好;从项目拟合指数和误差看,该测试工具的拟合度较好,测试项目信度较高。综上所述,本研究开发的科学思维测试任务题整体信效度较高,区分度较好,对于学生而言相对偏难,这也说明九年级学生的科学思维相对较弱,还有待深入培养。样本数据与Rasch预期模型基本符合,能够比较客观地考察出学生的科学思维水平,也揭露了九年级学生的科学思维现状。

综上,本研究基于物理学的电学情境设计任务题,开发出九年级学生科学思维的测评工具,能够较好地评测学生的科学思维水平。本研究进一步调查九年级学生的科学思维现状,以为新课程标准中科学思维教学的落地见效提供有利参考。根据Rasch模型的质量检验,除设计实验与生成证据外,测试任务题各维度的难度与学生能力水平关系均符合标准值,这也说明九年级学生的科学建模能力不佳,在科学模型建构、科学证据提取、批判反驳论证的关键能力方面有待提高。本测评任务题的开发有助于监测九年级学生科学思维的发展水平,循证设计相应的课程和教学模式以有效促进学生的科学思维能力提升。

参考文献

[1] OSBORNE J, ERDURAN S, SIMON S. Enhancing the quality of argumentation in school science[J]. Journal of Research in Science Teaching, 2004,41(10):994-1020.

[2] 中华人民共和国教育部.义务教育物理课程标准(2022年版)[S].北京:北京师范大学出版社,2022.

[3] TOLMIE A K,GHAZALI Z,MORRIS S. Children’s science learning: a core skills approach[J]. British Journal of Educational Psychology, 2016,86(3):481-497.

[4] SANDOVAL W A, SODIAN B, KOERBER S W. Developing children’s early competencies to engage with science[J]. Educational Psychologist, 2014,49(2):139-152.

[5] 朱文琴.Rasch模型在小学科学素养评测质量分析中的应用[J].考试研究,2022,18(1):38-48.

[6] 谢娟.Rasch模型在物理试题质量分析中的应用[D].福州:福建师范大学,2015.

[7] 张迪.Rasch模型在八年级数学学业测试卷质量分析中的应用[J].教育测量与评价,2020(8):34-41.

[8] 田晓华.基于SPSS的一次物理试卷分析[J].中学物理,2018,36(19):41-45.

[9] 王祖浩,杨玉琴.基于Rasch模型的“化学实验认知能力”测验工具编制及测评研究[J].化学教育,2012,33(9):95-102,108.

[10] 赵守盈,何妃霞,陈维,等.Rasch模型在研究生入学考试质量分析中的应用[J].教育研究,2012,33(6):61-65.

[11] 罗照盛.项目反应理论基础[M].北京:北京师范大学出版社,2012:1-3.

[12] GUSTAFSSON J E.Testing and obtaining fit of data to the Rasch model[J].British Journal of Mathematical and Statistical Psychology,1980,33(2):205-233.

[13] 宋歌. 科学教育中的跨学科素养测评框架建构及应用研究[D].上海:华东师范大学,2019.

[14] 谢云芝,李远蓉.基于Rasch模型的高中化学学科核心素养测评研究——以“变化观念与平衡思想”为例[J].化学教育(中英文),2020,41(21):7-15.

[15] 高靖寒,柏毅.基于Rasch模型的小学四年级科学素养评价研究[J].东南大学学报(哲学社会科学版),2021,23(增刊1):135-138.

[16] 徐佳敏,沈甸.基于Rasch模型的上海市某区化学高考一模试题分析[J].化学教育(中英文),2021,42(11):10-17.

[17] 罗德红,龚婧.Rasch模型在试卷质量分析中的应用——基于五六年级学生阅读素养前测试卷的质量分析[J].教育测量与评价(理论版),2015(1):18-22.

Development and validation of a scientificthinking testing tool for ninth grade students basedon physical contexts

TIAN Xue-wei"1,YIN Zi-juan"1,LIU Wen-ke"1 WANG Jing-ying"2

(1.Normal College,Qingdao University,Qingdao,Shandong266017,China;

2.Faculty of Education,Beijing Normal University,Beijing100875,China)

Abstract

Scientific thinking is an important component of the core competencies in the 2022 version of the new curriculum standards.This study developed a tool to evaluate the scientific thinking of ninth-grade students.Based on the Rasch model,the overall quality of the tool was evaluated from aspects such as rater reliability,unidimensionality,test scoring structure,test fit,separation,error statistics,and white map.The results show that the overall reliability and validity of the evaluation tool are high,and the fitting and separation of the test questions meet the requirements,with an error within an acceptable range.The white map indicates that the students’scientific thinking level is weak.Overall,this set of evaluation tools meets the requirements,and the reliability is relatively strong.The testing quality analysis based on the Rasch model also provides a reference for optimizing testing tools.

Keywords

scientific thinking;quality analysis;9th grade students;Rasch models

[责"任编辑孙菊]

收稿日期:2023-05-13

基金项目:北京市教育科学规划“十四五”优先关注课题(CDEA22008)

作者简介:

田雪葳(1985—),女,山东青岛人。博士,讲师,硕士生导师,主要研究方向为技术支持的科学教育。

*"通信作者:

王晶莹(1980—),女,辽宁营口人。博士,教授,博士生导师,教育部基础教育教学指导委员会科学教学专委会秘书长,北京学习科学学会科学教育专委会副主任委员,主要研究方向为技术支持的科学教育、教师教育研究。

猜你喜欢

质量分析科学思维
抽样检验质量分析对提升产品质量的作用研究
药品质量分析在其评价抽验中的作用探讨
产融结合型企业利润结构质量分析体系的构建
用面向科学思维的教学方法改进计算机图形学课程教学
浅析计算机应用与科学思维能力培养
重视科学实验课教学发展学生科学思维探析
浅谈电子元器件的质量分析与控制
厂内机动车辆检验检测质量研究
关于高中三年级的第二轮复习的思考
浅析上市公司财务战略管理的问题及对策