本土化计算思维评价指标体系的构建与探索*
——基于1410名高中生的样本分析与验证
2020-09-27陈兴冶马颖莹
陈兴冶 马颖莹
(1.上海师范大学 教育学院,上海 200234;2.上海市实验学校,上海 200125)
一、问题的提出
科学、精准地评价已成为推动计算思维教育有效发展的核心要素,国外学者较早关注到评价工具的开发,形成了文本话语分析、题目测试、作品分析、图示分析和行为分析等[1]评价工具。为更全面深入地了解计算思维培养与评价的研究与实践现状,更好地促进国内评价工具的构建,从不同视角对五大类型的评价工具进行综合分析,不仅必要而且紧迫。
从评价载体的视角分析,程序设计是测量计算思维水平的重要载体,教师通过学生编程时的行为表现(如,Aggarwal 的前后测测量[2])、编程任务完成后的作品(如,Dr.Scratch[3])、编程类测试题(如,CTt[4])以及编程活动时的访谈(如,美国结构化诊断性访谈工具[5])等方式,来进行计算思维的评价。从评价维度的视角分析,编程(或算法)技能是计算思维测量的主要维度,教师主要通过编程过程中学生的知识学习(概念、术语,如,德国的PPA[6])、技能掌握(基本程序技能,如,CTS[7][8])及问题解决(程序修改、故障排查等,如,TSA[9])等三个方面,来测量学生的计算思维水平。从评价方式的视角分析,一类为形成性评价(如Dr.Scratch、CTP[10]、Fairy Assessment[11]),能更好地了解阶段性成果,以便提出有效的教学改进措施;另一类为终结性评价(如,Beras 竞赛[12][13]、CTt),其目的为测量较长周期学习后学生计算思维的发展状况。从评价对象的视角分析,多数工具针对6-8年级的初中学生,少量工具适用于小学5年级学生(如,Dr.Scratch、Beras 竞赛)。其中,涉及高中生的评价工具对程序设计的依赖比较大,其比较重视数据结构、程序阅读与调试(如,Beras 竞赛、CTt)等方面的评价。
综上所述,当前已开发的评价指标和工具只适用于特定的计算思维培养模式,因而,导致评价工具的通用性明显不足。探究其深层原因主要有:第一,许多测试仍处于心理测量验证的初始阶段,研究者不敢冒然使用他人未经严格验证的工具;第二,许多研究人员认为,仅用一种工具很难捕捉计算思维不同维度的所有复杂性[14][15][16],即众多测量工具的指标体系,还未完全涵盖计算思维的内涵与外延。
评价是对计算思维教育效果进行评估的重要手段,评价工具则是计算思维评价的必备条件。教育的直接目标是培养人,因此,评价工具中的指标体系应充分考虑人(学生)所处地域及其教育政策、年龄特点等诸多因素。然而,目前绝大多数评价工具均来自国外,其适用性和有效性等问题,逐渐被国内研究者所关注[17]。
我国《新一代人工智能发展规划》和《教育信息化2.0 行动计划》明确指出,积极开展基于中小学人工智能课程的编程教育是科技强国战略的基础工作。在编程教育中培养学生的计算思维,这在国内的研究和实践上较为广泛[18],然而,受限于有效检验机制的缺失,计算思维教育的成效始终无法得到充分检验。尽管暂可使用被国内部分学者所验证的国外个别测量工具[19],但中西文化、教育制度和社会价值等的差异,使其评价效果的有效性日益受到质疑。在计算思维已成为信息技术学科核心素养的背景下,评价已然成为制约我国计算思维教育发展的关键因素,我们亟需开发既符合中国化实际和教育情境,又能适切于中小学计算思维培养需求且涵盖其所有维度的评价指标体系。
二、计算思维评价的理论框架及本土化设计
美国计算机科学教师协会(CSTA)和美国国际教育技术协会(ISTE)共同发布的《CSTA 计算思维教师资源手册》,提供了较为系统和详实的教学实践案例,每个案例都附有计算思维操作指南,包括该案例活动所要培养的计算思维技能、须达到的计算思维态度以及教师教学时所使用的计算思维词汇[20]。本研究的计算思维评价框架,采纳了CSTA 和ISTE 的部分观点,将框架分为计算思维技能和计算思维态度两个维度,再对每个维度进行指标分解,从而形成二级指标,并根据其操作性定义,确定更具体的关键指标,如图1所示。
图1 计算思维评价框架及主要指标
(一)计算思维技能的指标分解
Hemmendinge 认为,计算思维是指学生拥有像计算机一样探索、发现、解决问题的能力[21];Brennan和Resnick 提出,计算思维包括计算概念、计算实践和计算观念三个维度16 个方面的技能[22];美国国际教育技术协会(ISTE)提出,计算思维由创造力、算法思维、批判性思维、问题解决、合作思维和沟通技能6 个因素合力组成[23];CSTA 则提出了数据收集、数据分析、数据呈现、问题分解、抽象、算法和程序、自动化、仿真和并行9 个技能[24]。不难发现,学者及学术组织对计算思维进行了持续的探索与完善,择其共识,计算思维指一系列的思维技能[25]。
计算思维是信息技术学科主要的核心素养,也是学科育人价值的集中体现,在确定计算思维技能的指标时,应重点解析我国《普通高中信息技术课程标准》(2017年版)中的计算思维定义(界定问题、抽象特征、建立模型并运用合理的算法形成解决问题的方案,总结过程与方法并可迁移到与之相关的其他问题的解决[26])。鉴于该定义与Selby 、Woollard 博士的观点[27]比较接近,故我们采用“五要素”作为计算思维技能的二级指标,即分解、抽象、概括、算法和评估。
1.分解及其关键指标
分解既是运用计算思维进行问题解决的起点,也是复杂问题简单化、逻辑化的重要方法。分解就是将一个事物或问题拆分成几个可以被理解、解决和评估的部分或子问题,以利于促进问题解决的思维过程[28]。因此,分解是计算思维的重要组成之一。
分解包括分解、有序和递归等关键能力,具体表现为:(1)分解:根据问题及任务的特点,能将其分解成不同的组成部分,使它们更易被处理;(2)有序:能对分解好的组成部分进行分析,建立不同部分之间的联系及逻辑顺序;(3)递归:能使用计算机学科中的递归和分步解决策略,将不同部分转化成子问题集。
2.抽象及其关键指标
抽象是将问题从事实描述转变为符号表达的重要手段,也是运用“算法”解决问题的必要步骤。抽象通过减少不必要的细节,以使一个事物或问题变得更简单更容易,又不丢失任何重要的部分[29]。它的关键是选择事物或问题的主要特征,来表示整个事物或问题,抽象后的事物或问题可使人更容易思考。因此,抽象是计算思维举足轻重的技能。
抽象包括删除、过滤、提取和符号化等关键能力,具体表现为:(1)删除:针对复杂问题或任务时,能通过删除不必要的细节来降低问题或任务的复杂性;(2)过滤:在充分认识问题及解决方案的基础上,能过滤解决方案中一些不必要的信息;(3)提取:在解决问题的过程中,能提取、搜集或创建与问题解决相关的关键数据;(4)符号化:能将现实问题通过符号化的表达方式,来降低问题的复杂性。
3.概括及其关键指标
概括(也称“模式识别”)是指解决一些特定问题的算法,可适用于解决整个类别问题的一种思维能力。概括的基础是先前的问题解决方案,核心是在先前经验的基础上,快速解决同类新问题的方法[30]。在教学中设计诸如“这是否类似于我们已经解决的问题?”“有什么不同?”等问题,能帮助学生应用已有经验或策略进行模式识别。因此,概括也是计算思维的重要组成之一。
概括包括识别共性、迁移方案和迁移情景等关键能力,具体表现为:(1)识别共性:面对多个问题需要解决时,能识别问题或任务的共性;(2)迁移方案:在完成特定问题的解决方案后,能修改该方案并使之适用于类似问题的解决;(3)迁移情景:在完成某一特定情景的问题解决方案后,能将想法和解决方案从一个问题情景迁移到另一个情景中去。
4.算法及其关键指标
算法是将问题解决从符号表达转化为计算模型的关键步骤,它是一种通过对每个步骤的清晰定义得到解决方案的思维方式,也是一种以序列和规则来思考解决或理解问题的能力[31]。因此,算法是计算思维的核心技能。
算法包括描述步骤和创建算法等关键能力,具体表现为:(1)描述步骤:在对问题进行分析和解决时,能描述问题解决的具体步骤;(2)创建基于经验的算法:在碰到已抽象好的算法问题时,能根据已学算法进行问题求解;(3)创建基于真实世界的算法:在碰到真实问题时,能将实际问题抽象成算法问题,从而创建问题解决的算法描述,以便更好地理解。
5.评估及其关键指标
评估是确保提取一个最恰当、最适合的方案、步骤或者算法的过程,通过权衡利弊并从中找到一个适用的理想解决方案。其中,包括方案、步骤或算法的正确性、可行性、迁移性[32]。因此,基于计算思维的评估,对方案或算法的细节极为关注。
评估包括正确性、结果解释、方案优化和论证严格等关键方面,具体表现为:(1)正确性:能评估给定的算法方案的正确性;(2)结果解释:能测试给定的算法方案并解释测试结果;(3)方案优化:能运用适当的方法评估多个算法方案中的最优方案;(4)论证严格:能运用计算机学科严格论证的测试方法,来检查算法方案的可用性或性能。
(二)计算思维态度的指标分解
Brennan 和Resnick 认为,计算观念是学生对自己、与他人的关系以及周围世界的理解,具体表现为表达、联系与质疑技术世界中的各种现象和观点[33]。CSTA 与ISTE 提出的“计算思维学习经验案例”,则将计算思维态度定义为:学生意识到成为一个计算思维思考者应具备的态度,其中,不仅包括对问题解决的承受力、自信心以及持之以恒的态度等,还包括与他人合作解决问题的能力等[34]。英国Computing 课程将计算思维培养作为核心目标,不仅包括学生理解和应用原理、概念以及问题解决等技能性目标,还强调学生应具备有责任心、有能力、有自信心、有创造力等态度类目标[35]。李锋等提出计算思维评价,需要有效表征学生在学习活动中的行为过程、能力表现以及学习效果,关键是确定学生计算思维的表现性指标,即知识、技能与态度[36]。
我国 《普通高中信息技术课程标准》(2017年版)明确提出,学科核心素养是“立德树人”育人目标在学科教学中的具体落实,而计算思维又是信息技术学科核心素养的关键要素,也是学生掌握知识与技能、过程与方法、情感态度与价值观的综合表现。同时,该课程标准要求教师在设计相应的教学情境时,通过组建互助小组及在“尝试→验证→修正”的过程中,引导学生在交流互助的问题解决中,共同发展和提高计算思维[37]。本研究主要根据2017年版课程标准中关于计算思维培养的要求和国外研究成果,将计算思维态度分为情感态度、思维品质及合作学习[38]三个二级指标。
1.情感态度及其关键指标
情感态度是指思维活动中个体所持有的学习兴趣、学习责任以及科学态度。计算思维则是学生利用计算机学科思想方法去解决问题,由于问题解决的主体是学生,故学生对知识的兴趣、责任以及科学方法等的情感态度,直接影响问题解决的动力与深度[39]。因此,学生情感态度方面的表现,应该成为计算思维态度的重要部分。
情感态度包括对待问题的态度和解决问题时的情感反应等关键能力,具体表现为:(1)好奇心:对问题探究抱有好奇心;(2)承受力:在问题解决过程中,碰到不确定的问题时,应具有较好的承受力;(3)自信心:始终具有克服复杂问题的自信心;(4)持之以恒:在解决复杂问题时,不管遇到困难与否都具有持之以恒的态度。
2.思维品质及其关键指标
思维品质是指思维能力的特点及其表现,在计算思维活动过程中,针对相同问题,学生会表现出不同的思维特点,其主要体现在思维的深度、广度、反应力、缜密性和反思性等[40]方面。因此,思维品质是计算思维态度的重要组成之一。
思维品质包括发现、分析、表达和解决问题等关键能力,具体表现为:(1)深度:在分析问题时,善于发现问题的本质和规律,能抓住问题的关键点进行系统的分析活动;(2)广度:在分析问题时,能从不同视角出发思考问题,能对问题进行全面而又有条理的分析;(3)反应力:在处理和解决问题时,能正确地判断,迅速地做出反应,有条理地表达观点;(4)缜密性:思维活动的有序程度,能整合问题的不同处理方法,及时总结优化;(5)反思性:在分析、解决问题时,独立发现和批判的程度,能对同一问题的解决方案提出质疑。
3.合作学习及其关键指标
合作学习是学生运用计算思维解决开放性问题时所采取的主要学习方式,它强调学生围绕一个问题或任务,互相分工合作进行问题求解,在求解的过程中共同发展计算思维。合作学习主要体现在与他人合作的意愿、勇于表达自己的观点以及相互协调制定方案等方面[41]。因此,合作学习也是计算思维态度的重要组成之一。
合作学习包括愿意、倾听、主动、尊重和坚持己见等关键行为,具体表现为:(1)愿意:解决问题并在碰到困难时,愿意寻求与他人合作解决问题;(2)倾听:在合作讨论问题的解决方案时,能认真倾听并了解他人解决问题的方法;(3)主动:在合作交流时,能主动将自己的方案与他人分享,也会引导他人交流各自解决问题的方法;(4)尊重和坚持己见:当别人的解决方案与自己的不一致时,能认可别人解决问题的方法,同时,又能持有与之不同的解决方法。
三、评价指标体系的开发与修订
我们将评价指标体系的开发,分为指标体系确定和验证两个阶段。在指标体系确定阶段,通过文献法初步编制评价指标体系,运用德尔菲法对指标体系中的各级指标进行评分,收集评分并综合分析后再进行指标体系修订,经三轮迭代后形成评价指标体系。在验证阶段,在确定好评价指标体系的基础上,通过文献法来编制测量量表,并进行样本试测,依据试测数据进行结果分析及指标修订,经两轮迭代后,形成较完整的指标体系,如图2所示。
图2 计算思维评价指标体系的开发过程
(一)指标体系的专家咨询
我们通过文献分析与整理,初步研制了包含2个一级指标、8 个二级指标和30 个关键指标的指标体系。为验证该指标体系的科学性,特邀请专家对指标体系进行打分和意见征求。
1.专家选取
德尔菲法需要根据所咨询的内容范围确定专家,一般在8-20 人左右[42]。针对高中学生计算思维的评价要求,为充分听取不同领域专家的建议,我们选择了信息技术课程研究、计算思维研究、资深教研员、信息技术教学研究四个方面的专家进行咨询。根据研究需要,选取具有一定研究工作经验、对信息技术教育领域比较熟悉的研究者,共15 位专家,包括7 位信息技术课程专家、4 位计算思维研究专家,2位教研员及2 位信息技术教学专家。其中,教授4名,正高级教师2 名,副教授7 名,博士生导师4 名,博士11 名,如表1所示。
2.咨询过程
根据德尔菲法的要求,对选定的专家进行三轮问卷咨询,问卷主要通过电子邮件发放。在咨询过程中,专家匿名并独立自由地对咨询问题做出自己的判断,不受其他因素的影响。第一轮专家除对指标打分外,还重点对二级指标的名称、关键指标的描述提出了修改建议。我们根据第一轮专家的建议,对部分指标进行了删除、修改及增加。第二轮则将修改好的问卷,再次提交专家进行指标体系的打分及修改建议的收集。第二轮咨询后,对各级指标进行了再次修改和第三轮调查。经过三轮专家咨询,专家们对于指标体系的认同度逐渐趋同。
表1 专家情况分析
3.数据处理
利用SPSS 21.0 对专家咨询后所回收的数据进行处理,专家对关键指标重要性打分的平均值、标准差和满分比,反映了专家意见的集中程度。专家意见的协调程度,则由变异系数和协同系数来表示:变异系数越小,表明专家的协调程度越高;协同系数反映不同专家意见的一致性,范围在0-1 之间,数值越大,表示专家协调程度越好。
4.数据分析
(1)描述性意见的收集情况。将专家们提出的描述性修订意见进行汇总和分析,发现没有专家提出增加二级指标项的意见,表明专家们认可8 个二级指标项;但专家们对关键指标的描述提出了30 条修订意见,其中,情感态度4 条、思维品质6 条、合作学习8 条、分解1 条、抽象4 条、概括2 条、算法2 条、评估3 条。这些意见主要集中在二级指标名称的确定、关键指标描述的严谨性和完整性等方面。
(2)专家意见的总体情况。将专家的打分进行汇总后,发现30 个关键指标的平均得分(满分5 分)在3.2-4.8 之间,表明关键指标的得分比较高;经过三轮咨询后,情感态度、思维品质、合作学习、分解、抽象、概括、算法和评估所包含的关键指标,平均得分分别为3.83、3.96、3.54、4.44、4.33、4.30、4.23 和4.13,说明专家们对计算思维30 个关键指标的评价较高,即关键指标的描述基本得到一致认可。
(3)专家意见的集中程度。将每轮专家的评分进行集中程度的统计分析,重点关注得分低于均值和标准差的关键指标,通过分析专家所提意见作相应修改。如表2所示,经三轮咨询后,均值和满分比都有所提高,标准差则不断减小,说明专家对两轮修改后的指标体系评价较高。
表2 专家评分的集中程度
(4)专家意见的协同程度。当变异系数CV≤0.3时,表示专家意见达到高度一致;当0.3≤CV≤0.5时,表示专家意见在可接受范围内;当CV≥0.5 时,必须解释其原因[43]。对三轮咨询进行变异系数的统计发现,所有关键指标的变异系数均没有超过0.51,且第一轮变异系数范围为0.51-0.91,其中大于0.5的仅有一个指标;第二轮变异系数范围为0.08-0.47,且变异系数大于0.4 的指标只有2 个;第三轮变异系数范围为0.0-0.33,且变异系数大于0.3 的指标只有3 个(非常接近0.3)。由此可知,专家意见的变异系数逐步变小,说明专家对评价指标的意见逐渐趋同,指标体系趋向更加合理。同时,对三轮专家评分进行Kendall 协同系数统计,如表3所示,三轮协同系数都有所增加,最后达到0.362,除第一轮外其余两轮P 值都小于0.05,说明专家对于关键指标的评分具有显著一致性。
表3 专家评分的协调程度
经过三轮专家咨询及两轮指标修改,我们最终完成了包含8 个二级指标和30 个关键指标的计算思维评价指标体系的编制,如表4所示。
(二)量表编制
1.题项编制
题项编制组的成员们认真学习了30 个关键指标的详细描述及相关文献,领会其所指向的评价内涵,达成一致意见后,确定了题项编制的基本原则:(1)题目采用李克特五级量表;(2)题目的情境以生活或学习中的场景作为依托;(3)题目中不能出现具有答题倾向的相关描述;(4)每个关键指标编制2 个题目;(5)设计一定数量的反向题目,占总题量的30%左右。
由两位信息技术教师根据要求编制题目,完成后邀请资深教师进行审阅,并由三人小组逐一对题目进行复核,主要关注:(1)题目内容本身是否正确;(2)题目描述是否准确表达关键指标的意义;(3)题目之间是否存在内容导向的交叉现象。
表4 计算思维评价指标体系
经过仔细讨论、反复修改,从而形成了包含60个题项的计算思维量表。
2.初测情况
研究团队于2019年10月21日至30日,对沿海S 市3 所学校的232 名高中学生进行了初测,并抽取46 名学生就量表内容进行访谈,进一步明确了所有题项的含义。将统计分析(探索性因子分析)结果与相关标准对照后发现,有14 个题项的因子负荷均小于0.3,故删除了该14 个题项,最终形成包括46 个题项、8 个二级指标及30 个关键指标的正式评价量表。
四、评价指标体系的验证
(一)被试对象
被试对象为北方两市、南方两市的高中年级学生,调查对象共有1446 人,收到有效问卷共1410份,有效率97.5%。将收到的样本数据随机分成两批,第一批为733 人,其中,男生331 人(45%),女生402 人(55%);第二批为677 人,其中,男生359 人(53%),女生318 人(47%)。
(二)研究工具
研究工具采用李克特五级量表(非常不符合=1,不符合=2,一般=3,符合=4,非常符合=5)设计,量表以正向题项为主,反向题项为辅。第一批样本数据分析,使用包含8 个二级指标、30 个关键指标,共计46个题项的量表,调查结束后对数据进行筛选、分析、综合和修订;第二批样本数据分析,使用了包含7 个二级指标、23 个关键指标,共计36 个题项的量表。
(三)数据收集与分析
本研究采用问卷星进行数据收集,每位学生只有一次填写机会并设定了问卷完成的时长,以保证被试对象填写时间基本相同及避免出现重复填写的现象。数据收集时间为2019年11月4日至27日。
问卷填写完成后,我们对调查数据进行严格的筛选、分析,清洗无效数据,使用SPSS 21.0 对数据进行题项分析、探索性因子分析和信度分析(n=733),以检验并修订量表的结构;利用Mplus7 工具对数据进行验证性因子分析、信效度检验(n=677)。
五、结果分析
(一)题项分析
对计算思维指标体系中7 个二级指标所包含的23 个关键指标进行描述性统计分析,结果显示,该体系所有关键指标的峰度都低于5 且渐近显著性概率大于(双侧)0.05,表明数据呈现正态分布,量表有效。
对23 个关键指标的得分与总分之间进行相关分析和独立样本t 检验,发现相关系数在0.462-0.762 之间,且具有非常显著的差异(P<0.001)。所有23 个关键指标的相关系数除1 个指标外,其余均大于0.5。其中,评估所包含的关键指标的相关系数最高(均大于0.720),情感态度所包含的关键指标的相关系数总体较低(均小于0.6)。需要指出的是,每个关键指标的得分由该指标对应题项的总得分平均而得。
对计算思维态度的2 个因子、计算思维技能的5 个因子与它们所包含的关键指标之间的相关性进行分析,结果如表5所示。情感态度(EA)、合作学习(O)、分解(D)、抽象(Ab)、概括(G)、算法(Al)、评估(Ev)与其关键指标的相关系数在0.602-0.946 之间,且独立样本t 检验结果显示,所有数据均达到非常显著的水平(P<0.001)。
表5 各因子与关键指标之间的相关性
此外,从样本数据中抽取得分最高(前20%)的数据作为高分组,得分最低(后20%)的数据作为低分组,对两组数据在23 个关键指标上进行独立样本t 检验,发现两组中每个关键指标的得分,均呈现非常显著差异(P=0.000<0.001),这表明指标体系中所有关键指标,都具有较好的区分度。
(二)探索性因子分析
我们首先采用KMO 和Bartlett’s 球形检验,对所收集数据的充足度和适宜度进行检测。结果显示:KMO=0.942,Bartlett’s 球形检验χ2(733)=16267.757,P<0.000。数据表明,Bartlett’s 球形检验达到了显著水平(KMO≥0.8),说明样本数据适合进行探索性因子分析。
再采用主成分分析法抽取因子,选择最大方差法进行旋转,以特征根大于1 作为依据确定因子数目。在各因子题项的取舍上,删除因子负荷小于0.3的指标。分析结果显示:8 个二级指标中的30 个关键指标的因子负荷均大于0.3,累计解释总方差为56.295%,自动扭转出8 个因子,但有7 个关键指标出现了交叉载荷。经讨论与分析后,我们决定删除这7 个关键指标及其所属的10 个题项,其所属的剩余4 个题项,根据统计数据,经讨论修改后归入其他关键指标,最终保留23 个关键指标和36 个题项。此外,删除的7 个关键指标中有5 个指标属于同一个因子,即删除这5 个关键指标就等同于删除了整个因子(思维品质),另外2 个关键指标则属于其它2个不同的因子。
接着,对剩下的23 个关键指标的量表题项做第二次探索性因子分析,结果显示:KMO=0.950,Bartlett’s 球形检验χ2(733)=13073.482,P<0.000。依然采用主成分分析法抽取因子和最大方差法进行旋转,最终萃取出7 个因子,总解释方差为63.084%,特征根都大于1。数据表明,7 个因子对于计算思维的合计影响力较大,所对应题项的效度较好。其中,计算思维态度中,情感态度和合作学习两个因子的解释率/特征根分别为:6.435%/1.206,8.348%/1.591;计算思维技能中,分解、抽象、概括、算法和评估五个因子的解释率/特征根分别为:8.157%/1.363,9.259%/2.546,8.602%/1.797,5.121%/1.139,17.163%/12.548。此外,所有题项的因子载荷量均在统计学可接受的范围内(0.305-0.813 之间),说明计算思维评价指标体系,具有良好的收敛度。
两次探索性因子分析结果表明,情感态度、合作学习、分解、抽象、概括、算法和评估7 个因子构成的计算思维指标体系,具有良好的结构效度。
(三)验证性因子分析
采用Mplus7 软件,针对第二个样本(n=677)数据进行验证性因子分析,以对探索性因子分析得到的结构模型作进一步检验。如表6所示,计算思维总量表和计算思维技能维度的所有指标,均达到判断标准;计算思维态度维度的χ2/df、SRMR、CFI 三个指标达到判断标准,RMSEA 和TLI 指标虽未达到但都接近标准范围。经综合分析后发现,这两个指标数据处于可接受的误差范围,据此,可认为计算思维量表的结构模型拟合良好,模型比较合理。此外,23 个关键指标的标准化因子负荷在0.467 至0.887 之间,各关键指标的误差方差均小于0.05,如图3所示。
表6 计算思维量表结构验证性因子分析结果
图3 验证性因子分析模型图
(四)信效度检验
1.信度检验
(1)内部一致性信度检验。对第二批样本数据的23 个关键指标总分进行内部一致性信度检测,得出克隆巴赫α=0.956>0.8,表明整体量表信度良好。其中,对计算思维态度的2 个因子(7 个关键指标)和计算思维技能的5 个因子(16 个关键指标)总分进行检验,分别得出α=0.776>0.7 和α=0.965>0.8,表明态度量表信度可以接受,技能量表信度良好。进一步的分析显示,除情感态度因子和计算思维态度的Cronbach α 系数低于0.8 外,其余因子及计算思维总量表均高于0.8,说明计算思维指标体系的7 个因子的内部一致性良好,如表7所示。
表7 信度分析(一致性α 系数)
(2)重测信度。为验证计算思维指标体系的稳定性,我们采用重测法对部分被试进行测量。在第一次调查完成一个月后,从被试对象中随机抽取86 位学生进行再次测量。并且,使用SPSS 21.0,对86 位学生的前后两次测量成绩进行相关性分析,以此来完成对指标体系稳定性的测量,如表8所示。
表8 重测信度的结果
重测后各关键指标前后测的相关系数在0.412-0.902 之间,且各个关键指标前后相关系数均存在显著正相关。此外,7 个因子前后测的相关系数在0.501-0.882 之间,前后测总分之间的相关系数为0.798(接近0.8),说明该计算思维评价指标体系,具有良好的稳定性。
2.结构效度检验
结构效度主要用来检验多个因子组成的量表的有效程度。在通常情况下,总量表与各因子之间的相关系数较高,而不同因子之间的相关系数要较低。除情感态度外,其余6 个因子与计算思维总量表的相关系数均大于0.74,说明各个因子与计算思维之间存在显著相关,其中,分解、评估两个因子与计算思维存在高度相关(相关系数大于0.8),如表9所示。7个因子分别与计算思维总量表之间的相关系数较高,彼此之间存在显著正相关,而7 个因子互相之间存在较低程度的相关,说明各因子间互不干扰且具有各自独立的作用。由此表明,计算思维评价指标体系,具有良好的结构效度。
六、研究结论
(一)本土化和科学性应是计算思维评价指标体系开发和验证过程所遵循的标准
计算思维教育需要充分考虑民族文化、教育体制、师资水平和学生特点等诸多因素,因此,计算思维评价指标体系的构建,应优先关注本土教育现状。
表9 各因子间及与总量表间的相关性分析
首先,通过对我国 《高中信息技术课程标准》(2017年版)等相关文献的分析,我们提取了计算思维态度和计算思维技能两个维度作为评价框架,并初步确定了各维度所包含的二级指标及其操作性定义和包含的关键信息。再经过三轮德尔菲法,对该体系进行咨询、修订和完善,形成包括2 个维度、8 个二级指标和30 个关键指标的三级评价指标体系,进而对其进行样本验证。
之后,对所编制的题目作初步测试及统计分析,删除部分因子负荷不理想的题项后,形成了可供正式验证的指标体系。经过第一次探索性因子分析并对指标体系进行调整:(1)删除了交叉负荷的10 个题项,这些题项分属于7 个关键指标;(2)由于删除的5 个关键指标正好为思维品质因子的所有指标,经仔细分析及反复讨论后认为,计算思维作为人类的一种特殊思维方式[44],其内涵包含了思维所拥有的本质特性,且这些特性与思维品质所涉及的关键指标描述较为接近,因而删除该因子不会影响整体效果。这样,经过第二次探索性因子分析和验证性因子分析以及信效度的检验,最终确定计算思维评价指标体系包含2 个维度、7 个二级指标和23 个关键指标。
为适应中国教育情境,本研究立足我国《高中信息技术课程标准》(2017年版),以文献为基础,通过理论演绎形成初步指标框架,经专家评分及三轮修改进一步完善,再采用两个不同统计软件,对不同样本数据进行了因子分析及信效度检验,该过程完全符合指标体系验证的基本要求。简言之,本土化与科学性是指标体系开发与验证始终应遵循的标准,也是提高评价有效性的前提条件。
(二)计算思维态度是计算思维技能发展的保障性因素
计算思维是一种运用计算科学方法进行问题求解的思维方式[45]。从计算科学角度看,计算的目的是问题解决;从思维视角看,思维的目的也是问题解决,由此可见,计算思维兼具计算和思维的双重特性。问题解决是一种思维能力,思维由问题而起,思维活动中也会产生新的问题。当问题出现时,对于问题意识强的学生来说,就会产生解决问题的需求和内驱力,进而促发强烈的求知欲和好奇心, 唤起对问题解决的兴趣,从而激励其进行积极自主的思维,直到解决问题[46]。由此可见,问题解决中的问题意识、内驱力、求知欲、好奇心以及兴趣等态度类因素,均是思维活动中不可或缺的部分,也理应成为计算思维的重要组成部分。
本研究的计算思维态度维度,包括情感态度和合作学习两个二级指标,经过第二次探索性因子分析发现,情感态度和合作学习的因子负荷整体低于其他5 个因子的值,说明计算思维态度对于计算思维总量表的贡献率,低于计算思维技能;通过验证性因子分析发现,计算思维态度的RMSEA 和TLI 两个指标没有达到标准范围,说明计算思维态度与模型的拟合指数,没有达到非常理想的状态。我们在对各因子与总量表相关性进行分析时发现,计算思维态度维度各因子与总量表之间,虽然都存在显著正相关,但其相关系数总体低于计算思维技能维度各因子的相关系数,其中情感态度因子最低,仅为0.443。此外,数据显示,合作学习因子与计算思维技能各因子之间,具有显著正相关,情感态度因子与计算思维技能中的大部分因子之间,具有弱的正相关。
(三)计算思维技能是计算思维发展的决定性因素
诸多研究者认为,计算思维是一种思维技能,故大多数计算思维评价将思维技能作为思维发展的主要参考指标,即通过学习过程、能力表现以及学习结果,来有效表征学生的思维变化及思维水平的发展[47]。
对指标体系进行第二次探索性因子分析发现,计算思维技能中的4 个因子的特征根和解释率均比较高,其中评估因子最高(17.163%/12.548),说明计算思维技能各因子,对总量表的贡献程度大于计算思维态度各因子。同样的,验证性因子分析结果显示,计算思维技能所有指标都明显优于标准范围,说明这些指标对总量表整体数据达到标准范围,起到了关键性的作用。
提取计算思维技能的得分与计算思维总分作相关性分析后发现,计算思维技能与总分之间存在高度相关(大于0.8),且最高与最低的相关系数仅差0.059。由此证明,计算思维技能得分对计算思维总分的贡献率相当大,各因子的贡献率比较均衡。这表明,计算思维总体水平的提高,是由分解、抽象、概括、算法和评估五因子的共同作用所引起的,进而可认为计算思维技能,是计算思维发展的决定性因素。这大概也是当前绝大多数评价工具,仅关注技能指标的原因所在。
(四)计算思维评价指标体系的使用应考虑测量对象与领域的适用性
经过有效性和可靠性验证的国外计算思维量表(如,CTt、CTS),为计算思维教育评价提供了一定的支持。但这些工具的评价指标,主要以计算概念和计算实践过程中的技能性指标为主,且测量对象的年龄跨度也比较大。
本研究的测量对象是高中学生,测试样本为1410 名高一学生,样本选择的原因主要有:(1)高年级学生在测量时,往往不受外界(如,自我情绪、他人观点)干扰、自我检验意识强,有利于提高测量的有效性。且高年级学生思想、行为已接近于成年人,其思维具有较高水平的稳定性和持久性,这也与中学高年级的测量可靠性高于低年级学生[48]的研究结论较为一致;(2)限于研究者从事高一信息技术学科教学,故测试样本选取了高一学生。从工具适用性视角出发,本研究形成的计算思维指标体系,能适合于高中学生,更适用于高一学生。
在计算思维实际教学过程中,研究团队成员多次使用设计的评价指标体系作为测量依据。对数据进行分析发现,在进行诸如“网络故障排查”等信息系统的概念教学时,计算思维水平不会因学习者个体自然认知的发展而发展[49];但在进行诸如“算法的三种基本结构”等算法的概念教学时,采用传统教学的对照组学生,其计算思维水平在学习前后存在显著性差异。结果表明,计算思维的发展与学习内容密切相关,在使用该指标体系进行测量、分析时,使用者应根据不同的学习内容设计相对应的、较合理的数据分析标准,以便对学生的计算思维发展状况,做出更为准确的判断。
七、结语
对教学实践效果进行评价是计算思维教育的重要环节,而评价指标体系的本土化设计与开发则是检验教学效果、落实课程标准要求的必要手段。然而,构建科学、合理、可靠的本土化评价指标体系是一个复杂的系统工程,需要结合评价对象及其所处的教育环境进行不断修订与完善。因此,该评价指标体系今后还需在不同地区、不同年级学生的多轮教学实践中,进一步迭代优化。