APP下载

从追踪学生的答题眼动轨迹积累内容效度证据

2024-04-18余航

考试研究 2024年2期
关键词:内容效度

[摘 要] 效度如何得到有效的评估是教育测量中的一个重要问题。为了有效评估中高考等高利害考试的试题效度,以语文学科为例,在学生作答往年试题过程中采用红外线眼动仪,追踪学生审读题目要求和作答的思维轨迹,为学生答题思维过程画像。眼动仪监测答题过程的一系列心理反应数据和后期学生访谈记录生成作答的心理反应样本。将这些数据样本与命题人所期待的測量目标进行对比后发现:有部分试题所希望测量的知识点、能力点与学生实际的心理反应偏差较大。建议依据被试面对不同刺激材料时的眼动轨迹和心理反应的有关数据,建立一个相对完善的试题效度检测系统,从而在试题设计上减少“噪声”;并在日常教学中以被评价者视角增强“评价对焦”。

[关键词] 眼动轨迹;心理反应;高考语文试题;内容效度

[中图分类号] G424.74 [文献标识码] A

[文章编号] 1673—1654(2024)02—052—010

一、利用眼动的心理机制评估试题效度

视觉系统作为人类最重要的感官系统,获取外界的大部分信息[1]。近年来,将眼睛的运动轨迹作为一种研究视觉系统信息处理机制的重要手段,已经形成广泛共识,且在医学、心理学、工业等领域得到了广泛的运用。在被试运用视觉观察刺激对象时,将眼睛的中央凹瞄准刺激信息的过程称为“注视”,通过注视可以把视觉对象固定在视网膜的中央凹上,从而完成视觉摄入信息的加工。

眼动被认为是一种研究视觉信息加工的有效手段[1]。眼动的过程实质是“视觉—眼动系统”在面对刺激下的输出反应。这种反应是客观真实的原始材料。刺激背景和刺激材料不同,引发的眼动反应也不同。运用红外线眼动仪可以捕捉被试在观察刺激材料时的信息加工过程。而信息加工过程的本质是被试面对刺激材料的心理反应,基于此可以把眼动过程看作被试加工刺激材料的心理过程。

这项追踪技术始于19世纪末20世纪初,心理学家利用简单的眼动仪记录个体在文字阅读及图形扫描中的眼动轨迹,并探究其与视觉信息加工之间的关系。直至20世纪中期前,许多用于心理学研究的眼动追踪技术还存在误差大、操作难和被试眼动负担大等缺点。20世纪中期后,随着摄像技术的引入,特别是计算机技术的快速发展推动了高精度眼动仪的研发,极大地扩展了眼动追踪技术应用。当前的眼动研究多使用现代化大型精密眼动仪,拥有集光学技术、摄影技术、计算机硬件技术和计算机软件技术为一体的眼动追踪记录系统。

目前学术界对眼动的研究成果主要表现为:眼动在人机互动领域的运用[2];眼动在认知和心理决策领域的体现[3];眼动作为证据对阅读行为和结果的监测[4]。这些文献涵盖了眼动追踪技术在不同领域的应用和研究,包括游戏、情感分析、文本阅读理解、智能家居、驾驶行为和交通情境认知等。这些研究领域具有广泛的应用前景,可以为人们提供更便捷、更高效的交互方式。但目前,将眼动研究应用于中高考等高利害考试评价仍是空白。

上述过程可以借鉴到考试评价的效度评估中,即将眼动追踪所反映的心理过程监测用于试题的作答过程监控。试题作为基于特定情境的刺激材料,考生作为被试,眼动过程则是作答试题的思考过程,也是考生面对试题刺激材料的心理轨迹。被试考生关注测试材料时会注视材料的关键点,将关注点停留在主观上认为重要的位置,眼睛的关注点随着主观注意和心理反应、思维活动而移动或停留。因此,从眼动的过程可以逆推被试解读测试材料的心理轨迹。利用红外线眼动仪监测考生答题的眼动过程,进而搜集判读眼动数据就可以获得特定试题在考生心理上产生的刺激效应,不同的答题心理轨迹刻画了不同试题的刺激效应。

心理层面的刺激效应外显化就是特定试题的效度。试题效度指考试的准确性,它反映的是考试内容与课程标准及考试标准的吻合程度。效度高的试卷,能够较准确地测试出学生掌握和运用所学知识和所具备的学科能力素养的真实度。通过还原法来评估,考生展现出符合试题所期望考查的学科知识和能力素养的心理刺激反应,则可以认为这道试题具有较高的效度。反之,考生答题的心理刺激反应与试题期待考查的知识和能力素养不符合,则可以认为这道试题的效度较低。

长期以来,对中高考试题的效度评估一直处在“事后评价”和“场外评价”的状态。所谓“事后评价”,是指考生已经完成试题作答,并且评卷工作已经完成后,评价者依据考生的得分来评估试题的效度;所谓“场外评价”,是指非过程性评价,脱离考生实际作答的现场和考生答题的心理视角,从考场以外的角度展开评价。这样的评价必然制约了评价者获得考生答题的第一手资料,难以从作答试题的心理过程准确评估试题的效度。

本文旨在探讨运用眼动仪监测考生的答题过程,改变“事后评价”和“场外评价”,从考生答题过程获得第一手样本以真实评估试题的效度。从学生的实际作答样本来反观试题的效度,是一个较准确的评估方式。

二、实验设计

(一)被试选择

2022年初,从Z市选取60名分数呈正态分布的高三毕业班学生。学生均来源于该市不同级别的普通中学。全部学生分为两组,每组30名。

(二)研究工具

选取瑞典生产的“tobii近红外眼动仪”。计算机上运行Eyeso Studio分析程序。眼动仪通过红外线捕捉搜集学生的眼部移动轨迹,通过分析程序形成数据和图表再现答题过程的心理轨迹。

(三)测试方式

提供两道往年高考语文试题(一道为高考作文题和一道为高考文言文翻译题)对两组高三学生分别作模拟测试。学生阅读试题之后口头作答。作文试题由每位学生用2分钟口头讲述各自对题意的理解以及写作构思,文言文翻译题由学生直接进行口头翻译。

依据高考正常答题时间分配为标准,设置本次实验的考生答题时间。

1. 文言文翻译题:考生在考场上完成一道文言文翻译题(从读题到动笔完成作答)的时间为5~6分钟,本次实验省去考生动笔作答改用口头讲述,因此将时间限定在3~4分钟。

2. 作文审题构思:考生在考场完成一道作文题的审题构思时间为5~6分钟,本次实验省去考生实际动笔草稿写出构思的过程改用读题后口头讲述,因此将时间限定在2~3分钟。

题1:2017年高考(全国卷)作文试题

阅读下面的漫画材料,根据要求写一篇不少于800字的文章。

要求:结合材料的内容和寓意,选好角度,确定立意明确文体,自拟标题;不要套作,不得抄袭。

题2:2018高考(全国卷)文言文翻译题。

将文中画横线的句子翻译成白话文。

谢弘微(谢弘微:宋代名人)少孤,事兄谢曜如父,兄弟友穆之至,举世莫及也。弘微口不言人短长,而曜好臧否人物,曜每言论,弘微常以它语乱之。

【标准答案】而谢曜喜爱褒贬人物,谢曜每每发表议论,弘微常说其他的事岔开话头。

【评分参考】译出大意给3分;“臧否”“乱”两处,每译出一处给1分。

(四)数据统计

红外线眼动仪全过程捕捉学生的眼动轨迹,通过Eyeso眼动软件追踪系统生成一系列数据统计图和统计表。

三、实验结果分析

(一)高考(全国卷)作文试题

1. 热点图与总注视时间分析

本次审题过程追踪将热点图的分析与被试在特定区域的总停留时间结合。热点图综合了30位学生的眼动轨迹关注点,图中颜色越深,表明关注度越高。如图1:

由热点图可见,被试的关注点数量“人脸”多于“数字”,且关注55分和98分的“人脸”多于100分和61分的“人脸”。

基于热点图数据,在55分的“巴掌印”和98分的“巴掌印”两个区域对全体被试的总注视时间(说明:总注视时间是30位被试在词语上注视时间的总和)进行统计:55分的巴掌印区域总停留时间是22323ms,98分的巴掌印总停留时间是34906ms。如图2:

上述两个统计图表明:被试更关注人脸的表情而非抽象的数字,关注“惩罚”的信息多于关注“奖赏”,对负面信息更敏感。

2. 注视点转换次数分析

注视点转换次数是指被试在不同关注区域间的切换,例如被试从“98分”上的“掌印”切换到“55分”的“掌印”。转换过程描述了被试关注点轨迹的变化频率和扫视的方向的变动。如表1:

AOI是指眼动实验中的“兴趣区”。即在对眼动数据进行分析的过程中,可以在测试材料上画出一个包含实验关键对象的区域,这个区域称为“兴趣区”(Areas of Interest,AOI)。AOI Group是依据实验需要对兴趣区进行的分组。由表1可见,对于不同的“兴趣区”而言,98分到55分转换为14次,55分到98分为4次。前三组图的转换次数差均不多于4次,但这两组图的转换次数差高达10次,表明被试正在努力建立“98分”与“55分”两个图中要素间的联系。

综上所述,被试存在四个“思维动作”:

第一,对人脸上的表情关注重于对分数的关注;

第二,相比100分和61分的人脸,被试更关注98分和55分的人脸;

第三,最关注98分被打脸的图;

第四,被试以98分这幅图作为关注中心关联其余三幅图。

进而可以总结被试面对试题刺激材料有三个突出特征:

第一,关注具有异常色彩且负面的信息,如98分虽是高分却被打脸;

第二,关注形象化的信息,如人脸的表情;

第三,建立概念关联的过程倾向于从局部出发,从点到面,而不是优先建立全局认识。

3. 作文试题与构思的过程性思维特征

被试在进行作文试题的审题构思过程中,其思维特征主要表现为以下两个方面:

第一,关注直观和感性的信息;

第二,忽略影响全局的隐蔽信息。

(二)高考(全国卷)文言文翻译题

1. 典型个案分析

被试对该句的口头翻译为:

谢曜喜欢好的和坏的人物,谢曜每次说话,弘微常常認为他的语言混乱。

(1)思维过程描述

被试将“好”理解为“喜欢”,“臧否”理解为“好的和坏的”,“以它语乱之”理解为“认为他的语言混乱”。

如果割裂开前后文语境,孤立观察这个句子,或直接看被试对具体字词的解释,似乎存在着一定的“合理性”。这个合理性是被试“逻辑自洽”的合理性,而非试题情境下的准确理解。被试深层的认知上已经形成了一个脱离前后文语境而“自圆其说”的封闭系统。在这一系统中,被试潜意识“自信地”对每个关键字词给出了“规范的解释”。具有这类思维特征的被试可以概括为“割裂语境,自我封闭”型作答者。

(2)眼动行为观察

从总注视时间、注视点数量、平均注视时间(说明:注视点数量是该名被试在词语上的扫视点数目,平均注视时间是该名被试在每个词的平均停留时间)三个维度观察被试对前文影响句子理解的三个关键词的加工情况。

为了让实验结果趋于完善,另选取了三个词语补充上面的观察结果。这三个词语为“少孤”“如父”“举世莫及”。这三个词语与要求翻译的句子内容关联性较小,属于边缘词语。但能有效观察到被试更加全面的思维过程。

从总注视时间、注视点数量、平均注视时间三个维度观察被试对前文语境中非关键的“边缘词语”的加工情况。

两组数据对比可以得出:被试虽在影响句意的核心词语上思考得更多,但在“少孤”和“举世莫及”这两个词语上也分散了较多的注意力,注意力分散行为意味着被试没有将关注重点很好地对准语段的核心词。

2. 典型案例“画像”

依据前述实验结果,给“割裂语境,自我封闭”型作答者“画像”:

第一,能在试题要求翻译的句子前后文找到有助于作答的关键词,并且给予较多的思维聚焦。

第二,虽然完成了思维聚焦,但没有得到切合文章本意的准确解释,在文言文向白话文转换的过程中出现加工障碍。

第三,相比准确作答的被试,分散较多注意力资源关注前后文语境中的非关键性词语,导致信息缠绕,自我干扰,最终难以得出正确的理解。

四、实验结果分析及启示

(一)命题构念与学生实际答题之间的契合度分析

1. 作文试题分析

高考命题人在《高考文科试题分析(2017年版)》(教育部考试中心编写)对这道试题的构念解释为:“本题重点考查考生写作能力”。[5]

命题人对“写作能力”的考查内涵进一步展开解析:“从作文材料的漫画内容看,漫画中的人,考生可以想到自己,也可想到某类群体,甚至可以抽象为人类这一集合概念;人物手举的分数,不仅能理解为学业成绩,也能理解为工作成绩乃至团体、社会或国家的进步程度;人物脸上的唇印、掌印,除了可看成亲吻、掌掴之外,还可视作一般意义的表扬与批评;而成绩浮动与奖惩变化之间的多重反差对比,足以引发考生对进步与退步、表扬与批评、起点与程度、数量与质量等问题形成自己的思考与判断”。

首先,进步与退步、表扬与批评是涉及价值判断的核心问题。所谓价值观,就是人们对于政治、经济、道德、金钱等所持有的总的看法。试题作为一种特殊的教育材料,就应该让学生思考:什么是应该肯定和赞扬的,什么是必须反对和否定的。其次,起点与程度,涉及理想信念和奋斗目标的问题。因此,这道题“看得懂、感受深、易接受”,引导学生思考、认同、践行社会主义核心价值观。

由于隐去原漫画题目,材料更加直观,避免了观念上的直接导引,可选择性较强。材料与学生的生活经验紧密勾连,能切合学生的写作实际。材料本身丰富的张力、寓意中包含的思辨色彩,尤其是“结合材料的内容和寓意”的任务要求,容易激发考生的写作欲望,也有利于考查考生的逻辑思维能力和探究能力。可以说,试题力求为每一个学生都提供写作空间,不仅考虑到不同层次、不同地域的学生,也考虑到每一个学生的写作优势,有利于学生写作能力的全面考查。

按漫画标注的组别,从上往下看,第一组,一人因得满分受到表扬,另一人因不及格而受到批评,这是教育乃至整个社会中非常普遍的现象,并无特别之处;漫画的意趣来自第二组的比照,第二组并非高分就表扬,低分就批评,而恰是相反。这样,寓意就出来了,人们总是以某一尺度去衡量评价,达到最高标准就获得高度肯定,达不到最低标准就会受到批评;人们往往又将这种标准固定下来,要求高分者恒高,低分者不断进步;这种机械化且不切实际的思维方式需要反思,正如唯分数论的评价体系必须批判。

如果忽略组别,从左往右看漫画,右边人的分数由55到61,虽只有6分的进步,但由批评转为表扬,左边人的分数由100降为98,却由表扬变为批评:低分者取得进步值得表扬,但满分者变为98分就遭受批评,这就提供了另一思考角度,事物起始阶段都有发展空间,但到一定高度后,其提升空间就会越来越狭小。如何看待事物达到一定高度后的发展态势,并为其提供更好的发展可能,这需要具体问题具体分析。写作的重点还可以放在如何辩证看待进步与退步上,而如果敢于突破,这个立意还可以写成记叙文或小小说。

甚至也可以交叉地看漫画。100分和61分得到表扬,98分和55分受到批评,前者我们能够接受,因为分别达到了最高标准和最低要求,但98分就受批评则毫无道理,因为机械地拿同一个标准去衡量处于不同发展阶段的事物,这是不应该的。”[5]

综上所述,可以将这道高考漫画作文题的考查构念凝练为三个方面:价值判断;分析抽象概念;辩证解读概念关系。

但从前面的实验结果可以发现,被试考生更多地关注了漫画上的人脸信息,集中关注了漫画上“98分被打脸”的信息,而没有将“98、61、100、59”四个抽象数字综合联系,更缺乏将四个抽象数字与漫画上“打脸”和“亲吻”的符号进行辩证关联。造成这种偏差的内在原因有两个。第一,命题者以成年人的理性视角高估考生的认知水平。这在前文引用的《高考试题分析》中已经有明确的体现:“如果忽略组别,从左往右看漫画,右边人的分数由55到61,虽只有6分的进步,但由批评转为表扬,左边人的分数由100降为98,却由表扬变为批评:低分者取得进步值得表扬,但满分者变为98分就遭受批评,这就提供了另一思考角度,事物起始阶段都有发展空间,但到一定高度后,其提升空间就会越来越狭小。”这段话表明命题者以分数值这一抽象概念作为分析漫画的出发点。第二,考生虽然处于步入成年阶段的临界点,但其思维的成熟度还远远未达到完成理性分析问题的阶段,更多的思考方式仍然以感性认识作为基本的出发点。

综上所述,命题者构念的三个方面所生成的三个测试点与被试考生的思维特征不能准确对接。由于在被试接受刺激材料后的反应与试题期待的考查点发生偏移,导致这道试题的内容效度较低。如图3:

(二)高考(全国卷)文言文试题分析

高考命题人在《高考文科试题分析(2018年版)》对这道高考试题的命题立意解析是:“本题考查考生对文言文的理解和翻譯的能力。”[6]命题人对此进一步展开解析:“理解是文言文翻译的基础,而对文意的理解又取决于对文中关键词语的理解。……题中的关键词语有‘臧否‘乱两处。‘臧否原指善恶,引申为褒贬人物、评论优劣,‘乱是干扰、扰乱,文中指用其他的话,岔开话题”。[6]由此可见这道试题的构念为:对文言文语段大意的理解和对文言语段中关键词语的理解。

从前面的实验结果可以看到:被试能依据所翻译任务从前文语境中找到有价值信息作为理解所译句子字词的凭借,但对文意的理解出现了较大的偏差,表明被试解释刺激材料的关键信息时出现了错误。此外,被试对句子中关键词的理解也出现了明显的错误,这表明甄别与整合材料关键信息的环节上没有顺利完成任务。如图4:

从命题构念上看,本道试题所考查的两个方面:对文意的理解和对文中关键字词的理解,均很好地对应了考生作答时的反应。被试考生的答题失误恰恰体现出了在这两方面暴露的能力缺陷。因此可以认定这道试题具有较高的效度。

综上所述,提升试题内容效度切实可行的路径是对考生进行“回测”,对答题过程进行模拟的过程性观察,从而发现被试考生面对特定试题刺激材料的反应与试题考查点、试题构念是否对应。

(二)改进建议

1. 试题设计上减少“噪声”

将高考(全国卷)作文试题与高考(全国卷)文言文翻译题对比,可以发现:文言文翻译题的试题材料设计更简洁,考查目标更集中,试题要求更明确。而作文试题则由于漫画呈现形式导致命题初衷与考生实际反应相背离。为了提升试题的内容效度,建议命题者在试题材料设计上着力于减少“噪声”。

以作文试题为例。由上述实验结果可知,被试首先关注的是人脸,而非试题中隐藏的抽象概念。正因被试的这一思维特征导致其他命题构念难以有效实现。因此提升试题效度可以将漫画变为两段文字材料:

甲同学说:我这次考了98分,比上次退步了两分,被批评了。

乙同学说:我这次考了61分,比上次进步了两分,被表扬了。

这样修改后减少了图像直观信息的干扰,让不同层次的考生都能关注材料中的基本概念:“98,61”,“进步,退步”,“批评,表扬”,从而与试题的命题构念:“价值判断;分析抽象概念;辩证解读概念关系”密切对应。

综上所述,减少试题“噪声”提升试题内容效度的路径为:从命题构念出发,推测考生面对试题材料可能产生的偏离表现,从而简化试题材料使考查测试点清晰呈现,确保答题要求能准确对应试题构念的基本组成要素。

2.在日常教学中以被评价者视角增强“评价对焦”

将上述实验结果推广到教师的日常教学中。如能更多依据学生模拟测试的过程性数据,以及过程性数据形成的有价值的经验沉淀来调整评价者的视角,从而达到评价者与被评价者“对焦”,应是提升评价精准度的有效路径。

以前文所述的高考(全国卷)漫画作文试题为例。如果将这道试题作为日常教学的练习题,为提升评价精准度,“首先在教师这一端需要用批判性思维审视自己的理念、自己的教学设计”[7]。教师在施测前应考虑:“教师的‘教学脑所形成的教学信念、教学逻辑是否有值得修正和完善之处?教师在指导学生运用批判性思维展开阅读和写作的过程中,是否有‘值得批判之处?教师的教学设计是否能够在充分研究学情、弥合认知落差的基础上优化?”[7]

带着这样的思考,教师对被试学生的认知视角做出预测,同时也可以搜集学生的答题个案,先进行模拟测试,以验证自己的预测。这样做的目的是修正脱离学生认知视线的“成人化”设计。仍以这道作文题为例,教师基于过程性评价视角可以将评价点确定为:

要素提取:学生描述并比较人脸上的表情变化;

要素含义:学生分析受到奖惩后的喜和悲,以及对每幅画中人自我认识产生的影响。

这两个评价点从最直观的信息“人脸上表情变化”入手,并提取出最直接的含义“喜和悲”从而深入挖掘对自身的认识。将学生普遍关注的人脸信息作为思考的起点,将对人脸表情变化背后的个体影响作为思考的落点,符合学生的认知视线。由此,在切合学生认知视角的前提下,让试题本身的考查点能与之“对焦”。

综上所述,教师在日常教学评价中,应更多考虑学生的思维生成过程与评价材料之间的互动关系,找到学生认知视角与评价材料测量目的之间的契合点,从而设计出符合学生认知视角的评价方案。

参考文献:

[1] 汪亮.人类视觉的眼球运动机制[J].高校科技,2014,(20):185.

[2] 万春莲.基于交互指标工作负荷的垂直碰撞风险模型[J].滨州学院学报,2016,32(02):20-21.

[3] 郭明涛.不同工作记忆辅导员对情绪面孔的注意偏向[J].文学教育(下),2016,(10):152-153.

[4] 刘丽萍,刘海健,胡笑羽等. SWIFT-Ⅱ:阅读中眼跳发生的动力学模型[J].心理与行为研究,2006,(03):230-235.

[5] 教育部考试中心.高考文科试题分析:2017年版.语文数学英语分册[M]中国版本图书馆CIP数据核字(2016)第286981号.北京:高等教育出版社,2016:38-39.

[6] 教育部考试中心.高考文科试题分析:2018年版.语文数学英语分册[M]中国版本图书馆CIP数据核字(2017)第277275号.北京:高等教育出版社,2017:25.

[7] 余航.中学语文答题诊断术:作文教学探案集[M].中国版本图书馆CIP数据核字(2019)第107020号.福建:海峡文艺出版社,2019:27.

Accumulating Evidence of Content Validity by Tracking the Eye Movements of Students' Answers:A Case Study of Chinese Test in College Entrance Examination

Yu Hang

Fujian Hua'an Zhengxing School,Zhangzhou,Fujian,363000

Abstract:How to evaluate the validity effectively is an important issue in educational measurement. In order to effectively evaluate the validity of high-stake examinations such as high school entrance examination and college entrance examination,taking Chinese subject as an example,the infrared eye tracker was used in the process of students answering the questions in previous years to track the requirements of students' reading questions and the thinking track of students' answering,so as to portray the thinking process of students' answering questions. The eye tracker monitors a series of psychological reaction data in the process of answering questions and later student interview records to generate psychological reaction samples for answering questions. These data samples are compared with the targets expected to be measured by the proposer(taking the college entrance examination Chinese as an example). After comparison,it is found that there is a large deviation between the knowledge points and ability points expected to be measured in some test questions and the actual psychological reaction of students. A relatively perfect testing system for the validity of test questions is established from the relevant data of the subjects' eye movement tracks and psychological reactions when they are faced with different stimulus materials. Based on the study of data samples,the paper puts forward some suggestions for the optimization and improvement of test questions.

Key words:Eye Movement Track,Psychological Reaction,Chinese Test of College Entrance Examination,Content Validity

(責任编辑:陈畅)

作者简介  余航,高级教师,福建省华安正兴学校。福建省漳州市,363000。

猜你喜欢

内容效度
COSMIN方法介绍:评价患者报告结局测量工具内容效度的评分系统
新高考下浙江高考英语听力与新托福听力的对比研究
2015—2017研究生英语入学考试(一)阅读部分内容效度研究
广西普通高中学生学业水平考试英语书面表达内容效度研究
TEM4阅读题型的内容效度研究
英语专八阅读理解部分内容效度的历时对比研究(2009—2017年)
英语专业八级考试阅读理解的效度研究
大学英语新四级阅读理解内容效度研究
基于新课标的高考英语写作题型内容效度研究
浙江省2008—2012年高考英语完形填空测试内容效度研究