“走向未来数字世界”的多级自适应认知能力评估

2021-02-25刘晶晶万爱莲

语文建设·下半月 2021年12期

刘晶晶　万爱莲

【关键词】多级自适应测试，阅读素养，认知能力评估

阅读素养是促进人终身发展的必备能力。随着经济全球化、政治多极化、文化多元化时代的到来，基于数字环境的视觉图形信息处理能力、超媒体非线性多维思考能力、虚拟空间社会情感能力等，已经成为影响阅读素养的重要因素。然而，相比于国内小学阶段传统的阅读素养评估方式，数字阅读素养体系的开发与应用还未得到语文教育领域的足够重视。

国际阅读素养进展研究（Progress in Interna-tional Reading Literacy Study，简称PIRLS）项目是由国际教育成就评价协会开发，评估9～10岁小学四年级学生阅读素养的国际大规模测试项目。从2001年到2021年，每五年一届。至今参与国家或地区数量已从36个发展为60個。据前几轮PIRLS的评估报告显示，国家之间和国家内部阅读素养水平存在巨大差异，而且这种差异还在逐年递增。为了提升评估内容与学生阅读能力的匹配度，PIRLS曾经提供了难度较小的评估材料版本供各国选择（2011年和2016年提供了prePIRLS测评系统）。事实证明，prePIRLS虽然成功地扩大了能力较低学生的PIRLS覆盖范围，但它并没有解决能力较高学生所需要的更有挑战性测评系统的问题。

近年来，多级自适应测试（Multistage adaptivetests，简称MST）越来越受到大规模测试的青睐，因为与传统线性测验题相比，MST可以将锚定的指标覆盖到一定广度的多个题本，然后通过前后测试拆分，使学生最终只需随机完成其中一组题本即可获取真实有效的数据。也就是说，在面对广泛的测试内容与有限的测试时间之间的矛盾时，MST能准确分析出影响学生阅读素养发展的内部因素与外部因素，并能为制定教育政策提供更加客观的依据。为了满足测评系统能同时覆盖能力较低与较高两个方面的需要，PIRLS2021首次采用了“走向未来数字世界”的多级自适应试题编制技术。

MST较好地满足了PIRLS更大范围内评估难度匹配度及有针对性提升学生阅读能力的需求，也为各个国家或地区小学阅读素养评价改革提供了一种国际参照。经过比较与分析，我们将PIRLS2021的实施方式总结为对基于数字化阅读情境的开发、对基于深度学习阅读高阶认知能力的培养及对基于证据的国家或地区阅读能力测评模式的开发。可以说，PIRLS2021为各个国家或地区小学阅读素养评价发展提供了一种国际参照。

一、数字化阅读情境更加贴近学生生活

阅读素养是学生阅读过程及终身发展的必备品格与关键能力，与学生的兴趣、学习习惯和生活方式息息相关。与其他大规模阅读素养评价项目相比，PIRLS更加强调“阅读是读者在多种文本类型及语境中建构自我与世界意义的过程”。在电子设备未普及之前，大多数学生的早期阅读内容以叙事文本为主。但随着信息技术的广泛应用，学生的阅读能力快速提升，且呈现出低龄化的发展趋势。原有的纸质书籍与杂志已远远不能满足他们学习与生活的需要。《PIRLS2021评估报告框架》中指出，为满足10岁左右学生的阅读需求，PIRLS将提供更多有视觉吸引力的阅读题本，如电子杂志、报纸、电子邮件及短信息等新型阅读文本，以此激发学生的阅读动机。同时，这些多元化的文本内容还将通过软件进行编辑，呈现为数据列表、信息图标等可视化、交互式的混合文本。可以说，这些贴近学生生活习惯的阅读文本与阅读方式，对学生的阅读能力而言，无疑是一种新的挑战。

为了适应新的数字阅读情境，从2016年开始，网络模拟阅读能力（ePIRLS）测评正式成为PIRLS子项目。作为以计算机为载体的在线阅读测评，ePIRLS通过虚拟互联网环境，为学生提供了一个模拟网站。学生需要在测试过程中通过图形、多项卷标页、超链接或弹出式窗口，整合除文字以外的图片、影像、动画等不同类型的信息。同时，学生还须判断不同信息的真伪，并通过综合、归纳这些信息来完成相关任务。据PIRLS2016结果报告的数据显示，这些带有拖放、排序、下拉菜单的新题型更接近小学四年级学生的生活习惯和学习经验。接近九成参与测试的学生非常喜欢ePIRLS。可以说，网络模拟ePIRLS评估为PIRLS2021多阶段自适应测试实施提供了过渡。

PIRLS2021将阅读能力定义为：理解和使用社会所要求或个人所重视的书面语言形式的能力，读者可以从多种形式文本中构建意义，阅读是为了读者群体享受学习或更好地参与学校及日常生活。从定义中可以看出，PIRLS2021有以下发展趋势。

首先，PIRLS2021强调数字世界中文本的多样化。因为与传统印刷文本的线性方式相比，互联网是一个非线性的文本网络。所以，PIRLS2021更倾向于测评学生通过多样化文本创建自己的阅读路径的能力。其次，PIRLS2021鼓励学生通过数字化阅读来获得关于世界和自身的认知。与传统的阅读信息提取能力测评相比，PIRLS2021更倾向于测评学生从网络上寻找到对复杂阅读环境中信息的分析与处理能力，其分值占比为百分之八十（见图1）。

二、深度学习技术能更准确锚定学生高阶认知能力

近年来，随着脑科学、人工智能和学习科学等新型技术手段模拟人脑的深层次认知过程，实现了计算机数据的复杂运算与优化，推动了人的理性思辨、创造性思维、问题解决等高阶思维能力的发展。美国学者马顿在《论学习的本质区别：结果和过程》中指出，阅读过程往往指向两种策略，一种是表层学习，一种是深层学习。深度学习的学习者追求知识的理解并且能使已有的知识与特定的内容进行批判性互动，寻找知识的逻辑意义。PIRLS2021正是采用MST多级自适应测评技术实现了学生思维层次、学习动机、记忆方式、投入程度、迁移能力、社会情感等高阶认知能力的测量。

整个PIRLS2021评估包括18篇阅读文章（一半为文学类文本，一半为信息类文本）。按照多阶段自适应测试设计，PIRLS2021将评估题本分为易、中、难三个等级，每个难度级别包括3个文学类文本和3个信息类文本。在所设计的18个测试段落中，有12个文本在前几轮PIRLS测试中出现过，其目的是为各个国家或地区分析阅读素养的发展趋势提供依据。其他6个为首次启用文本，其中文学类文本与信息类文本各3个，平均分布在三个难度等级中，如表1所示。

在PIRLS评估中，每个学生被随机分配一组测试包，每个测试包由2个文本组成。在PIRLS2021中，这18个文本被安排成18个测试包。每个文本都会出现在2组测试包中，且与不同的文本配对。当不同难度的文本在同一测试包中配对时，其中较容易的排在前面。最终，这18个测试包根据难易程度排列，再次被分为2个难度级别。测试包1～9难度较大（由2个难的文本或1个中等加1个难的文本组成），测试包10～18难度较小（由2个简单文本或1个简单加1个中等文本组成），如下图所示。

基于以上设计，可以看出多级自适应试题编制技术具有以下特点。

（1）它能够覆盖更为广泛的测试目标。能否覆盖广泛的测试目标是衡量标准测验的重要指标，在传统测试中可能会选择有一定代表性的题目作为测试题本，这使得教师为了追求高水平学业表现而将教学重点集中在测验内容上，而忽略了对学生高阶思维的考查。MST则可以覆盖全部知识点，并能按照能力指定维度与占比编排试题。

（2）它可以減轻测试给学生带来的负担。阅读素养的提升是通过激发阅读者的阅读动机、元认知策略以及背景知识来构建意义的过程。对于10岁左右的学生来说，如果答题时间过长、题量过大，就会影响测试结果的解释力。所以，为了保证测试的效果，MST将测试时间控制在2个小时以内，且每个学生只需完成一组测试包。

三、基于证据的评价方式能促进国家或地区阅读素养的整体提升

长期以来，PIRLS都是各国改善教育质量及提升人口素质的重要参考依据。MST是基于国家与地区人口阅读素养整体提升的纵向与横向综合设计。从纵向比较来看，它通过将前几轮与后一轮测试中相同题本测试结果进行连贯性比较，从而为推进国家或地区教育政策持续性改革提供依据。从横向比较来看，它通过将同一试题的测试结果进行国家与地区的参照性比较，从而为阅读促进不同地区人群素质提升提供有力的证据支持。以俄罗斯为例，2011年俄罗斯的PIRLS成绩位居中国香港之后。然而，2016年俄罗斯平均成绩提高了13分，以612分的平均成绩碾压了其他国家，排名第一。这其中有一项重要原因是俄罗斯政府对人口阅读素养提升的重视。在这期间，俄罗斯政府启动了“俄罗斯历史年”（2012年）、“俄罗斯文化年”（2014年）和“俄罗斯文学年”（2015年）等国民阅读项目，致力于帮助国民重新认识阅读的作用和价值。又如，从PIRLS2016反馈结果来看，香港虽然并未卫冕冠军，但成绩并无明显下滑，居全球第三位。为此，从2017年开始，香港在语文阅读课程的教学过程中增加了电子设备的使用，并加强了对学生进行电子文本阅读、网络信息筛选等方面能力的培养。由此可见，这些从PIRLS获取的评估数据为本国国民阅读素养的提升和其他国家阅读素养的发展提供了很好的证据与借鉴（见图3）。

PIRLS2021为了确保18个文本都能够覆盖到每个国家，采取了根据前几轮测试结果为各个国家或地区提供不同比例资源包的方式。即前面几轮PIRLS成绩较好的国家按比例抽样难度较大的测试包，而表现相对较差的国家则按比例抽样较容易的测试包。平均成绩在PIRLS成绩等级中超过550分的国家，将随机分配70%较难的测试包，30%较容易的测试包;成绩在450～550分的国家将分配同等比例难度的测试包;平均成绩低于450分的国家，将按比例分配30%的较难的测试包和70%较容易的测试包。这一变化旨在提高参与PIRLS国家的测量准确度，使每个国家或地区的评估难度与学生能力有较高的匹配度。

除此之外，为了使学生能更好地适应数字形式的评估，PIRLS2021还设计了家庭、学校、课堂、学生、国家五类调查问卷。其中，PIRLS2021在课堂教学和学生信息技术使用方面增加了新的调查内容。在阅读教学方面，PIRLS通过调查学校是否为每个学生提供数字设备、班级是否有学生可以共享的数字设备、学生是否可以携带自己的数字设备上课等，来调查课堂上的信息技术使用情况。同时，PIRLS2021还收集了有关教师在教学中使用数字设备的信心程度，以及教师是否教学生在互联网阅读情境下选择文本及使用策略。针对学生阅读态度的调查，PIRLS2021启用了一个新的衡量学生对使用计算机或平板电脑的熟悉程度的调查，以此衡量他们在互联网上查找信息的自我效能感。

四、结语

20年前，大规模的教育测评成为世界潮流，这是因为人们迫切需要全面、真实地反映学生学习状况和发展水平的教育数据。20年后，在大数据时代，“走向未来数字世界”的多级自适应认知能力试题编制技术为评价提供了基于学科能力指标、试题设计、施测程序、分层计分的标准化的测验编制程序。可以说，PIRLS2021为阅读素养评估的科学化发展提供了国际参照。

首先，从传统的纸笔测试到数字技术测评的推广，无论是哪一种方式，评价所指向的都应该是人的发展性。2020年6月30日，中央全面深化改革委员会第十四次会议审议通过了《深化新时代教育评价改革总体方案》，首次提出“探索增值评价”。增值评价要求评价不能仅仅停留在知识水平的事实性与概念性上，而要通过评价引导学校及区域多元发展。即作为具有育人功能的增值评价应从“对学习的评价”走向“作为学习的评价”及“促进学习的评价”。

多级自适应认知能力评估以现代认知心理学、计量心理学、计算机科学等学科为理论基础。所以，迄今为止，越来越多的大型语言测试中采用了多级自适应认知能力评估方式，如英语语言测试托福（TOEFL）、密歇根英语语言评估（MELAB）、国际英语测试系统（IELTS）等。近年来，我国也出现了部分关于英语阅读理解、以汉语为第二外语的阅读理解以及汉语阅读障碍的认知诊断研究。但是这些研究多数是针对阅读的一个认知层面进行的诊断。如何充分培养小学生在数字环境下字、词、句、篇中的思维发展，并以此作为促进国民阅读素养提升的有力证据，则需要研究者们对阅读测评内容与方式进一步优化，针对我国小学生开发出基于认知能力框架的阅读理解形成性评估模型。

其次，在教学过程中应重视对学生阅读高阶认知能力的培养。与传统的语文学科阅读能力评估相比，阅读高阶思维是一种建立在证据和逻辑推理基础上的思维方式，它具有明确的思维方向及充分的思维依据。这其中包括了读者阅读过程中知识与文化，知识与社会，知识与历史的敏感度、关联度与迁移性。多级自适应技术的阅读素养测试是阅读者与世界的意义建构的交互模式，测量的是阅读者的反思性、批判性和创造性等理性思维。所以，PIRLS2021教师问卷收集了教师教学阅读理解技能和策略、数字文学相关的数据。

新时代小学阅读教学的意义追求不再是在预设教育过程的基础上达到知识量的累积，而是要通过阅读生成新知识、新经验、新想法的高阶思维能力，以实现将阅读作为精神种子的生命自觉的方式。所以，如何通过教学对学科知识内在育人逻辑进行挖掘，成为新时代阅读教学的重点。除了原有的三维目标以外，我们认为阅读教学目标设计应该充分体现知识的感性与理性、德行与智慧、情感与审美等促进人发展的内在价值。

最后，建构线上与线下一体化的阅读评估体系。PIRLS2021设计框架中还指出，数字世界的阅读将成为学校课程的重要组成部分。我国《普通高中语文课程标准（2017年版）》明确提出了“拓展运用语言文字交流的途径，学会用现代信息技术辅助交流，如使用计算机进行编辑、版面设计，并致力于线上线下媒介阅读的交流与融合”。在《义务教育语文课程标准（2011年版）》中也提出应积极构建网络环境下的学习平台，拓展学生学习和创造的空间，支持和丰富语文综合性学习。面对新时代的快速发展，我们还需要在数字环境下进一步探索学习评估的新方法，设计出适合小学生的阅读评价模型。只有这样，才能真正让阅读成为促进人终身发展的有效途径。

（万爱莲为通讯作者）