NAEP 2019阅读评估框架分析及启示

2023-03-23云何善亮

教学与管理(理论版) 2023年3期

章云何善亮

（1.南京师范大学教育科学学院，南京，210097；2.南京师范大学课程与教学研究所，南京，210097）

阅读素养是个人整体文化素养的体现，也是衡量国家综合国力的重要指标，集中表现为学生运用词汇知识的能力以及阅读理解和分析能力等认知方面的能力。阅读素养之于个体和社会发展的独特价值，使人们越来越重视阅读素养的评估问题，并形成了一些著名的国际阅读素养评估项目，如国际学生评估项目（PISA）、美国教育进展评估项目（NAEP）、国际阅读素养进步研究（PIRLS）等。在这一背景下，深入研究美国NAEP 2019阅读评估框架的基本内容，对我国学生阅读素养评价具有重要的借鉴意义。

一、NAEP 2019阅读评估框架的由来

NAEP 2019阅读评估框架是美国国家评估理事会为评估特定年级（4、8、12年级）学生的阅读能力而专门建构和不断发展的一个指导性文件。阅读评估框架的建构包括确定评估对象、建立评估指标、制定评估方式和规定评估报告等方面内容，使得对学生阅读能力的评估有了可供参考的具体规范和标准。

NAEP 2019阅读评估框架经过了一个逐渐发展和迭代的过程。1992年，NAEP首次实施阅读能力评估，为此专门制定了指导评估学生阅读能力的基本框架，具体规定了评估对象、评估方式、评估指标以及评估题型、评分方式等内容。2009年，美国NAEP借鉴了国际阅读素养测评项目PIRLS和PISA等研究成果，对原来的阅读评估框架进行了全方位调整，形成了NAEP 2009阅读评估框架，并且沿用至今。比较这两个框架容易看出：在评估内容上，对于评估文本的分类更加清晰，明确文学性文本和信息性文本包含的具体类型；在阅读认知过程上，更加富有层次地呈现认知目标，具有递进性的特点，根据文本类型的不同，侧重于考查学生阅读能力的不同方面；在词汇评估上，更加强调采用系统方法评估学生的词汇掌握情况，并在评估结果上详细报告；在诗歌评估上，重视诗歌在学生阅读学习中的作用，各个年级均有设置诗歌评估；在文本来源上，重视材料的真实性和灵活性，要求材料含有正向的、激励性的意味；在文本长度上，重新考虑4年级学生适合的文本长度，将范围设定在200～800字；在文本选择上，除了需要专家的科学判定之外，还增加了基于文本可读性的判定，使文本真正适合特定年龄阶段学生的阅读特点；在试题类型上，所有年级都有设置客观题和主观题，考察学生多方面的阅读表现情况[1]（见表1）。

表1 NAEP 1992-2007阅读评估框架和NAEP 2009-2019阅读评估框架比较

随着信息技术的不断发展，阅读评估也从纸质评估过渡到数字化评估，这一变革不仅使得试题的呈现方式朝着立体化、多样化的方向发展，也使评估结果的分析和报告更加科学高效。信息技术的应用促使人们对NAEP 2009阅读评估框架进行微调，亦即在NAEP 2019阅读评估框架中，人们更注重和强调基于数字化的评估方式，从而给学生在学校教育和生活中所需的阅读能力提供了一个丰富而准确的衡量标准。

美国阅读评估委员会认为，NAEP阅读评估框架不仅是衡量学生阅读水平的国家指标，同时也能作为提高学生阅读成绩的催化剂，为学生自身和国家的利益服务[2]。鉴于此，美国阅读评估委员会特别重视评估框架的科学性，并专门成立由著名阅读学者、作家和课程专家组成的独立外部审查小组进行评审，使评估框架的合理性得到了保证。

二、NAEP 2019阅读评估框架内容

NAEP 2019阅读评估框架包括两个方面：一是NAEP阅读评估设计与内容，主要包括阅读评估涉及的文本类型、词汇评估、阅读认知目标和测评试题类型；二是NAEP阅读评估结果报告，分为两种方式，分别是NAEP阅读量表的平均分数和达到NAEP阅读成绩水平的百分比。

1.NAEP 2019阅读评估内容

（1）文本类型

从评价的角度来说，选择合适的阅读材料，是有效阅读评价的基础；从教学的角度来说，选择恰当的阅读文本，是保证阅读教学质量的基础[3]。NAEP阅读评估框架将文本分为文学性文本和信息性文本。文学性文本包括小说、文学纪实文本（包括散文、传记等）和诗歌文本，信息性文本包括说明文本、议论文本和说服文本，程序文本和文献文本。文学类文本和信息类文本在阅读评估中的作用不同，阅读文学性文本，如故事、戏剧、散文或诗歌，通常是为了使学生对文学作品产生个人的感受和体验，从而培养学生的审美情趣；阅读信息性文本，如杂志、报刊、演说性材料，是为了传递信息和知识，使学生能通过阅读有效提取信息，拓宽学习的视野。

文学性文本侧重于学生审美情趣和文学素养的培养，信息性文本侧重于学生获取信息和批判性思维能力的培养，两种类型的文本在4、8、12年级的阅读评估中都有涉及，但比例不同。针对不同阶段的学生，识字量和认知能力的发展都有较大的差异，用于阅读测试的文本长短也相应地不同。4年级学生的阅读文本最短，均衡地设置文学性和信息性文本，让学生了解两种文本的区别以及它们各自的作用，到了12年级，阅读文本相对来说更长一些，也更加侧重于信息性文本的阅读，着重评估学生的阅读分析和理解能力。

（2）词汇评估

词汇是理解任何文章的关键要素，任何一篇文章都是由或多或少的单词或词组组成的。不管文章的类型如何，阅读者必须认识文章中的单词或词组，从而理解句子和段落，概括和分析文章内容。NAEP 2019阅读评估将测评学生的词汇量作为阅读评估的一部分，测试读者是否有能力将文章中的重点词汇与恰当的题目选项表述联系起来。NAEP词汇评估通过测量学生的意义词汇来衡量学生的词汇量和阅读理解能力，其中，意义词汇是指一个人对词义理解的应用[4]。词汇意义评估假定学生知道一篇文章中所有或大部分词汇的意义，特别是那些传达与文章中心思想相关的信息词汇，它是理解的必要条件[5]。

（3）认知目标

阅读认知目标是指学生在阅读过程中心理活动或思维活动所要达到的目标，针对的是学生认知方面的能力。NAEP 2019阅读认知目标是根据其对阅读的定义总结得出的，它沿用了2009年修订的阅读概念，参考国际上具有代表性的阅读研究项目，包括美国兰德（RAND）阅读研究小组、国际阅读素养进步研究（Progress of International Reading Literacy Studies，简称PIRLS）、国际学生评估项目（Program for International Student Assessment，以下简称PISA），整合得出阅读框架中所强调的阅读内涵。

美国NAEP认为阅读是一个积极而复杂的过程，包括理解书面文本，形成和解释意义和根据文本类型、目的、情境运用适当的意义[6]。从定义中可以看出，它既强调学生对文本的理解，建构自己的认识和看法，又强调在不同的文本类型、目的和情境中灵活地解释和运用意义，并将其用来指导阅读认知层级目标的建立，分为寻找和回忆、整合和解释、批判和评价三大认知目标，适用于文学性和信息性文本的阅读认知能力评估。同时，根据具体文本类型的不同，NAEP会侧重于考查学生认知目标的不同方面内容，体现出较强的针对性和指向性。其中，寻找和回忆是指从阅读材料中找出基本要素和主要信息，概括回忆文本内容，属于低阶的阅读认知能力；整合和解释指审视和思考文本信息的具体内容，解释文本主要思想和作者写作意图；批判和评价是指从整体上对文本质量和内容加以判断，评价文本的优劣并给出恰当的理由，属于高阶的阅读认知能力。从寻找和回忆，到整合和解释，再到批判和评价，阅读认知能力的层级指标也体现了阅读过程的复杂性。

（4）试题类型

从2017年开始，阅读评估的所有题目都在计算机上呈现。数字化的阅读评估促进了试题格式的多样化，如利用视频、动态图片和超链接等考察学生对文本的理解和运用。NAEP 2019阅读评估的试题同样是借助数字化平台呈现，包括客观题和主观题。客观题包含单项选择题和多项选择题，预计大多数学生可以在一分钟的时间内完成，主观题包括简短的主观题和扩展的主观题，简短的主观题可以用一两个短语或一两句话来回答，学生需要两到三分钟来完成，扩展的主观题答案是详细的一段或两段话，学生应该在五分钟内完成。客观题和主观题的分布随着学生年龄的不同而不同，不同年级学生的阅读试题类型分布情况与他们在回答不同类型试题时所花费的时间相对应。由于4年级的学生书面表达能力还不是很强，因此，主观题更加集中在简短的书面答复上，8年级和12年级的学生将花更多的时间准备扩展的主观题。

2.NAEP 2019阅读评估结果报告

NAEP 2019阅读评估结果将从总体水平上报告学生的表现，并不诊断个人或学校的阅读好坏情况，防止影响学生身心的健康发展。阅读评估在两个方面分析和汇报学生的阅读表现：一种是学生在NAEP阅读量表中的平均分数，评分范围是0～500分，代表学生群体在阅读评估中的表现；一种是学生达到NAEP阅读成绩水平百分比，分为基本、熟练和高级三个等级，汇报不同级别学生所占的百分比。如四年级学生的阅读量表分数在0～208分之间时，处于基本水平；在238～268分之间时，处于熟练水平；在268～500分之间时，则处于高级水平。其中，阅读量表的平均分数是为一组学生或一个学生群体计算的，如计算来自一个种族或地区的学生阅读量表平均分数，NAEP并不为个别学生计算分数，防止产生过度的比较和竞争。成绩水平结果表示学生的表现满足他们应该知道和能够做什么的期望程度。它是累积的，熟练水平的学生掌握了包括基本水平相关的能力，高级水平学生掌握了包括基本水平和熟练水平相关的技能和知识。NAEP明确界定了熟练水平的学生具有的阅读知识和技能，熟练水平的学生具有优秀的学业成绩和应对挑战性学科的能力，学科知识扎实，能够熟练分析和运用知识，而基本水平的学生即部分掌握了对熟练级别的表现至关重要的先决知识和技能，高级水平的学生即具有超越熟练水平的卓越能力表现[7]。

三、NAEP 2019阅读评估框架的启示

NAEP 2019阅读评估框架的系统化和科学化使得其能准确客观地衡量学生的实际阅读水平，无论是从文本类型的确立，还是认知目标的层级细化，以及试题类型的构建等方面，都给我国学生的阅读素养评价提供了诸多启示。

1.系统设计阅读评估框架，全方位地评价学生的阅读素养

评估框架是评估的灵魂和核心，明确规定了评估的具体指标和方式等细则，是实施评估的中介和桥梁，决定着一项评估是否科学有效。建立科学严密的框架结构对阅读评价至关重要，评估框架牵一发而动全身，需要社会各界人士的集思广益，汲取国际教育研究的最新成果[8]。纵观NAEP 2019阅读评估框架，不管是从文本的分类、词汇的评估、题目的设置，还是认知目标的确立、评估结果的多方面分析和报告，都体现了评估的系统化和全面化。具体来说，在文本类型上，NAEP根据阅读内容的特点和阅读的目的，将文本分为文学性文本和信息性文本，分配在不同年级的阅读测试中，既满足了学生的学习兴趣和需要，又保证了学生能够获得有用的知识和信息。在阅读评估过程中，制定具体、可操作的层级评估指标，既测量学生的阅读词汇量，又测量学生寻找和回忆信息的能力，整合和解释信息的能力，以及批评和评价的能力，体现出评估的指向性和科学性。而且不同年龄阶段的学生所面对的文本长短和题目分布也不同，能够根据学生的阅读特点循序渐进地评估不同年级学生的阅读水平。

而从目前我国中小学的阅读评价现状来看，众多教师对阅读的概念认识不清，用于阅读评估的文本选择没有明确统一的标准，对阅读评估的意义和重要性理解不透彻，均导致学生的阅读素养普遍发展不甚理想。例如，阅读题目的设置带有较强的随意性和主观性，其背后没有明确地指向学生具体哪些方面的阅读能力考察，阅读评价也仅仅是分数的多少，而分数本身并不能真正代表学生阅读能力的好坏，其往往会因为批改教师的不同、学生擅长的文本类型不同等存在或多或少的差异。此外，阅读评估也没有针对不同年龄阶段学生的身心发展特征，设置阅读测评的类型和题目，信息性文本和文学性文本的比重也存在不合理之处。而且我国的阅读测评几乎不考察学生对理解文章具有重要作用的词汇使用，往往这些中心词汇对文章主旨的把握意义重大。在此，考察学生阅读文章时的种种表现都可以看做是对学生阅读素养的考察。阅读素养关系着学生学习的方方面面，如果对学生阅读素养的测评没有一套具体、可行的评估框架，就无法科学、有效地评价我国学生的阅读素养，也会对个人发展和社会进步产生影响。

2.建立阅读素养的层级指标，明确阅读素养的评价标准

阅读素养的层级指标清晰地指明了学生在阅读过程中应该知道什么和能够做什么，既指导着教师的教学，也指导着学生的学习。NAEP 2019阅读评估框架以阅读认知能力为评价核心，基于对阅读概念的认识，建立了阅读认知能力的层级指标，从基础的“寻找和回忆”文本内容，到“整合和解释”文本信息，最终到高级的“批判和评价”文本质量，由浅入深层层推进，从低阶思维过渡到高阶思维，循序渐进地评估学生的阅读能力水平。NAEP还根据不同的文本类型，考查学生阅读认知能力的不同方面，既有文学性和信息性文本的共有认知指标，也有针对文学性文本和信息性文本所特有的认知指标，指向性强，便于评估的操作应用。但NAEP 2019阅读评估中对于阅读的认识完全沿用2009年的结论，没有加以修改完善，明确界定“阅读”和“阅读素养”等核心概念用来指导评价标准的建立，对于阅读素养评价的科学性必不可少。NAEP的可取之处在于清晰地设定了具体、可操作的认知能力层级指标，用于文学性文本和信息性文本的阅读评估，既能清楚地知道学生擅长哪种文本类型的阅读，也能确定学生的阅读能力发展到什么样的水平，对教师的阅读教学和学生的能力提高都有方向性的启示。此外，NAEP将学生的阅读测评结果分为不同等级，明确不同年级学生的“基础”“熟练”“高级”水平所应达到的具体标准，也值得我们借鉴。

我国的《义务教育课程标准》虽然给出了阅读的概念，认为“阅读是运用语言文字获取信息，认识世界、发展思维、获得审美体验的重要途径。阅读教学是学生、教师、教科书编者、文本之间对话的过程”[9]。但对阅读的阐释过于简单，并未触及阅读的本质，与其说是对阅读概念的界定，不如说是对阅读功能的概括，难以对阅读教学和评估起到实质性作用[10]。对于阅读本身的认识不清，导致我国中小学的阅读评定没有清晰的指向，制定的阅读目标也缺少针对性和操作性。课标从阅读对象、阅读数量、阅读方法和阅读习惯等角度提出了相关的阅读要求，却没有提到不同年龄段学生阅读发展的表现性目标。关于阅读评价的建议，只是笼统地强调学生阅读过程中的感受和理解，关注阅读兴趣、方法与习惯，但是具体如何评价、评价指标如何建立等并没有提及。针对不同年级的学生，应该达到什么样的阅读水平，并没有形成具有量化标准的层级指标，这也使教师的教学和考试的评估失去了参考的标准。同时也导致阅读题目的设置没有针对性的和指向性的阅读分项评估目标作为依据，虽然不同题目的难度不同、分值不同，但是却没有实质性的意义和价值。“评价具有强大的导向功能，有什么样的教育评价，就有什么样的教育实践及学生发展。”[11]阅读素养评价标准的建立可以确保阅读试题的科学设置，也是有效测量学生阅读素养、检验教师阅读教学质量的重要依据。建立明确清晰的层级评价指标，根据不同的文本类型设立针对性、指向性的分项指标，既会增强评价的科学性和可行性，也会使教师的阅读教学改进有章可循，给学生的自我阅读检验提供思路。

3.按照学生的阅读特点，针对性地设立文本类型和试题类型

学生作为阅读评价的对象，生理和心理都还没有发展完善，关于阅读识字量、阅读速度、阅读能力等阅读特点都在不断变化中。因此，对于不同年龄阶段学生的阅读素养评价，需要设立针对性的文本类型和试题类型。NAEP 2019阅读评估框架针对4年级的学生，规定文本长度不能超过800字，均衡设置文学性文本和信息性文本，针对12年级的学生，规定文本长度不能超过1500字，侧重于信息性文本的设置，符合特定年龄阶段学生的阅读发展特点。两种类型的文本在各个年级都有设置，兼顾阅读的“审美性”和“实用性”，符合语文工具性和人文性相统一的特征。当学生接触文学型文本时，可以体会阅读的乐趣，也可以欣赏和学习作者的写作技巧，有利于发展学生的人文素养和审美情趣。当阅读信息型文本时，学生可以得到一些实用的信息，丰富自己的知识储备，有利于发展学生的科学素养和批判性思维。NAEP试题类型的设置也有年级上的差别，按照学生认知发展的特点，针对不同年级的学生，客观题和主观题比例不同。客观题着重考察学生的阅读再认和回忆能力，主观题着重考察学生的阅读理解和反思、书面表达能力等高阶阅读能力，二者相结合，综合测评学生的阅读表现。

在我国的中小学语文阅读评估中，阅读文本的选择以文学类文本为主，偏向人文取向，强调人文情怀，重在培养学生浓厚的阅读兴趣，帮助学生养成良好的阅读习惯。阅读评估较少关注信息性文本的作用，它可以带给学生一些实用、有效的知识和信息，扩大学生认识世界的宽度和广度。我国是拥有悠久浓厚历史和文化底蕴的国家，强调中华优秀传统文化的弘扬和传承，对于文学性文本的重视无可厚非，但是阅读学习和测评较少涉及信息类文本，会阻碍学生提取和应用信息能力的发展，限制学生语文学习的视野，对长久的学校教育有弊而无利。有必要调整文学性文本和信息性文本在阅读学习和测评的比重，以文学性文本为主，信息性文本为辅，将人文性和实用性有机结合，根据学生的阅读特点，考虑两种文本类型在评价不同年龄阶段学生阅读素养的比例。而客观题和主观题侧重于考察学生阅读素养的不同方面，在阅读评估中也均需涉及，二者缺一不可。以往的阅读测试不顾学生的阅读特点，以及出于客观题易于评分或主观题方便设置等原因，随机地设置不合比例的客观题和主观题，会导致学生的阅读兴趣和自信心不强，对语文阅读产生畏难情绪或厌烦心态。

在借鉴NAEP 2019阅读评估框架的成果时，需要看到其存在的不足之处和有待改进的地方，如对阅读概念的界定应与时俱进，及时吸纳国际阅读素养研究的新成果，不断完善阅读定义，以及注重评估学生阅读认知能力的同时，也需要重视学生情感、态度、兴趣等非认知能力的评估。针对我国学生阅读素养的评价，既需要吸收国际阅读素养评估的有益经验，也需要立足本土的阅读实际，确保阅读素养评价的科学性和有效性。