考试的构念界定及验证探析

2018-02-08刘庆思

中国考试 2018年10期

刘庆思

（教育部考试中心，北京 100084）

构念是心理学中的一个重要概念，“是指用来解释人类行为的理论框架或心理特质，它是心理学中抽象的假设性的概念、特质或变量。”[1]1955年，Cronbach和Meel提出构念效度的概念，将构念引入到教育和心理测量中，构念效度被定义为“能够测量到某一理论构念或特质的程度”[2]95，成为效度研究的一个重要方面。1989年，Messick提出以构念效度为基础的效度整体观，得到教育和心理测量界的广泛认可，构念在测量研究中的作用日益凸显。

在教育测量领域，研究人员倾向于将构念直接界定为考生的能力，Bachman等指出“我们可将构念视为对（某项）能力的特定界定”[3]21，Fulcher认为“构念即是学习者的能力，我们相信该能力是考生在考试中表现的基础”[4]96。从内涵和性质看，考试构念具有3个显著的特点：第一，它是研究者设计出来的，尚有待证实。构念并非先天存在，往往是研究人员根据自己的观察和研究结果提出来的理论假设，需要从理论和实践2个层面进行综合性的研究和论证。例如，100多年前研究人员即提出了“智力”（intelligence）这一构念，但时至今日，围绕这一构念的研究和争论仍在继续[4]96。第二，构念是抽象的，不可直接观察，但它往往与稳定、可观察的事件相关。对这些构念的判断，在一定程度上来自于从相关个体行为中观察到的很多具体事例[4]96。很多英语考试所考查的交际语言能力即属于此类没有实体的抽象概念，无法直接观察和测量，但考试人员却可以通过向考生提供考试、评判答题情况来推测他们在这方面的水平。第三，构念的界定需要基于特定的理论模型。一个构念往往含有许多构成要素，组成一个相互关联的构念子集，或称构念域（construct domain），而构念域中各要素间的关系往往只有借助理论模型才能厘清。如，按照Bachman和Palmer的交际语言能力模型，交际语言能力由语言能力、策略能力、心理生理机制构成，其中的语言能力包括语言组织能力和语用能力，语言组织能力包括语法能力和语篇能力，语用能力则包括语义能力、功能能力和社会语言能力[5]。

1 为什么要界定考试构念？

构念界定是考试流程中必不可少的一个环节，是考试设计和评价所需要的基础性工作。考试研究人员历来都非常重视考试构念的界定，Fulcher将构念界定列为考试设计中的一个重点环节[4]94，Bachman和Palmer明确指出了构念界定的3个主要目的：一是指导考试命题工作，二是为基于预期目的使用考试分数奠定基础，三是使考试命题者和使用者得以呈现分数解释的构念效度[3]116。

构念界定对考试设计和试题命制至关重要。试卷设计的一项重要任务即是将抽象的构念转化为可以观察、能够直接测量的考试任务。设计考试自然首先需要知道要考什么能力，明晰这一能力的构成要素，也就是明确考试的构念。在此基础上，才能设计出相应的考试任务，为其后的试题命制奠定基础。命题工作同样需要构念界定结果的支持，这有助于提高试题对所考查能力要素的覆盖程度和平衡试卷中各类试题的难度水平。

构念界定是确认考试分数使用合理性、提高考试分数可解释性的必要前提。任何考试都有其预期设计目的，或是全面考查或是仅仅考查某个方面的能力。使用考试分数无疑需要知道分数所承载的这类信息，知晓如果得到某一分数就具备了哪些能力、能做哪些事情，使考试分数的使用有理据可依，这就需要对考试构念进行明确界定、细化描述。如，2018年教育部考试中心发布了中国英语能力等级量表，以“能做之事”的形式从多个维度、多个层次对英语学习者的英语语言能力进行详细描述，为各项英语考试确定考试构念提供了重要参考，同时也有助于提高考试分数的可解释性。

构念界定是进行效度研究、呈现效度研究结果的必要条件。效度是指“我们能够对想测量的、作为能力或构念标识值的考试分数进行解释的程度”[3]21。因此，效度研究是在构念界定工作已经完成，考试任务设计、命题、实施和评分已经结束的情况下进行的，构念界定是效度研究的前提。构念界定所依据理论模型的科学性，所确定构念子集的合理性、清晰性和全面性，对后续考试各个环节的工作影响重大，会清楚地呈现在效度研究结果中。

2 如何界定考试构念?

作为考试设计中一项奠基性的工作，考试构念界定需要在深入细致研究的基础上进行。构念界定的方式依据考试的性质、用途，大致可分为2种：一是基于教学大纲或课程标准的界定，另一种则是基于理论的界定[3]118。实际上，教学大纲要求培养的各种学科能力依然来自相应的理论，只不过是依据特定教学需要进行了梳理和细化，由此看来，基于教学大纲的构念界定也可认定为基于理论界定的一个特例。

基于教学大纲进行构念界定的对象，主要是各级各类学校中的成就检测类考试，包括学习成就考试、诊断性考试、分班考试等，同时也包括一些以教学大纲为依据的升学类考试。针对这类考试，构念界定的任务即是将教学大纲中要求培养的各项能力及构成要素详细列出，之后从中选出能够在考试中进行考查的内容。以我国的高考英语科为例，它虽为高等学校招生入学考试，但被要求严格按照课程标准设计考试。课程标准中的核心素养可看作是该项考试以语言能力为依托的整体能力框架，包括语言能力、文化意识、思维品质和学习能力4个组成部分；课程内容中列出了主体范围、语篇类型、语言知识、语言技能、文化意识和学习能力等内容。语言知识和语言技能是该项考试传统的考查内容，其中的绝大部分内容在考试中具备可操作性；主体范围、语篇类型、文化意识等难以直接考查，但可以适当体现在对语言知识和语言技能的考查中。语言知识和语言技能均可细化为若干项内容，而这些构成了高考英语科考试构念中的主体内容。

基于理论进行构念界定的对象，主要是一些用于升学、招工的能力评测类考试。针对这类考试，构念界定的任务即是根据相应的理论模型和招生或用人单位对人才的需要，总结归纳出需要评测的各项能力要素，并从中选取能够在特定考试中可以考查的内容作为考试的构念。例如，ETS的TOEFL 2000将所依据的理论模型确定为COE（Committee of Examiners）模型，以“学术情景下的交际语言能力”为考试的总构念，并根据COE模型从多个纬度、多个层面对考试构念进行了界定[6]。

考试构念界定是一项理论性和实践性都很强的工作，研究人员在确定所依据教学大纲或理论模型的基础上，需认真考虑以下事项：一是构念界定的理据是否充分、可靠。所依据的教学大纲必须稳定可靠，理论模型必须经得起实证性研究的检验。二是所界定构念是否符合特定考试的实际情况。为特定考试界定构念时，必须充分考虑考生群体、考试用途、考试情境等方面的情况，为其量身定做考试构念，如Bachman等所言“考试设计者需在深思熟虑的基础上作出选择，详细列出能够在特定测试情景中进行检测的能力的构成要素”[3]116，绝不应将其他考试项目的构念直接拿来使用。三是所界定的考试构念会对考试后续工作带来何种影响。构念界定是考试设计中一项最为重要的基础性工作，直接影响着其后的任务设计、试题命制和评分标准制订等，虽然不应本末倒置地根据后续工作来确定考试构念，但界定考试构念时应该适当考虑到这些构念的可操作性。

3 如何围绕考试构念进行效度验证？

20世纪80年代末，随着效度整体观被教育和心理测量界广泛接受，构念效度成为效度研究的主体内容，曾经的效标效度、内容效度等都用于支持和协助构念效度的验证。最新发布的《教育和心理测量标准（2014版）》总结了效度研究应该关注的5个方面的证据：基于考试内容的证据（evidence based on test content）、基于答题过程的证据（evidence based on response processes）、基于内部结构的证据（evidence based on internal structure）、基于与其他变量关系的证据（evidence based on relations to other variables）和基于考试结果的证据（evidence based on consequences of tests）[7]。效度验证的主要任务即是从多方收集证据，对在考试各阶段提出的假设和推论进行验证，而这也就同时验证了考试构念界定的结果及落实情况。如果得到足够的证据支持，就说明该项考试分数解释的效度较高；否则，或是因为它进行构念界定所依据的理论模型存在问题，或是因为分数解释的效度低。因此，效度验证应包含以下2项任务：一是对构念界定的依据进行验证，二是对分数解释的效度进行验证。

3.1 验证构念界定的依据

教学大纲的制订是一项极为严肃的工作，往往是由学科专家起草和审核、权威部门发布，事先均经过大量的研究和论证。因此，进行效度验证时一般无需再对教学大纲中的内容进行验证。构念界定所依据的理论模型则一般都需经过必要的验证，验证的主要内容为模型中内容的完备性、各构成要素的重要性、各要素之间的关系等，模型验证往往需要多角度、多层次研究的支持。构念界定如果以已经验证、较为成熟的理论模型为依据，此项验证工作则可以略去。

3.2 验证分数解释的效度

目前，针对考试分数解释和使用进行的效度验证模式已涵盖考试的各个环节和与考试相关的各项内容，涉及参与考试的各类人群[8]。因此，效度验证需要从各方面收集证据，而证据主要来自考试内部、考试与考试之间和考试的使用。

3.2.1 来自考试内部的证据

按照所关注内容的不同，研究人员倾向于将来自考试内部的证据分成3个类别。

第一，基于考试内容的证据。搜集这类证据的目的是研究考试内容与所界定考试构念之间的关系，即考试在多大程度上检测了考试构念。研究内容应包括考试内容的各个方面，含考试任务设计的恰当性、应该检测内容的代表性、对不同考生群体的公平性等。内容比对和专家判断是搜集和分析这类证据的主要手段。

第二，基于答题过程的证据。搜集这类证据的手段，主要是要求考生进行“有声思维”，说出其在解答试题时的思维过程；也可观察和记录考生答题所花费时间、答题时的眼动情况等。这类证据可被用来分析考生的思维过程，研究考生行为的性质与所界定考试构念的拟合情况，对考试设计者的理论假设进行验证。

第三，基于内部结构的证据。这类证据来自对试卷各部分内容间、各个试题间关系的研究，主要用以分析与所界定考试构念的一致性程度，对于验证考试设计者的设计思想至关重要。研发考试时，设计人员会对试卷各部分的考查内容制订详细计划；考试结束后，可以采用探索性因素分析（Exploratory Factor Analysis,EFA）和验证性因素分析（Confirmatory Factor Analysis,CFA）的方法对设计思想的落实情况进行验证。

3.2.2 来自考试之间的证据

某项考试所界定的考试构念可能与其他考试的某些构念存在一些关系，通过研究这种关系也可以获得一些重要的效度证据。研究人员可以采用多种特质—多种方法矩阵法（multitrait-multimethod matrix）综合分析研究对象与构念基本相同考试和构念不同考试之间的关系，获得聚敛证据（convergent evidence）和区分证据（discriminant evidence），对分数解释的效度提供支持。如，高考英语科应与全国英语等级考试（PETS）的特定级别有较高相关，但与高考地理科不会有高相关；如果这一推断得以证实，就说明高考英语科考查了应该考查的内容、未考查不应该考查的内容，在分数解释和使用方面具有一定的效度。考试效标方面的证据，即传统的共时效度和预测效度方面的证据，同样可以在效度验证中发挥重要作用。

3.2.3 来自考试使用的证据

考试分数使用后即会产生各种各样的结果，有些可能与考试设计者的期望相符，如找出了学生学习中存在的问题，选出了合适的人选；有些则可能与其期望不完全一致，如某些试题因存在项目功能差异（Differential Item Functioning,DIF）而不利于某个群体（种族、地域、性别等）的考生，因试卷中试题难度分布不够合理，考试未能有效区分不同水平的考生。各项考试依利害程度的不同也会产生不同程度的后效作用，有些后效作用是正面的，如有助于促进因材施教、提高教学效率；有些则可能是负面的，如会导致过度关注考试内容，缩小教学范围。目前，研究人员日益重视对这类证据的搜集和分析。

总之，作为考试设计中的一项基础性工作，构念界定对确定和稳定考试内容、提高考试分数的可解释性、开展考试评价工作具有重要意义；而针对构念界定实施情况的研究则是考试评价中的一项重要工作，对监控考试质量、推动提高考试的科学性具有重要价值。考试设计人员应该切实重视考试构念的界定工作，选择或构建恰当的理论模型作依托，厘清构念域中各要素间的关系，确保构念界定基础扎实、逻辑清晰、科学规范；考试评价人员则应持续不断地开展构念界定及落实的验证工作，对考试分数的使用情况进行跟踪研究，为考试的宣传推广和改革完善提供有效支撑。