现代测量效度视角下的大学教学评价

2019-04-26郭芷含陈劲松

高教探索 2019年3期

郭芷含陈劲松

摘要：高等教育的教学评价是一种广义上的教育和心理测量，有效性与现代测量效度理论相吻合，同时又会牵涉到众多复杂的教学因素，这种二元性容易导致研究中教学论与测量学的脱节。本文尝试通过现代测量效度理论的新视角去重新审视大学教学评价的各个环节，并探讨进一步解决问题的研究途径。考虑到高等教育的复杂性和多样性，我们把测量效度的内涵重塑为评价内容、过程和方法、数据和模型、校标关联、评价后果五个层面，并以此为基础反思教学评价。希望新的视角能有助于构建更加健全和成熟的大学教学评价体系，同时能开辟结合教学论和测量学的教育研究的新范式。

关键词：教学评价;测量效度;效度理论;高等教育;教育目标

随着高等教育的普及，高等教育的教学质量及其评价日益受到关注和重视，合理有效的教学评价对教学质量起着举足轻重的影响。但目前仍未有共识该如何界定和衡量教学质量，对其评价也面临着不少的争议和挑战，而且随着教学质量的评价在大学越来越普及，与评价相关的问题和争论也日益增多，因此迄今还没有被普遍认可的教学评价体系可资高校内部的监管、改进和发展使用。高等教育的教学评价牵涉到诸多复杂的因素，包含了教学目标和过程，评价的内容涵盖了教与学，评价的对象覆盖了课堂、课程和整个学科的教学，评价的主体可以是学生、专家和教师，评价的方式、时间和地点都有多种选择，因此构建合理的教学评价体系同时具有迫切性和挑战性。

针对教学评价的研究目前主要有两种视角：一是从典型的教学论视角出发，研究焦点是评价内容、指标或措施等是否合理，偏重经验主义，特点是富于思辨和理论，却容易忽略测量方法上的可行性或合理性，也缺乏实证检验;另外一种是从传统的测量学视角出发，通过测量和统计建模分析评价方法的信效度和题目参数，特点是分析检验过程实证而且严谨，不过容易忽视评价内容的合理性和整体的有效性。两种视角相对独立，但均未触及教学是教育过程、即通过教育活动以期达到特定教学目标这一本质，因此都不大可能彻底解决教学评价中的问题。教学评价是一种广义上的教育和心理测量，既有教育测试的内核，同时又会牵涉到众多的教育理论和实践元素，正是这种二元性容易导致研究中教学论与测量学的脱节。现代测量效度理论强调测量的有效性是一个整体的概念，而且必须围绕特定的目标从内容、过程、结构、效标和后果等方面构建[1][2]，这一思路为教学评价的研究和实践提供了新的视角。本文尝试通过这一视角去重新审视大学教学评价的各个环节，并探讨进一步解决问题的研究途径。

一、现代测量效度的本质

测量效度指一项测试是否有效测量了所想要测量的东西，是衡量这项测试最重要的指标。而那个“东西”指某种“概念或属性”，被称为构念（construct）。不过传统和现代测量学对效度的本质有不同的认识。传统测量学强调测量的工具性，效度是测量工具的内部属性并绝对存在。当测试能够测量出所预设对象的特征或属性时，该测量有效;反之则无效。[3][4]因此，教育和心理测量是物理测量在行为和社会领域的自然延伸，并在此基础上形成了构念效度：测量所要测的构念在理论上存在，并且与测量结果具有因果关系。这种因果关系是测量建模和检验模型有效性的理论依据。此后衍生出了内容效度、效标效度等不同的效度概念，分别从内容、效标等角度去验证测试的有效性。[5]不同类型的效度以及相关的验证分析相对独立，而且可能在不同场合起着关键作用。

现代效度与传统效度有着本质不同，是指证据和理论对测量结果的特定解读和使用的支持程度。[6][7]首先，测量结果的解读和使用源于测量目标或用途。效度不再是测量工具的内部属性，也不是绝对的，而是与如何使用测量结果息息相关。同样的测量结果在某种目标的使用下是有效的，换一种目标或使用可能就是无效的。其次，效度是一个整体单一的概念，不存在不同类型的效度。构念代表着全部测试行为的特征或模式，是全体测试行为的抽象化表征，因此构念效度代表着整体的效度。但构念效度不再强调测试行为和结果之间的理论性和因果性，而是强调两者关联具有合理性并且可被验证。再次，效度验证具有多面性，效度论据可以来自于五个方面（见图1），即测试内容、应答过程、内部结构、外部关联、测试后果。完整的效度验证需要从这五个方面进行。多个方面的效度论据围绕着构念效度，构成了完整的效度整体，任何一个方面的缺陷都会导致无效的测试解读或使用。但不同方面的效度证据并不互相排斥，而是相互作用和影响。比如测试内容的论据可能会涉及到内部结构或外部关联。因此，对同一测试用途进行多个方面的效度验证图1效度验证的五个方面相当于对有效性进行多重检验，从而增加了效度结论的严谨性和合理性。最后，由于牵涉到多方面的效度证据，效度验证也就需要整合不同类型、性质，甚至看起来相互矛盾的证据。论据整合的目的是形成合理的证据链，以期得出具有说服力、前后连贯并经得起考验的效度结论。论据的多样性和证据链的严谨性使得效度验证的过程更富于思辨性或批判性思维。

·課程与教学·现代测量效度视角下的大学教学评价

二、现代测量效度视角下的反思

教学质量的评价属于过程性的教学评价，过程性评价在理论上与泰勒的教学评价涵义吻合[8]，重要性也为众多的教育学者认同[9]，其以教育过程（如教学）和资源（如师资和教学环境）为评价对象，评价目标和功能面向教育业内和专业人士，以特定教育目标为前提对教育活动或现象进行评价，强调的是评价对象与评价结果的因果关系，赋予教育质量内在的合法性。教学评价是一种广义上的教育和心理测量，其测量目标内含教育目标，测量构念是面向特定目标的教学过程质量。与构念的本质一样，教学过程质量潜在于可观察的教学活动之下，是后者的高度抽象或概括，因此评价的有效性与现代测量效度理论相吻合。考虑到高等教育的复杂性和多样性，对其教学过程的评价牵涉到众多的教育理论和实践元素，我们对测量效度五个方面的内涵进行适当重塑，并分别命名为评价内容、过程和方法、数据和模型、校标关联、评价后果五个层面。

（一）评价内容

效度的内容层面关注评价内容是否合理，即评价什么的问题，具体包括内容域如何界定及其理论或实证依据是否充足，评价目标与内容域是否一致，以及实际内容如题目或指标是否足以代表内容域并表达适宜。内容域作为衔接评价目标与评价题目或指标的主要桥梁起着重要作用，其定义需要详细规范和具有可操作性，并建立在充足的理论或实证依据上。界定良好的内容域往往具有结构性、层次性和明确的边界。同时，大规模测评的内容域经常是多维度，甚至多级别的。

教学评价的内容问题牵涉到教学理论和实践。在效度视角下，第一个问题是很难在现有的教学评价中找到严格界定的内容域，而往往只有一些简单的内容分类或指标，如“教学态度”、“教学方法”、“教学互动”和“教学效果”之类。这些指标既没有详细或具有可操作性的定义，更缺乏理论基础或实证检验。由于缺乏内容范围这座桥梁，评价的实际内容往往与评价目标不相符，比如适用于诊断性或形成性的内容却用于高风险性和终结性的目的。其次，指标或题目内容容易有严重缺陷，比如表达模糊多义或者容易产生歧义，很难让评价者准确判断，或者让非专业评价者去评价需要专业知识的内容，比如让学生判断教师是否遵守教学工作规程或者教学内容是否具有先进性等。最后是内容表征不足，题目或者指标分布不均，内容大多只适用于评价课堂，课堂之外的教学内容比如课程目标、材料和结构、内容价值等较少涉及，对于课程体系的评价更付诸厥如。

针对以上问题，解决途径包括通过教学理论或实证研究去界定严谨的内容域，组织有丰富教学实践经验的专家根据评价的目标重新设计指标或题目内容等。内容域需要更多覆盖课程整体，并且纳入课程体系，使得课堂、课程和课程体系的评价协调一致，并足以代表整个学科的知识体系。

（二）过程和方法

效度的过程和方法层面关注整个评价过程及方法是否合理，即如何评价的问题，包括评价的过程、方式和工具是否合适，评价者选择是否恰当等。在教学评价中评价者扮演着重要的角色，主要可区分位两类评价者——学生和专业人士。这两类评价者会导致完全不同的评价过程与方式，各有各的优缺点，并且在理论上可以互补，但如何互补还没有实际的案例，二者的关系也还缺乏实证的检验。

学生是教学过程的直接参与者，是最重要的接受者和教育对象，全程参与了所有的教育活动（课堂、课程和课程体系），对教学的过程具有直观的判断和主观感受，最具发言权。而且学生评教的方法较容易进行，人数多且方便多次测试，大学生群体还容易接受新的测试技术、方式或内容。事实上，学生一直是教学的主要评价者。但是学生评教也发现了不少问题，包括反应偏差较大，随机、默认或从众等效应明显，评教的结果重测信度不高，且分数同质性较高、区分度较低，容易出現偏态分布等。[10][11]出现以上问题主要的原因有：（1）评教的结果更多的是作为教师的考核指标，而弱化了对教师的改进教学和对学生的有效学习提供帮助这两方面的作用，使得学生不能在评教活动中感受到对切身利益的影响，缺乏评教动力，容易抱着“应付了事”的态度随意选择。[12]（2）每学期的例行评教，使用的是不变的量表，使得学生对量表过于熟悉而产生麻木感，评价时间集中在期末，评价结果容易受到首因效应的干扰，每学期近十门课的评价负担过大，易产生疲乏感，采取被动消极的态度，这些因素都大大增加了反应偏差。（3）评教内容难以判断，学生的评教更多基于自己的学习体验，而较为抽象的评价内容（例如“课程内容是否反映学科前沿”、“是否符合课程大纲要求”等），学生不了解或无法判断，不能够做出客观的评价。[13][14][15]（4）学生对教学评价的作用并不了解，或者感觉教学评价形式重于内容，担心评分过低会影响教师的职业，因此打分过于“仁慈”，导致分数虚高而且不具有区分度。

相比较于学生评教，专家评教能够体现其专业性和客观性，更有公信力和说服力。但是其主要的缺点是人力资源和时间制约，人数少或参与成本高;专家难以全程参与和覆盖全部课程，往往只能根据短暂的课堂听课印象对整个课程评分，有失片面;而且专家在课堂的出现容易对教学产生影响，甚至会产生完全不同的教学效果;对专家的专业性要求高，尤其受到学科方向的限制而选择面小，甚至容易产生一个小圈子内相互评价对方的现象，这些都是专家评教中较为严重的争议。还有，老专家或教师容易对教学评价中的新技术、政策和理念产生抵触情绪，影响评价的执行。另外，目前仍没有令人满意的方法可以使得学生和专家评教互相兼容，形成一体。

对于以上问题，最合适的解决途径是依赖于研究和实践经验建立完善的学生和专家评分机制，在克服二者缺点的同时使得两者能良性互动。同时，我们还可通过质性研究（学生的有声思维分析、专家的深度或结构化方法等）对应答过程进行效度检验。

（三）数据和模型

效度的数据和模型层面关注评价的模型和数据是否经得起实证检验，具体包括模型结构的宏观层面、题目参数层面和题目量尺的微观层面，验证过程建立在测量建模和统计分析之上。在教学评价的情境中，评价模型具有多维和多层次（比如总分与各维度分）的特点，宏观层面指内容维度的关联性和内容结构的层次性，但在实际中宏观结构经常被忽视或缺乏清晰的概念，类似维度概念如内容指标也一般没经过实证数据检验;题目参数比如辨别度决定了题目质量和计分权重。理想情况下评价题目应该质量接近，计分权重均等，但实际中题目的权重往往相差几倍，而权重设置同样很少经过模型数据验证。这两个层面的问题与内容问题具有一体两面的关系，即测量学下的内部结构不合理对应着教学论下的测试内容不合理。评价题目的量尺一般应该选用典型的心理量尺比如李克特或等级评定量尺。但在实际中经常会出现不规则的量尺，比如优、良、中、差分别代表0.95、0.75、0.60、0.30的计分系数，这样的量尺既不符合心理测量的序数或连续尺度，也很难让评价者理解和选择，而且目前还没有发现可以证明其合理性的实证研究。

以上问题的解决依赖于以测量建模和统计分析为基础的实证检验，分别在宏观层面检验通过数据模型拟合检验内容结构，在题目参数层面分析题目质量并优化，在题目量尺层面使用经典量尺并验证其合理性。

（四）效标关联

效度的效标关联层面关注评价结果与效标变量的关联是否合理。教学评价是过程导向的评价，强调的是评价对象与评价结果的因果关系，提供教育质量内在的成因或机制，赋予教育质量内在的合法性;而效标是成果导向的，面向教育外界和社会，强调的是评价对象与评价结果的相关关系，赋予教育质量外在的合法性;两者相辅相成。在教学评价中忽略效标关联将使我们难以从外部去验证教学评价的合理性，甚至会影响评价结果的公信力和说服力。

实际上可以用作教学评价的效标很多，短期效标可以包括学生参与度、教师满意度、学业成绩等，中长期效标可以是学生升学或就业率，毕业若干年后的收入等，还可以综合间接产出指标（如学术声誉、研究成果和校友捐赠）和辅助指标（如财政资源和学校规模）等建立起长短期结合的效标体系，为教学评价的有效性提供外部依据。

（五）评价后果

效度的后果层面关注评价结果的解读或使用所带来的社会效应，包括预期和意外的。（1）预期的后果，也就是直接或者间接地来自于评价结果的解读或使用，是否成立;（2）是否存在显著的意外后果，尤其是负面的。需要说明的是，后果层面旨在检验后果的来源是否与评价有关，而不会对后果性质的好坏做出价值判断。检验后果是否来自于评价的设计或过程是测量技术层面的，而判断后果性质是价值观层面的。

在教学评价的情境中，评价结果的使用可能具有高风险性，无论是预期还是意外的后果检验都非常重要。比如，我们基本会假定采用教学评价的实施会带来教学质量或水平的提升，但这预期后果目前还缺乏坚实的研究证据。如果检验不到相应后果，必然意味着效度验证的其他某方面存在问题，如评价内容或方式有缺陷，必须修正。若教学评价的结果对于教师发展重要，比如用于教师的人事考核，决定教师的奖惩甚至是未来升迁，而学生是评价主体的话，这样高风险的使用很有可能带来师生间相互妥协的后果，教师对奖惩的关注超过了对教学活动改进的关注，影响到教师与学生关系，甚至出现教师给分高那么学生评教分数就高的现象，导致教师为讨好大多数学生而降低教学难度和深度，[16][17]反而会降低了教学质量，扭曲了教学评价的本来意义。

三、新视角下的深入研究

在测量效度的新视角下，研究者可以从多个方面对教学评价进行更深入的研究分析。首先是应该评价什么的首要问题。完善的教学评价体系应该具有坚实的理论基础，因此我们可以结合教学理论构建合理的评价原理和内容框架。好的评价原理应具有承上启下的作用，上可以厘清高等教育的目标和方向，下可以引导教學评价的方法和实践层面，也就是如何评价以及在具体情境下如何实施的问题。高等教育的教学是通过教育活动以期达到特定教育目标的过程，因此，教学评价是建立在特定教育目标的基础上的。考虑到高等教育的复杂性和多样性，我们可以借鉴教育目标理论和目标分类学[18][19][20]构建适合高等教育的教学目标、目标分类和相应的评价原理和内容框架。同时，考虑到高等教育的教学活动以学科为中心，主要通过课堂、课程和课程体系的三级教学层次去实施，所对应的教育目标和评价原理也应该具有相应的层级关系。

其次，对学生评价的过程和方式的研究可从以下几方面入手：（1）研究分析学生的评教心理，如何基于这种心理进行宣传、引导和培训，以及如何设计量表和题目以减少因心理差异引起的反应偏差，比如量表和题目的轮换和随机出现、反向题目的比例等，还可以分析采用不同的反应格式和不同尺度的心理量规对学生评教的影响;（2）研究课堂、课程和课程体系评教的次数和时间节点上更合理的选择;（3）研究如何结合新的计算机和信息技术构建现代化的评教方式和系统，以及对师生们所可能带来的影响。对专家评教过程的研究可从以下几方面入手：（1）研究如何按不同学科进行专家分类，以及如何为不同学科、课程和课程体系筛选专家，还可以研究专家的评教心理，以及如何更好规范专家的职责。（2）研究者需要建立具体的模型和算法去监测专家的评教行为，尤其是评教的一致性和波动性;还可以利用专家评教结果修正学生评教结果，从而构建专家对教学过程的监测机制。（3）研究如何利用现代化的信息技术帮助专家评教，比如整合所有课程和课程体系的信息和材料、对课堂教学录播并随机给予专家评教等。

最后，对评价结果的使用和评价体系的监管研究可从以下几方面入手：（1）研究如何对评价结果按不同的标准等级进行分级使用，以及如何通过具体的建模分析建立或调整分数线;同时需要追踪评价结果使用带来的不同后果，以及分析此类后果是否来自于评价设计或过程上的不合理因素。（2）收集合适的效标变量（短期或中长期效标），并分析它们与评价结果的相关性。具有一定关联的效标变量可以用于构建成果导向的指标，而指标权重可以从相关强弱推算，也就是说与过程性评价结果的相关研究可以赋予成果性评价更高的外部有效性。（3）研究如何以评价效度为基础衔接其他的效度概念，比如教学效度[21]，从而促进教学评价与教学实践的良性互动，把教学评价拓展到更广阔的教育领域，甚至催生教育改革和创新。

借助现代测量效度的视角能有助于构建更加健全和成熟的高等教学评价体系，同时能开辟结合教学论和测量学的教育研究的新范式。教学评价不但从内部界定了教育质量，还能衡量高等教育的人才培养标准，解读教育质量内在的成因或机制，可用于学校内部的监管和诊断，追踪纵向的成长，并能促进教育过程与活动不断调适、改进和发展。完善的教学评价对学科和课程建设、教师教学以及学生学习都有着举足轻重的影响，具有承上启下的作用，上可以引导教学和课程改革，激发教学热情，下可以促进学生学习，从而形成“教学评价教学改革人才培养”的良性循环。希望在后续研究中进一步探索如何结合现代测量和教育理论，并能形成与之相关的、更为大规模和高水平的高等教育研究，从而为进一步提升我国高等教育的质量做出贡献。

参考文献：

[1][6]AERA，APA，NCME.Standards for educational and psychological testing[M].Washington，DC：American Educational Research Association; 1999：8-9.

[2][7]AERA，APA，NCME.Standards for educational and psychological testing[M].Washington，DC：American Educational Research Association; 2014：9-11.

[3]Kelley T L.Interpretation of educational measurements[M].New York，NY：Macmillan; 1927：6-8.

[4]Cattell R B.Description and measurement of personality[M].New York，NY：World Book; 1946：3-4.

[5]Crocker L M，Algina J.Introduction to classical and modern test theory[M].New York，NY：Holt，Rinehart，and Winston; 1986：122-125.

[8][18]拉尔夫·泰勒.课程与教学的基本原理[M].北京：中国轻工业出版社，2014：113-117.

[9]刘志军.教育评价的反思和建构[J].教育研究，2004（2）：59-64.

[10][13][16]林光彬，张苏，樊彬彬.大学生评价教学质量的逻辑——来自调查研究的证据[J].教育研究，2012（10）：93-98.

[11][14][17]林光彬，洪煜.学生评教的行政化与学术化论析[J].教育研究，2016（8）：40-46.

[12]童亨茂，刘瑞珣.中国高等学校学生评教之痛——问题与对策[J].中国地质教育，2014，23（4）.

[15]杨晓峰.高校“民粹本位”教學质量评价的困惑与出路[J].高教探索，2012（3）：78-81.

[19]Anderson L W，Krathwohl D R.A taxonomy for learning，teaching，and assessing：A revision of Bloom's taxonomy of educational objectives[M].New York：Addison Wesley Longman; 2001：4-6.

[20]Marzano R J，Kendall J S.The new taxonomy of educational objectives.2nd ed.[M].Thousand Oaks，CA：Corwin Press; 2007：12-14.

[21]Pellegrino J W，Dibello L V，Goldman S R .A Framework for Conceptualizing and Evaluating the Validity of Instructionally Relevant Assessments[J].Educational Psychologist，2016，51（1）：59-81.

（责任编辑陈志萍）