论考试信度和效度的关系

2010-08-15沈丽坤

文教资料 2010年30期

杨华沈丽坤

（保定科技职业学院，河北保定 071000）

1.引言

考试，作为教学的一部分，在教学过程中起着必不可少的作用。实行得当的考试有助于教学的顺利开展，对教学有很强的导向作用，有助于提高教学效果。一次成功的考试，可以帮助教师真实有效地获取所需要的有关学生能力或具体技能的信息。信度和效度是衡量考试质量的两个重要标准，是考试必须满足的两个基本条件。成功的考试应尽可能做到可靠、可信。

2.考试信度

考试信度（reliability），用确切的语言讲，应该是测量结果的信度。考试中的信度理论，就是教育和心理测量中关于测量误差的理论。

根据现行的教育和心理测量理论和实践情况，要给信度下一个较完整的定义十分困难。下面我们从定性和定量两个方面尝试给信度下个定义。

定性定义：信度是关于测量结果一致性程度的量度。这种一致性可能是关于不同时间的一致性，也可能是关于由等价项目组成的不同试卷间的一致性，也可能是关于不同评分者间的一致性，也可能是关于不同次决策的一致性，也可能是关于以上几种因素不同组合情况下的一致性。这种一致性通常用信度系数（一般用相关系数）表示。

定量定义：信度是关于测量结果偏离真值大小的量度。这种量度通常用测量的标准误差来表示（邹申，2005：132-134）。

考试要成为有效的测量手段，信度是其关键因素之一。在教学实践中，我们可以通过重复考试法、平行卷考试法、对半分析法三种方法来测定考试信度（邹申，2000：34-35）。

3.考试效度

衡量考试的另一个标准是考试效度（validity）。效度，是在教育和心理测量学这一特定语境中对“有效程度”或“有效性”一词的简称。

简单说，考试效度就是它在多大程度上考了想要考的内容。每次考试，不管何种类型，都应尽可能有效。考试必须针对提供对想要测量的个别技能的真实的测量：在一定程度上同时测量外部知识和其他技能，否则，它不是一个有效的考试。

例如，教师编制了一套口试题目，来考试学生口头表达语言的能力，考试的结果显示这套题目的确检查了学生在规定方面的能力，我们可以说这套考试题目具有效度。

又如，如果我们只想测量写作能力的话，下面这个考试项目就是无效的：“讨论‘摄影是一门艺术还是科学？’”很简单，因为它需要一些摄影知识，必然会对一些学生有利（Heaton，2000：159）。

考试的效度可以通过表面效度、内容效度、尺度关联效度、结构效度几个方面来检验。

考试效度是一个整体概念，四种效度应为这个概念的不同侧面。在确定一个考试的效度时，我们必须通盘考虑效度的各个方面。我们既不能只满足考试的表面效度，又不能孤立地评价考试的内容效度。只有联系结构效度来评价内容效度时，我们才能作出有意义的结论。任何论证结构效度的过程都包含内容效度、尺度关联效度或表面效度等方面。

4.信度和效度的关系

考试效度和信度构成评估考试的两个主要标准。如前所述，信度是关于测量结果一致性程度的量度，指的是考试结果（分数）的可靠性；效度指的是考试达到预定目的的程度。

一个考试可以具备较高的信度，但缺乏效度。如果我们用一个已被证明具有较高信度的阅读试卷去考学生的写作能力，考试结果有很高的稳定性也没用。试卷的误用无法使我们测量到期望的能力或技能。如果用尺子作为工具来测量人的体重，可能很“可靠”，在不同的被测者之间、不同的地点之间，可能会有很高的一致性，但这种测量对于测量体重来说是一个有效度不高的测量。

理想中的考试应该既有信度又有效度。然而，信度和效度之间存在着矛盾。考试的信度越高，通常效度越低。包含创造性技能的主观考试比如口试、角色扮演等在失去信度的情况下才可能得到较高的结构效度和表面效度。语言学习行为不可能只靠从所给选项中选择正确答案的能力去论证。

考试工作者所面临的选择是增加有信度的考试的效度还是增加有效度的考试的信度。如果想要增加有信度的考试的效度，这是不可能达到的，因为那些使考试可信的特征也正是使考试无效的特征。我们可以先设计一个有效考试，然后增加其信度。一个效度高的测评，一定有好的信度。但有高信度的测评，不一定有好的效度。信度是效度的必要条件，但并不充分。考试结果与要考试的内容越吻合则效度越高；反之，则效度越低。总之，某些测试对所要测量的行为具有更明显的代表性；而有些则不具有代表性。

信度是效度的前提条件。一个有效度的考试一定有信度，而一个信度很高的考试不一定有效度，这是信度与效度的最基本的关系（邹申，1998：259）。如果考试本身不可靠，我们就不能说考试有效地检测了所选定的语言能力或技能。确定效度的一些方法需要考试结果作为基本数据，如试卷内各项目之间相关的关系、考试成绩与考生特征之间关系的分析等。如果数据不可靠，考试效度也是无法确定的。

信度和效度似乎存在着不可调和的矛盾，是一种“你进我退”的关系，多一点信度就少一点效度，反之亦然。传统上，人们往往努力追求绝对的信度和效度，结果终究是徒劳的。因为不考虑效度，盲目增加信度，结果是一个考试在信度很高地测试着并非我们想测试的内容；而不顾信度盲目地提高效度，其测试结果只能是不准确不可信的，即绝对的信度和效度是没有意义的。两者相互妥协以达到共存的目的才是我们经过努力能够达到的，追求“绝对”只是一个美丽的“憧憬”（邹申，1998：260）。总而言之，对于考试来说，信度与效度都是必不可少的，信度是保证效度的基础，撇开效度只谈信度是没有实际意义的。

5.结语

信度和效度是衡量考试质量的最重要的两项指标。它们之间既相互依存，又相互排斥。一项考试如果可靠，则其效度很可能高，也很可能低；但是，如果一项考试不可靠，则该考试必然无效。保证考试的高信度和高效度是考试工作者追求的目标。但这只能是一个理想化的目标，因为一项考试要想做到信度和效度很高往往是不可能的，但我们绝不能为了追求信度而忽视效度，也不能为了追求效度而放弃信度。

［1］Heaton，J.B.W riting English Language Tests［M］.北京：外语教学与研究出版社，2000，8.

［2］邹申.语言测试［M］.上海：上海外语教育出版社，2005，9.

［3］邹申.英语语言测试——理论与操作［M］.上海：上海外语教育出版社，1998，7.

［4］邹申，杨任明.简明英语测试教程［M］.北京：高等教育出版社，2000，7.