浅析CTT、IRT在HSK中的运用

2010-08-15姜莺鹰

科技传播 2010年22期

姜莺鹰

南京机电职业技术学院，江苏南京 211135

经典测量理论（Classical Test Theory，简称CTT）、项目反应理论（Item Response Theory，简称IRT）是心理测量界的两大著名理论派别，过去是经典测验理论一统测量领域，但是随着项目反应理论以及后来形成的可概括性理论（Generalizability Theory，简称GT）的发展，三者形成了鼎足之势，这在一定程度上也促进了心理测量的发展。但是就我国目前的状况而言，还是以CTT的应用为主，对于IRT的应用尚处于起步阶段，本文拟通过对CTT与IRT的对比，来探讨一下HSK考试中CTT和IRT的运用。

HSK全名中国汉语水平考试，是为测试母语非汉语者的汉语水平而设立的国家级标准化考试。HSK成绩是外国留学生进入中国高等院校学习专业的必要条件，并且已经成为国内外一些机构人员选拔的一种依据。如果HSK证书的授予标准缺乏稳定性和公平性，那么，不仅会影响HSK的信度和效度，而且会对有关的决策产生误导，会使考生受到不公平的对待。尽管专家们命题过程中总是尽量保持考试难度的稳定性，但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免。因此，对HSK的要求也越来越高，不仅要求实现“试卷”之间的等值，甚至要求实现“试题”之间的等值。

1 经典测量理论（CTT）

CTT主要是指真分数理论，其基本思想是：把测验的得分（通常称为测验的观察分数）看做真分数和误差分数的线性组合，可归结为如下简单数学模型：X=T+e，其中X是观测分数,是真分数，T是反映被试稳定心理特征的真分数，e是误差分数，也即由随机因素例如考试中考生的情绪、考场的因素等所造成的实际成绩与其真正能力水平的差异。真分数（T）是相对稳定的，它刻划的是被试某种比较稳定的心理特质（比如在教育测验中考生的真实能力水平），而对相同对象多次重复测量的误差分数（e）往往呈正态分布，真分数和误差分数相互独立，真分数分数与误差分数最终可简单合成测验分数。传统信度、效度、项目分析的原理与方法均建立在这一模型之上。

CTT的不足：1）测验项目质量评价的指标过度依赖于计算这些指标时所用的被试样本；2）难度、区分度等各项指标的计算都与被试整体的个性特征密切相关；3）就同一试题，被试组的个体水平都很高，算出的难度值就偏低；如果水平都较低，难度值就会偏高；4）对于区分度，如被试组的个体程度参差不齐（较为异质），求出的区分度值就很高；若程度整齐（即较为同质），求出的区分度就低；5）这种度量质量的指标随测试对象而变化的问题正是经典测量理论的不足所致。

CTT的优点：1）建立在较简单的数学模型之上，易于被人理解和接受，且计算简便，容易推广；2）理论假设较弱，对实施条件要求不严格，适用性广；3）在多数情况下CTT是足够精确的，可以放心地应用。

2 项目反应理论（IRT）

IRT以项目分析为基础，建立在潜在特质理论和统计理论基础上。它假设被试对测验的反应受某种心理特质支配,我们可以对这种特质进行界定。IRT估计出被试在这种特质的分数,并根据分数的高低来预测、解释被试对项目或测验的反应。IRT主要用于建立各种与数据拟合的模型,确定被试的潜在特质值与他们对项目的反应之间的关系。IRT认为，通过被试对具有一定难度和区分度等特征的项目的反应可以确定被试的潜能特征和倾向。它所建立的模型可以表达被试的特性水平和它对项目所作的反应之间的关系。

IRT的优点：1）对项目难度的估计不受被试样本的限制；2）对被试能力的估计不依赖于特定的测验题目；3）可发现靠猜测作答或表现异常的被试；4）具有分数等值处理的功能；5）具有测试的适应性功能，可用于计算机自适应测试；6）根据项目信息量的大小来选择对能力估计精度最有增益的项目，使测验达到预设的满意精度。

IRT的不足：1）因其理论假设建立在较深奥的数学基础之上，所以普遍性上有一定的难度；2）IRT从测量模型的理论框架来讲，多使用1、0记分资料的单维模型，造成其应用上的严重局限；3）由于受到苛刻的假设限制，必须有大样本进行配合，否则精确度不高。

3 CTT/IRT在HSK中的运用

虽然CTT有许多缺点，但是由于CTT建立在较简单的数学模型之上，易于被人理解和接受，且计算简便，容易推广且理论假设较弱，对实施条件要求不严格，因此在很长的一段时间里适用范围较广，但是CTT方法不能解决目前遇到的一些实质性问题。例如：随着计算机技术的发展，测验、考试计算机化正在成为一种重要趋势，各种具有影响力的考试，如GRE、TOEFL等均已逐步实行机考，那么作为愈来愈热的HSK，势必也会遇到机考的问题，但是目前我国HSK，依旧沿用的CTT却很难满足机考的需要；另外CTT只能实现“试卷”之间的等值，不能实现“试题”之间的等值，因此在试题库的建设上，CTT的不足也很明显，这些都需要IRT的帮助，譬如由ETS组织的SAT测验的试题分析主要是基于CTT的,但其等值过程却是通过IRT模型而实现的。但是，IRT的理论假设建立在较深奥的数学基础之上，接受的人群相对较少，并且需要大量的样本配合，且包含猜测参数，不存在与原始分数低分段相对应的估计等值分数，这样的话会增加等值误差，基于以上的对比，综合我国HSK现行等值设计和数据特点来说，总体上看，CCT优于IRT。但是为了进行题库建设及HSK计算机化我们又只能在IRT方法中择优。因此，在相当长的一段时间内，要做好HSK，CTT和IRT需共同存在，共同发展，共同完善。

[1]俞晓琳.项目反应理论与经典测验理论之比较[J].南京师大学报：社会科学版，1998(4)：74-77．

[2]漆书青，戴海崎，丁树良.现代教育与心理测量学原理[M].北京：高等教育出版社，2002：82．