基于多元概化理论的全国硕士研究生中医综合考试质量分析*

2014-04-14白娟

天津中医药大学学报 2014年1期

关键词：协方差全域方差

白娟

（教育部考试中心，北京 100084）

基于多元概化理论的全国硕士研究生中医综合考试质量分析*

白娟

（教育部考试中心，北京 100084）

中医综合考试；多元概化理论；试卷结构；测量精度

全国硕士研究生入学中医综合考试的目的是科学、公平、有效地测试考生是否具备继续攻读中医硕士学位所需要的中医药学基础知识和基本技能。《中医综合考试大纲》规定考试涵盖中医基础理论、中医诊断学、中药学、方剂学、中医内科学和针灸学6门课程，设有A型、B型、X型3种题型。对照《考试大纲》，多元概化理论为试卷结构、学科比例分配、信度等问题的研究与论证提供了框架[1]。

概化理论（GT）是一种把测量误差作为模型参数来处理的测量理论，是经典测量理论与实验设计、方差分析相结合的产物。根据测量目的的不同，研究者可以设计不同的概括全域，通过多个决策研究计算出不同概括全域上的多个信度指标，尤其是多元概化理论，在处理含有多个潜在能力因子，且因子之间存在相关的测量问题方面有独到之处[2]。

本文应用多元概化理论评估2010—2012年全国硕士研究生入学中医综合考试的试卷结构和测量精度等，获取“平均”或“趋势”的结果，从整体上评价中医综合考试，并为今后修订《考试大纲》、改进命题方案、提高考试质量提供参考依据。

1 资料与方法

1.1 研究样本本研究采取分层等距抽样法，各年度考生抽取人数及考试数据的描述统计见表1。

1.2 测量的设计根据多元概化理论的研究设计，从测量学科能力的角度，可以将中医综合能力看成是包含中医基础理论、中医诊断学、中药学、方剂学、中医内科学、针灸学共6个学科因子的单面p0×i0设计。另外，可以将中医综合考试看成是包含A型题、B型题、X型题3种题型因子的p0×i0设计。

表1 2010—2012年中医综合考试的描述统计

2 研究结果

2.1 关于6个学科因子的分析

2.1.1 G研究各效应在6种学科因子上的方差协方差分量。

运用mGENOVA软件可以得到考生（p）、试题（i）以及考生与试题之间交互效应（p×i）在6个学科因子上的方差和协方差分量的估计矩阵，见表2。

在6个学科因子中，2010—2012年方差分量最大的均是方剂学和中药学，其次为针灸学和中医内科学，中医基础理论和中医诊断学的方差分量相对较低。这说明在研究生入学中医综合考试中，方剂学和中药学发挥作用最大，其次为针灸学和中医内科学，中医基础理论和中医诊断学的作用还应进一步加强。同时，根据协方差分量的估计值，发现连续3年各个学科与其它5个因子的协方差分量值都小于0.1，说明考生在各学科所得分数高低的一致性程度相对较低，各学科因子在预测考生能力水平方面发挥各自不同的作用[3]。

2.1.2 D研究各学科因子全域分估计及全域总分估计的精度问题。

按照6个学科因子试题量所占比重来决定权系数，对6个学科因子全域分进行合成，可以得到全域总分的方差以及相应误差的方差分量估计，进而估计全域总分的概化系数，见表3。

表2 G研究中各效应在6个学科因子上的方差协方差分量估计

表3 考生全域分数等在6个学科因子以及全域总分上估计的方差分量值

综合2010—2012年3年的考试数据，方剂学、中药学、中医内科学和针灸学测量的相对误差小，概化系数高，这表明在中医综合考试中，这4门学科的测量精度相对较高。中医基础理论和中医诊断学的概化系数介于0.6～0.7之间，其测量精度处于可接受水平，但与其它4门学科相比相对较低，有待进一步提高。总体上，分析3年考后数据，按照6个学科因子合成的全域总分的相对误差很小（小于0.005），概化系数均在0.93以上，表明中医综合考试的整体测量精度比较理想。

2.2 关于3种题型因子的分析

2.2.1 G研究各效应在3种题型因子上的方差协方差分量。

运用mGENOVA软件可以得到考生（p）、试题（i）以及考生与试题之间交互效应（p×i）在三种题型因子上的方差和协方差分量的估计矩阵，见表4。

表4 G研究中各效应在3个题型因子上的方差协方差分量估计

由表4可知，2010—2012年连续3年，在3种题型因子中，方差分量最大的是X型题，其次为B型题，最小的是A型题。这说明在中医综合考试中，X型题的作用最大，A型题的作用最小。同时，根据协方差分量的估计值，发现各个题型与其它2个因子的协方差分量值都小于0.1，说明考生在各题型上所得分数高低确定顺序的一致性程度相对较低。

2.2.2 D研究各题型因子全域分估计及全域总分估计的精度问题。

按照3个题型因子试题量所占比重来决定权系数，对3种题型因子全域分进行合成，可以得到全域总分的方差以及相应误差的方差分量估计，进而估计全域总分的概化系数，见表5。

表5 考生全域分数等在3个题型因子以及全域总分上估计的方差分量值

综合2010—2012年3年数据，由于A型题测量误差最小，因而相对于其它两种题型，A型题概化系数最高，测量精度最高。X型题和B型题的相对误差也较小，概化系数在0.8以上，测量精度也较高。总体上，3年中医综合考试各题型全域总分的相对误差都很小，概化系数高，这表明，从题型合成角度来看，整体测量精度非常理想。

3 讨论与结论

本文运用多元概化理论分别从学科和题型的角度探讨了全国硕士研究生入学中医综合考试的试卷结构和测量精度问题，结果发现有以下几个方面。

3.1 从考试内容看中医综合考试从考试内容来看，各学科因子的方差和协方差成分的估计是比较稳定的，这说明各个学科试题的命制是严格遵循《考试大纲》的，各个学科的分量分配是基本合适的。相对而言，方剂学、中药学、针灸学和中医内科学的贡献总体较高，中医基础理论和中医诊断学的分量和贡献还需要进一步平衡。从D研究的结果看，中医综合考试的整体测量精度较高，中医基础理论和中医诊断学的测量精度有待进一步加强[4-6]。

从概化理论D研究的角度来讲，提高样本容量，信度会有一定程度的提高。但是考虑到中医综合试卷共有180道题，已经是一个比较长的试卷，完全靠增加题量提高信度是不太可行的。对中医基础理论和中医诊断学的试题本身进行分析发现，这两门学科的试题难度总体上低于整张综合试卷的平均难度，不同水平的考生答对概率相对较高，导致题目的区分度相对较低，为此，适当提高题目难度，提高区分度可能是改进中医基础理论和中医诊断学试题的一个方向。另外，考虑到中医基础理论和中医诊断学的学科本身，有一些知识点存在一定争议，不十分明确的知识点相对其它学科较多，在一定程度上增加了命题难度。

3.2 从题型设计看中医综合考试从题型来看，各题型的方差和协方差成分的估计是比较稳定的，不同年度的试卷在结构上可看成是“平行的”。从D研究的结果来看，按照题型合成分数，由于都是客观选择题型，总体上测量误差小，测量精度非常理想。

中医综合考试连续多年采用的都是客观题的形式，题型相对一致统一，答案精确，评分误差影响很小，因此采用多元概化理论进行试卷分析的适用度很高。但是，由于国家大规模考试的局限性，本研究在使用多元概化理论分析试卷时也存在一定不足，例如，由于是国家统一考试，每年都使用不同的试卷，没有共同题和共同人，无法对不同年度的分数进行等值处理，可能会在一定程度上影响到分数的可比性。

[1]张伯礼，于越，周桂彤.中医药高等教育教学改革思路探讨[J].天津中医药大学学报，2008，27（2）：87-88.

[2]杨志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003.

[3]关丹丹,王博,车宏生.2007—2010年心理学专业基础综合考试的多元概化理论研究[J].心理科学,2011,34 (4):950-956.

[4]张艳军，于虹，高秀梅.加强实践教学环节，增强药学类专业学生创新实践能力[J].天津中医药大学学报，2006，25（3）：153-154.

[5]于河，王思成，白俊杰，等.中医教育循证决策研究方法与应用举隅[J].天津中医药大学学报，2012，31（3）：166-168.

[6]张天懿，何强，周桂桐，等.中医学专业认证管理模式研究[J].天津中医药大学学报，2013，32（4）：232-233.

G424.74

1673－9043（2014）01－0044-03

10.11656/j.issn.1673-9043.2014.01.15

2013-12-10）

全国教育科学规划2011年度教育部重点课题资助项目（GFA111012）。

白娟（1980-），女，助理研究员，研究方向为教育考试理论与评价。