医学生临床见习效果评价评分员间信度的多系列相关分析
2015-04-13徐燚陈红周庆环王杉
徐燚,陈红,周庆环,王杉
(北京大学人民医院,北京100044)
●专题—医学教育实践教学的改革与研究
医学生临床见习效果评价评分员间信度的多系列相关分析
徐燚,陈红*,周庆环,王杉
(北京大学人民医院,北京100044)
目的:测算医学生临床见习效果评价过程中评分员(带教教师)间信度系数。方法:通过多系列相关分析方法,对9名带教教师对43名医学生桥梁课阶段四门课程临床见习效果进行评价这一过程中评分员间整体信度系数进行测算。结果:通过测算,在这一评价过程中,9名评分员(带教教师)之间整体信度系数为0.73,具有一定的一致性和稳定性,处于技术上可以接受的范围内(0.6-0.9)。结论:多系列相关分析法是一种基于连续型数据的评价多个评分员之间整体一致性程度的方法,但是,这种方法没有考虑单个评分员之间的关联程度。在实际的教学评价过程中,需要进一步研究评分员个体差异对于评分的影响,以便客观而全面地评价评分员间信度。
评分员信度;相关分析;评价;医学生
评分员信度是信度的一种,指同一评分员内部或不同评分员之间,在对测量结果评分上的一致性[1]。本次研究通过多系列相关分析法对9名评分员(带教教师)对43名医学生桥梁课阶段四门课程临床见习效果评价评分员间信度进行测算,了解这一评价方法可靠性和稳定性,为建立医学生桥梁课阶段临床见习效果有效评价手段提供依据。
一、研究对象
(一)评分员。
北京大学人民医院临床医学专业八年制桥梁课阶段四门课程(包括:体检诊断学、外科学总论、影像诊断学以及实验诊断学)临床见习带教教师共计9人。
(二)被评估对象。
北京大学人民医院2010级八年制临床医学生共计43人。
(三)评估方法。
通过北京大学人民医院研发的《师生双向360度评估系统》,9名带教教师分别对43名医学生桥梁课阶段四门课程的临床见习效果进行评价,评价覆盖“基本理论知识掌握情况”、“临床技能操作情况”、“职业素养”、“主动学习能力”、“学习效果情况”、“沟通能力”、“团队合作能力”、“遵守学习纪律”、“仪容仪表整洁大方”九个维度,每一维度采用1-5评分的方法,即5分:好、4分:较好、3分:一般、2分:较差、1分:差。最后分值为九个维度合计值并折合为百分制得分。
二、研究方法
通过多系列相关分析法[2]对9名评分员(带教教师)对43名医学生桥梁课阶段四门课程临床见习效果进行评价中评分员之间信度进行分析,具体步骤如下:
第一,计算所有评分员(带教教师)评价分数的相关系数矩阵。
第二,由于上述所得相关系数不是等距的,需要对其进行费希尔(Fisher)Z转换,可以在统计学书上查r值的Zr转换表实现,并求出Z值的算数平均数。
第三,为了获得9名评分员(带教教师)间整体信度,需要通过斯皮尔曼—布朗矫正公式[3]对Z值的算数平均数进行调整,通过查r值的Zr转换表将其还原为相关系数r,即为9名评分员(带教教师)的整体评分信度。
所有数据均利用SPSS 11.5进行统计学分析。
三、结果
(一)评分结果的基本情况。
9名评分员(带教教师)评分的分数范围在86.30-94.63之间(满分为100分),
8号和9号评分员(实验诊断学)评分的平均分分别为最低分86.30和最高分94.63;体现每名评分员(带教教师)评分内部差异性的标准差在2.38-7.76之间,4号评分员(外科学总论)标准差最小,为2.38,8号评分员(实验诊断学)标准差最大,为7.76(见表1)。
(二)评分员(带教教师)评分相关系数矩阵和相关系数Z值矩阵。
在SPSS软件中,调用“分析(Analyze)”→“相关(Correlation)”→“两因素(Bivariate)”得到9名评分员(带教教师)评分相关系数矩阵(见表2)。
除4号评分员(外科学总论)与1号和2号评分员(均为体检诊断学)之间相关系数0.287、0.262在0.05水平上无显著性之外,其他相关系数均达到了0.05水平上的显著性。对矩阵中的相关系数进行费希尔(Fisher)Z转换,即通过查询统计学教材中r值的Zr转换表[4],得到相关系数的Z值矩阵(见表3)。
表1 9名评分员(带教教师)对43名医学生桥梁课阶段四门课程临床见习效果评分基本情况
表2 9名评分员(带教教师)对43名医学生桥梁课阶段四门课程临床见习效果评分相关系数矩阵
表3 9名评分员(带教教师)对43名医学生桥梁课阶段四门课程临床见习效果评分相关系数Z值矩阵
(三)运用斯皮尔曼—布朗矫正公式进行调整。
首先计算Z值矩阵中所有Z值的算数平均数:Z值总和/Z值个数=20.29/36=0.564,将此值代入斯皮尔曼—布朗调整公式:Ru=nrab/1+(n-1)rab在此公式中,n为评分员人数(本研究中n=9),rab为Z值的算数平均数,本研究中为0.564,代入计算如下:
Ru=9×0.564/1+(9-1)×0.564=0.922,但0.922仍为Z值,需要查r值的Zr转换表,得到Ru值为0.73。即为本次研究中9名评分员(带教教师)对43名医学生桥梁课阶段四门课程临床见习效果评价评分员之间整体信度。
四、讨论
研究表明,信度在0.60至0.90之间都是可以接受的,本次研究得到的信度系数0.73处于技术上可以接受的范围内,说明9名来自不同学科的带教教师对43名医学生桥梁课四门课程临床见习效果评价具有一定的一致性和稳定性。也就是说,将9名临床带教教师对桥梁课阶段医学生在四门课程(体检诊断学、外科学总论、影像诊断学以及实验诊断学)临床见习过程中表现的综合评分在反映其临床见习效果方面具备一定的可信度和稳定性。但是,评价过程中仍然有27%的变异来自测量误差即评分员之间评分的不一致性。可以通过对评分员(带教教师)进行培训使其明确评分表中的各个指标体系的具体含义以及量化不同分值所表示的优劣程度以及使用更加清晰明了的评分表等方法降低测量误差,提高评分员间的一致性。
多系列相关分析法是一种基于连续型数据(而不是字符或其他形式)的计算多个评分员之间整体一致性程度的方法,可以较好地弥补其他方法(如克隆巴赫α系数需要受到诸多因素的影响等)的不足,但是,多系列相关分析法却是以牺牲评分员个体之间关联程度为代价的。本次研究,评分员之间的信度是0.73,一致性程度可以接受,但是对评分员相关系数矩阵进行分析,可以发现,不同课程(即不同专业背景)的评分员(带教教师)之间的相关程度存在一定差异。因此,在实际工作中,在测算评分员之间整体一致性的同时,还需要针对评分员(带教教师)个体特征进行分析,以便更加全面地了解教学评价过程中的评分员信度。
[1]黄光扬.教育测量与评价[M].第二版.上海:华东师范大学出版社,2013:46-55.
[2]汪顺玉,吴世银.评分员信度的多系列相关分析方法原理及运用[J].重庆邮电学院学报(社会科学版),2006,18(6):945-947.
[3]李灿,辛玲.调查问卷的信度与效度的评价方法研究[J].中国卫生统计,2008,25(5):541-544.
[4]王孝玲.教育统计学[M].第四版.上海:华东师范大学出版社,2007:200-202.
G420
A
1002-1701(2015)01-0014-02
2014-01
徐燚,女,硕士,助理研究员,研究方向:临床教学管理。
*通讯作者
10.3969/j.issn.1002-1701.2015.01.008