计算机模拟病例考试质量的评价研究

2018-03-02王炜

中国卫生标准管理 2018年3期

王炜

目前，由于标准化考试在国内普及以及教育测量学的广泛应用，人们普遍运用统计学和教育测量学参数来评价考试与试卷的质量和结果，丰富了评价手段和方法。现代医学考试的评价指标主要趋向于定量化，如试题难易度、区分度、信度、效度和平均分等。计算机模拟病例考试作为一项医学考试，同样适用于使用这类评价方法对考试质量做出评估，是试题质量分析的一项重要指标，为命审题专家对试题的修改和补充做出参考，对进一步提高考试质量和题库质量具有指导意义。

1 计算机模拟病例考试

现在的医学考试多数仍以传统的笔试考试为主，这种考核方式更注重理论知识掌握情况的考核，缺乏对考生临床实践能力的评价。而在临床实践能力考核方面，传统的考试形式相对缺乏客观性、有效性，缺少简单易行的办法，考试成绩难以科学反映考生水平。现代医学考试要求实践考试方法接近实际，计算机模拟病例考试作为一种有效地实践考试方法，其评价能够做到客观、准确，正在受到越来越多的重视。

计算机模拟病例考试系统是一个动态的、人机交互的对患者疾病状况的模拟，是利用人机对话形式使某些传统纸质考试或面试无法表达的试题形式，通过计算机辅助系统的处理，较全面具体的反映考生解决临床问题实际能力和水平，对专业人员做出较为客观评价的考试形式[1]。其试题为根据病例进行连续性提问的不定项选择题，一个病例一般可以延伸3～10个提问，考生根据病例摘要的内容和每一问的其他提示信息进行作答。题目从逻辑性上完全模拟临床实际接诊情况，通过计算机模拟实际病例，让考生根据计算机提示的初诊患者情况、检查结果、影像诊断、鉴别诊断和治疗方式等文字或多媒体信息作答每一个不定项选择题，在考试中当一问确认结束后不能返回修改，完全模拟实际工作从患者的接诊、检查、诊断、处理等方面对被考核人员进行综合评价。计算机模拟病例考试的评分原则采用每一问得扣分制，即每一问的分数由选择的正确答案和错误答案个数相抵消后给出，最低将这一问的分数扣为0分为止。

目前我中心的计算机模拟病例考试涵盖115个专业，专业设置细化到三级分科，从专业设置上基本能够贴合考试要求，考试内容能够紧密结合该专业所要求的专业范围。

2 计算机模拟病例考试评价

计算机模拟病例考试质量的评价指标与方法因其题型不完全相同以及评分方式的不同，不能与传统的笔试考试一概而论，需要在借鉴传统考试形式评价方法的基础上综合学科专家的专业意见，结合专业领域的知识和实践经验。现用某次考试中其中一个代码为AK的专业的考试试卷和结果作为分析对象对该专业的题目和考试效果做出评价，为该学科专家综合评定试题做出参考，为提高题库试题质量和考试质量做出指导。

专业代码为AK的计算机模拟临床病例此次考试共含有12个病例，共计70个提问，总分为100分，此次考试该专业实考考生为200人，根据此次考试的考生答题数据，对该专业的考试质量进行评价。考试评价包括试题质量评价和试卷质量评价，以及考生成绩的分析。

2.1 试题质量评价

2.1.1 难易度教育测量中定量刻画被试作答一个题目所遇到的困难程度的量数，就叫做试题的难度系数，用符号P表示，由于每个病例不只全部答对满分和答错0分两种可能结果，而是从满分至0分之间有多种结果出现的可能性，因此难度系数计算公式为其中X为此次考试所有被试者在该题上的平均得分，Xmax为该题目的满分[2]。一般来说，试题难度系数P值为0.00～1.00，P值为0.00～0.39的试题列为难题，0.40～0.69列为中等题，0.70～1.00列为容易题[3]。经验与研究均表明，倘若标准化常模参照测验所有题目的难度系数分布在0.30～0.70，并且整个测验的难度系数在0.50左右时，可使测验对被试有较大的鉴别力，而且可以使测验分数接近正态分布。该专业试卷组卷时，因测试对象属于初级人员水平，按要求以难、中、易试题2∶4∶4的难易程度进行组卷，根据命审题专家对试题的难度判断，按照标注的试卷难度预测整体试卷难度应为0.58。

计算机模拟病例考试的特点是病例下连续的几个提问，互相具有紧密的关联性，考察的是对该病例所描述病种的知识掌握情况，因此试题均以病例而不是单独一问为单位进行难度划分。在命审题专家对题目难度进行预测时，以0.3代表较难，0.5代表中等，0.7代表容易三个层次进行划分。通过对200人的成绩进行分析，得到该专业试卷各病例难度值，从而得到该专业试卷难度值。该专业各病例难度值见表1。

该套试卷总问数为70问，以病例内提问数为除以70得出每个病例在试卷中所占比重，乘以该病例实际难度值后得出整套试卷难度值为0.58，与预测难度相符，能够有效反映应试者的水平。但其中病例号为035751和115751的两个病例试题实际难度值与预测难度不符，需要再结合其他考试成绩分析后提交命审题专家审核，重新综合判定这两个病例的预测难度值是否科学。

2.1.2 区分度试题区分度是试题区别被试水平能力的量度，常用D表示，是判定试题质量的一项常规测量项目。区分度的计算一般采用高低分组法，其具体方法是先将被试成绩从高到低排列，按照分数最高和最低的考生各取前27%组成高分组和低分组，然后分别计算两组对该试题的平均分，用P表示（高分组PH和低分组PL），再用公式D=PH-PL计算D值，一般试题区分度D值越大，也就越有效。该专业本次考试各病例区分度经计算见表2。由于病例考试的特殊扣分原则，选择题不是只有满分和0分两种，因此按照经验，区分度在0.4以上即可视为有效，区分度在0.2以下的试题尽量淘汰出题库，0.2～0.4的病例则考虑请命审题专家审核，判断题目修改方向或判定是否将题目淘汰出题库。

经过数据分析，病例号为109751的试题区分度为0.16，建议淘汰出题库，病例号为074601和117751的试题区分度在0.2～0.4，需要请命审题专家结合其他指标进行判断是否修改或淘汰出库。

2.2 试卷质量评价

2.2.1 信度信度是反映测试试卷所有题目得分一致性程度的统计量，它是常规测量项目。一般来说，信度系数以1.00为最多，但实际考试测量都小于1.00，一般情况下，信度大于0.7则考试分数具有参考性，低于这一数值则该次考试分数的参考价值不大。

由于本次考试是一次正式考试，只有一次测试结果，因此获得试卷的信度需要使用对半法，将整套试题的题目按单、双数分成两组来分别计分，再用公式计算两组分数的相关系数，而后再用斯皮尔曼—布朗公式进行校正，从而得出整个试卷的信度[4]。

设r为相关系数，n为该专业本次考试人数，x为单数题号题目得分，y为双数题号题目得分，利用相关系数计算公式：

2.2.2 效度效度是指一次测量的有效程度。试卷的效度一般情况下可以分为内容效度、效标关联效度与结构效度3种类型，但对医学考试来说，最合适的效度指标是内容效度，其次是效标关联效度。内容效度是指测验的内容能否充分反映所要测量的目的要求。内容效度的分析方法有逻辑分析法和量化分析法。逻辑分析法由有关专家对测验题目与应测内容范围的吻合程度做出判断；量化分析法则以数量指标描述实测内容与预测目标的相关程度。医学考试一般所用的是内容效度的逻辑分析法[5]。在本次考试的评价中，依据考试结果与考试前由命题者编制的考试目标和难易度进行对比，该专业考试目标准确，包含难、中、易试题比例比较科学，病例数量较多，该专业所覆盖知识面比较广，是一套有效试卷。

2.3 成绩分析

2.3.1 频率分布频率分布是成绩分布测量的常规测量项目，它能够直观地反映各分数段的考生人数比例，是考试成绩的分布形态指标。其具体方法是将成绩以10分为一个区间按照以0～9、10～19、20～29、……、80～89、90～100划分分数段，列出该次考试中各分数段内的考生人数、所占总人数的百分率，然后按照数据画成频率分布直方图。一般而言，频率分布直方图的最高峰应在60～69分数段，呈正态或正态略偏右，分布较为正常。该专业本次考试200人具体成绩分布为30～39分5人，40～49分12人，50～59分45人，60～69分82人，70～79分52人，80～89分4人，图1为该专业本次考试成绩的频率分布情况，从图中可以看出其频率分布符合一般规律，从频率分布的角度验证了该专业本次考试是一次有效考试，试卷质量良好。

表1 专业AK本次试卷各病例预计与实际难度值比对表

表2 专业AK本次考试各病例区分度计算表

2.3.2 平均分平均分X是成绩分布测量常规测量项目，它反映了考试成绩的集中趋势指标。其计算公式是，其中n为考生人数其中n为考生人数，Xi为第i个考生的考试成绩[6]。一般地，根据模拟病例考试的评分是采用每一问得扣分制，每一问的分数由选择的正确答案和错误答案个数相抵消后给出，最低将这一问的分数扣为0分为止，因此获得高分不容易，平均分一般在60～70分之间较为适宜[7]。经计算，该专业此次考试平均分为62.41，在合理的分数区间内。

3 结论

图1 专业AK本次考试成绩的频率分布图

根据以上对试题、试卷和考试成绩的评价，该套试卷总体难易度与预期相符，但有两个病例难易度与预期不符，占考试总体量的10%；试题区分度良好的占77%，区分度不佳的试题占23%。试卷信度0.73证明了本套试卷的可信性，经专家评定该套试卷难易度符合预期，内容包含较为全面，是一套有效试卷。经计算考生成绩呈正态分布，平均分较低但在正常范围内，符合计算机模拟病例考试的评分特点。这些数据均说明该套试卷总体质量良好，能够达到考试预期目标，但个别试题存在难易度与预期不符合区分度较低的问题，需要在今后结合试题使用情况做出进一步评价，并由命审题专家审定。

由统计分析所得出的结果是一种概率意义上的结论[8]。测量指标所反映出的题目或试卷质量问题，有可能是试题编制方面的问题，例如题目本身表述不准确或答案标注错误；也有可能是被试群体的问题，例如考生整体水平高或整体水平低。除了测量指标外，因其内容更加贴合实际，每个病例都含有紧密联系的多个提问，需要考生根据多方面知识综合判断和考虑，而不是传统意义上的客观题，每一个问题多数只反映某一个知识点，因此究竟是什么原因导致的试题质量问题，需要由该学科命审题专家根据统计结果和其专业知识以及实践经验进行科学分析，而后才可做出具有一定价值标准的确切性的评价结论。

为此，在计算机模拟病例考试试题的管理中，首先命审题工作需要进一步规范和加强，从源头杜绝表述有问题或答案标注错误的试题出现。其次，要重视试题分析工作，及时将测量指标反映出来的题目或试卷问题反馈给审题专家，对题目做出必要的修改和整理。最后，要进一步探索计算机模拟病例考试的评价方法，丰富评价手段，综合评价考试质量，改进考试工作。只有重视考试质量的评价研究，才能使题库保持长久的生命力，使考试更加科学有效。

[1] 曹伟，孙建华，潘民德. 实践技能计算机医学考试题库在资格认定中的作用[J]. 继续医学教育，2001，15（3）：44-46.

[2] 张阳，秦鹏，左天明，等. 计算机模拟病例考试信度、难度及区分度研究[J]. 中国高等医学教育，2009（2）：7-8.

[3] 康宁. 计算机模拟临床病例考试试题的统计分析研究[J]. 考试，2013（1）：7-8.

[4] 万金凤. 关于试卷质量的分析方法[J]. 山西师范大学学报（自然科学版），2006，20（1）：22-24.

[5] 刘叔才，葛利荣. 医学考试质量评价指标体系的构建与实现[J].中国社会医学杂志，2008，25（4）：202-204.

[6] 景汇泉，张颖，郭永松，等. 医学考试评价的研究进展[J]. 中国高等医学教育，2009（7）：36-37.

[7] 秦鹏，冯雪英，孙宝志. 计算机模拟病例考试研究的新进展[J].中华医学教育杂志，2007，27（2）：126-128.

[8] 高茵茵，景汇泉，孙宝志. 浅谈我国的医学考试评价指标体系与评价方法[J] . 西北医学教育，2007，15（6）：1061-1062.