改良客观结构化临床考试在本科毕业考试中的应用效果研究

2015-12-03马俊红杨晓征续岩

复旦教育论坛 2015年6期

关键词：考站本科毕业区分度

马俊红，杨晓征，续岩

（北京大学医学部教育处，北京100191）

·医苑·

改良客观结构化临床考试在本科毕业考试中的应用效果研究

马俊红，杨晓征，续岩

（北京大学医学部教育处，北京100191）

为检验改良客观结构化临床考试（OSCE）在临床医学专业本科毕业考试中应用的有效性，本研究通过统计北京大学医学部临床医学专业本科毕业考试成绩，分析OSCE信度、效度、难易度及区分度；通过调查问卷了解考生对OSCE的认可程度。结果表明：本次OSCE内部一致性信度系数为0.671，与专业理论考试成绩的相关系数为0.561（P=0.000），总体难度0.81，区分度0.21；71.43%的学生认为OSCE能客观全面地反映自身的临床技能水平。因此，改良OSCE考核结果可靠、有效，可用于本科毕业考试中对学生临床基本技能的评估。

客观结构化临床考试；毕业考试；信度；效度

客观结构化临床考试（The Objective Structured Clinical Examination，OSCE）是最初由Harden R.M.等人于1975年提出的一种预先设计的、结构化的、客观的考核方式，旨在考核被评估者采集病史、体格检查、有效沟通、阅读辅助检查、综合分析信息等能力[1]。经典的OSCE具有三个主要特征：对临床表现的直接观察、使用高度结构化的量表对考生表现进行评估、用标准化病人（Standardized Patients，SP）模拟临床真实情景[2]。40年来，此种考核方法被广泛应用于医学教育领域，并被认为是评估医学生临床能力的“金标准”[3]。

2005年，北京大学医学部将OSCE引入临床医学专业本科毕业考试，并在实践中不断调整优化考试设计方案。该校现行OSCE减少了SP考站的比例，适当增加了病例分析及临床沟通的内容，更关注对学生临床思维能力的评价；同时，各考站评分表以直接打分的方式替代高度结构化的量表，增加了评分的灵活程度。为检验改良OSCE在毕业考试中应用的有效性，笔者从考生评价及心理测量学主、客观两个维度对OSCE评价效果进行实证研究。

1.对象与方法

1.1 研究对象

北京大学医学部临床医学专业本科毕业考试包括专业理论、临床技能两部分，均为百分制，60分为及格线，通过者准予本科毕业。专业理论考试包括内、外、妇产、儿科四个学科内容，临床技能考核采取改良OSCE方式，考核内容亦涉及内、外、妇产、儿、精神病学等学科。

OSCE共设置17个考站，包括病例分析及病例分析准备各4站，技能操作3站，体格检查2站，问诊、临床沟通技巧、辅助检查、精神检查各1站，具体设置情况如表1所示。其中体格检查、问诊、临床沟通技巧、精神检查考站均为SP考站，除体格检查站外，其余3个考站SP均参与评分，SP与考官的平均分为考生此站得分。辅助检查考站为客观选择题，内容包括心电图、影像、产程或胎心监护图、实验室检查结果等的阅读判断。每个考站10分钟，总考核时间170分钟。13个计分考站，每站满分10分，各考站总分折换成百分制即为考生临床技能考核成绩。

2014年共有152名学生参加本科毕业考试，考生被随机分配至5家考点医院，同时进行临床技能考核，5个考点共用一套试题。

表1 北京大学医学部临床医学本科毕业考试OSCE考站设置

1.2 研究方法

统计152名考生临床技能及专业理论成绩，使用SPSS19.0对OSCE进行信、效度检验，并分析考试的难度、区分度，从心理测量学角度判断OSCE的有效性及考核结果的可靠程度。

通过考试结束后对所有考生进行问卷调查，获得考生对本次考试的主观评价，了解其对考核方式的认可程度。

2.研究结果

152名考生临床技能成绩呈正态分布（K-S法P= 0.2），平均分为81.90±4.977，各考站平均成绩如表2所示。

表2 北京大学医学部2014届临床医学本科毕业考试OSCE平均成绩

2.1 OSCE信度及效度

2.1.1 信度所有考站内部一致性信度Cronbach's α系数为0.671，体格检查类、技能操作类、病例分析类考站内部一致性系数分别为0.368、0.325、0.461，提示OSCE内部一致性信度一般。

分别将5个考点问诊、临床沟通技巧、精神检查考站SP与考官的评分进行组内相关分析，结果见表3。5个考点临床沟通技巧、精神检查考站的评分者组内相关系数为0.616－0.962，显著正相关；各考点问诊站SP与考官评分之间的相关系数差异较大，虽均为正相关，但仅有考点2和考点4的相关性显著。

2.1.2 效度将考生OSCE总成绩与专业理论考试成绩进行Pearson相关分析（r=0.561，P=0.000），发现二者显著正相关；除临床沟通技巧站以外，其他类别考站均与专业理论成绩显著正相关（表4），提示OSCE具有较好的效标效度。

不同类别考站间的Pearson相关分析结果见表5，所有类别之间均呈正相关关系，其中技能操作类与其

他各类考站（体格检查类除外）显著相关，其余6个类别考站仅部分之间存在统计学意义的相关关系。各类别考站与临床技能总成绩相关系数为0.353－0.752，P=0.000。以上说明各考站与总成绩相关性较好，但不同类别考站之间的关联性欠佳，OSCE的整体结构效度不高。

表3 北京大学医学部2014届临床医学本科毕业考试OSCE评分者组内相关分析（ICC）

表4 北京大学医学部2014届临床医学本科毕业考试OSCE各类别考站与专业理论成绩相关分析

表5 北京大学医学部2014届临床医学本科毕业考试OSCE考站间Pearson相关分析

2.2 OSCE难度及区分度

13个考站难度系数为0.67－0.91，OSCE总体难度为0.81，说明对于本届考生而言，OSCE试题偏简单。13个考站的区分度为0.14－0.4，OSCE总体区分度为0.21，说明本次OSCE对不同能力考生有一定区分，但鉴别力不强。

2.3 不同考点对考生成绩的影响

对5个不同考点考生的OSCE成绩进行方差齐性检验及单向方差分析，不同考点之间无统计学差异，F= 1.602，P=0.177（表6）。说明在不同考点考核、由不同考官评分，对考生成绩无影响。

2.4 考生问卷调查

考后对所有考生进行问卷调查，回收有效问卷133份，有效率87.5%，问卷结果见表7。

71.43 %的学生认为“OSCE能客观全面地反映自身对临床基本技能的掌握程度”。62.41%的学生认为“OSCE设置13个考核考站（不包括病例分析准备站）比较合适”，32.33%的学生认为考站偏多，其中有24人建

议减少至10－12站。58.65%的学生认为“170分钟的考核时间比较合适”，另有24.81%的学生觉得时间偏长，其中20人建议将时间减至120分钟。

对于问诊及精神检查考站SP模拟临床病人的真实程度，分别有85.72%、82.71%的学生认为“真实”或“比较真实”。

表7 北京大学医学部2014届临床医学本科毕业考试OSCE考生问卷调查结果

3.讨论

3.1 本科毕业考试中OSCE的信度一般，仍有提升空间

信度是评价考试结果准确性、可靠性的重要指标，考站内部一致性、评分者内部一致性是评价OSCE信度的最常用方法。

对于考试的内部一致性，虽然有研究指出，职业资格考试的信度系数不得低于0.90，结课考试的信度系数应在0.80－0.89之间，小测验等的信度系数可在0.70－0.79之间[4]；对于比较严格的通过性考试，OSCE的内部一致性信度至少需达到0.8[5-6]。但国外许多关于OSCE内部一致性信度的研究结果都难于达到上述标准，除非大量增加考站数量[5，7-8]。国内邹扬等学者将OSCE应用于临床本科及长学制毕业考试中，内、外、妇、儿四个模块考站内部一致性系数为0.1－0.671，并认为在0.12－0.9之间均为可接受信度[9]。

本研究中OSCE内部一致性信度为0.671，体格检查、技能操作、病例分析三个类别考站的内部一致性在0.3－0.5之间，与其他研究结果相似，处于可接受的信度范围。但毕业考试作为通过性考试，直接决定学生能否顺利毕业，故仍需进一步提高OSCE信度，尽量达到0.8的标准。

影响OSCE信度的因素主要来自于考站设计和考生表现两个方面，故为了提高考试信度，需适当增加总考站数量或考核内容相似的考站数量，也可通过增加考站内评分表条目、延长考试时间、增加每个考站考官数量、单独设置书面测验考站等来提高OSCE的可靠性[10-13]。以上提高信度的方法多是以增加考试的经济成本和时间成本为代价的。也有学者为了控制成本，试图通过缩减考核范围来提高OSCE的信度，但未偿所愿[14]。本研究也分别计算排除问诊、精神检查、临床沟通技巧等考站后的内部一致性信度，发现结果均小于原整体信度系数。为尽量减少考试财务支出，同时避免过长考试时间增加考生及考官的负担，可通过适当增加每一考站的分值并细化评分项目来实现OSCE信度的提升。

本次OSCE分别在5家医院进行，虽然5个考点考生的平均分之间无统计学意义上的差异，但同一考站有多个考官参与评分，亦可能影响考试结果的一致性。故加强考官评分标准的培训，或集中考核，同一考站尽量由相同考官评分，会在一定程度上提高考试的信度。

对于评分者内部一致性，本研究中仅有问诊、临床沟通技巧、精神检查考站分别由SP及考官评分，问诊站两位评分者内部一致性较差，另两个考站评分者内部一致性较好。分析原因如下：一方面，问诊站SP与考官的评分表内容不完全一致，前者的评分内容以病史采集的相应项目为主，后者的评分表中病史采集部分占2/5，另3/5是对问诊技巧及临床思维的评价；另一方面，问诊站SP为各医院招募并培训的非医学专业人员，各医院对SP培训重视程度不同，有些SP未完全掌握评分标准。临床沟通技巧和精神检查考站的SP均由相应学科临床医生担任，经学校统一培训，且SP与考官评分表相同，故二者评分的相关性更好。未来需进一步加强问诊站SP的遴选及培训工作，强调评分规则，以提高评分者之间的一致性。

3.2 本科毕业考试中OSCE具有较好的效度

效度是评价考试有效性的重要指标，效标效度及结构效度为常用效度检验方法。

本研究中考生的OSCE成绩与其专业理论成绩呈显著正相关，说明OSCE具有较好的效标效度。专业理论以考核学生临床学科知识、诊疗分析能力为主，故与OSCE的病例分析类、辅助检查类的相关性更高，而与临床沟通技巧无相关。为进一步检验OSCE的效标效度，尚需与其他类似的临床能力考试如基于Mini-CEX（Mini-Clinical Evaluation Exercise）的临床技能考核等相比较。

OSCE重在从不同方面考核学生的临床能力，而不刻意强调各种考核内容之间的相关联程度，且考生在不同类别考站的表现也不尽相同，故考核难以达到较高的结构效度，这也是为何国内外关于OSCE结构效度的研究很少的原因所在。Wessel曾对理疗领域OSCE的应用进行效度研究，结果显示考站间的相关系数为-0.14－0.33[15]。本研究也将不同类别考站进行相关分析，结果证实，OSCE的结构效度并不高，但基于上述原因，不能否定OSCE在临床能力评价中的有效性。

3.3 本次本科毕业考试OSCE整体难度及区分度偏低

难度和区分度是检验试题及试卷质量的主要参考指标。OSCE作为主观考核形式，考试的难度、区分度受影响因素较多，难以达到预期的中等难度、高区分度的结果。从考试目标出发，毕业考试OSCE各考站内容均依据本科教学大纲命制，以本科生需掌握的基本知识及技能为主，故整体偏易，同时也导致OSCE的区分度较低。但对于本科毕业通过性考试，此难度及区分度均为可接受范围。为进一步提高考试的科学性，建议未来考试命题时适当增加OSCE考站内容的难度，尽量将区分度提高至0.3以上。

3.4 大部分考生认可OSCE考核方式

考生问卷调查结果显示，大部分学生认为OSCE能全面客观地反映自己的临床技能水平，考站数量及考核总时间比较合适，并认可问诊站和精神检查考站SP角色扮演的真实程度，说明大部分考生从主观上比较认同OSCE的设置及考核结果。

但也有近1/3的学生认为本次OSCE不能客观评价自身水平，原因主要为：“考试节奏快，有些考站时间较短（如内科病例分析），与临床实际有差异，不能发挥正常水平”；“考题随机性强，无法涵盖所有内容”。同时也有部分考生认为考站偏多、考试时间偏长，一些学生建议将考核时间控制在120分钟之内。虽然考站数量是影响考试信度的重要因素，但考试设计者应充分考虑到过长的考核时间对考生造成的身心压力亦会影响考生的正常发挥，影响考试结果的客观准确。建议可根据考核内容酌情调整每站考核时间，或者将OSCE按学科或能力类别进行分段考核，可有效避免一次考核时间过长的情况。

总之，本研究通过心理测量学和考生评价两个角度分析证实了改良OSCE在临床医学专业本科毕业考试中应用的有效性，OSCE能全面评价学生的临床基本技能。为进一步提高考试结果的有效及可靠程度，尚需综合考虑学科维度和能力维度，对考站时间、考站数量、不同考核内容的比例、评分细则等进行优化完善。

[1]HARDEN R M，STEVENSON M，DOWNIE W W，WILSON G M.Assessment of clinical competence using objective structured examination[J].Br Med J，1975（1）：447-451.

[2]REZNICK R K，SMEE S，BAUMBER J S，et al.Guidelines for estimeting the real cost of an objective structured clinical examination[J].Academic Medicine，1993，68（7）：513-517.

[3]HODGES B.Validity and the OSCE[J].Medical Teacher，2003，25（7）：250-254.

[4]DOWNING S M.Reliability：on the reproducibility of assessment data[J].Medical Education，2004，38（9）：1006-1012.

[5]ROBERTS C，NEWBLE D，JOLLY B，et al.Assuring the quality of high-stakes undergraduate assessments of clinical competence[J]. Medical Teacher，2006，28：535-543.

[6]MUNOZ L Q，O'BYRNE C，PUGSLEY J，AYUSTIN Z. Reliability，validity，and generalizability of an objective structured clinical examination（OSCE)for assessment of entry-to-practice in pharmacy[J].American Journal of Pharmaceutical Education，2005，5（1）：33-43.

[7]SINGER P A，ROBB A，COHEN R，NORMAN G，TURNBULL J.Evaluation of a multicenter ethics objective structured c1inical examination[J].Journal of General Internal Medicine，1994，9（12）：690-692.

[8]SINGER P A，ROBB A，COHEN R，NORMAN G，TURNBULL J.Performance-based assessment of clinical ethics using an objective structured clinical examination[J].Academic Medicine，1996，71（5）：495-498.

[9]邹扬，缪青，芦开芳，等.本科和长学制毕业考试中客观结构化临床考试的应用[J].上海交通大学学报（医学版），2008，28（S1）：71-75．

[10]VERHOEVEN B H，HAMERS J G，SCHERPBIER A J，HOOGENBOOM R J，VAN DER VLEUTEN C P.The effect on reliability of adding a separate written assessment component to an objective structured clinical Examination[J].Medical Education，2000，34：525-529.

[11]BRANNICK M T，EROL-KORKMAZ H T，PREWETT M.A systematic review of the reliability of objective structured clinical examination scores[J].Medical Education，2011，45（12）：1181-1189.

[12]VARKEY P，NATT N，LESNICK T，et al．Validity evidence for an OSCE to assess competency in systems-based practice and practice-based learning and improvement：a preliminary investigation[J].Academic Medicine，2008，83（8）：775-780.

[13]高镭，李晓松，万学红等．客观结构化临床考核的多元概化模型研究[J]．中国高等医学教育，2004，（3）：46-49.

[14]NORMAN G R，TUGWELL P，FEIGHTNER J W，MUZZIN L J，JACOBY L L.Knowledge and c1inical problem solving ability [J].Medical Education，1985，19（5）：344-356.

[15]WESSEL J，WILLIAMS R，FINCH E，GEMUS M.Reliability and Validity of an Objective Structured Clinical Examination for Physical Therapy Students[J].Journal of Allied Health，2003，32（4）：266-269.

The Application Effect of Modified Objective Structured Clinical Examination in College Graduation Examination

MA Jun-hong,YANG Xiao-zheng,XU Yan
（Education Department,Health Science Center,Peking University,Beijing 100191,China）

To study the effectiveness of the application of modified objective structured clinical examination (OSCE)in the graduation examination in clinicalmedicine,the reliability,validity,difficulty and discrimination of OSCE are analyzed by gathering scores ofgraduation examination for undergraduates majored in clinicalmedicine. Questionnaire is used to get the opinions on the OSCE from examinees.It is found that the internal consistency reliability coefficient is 0.671 and the Pearson correlation coefficient between the OSCE and the theory test is 0.561（P=0.000）.The overalldifficulty and discrimination are 0.81 and 0.21 separately.71.43 percentofstudents maintain that OSCE could reflect the level of their clinical skills objectively and comprehensively.Therefore,the modified OSCE results are reliable and effective,which can be used for the evaluation ofstudents'clinicalskills in college graduation examination.

Objective Structured Clinical Examination；Graduation Examination；Reliability；Validity

2015-08-09

马俊红，1974年生，女，汉族，内蒙古人，北京大学医学部教育处助理研究员，主要从事临床教学管理工作。