系统评价方法应用于医学教学效果评价的文献计量分析

2022-02-25曹卉娟王艺颖苑艺李多多薛培

中国继续医学教育 2022年3期

曹卉娟王艺颖苑艺李多多薛培

循证（evidence-based）就是遵循证据，在科学研究领域普遍强调研究证据的产生、评价与应用。循证的方法不仅在医学研究领域被广泛应用，在教育研究领域也同样适用。

1 背景及目的

“教学评价”是依据一定的客观标准，通过各种测量和相关资料的收集，对教学活动及其效果进行客观衡量和科学判定的系统过程[1-2]，从本质上讲是一种对教学活动及其效果的价值判断。随着新的教学模式的提出，近5 年针对医学类课程教学效果评价相关的研究发表都在年均3 000 篇以上，中文发表的数量尤其增长迅猛。这些研究结果可以帮助教育工作者们从整体上了解教学的质量，判断教学任务的完成度和教育目标的达成度，也可以帮助教育决策制定者们宏观分析某一种教学方法或模式是否适合于大学科或者大类课程的教学实践。因此，汇总现有研究的证据来综合评价结果就显得愈发重要。

系统综述（systematic review，SR）作为循证医学的重要研究方法，是就一个特定的主题收集所能够收集到的试验，整合起来进行全面和客观的分析，从而得出某种疗法是否有效的综合结论[3]。采用SR 的方法，可以汇总多个相似主题的教学研究的结果，将可能具有个性化的某个学校、某个专业学生的教学效果评价结果整合为普适性的符合绝大多数高校和学生的综合结果。因此，SR 的方法应用于教学效果评价是具有实践意义和决策价值的[4]。

本研究拟通过系统检索收集既往发表的医学类课程教学效果评价的SR 研究，描述性分析研究的方法学特征，梳理SR 研究方法应用于教育研究与临床研究的异同点，为制定教学效果评价的SR 的方法提供基础。

2 研究方法

2.1 文献纳入标准

2.1.1 研究对象

2020 年7—10 月医学院校的学生，年级、学制不限。所评价课程为医学相关课程，学时不限。

2.1.2 研究目的

评价某种教学模式的教学效果，对照类型不限。

2.1.3 研究类型

SR研究，其纳入的原始研究限定为有对照组的研究。

2.2 文献排除标准

无法获得全文信息、抄袭、重复发表的文献将被排除。

2.3 检索策略

检索中国知网、重庆维普、万方、PubMED 及Cochrane 图书馆五个中英文数据库。检索词包括“医学”“中医”“西医”“针灸”“中药”“临床”“内科”“外科”“妇科”“儿科”“骨科”“眼科”“耳鼻喉”“产科”“生理”“病理”“药理”等医学课程常用术语，合并“翻转课堂”“PBL”“MOOC”“慕课”“微课”“线上”“在线”等常见的教学模式名称，合并“系统评价”“系统综述”“meta 分析”“荟萃分析”等研究类型的名称。检索时间截止到2020 年9 月30 日。

2.4 文献筛选及资料提取

两名研究者独立筛选文献并进行资料的提取，进行一致性核对、任何分歧经与第三名研究者协商后决定。资料提取的内容包括研究基本特征、作者信息、纳入研究的类型及数量、方法学质量评价方法、评价教学模式类型及指标、数据分析方法、研究主要发现及结论。

2.5 统计学方法

资料分析采用SPSS 23.0 软件，对计数资料以例（%）的指标进行描述分析。分析纳入研究的发表数量变化趋势、课程类型、教学模式类型、对照类型、纳排标准制定方法、资料提取内容、严格评价方法、结局指标类型及Meta 分析方法，比较SR 方法应用于教育研究与临床研究的方法学异同。

3 研究结果

3.1 检索及纳入文献情况

根据既定的检索策略，在五个数据库中初步检索得到了595 条题录，排重并浏览题目摘要后下载全文144篇，最终纳入121 篇。纳入文献中英文文献8 篇，中文文献113 篇，发表时间从2013—2020 年，其中2017 年以后发表的文献占58.68%。

3.2 纳入文献的研究特征

3.2.1 作者所属机构

纳入文献作者主要来自高校、医院或其他科研机构，其中作者中有在高校就职的文献占54.99%。

3.2.2 研究设计特征

纳入文献所涉及的课程包括基础类、临床类、实习带教、护理类4 种，2011 年前发表的文献主要是实习带教或护理类课程，2011 年及以后课程类型逐渐丰富、未限定课程的文献比例相对减少，见图1。纳入文献中72%的研究评价的教学模式为“以问题为导向的教学”（problem-based learning，PBL），自2011 年起，11%的纳入文献评价了案例教学或翻转课堂，其他被评价的教学模式包括以团队为基础的教学、慕课、标准化患者教学等。纳入文献所采用的对照教学模式主要（92.00%）为传统的“以讲授为主的教学”（lecturebased learning，LBL）。纳入文献的结局指标主要采用成绩（包括理论考核、技能考核、综合成绩）、教学满意度或学生能力评价。从纳入文献所限定的纳入研究类型来看，47.11%的研究仅纳入随机对照试验（randomized controlled trial，RCT）、30.58%的研究纳入有对照组的研究、19.83%的研究纳入试验性研究、0.83%的文献纳入其他类型的观察性研究（如队列研究），余下1.65%的文献未限定纳入研究的类型。

图1 不同发表时间段纳入文献所评价课程类型构成比示意图

所有纳入文献都采用PICOS 要素设计中的至少3个要素来限定研究的纳入标准，包括对课程类型（P，population）、待评价教学模式（I，intervention）、对照教学模式（C，comparison）、结局指标（O，outcomes）和纳入研究类型（S，study type）。20 个文献（16.53%）未提及排除标准，90 个文献（74.38%）把纳入标准的对立面列为排除标准，余下最主要的排除标准包括“数据不全”（31.40%）、“重复发表”（28.93%）、“无法利用/无原文”（14.05%），还有8.26%的研究排除了质量差、样本量小、数据无法合并或结局指标无计量资料的研究。

74.38%的纳入文献所描述的资料提取的内容包含基本信息、研究设计、PICO 各要素细节、数据分析结果等，24.79%的文献未提及资料提取的具体内容，仅1 篇文献（0.83%）在提取资料时特别关注了整群RCT 的相关信息。

82.5%的纳入文献报告采用评价RCT 方法学质量的工具进行严格评价，包括Cochrane 偏倚风险评估工具、Jadad 量表、Cochrane 工作者手册4.2.2 版本中A、B、C 三级标准及其他自拟标准。2.50%的纳入文献采用非RCT 方法学质量的工具进行严格评价，5.00%的文献未报告严格评价具体工具，7.50%的文献未进行严格评价。仅有2.50%的文献采用了包括MERSQI（medical education research study quality instrument，医学教育研究质量工具）在内的教学研究质量评价工具。

3.2.3 研究数据分析方法

8.26%的研究未做或未报告Meta分析所使用的工具，68.60%的研究使用Review Manager 软件进行Meta 分析，19.01%的研究使用Stata 软件，4.96%的研究使用R 软件、SPSS 软件或ADDIS 进行Meta 分析，其中2 个研究同时使用了两种以上软件。

在明确报告使用了Meta 分析的111 个纳入文献中，在方法部分报告拟采用亚组分析的有12 个（10.82%），其中4 个研究实际未实施亚组分析。8 个文献报告了亚组分析的分组依据（按课程类型、结局类型、学生学历、联合教学情况及对照类型分组）。18.92%的文献报告使用了逐一剔除纳入Meta 分析的文献数据来判断结果稳定性的敏感性分析。3 个文献（2.70%）报告使用了GRADE 证据评级工具、2 个文献（1.80%）提及了Meta回归分析、2 个文献（1.80%）采用了网状Meta 分析方法。

纳入研究在进行Meta 分析时所存在的问题包括对异质性较大（I2＞85%）的数据仍然进行合并（9.09%）以及未报告具体合并后的结果（2.48%）。除1 项研究考虑了整群RCT 与个体化RCT 的区别，其他所有纳入研究在Meta 分析时均未考虑将整群RCT 的数据进行特殊处理。

3.3 纳入文献发表相关其他信息

3.3.1 资助情况

56.30%的纳入文献报告了受资助情况，其中47 项研究（38.66%）受到省部级或校级教育课题的资助，余下17.64%的研究受到科研课题、人才项目、研究生课题等非教育课题的资助，见图2。

图2 纳入文献报告受资助项目分类构成比示意图

3.3.2 发表期刊

纳入文献发表刊物频次最高的三个分别为《卫生职业教育》（10.74%）、《中国高等医学教育》（9.09%）和《中华医学教育探索杂志》（9.09%）。有37.19%的纳入文献发表在非教育类期刊上，见表1。

表1 纳入研究发表期刊频次前十本期刊列表

4 讨论

4.1 主要发现

本研究共纳入121 项医学课程教学效果评价相关的SR 研究，从研究设计各要素来看，仅一项研究（0.83%）[5]在资料提取和分析时考虑了教学研究常用的整群随机设计、三项（2.48%）[6-8]发表在英文期刊上的研究在严格评价时采用了教学研究质量评价工具，其余研究从纳排标准制定、严格评价方法及数据分析几个方面均未体现出教学研究的特点，反应了SR 的方法应用在教学效果评价领域仍存在一定的局限。

4.2 教学效果评价SR 研究存在的问题

4.2.1 纳入研究未考虑整群随机设计的特点

教学研究在评价某种教学模式实施效果时往往以整班学生作为一个组，其研究设计如果是RCT 则理论上应为整群RCT，或者也可能为非RCT 甚至是观察性研究。现有发表的教学研究SR 仍然以经典RCT 作为主要的纳入研究类型，即便自2011 年起少数文献报告其纳入研究的类型拓展到了观察性研究，但是在资料提取和分析时仍然未充分考虑整群RCT 的特点。建议未来的研究在制定纳排标准及资料提取内容时充分考虑教学研究的特点[9]。

4.2.2 严格评价的方法仍然局限在RCT 的评价工具上

SR 的一大特点就是要基于对纳入研究的质量评价来客观分析定量综合的结果。造成教学研究的结果产生偏倚的因素可能包括研究中以教学班为单位纳入的样本量是否达到统计效能、教学模式的使用是否有效、结局指标的选取是否包含主观态度等定性指标，而这些条目的评价在经典RCT 方法学质量评价工具中都未能充分体现。目前也有研究在探讨更适合评价教学效果的方法和体系[10-13]。建议未来的研究采用教学研究质量评价的工具进行严格评价，如MERSQI[14]及柯氏四级评估模型（kirkpatrick's four-level evaluation model）[15]。

4.2.3 Meta 分析方法的误用及结果的误解

在进行定量的数据综合时应首先考虑纳入研究间的异质性，如果存在显著的异质性且得不到解释和合理地处理，建议不采用Meta 分析。这是当前的SR 研究存在的共性问题。对于教学效果评价类的SR 来说，资料分析方法上也有其需要特殊考虑的地方。比如，在Meta分析时若将整群RCT 和个体化RCT 的数据进行简单合并而未对整群RCT 的数据进行统计校正，那么得到的结果将产生偏倚。同时，上述问题所带来的共同结果就是数据综合的结果在解读时由于本身数据可能存在错误、又得不到恰当的严格评价结果的相佐而带来的误读和误解。建议未来的研究在解读数据结果时既恰当结合原始研究的质量，又充分考虑结果的实际推广意义。

5 结论

通过文献的检索和分析，本研究发现现有的医学类课程教学效果评价SR 研究仍仿照疗效评价类SR 的设计实施方法，未能充分考虑教学研究本身的特点，尤其在整群RCT 的资料提取和分析、纳入研究严格评价工具的使用、以及Meta 分析的方法几个方面存在较大局限。建议未来的研究充分考虑教学研究的特点，更为合理地应用SR 的方法。