2019年期刊公开发表的中国临床实践指南文献调查与评价
——证据质量和推荐强度
2022-02-16卢姝亚赵思雅吴守媛罗旭飞刘云兰王晓辉陈耀龙
卢姝亚,赵思雅,吴守媛,罗旭飞,刘云兰,吕 萌,杨 楠,王晓辉,陈耀龙,,4,5,6
兰州大学 1公共卫生学院 2健康数据科学研究院,兰州 7300003中国医学科学院循证评价与指南研究创新单元,兰州大学基础医学院,兰州 7300004世界卫生组织指南实施与知识转化合作中心,兰州 7300005Cochrane中国协作网兰州大学分中心,兰州 7300006兰州大学GRADE中心,兰州 730000
指南研究与评估工具AGREE Ⅱ(Appraisal of Guidelines Research and Evaluation Ⅱ)要求临床实践指南(下文简称“指南”)应对证据质量的高低以及推荐意见的强度给出分级[1]。国际实践指南报告规范(Reporting Items for Practice Guidelines in Healthcare,RIGHT)指出指南应详细报告证据质量和推荐强度分级方法[2]。GRADE(Grading of Recommenda-tions Assessment,Development and Evaluation)工作组将“证据质量”定义为在多大程度上确信效应估计值支持作出推荐,是指南中推荐意见的重要依据;将“推荐强度”定义为制订者在多大程度上确信干预效果利大于弊或弊大于利,是指南使用者实施干预措施的重要参考[3- 4]。
研究显示,国际上证据质量和推荐强度的分级方法超过50种[5]。然而,2014—2018年发表的573篇中国指南中,62.3%的指南未使用任何证据质量和推荐强度分级方法;在使用证据质量和推荐强度分级方法的指南中,分级方法亦不规范、不统一[6]。本研究调查2019年期刊公开发表的中国指南使用证据质量和推荐强度分级方法的现状,重点对GRADE分级进行分析,以期为指南制订者合理应用证据质量和推荐强度的分级方法提供参考。
1 资料与方法
1.1 资料来源
纳入符合美国国家医学院1990年或2011年定义的指南,第一作者单位为中国机构,公开发表于同行评审期刊,正式刊出时间为2019年1月1日—2019年12月31日,语种为中文或英文[7]。同时,本研究在参考文献[7]的基础上增加以下纳入标准和排除标准。纳入标准:(1)指南中有明确的推荐意见;(2)有推荐强度分级或证据质量分级。排除标准:方法学和推荐意见中均未报告使用推荐强度分级或证据质量分级。
1.2 文献检索
2名研究者独立在中国知网、万方数据知识服务平台和中国生物医学文献数据库检索中文指南,在PubMed数据库检索英文指南,并补充检索其他网站。具体检索策略见参考文献[7]。
1.3 文献筛选与信息提取
将检索结果导入EndNote X9软件,由经过培训的2名研究者独立筛选文献并交叉核对,如遇分歧则通过讨论或咨询第三方解决。根据预先设定的信息提取表,4名研究者独立提取纳入指南的相关信息。信息提取内容包括:(1)指南基本信息:标题、牵头单位/第一单位类型、发表语种;(2)证据质量分级情况:分级方法、分级描述(如文字、字母、数字等);(3)推荐强度分级情况(仅针对采用文字描述推荐强度,且推荐强度分为强推荐和弱推荐两个级别的指南):描述推荐强度的文字格式(如加粗、使用括号、标注提醒等)、推荐强度在指南中的定位、推荐强度的措辞偏好;(4)GRADE分级系统使用情况(仅针对明确说明且在报告形式上正确、规范应用GRADE分级系统的指南):应用GRADE分级系统的推荐意见数量、证据质量与推荐强度的关系。
正式提取信息前,首先进行两轮预试验(每轮10篇指南),并对预试验信息提取结果的差异和信息提取表的合理性进行讨论,直至4名研究者对信息提取的理解达成一致。根据讨论结果修订信息提取表,对证据质量和推荐强度的分级方法及分级描述进行信息提取。
1.4 统计学处理
采用Microsoft Excel 2019、EndNote X9、R-Studio 4.0.2软件对数据进行汇总分析,计数资料以频数和百分数表示。
2 结果
2.1 纳入文献基本情况
2019年期刊公开发表的中国临床实践指南共226篇,最终纳入符合标准的指南106篇(46.9%,106/226),其中中文87篇,英文19篇;106篇指南对推荐意见进行了证据质量分级和/或推荐强度分级,其中8篇(7.5%,8/106)指南仅有证据质量分级,20篇(18.9%,20/106)指南仅有推荐强度分级,3篇(2.8%,3/106)指南证据质量或推荐强度分级无法辨识(即未说明使用的分级符号代表证据质量还是推荐强度),75篇(70.8%,75/106)指南同时对证据质量和推荐强度进行了分级;在指南方法部分报告或明确定义的分级方法共18种。根据指南数量由高至低对18种分级方法排序,并罗列各分级方法所使用的证据质量和推荐强度分级描述(表1)。
2.2 指南的证据质量分级
83篇(78.3%,83/106)指南进行了证据质量分级。证据质量分为4级的指南最多(38.6%,32/83),其次为3级(32.5%,27/83)。分级描述分为5种类型,采用字母作为证据质量分级描述的指南最多(50.6%,42/83),其次是文字符号(22.9%,19/83)(图1)。证据来源国家、发表年份、引用证据类型等详情见本系列之指南证据分析[8]。
2.3 指南的推荐强度分级
96篇(90.6%,96/106)指南进行了推荐强度分级。推荐强度分为两级的指南最多(35.4%,34/96),包括6类推荐强度分级描述:字母(如A、B、C)、文字(如强、弱,推荐、不推荐,strong、weak)、阿拉伯数字(如1、2、3)、罗马数字(如 Ⅰ、Ⅱ、Ⅲ)、阿拉伯数字和字母组合(如1a、2a)、罗马数字和字母组合(如 Ⅱa、Ⅱ b)。在表述推荐强度级别时,指南更多采用文字(34.9%,37/106)和数字(27.4%,29/106)作为推荐强度的分级描述(图2)。
由于纳入指南在表述推荐强度时使用文字描述最多,为分析其推荐强度的文字表述格式和措辞偏好,针对推荐强度为“强推荐”和“弱推荐”2个级别的28篇指南进一步分析,发现分级描述最常用括号标记(89.3%,25/28),39.3%(11/28)的指南对分级描述的含义标注了文字解释,67.9%(19/28)的指南在推荐意见后报告分级描述,32.1%(9/28)的指南在推荐药物后报告分级描述。
表 1 2019年期刊公开发表的中国临床实践指南推荐意见分级系统及分级描述(n=106)
根据“强推荐”和“弱推荐”两类方式,统计28篇指南采用的具体表述方法。若该表述方法在指南的强推荐和弱推荐中均使用,则在强推荐和弱推荐中分别进行计数。综合分析表达推荐强度的10种表述方法,共31次。强推荐中表示肯定和正面的表述多于弱推荐,如“应”“推荐”“强烈推荐”“需”等正面表述在强推荐中出现的频率为21次;“不推荐”“不建议”等表示否定的表述在弱推荐中出现的频率为10次(表2)。
2.4 GRADE分级系统使用情况
38篇(16.8%,38/226)指南报告使用了GRADE系统,其中仅23篇(10.2%)指南的证据质量和推荐强度分级均采用GRADE分级系统,仅15篇(6.6%)指南按照GRADE工作组要求规范。
图 1 2019年期刊公开发表的中国临床实践指南证据质量分级描述类型注:文字包括中文和英文;数字包括阿拉伯数字和罗马数字;混合指同时使用两种符号对证据质量进行分级;混杂分级表示使用一种符号同时对证据质量和推荐强度进行分级
图 2 2019年期刊公开发表的中国临床实践指南推荐强度分级描述类型注:文字包括中文和英文;数字包括阿拉伯数字和罗马数字;混合指同时使用两种符号对推荐强度进行分级;混杂分级表示使用一种符号同时对证据质量和推荐强度进行分级
表 2 2019年期刊公开发表的中国临床实践指南中“强推荐”和“弱推荐”表述方法及出现频率
标准及内容。此15篇指南共包含265条推荐意见,其中15条(5.7%)推荐意见仅由专家会议达成共识,缺乏证据支持;250条(94.3%)推荐意见报告了证据质量和推荐强度分级。
分析250条推荐意见引用证据质量情况。近1/2(44.8%,112/250)的推荐意见引用低或极低质量证据。在151条(60.4%,151/250)强推荐意见中,引用中等质量证据的强推荐意见最多(35.8%,54/151),另有49条(32.5%,49/151)强推荐意见基于低质量或极低质量证据,但其中18条(36.7%,18/49)强推荐意见未给出基于低质量或极低质量证据给予强推荐的理由或说明。在99条(39.6%,99/250)弱推荐意见中,36条(36.4%,36/99)弱推荐意见基于中高质量证据,5条(5.1%,5/99)弱推荐意见基于高质量证据(图3)。
96条(38.4%,96/250)推荐意见采用系统评价作为证据支持,支持推荐意见的系统评价共121篇。其中2篇指南[9- 10]自行开展系统评价作为推荐意见的证据基础(图4)。
3 讨论
本研究分析了2019年期刊发表的中国指南证据质量和推荐强度分级情况,不足1/2的指南进行了证据质量分级和/或推荐强度分级,仅1/3的指南同时对证据质量和推荐强度进行了分级。进行证据质量分级的指南比例略高于拉丁美洲和加勒比国家[11],但低于WHO的指南[12]。
超过1/2的指南未报告分级系统的名称或来源。但大部分指南采用或改编了GRADE或牛津大学的分级系统。如2005年美国胸科学会和WHO推荐使用GRADE分级系统[13- 14]。
本研究纳入的部分指南存在多分级、漏分级、错分级及分级描述混用、误用、缺失等问题。如在《脑卒中水中运动治疗中国循证临床实践指南(2019版)》[15]中,错误地将GRADE分级系统的证据质量分为两级;在《小儿日间手术麻醉指南》[16]中,证据分级联用牛津分级和GRADE分级系统,而缺少推荐强度分级。由于指南制订者、编辑和审稿人对指南分级方法了解不足,或缺乏明确的审查标准,106篇指南中近1/3的指南缺乏对分级描述含义的解释。这将影响读者对指南中证据质量和推荐意见的正确理解及对推荐意见的合理应用[17]。
国际指南协作网(Guideline Internal Network,GIN)建议,与干预措施有关的推荐意见应使用能准确反映推荐强度的措辞[18]。GRADE工作组推荐使用主动语态报告推荐意见:对于强推荐,采用“我们推荐...”或“临床医生应...”等清晰明确的措辞;对于弱推荐使用语气稍弱的措词,例如“我们建议...”或“临床医生可能...”或“在...条件下我们建议...”等[19- 20]。
图 3 采用GRADE分级系统的指南证据质量与推荐强度比较桑基图
图 4 按照GRADE工作组要求规范呈现分级标准及内容的指南使用系统评价的情况
在使用GRADE分级系统时,我们注意到部分指南基于低或极低质量证据给出了强推荐。分析其使用证据的情况,发现仅1/3的推荐意见有系统评价支持,部分推荐意见直接由专家会议达成共识。尽管在确定推荐强度时证据质量仅作为其中一个影响因素,利弊关系、患者价值观和资源成本利用等因素也会对推荐强度产生影响[21],但一般情况下,强推荐应基于高或中等质量证据,低或极低质量证据给出弱推荐,除非在危及生命等特殊条件下[22]。
针对中国指南证据质量和推荐强度分级中存在的不足,提出以下建议:(1)指南制订者应规范使用推荐强度和证据质量分级方法;(2)制订指南时,明确报告证据质量与推荐强度的联系,并在原理中分析说明,供临床医生参考;(3)倡导指南制订者使用高质量系统评价作为推荐的证据支持;(4)应加强对推荐意见和证据质量分级方法的传播与培训,指南方法学家或循证医学专家应参与指南的制订;(5)审稿人和编辑应严格把关,确保发表的指南正确合理使用分级系统。
4 小结
中国指南在证据质量和推荐强度分级方面,存在分级方法使用率低、使用混乱、误用或滥用分级等问题。应规范对证据质量和推荐强度分级方法的使用,不同的指南应尽可能统一分级标准,推荐使用GRADE分级系统。
作者贡献:卢姝亚负责数据统计并撰写文章初稿;赵思雅、吴守媛、刘云兰、吕萌负责数据提取;罗旭飞、杨楠负责初稿修改;陈耀龙、王晓辉负责文章选题、结构设计、团队组建、数据核查及文章修订。
利益冲突:所有作者均声明不存在利益冲突
志谢:感谢王子君、史乾灵、张静怡、刘萧在初稿修改中提出建设性的专业意见。