基于临床指南研究与评估工具Ⅱ的痴呆社区管理指南评价
2021-10-21张海娜李婧杜娟
张海娜,李婧,杜娟
痴呆是以认知障碍为核心,伴有精神行为症状,导致日常生活能力下降的一组疾病[1]。痴呆作为一种慢性神经退行性疾病,具有高患病率、高致残率、高医疗花费的特点,已经成为世界范围内的一个主要公共卫生问题[1-2]。随着国家政策的引导及全科医生对痴呆认识的不断提高,痴呆管理会逐渐下沉到基层医疗卫生机构。从早期筛查、评估、初步诊断到患者确诊后的健康宣教、定期随访,全科医生将会发挥重要的作用[2]。临床实践指南是全科医生进行痴呆社区管理的临床决策工具,科学制定的临床指南对提高医疗服务质量、科学配置医疗资源和保障患者权益等起到了至关重要的作用。对于基层医务人员来说,确定哪些指南是高质量的,哪些建议在各指南中是一致的,以及最终如何将指南最佳地整合到临床实践中是一个挑战[3]。为此,本研究采用指南研究和评估工具Ⅱ(The Appraisal of Guidelines for Research& Evaluation Instrument Ⅱ,AGREE Ⅱ)[4-5]对包含痴呆社区管理内容的指南和共识进行评价,以期为基层医务人员在痴呆管理工作中合理选用指南提供参考。
1 研究方法
1.1 检索策略 2019年9月至2020年1月,以“痴呆”“阿尔茨海默病”“社区管理”“临床实践指南”“共识”“基层医疗”“dementia”“Alzheimer disease”“community management”“clinical practice guideline”“consensus”“primary care”为主题词或关键词,从PubMed、Medline、Elsevier、中国知网、万方数据知识服务平台、维普网等中英文数据库及google.scholar.com网站,以及美国国家指南交换中心(National Guideline Clearinghouse,NGC)、苏格兰校际指南网站(Scottish Intercollegiate Guidelines Network,SIGN)、新西兰临床实践指南网站(New Zealand Guidelines Group National,NZGG)、加拿大临床实践指南网站(CMA INFOBASE)及英国国家临床示范研究所(National Institute Health and Care Excellence,NICE)网站等进行检索,查找2008—2020年发表的有关痴呆管理的循证临床实践指南、痴呆照护共识等文献。以万方数据知识服务平台和Medline为例展示检索策略,万方数据知识服务平台检索表达式为(中英文扩展):(主题:(痴呆 or 阿尔茨海默病) and 主题:(指南 or 共识)and 全部:(基层医疗 or 社区管理)) and 时间跨度:2008—2020;Medline检 索 表 达 式 为:TS=(dementia* OR Alzhiemer disease) AND TS=(guideline* OR consensus)AND TS=(primary care* OR community management),Date:2008—2020。
1.2 指南纳入和排除标准 指南纳入标准:(1)2008—2020年出版的指南或共识意见,如有更新版则纳入最后更新版本;(2)推荐意见明确;(3)含痴呆管理相关建议。排除标准:(1)非中、英文文献;(2)直接翻译的或重复发表的国外指南;(3)非完整版指南(如指南的摘要或解读)。
1.3 指南筛选和质量评价 由两名研究者(基层医疗卫生机构全科主治医师)根据指南纳入和排除标准对指南进行筛选,意见不一致时通过商讨解决,商讨结果存在异议时由第三人解决。两名研究者分别独立使用AGREE Ⅱ对各指南进行评分,意见不一致时通过商讨解决。两名参评员均为研究生学历,有较好的英语基础,在评分前对AGREE Ⅱ使用手册进行充分学习和解读。两位参评员均有多年临床经验,能够保证评价的专业性。
AGREE Ⅱ由6个领域(指南范围与目的、参与人员、严谨性、清晰性、应用性、独立性)共23个条目和2个总体评估条目组成,每个条目的评分为1~7分,1分表示指南完全不符合该条目,2~6分表示指南不完全符合该条目,7分表示指南完全符合该条目,得分越高说明该条目符合程度越高[4-5]。AGREE Ⅱ具体评分程序:(1)由两名参评员分别对各指南评分。(2)将两名参评员对每本指南评分进行综合,通过公式计算各领域标准化百分比得分。领域标准化百分比得分=〔(该领域实际得分-该领域最小可能得分)/(该领域最大可能得分-最小可能得分)〕×100%。领域标准化百分比得分越高,说明指南在该领域的方法学质量越高。(3)根据指南各领域标准化百分比得分将指南的推荐级别分为3级。指南6个领域得分均≥60%为A级,可不更改直接推荐;得分≥30%的领域数≥3个但有<60%的领域为B级,需要不同程度修改完善后推荐;得分<30%的领域数≥3个为C级,由于指南制定方法较差或证据质量差暂时不推荐[6]。(4)在完成了23个条目评价之后,参评员还要分别完成指南的2个总体评估条目,各领域得分情况用于从方法学上确定指南推荐级别,但总体质量评分用于最终确定指南是否纳入。总体评估需要评价者考虑每个领域评估标准,对指南的质量做出一个准确的综合判断,并要求回答“是否推荐使用该指南”。总体质量评分取两位参评员的评分均值,以(±s)表示,总体质量评分≥5分的指南为中高质量指南,可以纳入,4分≤总体质量评分<5分的指南,需要重新评估以确定纳入情况,总体质量评分≤3分的为质量低劣指南,排除[3-5]。通过Kappa检验评价者间一致性,Kappa>0.40代表一致性较好,表明评分结果达到较高的重测信度[7]。
1.4 数据提取及分析 两名参评员独立完成数据提取,提取信息包括基本信息(指南名称、国家、制定机构、制定年份及参考文献数量)及根据AGREE Ⅱ 23个评估条目提取出来的相对应的信息,然后根据提取结果的完整性和科学性对各条目进行评分。
2 结果
2.1 文献检索结果 通过对PubMed、Medline、万方数据知识服务平台等中、英文数据库进行检索,共检出930篇文献,以google.Scholar.com网站检索到前30页条目及各指南网站检索到的343篇为检索结果,经过阅读题目和摘要的初筛及按照纳入和排除标准阅读全文后的再次筛选,最终纳入来自12个国家的共45篇指南[1,8-51]( 图 1), 其 中 有 8 篇 指 南[8-9,11,14,17,21,35,41]内容全部是关于痴呆社区管理的,其余37篇指南[1,10,12-13,15-16,18-20,22-34,36-40,42-51]中除了有部分内容涉及痴呆社区管理,还有关于痴呆在专科的诊疗内容。
图1 文献筛选流程图Figure 1 Flow chart of literature screening
2.2 纳入指南的一般特征 本研究共纳入了45篇痴呆管理相关指南,其中美国10篇、加拿大5篇、澳大利亚4篇、英国9篇、欧洲5篇、日本3篇、中国内地3篇,荷兰、韩国、新加坡、马来西亚、印度、中国香港特别行政区各1篇。指南中介绍的痴呆社区管理内容主要包括痴呆的识别、筛查、诊断、评估及药物和非药物干预措施。纳入指南的名称、制定机构、制定年份及参考文献数量等特征见表1。
表1 纳入的痴呆管理相关指南的一般特征Table 1 General features of included guidelines about the management of people with dementia
(续表1)
2.3 各指南不同领域及总体质量评分结果 45篇指南在指南范围与目的、参与人员、严谨性、清晰性、应用性、独立性6个领域平均得分分别为(77.20±8.96)%、(46.30±21.16)%、(39.19±20.80)%、(71.70±17.30)%、(26.30±17.35)%、(40.60±33.73)%,其中A级指南1篇,B级指南27篇,C级指南17篇(表2)。经过全面评价后,A级和B级指南中,15篇指南总体质量评分≥5分,9篇指南总体质量评分为4~<5分,经重新评估后入选;4篇指南总体质量评分<4分,剔除。最终评选出 24 篇[1,8,10-14,17-23,28,30,32-34,36,42,46-47,49]中、高质量指南,指南范围与目的、参与人员、严谨性、清晰性、应用性、独立性6个领域平均得分分别为(80.20%±7.90)%、(54.50±16.98)%、(48.90±16.03)%、(77.90±7.99)%、(33.20±17.34)%和(53.30±35.63)%。对两位评分者所评的分数进行一致性检验,45篇指南的Kappa值评分均值为(0.73±0.16)分,筛选出的24篇中高质量指南的Kappa值评分均值为(0.70±0.20)分,总体评分信度较好(P<0.001)。
表2 各痴呆管理指南在AGREE Ⅱ各领域标准化得分及评分一致性情况Table 2 Values of standardized percentage and inter-rater agreement for guidelines about the management of people with dementia based on AGREE Ⅱ
2.3.1 范围和目的 本领域平均得分为(77.20±8.96)%,评选出的24篇中高质量指南平均得分为(80.20±7.9)%,是得分最高的领域。45篇指南中24篇得分>80%,只有2篇指南[7-8]本领域得分低于60%。本领域涉及指南的总目的、所涵盖的卫生问题及指南所要应用的人群3个条目,是指南必不可少的组成部分,所纳入的指南均有较具体的描述。
2.3.2 参与人员 本领域平均得分为(46.30±21.16)%,评选出的24篇中高质量指南平均得分(54.50±16.98)%,45 篇指南中仅有 7 篇[1,12,14,19,25,30,34]得分 >70%。本领域包括指南制定组所有相关专业的人员、考虑到目标人群观点及指南适用者3个条目,仅有13 篇 指 南[8,11-12,14,19-20,22,24,25,27-28,34,37]对这些条目有较为全面的阐述。35篇指南[1,8,10-15,18-25,27-30,32-35,37-38,40-42,45,47-51]提及指南制定组所有成员,10 篇指南[9,16-17,26,31,36,39,43-44,46]未能包括小组全部成员;关于收集目标人群观点这个条目,有 20 篇指南[8,10-12,14,17-20,22-28,34,37-38,48]有所提及,其中 4篇指南[10,23,25,28]表述较明确,其他 16篇指南[8,11-12,14,17-20,22,24,26-27,34,37-38,48]表 述 不 全面,没有介绍具体的实施方法和结果;33篇指南[1,8-12,14-22,24-38,41-42,45]对指南适用者有明确说明。
2.3.3 严谨性 本领域平均得分为(39.19±20.8)%,评选出的24篇中高质量指南平均得分为(48.90±16.03)%,为得分第二低的领域,严谨性为条目最多的领域,包括检索证据、选择证据的标准、描述证据群的方法、形成推荐意见的方法、形成推荐意见时考虑了对健康的受益和风险、证据建议之间的联系、发表前经过外部评审及指南更新过程8个条目,该领域也是指南制定的核心环节。7 篇指南[8,16,20,27,29,32-33]各条目的表述较明确,方法学质量较高,20篇指南[1,9,14-15,18-19,21-22,25,27-28,30,34,37,41-42,44-45,47-48]对各条目均有表述,但不全面,部分条目只是简单介绍,缺乏具体内容。本领域中得分最低的条目是外部评审方面,仅有 9 篇指南[11-13,17,19-20,27,40,48]进行了外部评审,这一点上国外指南相对于中国更重视一些。
2.3.4 清晰性 本领域平均得分为(71.70±17.30)%,评选出的24篇中高质量指南平均得分为(77.90±7.99)%,为得分第二高的领域。清晰性领域要求指南应具体精确地描述推荐建议是在什么情况下、针对何种人群的,目标为一种疾病管理的指南将考虑临床筛查、预防、诊断或治疗存在各种不同的选择,在指南中应该明确提到这些可能的选择。包括推荐意见明确、针对不同问题提供相应的选择、主要推荐意见清晰易辨3个条目,45篇指南中18 篇[1,8,14-16,18-20,23,27-29,32-33,37,42,48,51]得分 >80%,均做到表述明确清晰,重要的推荐意见通过使用不同字体或颜色以突出显示,使读者易于辨识。7篇指南[10,13,15,24,31,35,49]本领域得分低于 60%,对各条目也都有表述,但在针对不同问题提供相应的选择方面有所欠缺。
2.3.5 应用性 本领域平均得分为(26.30±17.35)%,评选出的24篇中高质量指南平均得分为(33.20±17.34)%,为得分最低的领域。应用性领域主要包括指南在应用过程中的促进和阻碍因素、提供应用于实践的建议和配套工具、资源投入、监控和审计标准4个条目。纳入的指南中,在应用过程中的资源投入、促进和阻碍因素和审计标准方面很少提及,提供配套使用工具方面,各指南均有提及。美国、英国、澳大利亚及加拿大、韩国的部分指南提供的使用工具比较完整,国内指南虽有提及,但无具体表述。
2.3.6 独立性 本领 域平均得分为(40.60±33.73)%,评选出的24篇中高质量指南平均得分为(53.30±35.63)%,45篇指南中有8篇指南[9,14,21-22,28-29,36,45]的 得 分 >80%。 独 立 性领域主要包括赞助单位的观点是否影响指南内容及小组成员之间是否存在利益冲突。17篇指南[1,8-10,12,15,18,22,24-25,36,38-39,40,43-44,49]未提及本领域内容,其他指南均有提及,入选的24篇指南均明确了是否存在利益冲突,8 篇指南[1,8,10,12,18,22,33,36,49]对于是否使用外部赞助表述不完整。
2.3.7 指南综合评价结果 全面评价包括指南总体质量评分和评价者回答是否推荐使用该指南,45篇指南总体质量评分平均为(4.90±1.01)分,评选出的24篇中、高质量指南总体质量评分平均为(4.90±0.64)分,推荐使用或修订后使用,其中包括中 国 3 篇[1,30,32]、 美 国 5 篇[11,17,22,28,36]、 英国 4 篇[21,42,10,23]、 加 拿 大 2 篇[12,46]、 澳 大 利 亚3 篇[8,14,34]、欧洲 3 篇[13,47,49],新加坡、韩国、马来西亚、日本各 1 篇[18-20,33]。
3 讨论
3.1 各指南制定方法学上有待进一步加强 纳入的45篇指南的质量参差不齐,在范围和目的、清晰性2个领域的平均得分>70%,但是参与人员、严谨性、应用性和独立性4个领域得分较差,仍需改进,指南的制定方法学有待进一步完善。尤其是在应用性领域,在痴呆的筛查及管理过程中,需要用到多个量表及其他配套工具,没有这些使用工具,痴呆的社区筛查及定期评估工作很难进行。在独立性领域,部分指南制定小组对“披露小组成员的利益关系”和“声明赞助单位的观点不影响结果”没有给予足够的重视。评选出的24部中高质量指南,各领域得分及总体质量评分均较总体平均情况提高,在指南制定方法学上更为严谨。
3.2 我国亟须一部痴呆社区管理指南 2016年世界阿尔茨海默病报告指出:当前痴呆诊疗的专科医生模式(由老年病学专家、神经病学家和精神病学家提供的痴呆诊治服务)不太可能扩大到能够为越来越多的痴呆患者提供足够的覆盖[52]。痴呆的管理将从专科医生模式向专科-基层共同管理模式转变。
随着全科医生对痴呆认识的提高,痴呆管理工作将逐渐在社区开展,痴呆的管理会像高血压、糖尿病等慢性病一样,有成熟的社区管理模式,才能保证痴呆得到持续、有效管理。临床实践指南的应用已逐渐成为一些国家日常临床质量管理工作的重要组成部分。依靠高质量的痴呆管理指南,特别是循证指南,指导、帮助基层医务人员从事预防、筛查、诊断、治疗和管理工作是国际上近年来规范服务、加强服务质量管理、控制医疗费用的行之有效的做法。
我国尚未制订基层医疗卫生机构痴呆管理指南,建议相关部门采用AGREE Ⅱ指南评价工具作为考量,结合我国基层医疗卫生机构卫生资源,采用循证评价的方法,制订出符合我国临床实践的高质量痴呆社区管理指南,为我国基层医疗卫生机构痴呆管理提供最佳证据。
3.3 本研究的局限性 本研究纳入的指南只包括中、英文指南,而不包括其他语种指南,可能会导致一些痴呆管理做得比较好的国家(如日本)的本土指南未能入选;另外,大部分指南发布在各国特定的网站上,在查找指南过程中,可能会因为未考虑到某些网站而遗漏部分痴呆管理指南,导致所纳入指南不全面。
由于AGREE Ⅱ评价工具更侧重于指南制定方法学的严谨性,仅在总体质量评分时考虑了指南包含内容,可能会导致指南内容很实用但制定方法学较差而未能入选,但本研究筛选出的24篇中高质量指南涉及美洲、欧洲、亚洲的多个国家,指南内容有很多重叠,仍足够为我国基层医疗卫生机构进行痴呆管理提供参考。
志谢:感谢首都医科大学图书馆程艾军在文献检索策略方面予以指导,感谢首都医科大学在读博士王美荣对英文摘要进行修订。
作者贡献:张海娜、杜娟负责文章整体构思及可行性分析;张海娜、李婧应用AGREE Ⅱ对入选指南或共识进行评分;张海娜负责数据分析及撰写论文;杜娟负责论文的修订、质量控制及审校。
本文无利益冲突。