针刺治疗原发性抑郁症的系统评价再评价❋
2021-03-06徐桂兴银子涵李雨谿付亚男梁繁荣
徐桂兴,李 涓,银子涵,李雨谿,付亚男,周 俊,梁繁荣
(成都中医药大学,成都 610075)
抑郁症是由多种原因导致的精神疾病,临床表现为持续心情抑郁、思维迟钝、兴趣减退、意志活动减少,并伴有焦虑不安、食欲减退、性功能减退、睡眠障碍等症状[1]。随着社会竞争越来越激烈,抑郁症的发病率逐年增高,在年满20岁的成年人中,抑郁症患者正以每年11.3%的速率增加[2], 抑郁症已被认为是导致全球疾病负担的十大病种之一。世界卫生组织(WHO)估计,到2020年抑郁症或将成为全球第二大疾病负担源[3]。目前抑郁症的治疗多采用西药, 虽然这些药物能够缓解患者的抑郁情绪,但会带来不同程度的不良反应,影响患者心血管、消化、内分泌等系统的稳态[4]。新近发布的1项Meta分析结果显示[4-5],与安慰剂比较大部分抗抑郁药物在改善患者精神状态方面并没有优势。
目前已发表的针刺治疗原发性抑郁症的系统评价,研究结果存在较大差异[15,17,19-20]。外国学者E. Ernst等[6]在2011年采用OQAQ量表对针刺治疗抑郁症系统评价进行了再评价,但主要针对系统评价中容易产生偏倚的方面,未对方法学质量和证据质量进行评价。因此,本研究采用AMSTAR工具、PRISMA工具和GRADE系统全面评价针刺治疗原发性抑郁症系统评价的方法学质量、报告质量以及证据质量。
1 资料与方法
1.1 检索策略
计算机检索Web of science、Embase、Pubmed、Cochrane library、CNKI、CBM、万方和维普数据库,检索日期截止2018年12月5日。中文检索词为针灸、针刺、电针、温针、头皮针、耳针、穴位、抑郁症、郁证、抑郁、系统评价、系统综述、Meta分析、荟萃分析,英文检索词为acupuncture, electropuncture, auricular acupuncture, warm acupuncture, scalp acupuncture、systematic evaluation, systematic assessment, systematic review, meta-analysis, tristimania, depression。
1.2 纳入标准
1.2.1 研究设计 针灸治疗原发性抑郁症的系统评价和Meta 分析,发表语言限制中文、英文。
1.2.2 研究对象 原发性抑郁症患者,年龄、种族、性别等不限。
1.2.3 干预措施 试验组: 针刺、电针、耳针、温针、头皮针等或联合使用; 对照组: 西药、安慰剂、假针刺。
1.2.4 结局指标 汉密尔顿量表(HAMD)、总有效率、抑郁自评量表(SDS)、不良反应等。
1.3 排除标准
重复发表的文献; 质量评价或方法学研究文献; 系统评价计划书。
1.4 文献筛选与资料提取
首先按照检索策略检索相关文献并导出题录(标题、摘要等),根据题录筛除明显不符合纳入要求的文献,对可能符合的文献进行下载全文阅读,以确定其是否符合。采用Excel2016建立表格,对符合要求的文献按照作者、标题、发表年份、文献数量、病例数量、干预措施、结局指标、AMSTAR工具条目、PRISMA工具和GRADE系统升降级因素等内容进行资料提取。文献的检索、筛选及资料提取均由2名研究员独立进行(徐桂兴、银子涵)交叉核对,意见不一致时咨询专家(梁繁荣教授)。
1.5 评价方法
1.5.1 AMSTAR工具使用方法 根据AMSTAR工具的11个条目对针刺治疗原发性抑郁症系统评价的方法学质量进行评价,每个条目均用“是”“否”“部分”和“不充分”进行描述,“是”得2分,“否”得0分, “部分”和“不充分”得1分,最后计算每个系统评价的AMSTAR总得分,17~22分为高质量研究,9~16分为中等质量研究,0~8分为低质量研究。
1.5.2 PRISMA工具使用方法 采用PRISMA工具[7]评价纳入研究的报告质量,使用“是”“否”以及“不知道”进行数据提取,然后采用统计学分析对纳入系统评价的PRISMA数据进行计量整合并制成图表。
1.5.3 GRADE系统使用方法 应用GRADE系统对上述所得结局指标从研究的局限性、不一致性、不直接性、不精确性、发表偏倚5个方面进行证据质量评级。对于RCT研究,高级证据表明非常确信真实的效应值接近效应估计值;中级证据表明,对效应值计有中等程度的信心,真实值有可能接近效应值,但仍存在二者大不相同的可能;低级证据表明,对效应值计算的确信程度有限,真实值有可能与估计值大不相同;极低级证据表明,对效应值的计算几乎没有信心,真实值可能与估算值大不相同[8-10]。
2 结果
2.1 文献检索结果
图1示,初检文献中文394篇,英文136 篇,排除重复文献204篇,非原发性抑郁症226篇,非系统评价58篇,系统评价再评价3篇,非针刺作为主要治疗手段21篇。最后纳入18篇针灸治疗原发性抑郁症系统评价论文,其中15篇期刊论文,2篇学位论文和1篇会议论文。
图1 针灸治疗原发性抑郁症文献检索流程图
2.2 纳入研究的一般情况
表1示,所纳入的18篇文献中,12篇中文文献[11-21],6篇英文文献[4,22-26]。其中会议论文1篇,博士学位论文1篇,硕士学位论文1篇,期刊论文15篇,发表时间为2005年至2017年,其中以2017年最多4篇,治疗组干预措施为针刺、电针、手针、耳针、激光针、头针或其配合西药,对照组多用西药、安慰剂、假针刺、安慰针等。大部分研究认为针刺与西药疗效相当,但存在较大异质性影响结果的可信度。
表1 纳入18篇针刺治疗原发性抑郁症系统评价的文献基本特征
2.3 方法学质量评价
表2示,采用AMSTAR量表对纳入的系统评价进行方法学质量评价。结果显示, 68.4%的系统评价为中等质量,21%的系统评价为高质量,仅10.6%的系统评价为低质量研究[16,20,27],高质量研究中2个17分[19,23],2个18分[12,20],中等质量研究得分在11~16分之间。
表2 纳入 18篇针刺治疗原发性抑郁症系统评价的AMSTAR评分结果
2.4 报告质量评价
PRISMA声明评价对纳入的18个系统评价按照PRISMA声明中的27 条目进行分析,结果显示 所有研究均报道了研究题目、前期方案、理论基础、目的、纳入标准、信息来源、概括效应结局指标、结果综合方法、单个研究结果、局限性以及研究的主要结论,但没有一个研究报道其研究方案的注册;2个研究报道了明确的检索方法,16个研究只报道了检索词而没有具体的检索式,研究筛选的具体过程也只有10个研究有报道,仅有3篇研究报道了资料提取的条目,对于研究的偏倚也只有9篇文章进行了描述,12篇文章未进行其他分析(如敏感性分析等),大部分(17篇)研究都有明确的结论,设计研究内部风险的研究有11篇,研究自身存在偏倚的仅有10篇,说明资金支持的有9篇。所有研究中,10个研究报道符合PRISMA声明27条中的20条以上,其中1个研究未报道注册号,但其他都按照PRISMA声明进行了报告,属于高质量的文献研究。各研究具体PRISMA报告质量分析见图2。
2.5 主要结局指标和GRADE证据质量分级
2.5.1 HAMD 13个系统评价关注了HAMD评分,其中2项研究为中等质量证据。在张迪2017[17]的研究中认为,针刺(MD=3.33,95%CI(-4.578,-2.0990),P<0.01)或针刺+药物(MD=5.697,95%CI(-7.961,-3.433),P<0.01)均优于单纯使用药物的疗效,但针刺对比安慰剂(MD=1.379,95%CI(-0.646,3.403),P>0.01)或假针刺(MD=0.804, 95%CI(-0.605, 1.004),P>0.01)疗效差异无统计学意义。在Zhang,Z 2010[14]的研究结果认为,针刺对比抗抑郁药或假针刺时差异无统计学意义(WMD=0.31,95%CI(-0.94,-1.56),P=0.63)。按对照组不同分亚组进行分析发现,针刺对比药物差异有统计学意义(WMD=0.23, 95%CI(-1.40,-0.94),P=0.70),针刺对比假针刺差异无统计学意义(WMD=2.39, 95%CI(-2.78,7.56),P=0.36)。针刺作为附加疗法时,针刺+药物对比药物差异有统计学意义(WMD=2.38, 95%CI(0.62,4.12),P=0.007)。
2.5.2 总有效率 11个系统评价关注了有效率,其中3项研究的证据质量为中级。在Zhang,Z 2010[14]的研究中认为,单独针刺治疗时与对照组比较差异有统计学意义(RR=1.09, 95%CI(0.92,1.30),P=0.31)。根据对照组不同分亚组药物(RR=1.06, 95%CI(0.97,1.17),P=0.20)、假针刺(RR=1.30,95%CI(0.26,6.37),P=0.70)、等待治疗(RR=1.27, 95%CI(0.58,2.80),P=0.55)时也没差异有统计学意义,但相关研究较少,异质性很大,其中针刺对比等待治疗仅1项研究,对比假针刺也只有2项研究且其异质性为94%。在黎波2013[20]的研究中认为,毫针或电针加药物对比药物在有效率上均差异有统计学意义(RR=0.61, 95%CI(0.42,0.90),P=0.01)。单独毫针刺或电针对比药物在有效率上差异无统计学意义(RR=0.80, 95%CI(0.57,1.12),P=0.19)。在熊俊2009[22]的研究中,1个研究认为针刺比较黛力新差异无统计学意义(RR=1.01,95%CI(0.82,1.23));6个研究认为针刺比较氯西汀差异有统计学意义(RR=1.06,95%CI(0.82,1.37))。
3 讨论
高质量的证据一直是循证医学得以实现的基础,系统评价作为对原始研究的证据整合,一直被认为具有高质量和可信度。但由于原始研究的质量和系统评价者对循证的理解差异,导致目前系统评价质量存在差异,极大地影响了临床医生的决策。系统评价再评价是根据一定的标准对已有某疾病治疗、诊断等系统评价的又一次综合评定方法[28]。因再评价纳入的本就是已具有较高质量的数据整合证据,从而再评价得出的结论具有更好的临床指导。
3.1 AMSTAR工具评价结论
研究共纳入18篇针刺治疗原发性抑郁症的系统评价,发现近年来针刺治疗抑郁症的研究热度不断上升。采用AMSTAR工具对纳入的系统评价进行评价,发现大部分系统评价方法学质量为中高等,但均未提供前期注册方案;所有研究都进行了广泛的检索,但只有15.8%的系统评价考虑了灰色文献,可能引起研究结果的偏倚;15.8%的系统评价提供了纳入排除所有文献的清单,若读者无法了解其研究纳入排除文献是否恰当,也会影响研究结果的适用性; 52.6%的研究未说明研究是否涉及利益冲突。未提供注册信息的原因可能是未进行研究前的注册,使得研究者在进行研究的过程中随意更改主要目的或者方法,从而导致研究存在偏倚,希望今后进行系统评价的研究者能够提前对所要进行的研究进行注册。未详细报道研究进行过程的系统评价,其重复性差,可信度低,影响临床推广使用。因此在进行研究结果报道时,应详细记录研究的进行过程。文献检索是系统评价的基石,本研究发现部分系统评价在检索方面存在一定问题,如检索不全、检索数据库不够、未考虑灰色文献等。针对检索问题,研究者需明确所检索数据库的异同,检索前设计好检索式并多方求证检索是否存在缺陷,最大可能地减少误差。排除文献清单的罗列,对研究结果的影响不大,但其可能影响读者对研究结果的信任程度,未罗列的原因可能是排除文献较多,对此选择性的罗列可能存在争议的排除文献是不错的选择。最后就是部分研究在进行Meta分析时未科学的处理异质性,在异质性很大的情况下仍使用固定效应模型,导致研究结果的假阳性率增加,同时大部分研究未探索异质性的来源,影响了研究结果的临床使用。异质性时系统评价是常见情况,对于异质性的来源没有很好的解释,导致结果缺乏科学性和可行性。因此,在进行系统评价时一旦出现异质性,一定要尽可能地寻找异质性的来源,才能对临床和科研工作者有更多的指导意义。
表3 纳入18篇针刺治疗原发性抑郁症系统评价的GRADE质量分级比较
图2 研究总数与PRISMA条目数关系图
3.2 PRISMA工具评价结论
PRISMA声明是国际比较认可的规范系统评价写作工具。研究结果表明,PRISMA声明在系统评价报告中的使用率低,特别是在研究注册,对于资料提取条目也只有3个研究有说明,其原因可能是研究者提取资料较多,认为没有提供的必要性。所有系统评价都进行了Meta分析,但是对纳入文献的敏感性或者其他方面的分析只有7个系统评价。在偏倚方面,研究存在内部风险的有11篇,存在偏倚的有10篇,偏倚的来源主要存在于文献检索、筛选、数据提取以及在解读结果时仅强调有统计学意义的结果。在资金支持上,也只有9个研究有明确说明资金的来源或者研究的相关利益冲突。从图2中可以看出,研究的报告质量并没有越来越高,从一定程度上反映系统评价制作在报告方面并不规范。
3.3 GRADE系统评价结论
GRADE方法对系统评价的结局指标进行证据分级显示,针刺治疗原发性抑郁症的疗效是确切的,对于重度抑郁症,针刺作为辅助疗法可提高临床疗效。17.1%的结局指标为中等可信度,其中有效率最多,其降级原因是存在一定的局限性。15.1%的结局指标为低等,73.6%的结局指标为极低,其降级原因主要集中在局限性、不一致性和不精确性,同时针刺治疗抑郁症疗效评判标准不一,也影响了针刺疗效更客观的判断。采用R软件“cor”()函数检测AMSTAR评分与GRADE评级(最高级赋值9,降一级减1)的相关性,发现其有一定相关性,可能的原因是均有评价局限性。导致GRADE评价降级的主要因素集中于局限性、不一致性、不精确性以及发表偏倚。对于局限性,其主要影响因素是系统评价纳入原始研究质量不高,不一致性则表现在研究间的异质性较大。笔者在进行该研究时,发现很多研究得出的结论是完全相反的,也说明在针刺治疗原发性抑郁症的研究中就其疗效存在争议,其原因可能与针刺操作手法以及腧穴配伍有着很大程度的关系。因此笔者建议今后在进行该类研究时,详细描述针刺干预的方法。不精确性主要体现在样本量上,很多研究在95%可信区间未表现出不精确性,但样本量达不到临床试验估算的要求,对于这一问题的解决,笔者建议无论进行什么样的临床研究,样本量的估算都是必要过程。对于发表偏倚其原因较多,常见的原因有选择性报告结局,在这个问题上,科研人员应尊重实际科研结果,对于研究结果的报告应当完全遵循其前期的研究设计。
综上,针对轻型抑郁症单纯针刺有效,针对较严重的抑郁症需要与药物配合使用。在研究质量方面,近年的系统评价属中高水平,但报告质量仍存在不同程度的问题,且大部分系统评价未进行证据质量评级。因此,笔者建议在进行系统评价前应当有一个很好的计划,并在相关网站注册;其次,对研究结果均应进行证据评级,以增加临床的适用性;在进行研究结果的报道时,应尽可能遵循PRISMA工具;最后,科研工作者在不断完善试验设计的同时,应将中医临床辨证、针灸诊疗的特色与现代临床随机对照试验相结合,以产生更多具有中医特色的高质量、科学、精确的临床证据。