近3年针刺治疗抑郁症临床试验结局指标报告情况调查

2022-12-28王瑞婷崔灵珺曹卉娟

世界中医药 2022年23期

程诺王瑞婷崔灵珺曹卉娟

(1 北京中医药大学,北京,100029；2 北京中医药大学东直门医院,北京,100029；3 北京中医药大学中医学院,北京,100029)

临床研究在评估干预措施的有效性时会采用相应的结局指标评估终点变量。结局指标包括连续型变量和分类变量，分类变量一般需要报告事件发生的例数和观察的总例数，一旦发生数据的缺失则应采取有效的处理方法以避免对结果分析的影响[1]。对于连续性结局指标来说，研究者对平均偏差(Mean Deviation，MD)、标准差(Standard Deviation,SD)、95%置信区间(Confidence Interval,CI),以及P值报告的完整性，都会影响到对数据的解读，而正确地解读结果数据的统计学意义及临床意义，直接关系到到研究的结论及其结果的推广应用[2]。

MD是表示样本均数之间差异程度的数值。在假设检验里它是2个总体中抽样得到的样本平均水平的差别，它的95%CI——即按95%概率或可信度的一个区间来估计2个总体均数差异所在的范围，是否包含0就是我们推断2个总体均数是否相等的一个依据。SD反映组内个体间的离散程度，标准差越大则代表数据的离散程度越大。样本均数的标准差即标准误(Standard Error，SE)，是用来计算95%CI的指标。P值是反映某一事件发生可能性大小的概率值。统计学根据显著性检验方法所得到的P值，以P<0.05为差异有统计学意义[3]。

一般来说临床研究的意义大抵可以分为2个水平，临床意义水平和统计学意义水平。统计学显著性主要关注的是所检验的差值是否达到了预先设定的检验水准，而临床意义显著性主要关注的是这个差异是否有临床价值。真正有临床意义的研究，不仅需要证明统计学角度有意义，更应该明确临床角度的获益程度。临床研究结果用于指导实践，不能仅仅依靠P值是否小于0.05来下结论，而是需要综合考虑试验设计、数据质量、实际临床获益、外部证据等因素来判断[4]。

既往的文献中有指标报告不完整的情况，如只报告MD和P值不报告SD或95%CI，这种情况下读者无法通过数据进一步判断其临床意义。也有研究者误认为结局指标有统计学意义就有临床意义，如某项研究中报道，采用某干预措施治疗抑郁患者治疗4周后，观察组的抑郁量表评分为(13.04±5.03)分，对照组的评分为(15.26±5.07)分，因统计学检验得到P<0.05，作者得出观察组优于对照组的结论[5]。然而，实际上2组评分差异较小(MD=2.22分)、且95%CI下限值很接近0(0.01～4.43)，很难由此认为抑郁程度的减轻有临床意义。临床研究的结果在解读时应该综合考虑统计学意义和临床意义，从而得出可靠的结论。

为了解近3年发表的随机对照试验中连续变量结局指标报告情况现状，尤其是研究者对研究结果解释中临床意义的重视程度，我们选择“针刺治疗抑郁症”这一发表数量较多的研究主题，对研究中汉密尔顿抑郁量表(Hamilton Depression Scale，HAMD)这一使用最多的评价抑郁程度的连续变量结局指标的报告情况进行描述性分析，对未来的文献报道提出建议。

1 资料与方法

1.1 文献检索策略检索文献来源于国家知识基础设施数据库(China National Knowledge Infrastructure，CNKI)、中文科技期刊数据库(Chinese Citation Database，CCD)、中国学术期刊数据库(China Science Periodical Database，CSPD)、临床试验注册系统中国临床试验注册中心(Chinese Clinical Trial Registry,ChiCTR)、PUBMED、Cochrane、EMBASE、Web of Science、PROQUEST共9个数据库。检索时限为2020年10月至2022年10月。检索标题或摘要内包含“针灸”/“针刺”和“抑郁”，同时全文中包含“随机”的文献。

1.2 纳入标准纳入以针刺或针刺合并其他疗法为干预措施治疗原发或继发抑郁症的随机对照试验。针刺操作方法及穴位不限，包括电针、耳针等；对照措施不限。结局指标必须包含HAMD量表。

1.3 排除标准无法获取有效分析数据的文献、抄袭或剽窃的文献。

1.4 数据库的建立与资料提取

1.4.1 数据库的建立筛选文献并进行资料提取，提取的信息包括:1)一般信息，包括文件编号、标题、第一作者、研究年份等；2)结果报道，包括HAMD量表类型、HAMD的总分、HAMD值所代表的意义及具体的评价方法及其在文章中常见的报道位置，MD、95%CI、P值及统计学意义、临床意义等。

1.4.2 资料提取 2位研究者(程诺，王瑞婷)独立筛选文献并进行资料提取，以确定可能符合上述纳入标准的试验。任何分歧都通过与第三方(曹卉娟)的讨论解决。使用预先设计的资料提取表从包含的试验中提取数据。

1.5 数据分析描述分析纳入文献中HAMD量表的类型(包括HAMD-17量表和HAMD-24量表)、HAMD的总分(即HAMD量表的满分)、HAMD值所代表的意义(即评分高低与抑郁程度的关系)及研究者对HAMD具体的评价方法(包括评分时间、具体操作的人员及评价方式等)，统计纳入文献对MD值、SD值、95%CI、P值的报道情况，研究者是否报道和解读了结果的统计学意义和临床意义，并判断其报道的完整性和准确性。数据的收集形式是频数资料，按文献语种、发表与否分亚组，采用卡方检验比较组间HAMD量表使用情况的差异，当任意一个最小理论频数(T)1≤T<5时用连续校正卡方检验，当2个及以上最小理论频数1≤T<5或存在任意T<1时用Fisher精确概率检验，显著性水准为0.05。

2 结果

2.1 文献检索结果初步共检索到1 087项临床试验，其中996项试验不符合纳入标准。最终纳入91项随机对照试验[6-96]，其中6篇为英文发表(6.59%)，27篇为学位论文(29.67%)。

2.2 纳入文献HAMD评分的报告情况纳入的文献中，共有67(73.6%)项研究报道了HAMD的种类，采用HAMD-17量表的30项、采用HAMD-24量表的37项。其中56项在方法中报道，11项在附表中报道。英文论文中，4(66.7%)篇报道了HAMD的种类。学位论文中，26(96.3%)篇报道了HAMD的种类。亚组分析结果显示，学位论文此项报告的完整性优于期刊论文。仅18(19.8%)项报道了HAMD的总分，即HAMD量表的满分。其中6项在方法中报道，12项在附表中报道。英文论文中，1(16.7%)篇报道了HAMD的总分。学位论文中，12(44.4%)篇报道了HAMD的总分。亚组分析结果显示，学位论文此项的报告率高于期刊论文。39(42.9%)篇文献直接报道了HAMD值所代表的意义，即评分高低与抑郁程度的关系。46(50.5%)篇通过以HAMD减分率评定痊愈有效等标准间接报道HAMD值所代表的意义，73篇报道于方法部分，9篇报道于附表部分，3篇报道于结果部分。英文论文中，5(83.3%)篇直接报道了HAMD值所代表的意义。学位论文中，13(48.1%)篇直接报道了HAMD值所代表的意义，14(51.9%)篇间接报道HAMD值所代表的意义。亚组分析结果显示，英文文献与中文文献、学位论文与期刊论文的结果差异无统计学意义。31(34.1%)篇报道了HAMD的具体评价方法，24篇报道于方法部分，7篇报道于附表部分。英文论文中，4(66.7%)篇报道了HAMD的具体评价方法。学位论文中，19(70.4%)篇报道了HAMD的具体评价方法。具体的评价方法包括评分时间、具体操作的人员及评价方式等。亚组分析结果显示，学位论文此项的报告率高于期刊论文。见表1。

2.3 结局指标统计分析结果的报道情况纳入的文献中，90(98.9%)篇报道了MD值，89(97.8%)篇报道了SD值，全部的文献均报道了P值，3(3.3%)篇报道了95%CI，均在试验的结果部分报道。其中有89篇同时报告了MD、SD和P值。有1篇报道了P值及MD值，未报道SD值。有1篇只报道了P值，未报道MD值及SD值。见图1。

图1 纳入文献结局指标报告情况圆图

6篇英文论文中，全部报道了MD值及P值，5(83.3%)篇报道了SD值，2(33.3%)篇报道了95%CI。27篇学位论文全部报道了MD值、SD值及P值,1(3.7%)篇报道了95%CI。在MD及SD值的报告上，英文文献与中文文献、学位论文与期刊论文的结果差异无统计学意义，而英文文献对95%CI的报告率高于中文文献。见表1。

表1 纳入文献对HAMD评分各项报道情况及亚组分析结果[篇(%)]

69(75.8%)篇文献报道了统计学意义，其中68篇报道在结果部分，1篇报道在讨论部分。英文论文全部报道了统计学意义。学位论文中，25(92.6%)篇报道了统计学意义。上述研究的统计学意义通常由P值是否小于0.05或0.01得出，并无95%CI的报道及检验水准的预先设定，可以认为对统计学意义的报道不够准确。见图2。

图2 纳入文献统计学意义报告情况圆图

2.4 连续变量临床意义的报道情况在抑郁症试验中，我们尚未找到统一的对HAMD评分变化的临床有效值的定义，但不少文章将临床缓解定义为HAMD从基线到终点的总分降低50%[98]。纳入的文献中，91(100%)篇报道了临床意义。然而，纳入研究对临床意义的判定多是由统计学意义得出，未根据实际临床效益制定标准，我们认为纳入研究对临床意义的解读均不准确。

3 讨论

在这项研究中，我们发现针刺治疗抑郁症随机对照试验的HAMD评分报告不完整。虽然超过95%的文献报道了MD值、SD值及P值，统计学意义在75%以上，所有的文献均报道了临床意义，但所有研究者对临床意义解读仅基于研究数据的统计学意义，并未结合临床实际有效值来判定。

超过90%的文献直接或间接地报道了HAMD值所代表的意义，报道HAMD量表类型的文献超过七成，但仅19.8%文献报道HAMD的总分，34.1%的文献报道了HAMD具体的评价方法，3.3%文献报道95%CI。

学位论文各项报道的百分比均高于普通文献，在报道HAMD量表类型、HAMD量表总分及具体评价方法方面差异有统计学意义，与大多数学位论文在文末附上了所用的HAMD量表有很大关系。这提示学位论文报道更完整，即便如此，在绝大多数学位论文中也未报告95%CI，对数据临床意义的解读仍然不够严谨。英文文献对于HAMD量表类型、具体评价方法、95%CI及统计学意义的百分比均高于中文文献，在报道95%CI方面尤为明显(P<0.05)。所有纳入文献中仅1篇学位论文和2篇英文文献报道95%CI，这提示英文文献对于针刺治疗抑郁症随机对照试验的HAMD评分报告普遍更为全面，得出的结论也更可靠。

CONSORT[99]和STRICTA[100]中认为规范的报告应当包含治疗措施的细节，结局指标的名称、测量方法、时段，对结局的原始数据和分析结果，以及结果对实际应用的价值等内容。

关于针刺治疗抑郁症随机对照试验的HAMD报道，我们建议参考一些已发表的英文文献[6]，对HAMD量表类型、HAMD的总分、HAMD值所代表的意义、HAMD具体的评价方法、MD值、SD值、95%CI、P值均进行报道，以及预先设定统计学意义水平和从临床角度判断受益程度，以报道统计学意义和临床意义。从而提高结局指标报道的质量，并使得出的结论更具临床价值和可靠性。

综上所述，针刺治疗抑郁症随机对照试验的HAMD评分报道不够完整。试验的作者应确保在试验报告中足够详细地描述度量及其评分细节，以利于结果的解释。在报道结果的临床意义时，应考虑临床情况，以使临床医生获得可靠信息。