骨关节炎临床研究中疗效评价指标的选择与方法学考虑
——《膝骨关节炎中医诊疗指南(2020年版)》解读
2022-01-19曹月龙
曹月龙
(上海中医药大学附属曙光医院,上海 201203)
骨关节炎(osteoarthritis,OA)是一种复杂的多因素关节疾病,以局部软骨退化、骨赘形成、软骨下骨改变为主要病理特征,以关节疼痛、肿胀、僵硬及功能障碍为主要临床表现[1-2]。相关研究表明,OA的患病率呈逐年递增趋势[3-4]。OA属中医“痹证”“痿证”范畴,是中医骨伤科治疗的优势病种之一。随着OA临床研究的日益增多,OA临床研究疗效评价指标的选择成为骨科界关注的重要问题。2020年10月,中国中医药研究促进会骨伤科分会发布了《膝骨关节炎中医诊疗指南(2020年版)》[5](以下简称《指南》)。《指南》用于指导和规范临床实践和相关研究,其中膝骨关节炎(knee osteoarthritis,KOA)疗效评价指标的推荐是亮点之一。本文结合《指南》推荐的KOA的疗效评价指标,从疗效评价指标的选择、常用疗效评价指标概述和疗效评价指标的方法学考虑3个方面,对OA临床研究中疗效评价指标的相关问题进行了探讨,以期为临床和科研工作者开展骨关节炎临床研究时选择合适的疗效评价指标提供指导。
1 OA临床研究中疗效评价指标的选择
OA临床研究中的疗效评价指标包括主要结局指标和次要结局指标。主要结局指标又称主要终点指标,是与研究目的存在直接的、本质的联系且能确切反映干预措施有效性或安全性的观察指标。次要结局指标又称次要终点指标,是指与研究目的相关的辅助性指标。一项临床研究通常只有一个结局指标,但可以有多个次要结局指标。主要结局指标用于回答与研究目的直接相关的问题,次要结局指标能够回答与研究目的间接相关的问题。在临床研究中,主要结局指标与次要结局指标均应在设计方案中明确定义,并对这些指标在解释研究结果时的作用及相对重要性加以说明。
目前,在临床研究中,研究人员在疗效指标的选择、测量和报告等方面普遍存在不一致、不规范、发表偏倚等问题,导致同类研究的结果不能合并与比较[6]。《指南》推荐根据研究周期的长短,选择设置主要疗效指标、次要疗效指标、次要终点指标和/或主要终点指标。近期、中期疗效评价应当关注患者症状体征/中医证候、关节功能评分及生活质量的改善,远期疗效评价应当关注患者影像学改变及手术干预时间。临床研究中的疗效评价指标既要体现研究性质,又要体现干预措施的直接或间接结果[7]。因此,除了根据研究周期外,还需要根据研究目的、干预措施的特点有针对性地选择疗效评价指标。
1.1 基于研究周期选择疗效评价指标OA是一种慢性疾病,在短周期临床研究中,应重点关注患者症状和体征的变化,如随访观察时间在3个月以内的研究,可以将疼痛视觉模拟量表(visual analogue scale,VAS)或西安大略和麦克马斯特大学(Western Ontario and McMaster Universities,WOMAC)骨关节炎指数[8]作为主要结局指标;在长周期临床研究中,应重点关注关节的结构改变,如随访观察时间在12个月以上的研究,所选择的结局指标应能够体现关节功能和结构的改变。
1.2 基于研究目的选择疗效评价指标临床研究一般可分为解释性临床研究和实用性临床研究。解释性临床研究的目的是确定干预措施是否产生了与之有关的结果或机制,该类研究通常在理想的试验条件下对严格符合受试条件的受试者进行干预,从而评价干预措施的疗效(一般以安慰剂作为对照);实用性临床研究通常用来研究一种治疗方法在日常临床实践中的疗效,该类研究多在“真实世界”的临床环境中进行。实用性临床研究以其独特的优势更适合中医药研究。对于实用性临床研究,主要结局指标通常选择具有临床意义的指标,但这类指标可能不是干预措施的直接结果。例如,评估某种膝关节锻炼对KOA的治疗效果,在解释性临床研究中应选择肌力或关节活动范围等与治疗方法直接相关的指标作为主要结局指标;但在实用性临床研究中,主要结局指标可能是KOA患者的功能表现,如WOMAC骨关节炎指数等。
1.3 基于干预措施选择疗效评价指标辨证论治是中医特色,目前OA证型的分类尚存在分歧[9]。针对特定证型的中药复方研究,《指南》中的“膝骨关节炎主要症状体征/中医证候分级量化评分表”是一大亮点。此表结合了症状和常见证型,可以说是“既对病也对证”的量表。在此表中,关节畏寒、关节发热、腰膝酸软、倦怠乏力则分别是寒湿痹阻证、湿热痹阻证、肝肾亏虚证和气血虚弱证的主症,采用此表有助于观察证候和证型的转归。而中医复方的治疗机制属于多靶点调控,对于患者的全身状态和生活质量均有改善作用,简明健康状况调查表(short form 36 health survey questionnaire,SF-36)是常用的结局指标。此外,当研究中采用药物等干预措施控制OA发作期的症状时,主要结局指标可不包括影像学评价指标;而采用截骨术等针对特定关节结构进行干预时,主要结局指标应选择影像学评价指标,如Kellgren-Lawrence影像分级[10]、MRI膝骨关节炎评分[11]、全关节核磁影像评分[12]等。目前,关于OA治疗药物研发的临床研究,一般倾向于采用同时能够评价关节结构和症状改善的结局指标。总之,疗效评价指标的选择必须以服务患者为中心,避免出现只关注指标而不注重患者实际需求的情况。
2 OA临床研究中常用疗效评价指标概述
OA临床研究的结局指标应具有实际意义,应能够反映患者生活质量的改善。OA疗效评价指标可分为基于测量的客观类指标和基于患者报告的主观类指标。客观类指标是对患者特定任务的完成情况的评估,如测量患者行走的距离或行走一段距离的时间、从坐位到站位的时间、上下一段楼梯的时间等;主观类指标是以患者的主观感受为中心,反映了患者对自身功能、疼痛或其他身体状态改善情况的感知。国际骨关节炎研究学会推荐在OA临床研究中采用基于患者报告的疗效评价指标[13],如WOMAC骨关节炎指数、膝关节损伤和骨关节炎结局评分(knee injury and osteoarthritis outcome score,KOOS)[14]、髋关节伤残和骨关节炎评分[15]以及患者报告结局测量信息系统(patient-reported outcomes measurement information system,PROMIS)[16]。
KOA主要症状体征/中医证候分级量化评分表、利克特量表[17]、VAS、WOMAC骨关节炎指数、KOOS及间歇性和持续性骨关节炎疼痛问卷表[18]主要用于评价疼痛改善和功能恢复。KOA主要症状体征/中医证候分级量化评分表侧重于评价KOA患者的关节疼痛、肿胀以及伴随症状的程度。关节炎影响测量量表[19]、下肢功能量表[20]也可用于评价患者功能恢复情况。SF-36、PROMIS、生活健康评估量表、日常生活活动量表[21]等能够从躯体疼痛、关节功能活动、日常生活活动、生理职能、社会功能、情感职能、心理健康、远期生活质量等多方面评价患者的生活质量和健康状况。Kellgren-Lawrence影像分级基于X线检查对膝关节的结构改变(关节间隙、骨赘、软骨骨化等)进行评价。该方法将KOA分为0到4级,0级为正常,级别越高表明疾病越严重。MRI是OA临床研究中常用的影像学检查方法,能够清晰地显示关节软骨、滑膜、半月板、肌肉、肌腱等组织的形态结构和病理变化,相较于X线和CT具有明显优势[22-23]。常用OA临床疗效评价指标见表1、表2。
表1 常用主观类骨关节炎临床疗效评价指标
表2 常用客观类骨关节炎临床疗效评价指标
3 OA临床研究中疗效评价指标的方法学考虑
3.1 样本量对于OA的临床研究,样本量需控制在一定范围内,以避免干预措施导致的差异是偶然因素造成的。通常情况下,样本量应基于Ⅰ型错误和Ⅱ型错误的概率进行计算。样本量过小会导致研究的统计学权重不足而增加Ⅱ型错误的概率,而样本量过大会导致资源浪费。因此,临床研究中样本量的确定应以主要结局指标的最小临床有意义改善(minimum clinical important improvement,MCII)作为参考,并将次要结局指标的需求考虑进来。
3.2 MCII测量的OA结局指标主要有3类:症状体征变化、结构改变、生活质量改善。MCII是指测量的结局指标发生具有临床意义的最小变化值。临床研究中应避免只从统计学角度解读数值结果的差异。例如,在采用VAS评价病情转归时,患者2次测量结果的距离差值在5 mm时,就可能在统计学上表现出差异,但这种差异并不具有临床意义,即不能达到MCII值。KOA临床研究中公认的常用结局指标的MCII值见表3[24]。
表3 膝骨关节炎常用结局指标的最小临床有意义改善值
3.3 多重性分析在临床研究中,主要结局指标和次要结局指标的选择在一定程度上会影响研究结果。一项临床研究可以包括一个或多个次要结局指标,但次要结局指标的测量不应干扰主要结局指标的测量。对于验证性临床研究,特别是Ⅲ期临床试验,只有主要结局指标有统计学意义,次要结局指标的统计分析结果才有参考价值;对于探索性临床研究,主要结局指标和次要结局指标的结果均可为进一步的临床试验设计提供线索。一般情况下,一项临床研究只采用一个主要结局指标。对于只有一个主要结局指标且不进行期中分析的临床研究,一般不涉及多重性分析问题;但当临床研究中采用了多个主要结局指标或进行期中分析或进行多组间比较时,基本都会涉及多重性分析问题。
多重性分析是较复杂的统计学问题,临床研究的多重性分析是指多次采用假设检验。在进行单个假设检验时,我们会先确定好显著性水平(α通常取 0.05),代表单次检验中可能出现假阳性的概率为5%。若同时检验多个假设,我们需要控制好Ⅰ型错误的概率。多次假设检验会增加Ⅰ型错误发生的风险,从而导致试验结果不准确[25]。例如,4组之间进行两两比较,如果每次检验的显著性水平均为0.05,则6次假设检验至少出现1次假阳性的概率会高达26.5%。因此,当需要采取合适的方法将总的Ⅰ型错误控制在预定的检验水准之下时,就会牵涉多重检验校正问题。例如,在包含5个亚组分析或对比5个疗效评价指标的研究中,采用Bonferroni法将每项分析的检验水准调整为0.01(0.05/5),以保证总体Ⅰ型错误的概率为0.05。对于有≥2个主要结局指标的临床研究,如果所有主要结局指标的差异有统计学意义才可以认为研究结果有效,则无需校正检验水准;而如果任意主要结局指标的差异有统计学意义即可认为研究结果有效,则需要校正检验水准。
此外,对于涉及同一疗效评价指标的多亚组之间或多时间点之间差异比较的验证性临床研究,建议在注册随机对照试验的原始资料中予以说明。在随机对照试验中进行亚组分析常需要较大的样本量,而通常没有足够的样本进行次要结局指标的检测及交互效应分析。这时就需要明确相关因素的分析是否适当和可行、是否具有合适的显著性水平,可参考临床试验报告统一标准进行判断[26]。
4 小 结
《指南》在一定程度上和范围内规范了KOA中医药临床研究的疗效评价体系,提出了适合不同分期及病证结合状态的评价方法,对于指导中医药治疗KOA的临床实践与研究具有重要意义。《指南》推荐根据研究周期选择合适的主要结局指标和次要结局指标。此外,对于OA临床研究中的疗效评价指标,还需要根据研究目的、干预措施的特点有针对性地进行选择;同时应该从方法学角度充分考虑样本量、MCII及多重性分析等因素,从而能够更加规范、合理地开展相关临床研究。目前,国际上关于OA临床研究中疗效评价指标的研究较为细致,取得了一定的共识,但探索能够更好地体现中医药疗效特点且形成规范方法学依据的中医药治疗OA临床研究中的疗效评价指标仍任重道远。