研究者发起的干预性临床研究质量评价体系的构建

2020-11-30史文涛吴思成崔东琦陈凌燕陈世杰王步轶林晓涵瞿轶慧

上海交通大学学报(医学版) 2020年10期

史文涛，吴思成，崔东琦，陈凌燕，陈世杰，王步轶，林晓涵，张靓，瞿轶慧，许锋，吴皓

1. 上海交通大学医学院附属第九人民医院临床研究中心，上海 200011；2. 上海交通大学医学院附属第九人民医院学科规划处，上海 200011；3. 上海交通大学医学院附属第九人民医院耳鼻咽喉头颈外科，上海 200011；4. 上海交通大学医学院耳科学研究所，上海市耳鼻疾病转化医学重点实验室，上海 200125

近年来，我国临床研究注册数量呈高速增长趋势，截至2020年9 月15日，中国临床试验注册中心网页www.chictr.org.cn已注册的各类临床研究共37 348 项，其中大部分是由医疗机构的临床医师，即研究者发起，因此被称为“研究者发起的临床研究（investigator-initiated trial, IIT）”。不同于以新药上市为目的、由制药企业申办的临床试验（industry sponsored trial, IST），IIT 带有科学探索的成分，因为是由临床医师发起，往往更贴近患者需求，探索制药企业不愿涉及的领域，如对现有诊断、治疗手段的对比，上市产品的新用途等；因此对于很多患者，尤其是罕见病、肿瘤患者，IIT 是非常有益的[1]。IIT 是医学临床研究的重要组成部分，与IST 相辅相成、互为补充，在不同的深度和广度上进行临床研究，为循证医学提供高质量的证据，为新药、新仪器以及新治疗策略的检验和推广起到了至关重要的作用。

但是，IIT 研究中汲及的科学探索成分具有较多的不确定性，因此，研究方案和数据收集往往更加复杂多变。与IST 相比，IIT 通常资源相对不足，缺乏相关监管法规，质量控制体系尚未完善，研究质量难以保证[2]。并且，我国现阶段的医疗机构对于IIT 的管理规定及质量控制基本上都是医院自行制定的，均以IST 的药物临床试验质量管理规范（good clinical practice, GCP）为模板，比如中山大学肿瘤防治中心的《研究者发起的临床试验运行管理制度和流程》[3]。2014 年，原国家卫生和计划生育委员会、原国家食品药品监督管理总局联合国家中医药管理局出台政策性文件[4]，支持IIT 项目开展，要求研究者所在机构的伦理委员会审评批准后实行，并接受机构的监督管理。

在IIT 中，最复杂的是干预性IIT（experimental investigator-initiated trial, EIIT），其实施条件要求高、控制严、难度大，且需要严格的长时间随访才能得到高质量的研究结果[5]。因此，为规范研究过程、保障研究质量、完善管理体系，本研究尝试构建EIIT 的质量评价体系，希冀为其质量控制提供依据。

1 资料与方法

1.1 成立研究小组

本研究小组共11 人，其中高级职称2 人，中级职称2人，硕士研究生5 人，本科生2 人。2 名高级职称成员均从事临床研究15 年以上，具有丰富的临床研究以及科研管理经验，主要负责整体框架设计。2 名中级职称成员均熟悉医院科研管理工作，能熟练应用德尔菲法和层次分析法。

1.2 拟定指标体系初稿

1.2.1 文献分析法计算机检索2010 年1 月1 日—2019年12 月31 日在万方数据库、中国知网（CNKI）及中文科技期刊数据库等中文数据库和PubMed、Embase、Web of Science 等英文数据库中发表的文章。中文检索词包括“临床研究”“质量评价”，英文检索词包括“clinical research”“quality evaluation”。文献纳入标准：①独立研究。②干预性临床研究。③文献涉及临床研究的质量评价。④文献以论著形式发表。剔除重复报告、质量差、报道信息少、无法利用的文献。共搜到521 篇文献，经文献筛选和质量评价后余11 篇[1-2,6-14]，对每篇文献进行人工查看，汇总文献中涉及相关指标并纳入EIIT 质量评价体系的指标池。

1.2.2 研究小组内部讨论会经研究小组内部讨论，在指标池的基础上，适当删减或添加指标，从而确定EIIT 质量评价体系初稿，包括3 个一级指标（启动期、实施期、总结期）、20 个二级指标、91 个三级指标。

1.3 确定指标体系

1.3.1 德尔菲专家咨询本研究在全国范围内，采用主观意向性的非随机抽样方法，选择三级甲等医院、医学高等院校、知名医药企业以及卫生行政机构的知名专家和学者进行专家咨询。专家的入选标准为：①本科及以上学历，且中级及以上职称。②从事临床、管理或者科研工作≥5 年。③国内临床研究知名专家学者。④能够全程参与本研究。

问卷由5 部分组成：①致专家信。介绍了本研究的背景、目的和方法，说明问卷的填写方法。②专家基本情况调查表。例如专家的姓名、性别、年龄、职称、工作经验等。③专家咨询表。专家根据自己的判断，对指标体系初稿中各级指标的重要性进行评分；采用Likert 5 级评分法，5=完全同意，4=同意，3=不确定，2=不太同意，1=不同意。如有删减、增补或修改意见，可在相应栏目内填写。④专家熟悉程度调查表。采用Likert 5 级评分法，1 ～5 表示从“非常不熟悉”到“非常熟悉”，分别赋值0、0.2、0.5、0.8、1。⑤专家判断依据调查表。按照大、中、小3 个等级，分别从理论分析（0.3、0.2、0.1）、工作经验（0.5、0.4、0.3）、对国内外同行的了解（0.1、0.1、0.1）和直觉（0.1、0.1、0.1）4 个方面赋值。

本研究从2018 年12 月—2019 年3 月共开展3 轮咨询，每轮要求专家在1 周内完成。每轮咨询后，挑选出重要性评分均值＜3.5、变异系数（coeきcient of variation, CV）＞0.3 或满分频率（K）＜10%的指标[15]，经研究小组讨论后决定是否予以删除，同时对咨询专家提出意见的指标进行修改，增加专家提议的指标。咨询专家由研究小组专人电话或电子邮件联系，对咨询结果进行汇总、分析，形成下一轮问卷后再次函询专家。专家意见在第3 轮时基本趋于一致。

1.3.2 层次分析法本研究采用层次分析法计算各指标的权重系数。根据专家对各级指标的重要性判断，对同一层级内n 个指标，进行两两比较。假设Uij和Uik为任意2 个重要性均值，利用均值之差确定Saaty 标度[16]（表1），得到该层次的相对重要性判断矩阵。再计算各判断矩阵的特征向量，对矩阵进行归一化处理以确定各指标单层权重值，最终利用乘积法求得各层次评价指标的组合权重[17]。

表1 层次分析法Saaty 标度Tab 1 Saaty rating scale of AHP

1.4 统计学分析

使用SPSS 25.0 软件进行统计分析。专家参与研究的积极程度用问卷的有效回收率表示。专家权威程度用权威系数（Cr）表示，为专家熟悉程度（Cs）和判断依据（Ca）的算术平均数。以各指标重要性的均值和满分频率反映专家意见的集中程度，CV 和肯德尔协调系数（Kendall coeきcient of concordance, Kendall's W）反映专家对指标评价意见的一致性。层次分析法中，利用一致性比率（consistency ratio, CR）判断指标矩阵在逻辑上是否合理，以便于进一步分析。当CR＜0.1 时，说明指标判断矩阵的重要性赋值具有数据逻辑，即指标的权重设置是合理的；当CR＞0.1 时，该指标矩阵应该作一定程度的修正。P＜0.05 表示差异有统计学意义。

2 结果

2.1 专家的基本情况和权威程度

本研究共咨询35 名专家（表2）。其中，高级职称29人（82.86%），博士学历21 人（60.00%），10 年以上相关工作经验者26 人（74.29%）。

3 轮咨询均发放35 份问卷，有效回收率分别为100%、91.43%和91.43%，说明专家对本研究的关注程度较高，咨询的效果较好。3 轮咨询专家权威系数（Cr）分别为0.84、0.91、0.89。

表2 德尔菲咨询专家的基本信息（n=35）Tab 2 Demographic data of experts （n=35）

2.2 专家意见的集中程度和变异程度

3 轮咨询中每级指标重要性的均值、满分频率、变异系数范围如表3 所示。在第3 轮咨询时，所有指标的重要性均值均＞3.50，CV＜0.30；满分频率除EIIT 的主要研究者（principal investigator, PI）（3.23%）外，其余全部＞10%（12.5%～100%）。

表3 专家意见的集中程度和变异程度（n=35）Tab 3 Concentration and variation of experts' opinions （n=35）

2.3 专家意见的协调程度

除第1 轮咨询的一级指标Kendall's W 无统计学意义（P=0.050）外，其余2 轮咨询的每级指标Kendall's W 经检验后均有统计学意义（P＜0.05）。在3 轮调查中，各级指标的Kendall's W 逐渐变大，说明专家意见逐渐趋向一致（表4）。

表4 专家意见的肯德尔协调系数（n=35）Tab 4 Kendall's W of experts' opinions （n=35）

2.4 3 轮专家咨询指标变化情况

经过研究小组讨论，本研究EIIT 质量评价体系初稿包含3 个一级指标、20 个二级指标、91 个三级指标。第1 轮问卷咨询后，删除5 个二级指标和49 个三级指标，增加2 个二级指标和19 个三级指标，同时修改了部分指标的名称和内涵。整理后的指标体系包括3 个一级指标、17 个二级指标、61 个三级指标。比如，启动期三级指标中的“有电话、传真等通讯设备”和“有复印机、打印机等办公设备”，专家提出“现在电子设备很发达，而且公司层面也都倾向于收集电子文件而非纸质文件”，因此经研究小组讨论后将此项删除。

第2 轮咨询后，删除了1 个三级指标，增加了1 个二级指标和10 个三级指标，同时修改了部分指标的名称和内涵。比如，实施期的二级指标“病例报告表”，专家将其完善为“病例报告表完成情况”；将“有方案更新批件”变成二级指标，并新增3 条三级指标“方案更新后及时培训”“方案更新后及时注册”和“方案更新后伦理审批文件”。经修改后的评价体系包括3 个一级指标、18 个二级指标、70 个三级指标。

第3 轮咨询完成，专家意见已经达到基本一致，因此没有删减或增加任何指标，形成了最终版EIIT 质量评价体系，包括3 个一级指标、18 个二级指标、70 个三级指标。

2.5 评价体系的指标权重及一致性检验

研究小组根据矩阵计算各级评价指标的权重（表5）。在一级指标中，重要性排序依次是：实施期（0.493 4）、启动期（0.310 8）和总结期（0.195 8）。启动期的二级指标中，重要性排序的前3 位依次是：研究团队（0.385 5）、项目质量管理体系（0.248 4）、启动文件（0.160 1）；实施期的二级指标中，重要性排序的前3 位依次是：知情同意（0.236 2）、不良事件（0.176 9）、伦理文件（0.138 6）；总结期的二级指标中，重要性排序的前3 位依次是：总结报告（0.390 5）、数据管理（0.276 1）、统计分析报告（0.195 3）。各级指标整体排序CR 值为0.051 6，且单层次排序的CR 值均小于＜0.1，具有良好的逻辑一致性。

表5 EIIT 质量管理评价体系的指标及权重Tab 5 Indexes and weight of the quality evaluation system of EIIT

Continued Tab

3 讨论

3.1 EIIT 质量评价体系的科学性

第1 轮专家咨询后，研究小组删除5 个二级指标和49 个三级指标，增加2 个二级指标和19 个三级指标，质量评价体系变化较大，可能是由于EIIT 质量控制的要求高、难度大，研究小组考虑不足所致。但从整个德尔菲专家咨询的角度来看，本研究选择临床或科研经验丰富的35 位专家，3 轮专家咨询的有效回收率均高于90%，权威系数均＞0.70，表明所选专家的积极性和权威性较高[18]，预测结果较为可靠。除“PI 的职称”外，专家重要性评分的均值、变异系数和满分频率均符合标准；虽然“PI 的职称”满分频率＜10%，但经研究小组和几位外请专家讨论后，认为该指标能够在一定程度上体现研究者的临床研究水平，因此予以保留。第3 轮咨询，专家意见的Kendall's W 经检验存在显著性（P＜0.01），表明专家意见协调程度强。同时本研究采用层次分析法，利用重要性评分的均值差值构建Saaty 标度，确定各指标的权重。在一致性检验中，各指标CR＜0.1，具有较好的一致性。本研究应用德尔菲法和层次分析法，构建过程科学严谨，确定的EIIT质量评价体系具有较高的可靠性。

3.2 EIIT 质量评价体系的权重解析

分析指标的权重系数发现，实施期在一级指标中所占的权重最高，表明研究者在EIIT 过程中应重视临床研究的实施过程；而其二级指标中，“知情同意”和“不良事件”最重要，知情同意涉及被试自主选择权问题，不良事件关系到被试的人身安全，提醒临床研究者最应该关注的是知情同意过程和不良事件的记录及上报。在启动期中，研究团队尤为重要，权重高达0.385 5，表明研究团队在EIIT 研究中起到关键作用，其中PI、临床研究协调员以及GCP 等培训在研究团队中相对比较重要。在总结期中，研究者应着重关注数据管理和总结报告的撰写。

3.3 本研究的不足之处

本研究成功构建了EIIT 质量评价体系，为EIIT 质量控制提供了依据。但还存在以下不足之处：首先，本评价体系中未纳入多中心的临床研究。单中心的EIIT 可以按照本评价体系进行质量评价，但如何将各中心的得分汇总，需要进一步的研究。其次，未涉及干细胞、体细胞、基因治疗和异种治疗的EIIT 项目。此类项目具有特殊性，比如在启动期需要进行登记备案等。最后，本评价体系暂未进行实证验证。下阶段课题组将把本质量评价体系用于医院EIIT 质量管理中，考察指标在实际操作中的可行性及稳定性，并在实际应用过程中进一步完善和更新，以利于更好地达到提升临床研究质量的目的。

质量评价指标体系会随着时代的发展而变化，对其进行修改完善是一项长期且艰巨的任务。医院临床科研管理部门应紧跟时代的发展，在临床实践中定期对其进行讨论修改，删除不必要的指标，增添新出现的可以反映临床研究质量的新指标，使其更加全面化、规范化、科学化，更好地为提升EIIT 质量提供参考。

参·考·文·献

[1] 曹烨, 王欣, 曹玉, 等. 我国研究者发起的临床研究管理现况调查与分析[J]. 中国新药与临床杂志, 2018, 37(7): 395-400.

[2] 康玫, 李宪辰, 曹佩, 等. 研究者发起的临床研究立项质量评估探讨[J]. 中华医学科研管理杂志, 2019, 32(5): 392-396.

[3] 中山大学肿瘤防治中心. 研究者发起的临床试验运行管理制度和流程[EB/OL]. (2020-03-05) [2020-09-15]. http://www.sysucc.org.cn/app/Department/ArticleShow.aspx?AID=20249.

[4] 中华人民共和国国家卫生健康委员会. 医疗卫生机构开展临床研究项目管理办法[EB/OL]. (2014-10-16) [2020-09-15]. http://www.nhc.gov.cn/yzygj/s 3593g/201410/9bd03858c3aa41ed8aed17467645fb68.shtml.

[5] Altwairgi AK, Alfakeeh AH, Hopman WM, et al. Quality of reporting of chemotherapy compliance in randomized controlled trials of breast cancer treatment[J]. Jpn J Clin Oncol, 2015, 45(6): 520-526.

[6] Goto M, Arakawa Y, Ueda T, et al. The quality evaluation of investigatorinitiated clinical trial protocols in the University of Tokyo Hospital[J]. Jpn Pharmacol Ther, 2014, 42: S135-S147.

[7] Kondo S, Hosoi H, Itahashi K, et al. Quality evaluation of investigator-initiated trials using post-approval cancer drugs in Japan[J]. Cancer Sci, 2017, 108(5): 995-999.

[8] 王白璐. 药物临床试验质量管理评价研究[D]. 济南: 山东大学, 2012.

[9] 林洪生, 刘杰, 李勇, 等. 多中心中医临床研究的实施管理与质量控制实践 [J]. 世界科学技术(中医药现代化), 2012, 14(1): 1277-1281.

[10] 刘蔚涛, 韩秀兰, 武海波, 等. 临床研究质量管理初探[J]. 中国医学装备, 2012, 9(4): 46-49.

[11] 徐徕, 肖毅. 如何开展高质量临床研究[J]. 中华胃肠外科杂志, 2017, 20(7): 763-765.

[12] Herfarth HH, Jackson S, Schliebe BG, et al. Investigator-initiated IBD trials in the United States: facts, obstacles, and answers[J]. Inflamm Bowel Dis, 2017, 23(1): 14-22.

[13] Isono T, Sanuki T, Nishimura T. Problems experienced in conducting an inaugural investigator-initiated clinical trial at Kumamoto university hospital [J]. Jpn J Clin Pharmacol Ther, 2018, 49(1): 39-42.

[14] Landewé RB, Smolen JS, Weinblatt ME, et al. Can we improve the performance and reporting of investigator-initiated clinical trials? Rheumatoid arthritis as an example[J]. Ann Rheum Dis, 2014, 73(10): 1755-1760.

[15] 张书平, 史静华, 郭丽霞, 等. 眼科护理质量评价指标体系的构建[J]. 护理研究(上旬版), 2016(5): 1586-1591.

[16] Saaty TL. Decision making, scaling, and number crunching[J]. Decis Sci, 1989, 20(2): 404-409.

[17] 杨婧, 沈丽琼, 金晓燕, 等. 基于层次分析法的护理学情景模拟教学质量评价指标权重的研究[J]. 护理研究(上旬版), 2017, 31(10): 1203-1207.

[18] 朱爽, 郝春艳. 基于层次分析法构建ICU 患者非计划性拔管风险评估体系 [J]. 中国卫生统计, 2020, 37(1): 86-89.