医学论文中诊断试验研究的几种错用误用案例分析

2022-11-10韩宏志陈思含姜瑾秋李欣欣

学报编辑论丛 2022年1期

韩宏志，官鑫，陈思含，姜瑾秋，李欣欣

(吉林大学学报(医学版)编辑部，吉林长春 130021)

诊断试验是生物医学研究中较为常用且较为复杂的研究方法。在金标准的选择、样本含量估算、最佳诊断界值的选择、诊断试验的真实性评价(灵敏度、特异度、总符合率、约登指数和似然比)、诊断试验的可靠性评价(一致性评价、组间变异系数、Bland-Altman图和Kappa系数)和诊断试验实用性评价(阳性预测值、阴性预测值和经济性评价)等知识点具有很强的专业性，通常研究者很难在短时间内熟练正确掌握，导致已发表的诊断试验研究论文总体质量不高。目前，研究者参考英文医学期刊普遍使用的《诊断试验研究报告标准》(Standards for Reporting Diagnostic Accuracy Studies，STARD)、中华医学会系列杂志诊断准确性研究建议使用的《STARD 2015对照检查清单》和中国高校科技期刊研究会医学期刊专业委员会推荐使用的《中国高校医学期刊论文统计报告推荐清单(2021版)》对该类研究进行规范，但由于这几种清单条目多，内容细，专业性较强，对于不具备统计学基础的研究者而言，熟练掌握并正确应用较困难，医学期刊编辑处理该种类型稿件也较为吃力，因此现已正式发表的该类文章仍存在诸多问题。现就医学编辑在日常审稿过程常见的几种诊断试验应用错误进行辨析，旨在提高医学期刊中诊断试验研究试验设计、统计学分析和结果报告的科学性、准确性和规范性。

1 研究对象的选取

某项研究[1]探讨血清淀粉样蛋白 A (Serum amyloid A protein，SAA)、白细胞介素 6(Interleukin-6，IL-6)和肿瘤坏死因子 α(Tumor necrosis factor-α，TNF-α)水平检测对特发性间质性肺炎(idiopathic interstitial pneumonia，IIP)的诊断价值，研究者选取124例IIP患者作为IIP组，选取同期该院 130名健康体检者作为对照组进行诊断试验，这是一种不规范的对照组选取，采用上述3种实验室指标诊断IIP的类似研究已有相关文献报道，因此该研究不属于诊断试验准确性评价的早期探索阶段，不宜选用正常人(健康志愿者)作为对照组，病例组也不能仅选取典型病例，也应选取不同严重程度(轻、中和重)、不同病程阶段(早、中和晚)、不同症状和体征(典型和不典型)及有无并发症的患者；另外健康体检者与IIP患者在临床症状和体征上存在很大区别，不需要应用实验室指标进行鉴别诊断。诊断试验研究对象选取时对照组应选择那种在症状和体征上与疾病组高度相似，在临床工作中极易与待诊断疾病混淆的人群，以考核待诊断试验的适用范围和鉴别诊断能力。选取健康体检者作为对照组所进行的诊断试验，会过高评估待诊断试验的诊断效率。医学期刊编辑在处理该种类型稿件时，应注意诊断试验研究对象选取的合理性和代表性，把好研究对象选取质量关。

2 样本量的估算

某项研究[2]探讨免疫荧光原位杂交(fluorescence in situ hybridization, FISH)技术检测脑脊液中循环肿瘤细胞对于肺癌脑膜转移的诊断价值，研究者选择16例肺癌脑转移患者作为病例组，8例脑部非肿瘤疾病患者作为对照组，初步判断该研究所选用的样本量过少，可导致诊断指标预测结果的不稳定，无法满足统计的准确性和可靠性，进而影响对诊断结果的评价。诊断试验样本含量估算与显著性水平(α)、预计该方法诊断患者的灵敏度及灵敏度的容许误差和预计该方法诊断非患者的特异度及特异度的容许误差有关。诊断试验应在研究设计阶段进行病例组和对照组样本含量的估算，并给出样本含量估算的计算公式或软件名称(版本号)等相关信息，其中病例组样本含量由灵敏度估计，对照组样本含量由特异度估计，在诊断试验设计时要基于灵敏度进行病例组样本含量估计和基于特异度进行对照组样本含量估计，之后选取两者的最大值。因此医学期刊编辑在审稿过程中要注意诊断试验研究样本量，对于病例组和对照组样本含量小于30例的诊断试验，建议作者重新采用PASS软件或Power and Sample Size网站进行样本含量估算，样本含量相应增加后进行重新试验，以保证诊断试验的真实性和可靠性。

3 组间均衡性

某研究者[3]应用受试者工作特征(receiver operating characteristic，ROC)曲线评价基质金属蛋白酶 9(matrix metalloproteinase-9，MMP-9)对 ST段抬高型心肌梗死(St-segment elevation myocardial infarction，STEMI)的诊断价值，研究者选取某医院心脏中心重症监护室55例年满18周岁初次诊断为STEMI汉族患者作为STEMI组，选取同期于该中心普通病房住院诊疗年满18周岁的50例有非典型胸痛表现(冠状动脉造影提示左右冠状动脉未见异常)的汉族患者作为对照组，但2组研究对象主要人口学特征[性别构成、年龄分布、吸烟率和体质量指数(body mass index，BMI)]和主要临床特征[白细胞计数、单核细胞计数和血肌酐(serum creatinine，Scr)]等基数资料比较差异均有统计学意义(P＜0.05或P＜0.01)，由于研究对象年龄分布和性别构成等人口学特征与疾病严重程度或并发症发生情况可能存在相关关系而影响诊断试验的准确性，因此医学期刊编辑应正确读取诊断试验研究对象的一般人口学特征和疾病严重程度等基线资料，判断其是否具有可比性。

4 联合试验

在某些诊断试验研究进行了多指标的联合诊断评价，但未明确指出联合诊断试验的方法(并联试验或串联试验)，并且在结果中还存在错误，如某研究者[4]研究支气管肺泡灌洗液(bronchoalveolar lavage fluid，BALF)-半乳甘露聚糖(galactomannan，GM)试验联合血清GM侵袭性肺曲霉病(invasive pulmonary aspergillosis，IPA)的诊断价值，其中BALF-GM试验阳性的灵敏度为84.6%，特异度为62.5%，血清GM试验阳性的灵敏度为76.5%，特异度为56.5%，而BALF-GM试验与血清GM试验均为阳性(串联试验)的灵敏度(95.3%)与特异度(87.0%)均较单独应用时升高，存在计算错误。在联合试验中不可能出现灵敏度与特异度同时升高的情况。而另一位研究者[5]采用血清中前列腺特异抗原(prostate specific antigen，PSA)[总PSA(tPSA)和游离PSA(free PSA, fPSA)]、细胞角蛋白19片段抗原21-1(cytokeratin 19 fragment antigen 21-1，CYFRA21-1)单独和联合检测评价对乳腺癌的诊断价值，文中未叙述联合试验的具体方法，直接得出tPSA+fPSA+CYFRA21-1联合检测的灵敏度和特异度均高于tPSA、fPSA和CYFRA21-1单独检测，也是存在计算错误。灵敏度和特异度这 2个指标可以综合反映待评价诊断方法诊断能力的优劣。不同的诊断试验临界值具有不同的灵敏度和特异度，灵敏度升高，特异度下降；特异度升高，灵敏度下降。在并联试验时，2种诊断方法联合诊断的灵敏度高于单独任一种诊断方法，但联合试验的特异度低于任一种诊断方法；在串联试验时，2种诊断方法联合诊断的特异度高于单独一种诊断方法，但灵敏度低于任意一种诊断方法。因此在联合试验时，不会出现联合试验的诊断灵敏度和特异度均高于任意一种诊断方法的情况。这是一种较为普遍的诊断试验错用误用的形式，应引起医学期刊编辑的足够重视，此类错误源于研究者主观倾向于所研究诊断方法的联合试验应优于单独一种和对诊断试验统计学基础知识掌握不准确。

5 似然比

某项研究[6]采用 GEvivid7 pro彩超行经胸超声心动图(TTE,3S探头)和经食道超声心动图(TEE,6T探头)探讨2种检测方法在感染性心内膜换瓣术前的诊断价值，该研究存在诸多不足之处，主要表现在：①在“1.2”方法中叙述了采用 2种方法检查，但未叙述是由同一位医生还是不同医生操作，2种方法是存在先后顺序检查还是遵循盲法，诊断试验应遵循随机化原则，在该研究中体现在不同医生判断诊断试验结果时应采用随机化顺序；②在“1.3”统计分析中叙述了采用联合检验(并联和串联)的计算公式，但结果部分未进行相关计算；③在结果部分给出了2种检查方法的阳性似然比和阴性似然比，但似然比的数值为0.5～1.0，表明2种方法对该疾病的诊断价值不大，因此该研究所得出的 2种检查方法对感染性心内膜炎换瓣术前具有重要的临床诊断价值的结论不准确。似然比是评价诊断试验真实性的重要指标，其不受受检人群患病率的影响，当似然比大于 1时，表示应用该诊断试验对疾病的诊断概率增加，当似然比小于1时，表明该诊断试验对疾病的诊断价值小；当似然比为1～2或0.5～1时，表示该种诊断试验对疾病的诊断作用不大[7]。医学期刊编辑可以基于似然比的数值判断作者对诊断试验结论的准确性。对于评价2种方法对同一种疾病的诊断价值，建议采用Kappa一致性检验。

6 诊断试验界值

某研究者[8]应用 ROC 曲线评价甲胎蛋白(alpha-fetoprotein，AFP)、α-L-岩藻糖苷酶(α-L-fucosidase，AFU)、CA199和γ谷氨酰转移酶(glutamyltransferase，GGT)单独或联合检测对原发性肝癌(primary hepatic carcinoma, PHC)的诊断价值，以AFP、AFU、CA199和GGT正常参考值上限作为诊断PHC的临界点。医学参考值范围(reference range)指包括绝大多数正常人的某指标观测值的波动范围[9]，当医学参考值范围建立后要评价是否可以用于医学实践一般需重新观测一部分健康者和患者用原观测方法(金标准)与参考值范围进行评价[10]。医学参考值范围的上限和下限不能作为诊断某种疾病的界值。该研究未充分考虑上述 4种诊断标志物在健康人群、疾病人群以及与疾病人群相似人群中的分布情况，也未权衡误诊和漏诊所带来的影响，因此在试验设计上不够科学严谨。诊断试验是用于临床医生判断患者是否患病，需要设定试验结果的正常与异常的界值，也称为截断点，以此值为界将研究对象经待评价诊断标准的检测结果分为阳性与阴性，并且诊断试验的结果通常在患者与无病者之间存在重叠和交叉，因此确定截断点是诊断试验的关键性步骤。诊断试验临界点的确立方法主要包括正态分布法、百分位数法、ROC曲线法、最大约登指数和临床确定法。医学期刊编辑审理该类型稿件时，应建议作者选择合理的方法确定最佳临界值。

7 连续性资料ROC曲线下面积(area under curve, AUC)的比较

描述诊断试验检出结果时，灵敏度和特异度必须与相应的决策阈值一起给出，在描述AUC结果时，应报道AUC及95%置信区间(95%CI)，AUC与0.5比较差异是否有统计学意义。某研究[11]探讨血清肺腺癌转移相关转录因子 1 (metastasis-associated lung adenocarcinoma transcript-1，MALAT-1)联合PSA检测对前列腺癌的诊断价值，该文章在研究设计与统计学分析中出现如下错误：①在文中未体现出AUC与0.5比较差异是否有统计学意义；②研究中的联合检验未说明是并联试验还是串联试验，但在原文的表2中灵敏度介于单独应用MALAT-1或PSA检验，而特异度高于单独应用MALAT-1和PSA检验，不符合串联试验和并联试验中灵敏度与特异度变化的规律；③表1(原文中表2)和图1(原文中图3A)中及结果部分均说明联合试验(MALAT-1和PSA检验)诊断前列腺癌的AUC(0.865)高于单独使用MALAT-1(0.759)和PSA(0.800),但图1A显示3条ROC曲线存在交叉，因此不能按照曲线离机会对角线最远判断哪条曲线AUC最大，SPSS软件无比较AUC大小的功能，通常应用MedCalc软件进行AUC大小的比较，另外研究者还可以采用 AUC 95%CI进行判断，MALAT-1+PSA的95%CI(0.782～0.925)包含PSA的AUC值(0.800)，因此P＞0.05，不能说明MALAT-1+PSA与PSA的诊断能力有差别。

图1 MALAT-1和PSA诊断前列腺癌的ROC

表1 MALAT-1和PSA对前列腺癌的诊断效能

8 诊断试验评价中常见的偏倚

某研究[12]评估乳腺影像学报告及数据系统(Breast Imaging Reporting and Data System，BI-RADS)诊断标准与超声弹性成像(ultrasonic elastography, UE)改良5分法判断乳腺导管内肿物良恶性的价值，首先采用常规超声发现病灶，对其进行BI-RADS评分，在此基础上进入UE模式，获得实时弹性成像图像后再进行评分，因这 2种诊断方法均属于主观，后一种诊断试验结果的判读受第一种诊断试验结果的影响，相当于增加了临床资料作为确立诊断的临床依据，未能做到所研究 2种诊断方法的独立，也未遵循诊断试验结果判定过程中的盲法，诊断试验的观察者应在不知金标准诊断结果的情况下，应用被评价的诊断方法检查患者或测定患者标本，即盲法判断试验结果，避免观察者造成的偏倚。该诊断试验的偏倚属于评价者临床解读偏倚，这种偏倚增加了试验的灵敏度，降低了试验的特异度。在诊断试验研究中，对于较主观的资料判读常受到临床资料，如年龄、性别、症状、体征、实验室和影像资料的影响，提高判断的准确性，这种情况在临床实践过程是可的，但在诊断试验研究中容易产生偏倚，这种偏倚增加了灵敏度，但对特异度的影响较小。

9 诊断试验的临床试验注册

中国临床试验注册中心规定所有在人体中和采用取自人体的标本进行的研究，包括各种诊断技术、试剂、设备的诊断性试验，均需进行临床试验注册。在中国临床试验注册中心以诊断试验为研究类型注册的试验有3 400项，占全部注册项目的5.55% (2022年8月30日)。而现已经发表的诊断试验文章仅有极少的一部分进行了临床试验注册。多数国际期刊要求所有前瞻性临床研究均应设计方案并进行临床试验注册，投稿时要提交方案注册号，诊断准确性临床研究类型文章投稿需要从杂志中下载 STARD 报告规范声明(http://www.stard-statement.org/)模板并上传。中华医学会系列杂志要求诊断试验参照《STARD 2015对照检查清单》进行报告撰写，进行临床试验注册，并在投稿时提供诊断试验研究注册号和注册名称。《中国高校医学期刊论文统计报告推荐清单(2021版)》对诊断试验评价方面的研究论文在试验设计、质量控制和统计学分析等诸多方面提出了很多建设性意见，但对于诊断试验研究是否进行临床试验注册未给予明确规定。本文作者建议，对于前瞻性的诊断试验研究，应进行临床试验注册，并上传共享完整研究方案。