国内医学临床研究论文方法学论述问题分析及规范化建议

2018-03-23徐迪雄李高明

中国科技期刊研究 2018年1期

■栾嘉徐迪雄李高明

1)《第三军医大学学报》编辑部，重庆市沙坪坝区高滩岩正街30号 4000382)陆军军医大学，重庆市沙坪坝区高滩岩正街30号 4000383)陆军军医大学军事预防医学院军队流行病学教研室，重庆市沙坪坝区高滩岩正街30号 400038

临床研究论文是重要的医学信息，主要为临床实践的干预措施提供证据，促进临床医生诊疗水平的提高。国内医学期刊发表临床研究论文，为临床医生提供了交流、学习的平台，大力推动了我国卫生事业的发展[1]。国内外很多研究指出现有的临床研究论文质量堪忧，不恰当、不充分、不准确的临床研究报告将使评价结果产生偏倚[2]，严重则误导临床医生作出错误的临床决策。因此，严把临床研究论文质量关、提升研究报告的严谨性和实用性，是医学期刊编辑的重要责任。

笔者在十数年的编辑审稿过程中发现，大量的临床研究论文，包括部分已经发表的临床研究论文，撇开研究设计和执行效力的层面，在行文思路、结构铺陈、文字运用等方面均存在各种各样的疏漏，若通过期刊编辑的专业指导还应该有很大的提升空间。由于临床研究整体设计最核心的内容集中在论文的方法部分——包括整个设计方案、样本量的确定、测量评价的指标、统计学方法的运用等。方法运用是否正确直接关系到研究结果是否可信、研究结论是否成立。

温万鑫等[3]在2015年调查了国内期刊发表的随机对照临床研究论文是否参照了“CONSORT”和“STRICTA”清单以及参照清单的版本，但对于清单的执行标准和研究的规范性未做深入调查。少量针对国内临床研究论文方法学规范性的现存问题的探讨和研究均集中于统计学方法的运用正误[4-5]。对于医学临床研究论文从设计到撰写的规范性而言，大多数研究报告仅提出了应该怎样做[1-3]，并没有总结、分析国内临床研究论文在方法学论述上存在的错误和偏倚。对此，笔者从编辑的角度，重点调查、总结、分析了国内医学期刊刊登的临床研究论文方法部分的规范性现存问题，旨在与医学编辑同仁探讨临床研究论文发表的准入标准，并针对编辑的工作实质提出相应的解决方案。

1 调查对象与方法

1.1 纳入期刊

按照10%的比例，随机抽取第三军医大学图书馆馆藏、高频浏览区2017年出版的国内医学期刊26册。为避免论文质量参差不齐，以2016年版《中国科技期刊引证报告(核心版)》为标准，排除了非“中国科技核心期刊”，最终纳入期刊13册。其中综合性医学期刊9册，专业性期刊4册。13册期刊总共发表论文355篇，排除基础研究论文、综述及述评类论文、流行病学研究论文、描述性的病例报道及病例系列报道、基因检测等没有临床表型的研究论文，最终获得分析性和研究性临床研究论文共计129篇。

1.2 研究方法

由1名医学背景的副编审及1名流行病学博士研究生对论文进行审读与差错评判。达成一致意见后，用Excel软件记录数据，并对数据进行汇总、分析。

2 问题与分析

对于循证医学(EBM)和临床科研(DME)的研究实施和论文撰写而言，国际上均有研究标准供研究者参考遵循，如TheLancethandbookofessentialconceptsinclinicalresearch[6]、STROBE申明[7]、CONSORT申明[8]、SPIRIT 2013声明[9]、ADR报告[10]、STARD清单[11]等。如果按照以上标准严格排查，本次调查结果显示国内期刊发表的大量临床研究论文普遍达不到质量控制要求(表1)。

表1 国内核心医学期刊2017年刊发临床研究论文方法部分撰写规范化抽样调查结果

2.1 大部分作者对临床研究方法的基本概念不甚清楚

本次调研结果显示，129篇临床研究论文当中：仅1篇论文将“研究设计”以二级标题单独列出阐述；62篇论文未提及研究设计，读者只能通过阅读全文后自行推测试验设计的类型，容易产生偏差；其他论文大多在摘要或前言部分，以“回顾性分析”“随机分组”“前瞻性”这类字眼模糊交代研究设计。55篇论文明显表现出对试验设计基本概念的混淆，如严重不符伦理学原则及医疗常规而滥用“随机抽样”与“随机分组”等措词；列明回顾性研究，却采用随机分组；在回顾性研究中描述为病例“连续纳入”；列明文章为回顾性队列研究，而内容却是预后因素分析；回顾性研究中出现“对本研究患者知情同意”“将患者分为研究组和治疗组”；写明“前瞻性随机单盲”，又出现“依照诊疗顺序按照数字单双数逐次入组”；还出现“前瞻性横断面研究”“回顾性横断面研究”等措词。

以上种种问题，不仅暴露了大部分作者对临床研究方法基本概念掌握不够，也暴露了医学编辑缺乏相关知识。笔者在此推荐《柳叶刀》(TheLancet)2002年公布的临床研究设计分类法则(图1)，有助于医学编辑厘清相关基本概念。

2.2 样本量确定的随意性是最突出的问题

本次调查结果显示，国内临床研究论文方法部分存在问题最多的是样本量确定的随意性。绝大部分论文直接陈述观察组和对照组的病例数，92.25%的论文未见病例确定过程，97.67%的论文未见样本量的估算方法。现代EBM和DME研究基于有代表性的病例抽样和合适的样本量才能得以有效实施，由样本信息推断总体特征[13]。样本量过小，无法充分体现总体内部的变异规律，研究结果不可信；样本量过大，容易造成资源浪费[4]。同样的病例，若研究类型、研究目的、测量指标的性质、效应值大小的估算依据、预计脱落率等因素不同，样本量就会不同。抽样的代表性和样本数量直接影响结果的科学性，故应当以科学的方式计算，在论文中也应当有清晰的描述。

本次调研中，国内十余种医学核心期刊百余篇稿件，仅3篇论文交代了样本量的估算方法。而在笔者自身的编辑工作中，多年来未见1篇论文有相关陈述。根据中国临床试验生物统计学组的建议，对样本量估计进行清晰和完整的阐述，应包含试验的研究假设、对照类型、比较类型、设计模型、评价指标、所用统计分析方法、参数来源以及依据、检验水准、检验效能、分配比例、样本量估计方法及其参考文献、软件及版本、样本量调整及依据、各组以及各中心的样本量分配，若竞争入组需特别说明[4]。笔者查阅了国际顶级医学期刊，如《柳叶刀》《美国医学学会杂志》(JAMA)、《新英格兰医学杂志》(NEJM)等期刊，除了个别描述性的病例报道或病例系列报道未对样本量确定进行描述，其他临床研究论文，无论是前瞻性还是回顾性研究，均有对样本量估算过程的描述。笔者在此列举其一，供广大编辑参阅(图2)。

图1 《柳叶刀》推荐的临床研究分类法则示意图汉语译本[12]

图2 国际期刊刊登临床研究论文描述样本数量的确定举例[14]

2.3 行文逻辑混乱现象普遍存在

在本次调研的临床研究论文中，51.16%的论文存在明显的逻辑混乱，常见的问题包括：①研究病例及分组都已经交代，又在谈纳入排除标准；②纳入排除之后，又写诊断标准；③没有观察指标或将研究方法与观察指标混为一谈；④原本是评价临床疗效的回顾性分析，却用大量的篇幅介绍术前准备、麻醉及手术方法、围术期管理等，冲淡了观察指标；⑤观察指标里阐述评分标准或分级标准；⑥整个方法部分毫无层次感，二级小标题之间没有逻辑联系，天马行空。行文逻辑问题在我国医学论文中如此明显，其原因主要在于上述国际临床研究标准[6-11]仅列出了各项研究应该具备的条款，关于写作顺序没有任何指导意见。笔者查阅了大量国际顶级医学期刊刊登的临床研究论文，其二级小标题通常为“试验设计(Trial Design)”“ 病例(Patients)”“ 临床方案(Clinical Regimen)”“评价指标与终点事件(Assessments and End Points)”“试验实施监管(Trial Oversight)”“统计学分析(Statistical Analyses)”等，其逻辑结构倾向于“空间关系”，该结构由西方思维习惯决定。而我国的临床研究以及论文写作是由欧美国家引进而来，写作时照搬对方的框架结构，却按照汉语的思维和语言习惯行文，最后的成品难免会让读者感到“混乱”。读者阅读之后需要“再加工”——自行去整理其研究的方法和顺序，最终的解读结果只能是见仁见智，丧失了科学论文的严谨性，降低了可读性。

2.4 其他问题

本次调研结果显示，23.26%的论文未交待各组的基线资料，尤其是一些大样本的研究分组，让读者和编辑无法判断分组后病例基线资料的可比性，有损研究的真实性和科学性。41.09%的论文没有纳入排除标准或仅有其一,比如有论文写到：“纳入20～60岁的患者……排除了小于20岁，大于60岁的患者”，已经写明了纳入20～60岁的患者，那么小于20岁、大于60岁的患者并未纳入其中，又如何排除？又比如有论文中写到“纳入开颅手术者……排除未行开颅手术者”，纳入的是开颅手术者，未行开颅手术者未被纳入，何谈排除？这些错误都是对纳入排除标准概念的混淆(占17.05%)。再次提醒编辑同仁注意，排除标准包含在纳入标准之中，应为纳入后的、存在其他影响本研究结果的因素。

以上均为编辑过程中需要避免的错误，值得引起重视。

3 建议

3.1 国内医学期刊编辑亟需提高专业技能，增加医学专业、方法学等知识

在本次抽样调查的期刊中，有的期刊每一篇临床论文设计都较为严谨、内容丰富、行文思路清晰；而有的期刊整册论文的水平均较低。尽管同为“中国科技核心期刊”，临床研究论文的质量却大相径庭，显示出期刊编辑人员之间专业水平的显著差异。极优秀和极欠缺的期刊都只是个别现象，大多数的期刊表现平平，存在共性的错误与疏漏。并且，纳入本次研究的期刊均为“中国科技核心期刊”，是我国质量较高的医学期刊的代表，这一部分期刊在本次调研结果中临床研究论文质量尚且如此，那么国内临床研究论文的整体质量可见一斑。有研究者报道与国外期刊论文相比，国内临床研究论文质量整体较低[2]。

在学习临床科研方法的时候，国内研究者和国外研究者的标准是一致的，都是按照TheLancet手册、STROBE申明、CONSORT申明等标准研讨学习。然而，国内临床研究的执行质量水平却大打折扣。标准相同，执行不同，鉴于此笔者认为：国内医学期刊编辑亟待增加临床研究相关知识，应熟知临床研究的各项国际标准，从而加强对临床研究论文的质量把控。国内医学期刊应该严格按照标准评审论文，提高临床研究论文发表的“门槛”。

3.2 临床研究论文方法部分撰写顺序建议

当临床研究实施完成进入写作阶段，面对纷繁的数据和头绪，应该理出一条清晰的思路，凸显全篇的严密逻辑。中国人的思维、语言、阅读习惯与欧美人均不同，应该按照中国人的思维习惯与汉语的语言习惯调整论文的逻辑顺序，美化中文科技论文。笔者建议，临床研究论文的方法部分宜按照研究试验步骤的时间先后顺序记录；结果及讨论部分，宜按照凸显主次的逻辑顺序行文。

为中文临床研究论文拟订一个大体的写作顺序提纲，有以下几方面的好处：①使科学论文更为规范化，有助于编辑和专家判断一篇临床研究论文是否予以录用；②帮助作者厘清思路，起到引领的作用，提升论文质量；③易于读者阅读，使科技信息的传播更加迅速。论文的方法部分能够相对固定，故笔者根据自身的学科背景、多年的编辑及教学工作经验，将撰写中文临床研究论文方法部分分为前瞻性研究和回顾性研究2大类型梳理，见表2。

从表2可以看到，回顾性研究比前瞻性研究减少了3条内容。基于行文逻辑角度考虑，缺少的首先是入选病例的基线资料和分组后的均衡性检测结果2条内容。前瞻性研究病例的抽样和分组是研究方法的关键一步，放在方法部分更为适合；而回顾性研究中，研究的病例都是已有的，病例分组前后的基线资料已然是研究结果的内容，故放在“结果”部分陈述更为适宜。其次缺少的为研究(操作)方法这1条内容。在前瞻性研究中，研究方法(包括干预措施、操作方法或临床措施)是临床试验的主体内容，应该在方法部分详述。而回顾性研究是从现有的病历资料中收集、统计分析数据，故不宜用太长的篇幅去阐述临床措施、操作方法或干预措施等内容，即使阐述也应当简要，避免冲淡评价指标这一主题。

表2 临床研究论文方法部分写作顺序建议

以上建议仅供广大医学编辑同行及医学临床课题研究者参考，敬请批评指正、共同探讨。

[1] 廖星,谢雁鸣,申浩. 国际临床研究相关报告标准概述[J]. 中国中西医结合杂志,2013,33(4)：549-553.

[2] 郑劲平,马锦芳,高怡. 如何能发表高水平的循证医学临床研究论文？[J]. 中国循证医学杂志,2010,10(7)：800-803.

[3] 温万鑫,卢静敏,陆丽明,等. 国内应用CONSORT及STRICTA评价RCT的现状分析[J]. 中医杂志,2015,56(18)：1559-1563.

[4] 陈平雁. 临床试验中样本量确定的统计学考虑[J]. 中国卫生统计,2015,32(4)：727-731.

[5] 张维,邓强庭,冷怀明. 医学期刊中容易误用的统计学方法辨析[J]. 编辑学报,2013,25(5)：435-437.

[6] SchulzK F,Grimes D A. The Lancet handbook of essential concepts in clinical research[M]. Singapore：Elsevier,2006.

[7] Institute of Social and Preventive Medicine Clinical Epidemiology & Biostatistics,University of Bern. Strengthening the reporting of observational studies in epidemiology[EB/OL]. (2007-11-01)[2017-08-09]. https://www.strobe-statement.org/index.php?id=available-checklists.

[8] Schulz K F, Altman D G, Moher D. CONSORT 2010 statement:Updated guidelines for reporting parallel group randomized trials[J].AnnalsofInternalMedicine,2010,152(11):726-732.

[9] Chan A W,Tetzlaff J M,Gøtzsche P C,etal. SPIRIT2013 explanation and elaboration:Guidance for protocols of clinical trials[J].BritishMedicalJournal,2013,346:e7586.

[10] Aronson J K. Anecdotes as evidence:We need guidelines for reporting anecdotes of suspected adverse drug reactions[J].BritishMedicalJournal,2003,326(7403):1346.

[11] Bossuyt P M,Reitsma J B,E Bruns D,etal. Towards complete and accurate reporting of studies of diagnostic accuracy:The STARD initiative[J].ClinicalChemistryandLaboratoryMedicine,2003,41(1):68-73.

[12] Schulz K F,Grimes D A. 《柳叶刀》临床研究基本概念[M]. 王吉耀,译. 北京：人民卫生出版社,2010：4.

[13] 马斌荣. 医学统计学[M]. 4版. 北京：人民卫生出版社,2004：29.

[14] Khanna A,English S W,Wang X S,etal. Angiotensin II for the treatment of vasodilatory shock[J].NewEnglandJournalofMedicine,2017,377(5):419-430.

[15] 张维,熊鸿燕,邓强庭,等. 医学论文中涉及动物实验和临床试验的伦理规范调查及案例分析[J]. 中国科技期刊研究,2017,28(4)：300-305.