呼吸内科专业学位研究生“大数据”临床科研思维的培养
2017-01-12徐瑜刘煜亮李琦
徐瑜 刘煜亮 李琦
·医学教育·
呼吸内科专业学位研究生“大数据”临床科研思维的培养
徐瑜1刘煜亮2李琦1
呼吸内科; 大数据; 临床科研; 专业学位研究生; 物联网
21世纪,随着互联网技术的发展,“云技术”对庞大数据的存储、灵活调用以及“物联网”概念的普及,各种电子数据增长速度不断加快,呈现出前所未有的“数据爆炸”,包括医疗卫生领域在内的各个领域都被推到了一个“大数据(big data)” 时代[1]。在医疗卫生领域,对于患者的诊疗策略更加需要基于“数据分析”而得出,而非传统的经验和直觉,临床决策也逐渐过度到基于临床研究数据统计分析的循证医学(evidence based medicine, EBM)时代[2]。利用“大数据”进行临床科研并指导临床诊疗将是目前发展的趋势。医疗卫生领域的“大数据”是指包括因为临床或者科研需要收集起来的有关健康或者诊疗的所有信息,其中的数据都是未加修饰的“纯天然”数据,没有任何的排除纳入标准,反应的是群体,意味着不仅仅是患者,还有健康人群的医疗卫生数据,具有数据量大、数据种类多、价值高、价值密度低、产生快、处理快的特点[3]。在大数据背景下,如何充分利用这些纷繁复杂的“大数据”进行临床决策及科学研究是每个临床工作者的机遇和挑战。
呼吸内科专业学位研究生是针对呼吸内科工作实际需要培养的,具备呼吸内科临床、科研工作技能的高素质临床工作者,偏重临床科研是呼吸内科专业学位研究生有别于科研型研究生的重要特点,亦是专业学位研究生通过临床科研提高临床实践能力的重要途径。将“大数据”思维与呼吸内科专业学位研究生培养相结合,有利于提高专业学位研究生临床科研能力及呼吸内科专业素养。导师和研究生应快速面对这种改变和挑战,更新教和学的理念,推动专业学位研究生科研能力培养的改革和发展。
一、利用 “大数据” 进行临床研究的必要性
在信息时代以前,由于采样的困难、计算机技术或者分析手段的限制,通常无法收集每个个体的数据,只能在总体(population)里进行抽样(sampling),通过分析这些样本,进而推测总体的特征。这种思维模式产生了目前公认的临床研究方法—随机对照试验(randomized controlled trail, RCT),RCT的实质是通过随机采样,在一定的样本量针对特定影响因素进行分析,以获得支撑研究结论的证据。但由于受技术和经费限制,RCT采用的样本量有一定局限,在样本采集阶段易受人为因素的干扰,同时,RCT过于强调“因果关系”,只对既定影响因素进行分析,容易忽视或掩盖其他相关因素对结果的影响。在大数据时代,我们往往通过各种医疗相关信息系统把所有个体的各方面的信息都进行收集整合,逐渐形成了基于大数据的临床研究(big-data clinical trail, BCT)[4]。BCT方法可以避免RCT方法各环节产生的各种偏倚,同时提高临床研究效率,也有助于找到原来未能发现的与疾病相关的其他因素,得出意想不到的结论,甚至颠覆以往很多观念,得到在“真实世界”中的研究结果(real world study, RWS)。2014年欧洲临床肿瘤学会(European Society for Medical Oncology, ESMO)大会上,吴一龙教授报告ICAN临床研究结果,ICAN研究是一项在真实世界进行的有关肺腺癌全肺切除术后患者的前瞻性非干预性研究,结果表明根治切除后的非小细胞肺癌(non-small cell lung cancer, NSCLC)不能从术后辅助化疗中获益,这一结果与之前的IALT、JBR10、GALGB9633、ANITA临床研究结果截然相反[5]。争议集中在IB、高龄并合并症患者,这部分患者可能不能从术后辅助化疗中获益。ANITA等研究对纳入人群的控制严格,导致研究结果内部真实性高,外部真实性差。由此可见,采用BCT的研究方法,利用纷繁复杂的数据,通过合适的数据处理方法,去揭示一种或多种因素与疾病的内在相关性、模式及发展趋势,能够补充RCT临床研究的不足,从而推动更合理的诊断依据和治疗方法。
二、呼吸系统临床科研在“大数据”时代面临机遇与挑战
整个医疗系统疾病的监测、诊疗、随访和预后判断已经“大数据化”,通过电子病历、数据库、云存储终端产生的各种类型的数据可作为进行临床科学研究的原始素材。已经有一系列的平台和技术用于存储、分析医疗相关的大数据,使基于大数据的临床科研成为可能[6]。呼吸系统与外界相通,随着环境污染、烟草暴露、大气有毒有害物质增加,呼吸系统疾病发病率逐年增高,致残率、致死率均位居前列。“大数据”的临床研究方法为呼吸系统临床科研带来了机遇。
利用“大数据”方法进行呼吸系统慢性疾病研究具有以下优势:①反映真实世界的研究。呼吸慢性疾病患者具有基础疾病多,个体间基线差异大,用药复杂,多次住院治疗,干扰因素多等特点。在设计RCT试验时,一般选择某个阶段的患者,通过严格的入组标准,并排除具有合并症的人群,限定在很小的人群进行临床实验。慢性阻塞性肺疾病(chronic obstructive pulmonary disease, COPD)患者肺功能减低是一个动态变化并逐渐加重的过程,很多COPD的RCT临床实验只限定在中、重度或者急性加重的患者,很多早期、轻度肺功能没有严重损害的COPD患者被多数的临床RCT试验排除在外,此外具有合并症COPD患者往往亦被排除在某些RCT试验以外。我国呼吸病学专家钟南山院士在2016年欧洲呼吸学会年会(European Respiratory Society, ERS)上呼吁COPD的治疗战略要提前,对于早期无症状的患者使用支气管舒张剂,提示COPD作为一个慢性气流受限疾病,从起病初即应该受到重视。采取大数据的研究方法,还原真实世界的研究对于呼吸系统慢性疾病非常重要;②强调主动采集、上传数据。基于“物联网”的数据采集系统为BCT研究带来可能性。BCT数据的采集是主动行为和被动行为的结合,且“主动”行为占主导地位。“被动行为”即研究者按研究计划定期或不定期去采集的数据,时效性有限。而“主动行为”通过一些穿戴设备,源源不断地向数据库中心传送数据。在阻塞性睡眠呼吸暂停低通气综合征(obstructive sleep apnea-hypopnea syndrome, OSAHS)研究中,目前通过经皮血样饱和度仪,采集患者睡眠期间实时氧饱和数据上传至数据中心,方便研究人员根据数据来监测某种治疗措施,例如采用无创呼吸机参数设置是否合适,患者配合是否满意来判断临床疗效[7]。
成熟的临床数据库也为呼吸系统疾病,特别是呼吸危重症研究带来了契机。MIMIC-II数据库全称为重症监护多参数智能监测数据库Ⅱ(multiparameter intelligent monitoring in intensive care Ⅱ database)。该数据库是对公众开放的免费数据库,主要用于重症医学的各种临床研究。MIMIC-Ⅱ包含的信息有人口学特征、实验室检查、液体及药物医嘱、病历信息和护理记录。另外一大块内容包括高精度的波形记录,如心电监护、呼吸波形监护、血压、指测血氧饱和度等。通过注册申请成功后就可以对全部数据下载,根据自己感兴趣的研究内容展开研究分析[8]。在肺癌研究方面,美国癌症研究所建立的SEER数据库,美国国立癌症数据库(national cancer database, NCDB)储存了大量的肺癌患者数据,包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、治疗方案、死亡原因等信息,随着数据库数据量增大、信息量丰富,利用这些数据库进行的大数据分析越来越多[9]。除了这种开放的成熟数据库,尝试利用医院自身的病历系统进行大数据研究亦是未来发展趋势。
然而,目前绝大多数医院尚未建立起有效的信息化支撑体系,未能利用好医院临床信息系统已存在的大量临床数据。临床研究的数据采集与医院临床信息系统割裂,特别是不同医院之间临床信息系统录入格式没有统一化,尚难以共享多家医疗机构资源来满足临床研究需求。此外,临床数据整合不够,多种类型的临床数据分散在多个应用系统中,缺少一个直接的以患者或疾病为索引的数据整合展示,因此,在目前信息化水平上进行大数据研究仍存在较大挑战。
三、培养具备“大数据”思维能力的呼吸内科专业学位研究生
专业学位研究生是与学术型学位相对而言的,旨在为培养专业技术人才,目的是让他们在具有扎实理论基础的同时,还能更好地适应特定行业或职业的实际工作需要,使其成为应用型高层次专门人才。呼吸内科专业学位,培养目标是掌握医学领域基础理论和专业知识、具有较强的解决呼吸内科临床实际问题的能力,同时具有跟踪呼吸病学科前沿,将呼吸病学基础科研与临床紧密结合,具有转化医学头脑的复合型医疗科技人才。然而,目前呼吸专业学位研究生培养仍存在较多问题,不是“重临床,轻科研”就是“重科研、轻临床”,难以在基础科研和临床工作两者之间找到“平衡点”。大数据临床研究解决了呼吸专业学位研究生临床和科研孰重孰轻的问题,并可将两者结合起来,使呼吸专业学位研究生的研究课题立足于临床,通过大数据挖掘,解决临床问题,满足了呼吸专业学位研究生的培养目标。因此,研究生导师树立并引导专业学位研究生大数据临床科研的思维能力,对于专业学位研究生的培养过程至关重要。
1. 树立重视全局的科研思维方式: 重视全局的思维方式一方面体现在关注单个个体的全程数据,例如储存COPD单个患者自诊断以来所有数据,包括初次及后续肺功能检查结果,用药情况,急性加重次数,因为一些看似不相关,不被关注的指标最终可能会被纳入BCT的研究中。另外一方面关注个体的人群,追求全集,这里提及的是“个体”,而不是“患者”,例如在进行大气污染如雾霾、PM2.5和有毒有害气体与呼吸道疾病相关性的研究中,针对的就是某个地区的所有人群,随访采集多年,使用大数据的研究方法,从大量的数据中挖掘、寻找大气污染与呼吸系统发病的相关因素。
2. 改变由因到果推导的科研思维模式: 在大数据时代,不必非得知道现象背后的原因,而是要让数据自己“发声”。在小数据世界中,相关关系也是有的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,可以比以前更容易、更快捷、更清楚地分析事物。结合临床研究具体来说,在以往的RCT临床研究中,我们一般先假设一种想法,然后才设计临床实验,收集相关数据来测试这个想法的可行性。这就意味着我们最初的设计“因”影响甚至决定“果”。 举一个肺癌领域研究中非常有名的靶向药物“吉非替尼”的临床研究,“吉非替尼”在2003年获得用于含铂两药和多西他赛化疗后疾病进展的非小细胞肺癌(non-small cell lung cancer, NSCLC)患者治疗的快速审批资格,但此后因临床试验未证实其疗效而被撤,实际上当时并不知道该药只对表皮生长因子受体(epidermal growth factor receptor, EGFR)突变患者有效,在研究设计之初未纳入的患者没有检测EGFR基因是否存在突变,最终导致药物被撤[10]。但随后的IPASS研究、INFORM研究均选择EGFR基因激活突变患者入组并证实“吉非替尼”有效[11]。2015年“吉非替尼”最终被美国FDA批准为具有EGFR基因激活突变非小细胞肺癌患者的一线用药[12]。由此可见,RCT这种“先入为主”式的假设可以干预甚至决定临床实验的成败。
在大数据时代,建立在人的主观判断基础上的预设关联已经不再可行,因为数据库太大而且需要考虑的领域太复杂,而且随着数据库的扩大及人工智能系统成熟,不再需要人工设定一个关联,不再需要建立在假设的基础上,由事物的相关性分析取代事物的因果分析,在BCT文章中,不会再出现A和B方案的比较或限定小部分人群,而是把所有的可能性都纳入,找出相关性最强的,希望得到哪种方案对哪些人群有效。例如上述“吉非替尼”治疗肺癌的临床研究,如果样本量够大,计算机数据分析能力足够,亚组分析合理,很有可能在早期的临床研究中就发现“吉非替尼”对EGFR突变非小细胞肺癌患者有效,避免假阴性结果的发布。
3. 兼顾BCT和RCT的思维模式: 如前所述,是不是BCT就可以取代RCT了呢?从本质上来说,BCT属于观察性研究,因此必然存在观察性研究的缺陷,比如存在较多偏倚、基线资料难以均衡以及混杂因素难以控制等。我们必须承认,并不是所有的临床问题都需要并且能够通过大数据的方法得到正确的结论,主要是因为:①并非所有研究都需要BCT的方法验证,RCT在部分研究中通过抽样已经能给出很好的答案,没有必要再去进行BCT研究;② 虽然数据量目前已经飞速发展,但样本量还不足够大,BCT研究也只能部分还原真实世界,仍然面临存在偏倚甚至错误;③大数据统计学解决方案还不够完善,对于某些复杂数据仍不能合理分析并给出解决方案。因此,目前的临床研究还离不开RCT,兼顾RCT和BCT进行临床研究,各取所长,在具体情况下具体分析,才能选择到合适的研究方法。
总之,大数据时代的来临,必将对临床研究的理念和方法产生重要的影响,基于大数据的数据收集、分析方法适用于呼吸内科相关疾病的临床研究。呼吸内科研究生导师在指导专业学位研究生科研选题中,应该充分利用大数据时代带来的机遇,改变临床科研理念,与时俱进,充分利用电子病历、各类数据库、网络资源等“大数据”,培养呼吸内科专业学位研究生临床科研思维,提高本专业临床科研质量。
1 周光华, 辛英, 张雅洁, 等. 医疗卫生领域大数据应用探讨[J]. 中国卫生信息管理杂志, 2013, 10(4): 296-300.
2 任成山, 徐剑铖. 转化医学的概念、研究热点及其前景[J/CD]. 中华肺部疾病杂志(电子版), 2010, 3(6): 456-462.
3 袁琛. 浅谈大数据技术在医疗信息化中的应用[J]. 医疗装备, 2016, 29(2): 12-13.
4 Taglang G, Jackson DB: Use of “big data” in drug discovery and clinical trials[J]. Gynecol Oncol, 2016, 141(1): 17-23.
5 曾维威, 曾川, 范卫东, 等. 2016年ASCO会议非小细胞肺癌化学治疗的相关进展[J/CD]. 中华肺部疾病杂志(电子版), 2016, 9(4): 463-464.
6 廖玉峰, 徐爱华, 苏文萍, 等. 面向医疗大数据的云计算研究[J]. 软件工程, 2015, 18(12): 25-26.
7 李涛平. 阻塞性睡眠呼吸暂停低通气综合征与多器官疾病的关系[J/CD]. 中华肺部疾病杂志(电子版), 2011, 4(4): 259-264.
8 章仲恒. 大数据与临床科研[J]. 临床与病理杂志, 2014, 34(5): 492-497.
9 Li CW, Chen BS: Investigating core genetic-and-epigenetic cell cycle networks for stemness and carcinogenic mechanisms, and cancer drug design using big database mining and genome-wide next-generation sequencing data[J]. Cell Cycle, 2016, 15(19): 2593-2607.
10 吕洋, 苗立云. 非小细胞肺癌分子靶向药物耐药机制的研究进展[J/CD]. 中华肺部疾病杂志(电子版), 2015, 8(1): 82-84.
11 Wu YL, Fukuoka M, Mok TS, et al. Tumor response and health-related quality of life in clinically selected patients from asia with advanced non-small-cell lung cancer treated with first-line gefitinib: post hoc analyses from the ipass study[J]. Lung Cancer, 2013, 81(2): 280-287.
12 Greenhalgh J, Dwan K, Boland A, et al. First-line treatment of advanced epidermal growth factor receptor (EGFR) mutation positive non-squamous non-small cell lung cancer[J]. Cochrane Database Syst Rev, 2016, (5): CD010383.
10.3877/cma.j.issn.1674-6902.2017.05.038
400037 重庆,第三军医大学新桥医院呼吸内科1400016 重庆,重庆医科大学附属医院呼吸内科2
李琦,Email:liqioliver@sina.com
R37,R563
B
2017-07-05)
(本文编辑:张大春)
徐瑜,刘煜亮,李琦. 呼吸内科专业学位研究生“大数据”临床科研思维的培养[J/CD]. 中华肺部疾病杂志(电子版), 2017, 10(5): 634-636.