大数据时代构建新型高分辨分子病理科研教学体系探索
2018-05-11陈罡何融泉马劼冯振博
陈罡 何融泉 马劼 冯振博
【中图分类号】R259 【文献标识码】A 【文章编号】2095-3089(2018)11-0233-02
近年来,在精准医学推动下,深度测序技术不断普及,测序成本不断降低,海量的数据不断涌入临床医学领域[1]。医疗大数据不断冲击传统医学,也不断更新和呼吁新的医学教学、科研教学和临床医学行为模式,作为生物学分支的——计算生物学由此得以迅速发展,大数据挖掘分析已成为基础医学和临床医学发现问题的重要途径,分子病理学是临床医学中采用高通量技术最频繁的主力,因此,紧跟前沿技术,培养能够正确处理、充分解读、全面应用医学大数据的临床人才,将对我国新世纪医疗人才培养产生积极推动作用。本课题组前期通过结合临床大数据,初步尝试探索分子病理科研教学新体系,旨在推动符合时代需求的新型教学模式。
1.从大数据本体论到分子病理科研教学的任务
古希腊哲学家毕达哥提出“数是万物的始基”。早在1988年《科学》首先提出大数据概念, 2008年《自然》设立了专刊介绍大数据,大数据正逐步发展和受到重视。人体本身就是一个数字化的整体,临床诊疗的行为最大的特点是以人为对象,在精准医学的背景下,得益于深度测序技术的普及,临床行为正日益产生大量数据。一方面,大数据产生不断挑战着传统的临床医学模式,另一方面,大数据也正引导临床研究迈向更加高层次的整体观照。大数据使得人类活动进入了一个新阶段,在大数据基础上,世界的一切关系均可用数据表征。具体到临床医学,大数据本体论需要我们回答临床数据本质是什么?数据与疾病之间有何因果关系?大数据如何解释疾病等问题?
传统分子病理学作为临床医学诊断的前沿学科,也是临床科研问题发现的最基本的途径。在过去由于技术和检测手段的限制,对疾病描述的数据结构以疏松和零散为主要特点。大数据时代下,分子病理对疾病本身的描述进入密集型高分辨率型的时代。这些由分子病理产生的临床大数据正赋予分子病理科研更多的可能性,而如何解读密集型数据的本质?如何将大数据有机结合到疾病本身的科学问题上来?如何解释疾病数据的差异?这便是大数据对分子病理科研教学提出的时代新要求。
2.从大数据思维模式到分子病理科研教学的模式
传统分子病理技术,如显色原位杂交、荧光原位杂交、聚合酶链反应等,在精度上给予分子病理科研极大的便利。随着基因芯片、基因测序等技术普及,使得数据在精度和广度上都有了新的突破。大数据不仅是对一种临床科学问题研究和认识的存在形式,也是临床科学研究的一种方法和途径,这种新的认识论范式与传统分子病理科研推断逻辑式表现形式不同,它是一种数据模型的思维模式,这种思维模式基本的目标有两个——描述和预测:通过描述刻画大数据的潜在模式,通过利用这些数据潜在模式,进行科研问题的预测,从而发现数据中有具有临床价值的模型和规律。
具体说来,从方法论层面看,大数据思维模式对传统的机械还原论进行了深入批判,提出了多样与整体、关联与动态分析的大数据思维,这些新思维具有复杂性思维特征。分子病理的大数据实现了还原论与整体论的融贯,首先承认疾病和科学问题本质是复杂的多样性,强调了疾病表征和基因型的关联性,认为存在比因果关系更加重要。通过对疾病和具体科学问题的数据化,实现了定性定量的综合集成;因此如何实现描述和预测的功能,成为分子病理科研教学的大挑战。
2.1大数据重新认识疾病的复杂性
分子病理产生的临床大数据是指导临床精准医疗和开展前沿医学研究的前提,指导学生正确认识大数据便是首要的问题。本课题组紧跟大数据趋势,在2013年起在传统分子病理教学中引入大数据教学模式,帮助学生理解疾病和寻找科研问题。
大数据之大,在于深度和广度。以肺癌为例,肺癌驱动基因的研究一直是攻克肺癌的关键所在,目前越來越热的表观遗传学的研究揭示了非小细胞肺癌发生发展更多的可能性。在肺癌分子病理科研教学上,我们首先以传统分子病理科研教学为切入点,带领学生了解具体有特色的肺癌特点,比如临床上对非小细胞肺癌常规检测的EGFR、ALK等基因的情况。众所周知,肿瘤是异质性极大的疾病,为了让学生更加深入的了解肿瘤的复杂性,我们引入大数据,我们从传统教学几十例的患者,过渡到TCGA公共数据库及GEO,CaArray, ArrayExpress数据库等上千例非小细胞肺癌患者中来[2],从广度上让学生对非小细胞肺癌的特点有了全面的了解。从传统教学的有限的研究成熟的基因数,到大宗病例分析产生的海量差异表达的基因数及其它分子事件,使得分子病理教学从已知向未知过渡,从传统认知型教学向科研型教学过渡。
分子病理科研教学中,善于利用大数据可以更加高分辨率的展示疾病与临床表型之间的联系。以非小细胞肺癌为例,个人史、吸烟史对非小细胞肺癌的发生和发展至关重要,EGFR不同突变型的患者临床治疗策略和生存预后也都不一样。我们整合分析了患者基本临床参数,包括性别、年龄、吸烟史、治疗史、病理类型等,我们还分析了非小细胞肺癌中可能存在的转录调控和表观遗传学机制,包括甲基化信息、miRNA表达谱,lncRNA表达谱,CNV,可变剪切等。区别于传统分子病理科研教学,通过上述尝试,我们将分子病理科研教学引导至一个信息更加全面,事件更加精确,机制更加复杂的高分辨率科研教学模式中,这样的模式使得对疾病的了解更加全面,赋予研究对象更多的可能性,碰撞出更多的火花。
2.2循证法评价大数据的可靠性
大数据带来分子病理科研教学的思维模式的变革,其优势是改变了传统分子病理寻找科学问题的模式。在以往,现象知识驱动径路下,寻找具体科学问题需要看到具体现象,有已知知识支撑作为前提。而如今,大数据驱动径路下,科学假说都可以先从公共数据进行验证。大数据在深度给了我们全面的信息,我们能够通过加大疾病样本来力求接近事实真相。尽管如此,由于高通量测序本身技术的限制,随机抽样误差是客观存在的,导致很有可能假阳性的信息被我们选取。因此,本课题组在分子病理科研教学过程中将循证医学的理念整合到大数据应用中,审慎的评价用于临床研究和基础研究中大数据的可靠性。
高通量提供給我们海量的数据是受人为因素的影响,离不开敏感度和特异度问题。在分子病理科研教学中,我们从多渠道获取数据来评价大数据的可靠性:以原发性肝细胞癌为例,我们对TCGA的数据进行整合分析获得原发性肝细胞癌差异表达微小RNA后,我们从GEO,CaArray, ArrayExpress等多个芯片及测序数据库获取数据,对TCGA的数据进行初步验证;同时,我们也进行相应的临床检测,体内体外实验来验证TCGA数据的可靠性,从而获取全面的信息,同时保证信息的高敏感度高和准确性、特异性[3]。
2.3 学科交叉,更高分辨率解读大数据
疾病临床表征和基因型的联系,是数据科研价值的体现。而具体的科研问题能够解决临床问题,则需要余多学科互补交叉。从大方向上来看是基础医学和临床医学的优势互补,在方法学上,大数据的分析更加依赖于多学科。例如,在我们非小细胞肺癌的病理科研教学中,我们有机融合了生物信息学、分子生物学、临床肿瘤学的内容。生物信息学将大数据可视化展示,使得具体描述和预测更加直观;通过分子生物学理论分析和实验验证,使得大数据预测更为精准;而通过结合临床肿瘤学,使得分析所得的数据更加富有临床应用价值。使得学生在了解疾病普遍的规律和现象的同时,看到了每个案例的独特之处,进而发现和理解科研问题和临床治疗问题,理解分子病理学数据的潜在价值。
综上,高通量技术正改变人们在认识自身和疾病的方式,大数据使得人们能够更加的深入和精确理解自身,科学有效的利用大数据来解码临床具体问题,指导科学研究更好的更精确的服务临床问题,也设计新兴的生物信息学、计算生物学的内容,这些将是分子病理科研教学面临的新任务和挑战。
参考文献:
[1]Chin-Yee B, Upshur R. Clinical judgement in the era of big data and predictive analytics. J Eval Clin Pract. 2017. [Epub ahead of print].
[2]Cohen AL, Piccolo SR, Cheng L, et al. Genomic pathway analysis reveals that EZH2 and HDAC4 represent mutually exclusive epigenetic pathways across human cancers. BMC Med Genomics. 2013,6:35.
[3]Liang HW, Yang X, Wen DY, et al. Utility of miR?鄄133a?鄄3p as a diagnostic indicator for hepatocellular carcinoma: An investigation combined with GEO, TCGA, meta?鄄analysis and bioinformatics. Mol Med Rep. 2018,17(1):1469-1484.