生物信息学在临床专业研究生肿瘤学研究中的作用
2020-12-02钱尤雯常颜信通讯作者
钱尤雯 常颜信( 通讯作者)
(海军军医大学第三附属医院 上海 200438)
生物信息学(Bioinformatics)是生命科学领域中的新兴学科,是生物学、计算机科学、信息工程和统计学的综合学科、交叉学科,主要内容是使用生物算法和相关的软件工具采集、处理、分析和解释生物数据。其研究重点主要包含基因组学(Genomics)和蛋白质组学(Proteomics)两方面。生物信息学从核酸和蛋白质序列出发,分析序列中表达及结构功能的生物信息,已成为当今许多生物学领域的重要组成部分[1,2]。并且,生物信息学产生了大量新技术,新方法,为寻求复杂疾病的治病靶点,阐明其发病机制提供了帮助[3,4]。
医学研究生教育担负着培养高水平医、教、研人才的重任,是推动国家医学进步的重要途径。教育改革形势下,新政策和新制度的实施对医学研究生特别是临床医学研究生提出了更高的要求和挑战,不仅要重视临床技能的培养,科研能力的培养也同样重要[5]。然而,医学研究生教育一般学制三年,研究生面临着理论学习、临床轮转和课题研究三重任务。课题研究占据着很大的权重,很多高校毕业均有SCI 论文发表的要求,但医学研究及论文发表的周期往往较为漫长,高质量地完成研究并成功发表论文成为了研究生教育中的一大挑战。
生物信息学分析为研究生课题完成提供了较为快捷的手段获取相应数据,以肿瘤分子生物学研究例,分别从以下方面探讨其具体应用:
1.课题设计
肿瘤分子生物学研究类课题一般围绕某个基因展开,完整的研究包含:相关基因在肿瘤中的表达水平、基因在肿瘤中的生物学功能、基因发挥作用的机制、基因与临床信息的相关性。传统的研究,一般需要首先获取一定数目的组织样本,检测基因在组织中的表达水平,然后进行细胞水平与动物水平的双重验证,获得包含预后的临床信息,进行相关性分析,最后多种手段去研究分子机制。其中每一步的实施都是费时费力,而且不一定都会得到符合预期的数据结果。尤其是课题进行过半,若后续结果不尽人意,或迫使学生篡改数据,增加了造假的动机。抑或中止研究,发表较低质量的论文,影响了研究生教学的成果。
而生物信息学的出现使得以上问题得到了很好的解决。在课题设计前,对于研究对象的选择上可以首先进行生物信息学分析,初步明确靶标基因的表达情况、与临床信息的相关性、功能的初步探讨,避免盲目的实验。课题设计中,推荐生物信息学分析联合分子验证相结合的模式开展研究。目前,肿瘤基因组图谱数据库(TCGA,the Cancer Genome Atlas)是全球最大的肿瘤基因组测序数据库,是肿瘤研究最为常用的数据库之一,该数据库提供了多达三十余种最常见的恶性肿瘤的多种组学数据,包括了基因组测序、转录组测序、甲基化测序和蛋白质组学等,而且还提供了相对完整的患者临床基本信息和随访数据,是目前研究肿瘤多组学、数据挖掘和泛癌(Pan-cancer)研究的重要研究资料来源[6,7]。首先利用TCGA 数据库选择研究基因,进而获得基因的差异表达信息及预后信息等,如果结果可行,可以进行后续基础实验验证,完成研究并形成论文。如果分析过程中结果不一致,可以适时中止,选择其他分子进行研究,一定程度上减少了学术不端的发生。而且,进行生物信息学分析所需时间很短,很快即可完成,可根据学期剩余时间决定进行后续验证的深度。
2.具体实施
2.1 研究基因的选择及基因的差异表达分析
根据文献报道的科学前沿问题确定待研究基因。亦可下载TCGA 数据库中特定肿瘤表达谱数据,利用R 语言进行分析,获得表达谱及差异表达数据,选择意向分子。但R 语言一般需要一定的生物信息学及计算机编程基础,对于临床研究生而言有相当的难度,有能力者可以自行学习,因为R 分析得到的数据最具说服力,后续可以发表影响力更高的论文[8]。简单易行的办法是利用针对TCGA 开发的开放数据库。在研究基因的选择上,推荐GEPIA(Gene Expression Profiling Interactive Analysis)及Oncomine[9,10],不用编程,通过人机模式,输入相关参数即可获得肿瘤的表达谱,通过比对及文献检索,获得意向分子。然后,在以上两种数据库中,同样可对相关基因在特定肿瘤中进行差异表达分析,可以得到带有统计分析的、可以直接用于发表的结果图。由于不需编程基础,短时间即可完成分析,可以快速得到期望数据。
2.2 基因的临床数据相关性分析
以往对基因进行临床相关性分析最为费时费力,首先要积累临床病例,然后随访,数据往往不一定完整。TCGA 数据库包含有相当完整的包含随访信息的临床数据,而且样本量一般较大,具有很强的说服力。获取基因与临床基本信息相关性,推荐UALCAN[11]数据库,其基于TCGA 数据库,可以分析相关基因与患者种族、性别、年龄、肿瘤分期等的相关性,并可进行生存分析等,是一个有效的TCGA 数据在线分析和挖掘的工具。GEPIA 数据库亦可进行相关基因的预后分析。
2.3 GO 和KEGG 功能富集分析
功能富集分析可以初步了解某个基因潜在的生物学功能,推荐使用LinkedOmics[12]数据库,其也是基于TCGA 数据库的第三方在线分析工具,通过简单的选择数据类型,按照提示,即可获知相关基因最相关的生物学功能、激活的信号通路等数据,为后续研究提供依据。
2.4 机制的初步探讨
网络分析可以了解生物网络中分子之间的关系,如通过了解蛋白质-蛋白质相互作用网络,便可得到相关基因发挥特定功能的分子机制。推荐使用GeneMANIA 数据库和Cytoscape 软件[13],GeneMANIA 是一个可以分析蛋白间互作网络的在线工具。Cytoscape 除了可以获得相关基因的蛋白互作网络,也可以分析其转录调控网络、网络聚类模块、miRNA 调控靶标、竞争性内源RNA 网络(ceRNA)、通路交互网络等,为机制的深入研究提供较多信息。
2.5 生物学验证
单纯的生物信息学分析尽管已经可以发表一定影响力的论文,但是一定程度上缺少说服力。后续的生物学验证是完成高质量研究生课题研究的必要补充。生物学验证主要包括在肿瘤组织、肿瘤细胞系、实验动物中的表达验证、功能验证及机制验证,生物信息学分析联合生物学验证提高了研究的、完整性与科学性[14]。
3.小结
综上,通过特定的生物信息学分析工具,降低了分析的难度,减少了整体研究的时间,加快了研究生科研的进度与效率。一般来说,选好课题之后,生物信息学分析仅需耗费数个工作日便可完成,结合后续生物学验证,使得这种模式的研究从确定研究方向到课题结束,大多半年即可完成,为后续文章撰写及投稿见刊争取了大量的时间,并一定程度上提高了质量,在研究生教学中具有重要的指导意义。