APP下载

癌症基因图谱计划甲基化数据及其分析工具

2023-01-26内蒙古工业大学数据科学与应用学院

内江科技 2022年6期
关键词:甲基化测序癌症

◇内蒙古工业大学数据科学与应用学院 侯 睿

随着测序技术的不断进步,为了更加深入的探究癌症产生和发展的分子机理,产生了一些针对癌症的研究计划,癌症基因图谱计划(The Cancer Genome Atlas,TCGA)便是其中之一。该计划包含了海量的数据,DNA甲基化数据是该计划中一种重要的表观遗传修饰数据。本文简要介绍了癌症基因图谱计划,阐述了癌症基因图谱计划的甲基化数据,对癌症基因图谱计划中甲基化数据的分析工具进行了说明,简述了450K甲基化数据的分析过程,以期对使用癌症基因图谱计划开展DNA甲基化的相关研究提供相应帮助和支持。

癌症是人类面临的严重疾病,癌症具有其显著的特征[1]。大多数癌症的死亡率较高,生存期较短,人类对于癌症开展了大量的研究,而传统的癌症研究存在着一些局限性。测序技术的发展,产生了大量分子层面的测序数据,推动了人类对于癌症的认识,也产生了不少相关的研究。测序数据的种类繁多,DNA甲基化数据是其中的一种,DNA甲基化是非常重要的表观遗传修饰,DNA甲基化不改变DNA序列的内容,且可以遗传。DNA甲基化能够调节基因的表达,对于癌症的发生以及发展有着重要的作用。TCGA是一个专门针对癌症的研究项目,包含了多种癌症的测序数据[2],其中也包括了DNA甲基化的测序数据,而且,研究人员设计了多种分析DNA甲基化的工具[3],可以选用一些适合的工具来分析TCGA数据库中的甲基化数据。本文对TCGA计划及其中的甲基化数据进行了讨论,介绍了处理甲基化数据的常用工具,通过这些工具分析和挖掘TCGA中的DNA甲基化数据,可以加深人类对于癌症的认识。

1 癌症基因图谱计划

癌症基因图谱计划是一项关于癌症研究的重要项目,在研究中主要使用分子层面的数据研究癌症,研究的数据由不同的机构按照统一的协议完成,完成后提交到该计划的数据库中。该计划数据库中的的数据包含了癌症的基因组学数据,表观组学数据,转录组学数据,蛋白组学数据等。该计划主要针对各种癌症展开研究,包含了33种癌症,超过11000名患者的数据,数据库中包含癌症数据和正常样本数据,该计划开放了大部分数据的使用权,可以从癌症基因图谱计划的网址下载数据,也可以使用第三方的工具下载数据。科研人员针对数据库中的数据,可以开展单一的癌症研究[4],或者可以进行多种癌症的联合研究。该计划中的数据种类繁多,可以使用一种数据进行分析,也可以使用多种数据联合分析。分析该计划中癌症的相关数据,可以从分子层面加深人类对于癌症机理的了解和认识,该计划数据库中的甲基化数据是其中一项重要的研究数据,展开TCGA数据库中的DNA甲基化数据的相关研究,可以对于癌症的预防、诊断、治疗提供帮助[5]。

2 癌症基因图谱计划甲基化数据

表观遗传修饰是核酸序列未改变时,遗传物质发生了可以遗传到下一代的改变。DNA甲基化是研究较多的一种表观遗传修饰,DNA甲基化与癌症紧密联系,DNA甲基化的异常改变会导致癌症的产生及进一步发展[6]。异常DNA甲基化位于基因的不同区域,对于基因表达的影响不同,通常,当DNA高甲基化位于基因的启动子区域时,会导致抑癌基因表达的下调,从而促进了癌症的发生。

癌症基因图谱计划中较为常用的DNA甲基化测序数据包括27K数据和450K数据,数据使用beta值来衡量甲基化的程度,DNA甲基化测序芯片数据来源于因美纳(Illumina)公司的测序平台,该测序平台是较为常用的甲基化测序平台。27K数据来源于因美纳公司HumanMethylation27测序平台,该平台的测序数据中包含了大于27000个DNA甲基化的位点。450K测序数据来源于因美纳公司HumanMethylation450测序平台,该平台的测序数据包含了大于450000个甲基化位点,基本上覆盖了基因的不同区域,并且覆盖了99%的参考基因组[7],此外还覆盖了CpG岛及其相关区域。TCGA数据库的甲基化数据中,Level1的数据为原始的测序数据,level2和level3为经过处理的数据,Level3的数据将甲基化位点的beta值映射到了基因组上。

3 癌症基因图谱计划甲基化数据分析工具

DNA甲基化数据需要经过进一步的分析,得到相应的结果。由于DNA甲基化数据较大,进行多个样本分析时,通常需要在服务器端开展工作,前期要将用到的程序开发环境安装于服务器端。处理甲基化数据时,根据分析的需求,可以使用相应的工具,运行特定的程序。

分析甲基化数据的工具,对于因美纳公司来说,针对自身的甲基化测序平台,提供了相应的处理甲基化芯片数据的软件:GenomeStudio,该软件是收费软件,可以实现对数据的特定分析,结果可以以图像形式展现。此外,分析甲基化数据可以使用开源的软件及其平台,一般使用R语言及其相应的平台及包,如:Bioconductor平台。甲基化数据分析首先需要下载数据,数据可以由TCGA数据库直接下载,或者使用R语言的包下载,如:TCGAbiolinks[8]。甲基化数据下载完成后,通常选用R语言的特定甲基化处理的包进行分析。常用的包有:Minfi、ChAMP、wateRmelon等,这些包的功能十分强大,包含了处理甲基化数据的基本流程,包括了数据导入、预处理、差异分析,图形化等。使用人员可以按照自己的情况,选用不同的包进行甲基化数据的处理。

4 癌症基因图谱计划450K甲基化数据的分析

要使用癌症基因图谱计划的DNA甲基化450K数据开展癌症的研究,首先需要下载450K的甲基化数据,通常下载level3的数据。需要对癌症和正常组织的数据进行预处理,如:NA值的处理方式,是直接删除还是使用算法补全,如果补全的话,需要考虑使用何种算法补全,最为常用的补全算法为最邻近节点算法。接着就可以进行差异甲基化位点的计算,并计算出高低甲基化的基因,此外,可以接着下载基因的表达数据,计算高低表达的基因,然后高低甲基化位点结合高低表达基因进行分析,可以对这些特定基因的通路进行研究,获得特定的基因。

5 结束语

本文重点讨论了TCGA计划中的甲基化数据,以及使用R软件中处理这些数据的包,通过使用R的包分析甲基化数据,可以获得癌症和正常样本的差异甲基化位点、差异甲基化区域,差异甲基化基因,从而可以开展进一步的研究。本文的论述可以对开展相关甲基化研究的工作提供一些初步的帮助,为研究人员提供一些基本的研究思路。DNA甲基化测序数据有不少类别,TCGA数据库的甲基化数据种类有限,在甲基化的研究中可以考虑结合其他数据库,如基因表达数据库。使用其他数据库中DNA甲基化位点覆盖度更高的的测序数据,如:全基因组甲基化测序数据[9],从而可以得到更多的DNA甲基化位点,以期获得更好的研究结果。

猜你喜欢

甲基化测序癌症
BCAA代谢异常与癌症的相关性研究进展
FBP1在癌症中的研究进展
体检发现的结节,离癌症有多远?
外显子组测序助力产前诊断胎儿骨骼发育不良
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
外显子组测序助力产前诊断胎儿骨骼发育不良
癌症“偏爱”那些人?
肝癌组织hSulf-1基因表达与其甲基化状态的关系
应用磁珠法检测并提取尿液游离甲基化DNA