应用基因芯片技术筛选结直肠癌中差异DNA甲基化位点*
2018-07-12王梓桦杨世英薛寒冰
余 捷 王梓桦 杨世英 薛寒冰
上海交通大学医学院附属仁济医院消化内科 上海市消化疾病研究所(200001)
背景:DNA甲基化作为表观遗传学修饰的重要组成部分,与结直肠癌等多种肿瘤的发生、发展密切相关,但具体作用机制尚未完全明确。筛选特异性甲基化基因和构建肿瘤的甲基化表达谱已成为当前研究热点。目的:应用基因甲基化芯片技术初步筛选结直肠癌组织与癌旁正常黏膜组织间差异甲基化位点,构建特异性结直肠癌差异甲基化基因谱。方法:应用甲基化450K芯片技术对6例结直肠癌及其癌旁组织进行甲基化分析,共分析位点 431 467 个,按P值筛选出异常甲基化位点,按甲基化β值差值区分高甲基化位点和低甲基化位点;对筛选出的差异甲基化位点进一步行GO分析和KEGG分析,了解差异甲基化位点的功能。结果:共检出结直肠癌和癌旁正常组织显著差异的甲基化位点3 649个,其中高甲基化位点1 259个,主要分布于基因启动子区和基因体,筛选出特异的SLC15A3等高甲基化基因;低甲基化位点共2 390个,主要分布于基因间区和基因体,筛选出特异的ACOT2、TTLL8、UHRF1等低甲基化基因。GO分析和KEGG分析发现,这些基因功能与DNA结合、转录因子活性、信号转导通路等有关。结论:结直肠癌和癌旁正常组织存在大量差异甲基化位点,提示DNA异常甲基化与结直肠癌的发生、发展密切相关。基因芯片技术可用于结直肠癌差异甲基化位点的初筛,但构建结直肠癌差异甲基化谱作为临床分子标记物仍需行进一步验证。
结直肠癌(colorectal cancer)的发病率和病死率分别高居世界恶性肿瘤的第3位和第4位[1]。DNA甲基化(DNA methylation)通过调节基因的表达影响其功能发挥,是表观遗传学的重要组成部分,亦是调节基因组功能的重要手段。已有许多研究证实DNA甲基化在结直肠癌中发挥重要作用,但多为一个或数个基因的研究,全基因组水平绘制特异性甲基化谱的研究尚处于探索阶段[2-6]。本研究通过采用高敏感性、高通量的全基因组甲基化芯片技术建立结直肠癌特异性甲基化基因表达谱,并利用生物信息学手段对差异甲基化位点进行筛选和分析,旨在为进一步阐述结直肠癌发生、发展的分子机制、寻找特异性诊断标记物以及确定可能的基因靶向治疗位点提供理论依据。
材料与方法
一、样本来源
选取2015年8月—2015年12月上海交通大学医学院附属仁济医院6例原发性结直肠癌患者术后标本,诊断经病理检查证实。其中男3例,女3例;年龄64~79岁,平均(68.67±5.47)岁;根据最新AJCC结直肠癌TNM分期[7],T2N1M1、T3N0M0、T3N2bM0、T4aN0M0、T4bN0M0、T4aN1M1各1例;根据2010版WHO结直肠癌组织学分级[8],低级别腺癌4例,高级别腺癌2例。所有患者术前均未接受过放射和(或)化学药物治疗。以相应癌旁正常黏膜组织(距癌组织2~3 cm)作为对照,组织离体后30 min 内置于液氮中,随后转入-80 ℃冰箱保存。
二、组织DNA提取与保存
取结直肠癌和癌旁正常黏膜组织各约50 mg,采用基因组DNA提取试剂盒(德国Qiagen公司),按说明书步骤提取DNA。提取的DNA含量先用紫外分光光度计(德国Eppendorf公司)定量,然后行1%琼脂糖凝胶电泳检测DNA样本的完整性。将质检合格的DNA浓度调整至50 mg/L,-20 ℃冰箱保存待用。
三、芯片扫描与数据分析
按照EZ DNA Methylation Kit(美国Illumina公司)优化方法行DNA亚硫酸盐转化;之后经扩增、断化、沉淀、重悬,在Illumina Methylation 450K芯片上行杂交、溶洗、延伸、染色、扫描等过程,获取DNA甲基化信号。信号采集与分析采用iScan软件(美国Illumina公司)分析系统。对6组癌组织和癌旁正常组织逐个进行甲基化分析,得到癌组织和癌旁组织中每个探针位点的甲基化β值,计算平均甲基化β值、甲基化β值差值。利用R语言的limma包建立线性模型,计算结直肠癌组织和癌旁正常黏膜组织间甲基化位点的P值。P<0.01为差异甲基化位点的筛选标准。
四、差异甲基化位点的聚类分析
首先将芯片筛选出的差异甲基化位点对应的基因映射到GO(Gene Ontology)数据库的各个条目中,进行GO功能注释,计算映射到各条目的基因数,利用超几何分布计算得到P值。P<0.01为差异甲基化基因中显著性富集的GO条目。然后利用KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库,将差异甲基化基因进行映射和通路分析。P<0.05为差异甲基化基因中显著性富集的通路。
结 果
一、结直肠癌差异甲基化位点的分布特征
芯片所检测的431 467个位点对应22 300个基因,根据P<0.01和甲基化β值差值筛选出差异甲基化位点3 649个,包括1 259个高甲基化位点和2 390 个低甲基化位点,这些差异甲基化位点随机分布于每条染色体。其中11号染色体的高甲基化位点最多(131个),其次为7号染色体(104个);1号染色体的低甲基化位点最多(198个),其次为11号染色体(197个)(表1)。
芯片所检出的高甲基化位点在基因结构元件的分布主要位于基因启动子区和基因体,低甲基化位点主要分布于基因间区、基因体和基因启动子区(表2)。基因启动子区的高甲基化位点主要分布于TSS1500、5’UTR和TSS200,低甲基化位点主要分布于TSS1500、5’UTR和TSS200(表3)。CpG岛及其周围区域也有差异甲基化现象,根据CpG位点含量和距离划分,高甲基化位点主要分布于CpG岛和岛滩区,低甲基化位点主要分布于其他区域(表4)。
表1 差异甲基化位点在染色体上的分布(n)
表2 差异甲基化位点在基因结构元件的分布n (%)
表3 差异甲基化位点在基因启动子区的分布n (%)
表4 根据CpG岛划分的差异甲基化位点分布n (%)
二、构建结直肠癌差异甲基化谱
在已筛选出的差异甲基化位点中,按P值选出10个最显著的高甲基化基因,分别为溶质载体家族15成员3(SLC15A3)、CBFA2/RUNX1易位伙伴2(CBFA2T2)、脑蛋白9(KNDC1)、硫酸皮肤素差向异构酶(DSE)、AT丰富结合域4A(ARID4A)、卷曲螺旋结构域蛋白5(CHCHD5)、USP6氨基端样蛋白(USP6NL)、RP4-544H6.2、G蛋白信号调节因子19(RGS19)、胎盘碱性磷酸酶(ALPP)(表5),10个最显著的低甲基化基因分别为脂酰辅酶A硫脂酶2(ACOT2)、微管蛋白酪氨酸连接酶家族成员8(TTLL8)、泛素样含PHD和环指域蛋白1(UHRF1)、锌指蛋白566(ZNF566)、CCR4-NOT转录复合体亚基1(CNOT1)、表皮生长因子4(ERBB4)、磷酸二酯酶4D(PDE4D)、MLX相互作用蛋白(MLXIP)、可溶性鸟苷酸环化酶α亚基2(GUCY1A2)、动力蛋白胞浆1重链1(DYNC1H1)(表6)。
表5 筛选出的10个最显著的高甲基化基因
*甲基化位点在染色体上的位置
表6 筛选出的10个最显著的低甲基化基因
三、结直肠癌差异甲基化基因的聚类分析
对筛选出的差异甲基化位点分别行GO分析和KEGG分析,富集得到849个GO功能注释和45条通路。GO本体涵盖了基因的生物学过程(biological process)、细胞组分(cellular component)、分子功能(molecular function)。GO分析显示结直肠癌差异甲基化基因涵盖多种不同的功能群落,在生物学过程方面,主要参与器官系统发生、解剖结构的形成;在细胞组分方面,主要存在于胞外区、细胞膜、突触中;在分子功能方面,主要与DNA结合、转录因子活性等有关(表7)。KEGG分析显示结直肠癌差异甲基化位点参与各种细胞通路,如刺激神经组织的配体受体相互作用通路(neuroactive ligand-receptor interaction)、肿瘤蛋白多糖通路(proteoglycans in cancer)、肿瘤转录失调通路(transcriptional misregulation in cancer)、PI3K-AKT信号通路等(表8)。
讨 论
全球每年约120万例患者被确诊为结直肠癌,超过60万例患者直接或间接死于结直肠癌[1]。目前结直肠癌的发病率呈年轻化趋势[9-12]。结直肠癌的发生是多步骤、多环节相互作用的结果,其分子机制涉及基因和染色体的结构和(或)功能异常,如包括基因突变等在内的DNA序列改变和包括DNA甲基化、组蛋白修饰、非编码RNA调控等在内的表观遗传学修饰。
表7 差异甲基化位点的GO分析
DNA甲基化系指在DNA甲基转移酶(DNA methyltransferases, DNMTs)的催化作用下,以S-腺苷甲硫氨酸(S-adenosyl methionine, SAM)为甲基供体,将甲基基团转移到胞嘧啶和鸟嘌呤(CpG)二核苷酸的胞嘧啶5’-碳原子上,形成5-甲基胞嘧啶的过程[13-15]。人类甲基化发生在CpG位点,多种基因的启动子区和第一外显子富含CpG,而CpG相对集中的区域称为CpG岛。生理情况下,CpG岛多处于非甲基化状态,而大部分散在CpG二核苷酸为甲基化状态,这对正常的细胞发育和维持组织稳定性具有重要作用。但在肿瘤发生过程中,该模式发生逆转,包括总基因组甲基化水平降低、癌基因的低甲基化和抑癌基因的高甲基化。DNA低甲基化常诱导基因的重新活化和表达,增加染色体的不稳定性;DNA高甲基化常导致基因沉默抑制基因表达,参与调控DNA修复[16-17]、细胞凋亡[18-19]、细胞周期[20-21]等重要生物学过程。
基因甲基化芯片凭借其高通量、高敏感性、自动化、微型性的优势在各种疾病、组织特异性表达等多种领域研究中的应用极为广泛[22-24]。本研究应用该技术共检出结直肠癌和癌旁正常组织显著差异的甲基化位点3 649个,其中高甲基化位点1 259个,主要分布于基因启动子区和基因体,筛选出特异的SLC15A3等高甲基化基因;低甲基化位点共2 390个,主要分布于基因间区和基因体,筛选出特异的ACOT2、TTLL8、UHRF1等低甲基化基因。通过GO分析和KEGG分析发现,这些基因功能与DNA结合、转录因子活性、信号转导通路等有关。通过相关检索发现,针对本研究筛选出的差异甲基化基因的相关报道甚少。Zhou等[25]通过对正常肠黏膜组、腺瘤组织和腺癌组织进行外显子组捕获测序研究,在结直肠腺瘤组中发现了包括SLC15A3在内的12个非同义突变基因。Sabatino等[26]的研究发现UHRF1可能通过DNA去甲基化和组蛋白抑制修饰等途径负调控PPARγ表达,与结直肠癌增殖、迁移潜能相关,且UHRF1过表达和PPARγ沉默与上皮-间质转化过程中的高生长速率和表型特征有关。Kofunato等[27]的研究通过免疫组化染色法发现,65.8% 的结直肠癌患者中UHRF1表达上调,在右半结肠癌中更为明显,且UHRF1高表达可能与癌细胞侵犯深度有关;利用siRNA敲除UHRF1后,结肠癌HCT116和SW620细胞生长速度受到明显抑制。
总之,结直肠癌和癌旁正常组织存在大量差异甲基化位点,提示DNA异常甲基化与结直肠癌的发生、发展密切相关。然而,利用基因甲基化芯片筛选出的差异位点、对应的基因以及在结直肠癌中可能的作用机制仍需通过特异性甲基化聚合酶链反应、免疫组化染色等实验室方法和收集大量临床病例进行随机对照研究来进一步分析验证。基因甲基化技术在临床中对确定特异性甲基化标记物、早期诊断疾病、确定靶向治疗位点以及评估预后等有潜在的应用前景,但目前仍存在诸多困难,其结果的准确性和特异性有待实验室技术进行检验以及临床大样本研究进行证实。