肝细胞癌相关DNA甲基化诊断生物标志物的筛选及验证
2022-03-18秦小玲刘顺庞婷刘美良伍柳玉曾小云
秦小玲 刘顺 庞婷 刘美良 伍柳玉 曾小云,3
原发性肝癌作为全球第六大常见癌症和第三大癌症死亡原因,严重威胁人类的生命与健康[1]。其中肝细胞癌(hepatocellular carcinoma,HCC)占原发性肝癌的75%以上。然而,HCC早期症状不明显、发病隐匿,且目前尚缺乏可靠的早期诊断指标,因此大部分患者确诊时已处于晚期,预后往往较差。DNA甲基化作为肿瘤早期诊断生物标志物得到普遍认可[2]。就HCC而言,多个甲基化CpG位点联合诊断HCC具有很大优势,在诊断HCC中灵敏度和特异度均较高[3-4]。然而,这些诊断标志物并未展现出对HCC早期诊断的优势,因此挖掘HCC早期诊断生物标志物仍是亟需研究的方向和目标。本研究综合分析来自癌症基因图谱(the cancer genome atlas,TCGA)数据库中HCC的DNA甲基化和基因表达数据,并筛选出可有效诊断HCC的候选甲基化CpG位点,然后在BCLC-A期HCC样本及GEO数据集中进行验证,最终获得一组有希望成为HCC早期诊断生物标志物的CpG位点。
1 材料与方法
1.1 TCGA数据库资料
基于TCGA数据库(https://cancergenome.nih.gov/)获取原发性肝癌相关的DNA甲基化、mRNA表达谱以及临床数据,其中DNA甲基化数据从Illumina Human-Methylation 450K平台检测获得。排除术前接受治疗(放疗或化疗等)和(或)伴其他肿瘤患者的样本,最终纳入种族信息明确的原发性HCC样本299例(其中40例匹配有癌旁组织样本信息)。
1.2 筛选候选甲基化CpG位点
1.2.1 甲基化CpG位点的差异分析 使用R语言(3.5.0版)中的“ChAMP”软件包[5]识别HCC组织和癌旁组织的差异甲基化CpG位点。Δβ值指癌组织和癌旁组织β均值之差。本研究将调整后P<1×10-10和|Δβ|>0.2设定为筛选标准。
1.2.2 基因mRNA表达差异分析 在R/Bioconductor环境下,使用“DESeq”软件包[6]进行差异表达基因的筛选。将P<0.05且|log2FC|>1作为差异表达基因的筛选阈值。
1.2.3 HCC诊断相关候选甲基化CpG位点的鉴定将差异甲基化的CpG位点与差异表达基因进行匹配,利用Venny 2.1软件绘制韦恩图,筛选出甲基化水平与基因表达水平呈负相关的CpG位点。基于R语言采用“PAMR”软件包和10折交叉验证进行微阵列预测分析(prediction analysis of microarrays,PAM)[7],获得的CpG位点集进行受试者工作特征(receiver operating characteristic,ROC)曲线分析,将曲线下面积(area under curve,AUC)>0.900的CpG位点中的5个进行随机组合,然后结合logistic回归和ROC曲线进行联合诊断,获得联合诊断AUC最大的候选位点。
1.3 基于TCGA数据库验证候选CpG位点在HCC组织的特异性
为了分析候选CpG位点甲基化水平上调是否具有HCC组织特异性,本研究通过TCGA数据库获取14种常见癌症的DNA甲基化数据进行验证,依次为膀胱尿路上皮癌(bladder urothelial carcinoma,BLCA)、乳腺癌(breast invasive carcinoma,BRCA)、结肠腺癌(colon adenocarcinoma,COAD)、食管癌(esophageal carcinoma,ESCA)、头颈鳞状细胞癌(head and neck squamous cell carcinoma,HNSC)、肾透明细胞癌(kidney renal clear cell carcinoma,KIRC)、肾乳头状细胞癌(kidney renal papillary cell carcinoma,KIRP)、肺腺癌(lung adenocarcinoma,LUAD)、肺鳞癌(lung squamous cell carcinoma,LUSC)、胰腺癌(pancreatic adenocarcinoma,PAAD)、前列腺癌(prostate adenocarcinoma,PRAD)、甲状腺癌(thyroid carcinoma,THCA)、子宫内膜癌(uterine corpus endometrial carcinoma,UCEC)和胆管细胞癌(cholangiocarcinoma,CHOL)。
1.4 焦磷酸测序和qRT-PCR检测候选CpG位点的甲基化水平及所在基因的表达水平
1.4.1 一般资料 收集2016年4月至2018年5月广西医科大学附属肿瘤医院肝胆胰脾外科手术切除的50例BCLC-A期HCC患者作为研究对象,平均年龄为(53.38±13.09)岁(范围:16~84岁);男性42例,女性8例;汉族32例,壮族18例。同时收集其手术切除的HCC组织及相应癌旁组织(距离病灶>2 cm)样本。通过问卷调查、查阅病历获取研究对象的一般情况、既往病史、家族史以及临床病理资料等。本研究经广西医科大学伦理委员会审核批准,所有研究对象均签署知情同意书,自愿加入本研究。
1.4.2 焦磷酸测序检测 按照Thermo Scientific Gene-JET基因组DNA纯化试剂盒(Thermo Scientific,美国)说明书提取组织样本总DNA,用Bio-Tek酶标仪检测DNA浓度和纯度,要求浓度值>50 ng/μL,且吸光度OD260/280=1.7~2.0,OD260/230≥1.4。 然 后 采 用 EpiTect Plus DNA Bisulfite Kit 59124(Qiagen,德国)对DNA进行亚硫酸氢盐转化。候选CpG位点cg12614630(GPR182)、cg19786751(ACACB)、cg06131338(ACACB)和cg23371746(TBX15)的甲基化特异性引物序列均由华大基因设计合成(因cg25340966未成功设计引物,未进行相关实验),见表1。按照KAPA2G Robust HotStart DNA Polymerase with dNTPs(250 U)-KK5516(KAPA Biosystems,美国)说明书配制PCR反应体系,采用ABI 9700 PCR仪(Applied Biosystems,美国)进行PCR反应,然后在PyroMark Q96 ID平台(Qiagen,德国)进行焦磷酸测序,用Pyro Q-CpG软件(Qiagen,德国)自动分析获得候选位点的甲基化率。
表1 4个候选CpG位点的引物序列Tab.1 Primers sequences of 4 candidate CpG sites
1.4.3 qRT-PCR检测 使用Trizol(Invitrogen,美国)和PrimeScriptTMRT试剂盒(Takara,中国)进行总RNA提取和逆转录。qRT-PCR引物由Takara公司设计合成,见表2。按照TB GreenTMPremix Ex TaqTMⅡ试剂盒说明书在PCR仪(StepOnePlus,ABI公司,美国)上对目的基因进行qRT-PCR检测。反应程序设置:95℃ 30 s,95℃ 5 s,60℃ 30 s,共40个循环。基因相对表达量采用2-△△Ct公式计算。
表2 目的基因的引物序列Tab.2 Primers sequences of target genes
1.5 GEO数据集验证候选CpG位点的诊断效能
从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载 3个甲基化数据集(GSE54503[8]、GSE89852[9]和GSE56588[10])作为验证集,其甲基化数据均由Illumina HumanMethylation 450K平台检测。GSE54503包含66对HCC样本;GSE89852包含37对肝炎病毒相关HCC样本;GSE56588包含244例HCC、10例正常肝组织和9例肝硬化样本。
1.6 统计学方法
采用R 3.5.0软件对TCGA数据库的数据进行生物信息学分析并筛选候选CpG位点。基于SPSS 20.0软件进行诊断效能验证,采用两独立样本t检验比较50例早期HCC样本不同特征分组间的甲基化水平,配对t检验比较经配对的HCC组织与癌旁组织间甲基化水平和基因表达水平;Spearman秩相关分析候选位点甲基化与基因表达水平的关联性。采用ROC曲线分析评估候选CpG位点对早期HCC及GEO数据库中HCC样本的诊断效能,确定最终诊断生物标志物。以双侧P<0.05为差异有统计学意义。
2 结果
2.1 候选CpG位点的筛选结果
下载TCGA数据库中299例HCC和40例癌旁组织样本,基本临床信息见表3。经差异甲基化分析鉴定了30 439个差异甲基化CpG位点,包括10 572个上调和19 867个下调的CpG位点,见图1A。基因差异表达分析结果显示,HCC组织中有1 021个基因表达下调,2 098个基因表达上调。通过在线软件Venny 2.1筛选了1 611个甲基化水平与相应基因表达水平呈负相关的CpG位点,见图1B。当PAM分析设置误判率为最小值(0.027)时,识别出86个CpG位点。ROC曲线分析评估86个CpG位点的诊断效能,其中10个CpG位点显示出较高的区分HCC与正常肝组织的效能(AUC>0.900),见表4。10个CpG位点所在的基因均在HCC组织中表达下调,其中TBX15、ACACB、FAHD2A、GPR182、TACSTD2表达水平下降更明显,见图1C。将上述10个CpG位点中的5个进行随机组合后进行多变量联合诊断的ROC曲线分析,最终获得AUC最佳(0.993)的一组CpG位点(包括cg12614630、cg19786751、cg06131338、cg23371746 和 cg25340966)作为候选诊断生物标志物,见图2。
表3 TCGA数据库中HCC样本的基本临床信息[n(%)]Tab.3 Clinical information of HCC samples from TCGA database[n(%)]
图1 TCGA数据库HCC甲基化差异分析和基因表达差异分析Fig.1 Analysis of differential methylation and differential gene expression of HCC from TCGA database
图2 TCGA数据库中5个候选CpG位点的ROC曲线分析Fig.2 ROC curve analysis of 5 candidate CpG sites based on TCGA database
表4 10个候选CpG位点的ROC曲线分析Tab.4 The ROC curve analysis of 10 candidate CpG sites
2.2 5个候选CpG位点在HCC组织中的特异性验证
为了进一步验证5个候选CpG位点在HCC组织中高甲基化的组织特异性,经配对t检验分析,结果显示,5个候选CpG位点的甲基化水平仅在胆管细胞癌组织中高于癌旁组织(P<0.05),在其余13种癌症的癌组织中均未见5个候选CpG位点的甲基化水平明显上调,见表5。
表5 5个候选CpG位点在14种癌症中的甲基化水平Tab.5 Methylation levels of 5 candidate CpG sites in 14 cancers
2.3 候选CpG位点的甲基化水平及其与所在基因表达水平的相关性
采用焦磷酸测序检测50例BCLC-A期HCC患者中4个候选CpG位点的甲基化水平,结果显示,在性别、年龄、AFP和乙型肝炎病毒感染等特征中,4个CpG位点的甲基化水平均衡可比,但仅发现早期HCC组织中单发肿瘤的cg23371746位点甲基化水平高于多发肿瘤(P=0.028),见表6。配对t检验结果显示,与癌旁组织相比,这4个CpG位点在早期HCC组织中的甲基化水平升高(P<0.001),见图 A~D;GPR182和ACACB基因在早期HCC组织中低表达(P<0.001),而TBX15基因在HCC组织及癌旁组织中的表达差异无统计学意义(P=0.410),见图3E~G。
表6 50例BCLC-A期HCC患者中4个候选CpGs位点基于不同特征的甲基化率比较Tab.6 Comparison of different signature-based methylation levels of 4 candidate CpG sites in 50 BCLC-A stage HCC patients
Spearman等级相关分析显示,cg12614630位点的甲基化水平与GPR182基因的表达水平呈负相关(rs=-0.427,P<0.001);cg19786751位点(rs=-0.401,P<0.001)和 cg06131338位点(rs=-0.210,P=0.036)的甲基化水平与ACACB基因表达水平呈负相关;而cg23371746位点甲基化水平与TBX15基因表达水平无相关性(rs=-0.027,P=0.792),见图3H~K。
图3 4个候选CpG位点的甲基化水平差异分析及与所在基因的相关分析Fig.3 Differential analysis of methylation levels of 4 candidate CpG sites and correlation analysis with corresponding genes
2.4 3个候选CpG位点在早期HCC及公共数据集中的诊断效能
进一步对以上采用Spearman等级相关分析呈负相关的3个CpG位点进行ROC曲线分析,结果显示,cg12614630、cg19786751和cg06131338的AUC分别为 0.804、0.850、0.709(均P<0.001);将这3个 CpG位点作为诊断生物标志物,其联合诊断的AUC为0.903(P<0.001),见图4A。其logistic回归方程为logit(P)=-15.715+5.607×cg12614630+24.586×cg19786751-8.217×cg06131338。
基于上述的logistic回归方程,进一步通过GSE54503、GSE89852和GSE56588这3个GEO数据集验证以上3个候选CpG位点对HCC样本和正常组织样本的区分能力,结果显示,联合cg12614630、cg19786751和cg06131338在3个GEO数据集中获得的AUC分别为0.812、0.844和0.934(均P<0.001),见图4B。
图4 早期HCC和GEO数据集中3个CpG位点的ROC曲线分析Fig.4 ROC curve analysis of 3 CpG sites in the early-stage HCC and GEO datasets
3 讨论
目前大多数HCC患者尚难以早期发现或确诊,既往研究显示早期诊断的HCC患者5年生存率一般>70%,晚期患者则降至10%左右[11-12],由此可见早期诊断对提高患者生存率具有重要意义。本研究通过对TCGA数据库中的数据进行综合分析,初步筛选了5个对HCC有诊断能力的甲基化CpG位点,且在14种常见癌症中仅胆管细胞癌显示上述5个候选CpG位点均出现高甲基化,说明这5个候选CpG位点的高甲基化在原发性肝癌中具有组织特异性。进一步以临床收集的50例早期HCC和3个GEO公共数据集作为验证集,通过ROC曲线分析最终确定3个CpG位点(cg12614630、cg19786751和cg06131338)作为诊断生物标志物,相关分析也显示这3个CpG位点的甲基化水平与所在基因(GPR182和ACACB)的表达量呈负相关,说明以上3个候选位点及所在基因可能是潜在的早期诊断指标,且这些位点的高甲基化可能通过影响其所在基因的表达而发挥作用,具体机制值得深入探索。
近年来,联合多个甲基化CpG位点作为肝癌诊断策略越来越受关注,但是目前尚没有标准的组合可用于临床,此外各研究者基于不同数据、分析方法或筛选标准,所获得的CpG位点组合也完全不同。例如,HLADY等[13]利用cfDNA的全基因组甲基化数据筛选出可以区分肝癌和正常样本的CpG位点作为联合诊断的生物标志物。CHENG等[4]则将来自TCGA的肝癌数据和GSE69270数据集(健康个体)结合分析,从而获得6个HCC特异性CpG位点。本研究使用的数据不仅包括TCGA和GEO数据库等公共数据,还包括实验获得的BCLC-A期HCC的甲基化和基因表达数据,是基于公共数据库及临床数据验证的一组CpG位点(cg12614630、cg19786751和cg06131338),诊断效能较高,说明这一组合具有较高的可靠性及良好的诊断效能。
本研究还发现,3个候选CpG位点所在的基因GPR182和ACACB也可能是早期HCC潜在的诊断指标。一般而言,异常DNA甲基化在肿瘤的早期阶段即可发生,且随着肿瘤进展其甲基化程度可能增加。而目前认为,基因表达调控是DNA甲基化可能的致癌机制。既往研究显示,ACACB基因与HCC发生发展密切相关[14-15],且ACACB表达下调可能与DNA甲基化异常有关[16]。而关于GPR182,目前其与HCC的关系鲜见报道,但近期也有研究报道GPR182可作为HCC预后评估标志物[17]。结合本研究中cg12614630、cg19786751和cg06131338的甲基化水平与GPR182和ACACB基因表达水平呈负相关,推测ACACB和GPR182表达下调可能受这3个CpG位点甲基化水平调控,并在HCC癌变中起重要作用,但具体的致癌机制仍需进一步研究。
综上所述,cg12614630、cg19786751和cg06131338 CpG位点可能是HCC潜在的诊断生物标志物,3者联合诊断在HCC中具有较高的准确性,可能是HCC早期诊断的有效检测策略。但是本研究的对比样本均为同一患者的HCC组织与癌旁组织,尚未获取正常对照者肝脏组织做对比,此外本组CpG位点的潜在临床价值也还需在血液、细胞及动物实验中进一步验证。