ERCC1及其重叠基因 3’端非编码区多态性与结直肠癌发病风险关联的病例对照研究
2021-05-18张靖悦张倩也陈信桢张国培肖明扬逯晓波
张靖悦,张倩也,陈信桢,张国培,肖明扬,逯晓波
(中国医科大学公共卫生学院卫生毒理学教研室,沈阳 110122)
遗传与环境因素共同作用是结直肠癌(colorectal cancer,CRC)发生的机制[1]。环境有害因子可与DNA结合造成DNA损伤。切除修复交叉互补基因1(excision repair cross-complementary enzyme 1,ERCC1)的表达水平和DNA损伤的修复活性密切相关,且其单核苷酸多态性(single nucleotide polymorphism,SNP)位点与CRC的易感性存在关联[2]。此外,反义切除修复交叉互补因子1(CD3e molecule,epsilon associated protein,CD3EAP)基因与PPP1R13L(protein phosphatase 1 regulatory subunit 13 like)基因分别与ERCC1的3’端非编码区(3’ -untranslated region,3’ UTR)及5’端重叠,且二者基因的多态性与CRC的易感性也密切相关[3]。因此,本研究拟通过在中国东北地区汉族人群中开展病例对照研究,探讨中国汉族人群中ERCC1rs3212986、ERCC1rs735482、ERCC1rs2336219、CD3EAPrs1007616和PPP1R13Lrs6966多态性位点与CRC发病风险之间的关联,为寻找CRC易感性生物标志提供理论依据和科学线索。
1 材料与方法
1.1 材料
1.1.1 试剂与仪器:DNA提取试剂盒(北京天根生化技术有限公司);SNP基因探针及引物合成(美国应用生物系统公司);LightCycler® 480 Probes Master试剂(瑞士Roche公司)。Nanodrop核酸定量分析仪(美国ThermoFisher Scientific公司);实时荧光定量PCR 仪(瑞士Roche公司);低温超速离心机(美国Beckman公司);CF15D低温高速离心机(日本Hitachi公司);立式压力蒸汽灭菌器(上海博迅实业有限公司医疗设备厂)。
1.1.2 研究对象:本研究采用病例对照研究,研究对象均为来自中国东北地区无血缘关系的汉族人群。选择2014年10月至2015年3月在中国医科大学附属第四医院就诊的200例原发性CRC患者作为病例组。选择于中国医科大学附属第一医院体检的200名健康志愿者作为对照组,对照组无癌症病史,并按年龄(±2岁)及性别与病例匹配,在同一地区和同一时期招募。本研究已获得中国医科大学医学伦理委员会批准,并在实施过程中遵守《赫尔辛基宣言》,所有研究对象均签署知情同意书。通过调查问卷的形式收集研究对象的基本资料,采集外周静脉血5 mL,EDTA抗凝,置于-80 ℃冰箱冻存备用。
1.2 研究方法
1.2.1 DNA提取:用DNA提取试剂盒提取2组DNA后,检测DNA质量并调整DNA浓度为200 ng/μL,取A260/A280位于1.7~1.9的样本用于后续实验,置于-20℃保存备用。
1.2.2 候选SNP位点的确定:根据Hapman(http://www.hapmap.org)、PubMed(http://www.ncbi.nlm.nih.gov/pubmed)和UCSC(http://www.genome.ucsc.edu)网站提供的中国汉族人群中ERCC1、CD3EAP及PPP1R13L的3’ UTR多态性位点信息、中国汉族北京人群的最小等位基因频率(minor allele frequency,MAF)>0.2及样本量确定候选SNP位点为ERCC1rs3212986、ERCC1rs735482、ERCC1rs2336219、CD3EAPrs1007616和PPP1R13Lrs6966。具体生物学信息见表1。
1.2.3 基因分型检测:采用Taqman 水解探针法检测候选SNP位点在2组人群中的分布频率。本研究中使用的SNP基因探针及引物由美国应用生物系统公司负责设计并合成,包括rs3212986(ID号:C_2532948_10)、rs735482(ID号:C_341729_10)、rs2336219(ID号:C_16204465_10)、rs6966(ID号:C_2615637_10)、rs1007616(ID号:AH6RTHI)。PCR反应体系(20 μL):2×LightCycler 480 Probes Master 10 μL,1×probe 5 μL,RNase-free water 3 μL。PCR反应条件:95 ℃预变性10 min;95 ℃变性10 s,60 ℃退火1 min,72 ℃延伸1 s,共40个循环;40 ℃冷却30 s。
表1 候选SNP位点基本信息Tab.1 Basic information of candidate SNP sites
1.3 统计学分析
采用SPSS 22.0软件进行统计学分析。年龄呈正态分布,以()表示,计数资料用[n(%)]表示,2组间SNP位点连锁不平衡用Haploview 4.2软件分析。采用Welch’st检验比较2组间年龄差异;χ2检验分析SNP位点的基因型在病例组和对照组中的分布差异。采用非条件logistic回归模型分析SNP位点不同基因型与CRC发病风险的关联,用比值比(odds ratio,OR)及其 95%可信区间(confidence interval,CI)表示相对风险度。统计分析采用双侧检验,P<0.05 为差异有统计学意义。
2 结果
2.1 临床资料对比
病例组男女比为113 ∶87,对照组男女比为111 ∶89,2组之间性别差异无统计学意义(χ2=0.041,P=0.840);纳入研究的2组研究对象均以年龄超过50岁的人群为主,约占80%,2组之间年龄差异无统计学差异(t=0.525,P=0.600)。见表2。
2.2 Hardy-Weinberg 遗传平衡检验结果
表2 病例组与对照组的临床特征比较Tab.2 Comparison of clinical characteristics in case group and control group
本研究选取的rs3212986、rs735462、rs2336219、rs1007616及rs6966位点对照组基因型频率分布符合Hardy-Weinberg平衡(P> 0.05)。
2.3 关联分析
基因分型结果显示,ERCC1rs3212986位点的等位基因在病例组与对照组间具有统计学差异(χ2=4.61,P=0.032),PPP1R13Lrs6966位点基因型在2组中的频率分布具有统计学差异(χ2=6.05,P=0.049),其余SNP位点基因型则均无统计学差异。进一步分析发现,ERCC1rs3212986位点的AA基因型与CRC的发生具有相关性(OR=2.53,95%CI:1.14~5.60);其余SNP位点与CRC的发病风险关联性无统计学意义。见表3。
2.4 分层分析
2.4.1 性别分层:进一步按照性别分层后,男性中rs3212986 位点的AA基因型患CRC的风险增高(OR=4.04,95%CI:1.26~12.97);在女性中未观察到这种关联。见表4。
2.4.2 年龄分层:根据年龄分布的特点,病例组和对照组的平均年龄分别为62.18岁和61.59岁,因此以60岁作为分层点,将研究对象分为<60岁和≥60岁2层,在年龄<60岁人群中,相关性分析未发现SNP位点与CRC之间的关联;而在年龄≥60岁人群中,ERCC1rs3212986位点的AA基因型患CRC的风险增高(OR=7.48,95%CI:1.63~34.3),其余SNP位点未发现这种关联。见表5。
2.5 连锁不平衡及单倍型分析
2.5.1ERCC1基因单体型结构分析:单体型为一条染色体区域中所有SNPs 等位基因的集合。对ERCC1基因3个SNP位点进行连锁不平衡分析,结果显示,rs3212986、rs735482和rs2336219位点处于强连锁不平衡(P=0.003),提示AAG单体型可能与CRC患病风险增高有关(OR=1.61,95%CI:1.09~2.37)。此外,构建得到的其他单体型在2组间差异均无统计学意义(P> 0.05)。见表6。
表3 病例组和对照组中候选SNP位点的等位基因和基因型频率比较Tab.3 The frequencies of alleles and genotypes of candidate SNP locis in cases and controls
2.5.2 区域性单体型分析:染色体在传递过程中同源片段发生重组,传递多代之后原有的排布已被打乱,而染色体中没有发生重组的区域被重组区域相互隔开,这些没有发生重组的区域被称为区域性单体型。由于rs3212986、rs735482、rs2336219、rs1007616和rs6966位点所在的基因相互之间有重叠,故位点间可能存在连锁不平衡,故用Haploview4.2软件进行区域性单体型分析。结果显示,rs3212986、rs735482、rs2336219和rs1007616处 于连锁不平衡(rs6966与其他SNP位点呈较弱连锁不平衡,所以实际只有4个位点被纳入了单体型分析),经统计学分析,在Haploview4.2软件构建的区域单体型中,提示CCAC(OR=4.46,95%CI:1.79~11.09)、AAGC(OR=5.64,95%CI:2.23~14.31)、CAGT(OR=4.04,95%CI:1.58~10.31)可能与CRC患病风险增高有关。此外,构建得到的其他区域单体型在2组间差异均无统计学意义(P> 0.05)。见表7。
3 讨论
CRC具有高发病率、高死亡率的特点,多数病例预后不良[4]。DNA损伤是恶性肿瘤发生、发展的起始动力,DNA损伤修复基因越来越受到恶性肿瘤研究者的密切关注[5]。作为常见恶性肿瘤,CRC与DNA损伤修复基因有着密不可分的关系,其发生被认为可能是机体多个DNA损伤修复系统紊乱而产生的不良结局[6]。
表4 不同性别分层分析SNP位点与CRC发病风险的关联Tab.4 The association between SNPs and CRC risk analyzed by gender stratification analysis
表5 不同年龄分层分析SNP位点与CRC发病风险的关联Tab.5 The association between SNPs and CRC risk analyzed by age stratification analysis
表6 ERCC1单体型结构与CRC发生风险的关联Tab.6 The association between the haplotype structures of ERCC1 and the risk of CRC
表7 ERCC1及其重叠基因区域单体型结构与CRC发生风险的关联Tab.7 The association between the regional haplotype structures of ERCC1 and its overlapping genes and the risk of CRC
研究[7]发现,DNA修复基因ERCC1的表达水平与CRC发病有明显相关性。此外,ERCC1多态性也与个体DNA修复能力、恶性肿瘤易感性及肿瘤耐药密切相关。ERCC1rs3212986位点位于基因的3’ UTR区,本研究发现其AA基因型患CRC风险升高,提示可能是由于该基因型与较低水平的DNA修复效率和较高水平的DNA损伤有关。这与以往研究rs3212986位点基因型与某些常见癌症发生风险的关联性相符,如ZHAO等[8]发现ERCC1rs3212986基因多态性的TT基因型携带个体与TG+GG基因型携带个体相比,胰腺癌的易感性更高,特别是在吸烟者中ERCC1rs3212986基因多态性更有助于胰腺癌的发展;GENG等[9]也发现ERCC1rs3212986基因多态性与神经胶质瘤发生率显著相关,AA基因型携带者发生神经胶质瘤的风险是CA+CC基因型携带者的1.26倍。因此,提示在某些常见肿瘤的筛查诊断中ERCC1rs3212986位点可以作为有效的早期生物易感标志。
ERCC1rs3212986位点位于ERCC1与CD3EAP的重叠区域,即同时位于ERCC1的3’ UTR和CD3EAP的编码区。因此,ERCC1rs3212986位点的SNP既可以通过影响CD3EAP编码区的基因表达,导致CD3EAP转录翻译后生成的氨基酸不同,产生的蛋白质功能出现改变,从而影响细胞增殖,又可以影响ERCC1mRNA的二级结构,导致其与miRNA的结合能力发生改变,影响miRNA的调控能力,最终导致机体DNA修复能力出现差异,从而影响某些疾病的发生发展。此外,本研究还发现包含该等位基因的单体型及多态性区域CRC的患病风险升高,也提示了该位点在CRC易感性中的重要性。
本研究尚有不足之处,肿瘤的发生是环境致癌物与遗传物质相互作用的结果,由于条件受限,本研究对象未能收集到吸烟、饮酒、饮食习惯、职业暴露等因素,故不能对环境与遗传因素的交互作用与CRC发病风险的关联做进一步的分析,而且受到病例样本含量的局限,本研究发现的rs3212986基因多态性与CRC易感性的关联仍需大样本人群的检验等。因此,设计更加严密的病例对照研究、扩大样本含量进行统计学分析,通过生物信息学进行SNP位点的深入功能挖掘,并与遗传毒理学实验相结合,也是未来研究的重要方向。