APP下载

基于生物信息学分析探讨CD59在肺癌中的表达及其临床意义

2022-11-05王卫东董婧珂龚永生金艳霞

生命科学研究 2022年4期
关键词:位点氨基酸肺癌

王卫东,董婧珂,龚永生,孙 慧,王 洁,金艳霞*

(1.湖北师范大学生命科学学院食用野生植物保育与利用湖北省重点实验室特色野菜良种繁育与综合利用湖北省工程技术研究中心生物学国家级实验教学示范中心,中国湖北 黄石 435002;2.南京医科大学附属苏州医院,中国江苏 苏州 215008;3.武汉大学生命科学学院,中国湖北 武汉 430072;4.华中科技大学同济医院,中国湖北 武汉 430030)

肺癌具有高度侵袭性和转移性,是发病率和死亡率很高的恶性肿瘤[1]。肺癌主要分为非小细胞肺癌(non-small cell lung cancer,NSCLC)和小细胞肺癌(small cell lung cancer,SCLC),其中NSCLC约占肺癌数目的85%[2]。根据组织亚型,NSCLC主要分为肺腺癌(lung adenocarcinoma,LUAD)、肺鳞癌(lung squamous cell carcinoma,LUSC)和大细胞癌(large cell carcinoma,LCC)三类。约70%肺癌患者确诊时已有局部或远处转移,失去根治性治疗机会,预后差;而早期NSCLC患者手术治疗后5年生存率可达到80%左右[3],因此,早诊早治可显著提高肺癌患者的生存率。

临床上肺癌筛查常见的血清肿瘤标志物有癌胚抗原(carcinoembryonic antigen,CEA)、鳞状细胞抗原(squamous cell carcinoma antigen,SCCA)和细胞角蛋白19片段(cytokeratin 19 fragment,CYFRA21-1)等,但总体上现有诊断技术的灵敏度和特异性效果还不理想,并且在肺癌早诊应用中还有一定的局限性,因此,迫切需要高效、灵敏的早诊标志物用于肺癌筛查。

肿瘤抗原对肿瘤诊断和治疗具有重要作用。临床上可联合多种血清肿瘤标志物用于肿瘤的早期诊断以及确定肿瘤亚型,如:人附睾蛋白4(human epididymis protein 4,HE4)和 CYFRA21-1 及胃泌素释放肽前体(pro-gastrin releasing peptide,ProGRP)联合有望区分肺癌和良性疾病,以及区分肺癌组织亚型[4]。肺癌早期患者的免疫系统识别肿瘤细胞表面相关抗原并产生自身抗体,这种自身抗体在血液中能长时间稳定存在[5],可作为早期肺癌筛查标记物[6]。Pei等[7]用血清学cDNA表达文库(serological analysis of recombinant cDNA expression libraries,SEREX)和Oncomine数据库分析鉴定了肿瘤自身抗体anti-TOP2A和anti-ACTR3,并用酶联免疫吸附试验(enzyme linked immunosorbent assay,ELISA)对其进行了检测,发现它们诊断早期肺癌的曲线下面积(area under the curve,AUC)分别为0.758和0.787,可作为早期肺癌血清标志物。Jiang等[8]报道,新型的自身抗体用于早期肺癌免疫诊断具有高效性。此外,在肺癌早期中,与免疫相关的分子也发生变化,Ye等[9]通过对早期NSCLC血清中外周血白细胞进行转录组测序分析发现,与免疫相关的分子即酸性糖蛋白1(alpha-1-acid glycoprotein 1,AGP1),在早期NSCLC的诊断中效果较好,且酸性糖蛋白与转化生长因子-β(transforming growth factor-β,TGF-β)联合诊断可有效区分IA期NSCLC患者和健康对照者,AUC为0.985。因此,肿瘤免疫诊断有潜力作为灵敏检测早期NSCLC的有效方法。

基于前期测定的早期NSCLC患者外周血中白细胞的转录组数据[9],本研究进行了深入挖掘,采用GO注释分析了参与免疫应答过程的差异表达基因(differentially expressed genes,DEGs),筛选出免疫相关分子CD59,并利用Oncomine、GEPIA、UniProt、COMSIC、SWISS-MODEL、STRING 和Kaplan-Meier Plotter等数据库分析了CD59在肺癌中的表达、蛋白质结构变化及其与患者生存之间的关系,为探索CD59参与肺癌发生机制和预后判断提供了参考依据。

1 方法

1.1 转录组数据分析

本研究所用的早期NSCLC患者外周血中白细胞的转录组测序数据已提前发表,具体见参考文献[9]。测序后的RNA-seq reads数目用TopHat(v2.0.10)与人的基因组进行比对,再用Cufflinks软件(v2.1.1)分析DEGs。人参考基因组(GRCh38)及其注释文件从Ensembl网站(http://www.ensembl.org/index.html)下载。基因表达的相对转录本丰度用FPKM(fragments per kilobase of exon model per million mapped fragments)来表征。

1.2 生物信息分析

将DEGs进行GO(Gene Ontology)功能注释(http://wego.genomics.org.cn/document),分析转录组测序数据中参与免疫相关功能的差异表达分子;利用Oncomine(https://www.oncomine.org/resource/login.html)和GEPIA数据库(http://gepia.cancer-pku.cn)分析CD59在肺癌组织中的mRNA表达变化[10];利用COSMIC数据库(http://cancer.sanger.ac.uk,GRCh38 COSMIC v92)分析CD59在肺癌中的突变位点;运用SWISS-MODEL WORKSPACE(http://swissmodel.expasy.org)和SPDBV软件(https://www.expasy.org/resources/swiss-pdbviewer)同源建模并分析CD59蛋白的3D结构;运用STRING数据库(https://string-db.org/cgi/input.pl)分析CD59蛋白与其他蛋白质的相互作用;运用Kaplan-Meier Plotter数据库(https://kmplot.com/analysis/)分析CD59表达与肺癌患者的生存关系。P<0.05表示有统计学意义。

1.3 免疫印迹分析

收集5例健康样本、6例良性疾病患者和9例术前NSCLC IA期患者的血清,用于CD59蛋白表达水平的验证。所有样本依据南京医科大学伦理委员会批准采集,样本信息见表1。NSCLC患者通过低剂量计算机断层扫描(low-dose computed tomography,LDCT)和组织病理学分析确诊,肺癌患者分期按照国际肺癌研究协会(International Association for the Study of Lung Cancer,IASLC)的第八版TNM分期系统进行分级。采集血液2 mL后静置,4℃400g离心20 min,将血清分装至每管200 μL,立即冻存于-70℃备用,每份血清在使用前不超过两次冻融。

表1 实验涉及的样本信息Table 1 The information of samples used in this study

在肺癌患者手术中收集4对组织标本,采集的癌旁组织距离癌组织2 cm,标本采集后液氮速冻,立即置于-70℃冻存备用。组织标本先在6孔板中用灭菌的剪刀剪碎,加入含苯甲基磺酰氟(phenylmethylsulfonyl fluoride,PMSF)(Sigma-Aldrich公司,德国)的RIPA裂解液和陶瓷珠,在全自动样品快速研磨仪中研磨5次,每次60 s。冰上放置30 min后,12 000 r/min离心10 min,收集的上清液即为组织匀浆的蛋白质提取物。

用BCA(bicinchoninic acid)蛋白质定量试剂盒(ThermoFisher公司,美国)于OD562nm处测定蛋白质浓度。15 μg组织裂解液或5 μg稀释的血清蛋白质上样至15%十二烷基硫酸钠-聚丙烯酰胺凝胶中进行电泳(SDS polyacrylamide gel electrophoresis,SDS-PAGE),电泳结束后,将凝胶中的蛋白质条带转移到聚偏氟乙烯[poly(1,1-difluoroethylene),PVDF]膜(Merck Millipore 公司,德国)上,300 mA电流下转膜45 min,再将PVDF膜用5%脱脂牛奶室温封闭1 h。洗膜3次后,室温下分别孵育CD59抗体(1∶2 000稀释,武汉三鹰生物技术有限公司)和GAPDH抗体(1∶10 000稀释,武汉三鹰生物技术有限公司)1 h;洗膜5次,室温孵育辣根过氧化物酶(horseradish peroxidase,HRP)标记的羊抗兔IgG二抗(1∶5 000稀释,武汉三鹰生物技术有限公司)或羊抗鼠IgG二抗(1∶5 000稀释,武汉三鹰生物技术有限公司)1 h;洗膜5次后,用ECL化学发光试剂(Bio-Rad公司,美国)显影,最后用Vilber FUSION FX7化学发光成像仪拍照。蛋白质条带用Image J软件进行灰度分析,用GraphPad Prism软件(v8.0)进行数据统计,P<0.05表示有统计学意义。

2 结果

2.1 GO功能注释分析肺癌中差异表达的免疫相关分子

转录组测序的原始数据用TopHat与人的基因组(GRCh38)进行比对,比对后的数据用Cufflinks软件进行DEGs分析。分析结果显示:共比对到64 233个基因,其中可信基因有26 638个(FPKM>0);依据|log2(肺癌组FPKM/健康组FPKM)|≥1,DEGs有5 676个(表2),其中297个基因是健康组特异性表达的,222个是患者组中特异性表达的;2 184个基因在早期患者中表达上调,2 973个基因在早期患者中表达下调。

表2 转录组测序的差异表达基因分析Table 2 Analysis of DEGs by transcriptome sequencing

将差异表达的5 676个基因进行GO功能注释,分析早期NSCLC患者白细胞转录组数据中参与免疫应答过程的差异表达分子。结果显示,一共鉴定到358个免疫相关分子。这些差异表达的免疫相关分子主要参与免疫应答(immune response)、淋巴细胞刺激(lymphocyte costimulation)、免疫系统发育(immune system development)、淋巴细胞激活(leukocyte activation)、免疫应答过程(immune effector process)和免疫反应激活(activation of immuneresponse)等生物过程(图1)。

图1 GO功能注释分析与免疫功能相关的差异表达分子Fig.1 GO functional annotation analysis of differentially expressed molecules involved in immune-related functions

2.2 CD59在肺癌中的表达

由于外周血白细胞中中性粒细胞约占50%,因此,根据GO注释、有无商业化抗体以及是否利于肿瘤免疫诊断的血液学检查,我们筛选了与中性粒细胞功能相关的显著差异表达的CD59糖蛋白,其在肺癌患者外周血白细胞中表达下调,log2(肺癌组 FPKM/健康组 FPKM)值为-2.079 32。运用Oncomine数据库分析CD59在癌症中的表达,通过设定阈值和统计分析的P值,我们发现在6种比较类型中,CD59在肺癌组织中的表达都显著下降(图2A和表3)。进一步的GEPIA数据库分析显示,CD59在肺鳞癌(LUSC)组织中的表达显著降低,在肺腺癌(LUAD)组织中的表达有降低趋势(图2B)。

表3 Oncomine数据库分析CD59在肺癌中的表达Table 3 Analysis of the CD59 expression in lung cancer with Oncomine database

图2 运用Oncomine和GEPIA数据库分析CD59在肺癌中的表达(A)Oncomine数据库分析CD59在不同癌症中的表达。黄色表示CD59 mRNA在肿瘤中过表达,蓝色表示CD59 mRNA在肿瘤中表达下降。分析类型:肿瘤组vs.正常组;P值阈值:1E-4;变化倍数阈值:2;基因排名阈值:前10%;数据类型:All;(B)GEPIA数据库分析CD59 mRNA在肺癌组织中的表达。红色表示肿瘤组织(T),灰色表示正常组织(N)。|log2(变化倍数)|阈值:1;P值阈值:0.01;log scale:是,用log2(TPM+1)表示;Jitter大小:0.4;匹配正常数据:匹配TCGA数据库中正常样本和GTEx数据。TPM:Transcripts per million。Fig.2 Analysis of CD59 expression in lung cancer with Oncomine and GEPIA databases(A)Analysis of CD59 expression in different cancers based on Oncomine database.Yellow and blue represent significant overexpression and decreased expression of CD59 mRNA,respectively,in different cancers.Analysis type:Cancer vs.normal;Threshold(P-value):1E-4;Threshold(fold change):2;Threshold(gene rank):Top 10%;Data type:All;(B)Analysis of CD59 mRNA expression in lung cancer tissues with GEPIA database.Red and gray represent tumor(T)and normal(N)tissues,respectively.|log2(fold change)|cutoff:1;P-value cutoff:0.01;log scale:Yes,and represented by log2(TPM+1);Jitter size:0.4;Matched normal data:TCGA normal and GTEx data.TPM:Transcripts per million.

此外,通过对临床组织标本和血清标本进行免疫印迹实验发现,相比癌旁组织,CD59蛋白在早期肺癌组织中的表达显著下降,P=0.048 8(图3A和3B);相对于健康对照组,CD59蛋白在早期肺癌血清中的表达也显著下降,P=0.000 4(图3C和3D)。另外,图3D显示,CD59蛋白在良性样本和肺癌患者样本间的表达水平无明显差异,这可能是由于所用血清样品量少,后续还需大量样品进一步验证。

图3 免疫印迹法检测早期肺癌患者组织和血清中CD59蛋白的表达水平(A)组织裂解液;(B)灰度分析组织中CD59的表达。PN表示癌旁组织,PT表示肿瘤组织;(C)血清蛋白质样品;(D)灰度分析血清中CD59的表达。数据用平均值±标准误显示,统计用非配对的t检验,*P<0.05;**P<0.01;***P<0.001。Fig.3 Detection of the protein expression level of CD59 in tissues and sera of early lung cancer patients with Westernblot(A)Tissue lysates;(B)The gray analysis of CD59 expression in tissue lysates.PN:Paracancerous tissues,PT:Tumor tissues;(C)Serum samples;(D)The gray analysis of CD59 expression in sera.The data were statistically analyzed by GraphPad Prism(v8.0)with unpaired t-test,and represented by mean±SEM.*P<0.05;**P<0.01;***P<0.001.

2.3 CD59蛋白的结构

通过NCBI GeneBank和UniProt数据库(https://www.uniprot.org/uniprot/P13987)分析CD59的编码序列和位点(图4A)。结果显示:CD59的基因ID为966,定位在11号染色体上,编码128个氨基酸,其中1~25位氨基酸为信号肽序列,103~128位氨基酸为前肽序列[11];CD59蛋白含有4个糖基化修饰位点。COSMIC数据库的分析显示:CD59在肺癌中有3个已知位点存在突变,即第8、87和128位氨基酸(图 4A)。

CD59蛋白的3D结构如图4B所示,主要由α螺旋和β折叠组成。研究报道,CD59蛋白分子有 5个二硫键[12],即氨基酸位点 28~51、31~38、44~64、70~88 和 89~94 分别形成二硫键(图 4B)。COSMIC数据库分析显示,在肺癌患者中CD59有3个氨基酸位点即8、87和128位存在突变,其中第8和128位点的突变都属于同义突变,而第87位氨基酸由酪氨酸(Y)突变为苯丙氨酸(F)。进一步的SWISS-MODEL同源模建以及SPDBV软件分析提示,87位酪氨酸(Y)仅与53位异亮氨酸(I)有氢键作用,突变成苯丙氨酸(F)后,与53位异亮氨酸(I)的氢键并没有发生变化(图4C)。

图4 CD59的序列和3D结构(A)CD59基因序列。红色标记表示突变信息,蓝色标记表示糖修饰位点;(B)CD59蛋白的3D结构。“C”表示半胱氨酸;(C)运用SPDBV软件分析CD59蛋白87位酪氨酸和53位异亮氨酸之间的氢键作用(左边),以及87位突变后的苯丙氨酸和53位异亮氨酸之间的氢键作用(右边)。Fig.4 The sequence and 3D structure of CD59(A)The sequence of CD59.Red represents mutation,and blue represents glycosylation sites;(B)The 3D structure of CD59 protein.“C”represents cysteine;(C)Analysis of the hydrogen bonding force between tyrosine(Y)87 and isoleucine(I)53 in the CD59 protein(left),and the hydrogen bonding force between phenylalanine(F)87 and isoleucine(I)53 in the mutant CD59 protein(right)by SPDBV software.

2.4 CD59蛋白与其他蛋白质之间的相互作用

STRING数据库分析结果显示,CD59蛋白主要与10种蛋白质存在相互作用(图5),即补体加速衰减因子(complement decay-accelerating factor,CD55)、补体成分C9、C3a过敏毒素趋化性受体(C3a anaphylatoxin chemotactic receptor,C3AR1)、补体成分 C8 α 链(C8A)和 β 链(C8B)、胰岛素(insulin,INS)、尿激酶纤溶酶原激活物表面受体(urokinase plasminogen activator surface receptor,PLAUR)、白细胞表面抗原CD47、整合素alpha-M(integrin alpha-M,ITGAM)和癌胚抗原相关细胞黏附分子8(carcinoembryonic antigen-related cell adhesion molecule 8,CEACAM8),其中大部分蛋白质参与免疫调控,如:CD55的唾液酸化促进肿瘤细胞发生免疫逃逸[13],CEACAM8与中性粒细胞脱颗粒有关[14]。我们前期的转录组数据也显示,CD55和PLAUR的mRNA水平在早期NSCLC外周血白细胞中表达下降[9]。此外,有研究报道,CD55单抗有望用于胸膜转移性肺癌的治疗[15],含有CD55的肿瘤特异性溶瘤腺病毒也有潜力作为肺癌治疗新方法[16];PLAUR参与肿瘤的转移和入侵[17~18]。总的来讲,肺癌发生进程与免疫调控密切相关[19~20],因而蛋白质互作分析可为CD59蛋白参与肺癌发生机制的深入研究提供参考。

图5 STRING数据库分析与CD59蛋白相互作用的蛋白质(物种:人)Fig.5 The protein-protein interaction network diagram of CD59 using STRING database(organism:Homo sapiens)

2.5 CD59表达与肺癌患者预后的相关性

Kaplan-Meier Plotter数据库分析显示,CD59高表达肺癌患者(n=459)的生存时间为133.57个月;低表达肺癌患者(n=694)的生存时间为50.73个月(图6),表明CD59低表达的肺癌患者的生存时间更短,提示CD59可作为肺癌患者生存期判断的指标。

图6 CD59表达与肺癌患者生存之间的关系数据分析的参数设置:Affy ID:228748_at;患者分组:自动选择最佳临界值;组织亚型:All;分期:All;AJCC TNM分期:All;性别:All;吸烟史:All;Cox回归分析:单变量。Fig.6 The correlation between CD59 expression and the survival of lung cancer patientsParameter settings:Affy ID:228748_at;Split patients by:Auto select best cutoff;Histology:All;Stage and grade:All;AJCC stage T:All;AJCC stage N:All;AJCC stage M:All;Gender:All;Smoking history:All;Cox regression:Univariate.

3 讨论

本研究通过Oncomine、GEPIA等多个数据库分析发现CD59在肺癌组织中表达下降(图2和表3),免疫印迹实验结果也表明CD59在早期NSCLC患者组织和血清中的表达都显著下降(图3),与前期转录组测序数据检测结果[9]一致。HPA数据库(https://www.proteinatlas.org/ENSG00000085-063CD59/tissue)的分析显示,CD59在正常的肺组织中高表达。然而,Li等[21]报道,免疫组化结果显示,CD59在20例NSCLC组织中的表达量高于癌旁组织中的表达量,并且在H157细胞中敲低CD59表达可抑制H157细胞的增殖和增强细胞凋亡,表明CD59可作为NSCLC治疗的靶点。Lin等[22]则报道,在肺癌细胞中敲低CD59表达,可抑制肺腺癌的生长和转移。上述相反的结果可能是由于CD59在肿瘤早晚期样本中表达不同,但具体机理还需要更多实验进一步探究。

运用COSMIC数据库分析CD59基因在肺癌患者中的突变情况,发现有3个氨基酸位点即第8、87和128位存在突变(图4)。其中,第8位氨基酸位点位于信号肽序列中,在CDS序列中即24位C突变成G,也就是密码子GTC突变为GTG,二者都编码缬氨酸(V),属于同义突变。第87位氨基酸位点在CDS序列中即260位A突变成T,也就是密码子TAC突变为TTC,所编码氨基酸由酪氨酸(Y)突变为苯丙氨酸(F),COSMIC数据库报道该位点属于错义突变。我们通过SWISS-MODEL同源模建CD59的3D结构,运用SPDBV软件进行分析发现,87位酪氨酸(Y)仅与53位异亮氨酸(I)有氢键作用,突变成苯丙氨酸(F)后,与53位异亮氨酸(I)的氢键并没有发生变化。UniProt数据库有报道,该87位氨基酸由酪氨酸(Y)突变为精氨酸(R),对蛋白质功能没有影响。第128位氨基酸位点在CDS序列中是384位C突变成G,即密码子CCC突变为CCG,都编码脯氨酸(P),也属于同义突变。第128位氨基酸位于前肽序列中,切割后才为成熟形式的CD59蛋白[11]。因此,现有数据提示,在肺癌患者中CD59蛋白3个已知的突变位点对该蛋白质结构并无明显影响。

CD59蛋白属于补体,是先天免疫系统的一部分,补体系统的激活以级联酶促反应的形式发生[23],当补体激活不足或过度时可导致多种疾病[24]。CD59蛋白为相对分子质量为18~20 kD的糖基磷脂酰肌醇(glycosylphosphatidylinositol,GPI)锚定的糖蛋白,是膜结合性补体调节蛋白(membranebound complement regulatory proteins,mCPRs)的重要成员,在血液和多种组织中表达[25~26]。CD59蛋白有两种存在形式,包括膜附着性CD59蛋白和可溶性CD59蛋白,附着性CD59蛋白的主要功能是在补体系统被激活后的酶级联反应的终末阶段抑制膜攻击复合体(membrane attack complex,MAC)的形成,从而保护宿主细胞使其不受MAC裂解效应的影响[27~28]。当补体激活不足时,MAC可以通过激活细胞周期、预防细胞凋亡、上调致癌生长因子和细胞因子并抑制淋巴细胞的活化增殖等方式,诱导或维持肿瘤发生[29]。CD59分子还可参与免疫反应的调节过程,诱导T淋巴细胞的激活,并且影响T淋巴细胞增殖及其分泌细胞因子的能力[30]。本研究发现,CD59蛋白与神经免疫调节蛋白CD47有相互作用(图5)。有研究报道,CD47的表达水平与NSCLC的侵袭和转移相关,过表达CD47可以促进NSCLC的入侵和转移,可作为NSCLC的不良预后指标,用于疾病进程监控和NSCLC治疗的靶点[31]。Kleczko等[32]报道,靶向补体途径可作为肺癌治疗的策略,如前所述,CD55单抗可用于胸膜转移性肺癌的治疗[15],推测作为补体途径的CD59分子也可能参与调控肺癌的发生。

总的来讲,本研究发现CD59在肺癌组织和血清中的表达低于正常对照组,且CD59低表达的肺癌患者生存更差,推测是因为CD59可作为人自然杀伤细胞激活的共受体,当CD59低表达不利于自然杀伤细胞的激活时,可能引起免疫逃逸,导致肿瘤细胞恶性增殖,患者生存更差[33]。本研究表明,免疫分子CD59有可能作为肺癌预后生存标志物,为进一步探索CD59参与肺癌发生机制和预后判断提供了参考依据。

猜你喜欢

位点氨基酸肺癌
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
DNA脱碱基位点的检测方法及其生物学研究进展
多环境下玉米保绿相关性状遗传位点的挖掘
饲料氨基酸释放动态对猪氮素利用影响的研究进展
氩氦刀冷冻治疗肺癌80例的临床观察
中国每年78万人确诊肺癌医生忠告,预防肺癌,晚上请坚持四不要
科学解读食物中的蛋白质如何分“优劣”
近亲得肺癌自己早预防
一种改进的多聚腺苷酸化位点提取方法
补氨基酸不如吃鸡蛋