基于生物信息学分析SCHIP1在急性髓系白血病中的表达及其临床意义
2020-07-30许杰王可飞魏晓晶龚莉欣焦阳邱录贵郝牧
许杰, 王可飞, 魏晓晶, 龚莉欣, 焦阳, 邱录贵, 郝牧
北京协和医学院, 中国医学科学院血液病医院(中国医学科学院血液学研究所), 实验血液学国家重点实验室, 国家血液病临床医学研究中心, 天津 300020
白血病是一种起源于造血干祖细胞的恶性克隆性疾病,其主要生物学特征为造血干祖细胞分化受阻和恶性克隆性增殖[1]。据2019年GLOBOCAN数据,白血病发病率约占所有恶性肿瘤的4%,高居不同人群第九位[2]。根据肿瘤细胞起源和临床发病速度,白血病可分为急慢性淋系白血病和急慢性髓系白血病。急性髓系白血病根据肿瘤细胞分化程度的差异,FBA将其分为M0~M7 8种不同的亚型。而世界卫生组织(World Health Organization,WHO)则综合细胞形态、免疫表型和遗传学异常等因素进行分型。近年来,许多特征性的遗传学异常被研究发现与疾病预后显著相关[3]。因此,探索与疾病预后相关的遗传学特征是目前基础和临床医学研究的热点。
施旺膜蛋白相互作用蛋白1(schwannomin-interacting protein-1,SCHIP1)基因序列位于人3q25.32-33,含9个外显子。在21世纪初由法国科学家Thomas教授团队克隆并鉴定。最初关于SCHIP1的研究发现,它能够与Ⅱ型神经纤维瘤病蛋白NF2(也叫做施旺膜蛋白)的部分剪接亚型和突变体特异性结合,从而参与NF2相关的神经鞘瘤的发生发展[4]。随后的研究主要集中于神经系统,陆续发现SCHIP1能够与Nherf2和ezrin形成复合物而介导肌动蛋白细胞骨架重排[5]、SCHIP1亚型IQCJ-SCHIP1是一种参与构成朗氏结的多伴侣锚蛋白和光谱蛋白结合蛋白[6]、SCHIP1/IQCJ-SCHIP1纯合子无义突变可导致神经发育性脑畸形综合征[7]等重大成果。同时,研究发现SCHIP1参与了脂质代谢[8],是脂泄病的关键调节因子之一,也与原发性胆汁肝硬化的发生相关[9]。最近的研究发现,SCHIP1在其他的肿瘤中也发挥了一定作用,比如透明细胞乳状细胞肾癌[10]、结直肠癌[11]、乳腺癌和卵巢癌[12]等。但在血液系统相关肿瘤中尚无文献报道SCHIP1的作用,本文基于多个高通量测序芯片,利用大数据生物信息分析手段,首次分析出SCHIP1在AML中的表达情况及临床意义,发现SCHIP1基因可作为AML的新型疾病预后标志物,且有望成为AML的精准治疗靶点,具有较高的科学性与新颖性。
1 数据来源与方法
1.1 数据来源
Oncomine数据库:https://www.oncomine.org/;癌症基因组图谱(the Cancer Genome Atlas,TCGA)分析工具UALCAN,网址为:http://ualcan.path.uab.edu/analysis.html;GEPIA2在线分析工具,网址为:http://gepia2.cancer-pku.cn/#index;生存分析使用软件:GraphPad Prism 8.0.1。
1.2 实验方法
1.2.1基于Oncomine数据库进行荟萃分析并筛选目标基因 登陆Oncimine数据库,设置筛选条件:①Cancer Type: Acute myeloid leukemia;②Analysis Type: Cancervs. Normal Analysis;③DATA TYPE:mRNA;④选择Over-expression;⑤选中Acute myeloid leukemiavs. Normal并点击Compare。P<0.05认为具有统计学差异。
1.2.2基于Oncomine数据库探索SCHIP1在常见肿瘤类型中的表达概况 设置数据分析条件:①Gene:SCHIP1;②THRESHOLD (PVALUE):1E-4; ③THRESHOLD (FOLD CHANGE): 2.0;④THRESHOLD (GENE RANK): Top10%;⑤DATA TYPE: mRNA。P<0.05为具有统计学差异。
1.2.3基于Oncomine数据库研究SCHIP1在AML中的表达情况 设置数据分析条件:①Gene:SCHIP1;②Cancer Type: Acute myeloid leukemia;③Analysis Type: Cancervs. Normal Analysis; ④DATA TYPE:mRNA和DATA TYPE:DNA。P<0.05认为具有统计学差异。
1.2.4利用TCGA数据库进一步挖掘SCHIP1在AML不同亚组中的表达 登陆TCGA分析网站UALCAN,输入Gene Symbol为SCHIP1,选中TCGA dataset:acute myeloid leukemia。点击“expression”根据不同亚组分析条件进行分析。
1.2.5利用GEO数据库探究SCHIP1与AML疾病预后的关系 从Oncomine数据库中获取含AML生存信息的数据集GSE编码,设置提取数据条件:①Cancer Type: acute myeloid leukemia;②Clinical Outcome:survival status。从GEO数据库中下载源数据。根据SCHIP1 mRNA表达高低分组进行生存分析。
1.2.6利用GEPIA2在线分析工具验证SCHIP1在AML中的表达情况、生存预后意义及特征遗传学异常的相关性 登陆GEPIA2网站,首先针对Oncomine数据库中荟萃分析得到的TOP20高表达分子(含SCHIP)进行预后意义预测,接着依次对SCHIP1在AML中进行“Expression Analysis”、“Survival Analysis”和“Correlation Analysis”验证。
2 结果与分析
2.1 从Oncomine数据库中筛选出目标基因SCHIP1数据
根据1.2.1中设置的筛选条件在Oncomine数据库中总计筛选到了44个AML数据集,包含3 534个样本数据。其中5个数据集共1 188个样本包含“acute myeloid leukemiavs. normal”的mRNA水平表达数据[13-16],对其进行荟萃分析得到TOP20高表达的分子,结果见图1A。排除国内外已报道的基因,最后筛选出SCHIP1基因。由图1A可见SCHIP1位于显著高表达分子第17位,中位秩次为87,P为8.26E-5。图1B为SCHIP1在常见肿瘤中的表达情况。结果表明SCHIP1在AML患者中较正常人显著高表达,差异具有统计学意义。
A:在Oncomine数据库中筛选出SCHIP1基因,1~5依次分别代表含“acute myeloid leukemiavs. normal”的5个数据集[13-16]。B:SCHIP1在常见肿瘤类型中的表达概况,图B中方格颜色由SCHIP1差异表达排名最靠前的分析集数据绘制。
2.2 SCHIP1在常见类型肿瘤样本中的表达情况
根据1.2.2设置的数据分析条件检索Oncomine中SCHIP1在所有类型肿瘤样本与正常样本的差异表达情况。如图1B,该条件下总计纳入405项研究,其中14项研究表明SCHIP1在肿瘤样本中显著高表达,并且总计23项关于Leukemia(白血病)肿瘤样本的研究中有5项研究均显示SCHIP1在肿瘤样本中较正常组织样本显著高表达[14-15,17-18]。该5项研究具体包括急性髓系白血病和急性B淋巴细胞白血病[18]。该分析横向比较了SCHIP1在所有类型肿瘤样本中的表达情况,发现SCHIP1主要在Leukemia(含AML)样本中高表达(占比5/14),且无一项关于Leukemia的研究显示SCHIP1低表达。因此,佐证了SCHIP1在AML中显著高表达的结论。
2.3 SCHIP1在AML样本中的表达分析
结果2.1中提到,对含“acute myeloid leukemiavs. normal”的5个数据集进行荟萃分析显示,SCHIP1是TOP20的显著高表达分子。对该5个数据集进一步分析显示,其中共有4个数据集包含有SCHIP1 mRNA表达数据,分别为“Haferlach Leukemia”[14]、“Stegmaier Leukemia”[15]、“Haferlach Leukemia 2”[14]和“Valk Leukemia”[16],SCHIP1在这4个数据集中的具体表达情况如图2A所示。结果显示,SCHIP1在“Haferlach Leukemia”、“Stegmaier Leukemia”和“Haferlach Leukemia 2”中均显著高表达,P值分别为2.62E-50、1.65E-4和1.23E-35,Fold Change值分别为2.133、4.909和1.875。在“Valk Leukemia”中表达无明显变化,P=0.308,Fold Change=1.231。对具有统计学意义的3个数据集进行荟萃分析,结果如图2B所示,SCHIP1中位秩次为73,P值为2.62E-50。另外,针对SCHIP1 DNA测序数据表明,SCHIP1 DNA拷贝数在AML中并未显著增加[19],结果如图2C所示。这些结果表明SCHIP1在AML中mRNA表达水平上调是转录激活所致,而非DNA拷贝数增加所致。
A:SCHIP1mRNA在3个AML数据集中均显著上调,1个数据集中无明显差异;B:对3个上调数据集中SCHIP1 mRNA水平荟萃分析结果;C:SCHIP1基因拷贝数并无变化。PBMC——正常人外周血单个核细胞;BMMC——正常人骨髓单个核细胞;AML——急性髓系白血病细胞;BMT——正常人口腔粘膜组织。
2.4 SCHIP1在AML患者中的亚组分析
根据1.2.4中设置的条件,利用TCGA在线分析工具UALCAN(http://ualcan.path.uab.edu/analysis.html),依次根据FBA分型、年龄、性别、种族、FLT3突变状态、PML/RARα融合状态和RAS活化状态等进行亚组分析。结果如图3所示,SCHIP1在M0/M1中表达较M3/M6中高,差异具有统计学意义。这表明SCHIP1在AML中的表达上调主要集中于M0/M1亚型,推测SCHIP1与髓系白细胞分化阶段相关。另外,SCHIP1在FLT3突变患者(n=50)中表达高于未突变的患者(n=116),P=1.401E-4,这表明SCHIP1的表达与FLT3突变状态相关。但SCHIP1与患者年龄、性别、种族、PML/RARα融合状态及RAS活化无关。
A~D:图示SCHIP1在不同FAB分型及患者人种、性别、年龄分组中的表达;E~F:图示SCHIP1在常见不良预后因素FLT3突变、PML/RAR融合和RAS活化状态分组中的表达;H:图示具有显著性差异(P<0.05)的亚组分析。
2.5 SCHIP1对AML患者的预后意义
根据1.2.5中设置的条件,得到含有生存信息的3个数据集GSE编码,分别为GSE12417[20]、GSE4137[21]和GSE8970[22]。其中,GSE12417含有242例正常核型的AML患者样本的芯片数据和组织类型、FAB亚型、年龄和生存期等临床资料。而GSE4173则只含有33例AML患者和2例正常人CD34+样本数据,其中AML外周血样本12例、骨髓样本22例。这33例患者均为已接受以阿糖胞苷为基础的强化诱导和巩固治疗。临床资料包括性别、年龄、ECOG PS、WBC计数、MN1表达组、FLT3突变状态、FAB分级、核型、治疗效果、总生存率和末次随访生存率。GSE8970则只包含34例AML样本数据。从GEO数据库中下载上述3个数据集源数据,依据SCHIP1 mRNA表达高低分组进行生存分析(由于GSE4137和GSE8970含病例数较少,且部分数据缺失,故只针对GSE12417的242例AML患者芯片数据进行生存分析)。结果如图4所示,在242例AML数据集中SCHIP1高表达组比SCHIP1低表达组预后更差,P<0.0001,HR=1.952(1.417-2.688),高表达SCHIP1组中位生存时间为259 d,低表达组为749 d。结果表明,SCHIP1是AML的不良预后标志物,高表达SCHIP1将比低表达SCHIP1发生疾病进展或死亡风险高1.95倍。
注:P<0.0001,HR=1.952(1.417-2.688),SCHIP1高表达组与低表达组的中位生存期分别为:259 d和749 d。
2.6 利用GEPIA2数据库对SCHIP1在AML中的表达情况及预后情况的验证结果
利用GEPIA2对上述结果进行验证。结果如图5所示,SCHIP1在AML中比正常对照组表达更高,差异具有统计学意义,结果与图1A所示一致。图5B、C为对前述从Oncomine数据库中所得的“acute myeloid leukemiavs. normal”TOP20高表达分子进行预后分析所得map图。图5B为P值未经FDR(false discovery rate)修正的预后map图,图5C为对P值经过FDR修正之后所得的map图。结果表明,SCHIP1确实在AML中具有显著的预后意义。另外,利用GEPIA2对影响AML生存预后的分子按照P值从小到大进行排序,筛选出TOP50的分子,发现SCHIP1位列第33位(P=0.000 12,未展示)。如图5D所示,SCHIP1高表达组预后较低表达组差(HR=3),与前述结果一致。同时,利用GEPIA2的相关性分析功能探究SCHIP1和FLT3及PML的相关性,结果如图5E所示,SCHIP1与FLT3及PML均为弱相关。综合以上结果,发现SCHIP1在不同数据库中均能分析得到相似的结论,即SCHIP1在AML中高表达且是疾病不良预后分子。
A:SCHIP1在AML样本(n=173)中表达高于正常对照组(n=70);B-C:对AMLvs. Normal所得的TOP20高表达分子进行预后意义分析。红色代表基因表达量与患者生存呈负相关,蓝色代表正相关,方块周框代表P<0.05,即具有统计学意义。B为P值未经FDR修正,C为经过FDR修正后的预后map图;D:SCHIP1高表达组较低表达组预后更差;E:SCHIP1的表达与FLT3及PML呈弱相关。
3 讨论
急性髓系白血病是一类起源于髓系造血祖细胞的恶性增殖性疾病,主要生物学表现为分化受阻和异常克隆,实验室表现多以一类髓系来源的异常血细胞升高伴随其他细胞比例降低为主。肿瘤细胞可侵犯外周血、骨髓和其他组织器官,临床可表现为造血抑制所致的贫血、异常出血、易感染等症状和肝脾、淋巴结等组织器官的浸润肿大,进展较快,较为凶险[3]。根据美国国家癌症研究所统计的资料,多年来白血病发病率和死亡率都高居不同人群前十位,死亡率居血液系统恶性肿瘤首位,发病率居血液系统恶性肿瘤第二位[2]。在我国,每年患病人数约4.2~5.6万,发病率约十万分之三到四。AML异质性较强,多种遗传学异常被证明是其不良预后因素,包括受体络氨酸激酶、FLT3突变、PML/RARA融合基因、RAS过度活化、RUNX1-RUNX1T1融合基因、CBFB-MYH11融合基因和NPME1突变等[23]。因此,综合考虑遗传学异常、免疫学表型和细胞形态,MICM将AML重新进行了分组。目前,AML的遗传学异常仍是致病机制、疾病诊断和预后的研究热点。基于此,本文利用生物信息学分析手段从各数据库中挖掘AML的异常表达基因,并进行临床预后分析,以期为疾病预后提供可靠的数据支撑,并有望为疾病机理提供新的研究方向。
Oncomine数据库收录了715个数据集和86 733个样本数据(含44个数据集,共3 534个样本数据),是目前收录最广泛的癌症芯片数据库,其数据均来自世界著名研究者团队在高质量专业杂志上所公布的开源数据,具有极高的可信度和准确性。TCGA数据库收录了常见类型肿瘤33种,包含2 000多例原发肿瘤和正常样本表达资料,也是较为权威的癌症公共数据库。目前,基于Oncomine数据库已经成功地挖掘出了头颈部癌症中的生物靶点TRIP13[24]、透明细胞肾细胞癌中的生物靶点NDUFA4L2[25]、胰腺癌中的生物靶点MALAT1[26]和肺腺癌中的生物靶点HOXA13[27],并均已得到实验室验证。因此,利用Oncomine和TCGA数据库信息并通过GEPIA2进行验证是一个有效挖掘AML潜在致病因子和预后分子的方法。
SCHIP1最初是通过与小鼠大脑中的肿瘤抑制因子NF2(Ⅱ型神经纤维瘤病蛋白,又叫神经鞘蛋白)相互作用而发现的。目前SCHIP1在肿瘤中的研究报道较少。有报道指出,针对SCHIP1或其亚型IQCJ-SCHIP1的长非编码RNA能够抑制结直肠癌细胞增殖,同时发现该非编码RNA在结直肠癌中表达下调[11]。另外一项研究发现,相较于卵巢癌,SCHIP1在乳腺癌血浆样本中的肽平均前体强度明显增加,提示SCHIP1在乳腺癌中具有相对特异性,同时可利用二者血浆肽差异指导临床研究和诊断[12]。在肿瘤发生相关的机制研究中发现,SCHIP1可作为Hippo信号通路的上游调节子,参与器官生长与肿瘤发生[28]。目前,尚无SCHIP1在血液系统肿瘤中的研究报道。
本研究首先从Oncomine数据库中通过荟萃分析得到AML中的TOP20差异表达基因,进一步筛选出SCHIP1基因并分析其在AML和正常人中的具体表达情况。其次,利用TCGA数据库分析SCHIP1在不同亚组中的表达情况,发现SCHIP1的表达与患者年龄、性别、种族无关,但SCHIP1在M0/M1/M2中表达较高,在M3/M6中表达较低。由于及RAS活化状态和PML/RARα融合基因表达情况及FLT3突变是目前已知的AML不良预后因素,且数据库中含有该部分数据可供分析。因此,随后进行了SCHIP1与这三个不良因素的相关性分析,结果显示SCHIP1与RAS活化状态和PML/RARα融合基因表达情况无关,但与FLT3突变弱相关。这表明SCHIP1高表达是AML的相对独立预后因子。另外,对GEO中含生存信息的AML数据集(含242例)进行分析发现:高表达SCHIP1组疾病预后显著较差,P<0.000 1,HR=1.952(1.417-2.688)。最后,利用GEPIA2数据库进行验证,也得到类似结果。综合以上结果可得出,SCHIP1在AML中显著高表达,且其高表达与疾病预后负相关。因此,SCHIP1可作为AML的新型疾病预后生物标志物和治疗靶点,有望推动AML的临床研究,最终造福患者。