APP下载

基于高通量靶向测序技术的肿瘤原发部位差异研究

2023-07-24鲁四海戴鹏高杨栓盈

关键词:分组位点测序

罗 祥,鲁四海,戴鹏高,杨栓盈

(1.西安交通大学 第二附属医院呼吸科,陕西 西安 710004;2.西北大学 生命科学学院,陕西 西安 710069)

非小细胞肺癌是我国发病率、致死率较高的恶性肿瘤之一[1],其病因与致病机制尚不清楚。研究显示,非小细胞肺癌患者的临床治疗响应及预后等差异化临床表现可能与肺内原发灶分布位置密切相关[2-4]。目前,研究发现不同生理部位的结构与功能、局部血液供给等均被证实存在显著性差异[5-7]。同时,也探讨了不同病灶部位中分子遗传学水平如基因突变类型、变异频率及表达水平的差异化特征,以及运用基因突变谱分析以解决同步性非小细胞肺癌与肺内转移扩散辨别诊断问题[8-9],但是尚无一致性结论,且国内缺乏多病灶部位、大样本量的临床研究。

随着高通量测序技术的不断发展,靶向重测序技术已经成为挖掘鉴定肿瘤驱动基因变异及药物靶点基因的有效工具[10]。本研究通过肿瘤组织靶向测序技术与肿瘤大数据挖掘相结合,旨在探究不同肺叶部位以及左侧肺、右侧肺等肿瘤起源差异的肺癌基因组突变谱特征及功能学影响,进一步揭示导致原发部位不同的肺癌患者临床表现差异产生的潜在分子机制,以期对临床制定个体化诊疗策略、改善患者临床结局提供更多的实验数据与理论支撑。

1 材料与方法

1.1 TCGA数据获取与筛选

本研究中不同叶分组测序数据及临床信息来源于TCGA数据库(the cancer genome atlas program,TCGA),此数据库储存了大量的肿瘤突变数据集以及临床资料。下载获取TCGA数据库中502例非小细胞肺腺癌患者的突变数据与临床信息数据,利用python软件对突变数据进行获取并将其与临床信息数据进行匹配与筛选。依据临床诊断信息,将其分为上、中、下叶肺癌组(叶分组)。

1.2 入组患者筛选

基于不同肺叶、不同分布侧原发性肺癌基因突变特征分析的研究思路,临床样本用以补充TCGA数据库缺失的左、右侧肺癌突变数据(侧分组)。收集2018年9月至2021年12月在铜川市人民医院就诊、未经治疗、经病理学明确诊断且无合并其他肿瘤的62例原发性肺癌患者的新鲜肿瘤组织样本。入组患者在被采集组织样本前均已被告知并签署知情同意书,同意收集其临床信息。

1.3 DNA提取与纯化

采集符合纳入标准的肺癌新鲜组织样本,置于组织保存液中低温暂存。采集后2小时内,依据PureLinkTM基因组DNA小量提取试剂盒进行基因组DNA提取与纯化,Nanodrop测定吸光度值,A260/A280接近1.8视为合格。

1.4 靶基因高通量测序

经检测质量合格的DNA样本送往陕西佰美基因股份有限公司进行文库构建,并采用Ilumina测序平台针对52个肺癌热点基因(AKT1、ALK、APC、ARAF、ATM、BCL2L11、BRAF、BRCA1、BRCA2、CDKN2A、CHEK2、CTNNB1、DDR2、EGFR、EPCAM、ERBB2、ERCC1、FBXW7、FGFR1、FGFR2、FGFR3、IDH1、IGF1R、JAK2、KDR、KIT、KRAS、MAP2K1、MAP2K2、MET、MLH1、MSH2、MSH6、MTOR、NF1、NRAS、NTRK1、PIK3CA、PIK3R1、PMS2、POLE、PTEN、RET、ROS1、SMARCA4、SMARCB1、STK11、TERT、TP53、TSC1、TSC2、TWIST1)的靶向深度测序,上述基因均为FDA批准的靶向药物或可用于评估术前术后化疗药效及毒副作用的相关基因,各样本测得数据量约为1 GB。

1.5 生物信息学分析

基于Linux操作系统对所收集肿瘤组织样本的测序数据进行了数据质量控制、突变信息挖掘及功能注释和分析。Fastx toolkit(http:∥hannonlab.cshl.edu/fastx-toolkit/index.html)用于全外显子测序数据的质量验证和测序数据预处理。GATK(https:∥gatk.broadinstitute.org)软件用于各样本中突变检测及注释,突变报告标准为突变丰度≥0.1%。R脚本用于高频突变基因(突变频率排位前10)、位点以及非公有突变基因筛选。基因变异通常会导致蛋白表达或功能上的变化,从而对细胞内部的生物学过程产生影响,DAVID(https:∥david.ncifcrf.gov/)数据库被用来进行突变特征基因的通路分析及基因功能注释。

1.6 数据统计分析

各组样本中突变检出率与年龄关联性利用线性回归分析等方法实现。不同分组间样本量、突变频数分布、列联表等数据间差异显著性检验采用Mann Whitney方法、Fisher精确检验或χ2。单因素方差分析用于多组数据间差异显著性分析。各组间突变基因及位点差异聚类分析、韦恩图、信号通路等分析及绘图由ggplot2、heatmap2和Venn等R(https:∥www.r-project.org/)软件包完成。显著性判定水平为p<0.05。

2 结果与分析

2.1 入组患者临床特征分析

2.1.1 叶分组

上、中、下叶肺癌组中共纳入样本502例,全部样本中均检出突变(502/502)。如表1所示,从各组收录样本来看,上叶肺癌组占比最高(60.1%),各组样本量均随年龄增高呈增多趋势,但各组样本在年龄分布上不存在显著性差异(p=0.284 8),且在性别分类上各组间也不存在显著性差异(p=0.454 1)。在突变导致氨基酸变化分析中发现,叶分组各组均以错义突变为主,但不同分组间未发现显著性差异(p=0.162 9)。

表1 不同原发部位肺癌患者临床信息及总突变频率统计表

2.1.2 侧分组

左、右侧肺癌组共纳入样本62例,91.9%(57/62)样本均可检出突变,其中5例无突变样本中2例来自左侧肺癌组,其余3例为右侧肺癌组。收录样本量变化趋势与叶分组类似,但左、右侧肺癌组中样本的性别组成有明显差异(p=0.018 3)。突变引起的氨基酸改变分析结果显示左、右侧组中也均以错义突变为主,且各分组间未发现显著差异(双侧组:p=0.108 1)(见表1)。

2.2 肿瘤突变基因及位点分布差异分析

2.2.1 叶分组

叶分组中各组突变基因的检出种类与频率分布差异分析结果显示〔见图1(a)〕,上叶肺癌组突变基因种类覆盖率为100%(52/52),中叶、下叶肺癌组突变基因覆盖率分别为88.5%(46/52)和44.2%(23/52)。突变基因特征分析结果发现,相较于下叶肺癌组,中叶肺癌组未能检出AKT1、ARAF、BCL2L11、CDKN2A、CHEK2、DDR2、EPCAM、ERBB2、ERCC1、FGFR2、FGFR3、JAK2、KIT、MAP2K1、MAP2K2、MLH1、MSH2、MSH6、MTOR、NRAS、NTRK1、PMS2、PTEN、RET、SMARCB1、TERT、TSC1、TSC2、TWIST1等23个突变基因,约占总体的44.2%。相较于上叶肺癌组,下叶肺癌组未能于EPCAM、ERCC1、MAP2K2、NRAS、NTRK1、TERT等6个基因中检出突变。对突变位点水平的分析结果显示〔见图1(c)〕,共同检出的突变位点远低于非共有突变位点,其中上、中、下叶肺癌组分别检出727种(727/800,90.9%)、32种(32/46,69.6%)、269种(269/341,78.9%)特有突变位点。在各样本可检出突变位点数量中,叶分组均表现为双突变类型检出频率最高,其次为单一突变类型或3种复合突变类型。此外,本研究分析了不同分组中各样本突变位点检出频率与年龄、性别等临床特征之间的关联性,仅发现在数据库来源的数据集中突变频率与年龄分布存在显著负相关(p=0.019 6)。

(a)各组间突变基因一致性分析;(b)各组间突变位点一致性分析;(c)各组间单突变、双突变、多突变样本分布分析;(d)叶分组中各样本突变种类数与年龄的关联性分析

2.2.2 侧分组

侧分组中各组突变基因的检出种类与频率分布差异分析结果显示〔见图1(b)〕,侧分组中左、右侧肺癌组检出突变基因覆盖率仅为23.1%(12/52)和34.6%(18/52),非共有突变基因检出率分别为7.7%(BCL2L11、KDR、MSH6、PIK3R1,4/52)、19.2%(ALK、APC、BRCA2、CHEK2、ERBB2、FGFR2、NF1、PMS2、PTEN、RET,10/52),检出的突变基因种类明显低于叶分组来源的样本组。对突变位点水平的分析结果显示〔见图1(c)〕,左、右侧肺癌组中分别检出34种(34/42,80.9%)、52种(52/60,86.7%)。在各样本中可检出突变位点数量中,各组均表现为双突变类型检出频率最高,其次为单一突变类型或3种复合突变类型,基本与叶分组各组表现相近。但侧分组中未发现各组样本突变频率与年龄分布、性别存在关联性。

2.3 高频突变基因及位点差异分析

2.3.1 叶分组

为了进一步分析导致不同原发部位肺癌临床表现差异的潜在分子机制,本研究还分析了高频突变基因及位点分布差异。由图2(a)可知,叶分组中上、下叶肺癌组总体突变率最高的基因均为TP53(154/778,19.79% vs. 66/358,18.44%)。但中叶肺癌组中以KRAS(10/44,22.73%)占比最高,TP53(7/44,15.91%)次之。各组间高频突变基因突变率分布差异显著(p<0.000 1)。对高频突变位点分析结果显示〔见图2(b)〕,叶分组KRAS p.G12C突变频率最高,其在上、中、下叶肺癌组中检出频率分别为8.94%(27/302)、28.57%(6/21)和11.73%(21/179)。

2.3.2 侧分组

左、右侧肺癌组中总体突变率最高的基因分别为TP53(17/41,41.46%)和EGFR(24/73,32.88%)。各分组间高频突变基因突变率分布差异不显著(p=0.535 7),且各组间差异均与各组样本量无关(p=0.70)〔见图2(a)〕。两组位点水平分析结果显示〔见图2(b)〕,左、右侧肺癌组中以EGFR p.L858R和EGFR-p.E746-A750del突变频率居首,分别为30.77%(8/26)和13.89%(5/36)。侧分组中EGFR的突变率(左侧:29.27%,右侧:32.88%)显著低于叶分组(上叶:5.66%,中叶:2.27%,下叶:7.26%)(p=0.001 5)。此外,侧分组与叶分组中突变位点检出频率差异明显,仅EGFR p.L858R和PIK3CA p.E545K等2个基因同时分布于叶分组、侧分组高频突变基因中。

2.4 非共有突变基因分子功能与通路富集分析

2.4.1 叶分组

功能预测及通路富集结果显示〔见图3(a)、图3(c)〕,上、中、下叶肺癌组之间EPCAM、ERCC1、MAP2K2、NRAS、NTRK1、TERT 等6种非共有突变基因,可能与中心碳代谢(central carbon metabolism in cancer)、EGFR激酶抑制剂抵抗(EGFR tyrosine kinase inhibitor resistance)、PI3K-Akt信号通路(PI3K-Akt signaling pathway)、MAPK信号通路(MAPK signaling pathway)、内分泌抵抗(endocrine resistance)及药物抵抗等信号通路调控相关,生物学功能富集的5个生物学过程均与小RNA表达调控相关。

(a)、(c)叶分组非共有突变基因通路及功能富集结果;(b)、(d)侧分组非共有突变基因通路及功能富集结果

2.4.2 侧分组

左、右侧肺癌组中共检出BCL2L11、KDR、MSH6、PIK3R1、ALK、APC、BRCA2、CHEK2、ERBB2、FGFR2、NF1、PMS2、PTEN、RET等14个非共有突变基因,其通路分析结果〔见图3(b)〕与上、中、下叶肺癌组特有基因富集结果高度相似,均表明中心碳代谢(central carbon metabolism in cancer)、EGFR激酶抑制剂抵抗(EGFR tyrosine kinase inhibitor resistance)等多种通路调控与之相关,但左、右侧肺癌发生过程还可能与PD-L1表达调控通路(PD-L1 expression and PD-1 checkpoint pathway in cancer)、钙离子信号通路(calcium signaling pathway)、错配修复(mismatch repair)等通路调控有关。此外,其生物学功能富集结果说明〔见图3(d)〕,左、右侧肺癌组中存在特征基因与凋亡信号通路(intrinsic apoptotic signaling pathway、extrinsic apoptotic signaling pathway)、蛋白酶B信号通路、PI3K介导的信号通路、上皮细胞增殖调控等。

3 综合分析及结论

目前,非小细胞肺癌仍是全球临床发病率与致死率较高的恶性肿瘤之一,对于肿瘤源性突变特征研究,将有利于进一步深入理解其在发生发展以及治疗响应等临床表现差异的潜在分子机制。研究报道,新辅助治疗后右肺切除术的肺癌患者在手术期死亡率显著高于左侧切除术患者[11],提示肺癌患者全肺切除术后生存期与肺内原发灶起源位置密切相关。此外,原发性肺癌的位置也与特定的淋巴结转移有关。研究发现,与肺中叶、肺下叶非小细胞肺癌患者相比,肺上叶癌患者更易发生纵膈淋巴结转移,且其转移多局限于上纵隔区域淋巴结,而肺中叶、肺下叶癌则易出现上、下纵隔跳跃式淋巴结转移[2-3]。左、右侧原发性肺癌患者术后治疗响应及预后等也存在显著性差异,原发灶起源部位也能被用于评估肺切除术后辅助治疗响应的预测指标。有研究指出,左侧肺切除术患者癌症特异性生存率与总生存率均明显优于右侧肺切除术患者,且辅助治疗显著延长左侧肺癌切除术后患者生存期,但与右侧肺癌切除术生存期无相关性[4]。在ALK重排的肺癌样本中,右侧肺癌患者样本中检出更高水平的EGFR p.L858R突变。然而,仍有部分研究指出I-IIIA期左侧和右侧非小细胞肺癌的预后差异不显著,原发肿瘤分布侧不应作为一种预后因素[12]。不同原发部位肿瘤临床表现差异研究尚无一致性结论。此外,部分学者认为可能由于不同肺叶或左、右侧肺部生理结构及生理功能、血液供给以及肿瘤侵袭途径、基因变异等导致了位置特异性的肿瘤生物学特征变化[2-6,13],但具体机制尚不清楚。因此,本研究通过靶向测序技术对62例非小细胞肺癌患者新鲜组织样本进行分析,并通过大数据挖掘502例TCGA非小细胞肺腺癌与之整合分析,从而进一步揭示不同肺叶及分布侧原发性非小细胞肺癌肿瘤源性突变特征及生物学功能影响,为探究非小细胞肺癌致病机制提供新的思路。

非小细胞肺癌的发生伴有多种遗传和表观遗传学改变,且其变化特征可能与生理结构或组织学类型上的差异有关。本研究纳入的样本中仅有5例未检出突变(0.88%,5/564)。不同叶分组与左、右侧肺癌组样本均表现为共有突变位点远低于非共有突变位点,其中共有突变主要来源于TP53、EGFR、KRAS等基因,与其他学者研究结果相似[14-15]。进一步分析显示不同原发部位样本间存在多种特有突变基因(EPCAM、ERCC1等),且高频突变基因如TP53、KRAS等在各组中的突变频率存在差异,但EGFR在TCGA来源的数据集中突变频率(2.27%~7.26%)显著低于新纳入临床标本水平(29.27%~32.88%),这可能与数据集样本来源多为非亚裔人群有关,以往研究中发现亚裔肺癌患者中具有更高水平的突变频率[16-17]。KRAS突变的频率因不同种族而异,在以往的报道中非小细胞肺癌患者的检出率为19%~30%不等[18]。本研究中KRAS的突变频率仅为10.8% (54/502),这与前期研究报道如Yang等人也发现患者组(53/1 033,5.13%)和腺癌患者组(45/759人,5.93%)的KRAS突变率较低的结论基本一致[7],即亚洲人表现出较低的KRAS突变频率。此外,在Liu等人利用二代测序技术对17 113个非小细胞肺癌样本的测序分析中发现27%的样本携带KRAS突变,其中最常见突变为 p.G12C突变(40%),其次是 p.G12V(19%)和 p.G12D(15%)[19]。此结果在本研究中也有相似发现,且深入分析还发现不同叶分组中KRAS p.G12C检出率仍为最高,但相较之下,中叶肺癌组中检出率(28.57%)明显高于其他两组(8.94%和11.73%)。然而,左、右侧肺癌组中则分别以EGFR p.L858R、EGFR p.E746-A750del(19号外显子缺失突变)为最多检出的突变类型,这两种突变的检出情况与Yang等人的研究发现携带EGFR p.L858R和19号外显子缺失突变更容易分布在右侧的结果有所不同[7]。

为了评估不同肺叶非小细胞肺癌患者特征突变基因的潜在功能。 本研究通过分别筛选出上、 中、 下叶肺癌组间以及左、 右侧肺癌组间的特征突变基因, 并对特征突变基因可能参与的信号调控、 生物学过程等功能富集分析, 研究发现叶分组特征基因主要参与了癌症中心碳代谢以及药物抵抗等通路, 而侧分组特征基因主要参与了错配修复及凋亡调控等通路。 此外, 与以往的研究结果不同[7, 20],本研究中肺内不同原发部位总突变检出量及各基因突变频率分布与不同临床特征(年龄、性别)之间无相关性,提示纳入的患者临床特征差异对本研究分组影响较小。因此,上述结果既能说明病灶起源及研究分组不同均会对结果产生显著影响,又提示原发部位不同的肺癌可能具有不同的基因突变特征。但由于上述特征基因为低频突变基因(伴随突变),其通过哪些调控机制促进不同原发部位肺癌发生发展,目前相关研究报道较少,仍有许多值得研究和思考的问题。

综上,本研究采用组织靶基因高通量测序技术与肿瘤大数据挖掘相结合的方法,探讨了564例肺内原发部位不同的肺癌患者突变特征及功能学影响,筛选并分析了位置特异性突变候选基因及其可能参与的信号通路及生物学过程,这将对非小细胞肺癌致病机制及原发部位辅助诊断具有重要意义。然而,由于本研究未考虑种族、地域等可能会引起遗传背景差异的因素,且缺乏纳入研究个体治疗响应及生存期等数据,仍需进行更加深入地研究,以期为临床医生诊疗决策过程提供更精准的辅助参考工具,帮助延长非小细胞肺癌患者生存期并改善其生存质量。

猜你喜欢

分组位点测序
杰 Sir 带你认识宏基因二代测序(mNGS)
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
分组搭配
二项式通项公式在遗传学计算中的运用*
怎么分组
分组
基因捕获测序诊断血癌
单细胞测序技术研究进展