APP下载

基于生物信息学分析筛选肾上腺皮质癌诊断及预后相关生物标记物

2021-06-03张德莲蔡昕添曹媛媛李南方

海南医学院学报 2021年10期
关键词:皮质生存率编码

张德莲,蔡昕添,曹媛媛,洪 静,朱 晴,吴 婷,李南方

(新疆维吾尔自治区人民医院高血压诊疗研究中心,新疆高血压研究所,国家卫生健康委员会高血压诊疗研究重点实验室,新疆 乌鲁木齐830000)

肾上腺皮质癌(adrenocortical carcinoma,ACC)是一种起源于肾上腺皮质的恶性肿瘤,具有极低的发病率和极高的死亡率[1]。在北美和中欧地区,成人ACC的年发病率为每百万人0.7~2.0例,发病年龄主要集中在40~60岁[2]。ACC恶性程度极高,其中位总体生存期为3~4年。完全手术切除肿瘤是ACC的主要治疗手段[3]。然而,即便是I期肿瘤,切除后累积复发率仍然很高(30%~75%),且中、晚期患者往往已丧失手术指征。目前对于无法进行手术的ACC患者,指南多建议使用米诺坦和/或铂类联合化疗的方式进行全身治疗,但此方案对患者5年生存率的改善较为有限,尚存较多争议。除此之外,由于ACC是一种罕见的肿瘤,成人的ACC尤其难以诊断[4,5]。

在过去的十年里,基因组学技术的发展使研究人员能够在泛基因组水平上研究多种类型癌症的基因表达和表观遗传学改变。生物信息学分析方法的迅速发展为基因组学结果的解读带来了全新的思路。本研究通过利用在线生物信息学分析工具GEPIA、UALCAN和GEO数据库检索获得的基因芯片筛选并验证了ACC诊断和预后的关键基因,以期为进一步探讨ACC发生、发展的遗传分子机制和发掘治疗潜在靶点提供理论基础。

1 材料与方法

1.1 数据来源

数据来源包括GEPIA数据平台[6]、GEO数据库[7]及UALCAN数据平台[8]。其中GEPIA数据平台包含77例ACC患者和128例健康成年人的肾上腺皮质组织测序数据;来源于GEO数据库的GSE33371芯 片[9][GPL 570(HG-U133_Plus_2)Affymetrix Human Genome U 133 Plus 2.0 Array]中包含33例肾上腺皮质癌、22例肾上腺皮质腺瘤和10例正常成人肾上腺皮质的组织测序数据;UALCAN数据平台包含79例ACC患者的肾上腺皮质组织测序数据。

1.2 方法

1.2.1 差异表达基因的筛选 使用GEPIA数据平台提供的在线分析工具对77例ACC患者和128例正常肾上腺皮质组织的测序数据进行差异表达基因筛选。使用limma法进行筛选,筛选标准包括:|Log2FC|Cutoff≥2、Q-value Cutoff<0.01。

1.2.2 生存相关基因的筛选 利用GEPIA数据平台提供的在线分析工具分别采用总生存率与无病生存率的方法对差异表达基因进行批量生存分析,分别获得两种方法计算所得HR值排名前100个基因。采用韦恩图取交集的方法最终获得对总生存率与无病生存率均发挥关键作用的核心基因。

1.2.3 生存相关基因与病理分期的关系 利用GEPIA数据平台提供的“Pathological Stage Plot”在线分析功能探究上述生存最相关基因与ACC病理分期的关系。统计学方法采用单向方差分析,P<0.05则视为差异具有统计学意义。

1.2.4 生存相关基因的验证 利用UALCAN数据分析平台对上述筛选获得的生存相关基因进行再次验证并绘制Kaplan-Meier生存曲线,分析上述筛选获得的生存相关基因表达高低与ACC预后间的关系。

1.2.5 生存相关基因诊断价值的评价 本研究利用GEO数据库的GSE33371芯片数据集对上述生存相关基因的诊断价值进行了评价。本分析利用R语言(3.6.3版)中的pROC包绘制ROC曲线并通过计算ROC曲线下面积(AUC)来评价每一个生存相关基因的诊断性能。当AUC值大于0.7时,可视为该基因具有优良的诊断性能。

2 结果

2.1 ACC风险相关DEGs筛选的结果

采用limma法进行差异表达分析,最终获得514个差异表达的基因。其中94个基因在ACC中低表达,420个基因高表达,差异表达基因与染色体的关系见图1。

图1 差异表达基因及其染色体分布图Fig 1 Differentially expressed genes and their chromosomal distribution

2.2 生存相关基因的筛选

利用GEPIA数据平台提供的在线分析工具对差异表达基因进行批量生存分析,分别获得与总生存率与无病生存率最相关的前100个基因。采用韦恩图取交集的方法最终获得对总生存率与无病生存率均发挥关键作用的13个核心基因,见图2。上述13个核心基 因包括:TP73、SNHG1、PDE6D、GPC2、SUV39H2、HELLS、CLK2、COPS7B、CEP164、SS18、RGL2、TET1。

2.3 生存相关基因与病理分期的关系

利用GEPIA数据平台提供的在线分析功能探究上述生存相关基因与ACC病理分期的关系。上述基因表达水平与ACC病理分期之间关系见图3。其 中TP73、SNHG1、PDE6D、GPC2、SUV 39H 2、HELLS、CLK 2、COPS7B和CEP164基因的表达水平与ACC病理分期间的关系具有统计学意义。而SS18、RGL 2和TET 1基因与ACC病理分期之间不存在显著关系。

2.4 生存相关基因的验证

图2 韦恩图Fig 2 Venn diagram

利用UALCAN数据分析平台对TP73、SNHG1、PDE6D、GPC2、SUV 39H 2、HELLS、CLK 2、COPS7B和CEP164基因的表达水平与ACC患者生存率间的关系进行再次验证并绘制Kaplan-Meier生存曲线。UALCAN数据分析结果再次证实TP73、SNHG1、PDE6D、GPC2、SUV 39H 2、HELLS、CLK 2、COPS7B和CEP164基因的高表达组与低表 达组间生存状况存在显著差异,见图4。

图3 基因表达水平与病理分期关系的小提琴图Fig 3 Violin plot of relationship between gene expression level and pathological stage

图4 ACC生存相关核心基因的Kaplan-Meier生存曲线图Fig 4 Kaplan-Meier survival curve of ACC survival-related core genes

2.5 生存相关基因诊断价值的评价

为探究上述9个生存相关核心基因的对ACC患者与非ACC患者的区分能力,本研究利用GSE33371芯片数据集对上述核心基因进行了ROC分析。ROC分析结果显示HELLS基因(AUC=0.961)、COPS7B基因(AUC=0.943)、TP73基因(AUC=0.933)、PDE6D基 因(AUC=0.916)、CLK 2基因(AUC=0.896)、CEP164基因(AUC=0.873)、SUV 39H 2基因(AUC=0.852)、SNHG1基因(AUC=0.771)和GPC2基 因(AUC=0.750)AUC值均>0.7,提示上述基因在ACC诊断中具有较好的鉴别价值,见图5。

图5 9个生存相关基因鉴别ACC的ROC曲线Fig 5 ROC of 9 survival related genes for identification of ACC

3 讨论

大量流行病学研究表明肾上腺肿瘤是一类较为常见的肿瘤,大多为良性、无功能的肾上腺皮质腺瘤。然而肾上腺皮质癌却是一种极其罕见的恶性肿瘤[10]。由于ACC的罕见性和复杂多变的临床表现,导致其早期诊断极其困难[11]。此外,ACC具有侵袭性极强、易转移和易复发等特点。故准确评估患者预后、及时给予有效治疗对改善患者生存情况具有至关重要的意义。本研究从基因组学数据入手,结合生物信息学分析方法,寻找ACC潜在的诊断、预后标记物,探索新的治疗靶点,以便积极、有效地改善患者预后。

TP73基因是一种蛋白质编码基因,其编码蛋白质属于p53肿瘤抑制蛋白家族成员,因此TP73基因与p53基因具极强的同源性[12]。人TP73基因可通过选择性剪接和/或使用选择性启动子而产生蛋白质的不同亚型或转录变体[13]。TP73转录变体有两种主要形式,即具有转录活性的TAp73和非活性的DNp73亚型,其中含有反式激活结构域的亚型是促凋亡的,而氨基末端截短的DNp73则是一个抗凋亡基因,其氨基末端截短也阻断了p53和反式激活p73亚型的功能[14]。由于DNp73的作用超过了全段TAp73的积极作用,因此它在癌症发病中具有决定性的作用[13,15]。有研究指出,TP73在许多癌症的预后中起着至关重要的作用,DNp73与TAp73的失衡是导致肿瘤发生和对化疗耐药的重要因素[15]。SUV 39H 2基因也是一种蛋白质编码基因,其主要编码产物为组蛋白甲基转移酶[16]。尽管SUV 39H 2编码蛋白质被确定为一种胚胎特异性蛋白质,并仅产生于健康成年人的睾丸之中,但它在诸如白血病、淋巴瘤、肺癌、乳腺癌、结直肠癌、胃癌和肝细胞癌等癌症组织中普遍过表达[17]。越来越多的证据表明SUV 39H2基因通过启动子三甲基化等过程促进癌变形成并参与恶性肿瘤的侵袭与转移[16,18]。SNHG1基因是一种RNA基因,属于lncRNA类。该基因在腺体肿瘤中表达普遍上调,并被认为可通过下调抑癌基因p53的表达间接促进细胞周期进程并抑制细胞凋亡,从而诱导癌症的发展[19]。越来越多研究指出该基因的过表达会极大地增强癌细胞的增殖、侵袭和迁移能力,并且在非小细胞肺癌、肝细胞癌和宫颈癌等恶性肿瘤中SNHG1基因表达水平可被视为是一种新的预后评估生物标志物[20]。PDE6D基因主要编码杆特异性光感受器磷酸二酯酶的δ亚基,主要参与生物学途径包括视网膜杆的视觉周期和睫状体周围膜的物质运输,与该基因有关的基因本体论注释包括Rab GTPase结合和GTPase抑制剂活性[21]。目前尚未发现PDE6D基因与肿瘤的相关研究。HELLS基因是一种由RB/E2F途径转录控制的基因,其主要编码一种染色质重塑蛋白(淋巴样特异性解旋酶),该蛋白质被认为是恶性肿瘤中的表观遗传性状改变和肿瘤生存所必需的物质[22]。HELLS基因主要参与了DNA链的分离,并对DNA的复制、转录和修复具有重要意义。有研究发现HELLS基因与转录因子E2F3存在相互作用,并在多种恶性肿瘤(前列腺癌、膀胱癌、肺癌等)中过度表达[23]。HELLS在多种恶性肿瘤癌细胞中的表达水平与肿瘤的侵袭性密切相关,这意味着该基因可能是一个有前途的治疗靶点[24]。GPC2基因编码蛋白质属于磷脂酰肌醇聚糖家族的成员,可编码具有硫酸乙酰肝素链的蛋白聚糖,并通过糖基磷脂酰肌醇锚连接到细胞表面[25]。GPC2基因具有调节细胞形态和细胞行为(包括生存、分化)的能力。因此,在多种人类癌症中GPC2基因常存在过表达情况,异常表达的GPC2基因主要通过Wnt/β-catenin、Wnt/JNK等信号传导途径来促进肿瘤细胞的增殖和侵袭[26]。COPS7B基因主要编码COP9信号体复合物的7B亚基,COP9信号体复合物可通过介导SCF型E3连接酶复合物的cullin亚基的腺苷酸化,是泛素共轭途径的重要调节剂,从而降低SCF型复合物的泛素连接酶活性[27]。该复合物还可能通过与CK2和PKD激酶结合从而参与p53/TP53、JUN、ITPK1和IRF8/ICSBP等信号传导途径的磷酸化[28]。CLK2基因主要编码一种双重特异性蛋白激酶,该蛋白激酶可使丝氨酸/苏氨酸和含酪氨酸的底物磷酸化,其主要参与的生物学通路包括mRNA剪接通路[29]。与该基因相关的基因本体论注释包括转移酶活性、转移含磷基团和蛋白质酪氨酸激酶活性[30]。CEP164基因主要参与编码微管组织、DNA损伤反应和染色体分离的中心体蛋白[31]。最新研究指出CEP164基因是DNA损伤激活的ATR/ATM信号级联反应中的关键参与者,并且能在染色体分离过程中发挥关键作用,还可通过调节MDC1、RPA和CHEK1充当维持基因组稳定性所必须的介质[31]。

综上所述,本研究通过利用GEPIA和UALCAN在线分析工具和GEO数据库检索获得的基因芯片,结合生物信息学的方法分析并验证了参与ACC发生、发展以及影响预后的差异表达基因。最终获得TP73、SNHG1、PDE6D、GPC2、SUV 39H 2、HELLS、CLK 2、COPS7B和CEP1649个与ACC诊断及发病风险相关的基因。上述基因既可用于评估ACC患者的预后情况又可用于ACC患者的筛选诊断,为探讨ACC发生、发展的分子机制及发掘ACC治疗的潜在靶点提供了生物信息学的理论支持。

猜你喜欢

皮质生存率编码
基于基因组学数据分析构建肾上腺皮质癌预后模型
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
皮质褶皱
迎秋
《全元诗》未编码疑难字考辨十五则
“五年生存率”不等于只能活五年
子带编码在图像压缩编码中的应用
人工智能助力卵巢癌生存率预测
Genome and healthcare
日本首次公布本国居民癌症三年生存率