基于TCGA数据库筛选结直肠肿瘤K-RAS突变相关lincRNA
2020-08-04白雪贺平
白雪,贺平
结肠直肠癌(carcinoma of colon and rectum,CRC)是肛肠外科常见的恶性肿瘤,发病率居恶性肿瘤的第3位,死亡率排名第2[1-2]。CRC的发生、发展涉及癌基因激活、肿瘤抑制基因表达缺失和甲基化等遗传改变[3]。鼠类肉瘤病毒癌基因RAS突变肿瘤占人类所有恶性肿瘤的30%,其中K-RAS作为RAS基因家族中的主要亚型,在CRC中起着重要作用[4]。长链非编码RNA(long non-coding RNA,LncRNA)是指长度>200 个核苷酸的转录本,不含蛋白质编码序列,以往被认为是“垃圾基因”[5]。基因间长链非编码RNA(intergenic long non-coding RNA,lincRNA)是最大类的LncRNA 分子。许多研究报道lincRNA具有抑制或促进肿瘤的作用[6]。近年来随着基因芯片和测序技术的应用,公共数据库中存储了大量的测序数据。整合分析这些数据可以为新研究提供有价值的线索。本研究通过分析癌症基因组图谱(the cancer genome atlas,TCGA)中有关CRC 的RNA-Seq公共数据和临床数据,鉴定K-RAS突变相关的CRC中与生存率相关的关键lincRNA,旨在为K-RAS突变CRC提供新的预后标志物。
1 资料与方法
1.1 数据来源 从TCGA 网站(http://www.tcga.org)下载有关CRC 的RNA-Seq 测序数据,包括每千碱基百万个片段(fragments per kilobase million,FPKM)、拷贝数变异(copy number variation,CNV)和临床数据[7]。RNA-Seq 数据包括585 个CRC 和51 个正常组织样本。所有肿瘤样本均为人源实体瘤。
1.2 CRC 差异表达lincRNA 筛选 提取肿瘤和正常组织样本中lincRNA 的表达水平数据,导入R3.6.1 软件后筛选CRC和正常组织样本间差异表达的lincRNA。CRC和正常组织相比,lincRNA 对数转换倍数变化|log2(FC)|≥1 且错误发现率(false discovery rate,FDR)≤0.05 定义为差异表达lincRNA。CRC 样本中每百万reads 中来自于某基因FPKM≥1 表示为lincRNA上调,<1表示为lincRNA下调[8]。
1.3K-RAS突变CRC 患者关键lincRNA 的筛选 为了检查筛选出的lincRNA 是否与K-RAS突变CRC 患者的生存率相关,分析TCGA 数据集中585 例CRC 患者的10 年和5 年总生存期(overall survival,OS)数据。将其中466 个10 年OS 数据与RNA-Seq 样本进行了匹配,将432个5年OS数据与RNASeq 样本进行匹配。采用受试者工作特征(receiver operating characteristic,ROC)曲线分析lincRNA 表达水平对K-RAS野生型或突变型5 年和10 年生存率的预测价值。其中曲线下面积(AUC)值大于0.6,且P<0.05 认定为有预测价值的lincRNA[9]。
1.4K-RAS突变相关lincRNAs对CRC患者生存率的影响分析 利用筛选到的关键lincRNA 和预后结果绘制生存曲线。通过GraphPad Prism 8 软件进行Kaplan-Meier 生存曲线和对数秩检验评估关键lincRNA表达对患者生存率的影响。
1.5 关键lincRNA 表达与临床特征的关系 收集CRC 患者的性别、年龄、临床分期、原发肿瘤(T)分期、区域淋巴结(N)分期和远处转移(M)分期等临床资料,比较不同临床特征患者关键lincRNA的表达差异。
1.6 统计学方法 用R3.6.1 软件进行差异lincRNA 基因的筛选。符合正态分布的计量资料采用均数±标准差()表示,多组间比较采用方差分析,2 组间比较采用t检验。P<0.05表示差异有统计学意义。
2 结果
2.1 在CRC中鉴定出显著失调的lincRNAs 585个癌组织和51 个正常组织样品的RNA-Seq 数据中共获得6 452个lincRNA,比较后发现125个差异表达,其中85 个表达上调,40 个表达下调(图1)。上调表达和下调表达前10个lincRNA的具体信息见表1。
Fig.1 Disordered lincRNA scatter plot in cancerous tissue图1 癌组织中差异表达的lincRNA散点图
2.2K-RAS突变CRC 生存率相关lincRNA 的筛选结果 通过ROC曲线分析,共筛选出12个在K-RAS突变CRC 患者中差异表达的lincRNA,但在K-RAS野生型中差异无统计学意义(P>0.05),见图2。其中lincRNAAL390719.2表达水平预测5 年生存率的AUC=0.627,10 年生存率的AUC=0.634,预测价值最高,故选其作为关键lincRNA。
2.3K-RAS突 变/野 生 型 中lincRNAAL390719.2表达与CRC 患者生存率的关系 生存分析结果显示,在K-RAS突变型中lincRNAAL390719.2表达与患者10 年 生 存 率(Log-rankχ2=10.740,HR=3.255,P=0.002)和5 年 生 存 率(Log-rankχ2=11.720,HR=3.142,P=0.001)有关,在K-RAS野生型中lincRNAAL390719.2表达与患者生存率无关(10年:Log-rankχ2=1.400,HR=0.822,P=0.221;5 年:Log-rankχ2=1.997,HR=0.774,P=0.086)。见图3。
Tab.1 Top 10 lincRNA messages for up-and downregulated expressions表1 上调表达和下调表达的前10个lincRNA信息
2.4 lincRNAAL390719.2表达与CRC患者临床特征的关系 lincRNAAL390719.2在不同临床分期、N分期和M分期中的表达差异有统计学意义(P<0.05),高表达lincRNAAL390719.2的患者临床分期较晚,容易出现淋巴结转移和远处转移;在不同年龄、性别和T分期中表达差异无统计学意义。见表2。
3 讨论
近年来,对CRC 形成、发展原因和潜在机制的研究越来越多,但肿瘤的发生发展是一个多因素、多阶段及多基因调控的过程,彻底了解遗传因素在CRC 发生发展中的作用,需要大规模的研究。目前大多数研究都来自单个队列研究,尚未发现CRC 的可靠生物标志物。综合生物信息学分析方法解决了这些局限,测序深度和阅读长度的快速增加大大提高了转录物重建的准确性[7,10]。
目前已有多个研究评估了K-RAS突变对CRC患者预后的影响,但结果仍存争议。Rui 等[11]的一项Meta 分析认为K-RAS基因与肿瘤分化程度和部位等无关。而另有研究认为K-RAS基因的突变与CRC 高分化程度、黏液化成分及低淋巴结转移率相关[12-13]。近年来,转录组重建技术的进步使得从短读取RNA-Seq 数据中鉴定和表征数千种新的lincRNA 成为可能[14-15]。已有证据表明lincRNA 在染色体结构、染色质调节和表观遗传修饰、转录、RNA成熟剪接和翻译等过程中发挥作用[16-17]。与其他类型的非编码RNA(noncoding RNA,ncRNA)相反,lincRNA 定位于细胞质和细胞核中,这进一步表明它们在表观遗传修饰和基因调控中的重要作用。
Fig.2 Prognostic-related key lincRNA screening in K-RAS mutant and wild-type CRC图2 K-RAS突变型和野生型CRC中与生存率相关的关键lincRNA筛选
Fig.3 Correlation between expression of lincRNA AL390719.2 and mutant/wild CRC图3 lincRNA AL390719.2的表达与K-RAS突变/野生型CRC生存率相关性分析
本研究鉴定出12 个在K-RAS突变CRC 患者中差异表达的lincRNA。这些lincRNA 在原发性CRC肿瘤中均过表达,此外,这12 个lincRNA 是K-RAS突变体中的独立预后标志物。本研究使用稳态生存模型从12个lincRNA中鉴定出1个关键的lincRNA:AL390719.2。目前有关lincRNAAL390719.2的报道较少。本研究表明lincRNAAL390719.2在CRC中高表达。此外,lincRNAAL390719.2表达与K-RAS突变的CRC 的5年和10年生存有关,但是在野生型中其表达与生存率无关。因此,lincRNAAL390719.2可能作为K-RAS突变CRC的关键预后lincRNA。
Tab.2 The relationship between the lincRNA AL390719.2 expression and clinical features in CRC patients表2 CRC患者临床特征与lincRNA AL390719.2的表达关系
Tab.2 The relationship between the lincRNA AL390719.2 expression and clinical features in CRC patients表2 CRC患者临床特征与lincRNA AL390719.2的表达关系
*P<0.05,**P<0.01
临床特征年龄(岁)≤40 40~60>60性别n lincRNA AL390719.2表达F或t 43 105 437 2.05±1.17 2.26±1.42 2.45±1.32 2.355男女287 298 2.27±1.25 2.32±1.36 0.463临床分期Ⅰ/Ⅱ期Ⅲ/Ⅳ期T分期T1/T2 T3/T4 N分期N0 N1/N2 M分期M0 M1 325 260 2.02±1.28 2.40±1.55 3.245**124 461 2.09±1.35 2.24±1.44 0.998 335 250 2.07±1.32 2.39±1.53 2.831*448 137 2.10±1.35 2.49±1.64 2.367*
综上所述,本研究发现K-RAS突变的CRC中12个lincRNAs 表达上调,其中lincRNAAL390719.2可能是K-RAS突变CRC 患者的预后标志物和治疗靶点。