APP下载

利用生物信息学分析方法识别子宫颈癌患者预后相关长链非编码RNA

2020-12-02齐丽荣何洪敏

临床与实验病理学杂志 2020年10期
关键词:子宫颈癌测序通路

张 妍,李 娟,齐丽荣,何洪敏

子宫颈癌是女性常见的三大肿瘤之一。WHO提供的数据显示全球范围内每年可以确诊的子宫颈癌病例达50万,而中国是子宫颈癌高发国家,每年确诊的子宫颈癌患者达13.5万人,占全球确诊人数的25%。近年来,年轻妇女子宫颈癌的发病率呈上升趋势[1-2]。积极探索子宫颈癌发生、发展机制及筛选预后相关分子标志物对攻克子宫颈癌具有积极的意义。lncRNA是一类长度大于200 nt的非编码RNA,广泛存在于真核细胞,随着高通量测序技术的发展,人们逐渐发现lncRNA在各种类型肿瘤的发生、发展过程中起重要作用,但lncRNA与子宫颈癌的相关性研究目前仍处于初始阶段。本实验主要基于肿瘤数据库数据,利用生物信息学分析方法,识别子宫颈癌预后相关的lncRNA。

1 材料与方法

1.1 数据获取及差异lncRNA的筛选子宫颈癌转录组测序数据和临床数据矩阵文件从TCGA数据库官网直接下载,测序数据类型为原始数据,数据下载后整理出具有完整临床信息的306例子宫颈癌样本及3例配对癌旁样本信息,本实验数据基于数据库不需伦理委员会批准,使用R软件中的limma包筛选差异的lncRNA。

1.2 生存分析首先利用R软件进行Kaplan-Meier生存分析和单因素Cox分析,获取具有统计学意义(P<0.05)的lncRNA,随后将筛选出的预后相关基因进行多因素回归分析,以风险值=∑(基因系数×基因表达量)构建风险模型,并分析模型的可靠性,最终确定出与子宫颈癌预后相关的lncRNA。

1.3 lncRNA靶基因的确定本实验采用R软件中的Cor函数通过共表达方式进行预后lncRNA靶基因的筛选。

1.4 lncRNA靶基因功能注释和通路分析分别加载R软件包“clusterProfiler”、“org.Hs.eg.db”、“enrichplot”和“ggplot2”进行对lncRNA靶基因的GO和KEGG富集分析,GO与KEGG富集结果以气泡图和列表形式呈现。

1.5 统计学分析所有统计分析均使用R(v.3.4.3)进行,初步筛选差异lncRNA条件为FDR<0.05且差异倍数变化>2(|logFC|>1),生存相关的预后分析涉及统计学意义的均选择P<0.05,在寻找子宫颈癌预后相关lncRNA靶基因过程中实验选用的共表达Pearsson相关系数绝对值>0.4且P<0.05,最后在进行GO与KEGG统计学分析过程中FDR<0.05为差异有统计学意义。

2 结果

2.1 子宫颈癌与癌旁组织差异lncRNA初步筛选对TCGA数据库中306例子宫颈癌样本和3例癌旁样本进行差异分析,以foldchange(差异倍数)绝对值>2倍且FDR值<0.05为界限,初步筛选共发现差异lncRNA 292个,其中上调的lncRNA有179个,下调的lncRNA有113个(图1)。

图1 差异lncRNA火山图:红色表示上调的lncRNA,绿色表示下调的lncRNA

2.2 差异lncRNA预后相关分析分别对上述292个差异lncRNA进行Kaplan-Meier生存分析与单因素Cox分析,然后取两者交集,最终筛选出8个显著差异的lncRNA,结果详见表1和图2。

图2 8个显著差异lncRNA的Kaplan-Meier生存分析及其与单因素Cox分析交集韦恩图:A~H.lncRNA的Kaplan-Meier生存分析结果;I.lncRNA的Kaplan-Meier生存分析与单因素Cox分析交集韦恩图

表1 Kaplan-Meier与单因素Cox生存分析筛选出的8个显著差异的lncRNA

2.3 构建7个lncRNA的多因素Cox模型对上述筛选的8个lncRNA进行多因素Cox分析,构建生存模型(图3A),模型可靠性采用绘制ROC曲线形式呈现(图3B)。根据风险值将样本分为高风险与低风险两组,进行生存相关分析(图3C)。

图3 7个lncRNA构建的预后模型:A.7个lncRNA构建的预测模型以森林图形式呈现,*P<0.05,**P<0.01;B.评估模型可靠性的ROC曲线图;C.风险值相关预后生存分析

2.4 lncRNA靶基因功能注释利用生物信息学分析方法首先筛选多因素Cox分析构建的基因模型中差异有显著性的4个lncRNA,即LINC00908、LINC01305、CASC15和DLEU1的共表达靶基因,筛选条件为Pearsson相关系数绝对值>0.4,且P<0.05,最后筛选出符合条件的编码基因1 187个,最后对共表达靶基因进行功能注释,包括GO和KEGG,最显著富集分析结果见图4与表2(只包括GO分析中显著的生物学过程部分,表3)。

图4 lncRNA靶基因功能注释图:A.靶基因的GO分析结果;GO包括BP(生物学过程)、CC(细胞成分)和MF(分子功能)三部分,图中显示每部分最显著的前10个分析;B.靶基因KEGG分析结果,红色越红表示显著性强,蓝色显示结果相反,黑色圆表示基因集中富集到该功能或者通路上的基因的数目,数目越大,表示富集的基因数目越多

表2 lncRNA靶基因的生物学过程富集

表3 lncRNA靶基因的通路富集

3 讨论

TCGA数据库是目前全球范围内最大的肿瘤公共数据库,为当前肿瘤相关研究提供宝贵的数据资源[3]。作者首先根据基因转录水平数据对子宫颈癌与癌旁组织中的差异lncRNA进行筛选,然后对初步筛选出的全部差异lncRNA进行Kaplan-Meier生存分析和单因素Cox分析,选择两种分析结果差异均具有显著性的lncRNA基因集,最后共筛选出8个与患者预后相关的lncRNA,分别为:DLEU1、LINC00908、LINC00702、LINC01337、CASC15、LINC00484、UNQ6494和LINC01305。随后采用多因素Cox回归分析法构建与患者预后相关的基因模型,结果显示构建的多基因模型其C统计量为0.7,ROC曲线面积为0.714,根据构建模型的多基因riskscore(riskscore中位值为1.085 6)将样本分为高风险组和低风险组,结果显示差异有显著性(P=2.834E-06),说明作者构建的基于lncRNA分子预测模型具有较为良好的效能,可以实现对子宫颈癌患者预后状况的有效预测。

对于模型中7个lncRNA在肿瘤研究领域尤其子宫颈癌相关的研究情况,LINC00702在脑胶质瘤中可以通过激活Wnt/β-catenin通路促进其进展[4],在非小细胞肺癌中,LINC00702通过调节miR-510/pten轴抑制非小细胞肺癌的增殖和侵袭[5],而其在子宫颈癌中研究还未涉及,模型构建结果提示其可能是子宫颈癌的一个促癌因子。LINC01305可以通过抑制TNXB介导的PI3K/Akt信号通路抑制子宫颈癌细胞上皮间充质转移[6]。DLEU1作为促癌因子在卵巢癌、子宫内膜癌等多种肿瘤中均有参与[7-8],在子宫颈癌中,研究发现DLEU1通过与miR-381相互作用促进子宫颈癌中HOXA13的表达,从而促进子宫颈癌的增殖和侵袭[9]。CASC15在肿瘤中研究也较多,在子宫颈癌中发现lncRNA CASC15与其肿瘤生长密切相关,是子宫颈癌预后较差的诊断因子[10],这与本实验结果一致。目前,LINC00908、LINC01337与LINC00484在肿瘤领域中的相关研究还未涉及,这为以后相关研究提供了新的分子靶标。

为实现对子宫颈癌预后相关lncRNA功能的解读,通过对其共表达基因功能的注释。靶基因的生物学功能注释结果显示,子宫颈癌预后相关的lncRNA生物学过程主要富集细胞膜黏附分子对细胞的黏附作用、胶原原纤维组织、角质化、内胚层细胞分化等几个方面,这些生物学过程均参与了子宫颈癌的发生、发展过程。在通路方面,其富集的通路主要集中在胞外基质受体相互作用、焦点粘连、PI3K/Akt信通路号、蛋白消化与吸收、细胞黏附分子、钙离子信号通路等肿瘤相关通路,鉴于本实验基于生物信息学方法,深层次机制研究还要基于湿实验进行验证。

综上所述,本实验利用生物信息学的方法分析了TCGA数据库中子宫颈癌测序数据,同时构建与子宫颈癌预后相关的7个lncRNA基因集模型,并对其功能进行注释,该实验丰富了和创新了子宫颈癌lncRNA研究内容,也为今后子宫颈癌非编码RNA的研究提供新思路。

猜你喜欢

子宫颈癌测序通路
肽基脯氨酰同分异构酶(Pin1)对子宫颈癌细胞脂质代谢的作用
外显子组测序助力产前诊断胎儿骨骼发育不良
如何早期发现子宫颈癌
得了子宫颈癌怎么办?
HPV疫苗和筛查:人类癌症防治的典范
中草药DNA条形码高通量基因测序一体机验收会在京召开
基因测序技术研究进展
外显子组测序助力产前诊断胎儿骨骼发育不良
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
proBDNF-p75NTR通路抑制C6细胞增殖