基于GEO数据库的肺纤维化相关差异表达基因生物信息学分析
2022-02-28冉小琴姚钦姜望予屠思懿龙梦陈芳
冉小琴 姚钦 姜望予 屠思懿 龙梦 陈芳*
间质性肺病(Interstitial lung disease,ILD)是一类异质性疾病,以进行性发展的肺实质炎症和纤维化为特征。特发性肺纤维化(Idiopathic pulmonary fibrosis,IPF)是ILD 中的特殊类型,病因不明,在老年男性、有吸烟史等群体中发病率高。相较其他类型ILD,IPF 预后差,死亡率逐年递增,中位生存期2~3 年[1]。临床上多使用抗纤维化、抗氧化、抗炎药物等治疗IPF,但存在药品昂贵、副作用大等情况。生物信息学是跨学科领域,它结合了生物学、计算机和统计学来分析和解释生物数据中所含的生物学意义。随着公共数据库的不断完善,可以利用生物信息学方法来挖掘公共数据库中肺纤维化的差异表达基因并进行分析,为探索IPF 的发病机制提供理论依据,为疾病的诊治提供新思路及新方向。
1 资料与方法
1.1 IPF基因表达数据获取 使用NCBI(National center for biotechnology)的GEO 在线数据库(https://www.ncbi.nlm.nih.gov/gds/),以“Idiopathic pulmonary fibrosis”为关键词进行检索,芯片来源选择“Homo sapiens”,获得以GPL6480 为平台的GSE53845 数据集,其中包括40份IPF 患者和8 份正常肺组织的基因表达数据。
1.2 差异表达基因筛选 使用GEO 数据库在线分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)获取出IPF 与正常肺组织的差异表达基因原始数据,随后以P值<0.01 且|log2 FC|>2(FC 为差异倍数)作为截断值筛选出显著差异表达基因,其中log2 FC>2 为上调基因,log2 FC<-2 为下调基因,并绘制火山图。选取上调的前10 个基因与下调的前10 个基因,将其调整为二维矩阵格式后导入热图绘制网站(http://www.heatmapper.ca/expression/),使用该网站在线绘制聚类热图。
1.3 GO 与KEGG 通路富集分析 将所获得的显著差异基因导入DAVID(富集分析)数据库(2021 版)(https://david.ncifcrf.gov/)并进行GO 与KEGG 通路富集分析。在GO 分析中输出差异基因的前十条分子功能(molecular function)分析,在KEGG 通路富集分析中以P<0.05 输出通路富集分析结果。
1.4 PPI 网络构建与可视化分析 在STRING 数据库(https://cn.string-db.org/)中输入所获得的显著差异表达基因,进行蛋白互作(PPI)网络构建。将所获得的数据导出后使用Cytoscape 软件对其进行可视化分析,利用Cytoscape中的Cytohubba插件对差异基因使用3种常规算法(MCC、Degree、Closeness)进行筛选,以每一种算法所获得的前十位基因作为IPF 发病相关的核心基因。
2 结果
2.1 差异基因筛选结果 根据筛选条件,在数据集GSE53845 中,IPF 组和健康组之间共得到148 个差异表达基因,其中上调基因108 个,下调基因40 个。绘制火山图(见图1)其中红色表示上调的表达基因,绿色表示下调的表达基因,黑色表示无明显表达差异的基因,绘制聚类热图(见图2)。
图1 差异表达基因火山图
图2 显著差异表达基因聚类热图
2.2 差异基因的GO 与KEGG 通路富集分析 GO 分析显示在分子功能方面,差异基因多富集于蛋白酶连接、趋化因子活性、免疫球蛋白受体结合、细胞外基质结构成分、细胞因子活性等(见表1)。KEGG 通路富集分析显示差异基因多富集于细胞因子-细胞因子受体相互作用、蛋白质消化吸收、NF-κB 信号通路、趋化因子信号通路等(见表2)。
表1 差异基因GO富集分析结果
表2 差异基因KEGG通路富集分析结果
2.3 差异基因的PPI 网络构建与关键基因筛选 将所获得的148 个差异表达基因导入STRING 数据库,构建PPI 网络(见图3)。再用Cytoscape 进行可视化分析(见图4),其中红色表示表达上调的基因,蓝色表示表达下调的基因;最后使用Hubba 插件中的MCC、Degree、Closeness 算法得到12 个关键基因(CXCL12、MMP1、MMP7、CXCL1、SPP1、VCAM1、COL1A1、CCL2、CCR7、CCL19、SELE、THY1),(见图5)。
图3 差异基因的蛋白互作网络
图4 差异表达基因的Cytoscape可视化分析
图5 3种算法结果排名前10基因相互作用关系(节点颜色越深表示各算法分值越高)
3 讨论
特发性肺纤维化属于一种致死性、进行性发展的肺部疾病,病因不明,以肺间质弥漫性渗出、浸润和纤维化为主要病变[2]。当前针对肺纤维化的治疗主要包括药物、肺康复、终末期肺移植等[3];药物主要分为抗纤维化、抗氧化以及抗炎三类。目前临床上公认的抗纤维化药物包括吡非尼酮、尼达尼布,相关临床研究报道[4]其具有减慢肺功能下降速度、改善生活质量等作用。但同时存在用药周期长、价格高昂、副作用大等情况。随着大数据时代的到来,生物信息学等技术得到了飞速发展,也为IPF 作用机制的研究提供了新方法新思路。
本研究通过筛选GEO 数据库中的GSE53845 数据集得到特发性肺纤维化与正常肺组织差异表达的148个基因,其中在病变组织高表达的基因共108 个、低表达的基因共40 个,通过GO 与KEGG 通路富集分析获得相关分子功能与作用通路。在分子功能分析方面,趋化因子活性分子功能相关研究[5]涉及支气管哮喘等肺部疾病;细胞外基质结构成分相关研究[6]涉及支气管发育不良等;细胞因子活性分子功能所涉及研究较多,全身各系统疾病[7]均与其相关,包括但不限于脓毒症、肿瘤等。在通路富集分析方面,NF-κB 信号通路和趋化因子信号通路存在作用通路的重叠,在呼吸系统[8]中NF-kB 信号通路研究多见于肺损伤、哮喘等疾病。
通过Cytoscape 中的插件获取到CXCL12、MMP1、MMP7、CXCL1、SPP1、VCAM1、COL1A1、CCL2、CCR7、CCL19、SELE、THY1 等12 个基因,通过对比上述基因的GO 分子功能分析与KEGG 通路富集分析及综合MCC、Degree、Closeness 等算法筛除SELE、THY1,对余下10 个基因进行分析,此10 位基因在IPF 患者中均为高表达。VCAM-1(血管细胞黏附分子1)由VCAM1基因表达,其多存在于血管内皮细胞表面,在血管内皮细胞及细胞外基质和白细胞之间充当介质作用,使细胞与细胞之间或细胞与细胞外基质之间相互黏连。在炎症发生时,VCAM-1 作为一种炎性介质,可参与中性粒细胞、嗜酸性粒细胞等炎症细胞的黏附与迁移过程。目前在肺纤维化的相关研究中,VCAM-1 被认为通过介导细胞间的黏附聚集来引起纤维细胞增殖[9],从而在肺纤维化的发病过程中起着重要作用。
CXCL12、CCL2、CXCL1、CCL19 同为趋化因子家族,属于一类可使白细胞定向移动的小分子分泌蛋白,在炎症过程中可诱发免疫细胞迁移、参与炎性促肿瘤微环境形成。Hubba 插件中算法提示CXCL12、CCL2 可能与IPF 存在较大相关性。在呼吸系统疾病中,此两种基因研究报道多见于肺癌、肺动脉高压等,与IPF 相关性研究国内报道较少。钟家宝等[10]通过一项临床研究发现,在IPF 的诊断中,血清中CCL2水平联合其他趋化因子水平曲线下面积可达0.944,具有良好预测价值,但未涉及具体作用机制的研究。CCR7是一种趋化因子受体,其主要配体为CCL19、CCL21,关于其研究报道多为癌症领域相关。在对过敏性气道疾病的研究中,CCR7 被认为可以通过参与细胞外信号的调节,参与气道炎症反应,增加黏液的分泌。同时KAUR 等[11]研究发现,在哮喘患者中,CCR7 与CCL19结合后会产生级联反应,最终导致气道平滑肌的增殖。因此合理预测在肺纤维化的患者中,也会出现上述病理生理过程,但目前相关报道较少,需待进一步研究。
SPP1 名为分泌磷酸蛋白1,又称骨桥蛋白,其相关研究多涉及肿瘤类、炎症相关性疾病。有研究[12]表明,SPP1 在非小细胞肺癌中表达显著上调,通过细胞外基质(ECM)间的相互作用来参与调控肿瘤的发生发展过程。在SPP1 与脏器纤维化领域,国内外研究显示抑制SPP1 表达可降低脏器纤维化的程度、增强SPP1表达可加快脏器纤维化导致细胞外基质在相关器官中异常表达与过度沉积[13]。多项研究证实SPP1 通过参与ECM 合成、代谢等过程在组织纤维化中起着重要作用,同时IPF 也是以细胞外基质过度沉积为特征的疾病,后期在基础研究与临床研究中,可将SPP1 作为靶点基因进行深入探讨。
MMP1、MMP7 同属基质金属蛋白酶家族,基质金属蛋白酶家族(MMPs)参与血管平滑肌生长、增殖、血管生成、组织修复等过程。严梅等[14]研究发现,MMP7在IPF 患者组织中高表达,且与肺功能损伤程度成正比,可作为IPF 的临床辅助诊断生物标志物。同时在大鼠肺纤维化组织中,许梦婷等[15]发现MMP1 在组织中表达增加,且经MMP 组织抑制剂处理后肺纤维化程度有所下降,这在一定程度上说明MMP1 与组织肺纤维化进程密切关联。COL1A1 属于胶原蛋白家族,是I 型胶原蛋白的α1 链,其在IPF 中高表达并多沉积于胸膜下、血管周围及肺泡间隔,是导致气管壁增厚及气道重塑的主要原因,明确了胶原蛋白在IPF 发病过程中的重要作用。
综上所述,本研究利用生物信息学工具筛选出VCAM1 等10 位显著差异表达基因并对其进行详细分析。其中MMPs、COL1A1 等基因已被多项研究报道证实与纤维化组织密切相关,在后期肺纤维化的研究中,可将SPP1、趋化因子家族(CXCL12、CCL2、CXCL1、CCL19)作为关键基因靶点,进行动物研究与临床资料验证,以期在IPF 的诊治方面得到突破。