糖尿病肾病核心基因的筛选与鉴定
2024-05-10吴晓俊倪飞雪徐玉雪
吴晓俊,倪飞雪,徐玉雪
糖尿病肾病(diabetic kidney disease, DKD)是糖尿病发展的常见并发症,主要特征是尿白蛋白、肾小球过滤功能障碍,是终末期肾病的主要原因,严重增加了糖尿病患者的死亡率[1]。肾小球的功能障碍在DKD的病程发展中起着重要的作用,高浓度的血糖可诱导氧化应激、细胞凋亡[2]、免疫反应[3]等。近年来,内皮素拮抗剂、肾素-血管紧张素-醛固酮系统阻滞剂、血管紧张素转换酶抑制剂等的研究进展,为DKD的治疗提供了方向[4]。目前仍缺乏对DKD病理机制和药物靶点的探究,且临床治疗结果不理想[5]。然而,生物信息学的发展为疾病研究提供了新的视角[6]。基于对DKD肾小球基因表达矩阵进行的加权共表达网络分析(weighted gene co-expression network analysis,WGCNA)、最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)、特征选择之支持向量机递归特征消除(support vector machine-recursive feature elimination,SVM-RFE)等分析方法,有助于对DKD的机制进行深入研究,筛选核心生物学标志物与治疗靶点,寻找与DKD相关的潜在治疗基因。
1 材料与方法
1.1 数据资料来源使用基因表达数据库(GEO)(https://www.ncbi.nlm.nih.gov/geo/),搜索关键词“Diabetic kidney disease”和“Homo sapiens”,选择“Expression profiling by array”以获得DKD的mRNA微阵列基因表达矩阵。筛选得到了GSE47183和GSE30528及对应数据平台文件(包括30个正常对照样本,23个DKD肾小球样本),运用R(4.2.1)将基因表达数据整合并进行生物信息学分析。GEO属于公共数据库,数据库中涉及的患者已获得伦理批准,因此本研究不涉及伦理问题及其他利益冲突。
1.2 生物信息学数据分析使用R中的limma包对数据归一化处理,通过WGCNA分别对GSE47183和GSE30528数据聚类分析,筛选与疾病具有显著相关性的核心基因集,并通过韦恩图(Veen diagram,Veen)对基因集进行重叠,对共有的显著核心基因使用LASSO和SVM-RFE算法进一步分析,筛选目标核心基因。同时,为了得到与目标核心基因相关的药物靶点,运用基因药物分析网络分析(https://dgidb.genome.wustl.edu/)预测基因药物作用靶点,并且使用基因集合富集分析(gene set enrichment analysis,GSEA)筛选目标核心基因可能参与调控的信号通路。
1.3 RNA提取及实时荧光定量PCR使用南京诺唯赞RNA抽提试剂盒(L/N 7E632K2)提取高脂饮食(high-fat diet,HFD)喂养糖尿病小鼠与同龄健康C57小鼠肾脏组织总mRNA,使用Takara试剂盒将RNA逆转录为模板cDNA,检测样本量为1 μg,依照SYBR Ex Tap Ⅱ试剂说明书进行扩增,β-actin为内参,验证核心基因足细胞标记蛋白(NPHS1)、Ⅰ型胶原蛋白α2链(collagen type I alpha 2 chain,COL1A2)、转化生长因子β诱导蛋白(transforming growth factor beta induced,TGFBI)、分化集群48(cluster of differentiation 48,CD48)、1号染色体开放阅读框21(chromosome 1 open reading frame 21,C1orf21)在肾脏中的基因表达水平。
1.4 统计学处理差异表达水平使用R(4.2.1)及GraphPad Prime 8.0统计分析,使用t检验,以标准误差(SEM)表示平均值的误差,P<0.05表示差异有统计学意义。
2 结果
2.1 差异基因mRNA的筛选和分析提取GEO数据库GSE30528和GSE47183中DKD肾小球的mRNA数据,作火山图分析。结果表明,DKD数据GSE30528共有317个具有显著性差异的基因(P.adj<0.05, |log2FC|>1),235个基因表达下调(绿色),82个基因表达上调(红色)(图1A)。GSE47183数据共有209个具有显著表达的差异基因(P.adj<0.05, |log2FC|>1),100个基因表达下调(绿色),109个基因表达上调(红色)(图1B)。使用Veen图重叠差异基因,62个差异基因在两个数据库均表达(图1C)。对此62个差异基因进行KEGG分析,结果显示这些差异基因与细胞外基质(extracellular matrix,ECM)受体相互作用,PI3K-Akt信号通路具有显著相关性。GO结果表明,差异基因主要与细胞因子的正调节具有相关性,主要在细胞外间质结构成分中起作用(图2B-2D)。
图1 差异基因的提取
图2 差异基因KEGG和GO分析
2.2 WGCNA筛选疾病核心基因将DKD表达矩阵GSE30528和GSE47183分别用R(limma包)对数据归一化,皮尔逊相关系数对样品聚类,进行WGCNA,筛选与疾病关系密切相关的核心基因。软阙值分别为16和12时,满足R2=0.9的无标度的网络拓扑关系(图3A、3B)。将数据集的邻接矩阵转换为TOM矩阵,对样本聚类,构建WGCNA网络(图3C),筛选出不同颜色的模块基因集。值得关注的模块分别是GSE30528的ME turquoise(r=0.93,P=5e-10)和GSE47183的ME blue(r=0.72,P=5e-6),其与疾病状态最具有关联性(图3D)。同时,证实了两个模块(turquoise模块,blue模块)中基因集的相关性和显著性,turquoise模块:Cor=0.92,P=3.8e-172(GSE30528),blue模块:Cor=0.63,P=2.7e-21(GES47183),见图3E、3F。分别将GSE30528、GSE47183的显著性差异基因与WGCNA筛选的核心基因使用Veen图重叠筛选,富集出37个核心基因(图4A),对两组数据进行合并,热图展现每个基因的表达水平,共有10个基因表达下调(蓝色),27个基因表达上调(红色)(图4B)。
图3 WGCNA筛选疾病核心基因
图4 核心基因的筛选和展示
2.3 机器学习算法筛选特征基因对37个核心基因使用LASSO模型算法,绘制LASSO回归图形和交叉验证图形,筛选出6个特征基因(图5A、5B)。同时,使用SVM-RFE算法对37个核心基因进行过滤,筛选特征基因的最优组合,10个特征基因被显著富集(图5C、5D)。Veen图对两种算法的核心基因取交集,共同筛选出5个目标核心基因,这5个重叠交叉的核心基因将是进一步研究的重点(图5E)。
图5 目标核心基因的筛选
2.4 目标核心基因的表达水平及相关性将GEO数据库中的GSE30528和GSE47183数据合并,共有30个正常肾小球样本,23个DKD肾小球样本,分析5个核心基因在数据中的表达情况。结果表明,CD48、COL1A2、TGFBI的表达水平显著升高,NPSH1、C1orf21的表达水平显著降低(P. adj<0.05, |log2FC|>1)(图6A-6E)。皮尔森相关性分析确定5个基因间的相关性(图6F)。基于差异基因集构建的逻辑回归模型,绘制的受试者工作特征曲线(receiver operating characteristic curve,ROC)显示,5个核心基因的ROC曲线下面积(area under the receiver operating characteristic curve,AUC)均大于0.8(图7A-7E),进一步表明这些核心基因可能与DKD疾病具有密切关系。
图6 目标核心基因的表达水平及皮尔森相关性分析
图7 目标核心基因的ROC曲线
2.5 核心基因的生物学功能和通路分析使用GSEA进行数据分析(c2.cp.all基因集作富集使用),结果显示NPHS1在细胞外机制及细胞交流信号通路显著富集(图8A),COL1A2主要与整合素细胞表面互作相关(图8B),CD48在自然杀伤细胞毒性和细胞表面相互作用中起作用(图8C),而TGFBI与ECM糖蛋白和整合素途径有关(图8D)。然而C1orf21的研究目前匮乏,功能尚不明确,无法进行GSEA富集。
图8 目标基因的GSEA分析
2.6 目标核心基因生物学验证为进一步研究目标基因在DKD的表达,使用HFD(加小剂量链脲佐菌素)诱导的糖尿病小鼠肾脏组织,检测5个核心基因(NPHS1、CD48、COL1A2、TGFBI、C1orf21)表达水平,如图9所示,NPHS1表达降低(图9A),CD48表达升高(图9B),而COL1A2、TGFBI和C1orf21的表达则无显著变化(图9C-9E)。结果表明,NPHS1和CD48符合上述的生物信息学分析结果,它们可能与DKD的发生和发展具有密切关系。
图9 核心基因mRNA表达水平
2.7 核心基因的药物治疗与靶点预测为了研究核心基因对DKD的有效治疗,进行了目标基因的基因-药物的靶点预测,以及指导mRNA合成的有效miRNA,通过基因药物相互作用网站预测基因靶点。仅预测出LOSARTAN以NPHS1为靶点发挥治疗作用(图10A)。使用3种软件(miRanda、miRDB、TargetScan)分析NPHS1合成相关的miRNA,结果表明,多种miRNA直接指导NPHS1的合成(图10B)。
图10 核心基因药物及靶点预测
3 讨论
DKD是导致肾衰竭的主要原因。尽管目前对于DKD疾病已有较清晰的了解,但是DKD的治疗方法十分有限,具体病理机制仍不甚清楚[7]。近年来,基于mRNA微阵列分析技术的生物信息学迅速发展,为探究疾病发展的分子机制起到指导作用。在本研究中,通过GEO公共数据采用WGCNA对数据进行分类,筛选出37个与DKD具有密切相关性的显著性差异基因,包括10个下调基因和27个上调基因。对此37个差异基因采用LASSO、SVM-RFE机器算法及皮尔森相关性分析进一步筛选出与DKD具有密切关联性的5个核心基因(NPHS1、COL1A2、CD48、TGFBI、C1orf21),并通过HFD造模糖尿病小鼠肾脏组织的RNA检测,进一步验证了核心基因的表达情况。
对核心基因的GSEA分析结果发现,NPHS1与NEPH1信号通路及细胞交流呈负相关。有研究[8]表明,NEPH1是免疫球蛋白超家族中的一员,在结构上与肾素相关,诱导细胞黏附。NPHS1和NEPH1的基因产物Nephrin和NEPH1是Ig超家族的足细胞膜蛋白,NPHS1的缺乏会严重导致尿蛋白症,使疾病迅速恶化[9]。在DKD中,分析结果表明,COL1A2的表达与DKD细胞外基质及细胞表面整合素相互作用显著相关,COL1A2是I型胶原的成员,属纤维化基因,因此COL1A2的高表达与DKD中的肾纤维化有关[10]。有证据指出COL1A2的表达与DKD中由高糖诱导的炎症反应具有显著相关性[11],针对COL1A2的治疗,是DKD管理的潜在干预策略,然而,在糖尿病小鼠肾脏组织中,COL1A2却没有显著变化。与此同时,越来越多的研究[12]发现,DKD的发展中存在着免疫机制的参与,T淋巴细胞、B淋巴细胞、巨噬细胞等与DKD密切相关,CD48主要参与自然杀伤细胞介导的细胞毒性及反应体细胞表面相互作用(图8C)。CD48是信号淋巴细胞激活分子家族的成员,参与免疫细胞的黏附和激活[13],在DKD中的高表达激活了自然杀伤细胞的活力,引起了免疫细胞的激活。同样的,TGFBI是转化因子诱导蛋白,参与细胞的生长、分化以及细胞黏附等。在肿瘤研究中,TGFBI在很大程度上促进了肿瘤细胞的进展[14],在DKD中却没有报道。然而,TGFBI能够调控ECM糖蛋白,而ECM蛋白与脂肪组织相关,并调节炎症、纤维化、血管生成和代谢恶化[15]。因此推测TGFBI的表达调节DKD中的肾纤维化和免疫炎症具有密切关系,但本研究显示,TGFBI在HFD小鼠肾脏组织中并没有发生显著变化。除此之外,发现C1orf21同样是被显著富集出的基因,C1orf21是一个目前还未功能注释的非特征性蛋白质编码基因。针对C1orf21的研究十分匮乏,其表达差异意味着1号染色体的功能性障碍,这有待于进一步研究确认。综上所述,NPHS1、CD48、COL1A2、TGFBI、C1orf21基因可能与DKD具有密切相关性,通过参与细胞表面相互作用,影响免疫细胞的激活、细胞黏附以及促进肾纤维化影响疾病的恶化。而基因靶点药物和有效miRNA的预测为研究DKD的治疗提供了重要指导。本研究表明,COL1A2、CD48与DKD的发展具有显著相关性,而针对NPHS1的基因靶点药物治疗及miRNA的预测在DKD中有可能作为重要的突破点。