特应性皮炎生物标志物鉴定及其免疫浸润研究
2023-12-28朱玉珍吴紫薇高贻宙UlfMeyerHoffert吴志宏
朱玉珍,吴紫薇,高贻宙,Ulf Meyer-Hoffert,吴志宏,
(1.浙江科技学院 生物与化学工程学院,杭州 310023;2.德国基尔大学 医学院皮肤学研究所,德国 基尔 24105)
特应性皮炎(atoipc dermatitis,AD)是一种慢性、炎症性、复发性皮肤病。特应性皮炎患者会出现湿疹性病变并伴随强烈的瘙痒,从而导致失眠和心理健康问题[1]。AD患者的先天免疫和适应性免疫都发生了改变,导致病菌感染,从而触发和加重疾病进程。现有研究表明,AD中与免疫功能障碍相关的发病机制包括:免疫球蛋白E(immunoglobulin E,lgE)增加,对过敏原的敏感性增加,急性病变中Th2型细胞因子表达升高,表达皮肤淋巴细胞相关抗原的T细胞数量增加,朗格汉斯细胞和炎性树突状表皮细胞上高亲和力IgE受体的表达增加,胸腺基质淋巴细胞生成素的表达增加[2-4]。除此以外,研究还发现,多种免疫细胞参与AD的调控,如自然杀伤细胞、巨噬细胞、肥大细胞、B细胞等[5-7]。然而,AD的免疫病理学机制仍然不明确。因此,评估AD免疫细胞浸润程度,探索潜在相关标志物免疫细胞类型相对丰度的变化,对进一步阐明AD的分子机制,开发新的免疫治疗靶点具有重要意义。
基因表达综合数据库(Gene Expression Omnibus,GEO)是目前最大、最全面的公共基因表达数据库,存储了大量的测序数据。目前,已有多项研究通过下载公共数据库的数据来分析疾病的生物标志物,如杨雷等[8]对骨关节炎免疫机制的探索和李娜等[9]对溃疡性结肠炎免疫细胞的浸润模式的研究。机器学习算法是一种人工智能技术,它通过构建自动学习系统对未知数据进行预测、分析。机器学习已经越来越多地应用于疾病预测、诊断和预后及药物发现[10]。因此,本研究使用机器学习算法来综合筛选与AD相关的生物标志物。此外,我们还使用通过估计RNA转录物的相对亚群鉴定细胞类型(cell-type identification by estimating relative subsets of RNA transcripts,CIBERSORT)算法研究了生物标志物和免疫浸润细胞之间差异的变化,以更好地了解AD所涉及的分子免疫机制,为进一步研究提供方向。
1 材料及方法
1.1 数据来源
在GEO数据库(https://www.ncbi.nlm.nih.gov/geo)检索与AD相关的数据集,筛选标准为:数据集既包含正常对照皮肤样本又包含AD患者皮肤损伤样本;所有纳入样本均未进行药物处理。最终筛选出4个数据集:GSE32924、GSE130588、GSE16161和GSE36842,这4个数据集均为GPL570测序平台。利用数据处理软件RStudio对数据集进行了预处理。根据平台的注释文件将探针转换为基因名,排除与基因符号不对应的探针。将GSE32924和GSE130588、GSE16161和GSE36842分别合并,并进行批次矫正;其中GSE32924、GSE130588作为训练集,GSE16161、GSE36842作为验证集。
1.2 筛选DEG
利用RStudio筛选训练集的差异表达基因(differentially expressed gene,DEG),阈值设置为|log2tFC|>2、p<0.05。
1.3 生物标志物的筛选与验证
采用机器学习方法筛选出关键的DEG作为AD的生物标志物。最小绝对收缩和选择算子回归分析(least absolute shrinkage and selection operator,LASSO)算法通过添加惩罚函数,将不重要的回归系数直接缩减为0,从而达到特征选择的目的[11]。支持向量机递归特征消除特征选择(support vector machine-recursive feature elimination,SVM-RFE)算法采用风险最小化原则和经验误差最小化原则,可用于提高学习性能以过滤模型[12]。随机森林(random Forest,RF)算法通过对对象和变量进行抽样构建预测模型,生成多个决策树并依次对对象进行分类,最终将分类树结果进行汇总,从而实现降维的目的[13]。RF算法通过基尼指数计算每个变量对分类树每个节点上观测值异质性的影响,从而比较变量的重要性。本研究利用RStudio构建上述3种机器学习算法,并选择重叠基因做进一步分析。
将GSE16161和GSE36842合并作为验证集,构建受试者工作特征(receiver operating characteristic,ROC)曲线以评估生物标志物的预测价值。ROC曲线下的面积(area under ROC curve,AUC)反映了诊断价值的大小,面积越大,越接近1,诊断准确性越高;若越接近0.5,则诊断无意义。
1.4 免疫浸润细胞分析
CIBERSORT算法基于线性支持向量回归的原理进行反卷积分析,可用于评估AD患者的免疫细胞浸润情况[14]。CIBERSOFT算法基于蒙特卡洛(Monte Carlo)采样来获得每个样本的反卷积p值。保留p<0.05的数据,运用RStudio分析正常对照皮肤样本和AD患者皮肤损伤样本之间免疫细胞浸润的差异变化。然后进行免疫细胞的相关性分析,用相关系数r表示两个系数之间的相关性。r为正时表示正相关,r为负时则表示负相关;r越接近1则两个变量之间的相关性越高。
1.5 生物标志物与免疫浸润细胞的相关性分析
使用RStudio对筛选到的生物标志物和免疫细胞进行相关性分析,以进一步探索AD疾病发展过程中的免疫机制。
2 结 果
2.1 差异基因筛选
GSE32924与GSE130588合并后共得到28个健康样本(对照组),64个AD样本(试验组),差异分析共筛选得到159个差异基因,包括54个上调基因和105个下调基因。
2.2 生物标志物的筛选
使用3种不同的机器学习算法来筛选关键的DEG作为AD的生物标志物,筛选结果如图1所示。LASSO算法识别了16个基因(图1(a))。SVM-RFE算法筛选出28个基因(图1(b))。此外,利用RF算法对基因的重要性进行排序,筛选基尼指数大于2的基因,共得到6个基因(图1(c))。对3种机器学习算法筛选出来的基因取交集,最终得到2个重叠的基因:基质金属肽酶12(matrix metalloproteinase 12,MMP12)和WNT(wingless/integrated,无翅/整合素)抑制因子1(WNT inhibitory factor 1,WIF1)(图1(d))。
图1 特应性皮炎生物标志物的筛选Fig.1 Screening biomarkers for patients with atopic dermatitis
构建MMP12、WIF1的ROC曲线,并利用AUC值来确定正常对照皮肤样本和AD患者皮肤损伤样本的诊断有效性,结果见图2。由图2(a)和(b)可知,MMP12、WIF1在测试集中的AUC值分别为0.982、0.956,表明这两个生物标志物具有较高的预测价值。为了进一步验证MMP12、WIF1作为AD诊断标志物的潜力,对合并的GSE16161和GSE36842中的这些基因进行了ROC分析,绘制了ROC曲线(图2(c)和(d)),结果也证明两个基因可以作为AD的潜在生物标志物。
图2 MMP12、WIF1在测试集与验证集中的ROC曲线及AUC值Fig.2 ROC curve and AUC value of MMP12 and WIF1 in test set and verification set
2.3 生物标志物与免疫浸润细胞相关性分析
采用CIBERSORT算法计算数据集中22种免疫细胞的浸润丰度矩阵。由于样本中单核细胞缺失,所以去除单核细胞,用21种免疫细胞做后续分析,结果如图3所示。图3(a)展示了21种免疫细胞在各样本中的含量分布,同时通过小提琴图较为直观地展现了正常皮肤样本和AD患者皮肤损伤样本免疫细胞浸润的差异,p<0.05表示差异有统计学意义。由图3(b)可知,与对照组相比,AD患者皮肤损伤样本的初始CD4+T细胞、活化记忆CD4+T细胞、滤泡辅助性T细胞、巨噬细胞M1、静息树突状细胞、活化树突状细胞浸润水平显著上升,记忆B细胞、活化自然杀伤细胞、巨噬细胞M2、活化肥大细胞则显著下降。
图3 样本中21种免疫细胞分析结果Fig.3 Analysis results of 21 immune cell in the sample
由图3(c)可知,浆细胞与记忆B细胞呈较强正相关(r=0.61),静息树突状细胞与静息肥大细胞呈较强负相关(r=-0.69),静息树突状细胞与巨噬细胞M2呈较强负相关(r=-0.66)。
为了探索生物标志物与免疫细胞的关联性,进行了相关性分析,结果如图4所示。MMP12与树突状细胞、活化记忆CD4+T细胞、滤泡辅助性T细胞、巨噬细胞M1、初始CD4+T细胞、初始B细胞呈较强正相关;与CD8+T细胞、记忆B细胞、巨噬细胞M2、活化自然杀伤细胞、静息肥大细胞呈较强负相关。WIF1则与之相反。
图4 生物标志物与免疫细胞的关联性分析结果Fig.4 Results of correlation analysis between biomarkers and immune cells
3 讨 论
在训练集中筛选出了159个差异表达基因,其中上调基因54个,下调基因105个。随后利用LASSO、SVM-RFE、RF算法对差异表达基因进一步筛选,最终得到2个交集基因:MMP12和WIF1。
通过免疫浸润分析,我们发现正常对照皮肤样本和AD患者皮肤损伤样本之间免疫细胞组成存在显著差异。静息肥大细胞在对照组中是主要的免疫细胞,而在AD组占比明显下降。因此我们推测静息肥大细胞可能在维持皮肤稳态中起重要作用。在一项小鼠试验中,研究人员发现肥大细胞缺陷小鼠表现出皮肤炎症减轻,这表明过敏原诱导的皮肤炎症需要肥大细胞活化[15]。在AD患者皮肤损伤组织中静息/活化树突状细胞在AD组的占比显著上升,树突状细胞是抗原呈递细胞的一种,可捕获抗原、过敏原和微生物,将初始T细胞启动为免疫原性或耐受原性亚群,并充当先天免疫和适应性免疫之间的桥梁。有研究表明树突状细胞直接参与AD特异性免疫过程,导致可溶性介质的释放和T细胞的激活,从而致使疾病恶化[16]。在我们的分析中,巨噬细胞M1显著增加、M2则显著减少。众所周知,M1巨噬细胞本质上是促炎细胞,其主要功能是通过吞噬作用或杀菌活性杀死或清除外来抗原或病原体。M2巨噬细胞具有愈合功能,在组织修复和维持组织完整性方面具有重要作用[17]。在一项皮肤活检研究中也证实了巨噬细胞M1在特应性皮炎表现出显著特异性[18]。我们还发现活化自然杀伤细胞在AD患者皮肤损伤样本中的占比显著减少。而一项研究发现小鼠自然杀伤细胞缺乏与皮肤中Th2炎症的增强有关,表明自然杀伤细胞在AD的病理学中起着关键的免疫调节作用[19]。此外,CD4+T细胞、滤泡辅助性T细胞、记忆B细胞也被证明在AD的发生发展中发挥重要作用[20-21]。
MMP12是一种由肺泡巨噬细胞产生的弹性蛋白酶,诱导各种炎症细胞聚集成炎性组织,与许多慢性炎症性疾病有关,包括哮喘和动脉肝硬化[22]。MMP12的表达异常与AD患者的全身特应性存在相关性[23]。有研究报告了AD患者MMP12在炎症部位显著增加,通过度普利尤单抗治疗后检测到MMP12有所减少,这也说明MMP12在AD中具有特异性[24]。WIF1是WNT通路的一个抑制因子,它可以直接与WNT分子结合,抑制WNT子与受体细胞膜上的卷曲蛋白受体及低密度脂蛋白受体相关蛋白5/6形成三聚体复合物,从而抑制信号传导。WNT信号通路在细胞命运决定、发育过程中的组织模式及损伤后的组织修复中发挥着重要作用。WNT配体和信号在调节免疫反应中也具有重要意义。有证据表明,WNT信号通路既影响巨噬细胞功能又受巨噬细胞功能的影响[25]。在WNT配体存在的情况下,WIF1在角质形成细胞静止和分化中具有潜在作用[26]。迄今为止,没有直接证据证明WIF1在特应性皮炎中的作用,故需进一步调查以阐明潜在的生物学途径。
4 结 论
本研究发现了2个与AD相关的生物标志物:MMP12、WIF1。MMP12、WIF1基因表达水平与AD患者皮肤损伤样本的免疫细胞浸润密切相关。因此,MMP12、WIF1有望成为特应性皮炎潜在的诊断生物标志物及免疫相关治疗靶点。