APP下载

基于机器学习算法筛选鼻咽癌诊断基因标志物的研究

2023-05-24王艺任刘艾艾

实用临床医药杂志 2023年7期
关键词:标志物通路系数

王艺任, 刘艾艾, 詹 翔, 罗 颜, 周 平

(1. 西南医科大学 护理学院, 四川 泸州, 646000; 2. 西南医科大学附属医院 放射科, 四川 泸州, 646000)

在中国,鼻咽癌(NPC)是高发癌症之一,发病率远高于欧美国家[1]。NPC解剖位置隐蔽且早期症状不明显, 70%~80%的NPC患者就诊时病程已进展至局部晚期[2], 因此采取非侵入性手段对NPC进行早期诊断尤为重要。NPC相关基因标志物可用于早期诊断NPC, 有助于早期干预,从而改善患者的预后。中国研究者[3-4]通过基因表达差异分析构建蛋白互作网络,筛选出部分NPC关键基因和信号通路。国外研究者[5-6]通过微小RNA(miRNA)特征鉴定和免疫浸润检测筛选了NPC相关基因标志物,为NPC的非侵入性检测提供了参考依据。但由于基因结构的复杂性,这些NPC相关基因标志物的特异性和敏感性尚不能满足临床应用需求。随着计算机科学与医学领域交叉学科的发展,机器学习算法被广泛应用于大规模的高效筛选和鉴定更具有特征性的数据。最小绝对收缩和选择算子(LASSO)是一种基于正则化的高维数据变量筛选方法[7]。支持向量机(SVM)是一种有监督的机器学习方法,已被广泛用于特征分类等问题的模型构建,并通过递归特征消除(RFE)算法避免过度拟合[8]。为了寻找更准确的基因特征,本研究采用LASSO和SVM-RFE这2种机器学习算法筛选潜在的NPC诊断基因标志物,现报告如下。

1 材料与方法

1.1 基因表达数据集选取

本研究从NCBI网站的GEO数据库(https://www.ncbi.nlm.nih.gov/)选取含有NPC患者和正常对照者的微阵列数据集GSE53819(18例NPC患者,18例对照者)、GSE13597(15例NPC患者,13例对照者)。将GSE53819数据集用于差异表达基因(DEGs)筛选并作为训练集筛选NPC诊断特征基因,将GSE13597数据集作为训练集筛选NPC诊断特征基因。从GTEx数据库与ICGC数据库下载NPC患者的转录组测序(RNA-seq)数据集,将GTEx-NPC数据集(57例NPC患者, 54例对照者)作为训练集筛选诊断特征基因,并将ICGC-NPC数据集(36例NPC患者,29例对照者)作为验证集对诊断特征基因的效能进行外部验证。

1.2 筛选DEGs

通过R语言中的GEOquery包从GEO数据库中下载数据集,去除1个探针对应多个分子的探针,遇到对应同一个分子的探针时,仅保留信号值最大的探针,再使用R语言中的SVA包校正差异,然后通过limma包的normalizeBetweenArrays函数标准化数据。设置阈值为|log2FC|>2(FC为差异倍数)和调整后的P值(P.adjust)<0.05, 达到该阈值的基因即为高度有效的DEGs, 纳入后续分析[9-10]。

1.3 基因本体论(GO)富集分析和京都基因与基因组百科全书(KEGG)通路富集分析

R语言中的ClusterProfiler包涵盖了GO和KEGG数据库,可用于生物学功能分析。使用Benjamini-Hochberg方法及错误发现率(FDR)调整P值以进行多次测试校正。阈值设置为FDR<0.05。DEGs的GO富集分析包括生物过程(BP)、分子功能(MF)和细胞成分(CC)。

1.4 基于LASSO与SVM-RFE算法筛选NPC特征基因

使用R语言中的glmnet包进行LASSO分析,采用二项式逻辑回归从DEGs中选择特征基因,最佳惩罚参数λ由最小二项式偏差确定。SVM-RFE算法中,使用R语言中的e1071包寻找最佳变量,并使用kernlab包和caret包选择交叉验证误差的最小值。将这2种算法识别的基因标志物取交集,确定最终的NPC特征性诊断基因标志物。

1.5 验证NPC关键诊断基因标志物

将RNA-seq数据集ICGC-NPC作为验证集,通过受试者工作特征(ROC)曲线的曲线下面积(AUC)验证NPC特征性诊断基因标志物的诊断能力。

2 结 果

2.1 DEGs筛选

本研究通过limma包从GSE53819数据集中共筛选出582个DEGs(156个高表达DEGs和426个低表达DEGs), 并通过ggplot2包和ComplexHeatmap包对其进行可视化分析。由于DEGs数量较多,本研究仅选取差异大的前20个上调基因和前20个下调基因绘制热图,见图1A。所有DEGs的火山图见图1B。

2.2 GO和KEGG富集分析

GO分析结果显示,上调基因主要富集于基于微管的运动、纤毛组织,下调基因主要富集于细胞外结构组织、细胞外基质组织、生殖系统发育、生殖结构发育和表皮发育。KEGG分析显示,上调基因主要富集于配体-受体相互作用和细胞因子-细胞因子受体相互作用这2条通路,下调基因主要富集于细胞-细胞因子受体相互作用、人乳头瘤病毒感染和PI3K-Akt信号通路。见图2。

2.3 LASSO算法与SVM-RFE算法筛选NPC特征基因

LASSO算法通过正则化惩罚项而压缩模型参数,可以有效筛选掉不重要的特征。采用LASSO算法进行特征选择时,需选择合适的惩罚系数构建模型。一般而言,惩罚系数越大,越容易将不重要的特征系数压缩为0, 但过大的惩罚系数可能导致重要特征被误判为不重要特征,从而影响模型性能。本研究采用10倍交叉验证方法计算最佳惩罚系数,将原始数据集分为10份,每次选择其中9份作为训练数据集,另外1份作为测试数据集,在训练数据集中计算模型的预测准确率,将其作为模型的评估指标。该步骤重复10次可得到10个模型的预测准确率,计算10个模型预测准确率的平均值,根据性能评估指标,选择最佳惩罚系数λ。交叉验证过程中得到的最小惩罚系数λ(lambda.min)能够使模型性能最大化,且受不稳定因素的影响最小,故本研究选择lambda.min作为最佳惩罚系数进行后续模型构建。该惩罚系数将模型初始纳入的自变量系数逐渐压缩,最终GSE53819数据集中31个变量对应的系数中有14个被压缩为0,其余17个变量则可被认为是具有特征性的数据(图3A)。GSE13597数据集中有2个变量对应的系数被压缩为0, 故纳入其余16个变量(图3B)。GTEx-NPC数据集中有1个变量对应的系数被压缩为0, 故纳入其余8个变量(图3C)。基于LASSO算法,本研究从GSE53819、GSE13597、GTEx-NPC数据集中分别筛选出17、16、8个诊断特征基因用于后续研究。

SVM-RFE算法中,本研究首先采用10倍交叉验证方法训练SVM分类器模型,并通过交叉验证结果选择最佳核函数和超参数用于分类模型构建,随后通过RFE算法进行特征选择,该算法可以根据特征的重要性进行逐步筛选,直至筛选出最佳特征数。每次迭代中, SVM-RFE使用SVM进行模型训练,并根据特征权重进行排序,排名最低的特征将被删除,然后重新训练SVM模型,该过程一直持续至达到最佳分类性能。GSE53819数据集经过1 000次迭代后,筛选出8个特征基因(图3D); GSE13597数据集经过1 895次迭代后,筛选出9个特征基因(图3E); GTEx-NPC数据集经过1 920次迭代后,筛选出5个特征基因(图3F)。

分别对GSE53819、GSE13597、GTEx-NPC数据集的LASSO算法与SVM-RFE算法筛选出的特征基因取交集,最终确定3个关键诊断特征基因,分别为HOXA10、AFF3、SHISA3, 且GTEx-NPC数据集取交集后另有1个特征基因PLAU, 见图3G、图3H、图3I。

2.4 关键特征基因诊断NPC的效能验证

分别绘制训练集GSE53819、GSE13597、GTEx-NPC和验证集ICGC-NPC中特征基因诊断NPC的ROC曲线,并通过AUC确定诊断效果。结果显示,特征基因HOXA10、AFF3、SHISA3、PLAU在相应数据集中诊断NPC的AUC均大于0.7, 具有良好的诊断效能。见表1、图4。

表1 训练集和验证集中特征基因对NPC的诊断效能

3 讨 论

NPC是临床中极为常见的恶性肿瘤,早期预测和诊断可为NPC的早期治疗和干预手段选择提供参考,故早期确诊的患者往往具有良好的预后[11]。但NPC患者早期症状不明显,且临床缺乏早期筛查和诊断NPC的有效方法,亦缺乏可用于临床实践的诊断特征基因标志物。因此,探寻具有NPC诊断价值的特征基因标志物十分重要[12]。

LASSO算法可在分类误差最小时找到λ来确定重要变量,该变量可作为诊断特征基因标志物[13]。SVM-RFE算法是一种模式识别与函数估计的机器学习方法,其在统计学习理论和结构风险最小化的框架内运行[14]。作为一种有监督的机器学习方法,SVM被广泛用于分类和模式识别的研究中,其通过建立1个多维超平面进行分类,该超平面通过最大化2个数据簇之间的边距进行最佳分类。SVM算法利用非线性函数——核函数将输入空间转换为多维空间,从而获得较高的分类判断能力[15]。考虑到研究样本有限,为了避免过度拟合,本研究采用RFE算法从元数据队列中选择最佳基因。SVM-RFE算法在小样本分类方面的泛化能力优于神经网络,与惩罚项结合时更不易出现过拟合[16]。本研究采用LASSO算法、SVM-RFE算法筛选诊断特征基因标志物,基于微阵列数据集筛选出HOXA10、SHISA3和AFF3, 基于RNA-Seq数据集筛选出HOXA10、SHISA3、AFF3和PLAU, 进一步通过验证集进行验证,结果显示筛选策略和选取的基因标志物在诊断NPC方面是可靠的。

本研究筛选出的诊断特征基因中,HOXA10在NPC患者样本中高表达,SHISA3和AFF3在NPC患者样本中低表达。研究[17]发现,HOXA10高表达与NPC发生必需的多种致癌基因的转录激活相关,包括S期激酶关联蛋白2(SKP2)、钙/钙调蛋白依赖性蛋白激酶激酶2(CAMKK2)和基质金属蛋白酶1(MMMP1), 提示HOXA10高表达通过转录激活各种致癌途径促进NPC的生长和转移。CHEN Z等[18]通过敲低HOXA10抑制了NPC细胞增殖、侵袭、迁移和上皮-间充质转化,进一步证实HOXA10在NPC病理过程中的重要性。SHISA3被发现能够通过抑制TRIM21介导的SGSM1的泛素化和降解而抑制MAPK通路激活,进而抑制NPC细胞侵袭和转移[19]。AFF3与NPC的关系尚未被阐明,但AFF3被发现在其他癌症的机制、诊断、预后中具有不同作用[20], 这为NPC的后续研究提供了参考方向。研究[21]发现,PLAU通过细胞外基质组织途径促进癌症转移和增殖,且与NPC和头颈部鳞状癌的诊断和预后均显著相关。本研究GO富集分析显示,低表达基因中有大量基因富集于细胞外基质组织途径,进一步证实了该研究[21]结论的可靠性。另有研究[22]表明,敲低MKLK可以抑制PLAU引起的细胞增殖和上皮-间充质转化,减少治疗诱导的放射耐药NPC细胞的侵袭和转移。由此提示,PLAU是改善患者预后的潜在重要靶点。本研究对下调基因进行KEGG富集分析发现,PI3K/Akt信号通路与NPC存在较大相关性。PI3K/Akt是一种经典信号途径,陈彦竹等[23]发现PI3K/Akt/mTOR/AMPK信号通路的突变与NPC患者预后不良有关。另有研究[24]发现,YBX3通过PI3K/Akt信号通路介导NPC的转移,YBX3在多种不同类型的肿瘤细胞中显著上调,这种上调与肿瘤细胞增殖和化疗耐药性有关,且C2orf40通过影响细胞周期和激活PI3K/Akt/mTOR信号通路而抑制NPC细胞转移并调节化学耐药性和放射耐药性。由此提示,该信号通路是NPC治疗的潜在研究方向。

综上所述,本研究基于LASSO算法和SVM-RFE算法筛选出可用于NPC诊断的特征基因标志物,并通过外部验证集验证了其在诊断NPC方面具有良好效能,为NPC的早期诊断提供了有价值的研究依据。未来,研究者们还需进一步对这些基因标志物的相关机制进行研究,以确定基因标志物在NPC中的具体作用。

猜你喜欢

标志物通路系数
这些待定系数你能确定吗?
打雪仗
过年啦
两张图弄懂照明中的“系数”
脓毒症早期诊断标志物的回顾及研究进展
Kisspeptin/GPR54信号通路促使性早熟形成的作用观察
冠状动脉疾病的生物学标志物
proBDNF-p75NTR通路抑制C6细胞增殖
通路快建林翰:对重模式应有再认识
肿瘤标志物在消化系统肿瘤早期诊断中的应用