APP下载

LncRNA-疾病关联预测方法研究

2023-04-05李佳宁

医学信息 2023年4期
关键词:分类器关联矩阵

富 坤,李佳宁

(河北工业大学人工智能与数据科学学院,天津 300401)

经典的分子生物学中心法则将RNA 视为基因与其编码蛋白的中间媒介。根据人类基因组序列分析显示,大部分基因都可以参与转录过程形成对应RNA 产物,但具有蛋白编码功能的基因仅占人类基因组序列的约1.5%,这些非编码基因通过转录产生了大量的非编码RNA 分子[1,2]。其中,序列长度大于200 核苷酸分子的非编码RNA 被称为长链非编码RNA(long non-coding RNA,lncRNA)[3]。越来越多的研究表明[4,5],lncRNA 可以通过碱基互补配对干扰下游基因的表达,参与了人体内包括转录及转录后调控、表观遗传调控、代谢过程和染色体动力学等多种生命进程,并在其中发挥着重要的调控作用。因此,lncRNA 的突变或失调与多种复杂疾病,尤其是各种癌症的产生发展密切相关[6,7]。而采用生物实验验证特定lncRNA-疾病关联代价高昂,缺乏普适性。近年来通过挖掘已知的生物信息数据,采用经典机器学习或新兴深度学习方法设计计算模型预测潜在lncRNA 与疾病关联,逐渐成为生物信息领域的研究热点[8]。采用计算方法识别潜在的lncRNA-疾病关联,不仅可以在lncRNA 分子水平更好地理解各种人类复杂疾病的发生发展机制,也对复杂疾病的诊断、治疗、预后和药物反应预测具有重要价值[9,10]。借助于高速发展的计算机技术以及各种智能计算方法的不断完善,目前已经存在大量的lncRNA-疾病关联预测模型,但每种方法都有其各自的优势与不足。依据不同模型流程与算法的差异,当前主流的预测方法分为以下4 类:基于机器学习的方法,基于生物特征信息的方法,基于信息网络的方法和基于矩阵分解的方法。本文在此分类的基础上介绍了每类方法中的经典模型,并对每类方法的特点以及普遍存在的缺陷进行了总结,旨在系统性地归纳当前lncRNA-基本预测的计算模型,为后续模型的研发提供进一步的改进方向。

1 基于机器学习的预测方法

1.1 LRLSLDA 模型 根据“相似疾病通常与功能相似的lncRNA 相关”这一假设,Chen X等[11]提出了lncRNA-疾病关联预测领域的第1 个计算模型LRLSLDA。该方法基于半监督机器学习框架,采用拉普拉斯正则最小二乘计算特定lncRNA 和相关疾病之间潜在关联的概率得分。利用已知lncRNA-疾病关联、lncRNA 表达谱数据以及高斯相互作用谱核构建了lncRNA 与疾病的相似度矩阵,基于两个相似度矩阵进行拉普拉斯正则化操作,最小化损失函数。分别在lncRNA 空间和疾病空间得到两个优化后的分类器,将两个分类器的预测组合作为关联预测得分的输出。最终预测概率得分矩阵的计算公式为:

其中,FL*和FD*分别代表基于lncRNA 和疾病空间的分类器最优分类函数,1w 为lncRNA 空间分类器的置信权重。F*(i,j)代表矩阵中第i 行的lncRNAli与第j 列的疾病dj间的关联概率。

LRLSLDA 作为一种开创性方法,首次将机器学习分类框架应用于lncRNA 与疾病关联预测领域,为后续模型的开发提供了理论假设基础与借鉴经验。在lncRNA-疾病关联数据数量稀少的情况下,其留一法交叉验证(LOOCV)实验的AUC 值(ROC曲线下方面积)达到了0.776。然而,LRLSLDA 在不同空间下分别计算相似性的思想导致了模型的参数较多,大量参数只能依靠经验知识预设,限制了模型预测性能的进一步提升。此外,矩阵正则化操作的计算时间复杂度较高,难以适应当前快速增长的人类基因组学数据。

1.2 CFNBC 模型 基于LRLSLDA 方法的理论假设,Yu J等[12]融合朴素贝叶斯分类器和协同过滤模型提出了CFNBC 预测模型。该模型基于已知的lncRNA-疾病关联、lncRNA-miRNA 关联和miRNA-疾病关联搭建原始的三部网络(tripartite network),之后利用基于项目的协同过滤推荐算法更新原始网络,将更新后网络输入朴素贝叶斯分类器,完成预测任务。该模型的创新在于应用协同过滤算法丰富了原始网络中lncRNA-疾病关联,使得最终的预测结果不完全依赖于已知的lncRNA 与疾病关联数据,在一定程度上抵消了已知关联稀疏性的影响。在LOOCV实验中,CFNBC方法的AUC值达到了0.86,对比当时主流的lncRNA-疾病关联预测模型,预测性能提升明显。但是,基于朴素贝叶斯分类器模型的训练过程中,需要不存在关联关系的lncRNA-疾病对作为负样本输入,模型基于随机采样收集的负样本极有可能存在尚不知晓的关联,进而影响分类器的预测准确率。

1.3 基于深度学习的预测方法 深度学习作为机器学习的一个重要分支,已然成为机器学习研究的热点问题。许多成熟的深度学习模型,如全连接网络、卷积神经网络、生成对抗网络等,已经被成功应用于lncRNA-疾病关联预测任务中[13-15]。如Xuan P等[16,17]基于带注意力的双卷积神经网络和混合图卷积网络与卷积神经网络的方法提出两个预测框架。这两个模型的基本思想都是利用不同的神经网络模型提取隐含不同生物特征的lncRNA 和疾病节点表示,实现lncRNA-疾病关联预测。Wu QW 等[18]优化了Xuan P等[16,17]提出的第2 个混合模型,仅利用图卷机提取的节点对特征和随机森林分类器,实现了较之前模型更为优秀的预测效果。不同于传统的机器学习分类器,深度学习仅依靠输入简单的关联特征或相似性数据就可以直接得到预测结果,不需要收集负样本,避免了随机负样本带来的训练误差。但同样受限于多源异构数据的差异以及数据规模问题,大部分深度网络模型难以依靠现有数据,有效挖掘深层的lncRNA-疾病关联信息,但其依旧是当前主流预测方法的一个重要研究发展方向。

2 基于生物特征信息的预测方法

基于生物特征信息预测lncRNA-疾病关联的方法大都出现在关联预测模型研究早期,每种方法都依托于不同的生物研究证实理论或提出的合理假说,需要特定的专业先验设计模型。因此,这类方法一般普适性较差,只能对当前研究较为充分,或能够使相应假说成立的lncRNA 与疾病关联进行预测[19]。本文介绍了两种早期经典方法,分别基于lncRNA基因组位置和lncRNA 组织特异性相关理论实现关联预测任务。

2.1 基于基因组位置的lncRNA 与心血管疾病预测方法 Li J等[20]基于lncRNA 的基因组位置信息,提出预测与心血管疾病相关lncRNA 的方法。该方法收集了与心血管疾病相关的基因数据、单核苷酸突变(SNP)关联数据,并通过关键词检索提取与心血管疾病相关的基因本体(GO)术语,得到GO 基因位置前后50 kb 内的lncRNA 转录位点,认为在此范围内的lncRNA 与心血管疾病具有较高的关联可能性。利用该方法预测出的10 个与血管平滑肌细胞增殖和迁移关联的lncRNA 中,有8 个得到了相关文献证实,证明了模型的有效性。此方法的缺点主要是应用范围有限,实验数据与流程设计仅针对心血管疾病相关的lncRNA 预测,无法对lncRNA 与其他疾病关联进行预测。另一方面,基于基因组位置与功能相似性的假设同样具有局限性,并非所有的lncRNA 都具有相邻基因,相邻基因也不一定全部具备相似功能。

2.2 基于lncRNA 组织特异性的相关疾病预测方法基于人类基因表达谱数据lncRNA 表达谱数据和基因-疾病关联数据,Liu MX等[21]根据lncRNA 的组织特异性特征提出了一种全新的lncRNA-疾病关联预测模型。该模型根据lncRNA 在各不同组织中的表达量得到lncRNA 的组织特异性得分,按照设定阈值将lncRNA 分为组织特异lncRNA 和非组织特异lncRNA,对两类lncRNA 分别设计不同的方法流程进行关联预测。对于组织特异的lncRNA,认为该lncRNA 关联与该组织相关的所有疾病;对于非组织特异lncRNA,通过表达数据计算lncRNA 和基因的斯皮尔曼相关系数,得到lncRNA 与基因的共表达关系,再利用lncRNA 与疾病共同关联的基因集作为桥梁进行超几何分布富集分析,量化该关联存在的概率。该模型交叉验证的AUC 值达到了0.7645。在针对组织特异性lncRNA 进行的案例分析结果中,在预测概率得分前10 的lncRNA 中,有4 个得到了相关文献证实,而对于非组织特异性lncRNA,预测的36 个关联中有32 个得到了相关文献证实。

3 基于信息网络的预测方法

数据的网络结构可以天然地表示lncRNA 与各种生物分子间的相互作用,基于网络拓扑结构和节点属性信息的关联预测方法也成为了lncRNA-疾病关联预测方法中的一个重要分支[22,23]。此类方法可以高效地集成大规模的多源异构网络数据,通常利用信息传播或随机游走的网络发现算法实现网络中节点的关联预测[24]。相比于基于机器学习的集成模型或深度模型,该类方法的时间复杂度要低很多,可以更好地适应快速增长的网络数据。但是,多源数据间的差异集成以及大规模网络的融合是此类方法函待解决的问题。

3.1 RWRlncD 模型 随着生物大数据时代的到来,出现了海量的生物网络数据,研究者们借助不断完善的网络表示学习算法,设计了一系列基于lncRNA相关信息网络的预测方法,其中早期的典型方法有Yang X 等[25]提出的RWRlncD 模型。通过集成lncRNA-疾病关联、基因-疾病关联数据,将lncRNA映射为非编码基因,构建了一个编码-非编码基因-疾病二分网络。然后,利用传播算法来寻找该网络中隐藏的lncRNA-疾病关联。RWRlncD 方法以网络的形式整合多种关联数据,从网络投影的角度解释了关联数据中隐含的同类节点间相似性关联。对103种疾病进行的LOOCV 预测评估实验中,AUC 值达到了0.7881。但由于二分网络整合的关联数据有限,模型采用的传播算法难以挖掘网络中深层的隐含关联信息,这可能是导致RWRlncD 方法预测准确率较低的原因。

3.2 BRWLDA 模型 基于大规模异构网络,Yu G等[26]基于双向随机游走算法,提出了经典的BRWLDA模型。该模型利用miRNA-疾病关联,miRNAlncRNA 关联和lncRNA-疾病关联数据构建了lncRNA 功能相似性网络,在此网络的基础上融合疾病相似性网络以及lncRNA-疾病关联,构建了一个定向双关系网络。在网络上应用双向随机游走方法挖掘潜在的lncRNA-疾病关联。该研究表明,BRWLDA在LOOCV 评估实验以及具有掩蔽关联的模拟实验中的表现,都要比当时主流预测方法更加准确、可靠。此外,通过对lncRNA 功能相似性网络设计的消融实验,证明了3 个子网络对模型预测性能的提升都起到了增益作用。

4 基于矩阵分解的预测方法

矩阵分解方法原理简单,目前已经有许多预测模型通过利用矩阵分解方法处理数据、提取特征,实现潜在lncRNA 与疾病关联的预测[27,28]。此类方法的基本思想是利用多源数据集成来弥补数据稀疏性的影响,采用矩阵分解方法得到数据在低维空间中的表示。在参数优化阶段,通过最小化低维特征还原矩阵与原关联矩阵的损失函数实现优化,输出补全后的关联矩阵,为每个lncRNA 与疾病之间的关联概率赋值[29]。此类方法的不足主要体现在矩阵分解算法效率不高,难以应用于大规模数据下的关联预测任务中。

4.1 MFLDA 模型 Fu G等[30]基于矩阵分解方法提出了lncRNA-疾病关联预测模型MFLDA。该模型通过矩阵三角分解,将异构的多源关联矩阵分解为低秩矩阵,深入挖掘数据间存在的共有信息。MFLDA 为不同来源的数据分配权重、选择集成数据集,采用迭代策略优化权重和低秩矩阵,使用优化后的低秩矩阵重构原来稀疏的lncRNA-疾病关联矩阵,识别潜在lncRNA-疾病关联。在5 折交叉验证实验中,MFLDA 预测的AUC 值为0.7408。在乳腺癌,肺癌和胃癌的案例分析中,该模型预测的45 个关联中有38 个得到了相关文献证明。同时,作为一个通用的数据融合框架,MFLDA 也可用来预测其他生物实体间的关联。

4.2 PMFILDA 模型 Xuan Z等[31]采用概率矩阵分解形式,提出预测lncRNA-疾病关联的PMFILDA 模型。该模型基于lncRNA-疾病关联网络、lncRNAmiRNA 关联网络和miRNA-疾病关联网络构建了一个lncRNA-疾病加权关联网络,通过基于网络节点间相似性的k-近邻算法进一步更新网络中的关联权重,根据更新的lncRN-疾病加权网络以概率矩阵分解方法预测潜在lncRNA-疾病关联。LOOCV 验证实验结果表明,PMFILDA 模型预测的AUC 值达到了0.8794。在案例分析实验中,PMFILDA 模型的表现同样优秀。同样,该方法涉及到数据集成流程,多源数据间的不一致的问题尚未得到合理解决。

5 总结

本文在对模型进行分类的基础上,介绍了当前lncRNA-疾病关联预测领域中的几种主流计算模型。通过以上介绍与分析,可以发现每种方法都有各自的优势与不足。早期基于生物特征信息方法的模型准确率与扩展性往往不尽如人意,当前主流的基于机器学习与矩阵分解方法的模型具有较高的时间复杂度,使其难以适应快速扩充的生物信息数据。基于信息网络上随机游走或信息传播方法的模型在集成多源数据后,依旧有着不错的运算效率与预测精度,但是仍要面对多源数据间的差异冗余与数据稀疏性问题。随着生物信息数据的快速扩充,基于深度学习的预测模型可能挖掘出lncRNA 与疾病之间的深度关联信息,有望为探究lncRNA 的失调与疾病产生调控机制提供数据支撑,有望成为机器学习类方法研究的新方向。

猜你喜欢

分类器关联矩阵
“一带一路”递进,关联民生更紧
BP-GA光照分类器在车道线识别中的应用
奇趣搭配
智趣
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
初等行变换与初等列变换并用求逆矩阵
矩阵
矩阵
矩阵