双自编码结合变分贝叶斯的单细胞RNA-Seq聚类
2024-09-28贾继华许耀奎王明辉
摘 要:近年来单细胞RNA测序(scRNA-seq)技术的快速发展使得在单个细胞水平上研究组织器官的异质性成为可能。针对单细胞RNA测序数据中准确鉴定细胞类型问题,提出一种新的基于双自编码结合变分贝叶斯高斯混合模型的聚类方法,称之为sc-VBDAE。首先通过对抗自编码网络的编码和解码过程重构数据,然后使用经典自编码对数据进行降维,获得低维且有效的数据。最后使用变分贝叶斯高斯混合模型对细胞进行聚类,并可视化聚类结果。在10个scRNA-seq 数据上的实验结果表明,该方法在6个数据集上ARI指标均优于其它方法,在数据集Biase和Klein上ARI指标值达到0.90及以上。
关键词:单细胞RNA测序;对抗自编码;自编码网络;变分贝叶斯;细胞聚类
DOI:10.15938/j.jhust.2024.03.015
中图分类号: Q811.4
文献标志码: A
文章编号: 1007-2683(2024)03-0125-09
Single-cell RNA-Seq Clustering Based
on Dual Autoencoder with Variational Bayes
JIA Jihua, XU Yaokui, WANG Minghui
(College of Mathematics and Physics, Qingdao University of Science and Technology, Qingdao 266061, China)
Abstract:In recent years, the rapid development of single-cell RNA sequencing(scRNA-seq) technology has made it possible to research the heterogeneity of tissues and organs at the single-cell level. To accurately identify cell types in scRNA-seq data, based on dual autoencoder combined with variational Bayesian Gaussian mixture mode, a new clustering method, sc-VBDAE, is proposed. First, through the encoding and decoding process in adversarial autoencoder network, the scRNA-seq data is reconstructed. Then, the autoencoder network is used to reduce the dimensionality of the data, so as to obtain low-dimensional and effective scRNA-seq data. Finally, the variational Bayesian Gaussian mixture model is used to cluster the cells and visualize the clustering results. The experimental results on ten scRNA-seq datasets show that the ARI index of the proposed method is superior to other methods on six datasets, and the ARI index value on Biase and Klein datasets reaches 0.90 or above.
Keywords:single-cell RNA sequencing; adversarial autoencoder; autoencoder network; variational Bayes; cell clustering
0 引 言
转录组测序技术 (RNA-seq) 是转录组图谱分析的重要技术,然而传统的RNA-seq技术只能从整体水平研究基因功能和基因结构。近几年开发的新一代高通量单细胞RNA测序 (scRNA-seq) 技术,由于可以独立提供单个细胞的 RNA 表达谱,这允许研究人员在单个细胞水平上分析细胞异质性和转录组异质性,使其成为在单细胞规模上研究转录组学的有力工具。随着STRT-Seq[1],smart-seq2[2],Drop-seq[3]等新的scRNA-seq技术的提出,scRNA-seq 的应用方向越来越广泛,例如研究癌细胞组织内异质性,神经元亚型的鉴定和探索肿瘤细胞的表型状态。
与此同时,scRNA-seq的发展给人们带来了新的机遇,但仍然面临着诸多挑战。比如,许多现有的无监督方法在细胞聚类性能的检验方面存在较大的局限性。此外,还有dropout事件和维数灾难等问题。相较于传统的bulk RNA-seq数据,scRNA-seq数据中包含大量的dropout event,这使得表达值为零。在测序过程中,测序技术的偏差以及转录组的较低读数都会导致dropout event,在统计数据过程中,低表达值的基因缺失也会造成dropout event。这些高水平的技术噪声以及统计噪声导致无法捕获准确的基因表达,给scRNA-seq研究带来巨大困难。
为了解决dropout事件和维数灾难等对 scRNA-seq 研究带来的负面影响,研究者们提出了很多基于重构的方法。Wang等[4]利用深层自动编码器和贝叶斯模型,提取来自不同条件之间的基因-基因关系,以对新数据集去噪。David等[5]通过数据扩散来共享相似细胞之间的信息,提出MAGIC算法对scRNA-seq数据矩阵的缺失值进行处理,减轻dropout event造成的影响并提高scRNA-seq数据的分析能力。通过考虑细胞水平上的相关性,Kwak等[6]提出DrImpute技术估算dropout event。该方法在区分丢失零与真实零的方面具有更好的性能并改善聚类和可视化。Li等[7]通过借用其它相似细胞中相同基因的信息来估算细胞中基因的缺失值。这些方法处理单细胞数据时均取得不错的结果。Prabhakaran等[8]和Linderman等[9]都利用t-SNE作为分析scRNA-seq数据的有力工具。Becht等[10]将UMAP应用于scRNA-seq数据研究,实现快速计算并具有很高的重现性。K-means算法[11-12]是一种基于划分的聚类算法,把数据对象之间的距离作为相似性度量,通常对象之间距离越小越有可能在同一个簇。Yang等[13]利用迭代K-means聚类对参数进行详尽搜索找到最优参数。另一种常用的聚类算法是通过计算不同数据点间的相似度来生成聚类簇的层次聚类。Zheng等[14]基于Spectral clustering在相似矩阵上添加低秩和非负结构,提出了SinNLRR。Wang等[15]基于Spectral clustering提出了SIMLR算法,通过多核学习从基因表达数据中学习细胞间距离度量并构建相似性矩阵,不仅提高聚类效果并且可以有效地适应多个下游步骤。
为了更好地分析scRNA-seq数据中dropout events,获得能更好表示scRNA-seq数据本质特征的低维数据以及准确将细胞聚类,本文提出了一种基于双自编码结合变分贝叶斯和高斯混合模型的聚类方法来分析scRNA-seq 数据的方法,称之为 sc-VBDAE。首先使用对抗自编码网络学习数据特征,对scRNA-seq数据进行有效重构,去除数据中的冗余信息,提高scRNA-seq数据的基因表达能力。其次利用经典自编码对重构后的数据进行降维,获取低维数据从而提高scRNA-seq数据分析效率。最后利用变分贝叶斯高斯混合模型揭示 scRNA-seq数据内部结构,更准确的聚类细胞。本文在十个公开的scRNA-seq数据集上测试 sc-VBDAE的性能并与其它方法进行比较,结果表明sc-VBDAE聚类性能略优于其它聚类方法。
1 方 法
本文基于双自编码网络和变分贝叶斯高斯混合聚类,构建一个新的聚类模型 sc-VBDAE。sc-VBDAE主要包括4部分:①scRNA-seq 数据预处理;②对抗自编码网络重构基因表达数据;③经典自编码网络对重构后的数据降维;④变分贝叶斯高斯混合模型聚类细胞。sc-VBDAE具体流程如图1所示。
sc-VBDAE模型可以分为4个过程:
1)数据预处理过程。首先,通过基因筛选去除表达值中0值数量超过 95% 的基因。然后对过滤后的数据集进行log转换。在每个数据集中,列代表细胞,行代表基因。
2)数据重构过程。以预处理后的 scRNA-seq 表达矩阵输入对抗自编码器网络,通过编码器和解码器的处理过程获得重构后的数据。
3)降维过程。将重构后的数据输入到经典自编码中。自编码器由输入层,3个隐藏层和输出层构成,通过无监督训练有监督调优的两阶段方法对网络参数进行调优,去除冗余信息后获得降维数据。
4)聚类过程。结合变分贝叶斯高斯混合模型对细胞进行聚类,使用Bayesian Gaussian Mixture 函数,最后将聚类结果通过 t-SNE 可视化。
1.1 自编码网络
自编码网络[16]是处理scRNA-seq数据常用的深度学习方法。本文对经典自编码进行训练,利用瓶颈层神经元具有较少个数的特点,从而对高维数据进行有效降维。经典自编码网络包括输入层,隐含层和输出层。从输入层到隐含层的过程是编码过程,从隐含层到输出层的过程是解码过程。编码是将原始scRNA-seq数据x∈Rm映射到隐含表示h(x)∈Rn的过程,可以表示为
h(x)=σh(Wx+b)(1)
其中W∈Rn×m为编码权值矩阵;b∈Rn为编码偏置向量;σh(x)为激活函数。
解码是将隐含表示h(x)映射到输出层o,对原始scRNA-seq数据x重构的过程,可以表示为
o=σo(W′h(x)+b′)(2)
其中:W′∈Rm×n为解码权值矩阵;b′∈Rm为解码偏置向量;σo(x)为激活函数。
原始数据与重构数据之间的压缩损失函数表示为
L=12∑‖y-x‖2(3)
其中:x∈Rm为原始scRNA-seq数据;y∈Rm为重构数据。
隐含层为具有对称性质的互相连接的三层神经网络。自编码器的各层输出函数可以表示为
h1=σh1(W1x+b1)
hk=σhk(Wkhk-1+bk),k=2,3
o=σo(W4h3+b4)(4)
其中:W1、Wk、W4为相应的权值矩阵;b1、bk、b4为相应的偏置。
经过从编码到解码的过程后,再通过无监督训练有监督调优的两阶段方法对网络参数进行调优。通过两阶段方法调优,提高了自编码器的学习效果,且提高了学习速度和泛化性能。
1.2 对抗编码网络
对抗自编码器[17]是一种正则化自编码器的新方法,思想是同时训练两个神经网络 (生成器G和判别器D),在它们之间建立一个最小-最大对抗博弈。生成器G(z)逐步学会把样本z从先验分布p(z)到数据空间,在鉴别器D(x)训练数据中区分数据点之间的空间采样与实际数据分布和鉴别器产生的数据点。假设训练G(z),利用D(x)相对于x的梯度修改其参数,使其完全混淆判别器与其生成的样本。该算法可以形式化为如下类型的极大极小目标,见式 (5):
minGmaxDEX~pdata[logD(X)]+Ez~p(z)[log(1-D(G(z)))](5)
其中:Pdata为数据分布;p(z)为模型分布。
对抗自编码通过将聚合后验q(z)与任意先验p(z)匹配来实现。为了做到这一点,在自动编码器的隐藏层向量上附加了一个对抗网络,与此同时,自动编码器试图将重构误差最小化。对抗网络的产生者也是自动编码器q(z|x)的编码器。该编码器保证聚合后验分布能够欺骗判别对抗网络,使其认为聚合后验q(z)来自于真实的先验分布p(z)。且对抗网络和对抗自编码器的训练都是与SGD联合进行的,在每个小批量上分别执行重构阶段和正则化阶段[18]。在重构阶段,自动编码器更新编码器和解码器,使输入的重构误差最小化。在正则化阶段[18],对抗网络先更新其判别网络,以区分真实样本 (使用先验生成) 和生成样本,然后对抗网络更新它的生成器以混淆判别器。
设x为带有深度编码器和解码器的自动编码器的输入,z为潜在的代码向量 (隐藏单位)。设p(z)为希望施加在码上的先验分布,q(z|x)为编码分布,p(x|z)为解码分布。设pd(x)为数据分布,p(x)为模型分布。对抗自编码器q(z|x)的编码函数定义了q(z)在对抗自编码器隐藏层向量上的后验聚集分布,如式(6)所示:
q(z)=∫Xq(z|X)pd(X)dX(6)
生成器G和判别器D都可以被搭建成完全连接的神经网络,然后用一个合适的优化器进行反向传播训练。本文使用了自适应矩估计算法(Adam),这是对随机梯度下降的扩展。一旦训练过程完成,自动编码器的解码器将定义生成模型,将施加的先验p(z)映射到数据分布。
1.3 高斯混合模型的变分贝叶斯
变分贝叶斯可以看做是期望最大化算法 (EM)的扩展,因为它也是采用极大后验估计 (MAP)。另外,变分贝叶斯也通过一组相互依赖 (mutually dependent) 的等式进行不断的迭代来获得最优解。这类实现了两种类型的权重分布的先验:有限混合模型的Dirichlet分布和无限混合模型的Dirichlet过程。在实践中,Dirichlet过程推理算法是近似的,并使用具有固定最大组件数量的截断分布。实际使用的聚类数量几乎总是取决于数据。对于变分贝叶斯高斯混合模型,本文使用 sklearn.mixture 模块的 Bayesian Gaussian Mixture 函数,并将参数 n_components 设置为数据集中已知细胞类型的个数,其它参数默认。
1.4 实验评价指标
为评估聚类方法的性能,本研究选择4个常用的聚类评价指标:标准化互信息 (NMI)[19],调整后的兰德指数 (ARI)[20],Homogeneity[21]和 Completeness[21]。4个指标均是根据聚类方法得到的预测标签与数据集中提供的真实标签进行计算得到。
NMI:互信息 (MI) 是通过聚类标签和预测标签的熵来度量两个集合之间相关程度的指标,标准化互信息 (NMI) 通过计算聚类结果与真实划分之间的差异比率,用于检测聚类结果的准确性。NMI是衡量聚类结果好坏的常用指标之一。通过聚类方法预测的标签和真实标签的信息熵以及互信息来计算 NMI。NMI的范围是 (0,1),NMI越接1近说明聚类结果越准确。假设共有N个样本,U,V分别是预测结果标签和真实标签,NMI 可以表示为
NMI(U,V)=MI(U,V)H(U)H(V)(7)
H(U)=-∑|U|i=1P(i)log(P(i))(8)
H(V)=-∑|V|j=1P(j)log(P(j))(9)
其中H(U)和H(V)分别是U和V的熵。U和V的互信息如式(10)所示:
MI(U,V)=∑|U|i=1∑|V|j=1P(i,j)log(P(i,j)P(i)P(j))(10)
其中:P(i)为样本属于Ui的概率;P(j)为样本属于Vj的概率;P(i,j)为样本属于Ui和Vj的概率。
ARI:兰德指数 (RI) 通过预测结果和真实聚类中分配在相同或不同簇中的标签对来计算两个聚类之间的相似性。调整后的兰德指数 (ARI) 是RI调整后的指标,ARI比RI具有更高的区分度。ARI也是度量聚类结果的一个重要指标,ARI与NMI不同之处在于,ARI是比较两种聚类结果之间的吻合程度。两者计算方式也不同,ARI只需真实标签和预测标签。ARI的范围是 (-1,1),ARI值越大意味着聚类结果与真实结果越吻合。
假设N是样本数量,U,V分别为预测结果标签和真实标签,Nij表示在U中i类和V中j类重叠的个数,ai表示出现在U中i类的数量,bj表示出现在V中j类的数量。ARI定义如式(11)所示:
ARI=∑ijNij2-∑iai2∑jbj2N2
12∑iai2+∑jbj2-∑iai2∑jbj2N2(11)
Homogeneity:如果聚类结果中所有的簇都只包含属于单个簇的细胞,则聚类结果满足同质性。假设H(V|U)是簇U分配到簇V的细胞类型条件熵,H(V)是簇V的熵,homogeneity的定义如式(12)所示:
homogeneity=1-H(V|U)H(V)(12)
H(V|U)=-∑|V|v=1∑|U|u=1Nv,uNlog(Nv,uNu)(13)
H(V)=-∑|V|v=1NvNlog(NvN)(14)
其中:N为样本总数;Nu为属于簇U的样本数;Nv为属于簇V的样本数;Nv,u为从簇V分配到簇U的样本数。
Completeness:如果聚类结果的簇中所有细胞都是属于同一簇,则聚类结果满足完整性。completeness 的定义如式(15)所示:
completeness=1-H(U|V)H(U)(15)
同质性和完整性都是基于条件熵的互信息分数来衡量簇向量间的相似度,两者的范围都是 (0,1),并且数值越大说明聚类效果越好。需要注意簇标签值的排列不会更改分数值。
2 实 验
2.1 数据与预处理
为了评估sc-VBDAE方法的性能,本文使用了10个公开的scRNA-seq数据集,数据集分别来自人类和小鼠的细胞。所有数据集均提供每个样本细胞所属细胞类型的高度可信的标签,它们被用来与聚类的预测标签作对比。数据集先通过基因筛选,去除表达值中0值超过95%的基因。然后对筛选后的数据进行log转换处理。每个数据集中列代表细胞,行代表基因。前9个数据集均来自 https://hemberg-lab.github.io/scRNA.seq.datasets/ 网站。第10个数据集是来自3名COVID-19患者和3名相关对照者的pbmc的数据,该数据集可以从BIG data Centre的GSA下载,登录号为CRA002390;10个 scRNA-seq 数据集的具体信息如表 1 所示。
2.2 对抗自编码网络性能分析
为评估sc-VBDAE中对抗自编码网络的性能,本文探究了去除sc-VBDAE中对抗自编码网络重构数据 (No auto) 对模型性能的影响,即直接对scRNA-seq数据进行自编码降维和变分贝叶斯高斯混合模型对细胞进行聚类。
sc-VBDAE 和No auto 模型输出得到的 ARI 聚类指标如图2所示。从图中可以明显看出,使用对抗自编码重构后的数据在8个数据集上可以明显提升聚类性能,在 Goolam 数据集和 Darman 数据集上略微提升了聚类性能。
为了进一步测试 sc-VBDAE中对抗自编码网络的性能,将有无对抗自编码网络的两种模型在10个scRNA-seq 数据集上的聚类结果绘制成基因表达热图。从热图可以清晰地看到每种细胞类型的聚类情况,而且可以得到每种细胞类型相应的标记基因。图3为对比两种聚类模型的基因表达热图,从图上可得,虽然 progenitor1 和 neuron2 的标记基因基本类似,但是sc-VBDAE 模型的progenitor12 和 mesenchyme 的标记基因和 No auto 差距很大。正是不同的标记基因导致两种模型的聚类结果不同,根据两种模型的聚类结果对比显然 sc-VBDAE 结果更优。这是由于对抗自编码网络重构 scRNA-seq 数据后,减轻了数据中的 dropout 事件并提高了标记基因的表达值 (由热图可知),更容易根据标记基因聚类细胞以及进行其它下游分析。
通过以上结果分析可知,对抗自编码网络通过对scRNA-seq数据表达矩阵进行重构,提高了基因的表达值,不仅更容易识别标记基因,而且提高聚类的准确性。sc-VBDAE通过对抗自编码网络对 scRNA-seq 数据进行重构,使数据具有更强的特征学习能力,进而提高了 sc-VBDAE 的数据分析能力。可见,对抗自编码网络可以准确分析scRNA-seq 数据,对scRNA-seq数据集的研究具有重要意义。
2.3 自动编码网络的性能分析
为评估Autoencoder network对模型性能的影响,本文将重构后的数据集作为输入,将 sc-VBDAE 中的 Autoencoder network (AE) 分别替换为PCA[22],t-SNE[23],UMAP[10]和ZIFA[24],再对降维后的数据进行聚类。其中PCA 和 t-SNE 使用 sklearn[25]包中的函数,PCA 的n_components 参数与 Autoencoder network 参数相同,t-SNE 的 perplexity 参数设置为样本中细胞数量的 0.2 倍。对于 ZIFA,维数参数k与Autoencoder network的参数 n_components 一致。UMAP 使用模型默认参数。5种方法在10个数据集上得到的 ARI 如表2所示。
由表2可以看出,在10个scRNA-seq数据集上,Autoencoder network的 ARI值几乎均高于其他4种降维方法的指标值,这说明 Autoencoder network比另外四种降维方法更有效地捕获这10个scRNA-seq数据中重要的独立特征。sc-VBDAE利用Autoencoder network得到scRNA-seq数据中的关键独立信息,降低数据维数并减少数据冗余。不仅为scRNA-seq数据分析提高了效率,而且使聚类结果更加准确。可见sc-VBDAE结合Autoencoder network降维scRNA-seq数据的性能优于另外4种方法。
2.4 聚类性能分析
为测试 sc-VBDAE 的聚类性能,本文将scScope[26],SIMLR[27],SNN-cliq[28],Seurat[29],scGMAI[30]和sc-VBDAE分别在10个scRNA-seq数据集上运行,并分析比较6种模型的4个度量指标。对于sc-VBDAE的变分贝叶斯高斯混合模型,本研究使用sklearn包中的函数,其中的n_components参数选择数据集提供的细胞类型个数,其它参数默认。SIMLR,scScope,scGMAI,SNN-cliq和Seurat均使用模型默认参数。6种聚类模型在10个数据集上的ARI结果如表3所示。
由表3可知,sc-VBDAE在十个scRNA-seq数据集上的ARI指标均超过了scScope,SNN-cliq,SiMLR和Seurat 4种聚类方法。除了Biase数据集,Camp2数据集,Goolam数据集和Klein数据集外,其余6个数据集的ARI指标也均超过scGMAI方法,特别的,在Darmanis数据集ARI指标值比其他模型高0.49~0.06,在Deng数据集ARI指标值比其他模型高0.61~0.07,在Baron1数据集ARI指标值比其他模型高0.38~0.09,这说明sc-VBDAE的聚类性能优于现存的聚类模型。而且sc-VBDAE的NMI,homogeneity和completeness也优于其它聚类方法。通过四种性能度量指标说明sc-VBDAE的聚类更加准确,与真实情况更加吻合。
相比于其它聚类方法,变分贝叶斯高斯混合聚类是一种基于统计的聚类模型,而且采用后验概率可以比先验概率更准确地模拟数据的分布。通过统计方法计算细胞簇之间的分布结构,揭示scRNA-seq数据内部性质及规律并更准确的聚类细胞。可见,sc-VBDAE是从scRNA-seq数据中准确聚类细胞并识别细胞类型的有力工具。
2.5 细胞轨迹的推断
除了通过聚类描述细胞外,scRNA-seq还可以通过时间进程或发育阶段 (即细胞轨迹) 来描述细胞。一般来说,轨迹分析首先降低scRNA-seq数据集的维数,然后推测细胞的分化轨迹,最后将每个细胞投射到该轨迹的适当位置。尽管单细胞实验可以阐明各种生物环境中的轨迹,但没有一种单细胞轨迹推断方法可以解释dropout事件。人们推测,在重构后的scRNA-seq数据上推断细胞轨迹可以提高伪时间分析的准确性。
图4利用了细胞从NPC分化到GW21+3时间过程的scRNA-seq数据,然后使用Mococle 包重建细胞分化轨迹。从图中可以明显看出和聚类结果对应的分化轨迹。结果表明sc-VBDAE可以很好地捕获scRNA-seq数据的主要特征并准确聚类细胞,有助于模拟分析单细胞数据分化轨迹和恢复基因表达的时间动态。
3 结 论
随着越来越多单细胞RNA测序技术 (scRNA-seq) 的研发,允许从稀有细胞或者难以获得的细胞中获取基因表达信息,在单个细胞水平上揭示更多未知疾病来源以及其它生物学问题。但是很多挑战同时存在,比如维数灾难,dropout event以及更准确的细胞聚类。
针对 scRNA-seq 研究中遇到的挑战,本文基于对抗自编码网络和经典自编码并结合变分贝叶斯高斯混合聚类,提出了一种新的聚类 scRNA-seq数据的模型,称为sc-VBDAE。对抗自编码网络的编码和解码过程可以去除冗余信息,学习scRNA-seq数据特征并减轻 dropout events,提高scRNA-seq数据的分析效率。sc-VBDAE 利用对抗自编码网络重构数据,不仅提高聚类结果和可视化性能,而且更准确的识别细胞簇的标记基因,为scRNA-seq下游分析提供强有力帮助。scRNA-seq数据具有既相互独立又相互联系的特点,自编码网络可以根据数据之间的相互联系选择scRNA-seq数据中具有关键独立性的特征,形成代表数据本质特征的潜在低维空间。并且自编码网络具有快速计算和处理海量数据的能力,从而提高了scRNA-seq分析效率。变分贝叶斯高斯混合模型使用概率模型描述聚类原型,可以很好地模拟scRNA-seq数据分布,更准确的揭示scRNA-seq数据内在性质及规律。通过比较6种聚类方法在10个scRNA-seq数据集上的性能度量指标。结果显示sc-VBDAE的聚类性能优于其它5种scRNA-seq聚类方法。
特别的,本文首次使用对抗自编码网络对scRNA-seq数据进行重构,不仅提高了模型聚类scRNA-seq数据的精度,而且为 scRNA-seq 数据得到以及其它生物领域研究提供新的方法。尽管sc-VBDAE可以有效聚类并鉴定 scRNA-seq 数据中细胞类型,但仍然存在一定的提升空间。下一步我们将会使用更高效的深度学习方法得到 scRNA-seq 数据信息,进一步提高 scRNA-seq 数据的聚类精度。
参 考 文 献:
[1] ISLAM S, KJLLQUIST U, MOLINER A, et al. Highly Multiplexed and Strand-specific Single-cell RNA 5′ End Sequencing[J]. Nature Protocols, 2012, 7(5):813.
[2] PICELLI S, BJORKLUND K, FARIDANI O R, et al. Smart-seq2 for Sensitive Full-length Transcriptome Profiling in Single Cells[J]. Nature Methods, 2013, 10(11):1096.
[3] MACOSKO E Z, BASU A, SATIJA R, et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets[J]. Cell, 2015, 161(5):1202.
[4] WANG Jingshu, AGARWAL D, Huang Mo, et al. Data Denoising with Transfer Learning in Single-cell Transcriptomics[J]. Nature Methods, 2019, 16(9):875.
[5] DAVID V D, ROSHAN S, JUOZAS N, et al. Recovering Gene Interactions from Single-Cell Data Using Data Diffusion[J]. Social Science Electronic Publishing, 2018:S0092867418307244.
[6] KWAK I Y, GONG Wuming, KOYANO-NAKAGAWA N, et al. DrImpute: Imputing Dropout Events in Single Cell RNA Sequencing Data[J]. Cold Spring Harbor Laboratory, 2017, 19(1):220.
[7] LI W V, LI J J. An Accurate and Robust Imputation Method ScImpute for Single-cell RNA-seq Data[J]. Nature Communications, 2018, 9(1):1.
[8] PRABHAKARAN S, AZIZI E, CARR A, et al. Dirichlet Process Mixture Model for Correcting Technical Variation in Single-cell Gene Expression Data[C]. International Conference on International Conference on Machine Learning. JMLR.org, 2016: 1070.
[9] LINDERMAN G C, RACHHM, HOSKINS J G, et al. Fast Interpolation-based t-SNE for Improved Visualization of Single-cell RNA-seq Data[J]. Nature Methods, 2019, 16(3):243.
[10]BECHT E, MCINNES L, HEALY J, et al. Dimensionality Reduction for Visualizing Single-cell Data Using UMAP[J]. Nature Biotechnology, 2018, 37(1):38.
[11]HARTIGAN J A, WONG M A. A k-means Clustering Algorithm. Applied Statistics[J]. Algorithms, 1978, 1326(28):100.
[12]王宁, 陈晨, 陈德运, 等. 哼唱检索中旋律特征的聚类与优化方法[J]. 哈尔滨理工大学学报,2022,27(1):61.
WANG Ning, CHEN Chen, CHEN Deyuan, et al. Melody Feature Clustering and Optimization for Query-by-humming[J]. Journal of Harbin University of Science and Technology,2022,27(1):61.
[13]YANG Lu, LIU Jiancheng, LU Qiang, et al. SAIC: An Iterative Clustering Approach for Analysis of Single Cell RNA-seq Data[J]. BMC Genomics, 2017, 18(S6):689.
[14]ZHENG Ruiqing, LI Min, LIANG Zhenlan, et al. SinNLRR: A Robust Subspace Clustering Method for Cell Type Detection by Non-negative and Low-rank Representation[J]. Bioinformatics, 2019, 35(19):3642.
[15]WANG Bo, ZHU Junjie, PIERSON E, et al. Visualization and Analysis of Single-cell RNA-seq Data by Kernel-based Similarity Learning[J]. Nature Methods, 2017, 14(4):414.
[16]ERASLAN G, SIMON L M, MIRCEA M, et al. Single-cell RNA-seq Denoising Using a Deep Count Autoencoder[J]. Nature Communications, 2019, 10(1):1.
[17]DING Jiarui, CONDON A, SHAH S P. Interpretable Dimensionality Reduction of Single Cell Transcriptome Data with Deep Generative Models[J]. Cold Spring Harbor Laboratory, 2017, 9(1):1.
[18]TIAN Yingjie, ZHANG Quqi. A Comprehensive Survey on Regularization Strategies in Machine Learning[J]. Information Fusion, 2022, 80:146.
[19]ARJOVSKY M, CHINTALA S, BOTTON L. Wasserstein GAN[J]. arXiv, 2017, doi:1701.07875.
[20]GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved Training of Wasserstein Gans[J]. Machine Learning, 2017: 5767.
[21]RAO Jiahua, ZHOU Xiang, LU Yutong, et al. Imputing Single-cell RNA-seq Data by Combining Graph Convolution and Autoencoder Neural Networks[J]. iScience, 2021: 102393.
[22]WOLD S, ESBENSEN K, GELADI P, et al. Principal Component Analysis[J]. Chemometrics & Intelligent Laboratory Systems, 1987, 2(1/3):37.
[23]MAATEN L, HINTON G. Visualizing Data Using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(2605):2579.
[24]PIERSON E, YAU C. ZIFA: Dimensionality Reduction for Zero-inflated Single-cell Gene Expression Analysis[J]. Genome Biology, 2015, 16(1):241.
[25]LIN Peijie, TROUP M, HO J W. CIDR: Ultrafast and Accurate Clustering Through Imputation for Single-cell RNA-seq Data[J]. Genome Biology, 2017, 18(1): 59.
[26]DENG Yue, BAO Feng, DAI Qionghai, et al. Scalable Analysis of Cell-type Composition from Single-cell Transcriptomics Using Deep Recurrent Learning[J]. Nature Methods, 2019, 16(4): 311.
[27]WANG Bo, ZHU Junjie, PIERSION E, et al. Visualization and Analysis of Single-cell RNA-seq Data by Kernel-based Similarity Learning[J]. Nature Methods, 2017, 14(4): 414.
[28]XU Chen, SU Zhengchang. Identification of Cell Types From Single-cell Transcriptomes Using a Novel Clustering Method[J]. Bioinformatics, 2015, 31(12):1974.
[29]BULER A, HOFFMAN P, Smibert P, et al. Integrating Single-cell Transcriptomic Data Across Different Conditions, Technologies, and Species[J]. Nature Biotechnology, 2018, 36(5): 411.
[30]YU Bin, CHEN Chen, QI Ren, et al. scGMAI: a Gaussian Mixture Model for Clustering Single-cell RNA-Seq Data Based on Deep Autoencoder[J]. Briefings in Bioinformatics, 2021, 22(4):1.
(编辑:温泽宇)