APP下载

基于转录组数据不平衡数据的乳腺癌分类预测模型

2020-05-12刘梓剑

现代计算机 2020年10期
关键词:级联准确度测序

刘梓剑

(四川大学计算机学院,成都 610065)

0 引言

近年来,人类日益增长的物质文化需求使得地球生态环境遭受了巨大的破坏,熬夜、饮食不规律、久坐缺乏运动等行为在年轻人生活中的常态。癌症是一种基因疾病,通常由于基因的突变、细胞微环境改变等原因随之产生。而熬夜、饮食习惯等正是导致患病的重要原因之一。乳腺癌,女性疾病中的头号杀手,快速的生活节奏、加班、子女教育加重等使得女性体检的频率逐渐降低,而癌症的常规检测预防手段需要长期体检,使得很多女性诊断概率降低。第三代测序用低廉的价格结合机器学习高效的分类算法,为癌症诊断提供了新思路。

转录组数据中,mRNA(message RNA,信使核糖核苷酸),通过DNA转录获得,带着大量的遗传信息,通过翻译得到氨基酸,最终合成蛋白质实现基因的表达。miRNA(micro RNA,小分子核苷酸)通过与mRNA结合抑制基因表达。mRNA点位共有6w多个,其中包含了大量冗余无关的点位。冗余信息常常会降低分类器的准确度,传统的机器学习无法承载能力有限。近年来,深度神经网络(Deep Neural Networks,DNNs)的发展取得了巨大的成功,尤其是在视觉和语音识别方面[1,2]。受深度神经网络的启发,人们提出了许多利用深度学习方法的变体来预测癌症亚型的方法[3,4]。然而,一些缺陷可能会限制深度神经网络在癌症基因组数据中的应用。一方面,DNN较为复杂,需要大量训练样本进行学习[1],而乳腺癌样本较少,无法满足大规模的训练要求。然而,目前大多数癌症基因转录组数据的数据规模无法达到神经网络的要求。另一方面,超参数的选取是DNN中至关重要的步骤之一,算法的性能很大程度上由超参数决定。这使得在实际应用中,特别是在小规模的生物数据集上,利用深度神经网络来获得预期的分类性能是很困难的。

深度森林模型(Deep Forest,DF)是由周志华等人[1]于2017年结合深度神经网络及随机森林所提出的模型。该模型由深度级联森林结构和多粒度扫描两部分组成。深度森林算法中采用层次结构的处理方法。在级联层中,将每层模型输出的预测概率值作为该层特征提取的新特征,并将上一层产生的特征作为下一级的输入,进行特征的重复提取和训练过程。基因、转录组数据通常具有三个特点:①高维度;②数据类不平衡;③高噪声。

本文针对乳腺癌转录组数据以上特点,在传统DF模型的基础上,提出多源深度森林模型(Multi-Source Deep Forest),使其更加贴合乳腺癌转录组数据模型,让分类更加准确。

1 数据集处理

本文研究中使用的TCGA数据库和自建数据库中的mRNA与miRNA测序数据的癌症亚型样本分布极度不平衡,会导致假阴率的增加。因此,在DNA甲基化测序数据送入模型训练前,需要对数据集进行平衡化预处理,获得正、负样本相对平衡的数据集。此外,针对转录组测序数据维度高、噪声多等特点,本文在模型训练前对样本数据进行特征选择和降维,缩短算法的训练时间,提高算法的泛化能力:对mRNA与miR⁃NA进行中心化、去零值处理等操作。最后,本文使用十倍交叉验证方法来划分数据集的测试与验证。

本文中的数据集选取来自TCGA数据库,由于早期的测序价格高昂,病例测序数据多来自于官方机构,并且数量有限,在1064个乳腺癌样本中,数据类平衡度低于1/10,严重影响算法的分类准确度。因此需要多转录组数据进行预处理,以此提升算法泛化能力。预处理步骤中,分别对数据进行了去中心化,去零值等操作,然后对数据集中进行过采样与欠采样,提升类的平衡度。通过上述预处理过后,特征降低了4/5。训练与测试数据集通过十折交叉验证的方法进行划分。

2 多源多粒度扫描(MSMGS)

特征选择的过程就是寻找具有显著差异mRNA、miRNA的过程,这些在正常样本和癌症样本中具有显著差异的mRNA、miRNA极有可能和癌症亚型的产生密切相关。mRNA和非编码RNA表达谱大多具有高维特点,高维数据给预测带来维度灾难。一方面,很多mRNA点位、miRNA与癌症的产生发展不相关,同时会给算法带来错误的训练,需要进行处理;另一方面,致癌的mRNA、非编码RNA之间的相关性很高,即他们可能承载了相同或类似的信息,这些特征是冗余的,会增加模型建构的时间复杂度,需要剔除;为了解决冗余特征对算法的负面影响,同时提高分类预测的准确度、降低计算时间,特征选择是重要的环节。

为了解决癌症转录组数据中信息密度低,高维度的问题。多源多粒度扫描原始输入特征如图1所示。

假设mRNA与miRNA原始特征维度均为400,滑动采样窗口的大小设置为100,滑动步长为1,滑动完毕之后就可获得401个100维的向量。将向量输入到由随机森林和完全随机森林组成的森林群中,选择两种不同的随机森林是为了提升算法的多样性,提升分类泛化能力。

图1 MSGMS结构

3 强化级联森林(RCF)

级联森林启发于DNN,DNN中的对特征的学习主要依赖于对基础特征的叠加处理。级联森林中的级联结构由前一层处理的特征信息输入,并将结果输入到下一层。级联森林是随机森林的组合。森林的多样性对于算法集成效果至关重要[5]。为简单起见,假设使用四个随机森林,一半为完全随机的树林和剩下一部分为普通随机森林[5]。每个完全随机的森林包含500个完全随机的树[6],在树的每个节点随机选择一个特征进行分割,当叶子节点的分类相同为止。同样,每个随机森林包含500棵树,随机挑选个特征作为候选(t是原始输入特征的规模),挑选基尼系数最好的一个进行分割。超参数不仅仅包括深林的规模。

每个森林会产生估计类分布,通过计算不同类型的训练例子的比例在叶子节点相关的实例,然后平均所有相同的森林,如图2所示,红色强调实例遍历路径沿着叶节点。

图2

过拟合的风向可以通过各森林得出的类向量由kfold交叉验证来减少。简而言之,各样本将被当做k-1次的训练样本,得到k-1次的类概率向量,然后对类向量求平均值,每一层产生的特征类向量都会作为后层的输入。每次得出的分类准确度都会与之前的进行对比,如果有提升,则会将当前特征向量继续输入到下一层,以此反复,直到某一层的分类准确度不再提升为止。因此,级联深林的层数是自适应确定的。不需要再作为超参数进行确定。

强化级联森林中,选取每个森林中最重要的前k个特征,利用k个特征的标准差组成新的特征。然后,我们将新的方差特征与输出类分布向量结合起来,增强其在下一层串联的输入向量中的类分布,从而降低下一传播层的估计错误发现率。使用top-k特征的标准差而不是直接使用top-k特征的原因是:①为了降低模型对k参数的敏感性;②方差在一定程度上可以体现top-k特征实例的差异性。同时对原有的多余特征进行剔除整理成为新的属性向量,如图3所示。

4 实验

本文的实验数据来自于TCGA的Brest数据集。为了验证算法的高效性,进行了两组对比实验。如k近邻(KNN),深度森林(gcForest)算法,并从分类准确度(Precision),召回率(Recall),F1 分数(F1-Score)等不同的度量指标来评估MSMGS-RCF模型的性能。分类准确度如图 4所示,KNN、gcForest、MSMGS-RCF 分别为80.1%、82.3%、88.1%,本文提出的MSMGS-RCF模型的分类性能最佳。

图3 强化级联森林

图4

5 结语

本文针对当前乳腺癌诊断中所存在的缺陷,提出了一种基于转录组测序数据的分类模型,通过真实数据集的实验室表明,算法模型具有一定的可靠性。针对转录组数据具有的三个特点:①高维度;②数据类不平衡;③高噪声;提出的基于mRNA与miRNA不平衡数据的分类模型MSMGS-RCF,提高了乳腺癌分类模型的学习效率,降低了实验成本。本文虽然乳腺癌的整体分类准确度有了一定的提升,但依然存在一些不足与待改进:算法的训练的时间复杂的较高,少数类分类准确度较低。可以通过结合SMOTE等采样算法对特征进行降维处理,提高少数类的分类准确度,缩短时间开销。

猜你喜欢

级联准确度测序
一种中间电容谐振型级联双向DC-DC变换器
铀浓缩厂级联系统核安全分析
实现级联形状回归方法对视线追踪
新一代高通量二代测序技术诊断耐药结核病的临床意义
影响重力式自动装料衡器准确度的因素分析
宏基因组测序辅助诊断原发性肺隐球菌
生物测序走在前
基因测序技术研究进展
论提高装备故障预测准确度的方法途径
Word中“邮件合并”功能及应用