APP下载

机器学习在基因组学中的应用

2020-01-11张劲柏傅晓宁

中国医药科学 2020年22期
关键词:基因组学机器监督

张劲柏 傅晓宁

1.海军军医大学药学院天然药物化学教研室,上海 200433;2.解放军联勤保障部队天津康复疗养中心医护处,天津 300110

机器学习(machine learning)指计算机无需明确的指令或程序设计,可以通过特定算法和统计模型探索数据,进而发现数据隐藏特性的行为[1]。2006年以来,基于大数据分析的需求,以神经网络为代表机器学习策略在从复杂数据中提取特征和学习模式方面显示出巨大的潜力,成为机器学习以及后来的深度学习理论的基础。

广义上的基因组学,也称为功能基因组学,旨在通过使用基因组规模的测定方法来确定生物体每个基因和功能之间的关系[2]。基因组学的应用包括发现基因型和表型之间的关联[3],发现用于患者分层的生物标志物[4],预测基因的功能以及绘制具有生化活性的基因组区域[5]等。过去的十五年来,随着单细胞测序和高通量筛选的技术和理论的不断创新,使得获取到的各种基因组学数据呈几何式地爆炸增长,人工肉眼筛选或者传统的数学统计方法已经难以处理如此海量的数据[6],引入机器学习是探寻生命科学问题的应有之义。

1 机器学习算法概述

机器学习算法根据数据对象有无现成的“标记”(与检测目标相关的判定值),可以分为3大类——监督学习、无监督学习、强化学习,除此以外,在此基础之上还逐渐衍生出半监督强化学习、迁移学习等新兴学习算法,本文主要介绍前三种主流算法。

1.1 监督学习

监督学习使用提前设定好某种标记的样本(x1,y1)……(xn,yn)作为训练集,其中x表示输入数据,y表示数据对应的标签,结合机器学习算法构建一个数学模型,求解f(x)→y,直到模型在训练数据上获得期望的精确度,并用该模型来预测未知样本。

在模型分型上,主要包括2种模型,一类是判别式模型,即对条件概率p(y|x)建立研究模型,常用于对目标“是或否”的判断,如垃圾邮件判定、论文查重等,主要的算法包括随机森林、支持向量机、人工神经网络、邻近算法等;另一类是生成式模型,即对联合概率p(x,y)建立研究模型,可以利用Softmax等算法优化,实现对存在多种结果的可能性预判,如天气预报、物体检测等,主要的算法包括隐式马尔科夫模型、朴素贝叶斯模型、高斯混合模型等。

生成模型关注数据的生成方式并寻找数据分布模型,而判别模型关注数据的差异并寻找分类表面,因此生成模型更加通用,判别模型更加直接且针对性强。有时出于需要,可以将生成式模型转换为判别式模型,但是不能将判别式模型转化为生成式模型。

1.2 无监督学习

无监督学习主要处理没有确定特性(标记)的数据,通过组内相似程度分析,试图提取数据中隐含的特征和规律,包括关联、聚类、降维三种形式。这种分析方法被广泛地用于细分或者预测可能的数据的分类(如细胞系分类、患者分型等),根据干预的方式分为不同的数据组。与监督学习相比,监督学习是按照给定的标准进行学习,而无监督学习则是按照数据的相对标准进行学习。

在模型分型上,主要包括2种模型,一类是确定型算法,其目标主要是对抽象后的数据进行分类时尽量无损地保留原有数据,一类是概率型算法,其目标主要是针对数据中特性进行方法和提纯,舍弃不重要的特性。无监督学习的算法有主成分分析和K均值聚类算法、高斯混合模型、递归神经网络等。

1.3 强化学习

强化学习的思想来源于心理学中经典的行为主义理论,即并不需要过多的标签数据,而是计算机在给定“环境”和“目标”下,依据已有的标签数据进行不断试错和调整自身参数,以实现预期利益最大化,而每次参数返回的评价结果会对下一次尝试产生正向或者负向的影响。

在模型分型上,主要包括2种模型,一类是基于值的算法,即通过给定的值函数不断评估现状和使用的策略, “走一步算一步”,直到现状符合要求,适用于数据处理空间较小的模型。另一类是基于策略的算法,直接估计当前环境可能存在的最优总策略,并通过不断随机每一步的策略,对总策略进行反馈和提升,适用于数据量较大的模型。强化学习的经典算法有马尔科夫决策过程、Q-learning、Policy Gradient等。

2 机器学习的过程与案例

2.1 数据预处理

2.1.1 降维 基因和基因组数据通常表示为高纬度、小样本量,可能会导致“维度诅咒”和“过度拟合”,即因为参数设置过多,原本的特殊值被当做标准,导致数据分类过于细化,相当于无分类。因此,有必要有效减少数据量,进而提高分类精度。

2.1.2 特征(参数)选择 降维后数据进行算法处理时通常会导致“黑盒效应”,即输入数据对应的输出结果在生物学上无法解释。因此与其组合多个特征以减少维数,倒不如筛选出最有信息价值的特征作为维数。目前特征选择方法可分为包装器,过滤器和嵌入式算法三类[7]。

2.2 训练与测试

2.2.1 数据分组 根据手中数据量,将所有处理后的数据混合汇总,再重新分为训练集、开发集、测试集,通常的比例为60%∶20%∶20%[8],其中训练集用于机器学习模型的迭代优化,开发集用于对机器学习模型进行验证,而测试集用于评价整体模型的效能,但是并不是所有的算法都需要将数据分成这三组,可以根据不同的算法进行动态的调整[9]。

2.2.2 模型建立与参数设置 根据使用的算法和基因组数据分布构建机器学习模型、设定超参数(训练迭代中不发生变化的参数)和初始化参数(随机生成并在迭代中不断发生变化的参数),迭代次数可以根据基因组数据的大小和算法精度的要求确定,一般设定在几万次到几百万次之间。

2.2.3 迭代与训练 首先,运用训练集对模型进行迭代升级,尔后使用开发集进行初步验证,如果训练集和开发集的结果存在较大差异,进行超参数调试和模型改良,再重新使用训练集迭代训练,重复多次上述两个步骤,直到模型在训练集和开发集取得较为满意的结果,最后使用测试集进行效果验证。

2.3 应用与开发

2.3.1 监督学习案例 在监督学习中,目前比较流行方法是随机森林算法和人工神经网络,后者常常又被称之为深度学习。 与其他监督学习模型不同,它们专注于分支长度或多层学习,并且在理论上和实践上都能够在许多情况下规避“维度诅咒”。

Capper等[10]采用随机森林算法实现了基于DNA甲基化判断中枢神经系统肿瘤的分类。训练采用的参照数据来自91个甲基化类别的2801例癌症患者的全基因组信息,将91个甲基化类别作为“树”特征,将一部分全基因组数据作为训练数据,另一部分进行验证,根据指标重要性淘汰末尾并不断迭代。模型训练完成后,使用1104例经过人工核验的中枢神经系统肿瘤数据进行测试,发现仅有12%的患者存在误诊,而且还可以鉴定出新型罕见肿瘤。Guyon等[11]利用了基于递归特征消除的支持向量机方法,构建了基因诊断和药物发现的分类器,实现了利用DNA片段特征对癌症进行分类,在结肠癌数据库中,在仅使用4个基因的情况下,癌症分类准确率为98% 。

2.3.2 无监督学习案例 基因数据通常具有很高的冗余性和稀疏性,因此常常使用无监督学习的降维和聚类算法来摸索,比较常见的算法包括主成分分析和K均值聚类,前者通过正交变换提取数据中相互独立、对全局影响大的变量,适合于分割线性序列(如染色体)的数据,后者采用数据的空间分布距离作为相似性指标,试图发现合适的横断面将数据互相分离,适合于判断细胞分型。

为了加快细胞数据集的分类预测的时间,从而更好更快地找到新的新的细胞分型或者数据内容,Cho等[12]将研发了一种名为net-SNE的数据可视化工具,成功地将训练中的单细胞RNA测序数据2D/3D可视化的算法迁移到了新的细胞测序数据中,并且在不同数据集之间均取得了良好的效果,并且极大地减少了可视化包含数百万个单元的大型数据集的时间。Deng等[13]针对大规模单细胞RNA-seq数据提出了基于递归神经网络的scScope算法,可以从数百个乃至数百万个不同的单细胞基因表达谱中准确而快速地识别细胞类型组成,比传统算法快7倍。

2.3.3 强化学习案例 强化学习主要运用在信息论、博弈论、自动控制等领域,被用于解释有限条件下的平衡态、设计推荐系统和机器人交互系统,目前在基因组学的应用的并不多,往往作为监督学习算法的前置算法,用于计算筛选出足够区分度的特征,单独的使用强化学习的案例比较少。

Zhu等[14]提出了一种基于强化学习的算法来建立蛋白质相互作用网络,其中节点表示蛋白质,边缘表示相互作用。在进化过程中,各个节点之间分别配对结合并计算作用系数,并通过系数大小决定了哪些预测的交互作用应该得到强化,直到形成一个最优网络,通过Pubmed下载前列腺癌的蛋白质相互作用网络公共数据库来验证网络,实现了77.63%~84.40%的匹配率。

3 未来机器学习在基因组学中的机遇与挑战

2019 年Nature杂志将机器学习评价为年度最值得期待的科技展望,机器学习作为一门不断发展的学科,在疾病研究和精准医疗等领域不断有所建树。

疾病研究方面,迁移学习已成为机器学习中的一个新的研究热点。与传统机器学习方法的区别在于,它着重于借助在解决一个问题时所获得的知识,并将其应用在一个分布不同但相关的研究问题中。疾病研究领域中,Grayson等[15]在研究一种名为抗中性粒细胞胞浆抗体相关性血管炎的罕见疾病时,使用来自1400多个其他研究的RNA测序数据训练了模型,并将该模型应用于疾病,成功地揭示了该疾病与免疫和代谢功能相关的基因网络。

精准医疗方面,基因多态性被认为是导致疾病异质性的重要原因[16],基因数据经常被用来评价癌症患者预后效果或者对于化疗药物的耐受性。Chen等开发一种基于网络约束的支持向量机分类器——netSVM,利用基因表达谱和蛋白质-蛋白质相互作用数据来识别生物标志物,发现了许多新的乳腺癌枢纽基因,为乳腺癌转移的机制提供新的见解。

机器学习的应用为基因组学的发展带来了机遇的同时,越来越多的人开始担心机器学习获取的大量基因数据可能带来患者隐私泄露的问题,如何有效地对数据进行清洗和匿名化,同时保持数据的有效性,是一个值得深思的问题,除此以外,由于生物医学数据的异质性、高维度性、时间差异性等特点,在充分利用生物医学数据方面仍然存在许多挑战。

4 小结

随着检测水平的不断提升,基因组学能够获取的数据越来越复杂,需要合适的分析工具来提供支持,源自数据驱动的机器学习算法尤其适用于基因组学。机器学习的算法按照原始数据有无标签可以分为监督学习,无监督学习,强化学习等各种类型。在基因组学领域,机器学习已经可以在疾病预测、精准医疗等方面发挥出重要的作用,但机器学习的应用中还存在隐私泄露和有效数据标记等问题。相信随着机器学习技术的不断更新,基因组学的前景会越来越广阔。

猜你喜欢

基因组学机器监督
基于宏基因组学方法分析化肥减施对热带地区菜地土壤微生物群落的影响
机器狗
机器狗
山西在谷子功能基因组学研究领域取得重大突破
突出“四个注重” 预算监督显实效
新疆和西藏少数民族的群体基因组学研究
系统基因组学解码反刍动物的演化
未来机器城
监督见成效 旧貌换新颜
夯实监督之基