APP下载

人工智能在临床基因组学中的应用进展

2021-03-29葛一平

中国医学科学院学报 2021年6期
关键词:基因组学变异基因组

刘 杏,杨 寅,葛一平,林 彤

中国医学科学院 北京协和医学院 皮肤病医院(研究所)1激光科 2江苏省皮肤病与性病分子生物学重点实验室,南京 210042

概 述

临床基因组学主要研究基因组信息在临床中的应用,包括诊断、治疗决策、预测预后。临床基因组学涵盖许多重要的任务,如对肿瘤患者进行分层以便进行更有效和精准的治疗,分析遗传病的发病机制、变异位点从而有助于诊断和治疗,还包括预测药物疗效及不良反应等。致病性是临床基因组学中最核心和最基本的概念。致病性是指基因变异后引起疾病的可能性,也是临床基因组学的主要研究内容[1]。准确性是基因组学研究中分析和评价的指标,主要从两方面来描述:分析有效性和临床有效性[2]。

人工智能是一种基于计算机系统的模拟非生命体的智能形式。计算机软件和硬件的进步,特别是用于训练的深度学习算法和图形处理单元的进步,让人工智能处理大量复杂数据成为可能。人工智能属于数据科学的范畴,包括经典编程和机器学习,后者包括许多模型和方法,如深度学习和人工神经网络[3]。深度学习能够让多个处理层组成的模型学习具有多重抽象级别的数据,还可以运用反向传播算法计算每一层的内部参数,从而识别大数据的具体结构和特征[4]。人工智能的实际应用可根据解决的问题分类,如计算机视觉、时间序列分析、语音识别、自然语言处理等,这些都逐渐应用于医学[5]。

人工智能在临床基因组学中的应用

深度学习最擅长解决复杂和数据丰富的问题,尤其适合生物学和临床问题,包括识别致病性的基因变异[6]。目前,人工智能的许多技术已经用于临床基因组学研究中的多重环节,包括识别变异、变异分类、影像-遗传诊断、电子病历-基因诊断、基因型-表型预测、药物作用及不良反应预测。

识别变异变异包括基因突变和基因重组。基因突变可以产生新基因,是生物变异的根本来源,参与了大量疾病的发生发展及转归。因此,变异的准确识别在临床上发挥着举足轻重的作用,这也是基因组学研究中一项重要而又具有挑战性的任务。近年研究表明,深度学习将彻底改变基于纳米孔测序技术的碱基识别以及变异识别,从而发生质的飞跃[7]。

DeepVariant是一种基于卷积神经网络(convolutional neural network,CNN)的算法,可以读取大量碱基序列,以识别单核苷酸变异和碱基插入/缺失。在一些识别变异任务中,DeepVariant的准确性优于现有的标准工具,推测该准确性的提高是由于CNN能够识别测序数据中复杂的依赖关系[8]。为进一步提高家系测序中DeepVariant识别变异的准确性,研究者们又开发了另一个识别变异途径dv-trio,dv-trio能够将孟德尔遗传模型的trio信息整合到现有结构[9]。Luo等[10]开发了Clairvoyante这个多任务的5层CNN模型,Clairvoyante可以从序列中预测变异类型,如单核苷酸多态性、碱基置换、碱基插入/缺失。

编码区变异分类编码区是指能够转录为信使RNA,进而编码蛋白质的区段。编码区变异后可以直接影响蛋白质的结构和功能,导致疾病发生。编码区变异的准确识别,一直是遗传学家竭力攻克的难题。因此,利用人工智能技术对编码区变异进行准确识别和分类是临床基因组学中的一大重任[11]。基于现有方法计算的6个功能效应得分(SIFT、PolyPhen2、LRT、MutationTaster、GERP、PhyloP)和来自各种基因组数据源的5个关联得分(基因本体、蛋白质-蛋白质相互作用、蛋白质序列、蛋白质域注释、基因通路注释),SPRING(Snv Prioritization via the Integration of Genomic data)这一生物信息学方法,可用于识别致病的非同义单核苷酸变异(single-nucleotide variants,SNVs)。通过一系列实验进行验证,最终证明SPRING可有效检测部分已知或完全未知的遗传性疾病的编码区变异。真实的全外显子测序数据分析突显出SPRING在检测自闭症、癫痫性脑病和智力残疾等疾病的新发突变的能力[12]。经过多次更新和完善,数据库dbNSFP v3.0可以为人类非同义和剪接位点SNVs提供功能预测和注释,3.0版本共包括82 832 027个SNVs[13]。

人类基因组测序发展迅猛,但是检测出的变异很难分辨是致病变异还是良性基因变异,使得其在临床及科研中的应用受限。Sundaram等[14]对6类灵长类动物(黑猩猩、倭黑猩猩、大猩猩、猩猩、恒河、绒猴)进行测序后发现数十万个常见基因变异,再利用这些变异数据训练了一个深度神经网络模型,该模型可以识别罕见疾病患者的致病性突变,准确率达88%。而且该模型还发现14个新的智力障碍候选基因。该深度神经网络对其他灵长类物种的常见基因变异进行分类,极大推进了人类基因组测序的临床应用。ClinVar,是由美国国家生物技术信息中心保存、隶属于美国国家医学图书馆的公共数据库,该数据库收集了与疾病相关的遗传变异及临床注释。ClinVar根据变异-疾病和变异(或变异集)来整合数据,其提供的变异注释由临床检测实验室、研究实验室和专家小组共同提供[15]。ClinVar更新后,视图和布局均有所调整,更便于查找提交的数据和对数据的注释。新版本的ClinVar也能更好地处理复杂的数据,如单倍型和基因型,以及单倍型或基因型中的一部分变异[16]。

非编码区变异分类非编码区是指能够转录为RNA,但不能编码蛋白质的区段。虽然不能编码蛋白质,但非编码区能够调控遗传信息的表达,同样具有遗传效应。近年来,人们逐渐意识到非编码区的重要性。非编码区的突变可影响多个基因的转录、翻译,导致疾病发生。计算机识别和预测非编码变异是人类基因组学的又一项重大任务,有助于明确疾病的发病机制和诊断[17]。

大规模并行剪接分析是一种使用随机森林的算法,被用来筛选人类基因突变数据库中报道的4964个外显子疾病突变,建立人工智能筛选非编码基因变异的新模型,该模型极大提高了识别变异的能力。结果表明,该模型检测到的剪接与患者组织中实际剪接的一致率为81%,并且通过该模型发现基因的剪接缺陷可造成至少10%的罕见致病遗传变异[18]。MMSplice(modular modeling of splicing)是经过多个大规模基因组数据集训练,对外显子、内含子和剪接位点进行评分的神经网络,最终可以预测变异对外显子跳跃、剪接位点选择、剪接效率和致病性的影响[19]。另外,也有专家指出,基因剪接的过程复杂,受多种因素影响,如内含子和外显子剪接增强子、沉默子、绝缘子等,因此剪接很难被识别[20]。

Pre-mRNAs经剪接成为成熟转录本是一个相当精确的过程。超深度测序的结果表明,pre-mRNA剪接是一个序列驱动的高保真过程,但调节该过程的具体机制尚不完全清楚[21]。SpliceAI是一个具有32层卷积的深度神经网络,可以精确地预测pre-mRNA转录序列的剪接,从而能够精确地预测引起隐蔽剪接的非编码变异。预测结果中影响可变剪接的同义突变和内含子突变,可使用RNA测序数据进行验证,top-k精度是0.95[22]。

可变剪接,即去除内含子、连接外显子,是单个基因编码的关键过程。而剪接支点是可变剪接的标志,内含子中可能有多个支点[23]。LaBranchoR是一个基于深度学习的RNA剪接支点预测模型,能够预测至少75%的3’端剪接位点的正确支点,并给出相应注释[24]。

影像-遗传诊断许多遗传综合征具有可识别的面部特征,这一点引起遗传学家的重视,开始致力于此方面的研究。新型面部畸形分析软件的图像分析技术是基于将数学函数半自动放置在相关面部结构上的节点网格,经过训练,可识别外胚层发育不良患者的面部特征而进行诊断。验证后的结果表明该软件对男性X连锁少汗性外胚层发育不良的诊断具有较高的敏感性和特异性[25]。另外,新型面部畸形分析软件也提高了酒精相关神经发育障碍的诊断准确率[26]。

DeepGestalt是一种新的面部图像分析模型,该模型使用计算机视觉和深度学习算法,量化数百种综合征的相似性。该模型在代表200多种综合征的17 000多幅图像的数据集上进行训练,在502张不同图像上进行测试,结果表明识别综合征的准确率达91%。DeepGestalt的表现显著优于人类遗传学家,而且能够精确地区分同一临床诊断的分子亚型[27]。研究者选取17种遗传综合征的323例患者的图像和无遗传综合征的323例患者的图像,使用DeepGestalt模型进行验证,结果表明综合征的诊断灵敏度高达91%[28]。PEDIA(prioritization of exome data by image analysis)是DeepGestalt模型基础上整合了基因组数据而形成,能够提取面部图像的表型特征。PEDIA对679个个体中的105种单基因疾病的候选致病变异进行精确的优先排序,准确率显著提高[29]。

在某些肿瘤中,人工智能可以弥补图像特征和遗传变异之间的差距。生存卷积神经网络,即CNN与Cox回归分析的结合,创建了一个统一的框架来整合组织学和基因组学标记,能够充分了解与生存和体细胞突变相关的组织学特征。基于神经胶质瘤的基因组分类和组织学分级,研究者们在当前临床标准的背景下系统评估了该方法的准确性,结果表明生存卷积神经网络可以直接从肿瘤组织学图像中预测患者发生的基因突变[30]。

电子病历-基因诊断在临床诊疗中,电子健康病历(electronic health record,EHR)是不可或缺的。EHR由临床医生完成,涵盖了较为全面的信息,如个人基本信息、生命体征、发病过程、用药史、家族史、检查结果等,采集完成后,医生才能给予相应的诊断和治疗。从EHR中,医生可以基本了解患者的全部就诊过程,了解疾病进展,从而获取大量有效信息。

近年来,研究者们设计了一个基于人工智能的系统,该系统使用机器学习的方法从EHR中提取相关临床特征,再模仿人类医生的临床推理,最终给出临床诊断。自然语言处理系统能够区分55个常见的儿科疾病,并给出诊断,准确率达92%[31]。在另一项研究中发现,当电子健康病历与基因组数据结合时,研究者们可以设计出一个临床自然语言处理系统,该系统可以快速给出基因诊断,特别是病情危重的住院患儿,基因诊断后可以尽快给予相应治疗措施,从而提高患儿存活率、改善预后[32]。1年多后,临床自然语言处理系统对48例疑似遗传疾病的重症儿童再次进行分析,其中2例疑似病例得到确诊,诊断率增加4.2%[33]。

人工智能辅助诊断系统不仅在西医中研究甚多,目前在中医方面也取得了进展。研究者们采用自然语言处理技术对非结构化自由式电子病历进行处理后提取患者症状、体征等临床信息,将提取后的信息用于模型训练,得到了一种新的预测模型,即综合学习模型,该模型能够预测187种中医疾病的类型,并且具有较高的诊断准确率。随着算法的不断改进和电子病历的不断增多,运用模型能够诊断的疾病类型有望增多,诊断准确率也有望提高[34]。

基因型-表型预测遗传学的临床目的是提供诊断和预测疾病风险。常见疾病中,使用相对简单的统计方法来预测多基因风险可以获得对个人和临床有用的风险分级[35]。一些研究尝试使用人工智能算法对人类特征进行基因组预测,通过大样本的训练和测试,结果表明模型在身高基因组预测方面能够提供相对准确的预测,并且,这些结果已经通过全基因组关联研究中的其他数据集和单核苷酸多态性进行样本外验证[36]。通过综合非遗传风险因素和遗传数据,BOADICEA(Breast and Ovarian Analysis of Disease Incidence and Carrier Estimation Algorithm)模型得到优化,乳腺癌和卵巢癌风险预测的准确性也得到显著提高,使得一般人群和有家族史的女性的风险分层水平变高,该结果有助于促进危险人群的预防性治疗和筛查个性化[37]。

药物作用及不良反应预测CDRscan(Cancer Drug Response profile scan)是一种采用两层卷积结构的深度学习模型,该模型基于787种人类肿瘤细胞系基因组信息和244种药物结构特征,被用于预测抗癌药物的有效性。将CDRscan应用于已经批准的1487种药物,训练后的结果表明14种肿瘤药物和23种非肿瘤药物具有潜在的肿瘤适应证,通过进一步的基础实验和临床验证有望开发出更多的抗癌药物[38]。2019年,Chiu等[39]提出第1个深度神经网络模型,在622个癌细胞株上进行训练和验证,最终模型预测了33种癌症类型中9059例肿瘤的药物反应,还提出了新的耐药机制和药物靶点。研究者们利用1001个癌细胞株药物基因组学数据,对深度神经网络进行训练和优化,以提高模型预测癌症患者的药物反应的准确性,从而为患者提供最佳的个体化治疗方案[40]。RefDNN是一种新提出来的深度学习模型,被用于抗癌药物的耐药性预测及药物反应相关标志物的识别。在大多数实验中RefDNN优于现有模型,而且对于未接受训练的药物和癌症类型的预测,该模型也优于传统的机器学习模型[41]。

由于药物与靶点的多维度,传统学习方法难以提取其重要特征,而深度学习的加入和运用有望带来重大突破。在现有乳腺癌药物中,运用深度学习的方法,收集蛋白序列数据、蛋白结构域信息和目前已知的药物靶标相互作用(drug-target interactions,DTIs),经过训练、验证和比较,最终得到LASSO-DNN模型以预测DTIs。LASSO-DNN模型可以从大规模基因组研究中发现疾病相关风险基因是潜在的药物靶点,这便于药物的再利用[42]。在几种计算模型中,常规的蛋白质结构均不能提供足够的信息,这导致预测的DTIs准确性不高。研究者们通过对不同长度的氨基酸序列进行卷积而获得不同的蛋白质残基形式,并用于模型的训练,优化后的模型不仅提高了DTIs预测准确性,还可以检测DTIs的结合位点[43]。除了已知的DTIs,还有很多未知的DTIs需要研究和探索。DeepACTION是一种新提出的深度学习模型,能够预测大量新的DTIs,而且可以提供相互作用的详细信息以便于科学家开发药物[44]。

不足和展望

人工智能具备处理复杂和多模态的大数据的能力,使得生物信息学方法发生了质的飞跃,遗传学家、临床医生可以对测序结果有更清楚和准确的认识。近年人工智能在临床基因组学的特定任务中表现出更高的准确度。然而,人工智能在基因组学中的应用目前还处于初期阶段,还存在诸多问题与不足,如模型可解释性、维度灾难、数据不平衡、数据异质性、参数和超参数调优等[45]。因此,需要研究者们不断开发、优化新的模型和方法,使基因组信息在临床中得到有效利用。

猜你喜欢

基因组学变异基因组
牛参考基因组中发现被忽视基因
基于基因组学数据分析构建肾上腺皮质癌预后模型
系统基因组学解码反刍动物的演化
变异危机
变异
变异的蚊子
营养基因组学——我们可以吃得更健康
基因组DNA甲基化及组蛋白甲基化
有趣的植物基因组
基因组生物学60年