APP下载

抗癌药物作用预测计算方法的研究现状与展望

2020-05-16顾兆伟张立忠刘晓峰

生物信息学 2020年1期
关键词:抗癌计算方法细胞系

顾兆伟,张立忠,刘晓峰,谭 先

(1.长春中医药大学附属第三临床医院 脑病康复科,长春 130000;2.长春市朝阳区清和社区卫生服务中心,长春 130000;3.空军杭州特勤疗养中心 康复理疗科,杭州 310000;4.东北师范大学 信息科学与技术学院,长春 130000)

在高通量测序等生物技术的发展下,精准医疗模式已开始为临床诊疗提供新的方法与技术。精准医疗是指与患者分子生物病理学特征相匹配的个体化诊断和治疗策略[1]。在对癌症患者的个体化诊断和治疗过程中,精准医疗模式希望通过患者的基因型与基因表达等个体化数据为治疗方案提供指导。碍于有限的数据及治疗方法,这项工作仍充满争议与挑战[2-3]。

癌症药物治疗是目前治疗癌症的主要手段之一。通过将患者的个体数据结合系统生物学的研究成果,实现对不同抗癌药物治疗效果的精准预测是癌症精准医疗的发展趋势。基于功能性实验的一些实验方法存在耗时长(如类器官培养法、循环肿瘤细胞增殖法),成本昂贵和对实验设备要求高等局限性(如四甲基偶氮唑盐比色法)[4],而使用生物信息学中基于计算机算法的计算方法可以在仅获取部分患者基因组信息的前提下,为问题提供新的实验方法和研究思路。目前已有大量的研究成果证实了使用计算方法预测抗癌药物作用效果的可行性。

1 数据源

目前研究的数据源多数是使用克隆培养的癌症细胞系(Cancer cell line)数据。癌症细胞系有着无限繁殖、易于测序的特点。除了在医学研究试验中有着广泛应用,其多组学概况和细胞增殖实验数据也被计算实验所青睐。在上世纪90年代,由美国国家癌症研究所(National Cancer Institute)发表的NCI-60汇总了多种抗癌药物对60种癌症细胞系的作用效果,并在多个计算方法实验中验证了使用癌症细胞系概况数据预测抗癌药物作用的可行性[5-7]。而近些年发表并不断更新的CCLE(Cancer Cell Line Encyclopedia,癌细胞系百科全书)[8]、GDSC(Genomics of Drug Sensitivity in Cancer,癌症药物敏感性基因组学)[9]和CTRP(Cancer Therapeutics Response Portal,癌症治疗反应门户网)[10]等为计算方法实验提供了更为丰富有效的素材。CCLE汇集了多个细胞系对24种抗癌药物的作用,而GDSC汇集了200余种药物对1 001个细胞系的作用效果,并且在两个数据源中也包含了癌症细胞系的基因表达、编码基因突变、甲基化和拷贝数(变异)等数据。CTRP也是以小分子药物和探针对细胞系影响为研究对象的数据库,相较于前两者,CTRP更加重视药物和靶标的关系而非细胞系本身的概况。

除细胞系数据以外,根据研究者研究问题的不同角度,有一些成熟的数据库可以应用在研究之中。在研究癌症问题常用的基因表达关系数据中,由美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)发布的GEO(Gene Expression Omnibus)数据库[11]常被使用。而在分析单点突变时,单核苷酸多态数据库dbSNP[12]也常用于作为背景数据库之一。研究之中常见的数据源还有生物通路如KEGG数据库[13]和蛋白质组学相关的,如包含蛋白质互作(Protein-protein interaction)关系的数据库STRING[14]、BioGRID[15]等。在研究非细胞系问题上,以临床病人样本为核心的TCGA(The Cancer Genome Atlas)数据库包含了多样本、多分型和多角度的相关数据,在本问题中也常被使用。

2 计算方法

区别于临床研究中常用的数学统计方法(如表达相关性研究[16]),计算方法(Computational method)更加强调整体性,有着明确的步骤与输入输出(见图1)。计算方法对抗癌药物作用效果的预测目的是提供一个临床前研究模型或系统,一般通过使用患者(或细胞系)的基因型数据作为模型的输入,以该模型或系统根据患者(或细胞系)基因型所预测出来的单种或多种药物敏感性作为输出。根据模型所基于的不同算法类别,可分为三类。

图1 计算方法的研究流程Fig.1 Research flow of calculation method

2.1 网络分析方法

在生物的生命活动机制中,网络这一概念广泛存在。如蛋白质互作网络、基因调控网络(Gene regulatory network),生物通路和共表达网络(Co-expression network)等。在研究癌症问题时,将生物数据以网络的方式建模可以更好地描述患者基因、蛋白间的关系,并应用适用于网络结构的算法进行分析从而实现预测对抗癌药物预测的功能。

在目前已有的研究成果中,多是将癌症细胞系与药物构建成异质性网络再结合多组学数据进行分析。Wei[17]等观察到具有相似基因型的细胞系和结构相似的药物间的作用关系存在高度关联,以此为依据构建了一个通过皮尔逊相关系数(Pearson correlation coefficient)来表示细胞系间关系的混合网络模型。Zhang[18]等根据药物和细胞系的敏感与抵抗关系构建异质性网络,再将网络关联上基因表达、药物化学结构相似度等信息,然后在网络上执行信息流算法(Information flow-based algorithm),求出原始数据中没有关联的药物与细胞系间的打分。Yang[19]等通过将基因组数据整合蛋白质互作网络和细胞系的功能注释,开发了一个反应网络模型来预测药物反应的工具。Stanfield[20]等提出了一个将基因根据蛋白质互作网络相连,再将癌症细胞系数据和基因相连建成异质性网络的方法。以上均是构建异质性网络直接预测的研究,也有通过网络分析细胞系数据得出辅助结论的研究成果。Choi[21]等提出了将癌症基因组学结合网络动力学的方法进行分析,通过使用吸引子景观分析(Attractor landscape analysis)方法,以p53的基因调控网络为例揭示了其中可能作为药物靶点的重要基因。Speyer[22]等分析了CTRP上368个小分子药物对810个细胞系上的影响,通过通路数据和与通路数据对应的差异依赖网络来发现细胞系对药物作用的特异性基因。

相较于其他算法,网络分析方法解释性相对更强,更符合目前对生物数据的认知。但是碍于构建网络的数据源并不完备、部分关系未得到检测且已知的偏向于已被大量研究的基因和疾病[23],由此会使某些潜在驱动基因得不到算法的重视从而影响对药物反应的预测结果。

2.2 机器学习方法

机器学习是人工智能领域的重要方法,旨在让模型从已知的数据特征出发,通过学习得到规律以预测未知数据。在本问题的研究中,应用机器学习方法是主要的研究手段,创新点主要集中于提出新的算法、新的特征或降低预测所需的数据维度。

Riddick[6]等对NCI-60数据使用了随机森林(Random forest)算法,为机器学习方法在本问题上的应用做出了铺垫。Menden[24]等使用了基因组数据和药物的化学性质共同预测药物敏感性,使用的是人工神经网络(Artificial neural network,ANN)模型。Supahvilai[25]等提出一种基于推荐系统(Recommender system)思想的方法,根据药物和细胞系对潜在“药物基因组”空间的学习,预测未知细胞系的抗癌药物作用。Zhang[26]等在推荐系统的基础之上,采用混合内插加权协同过滤(Hybrid interpolation weighted collaborative filtering)的方法。Ruffalo[27]等使用了多任务学习的方法重构了药物作用网络,证实了多任务学习在对药物敏感性预测上的可行性。Wang[28]等使用了DiffRank、GSVA、PLAGE和Z-score四种方法基于通路的活性进行了无监督的学习,该工作减少了预测所需的特征。HUSSAIN[29]等尝试使用了Apache Spark算法并取得了良好的表现。Knowles[30]等基于贝叶斯非参数方法提出了一个多任务回归模型。Dhruba[31]等使用了迁移学习解决了CCLE和GDSC在数据源上的差异问题。CHEN[32]等为了融合问题中涉及到的多组学特征,提出了一种双层选择的方法。Kim[33]等在朴素贝叶斯(Naive Bayes)模型中使用了蛋白质组学的反相蛋白质矩阵作为特征,为多组学研究提供了参照。以上研究表明机器学习算法在本研究中已取得了一定的成果,但在对问题的定义、特征的选择等方面仍有一定的研究空间。

2.3 深度学习方法

深度学习技术是通过增加人工神经网络算法中的网络层数,从而加强模型的学习能力。使用深度学习方法,可以让网络以原始数据作为训练样本自提特征以跳过传统的特征选择步骤。近些年深度学习技术在图像识别、自然语言处理等领域均取得了较大的突破。而在对抗癌药物作用的预测中,深度学习的各种网络结构在被研究者尝试使用并有了一部分的研究成果。Chiu[34]等使用了体细胞突变数据和基因表达数据,通过使用自编码器(Autoencoder)进行了预训练,再将预训练网络的中间层结果作为特征构建了预测网络模型。Chang[35]等将基因突变数据结合药物分子指纹数据使用了卷积神经网络(Convolutional neural network,CNN)进行预测。Su[36]等使用了深度非网络模型——深度森林(Deep forest)对CCLE和GDSC上的数据进行了预测。Xia[37]等为了缓解训练中的梯度消失尝试了深度残差网络(Deep residual network)。

因为不同工作在数据选择和测试算法上有所差异,所以无法直接评价算法间的优劣程度,但是从算法指标上看深度学习确实在本问题上有所突破,如Xia[37]等的工作在NCI-60数据集上将预测的均方误差降到了0.015 8;Chang[35]等在工作的比照实验中使用了SVM算法和随机森林算法但效果均不如深度学习。而对深度学习算法的研究是热点与前沿,近年常有大量新改进的和新提出的算法,其网络设计的基本原理也在被不断发现。所以虽然目前并没有太多研究成果,但未来本问题的研究在深度学习方法上将有很大的提升空间。

3 总结与展望

在研究抗癌药物作用效果的问题上,相较于传统的基因检测和功能性实验的方法[38-40],使用计算方法有着时间短、成本低的优点。然而使用计算方法仍存在瓶颈。首先,细胞系不同于癌症患者身上的肿瘤细胞,缺少空间结构、微环境等重要影响因素。其次,癌症具有异质性,预测的药物作用结果只能通过患者细胞样本与细胞系的相似程度,通过计算模型预测患者对某种药物的敏感或抵抗,这显然有因误差而出现错误判断的可能。最后,一些计算模型虽然表现良好,但是其缺乏可解释性,研究者无法通过其算法的计算机理为解释癌症进行指导。

而在精准医疗与癌症诊疗结合的路上也并不平坦,因为缺乏产出和通过一些随机性试验结果[41]的验证,癌症精准医疗的意义曾受到质疑[2-3]。但随着越来越多有积极意义研究成果的发表,癌症精准医疗的理念得到了更多的侧面验证,虽然离它的彻底实现研究者们仍任重道远。

对基于计算方法视角的抗癌药物作用预测以及整个癌症精准医疗的发展有如下展望:

1)尝试前沿计算机算法,与算法发展相辅相成。计算方法的核心是计算机算法,研究者通过尝试前沿的算法有提高模型表现的可能性。如深度学习是目前生物学信息学方向的应用热点之一,如上文所述,已经有研究成果证实深度学习可以在对抗癌药物作用效果预测上取得良好的效果。而随着研究人员对深度学习算法的不断创造与改进,在本问题上可以预见会有较大的提升空间。

2)标准化实验数据,普及精准医疗概念。所参考的文献证实了可以直接使用计算方法分析标准化后的癌症临床数据。而能否获取更多可以用于计算分析的数据,取决于医疗从业人员是否有意识地采集有一定规范性、可以用于计算实验的数据。提高医疗从业人员对精准医疗概念的认识可以加快其发展进程。同样由数据科学家更新发布的数据库数据也可为计算方法提供更多的实验数据来训练更符合实际情况的计算模型。对本问题的研究从早期的NCI-60数据源发展到GDSC和CCLE等大型的数据库阶段,其模型的泛化能力已有了显著的提高。

3)多角度分析癌症并设计实验。对抗癌药物作用的影响因素有很多,如点突变、染色体变异、基因表达量变化等。一般计算方法只选取其中一种或几种作为模型的输入特征,很少有实验能够全面综合多组学和多因素来训练模型。所以如何融合多角度数据训练出能多方面观测患者(或细胞系)基因型的模型是未来可以突破的关键点之一。但与此而来的数据量少、不全,特征权重平衡等问题也需要在实验设计阶段有足够的理论支持。

4)消除临床实验与计算实验的隔阂。一直以来,临床实验和计算实验都不能很好地融合。临床实验一般倾向于数据来源和采样方法的独特性,而在分析过程中多使用数学统计方法,分析结果仅能揭示现象缺乏直接应用价值。计算实验强调模型的表现和特征选择的合理性,最终的实验结果有一定应用价值但因为缺乏解释性容易不被临床所接受。笔者认为,如何能在设计实验时将临床与计算两者结合是本问题乃至整个癌症精准医疗取得突破进展的关键点。如用计算方法将临床研究结果转化为临床前模型和用临床方法检验计算实验发现的生物标志物等,都值得研究人员尝试。

综上所述,计算方法有着一定的局限性,但在抗癌药物作用的预测问题上有着良好的表现和可以预期的提升空间。如何更好地使用计算方法是癌症精准医疗未来发展的重点之一。

猜你喜欢

抗癌计算方法细胞系
Fuzheng Kang' ai decoction (扶正抗癌方) inhibits cell proliferation,migration and invasion by modulating mir-21-5p/human phosphatase and tensin homology deleted on chromosome ten in lung cancer cells
浮力计算方法汇集
抗癌之窗快乐摄影
三十年跑成抗癌明星
抗癌新闻
随机振动试验包络计算方法
STAT3对人肝内胆管癌细胞系增殖与凋亡的影响
不同应变率比值计算方法在甲状腺恶性肿瘤诊断中的应用
抑制miR-31表达对胰腺癌Panc-1细胞系迁移和侵袭的影响及可能机制
E3泛素连接酶对卵巢癌细胞系SKOV3/DDP顺铂耐药性的影响