基于多任务学习模型的药物敏感性预测
2020-07-14唐益翔
摘要:目前基于建模的抗癌药物敏感性预测研究较多,但这些模型大多使用传统单任务学习模型。这种模型在解决复杂问题时需将问题拆分成单个子问题,忽略了各个子问题之间存在的关联,因而模型精度会受到影响。大多数药物敏感性预测模型仅使用了基因表达数据,忽略了基因突变、甲基化以及拷贝数等数据对药物敏感性预测的影响。结合上述数据,并考虑到不同药物之间可能存在的相似性,利用多任务学习方法共享任务之间的信息,对抗癌药物敏感性进行预测,预测的平均精度达到56%以上,较普通的Lasso模型提高了35%左右。同时,针对每种药物找出一些敏感的生物标志物,这些生物标志物可为癌症治疗提供指导。
关键词:癌症;药物敏感性;个性化医疗;多任务学习;预测
DOI: 10. 11907/rjdk.191337
开放科学(资源服务)标识码(OSID):
中图分类号:TP319
文献标识码:A
文章编号:1672-7800(2020)001-0207-04
0 引言
在对癌症患者治疗方法上,传统的治疗方式大多采取一刀切的治疗策略。但大量临床实践表明,这种方法存在缺陷。因为即便是患有同一癌症类型的不同病人,由于病入本身原因,对于同一种药物或治疗方法所达到的效果都会有所不同[1]。因此,如何提高药物疗效成为广大医疗工作者亟需解决的问题。而针对某个具体病人的个性化医疗受到专家学者的广泛关注[2-4]。个性化医疗的关键是针对病人患病的某个重要基因进行医治[5-6]。在临床治疗中,为了研究出适合特定癌症病人的靶向疗法需要大量临床试验,但这种试验成本昂贵,局限性太高,因而很难满足医疗需求。随着生物信息学的快速发展,产生了大量的基因数据,因而越来越多的专家学者开始利用基因数据信息建立模型进行药物敏感性预测[7-12]。
基于基因组学数据在药物敏感性预测方面取得了不菲的成果。基于NCI-60数据,Riddick等[13]提出利用随机森林算法的回归模型预测药物敏感性;基于CCP数据集,Menden等[14]建立了以神经网络为基础的预测模型;基于GDSC数据集,Nanne Aben等[15]运用两阶段法将基因表达、基因突变、甲基化、拷贝数等数据结合起来预测药物的敏感性。
除了根据基因组信息预测药物敏感性外,Shivakumar等[16]提出了利用药物之间的结构相似性预测未知药物敏感性的方法。James T Webber、Swati Kaushik等[17]提出利用多维网络模型集成肿瘤基因数据和细胞系数据,在基因层面上研究不同疾病对于不同药物的反应。这些方法不仅促进了癌症药物基因组学的发展,也为预测药物敏感性提供了新的思路。
药物敏感性预测研究常用方法是机器学习,但这些研究大多使用单任务学习模型,对复杂问题分析只能先将大问题分解成独立的子问题,然后对每个子问题分别进行学习,最后对子问题学习结果进行组合得出复杂问题的结果,这种分析方式忽略了各个子问题之间可能存在的关联,因而对预测精度有所影响。Han Yuan等[18]提出利用多任务学习模型方法预测药物敏感性。这种方法将每一种药物的敏感性预测都视为一个任务,相比于传统的单任务学习能取得更好的效果,但这个方法没有考虑到各药物之间可能存在的相似性。本文在运用多任务学习模型基础上,结合基因表达、基因突变、甲基化、拷贝数等4种数据,同时考虑不同药物之间由于分子结构、蛋白质序列等排列方式可能存在一定的相似性,综合这些因素进行药物敏感性预测,提高了预测精度。希望根据得到的结果筛选出每个细胞系中对药物敏感性最高的几种生物标志物,为病人的临床诊断用药提供指导。
1 数据来源
本文所用到的数据均来自CDSC( Genomics of DrugSensitivity in Cancer)数据库的最新数据,其中包括1001个人类癌症细胞系样本所对应的基因表达、基因突变、甲基化和拷贝数信息,以及265种药物在991个细胞系上的反应值数据。本文所用的敏感性衡量指标为AUC(药物剂量曲线下方的面积),由定义可以看出,AUC越小,药物敏感性就越高,反之则越低。本研究所需要的数据可在https://www.cancerrxgene.org/downloads中下載得到。
2 多任务学习算法
2.1 模型选择
研究中所选取的药物敏感性数据描述的是265种药物在991个细胞系上的敏感性表达值。其中对每一种药物敏感性预测都可看作是一个预测任务,如果使用传统意义上的单任务学习模型,可能会忽略各种药物之间存在的关系,但直接将所有药物的数据放到一起,学习一个回归函数进行预测,模型的精度会受到影响。而多任务学习则更看重任务之间的联系,通过联合学习,同时对265个任务学习不同的回归函数,既考虑到任务之间的差别,又考虑到任务之间的联系,可有效提高预测精度。
2.2 模型简介
多任务学习定义:给定m个学习任务,其中所有或一部分任务是相关但并不完全一样的,多任务学习目标是通过使用这m个任务中包含的知识帮助提升各个任务的性能[19]。
单任务学习在解决一些复杂问题时,需要将整个问题拆分成一个个独立的子问题,这样会影响结果精度。而多任务学习可以在学习过程中共享所学习到的信息,相关联的多任务学习比单任务学习能取得更好的泛化效果。
2.3 基于图结构编码的多任务学习模型
多任务学习模型很多,在参考Jiayu zhou[20]等编著的MLASAR后,使用其中基于图结构编码的多任务学习模型,其核心公式如下:
2.4 模型建立
2.4.1 数据处理
(1)不同药物之间因为其分子结构、蛋白质序列等的排列方式可能存在一定的相似性,因而使用RDKit计算各个药物之间的相似性。
RDKit是一款开源的化学信息学与机器学习工具包,可在:https: //github.com/rdkit/rdkit/blob/m aster/D ocs/B ook/ln-stall.md中下载。它可通过计算各药物之间的分子指纹(Canonical Smile)生成各药物之间的相似性数据。在Pub-chem数据库查找,最终找到223种药物的分子指纹,根据这些分子指纹通过RDkit生成一个223x223的相似性矩阵(对角线数值均为1)。
(2)给这个相似性矩阵设定一个阈值0.85,当两药物之间的相似性高于0.85时(对角线上数值减1),就代表两个药物之间存在相似性,用l表示,否则用0表示。对1的数量进行计数,有多少个1就有多少条边。假设共有b条边,则R为223xb的矩阵,若对于某条边i,e(i)和ev(i)分别代表1和-1,则证明第x个和第y个药物之间存在相似性。
(3)本研究考虑到基因表达、基因突变、甲基化以及拷贝数等数据的互补性,把它们当作特征矩阵x一同输入模型中。先筛选找到它们共有的癌症细胞系样本,再对这几项数据进行合并。合并完的数据共有928个细胞系样本,包含了18 330个基因数据,合并完的数据就是多任务学习模型里的特征矩阵X。在GDSC数据库中下载的药物敏感性数据中,先筛选出具有分子指纹的223种药物,每种药物在某些细胞系样本上或多或少都存在缺失值。将上述4项数据与药物敏感性数据合并之后,针对每一种药物分别删掉有缺失值所在的一行数据(对每一种药物的预测都看成是一个任务),因而得到223个不同矩阵。
(4)将整理好的数据输入模型中。该模型共有223个预测药物敏感性任务。对每个任务其特征矩阵X的维度都是不一样的,而响应变量Y则是对应的223种不同药物的反应值,经过模型计算会得到这223种药物的敏感性预测值y,将y与Y利用斯皮尔曼等级相关系数进行精度检验。
2.4.2 模型精度检验
本文以基因表达、基因突变、甲基化、拷贝数和药物反应值等数据结合药物之间的相似性建立多任务学习模型,预测药物的敏感性,使用斯皮尔曼等级相关系数衡量最后的预测精度。
在统计学中,斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性。假设两个随机变量分别为X、Y(也可看作两个集合),它们的元素个数均为N,两随机变量X、Y之间的斯皮尔曼等级相关系数可由x、y或d计算得到,计算方式如下:
由排行差分集合d计算:
p的取值范围在-1-1之间,当O
3 模型结果
3.1 多任务学习模型预测结果
考虑到上游基因数据和下游基因数据之间存在的互补性以及待测药物之间可能存在的相似性,运用多任务学习方法拟合数据,最终可得到每种药物反应的预测值。在模型中运用corr函数中的spearman相关系数计算预测值与真实值之间的相关系数作为该模型的预测准确率,最终得到223种药物敏感性预测的平均精度为0.56。所有药物中有71%的药物预测值与真实值的相关系数都超过了0.5,其中有7种药物的预测精度超过了0.8,而对Trametinib药物敏感性的预测精度达到了0.85。部分药物模型预测结果如图1所示,全部药物的预测精度分布如图2所示。另外,针对每种药物按照重要性对前10种生物标志物进行排序,部分结果见表1。
3.2 与Lasso模型比较
Lasso是一种用来估计稀疏线性模型的方法,广泛应用于回归模型中,尤其是针对一些高维数据,它可以有效降维。其原理是基于惩罚方法对高维数据进行变量选择,通过对原本系数进行压缩,将原本很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著性变量,将不显著的变量直接舍弃,因而对高维数据的回归预测效果较好。
考虑到基因特征过多(18 330个),故采用普通的Lasso模型对数据进行拟合。为防止过拟合,采用样本内部的10折交叉验证,从而得到对应的预测值。对部分药物的最终预测结果如图3所示。
從图4可以看出,用Lasso模型对药物的敏感性进行预测时,有7种药物的精度都超过了0.6,其中对RDEA119的预测精度达到了0.686。但是,同样从0.0到0.6之间每个区间的精度分布都比较均匀,甚至还有不少药物的预测精度为0,这导致lasso模型的平均预测精度只有0.21左右。
如图5所示,不论是平均预测精度还是对单个药物的预测精度,多任务学习模型都明显优于普通lasso模型。
4 结语
从预测结果看,多任务学习模型的效果明显优于普通Lasso模型,原因有二:①在对药物敏感性预测过程中,本文结合了基因表达、甲基化、基因突变、拷贝数这4项数据,利用了这些数据之间的互补性,提升了预测精度;②本研究在对药物敏感性进行预测过程中,考虑了不同药物之间的相似性对精度的影响,并运用多任务学习方法充分利用了这一点,使得模型精度有所提升。但本文还存在一定的局限性,如只是简单地将这几项数据合并在一起,没有考虑到它们本身存在的层次性。如何将这点整合到模型建立过程中,提高模型预测能力,是今后的研究方向。
参考文献:
[1] 乔苏莉.基于随机森林算法的抗癌药物敏感性预测研究[D].上海:上海师范大学,2017.
[2]CUI J, CHEN Y,CHOU W C,et al.An integrated transcriptomic andcomputational analysis for biomarker identification in gastric cancer[J]. Nucleic Acids Res, 2011, 39(4): 1197-2070.
[3]XIE Y,XIAO G,COOMBES K R,et al.Robust gene expression sig-nature from formalin-fixed paraffin-embedded samples predicts prog- nosis of non-small-cell lung cancer patients [J]. Clin Cancer Res,2011, 17( 17) : 5705-5714.
[4]XIAO C, MA S. MINNA J. et al. Adaptive prediction model in pro-spective molecular signature-based clinical studies [J]. Clin CancerRes , 2014, 20(3) : 531-539.
[5] 樊晶晶 .识别基因相互作用并将其应用于药物的敏感性预测 [ D ] .石家庄:河北科技大学 , 2018.
[6] 王艳.药物敏感性试验中的亚组统计分析 [D].上海 :上海师范大学 . 2018.
[7] SHOEMAKER RH. The NC160 human tumour cell line anticancerdrug screen[J]. Nat Rev Cancer, 2006 , 6( 10) : 813-823.
[8]KUTALIK Z. BECKMANN JS, BERGMANN S. A modular approachfor integrative analysis of Iarge-scale gene-expression and drug-re-sponse data[J]. Nat Biotechnol, 2008 , 26( 5) : 531-539.
[9]HEISER LM, JWANG N. TALCOTT CL, et al. Integrated analysis ofbreast cancer cell lines reveals unique signaling pathways [J]. Ce-nome Biol. 2009. 10( 3) : 1501-1521.
[10]SIROTA M. DUDLEY JT. KIM J, et al.Discovery and preclinical val-idation of drug indications using compendia of public gene expres-sion data[J]. Sci Transl Med, 2011 , 3( 102) : 561-569.
[11]BARRETINA J, CAPONIGRO G. STRANSKY N , et al. The cancercell line encyclopedia enables predictive modelling of anticancerdrug sensitivity[J]. Nature , 2012, 492( 7428) : 290-297.
[12] CARNETT MJ. EDELMAN EJ. HEIDORN SJ, et al. Systematicidentification of genomic markers of drug sensitivity in cancer cells[J]. Nature , 2012, 483( 7391) : 570-587.
[13]RIDDICK G. SONG H, AHN S, et al. Predicting in vitro drug sensi-tivity using random forests [Jl. Bioinformatics, 2011, 27 (2)220-224.
[14] MENDEN M P, IORIO F. GARNETT M, et al. Machine learningprediction of cancer cell sensitivity to drugs based on genomic andchemical propenies[J]. PLoS One , 2013 , 8(4) : 613-638.
[15]NANNE ABEN, DAINEL J VIS. Tandem: a two-stage approach t。maximize interpretability of drug response models based on multiplemolecular data types[J] . Bioinformatics , 2016( 32) : 413-420.
[16] SHIVAKUMAR P, KRAUTHAMMER M. Structural similarity as-sessment for drug sensitivity prediction in cancer[ J] . BMC Bioinfor-matics. 2009. 10(9) : 17-26.
[17]WEBBER. Integration of tumor genomic data with cell lines usingmulti-dimensional network modules improves cancer pharmacoge-nomics[J]. Cell Systems, 2018 , 7( 5) : 526-536.
[18]YUAN H , PASKOV I. PASKOV H, et al. Multitask learning improvesprediction of cancer drug sensitivity [Jl. Scientific Reports, 2016( 6) : 316-319.
[19]ZHANG Y, YANG Q. An overview of multi-task learning[J]. Na-tional Science Revie,v . 2018. 5( 1) : 34-47.
[20]ZHOU J. CHEN J. YE J. MALSAR : multi-task learning via structur-al regularization[ M ] . Arizona State University , 2012.
[21]MYERS J L. WELL A D. Research design & statistical analysis [J].Japanese Journal of National Medical Services, 2013 (55)1410-1421.
[22]SKILLINCS J H. Distribution-free statistical methods [J]. Techno-metrics, 1983, 25(2) :208-209.
作者簡介:唐益翔(1995-),男,上海理工大学管理学院硕士研究生,研究方向为系统生物学。