基于大数据分析法的精准医疗前景
2017-09-12向俊刘朦
向俊,刘朦
1.德阳市人民医院 信息网络科,四川 德阳 618000;2.德阳市第二人民医院 药剂科,四川 德阳 618000
基于大数据分析法的精准医疗前景
向俊1,刘朦2
1.德阳市人民医院 信息网络科,四川 德阳 618000;2.德阳市第二人民医院 药剂科,四川 德阳 618000
随着捕捉分子和医疗数据技术的发展,生物学和医学开始进入了大数据时代,从而推动了精准医疗的发展。精准医疗是利用高性能计算、大数据分析和云计算技术等方法,对基于个体基因、分子、细胞、行为等差异获取的生物信息学数据进行精准分析,提供疾病的精确诊断结果,并在此基础上提供个性化治疗服务。本文简述了大数据分析法下精准医疗和生物信息学的发展情况,并阐述了精准医疗发展面临的主要挑战以及大数据产生个性化信息的各种分组学研究。同时,鉴于大数据日益增长的性质,本文也将精准医疗面临大数据集成的一系列关键问题进行了分析。
大数据;生物信息;精准医疗;基因测序;生物标志物
引言
精准医疗,也称为个性化的、预测性的、预防性的、参与式的4P医疗方式,也是一种新型的个性化医疗实践方法[1]。根据个体差异实施不同的预防和治疗策略并不新鲜,血型分类用于指导输血已经应用了一个多世纪,目前国际社会广泛认可的血型细分为35种[2]。同样,增加对性别、种族、缺血时间和血清类型等因素的考虑,减少了器官移植排异的风险。然而,精准医疗概念应用于患者临床大数据面临一些挑战,由于数据量巨大而且结构复杂,医务人员无法直接从中获取有用的信息。
大数据分析为精准医疗提供了有力的技术支持,实现了计算机-医疗跨界协同发展。生物大数据由患者病历、诊断信息、生活习惯等多维度生物学数据组成,数据量大、异构性强、价值高是生物大数据的特点[3]。精准医疗是基于大规模人群的基因数据、生物样本(蛋白质、细胞数量、代谢物、DNA和RNA以及全基因组测序)、日常生活信息等数据的整合而发展起来的,大量的数据集合在一起,需要工具发掘其中的有利价值。大数据分析方法能对生物信息大数据进行有效的分析和挖掘,有利于对疾病的发病机制进行深入的研究,推动预防和治疗方法的发展[4]。
在本文中,我们提出了可用的方法分析多样的生物医学大数据,介绍数据集成的概念和分类,并且详细说明了大数据分析方法在精准医学的成果以及局限性。
1 基因测序的发展
2015年1月30日,美国总统奥巴马在国情咨文演讲中宣布将启动“精准医疗计划”,“精准医疗”开始逐渐步入了大众的视野[5]。由于成本大幅下降,而且测序时间也大幅缩短,基因测序在医疗中逐渐占据了一席之地。第二代测序技术在近几年取得了重大突破,原本测定一个人基因数据的需要上亿美元的成本,现在下降到了1000美元左右,测序所需时间也缩短至3 d[6]。在测序技术的驱动下,针对一些疾病已经开始应用基因测序技术开展治疗,从而拉开了精准医疗的序幕。预计到2020年,第三代测序技术大规模应用后,完成一次测序的成本可能降至10美元,测序时间有望缩短为10~15 min[7]。
精准医疗发展的最终目标是精准医疗产业链,环节包括上游的医疗仪器(设备)研发生产、医用耗材制造、生物样本数据库建立与维护、前沿医疗技术和相关技术研发;中游的生物样本数据的检测、测量和分析诊断;下游的精准医疗和健康管理[8]。
2 生物医学大数据
2.1 子类型化和生物标志物
同患者分类一样,子类型化的任务是识别亚型的患者,同一类疾病的亚型患者存在相似的潜在疾病相关机制,从而指导特定个体适用的治疗流程,同时也能预测治疗效果。尽管有不同的定义,子类型化在分类任务和机器学习研究领域中占据越来越重要的地位。例如癌症、自闭症、自身免疫性疾病、心血管疾病、帕金森病等疾病,都通过子类型化的方法进行了研究。
根据美国食品及药物管理局定义,生物标志物是指任何可测量的诊断指标,用于评估风险或检测疾病。生物标志物主要应用在发现患者的特点,区分患者的亚型,这样就能通过生物标志物来决定他/她是否属于一个特定患者的亚型。目前,生物标志物被认为是提升精准医疗和降低医疗成本的关键[9]。
2.2 样本的持续增长
随着信息化的持续发展,生物医学数据正在迅速的增加。例如,人类可用的基因组与外显子组的数量在过去10年几乎按指数级增长。2012年,已经确认的人类基因组已经达到了1092个[10]。2003年,第一个外显子组被发现,目前,人类已经发现了60706个独立的人类基因外显子。最近英国政府宣布,到2017年,绘制100000个人类基因组项目[11],同时,美国也计划绘制100万个人类基因组用于精准医疗[12]。在数量持续增长的同时,也需要保证和提升基因组数据的采集质量,基因组数据的质量取决于短序列长度总和占目标基因序列的长度比例[13]。在实际情况中,我们通过不同的组织样本,可以从中获取更多的基因组数据。此外,随着技术的发展,样本可以更长时间保持其有效性,我们甚至可以评估随着时间推移,药物效果与基因组的关联性。
2.3 基因数据的异质性
各种不同生物实体(染色体、蛋白质、代谢产物等)中可收集的数据在持续增加,数据总量变得越来越大,这对存储和管理数据提出了新的要求。2011年,美国已经收集了1018字节的医疗数据,预计到不久的将来,数据量将会迅速提升到1024字节[14]。这些医疗数据具有高度异构的特性,就算是同一个数据元,通过不同的技术手段获取,也存在范围、精度、时间等差异。此外,由于缺乏统一的标准,许多厂商和研究机构都按照自己的方式存储收集到的数据集,造成了大数据提取面临的一系列问题[15]。
3 大数据分析方法
医疗大数据具有大规模、多样性、复杂性等特性,因此需要高效的算法对医疗大数据进行分类和挖掘。机器语言或基于网络的计算机技术开始应用于大数据的分析与统计,这些方法已经在大数据与精准医疗之间展现出了巨大的潜力,且仍有很大的改进空间[16-17]。基于机器语言方法在分析大规模、多样化、异构性的生物医学数据类型具有明显的优势,而这是精准医疗和生物信息学之前面临最大的问题[18]。因此,下面我们将介绍处理大数据的方法。
3.1 疾病子类型化技术
疾病子类型化是指根据基因组与临床数据将病人分成具有一定共性的子组。子类型化的主要目标是实现对患者更加精准的治疗方案,也可以对治疗效果进行更加准确的预测。目前有许多疾病的治疗方案得益于子类型化的实施,比如帕金森、心血管疾病、自身免疫综合征、癌症等。
癌症是子类型化研究最多的疾病之一,癌症的诱因是一个疾病基因畸变的积累,最终导致细胞系统的失调[19]。就算是同一部位的癌症,也会因为基因组的差异而表现出不同的临床行为。许多癌症的类型已经被大数据集分组技术细分出来,包括结肠癌、直肠癌、乳腺癌和卵巢癌。
无监督的机器学习方法,例如层次聚类算法,K-means聚类算法,非负矩阵分解等,可以应用于基因表达数据。通过比较不同基因对疾病的影响,从而划分出有意义的基因表达子组。最近有研究人员通过对肿瘤组织样本基因表达差异性的对比,将患者划分为不同的子类型,进行针对型的治疗方案。基于所选择基因组表达的差异,差异越大的基因组在数据中的距离越远,从而对其进行聚类,达到分组的目的[20],K-means方法下的基因分组,见图1。
图1 K-means方法下的基因分组
3.2 个性化治疗方案
目前我们能够通过各种渠道和方法整合不同数据类型的信息,如药理、化学、遗传和临床资料。同时,由于许多疾病存在许多性质不同的子类,同种药物对于它们不一定有同样的治疗效果。因此,精准医疗的整体目标是考虑疾病与患者信息多样性与关联性,有针对性的将药物分类用于每个患者,而大数据分析提供了解决这个问题的方法[21-22]。
首先,从多个不同的药物和疾病采集数据源,用于分别计算它们之间的相似性,分别构造成不同的疾病数据集与药物数据集,疾病数据集与药物数据集,见图2。
图2 疾病数据集与药物数据集
然后,分别选取相似性较高的疾病数据集A与药物数据集B,构建一个疾病-药物整体对应集,构成新的数据集C,构造方法,见图3。
预计该厂将在2018年完成工业调试。从2019年开始,该厂将拥有7500吨的年产能。到2021年全面建成投运后,年产能将达1.5万吨,占全球总产能的1/4。该厂将成为全球成本最低的铀转化厂。
图3 疾病-药物对应集构造过程
最后,基于疾病-药物对应集中疾病-药物元素的相似性,可以通过逻辑回归训练样本加以分类,得到预期的结果[23]。在大量数据样本的支持下,经过多次训练,可以提升疾病-药物组的有效性。通常疾病-药物对应集中的元素存在一对多甚至多对多的关系,因此在分组和样本训练其实要复杂得多,图3只是列举了其中一种情况。此外,这种方法实用性较强,可以用于未来的个性化药物治疗,通过整合患者的基因组数据和疾病信息做出相似性和关联性分析。
4 应用现状
在现有的研究中,通过对医疗大数据的分析与利用,可以逐步实施个性化医疗方案[24-25]。比较著名的是德国默克公司正与Regenstrief研究院一起实施的个性化医疗项目,通过研究对特定疾病的易感性、遗传变异和对特殊药物的反应这3者之间的联系,使得在药物的研发和使用中,充分考虑到基因和遗传变异的因素[26]。通过医疗大数据的支持,针对不同特质的患者可以采取相对优化的治疗方案,甚至可以使用更加合理的药物剂量,达到提升治疗效果,减少副作用的目的。就目前来说,个性化医疗主要是通过个人基因测序、基于基因的新药研发、个人健康信息管理这3个方面实施的。
复旦大学的智能信息处理实验室开发了一种多协作矩阵分解方法(Many-Sided Coordinate Matrix Factorization,MSCMF)的框架用于药物预测[27]。在这个框架中,代表药物相互作用的矩阵作为输入值,那么多个矩阵就代表不同类型的相似药物,共同构成了一个数据库。MSCMF项目中,药物和靶标矩阵在一个共同的低维特征空间分解成两个低维矩阵,分别表示药物和靶标的低维特征向量,低维矩阵中药物和靶标值的计算通过半监督学习的方式完成。这种情况下,两种药物或者靶标之间的相似性是近似对应了它们特征向量的内积。作者在数学上制定分解条件约束在同一目标函数,它们通过应用交替最小二乘算法最小化。收敛之后,从获得的低维矩阵重建药物-靶标矩阵,以前的记录则代表预测药物-靶标的相互作用。MSCMF表现出比以前更好的执行药物-靶标预测方法,此外,MSCMF很大的优势是,它可以集成来自多个数据源中相同的药物-靶标组,评估其对药物-靶标预测的质量。
在基于基因的新药研发过程中,大部分药品都是与其目标蛋白质相互作用并调节蛋白质生物功能的小化合物。因此,分析蛋白质与小化合物之间的相互作用机制是新药研发的关键步骤。这使得分子大数据库能够帮助人们分析大量复合蛋白相互作用的信息,加快新药研发的效率[28]。研究人员提出了多种计算方法为药物再利用,可以根据不同的标准将药物分类。从数据出发的观点中,Dudley[29]提出了基于药品和疾病的分类方法。第一组使用一些效果相似或者副作用相似的药物(如化学相似性,药物引起的相似基因表达式),并利用一种新颖的候选药物组与其他药物执行相同的动作。将相似药物作用到目标蛋白质中,根据靶向性相似,即蛋白质序列相似,或3D结构相似推断出新的药物,也可以同时使用上述3种计算相似性的方法用于分类。他们通常使用机器学习或者神经网络来推断药物分类的过程。
通过分析某种疾病患者人群的组学数据,能够迅速识别疾病发生和疾病治愈的生物标志物。在药物研发方面,大数据促进人们对病因和疾病发生机制的理解更加深入,从而有助于识别生物靶点和研发药物。同时,充分利用海量组学数据、已有药物的研究数据和高通量药物筛选,能加速药物筛选过程[30]。
5 发展前景
6 挑战与展望
基于基因检测技术的发展,疾病诊断的准确率在逐步提升,致病机理的认识也逐渐深入,即使在这种情况下,想要短期内研究出针对性的精准治疗方法仍然比较困难,在实际的医疗环境中,药物的临床副作用仍然不可忽视,需要进行大量的临床试验。此外,由基因组突变、缺失引发的罕见病,由于发病率低,长期的治疗费用极高,且许多患者支付能力较低,无法为相应的治疗方法提供经济的市场回报,导致基于基因测序的精准医疗仅仅停留在研究阶段,无法吸引医药公司投入参与。
最后,精准医疗大数据的复杂度远高于传统互联网大数据,医疗数据的收集和处理也是一大难题,并且由于数据格式并未完全统一,收集的数据可用性并不高。肿瘤临床数据需要采集的类型不仅包括传统的生化指标、影像报告、传统病理和治疗信息,还有通过新的临床检测手段产生的基因组信息[35]。对基因突变的正确解析、标记做出临床意义的注释,不仅涉及数百个软件包的开发和运用,还依赖于生命科学、临床医学、临床药理和生物信息学的科学理解和解读。
[1] Hood L,Friend SH.Predictive, personalized, preventive, participatory (p4) cancer medicine[J].Nat Rev Clin Oncol, 2011,8(3):184-187.
[2] Mirnezami R,Nicholson J,Darzi A.Preparing for precision medicine[J].N Engl J Med,2012,366:489-491.
[3] McDermott JE,Wang J,Mitchell H,et al.Challenges in biomarker discovery: combining expert insights with statistical analysis of complex omics data[J].Expert Opin Med Diagn, 2013,7(1):37-51.
[4] 邵学杰.医疗革命:医学数据挖掘的理论与实践[M].北京:电子工业出版社,2016.
[5] The "Precision Medicine" initiative[EB/OL].https://www. whitehouse.gov/precision-medicine.
[6] 于广军,杨佳泓.医疗大数据[M].上海:上海科学技术出版社,2015.
[7] 鞠躬,陈志南.生命之窗:生命科学前沿纵览[M].西安:第四军医大学出版社,2014.
[8] 江艺泉,马晋平.奥巴马推出精准医疗计划倡议[J].世界科学,2015,37(3):4.
[9] 许琛,王丽殊,徐碧华,等.AKI生物学标志物新进展[J].中国医学创新,2013,10(28):162-164.
[10] Davis JC,Furstenthal L,Desai A,et al.The microeconomics of personalized medicine: today's chal-lenge and tomorrow's promise[J].Nat Rev Drug Discov,2009,8(1):279-286.
[11] The 1000 Genomes Project Consortium.An integrated map of genetic variation from 1,092 human genomes[J]. Nature,2012,491(7422):56-65.
[12] The project to map 100 000 human genomes by 2017[EB/OL]. https://www.gov.uk/government/news/ human -genome-uk-tobecome-world-number-1-in-dna-testing.
[13] 人类基因组大数据[EB/OL].http://ihealthtran.com/big-data-inhealthcare.
[14] Gligorijević V,Malod-Dognin N,Pržulj N.Integrative methods for analyzing big data in precision medicine[J].Proteomics, 2016,16(5):741-758.
[15] Jagadish HV,Gehrke J,Labrinidis A,et al.Big data and its technical challenges[J].Commun ACM,2014,57(7):86-94.
[16] 朱小兵.医疗大数据:从偶然走向必然[J].中国医疗设备, 2014,29(3):204-206.
[17] 王甜宇,孙艳秋,燕燕.大数据时代云计算在区域医疗信息化中的应用[J].中国医疗设备,2015,30(6):72-74.
[18] 董馨忆.数据挖掘在生物医学数据分析中的应用[J].医药卫生,2016,(5):226-227.
[19] 谢玲,陈劼,孙怡,等.中国结直肠癌、肺癌和胃癌患者KRAS基因突变情况分析[J].临床与实验病理学杂志,2016,32(2): 210-213.
[20] 李文超,周勇,夏士雄.一种新的基于层次和K-means方法的聚类算法[A].第26届中国控制会议论文集[C].北京:北京航空航天大学出版社.2007.
[21] 孙可欣,詹思延,胡永华.医学大数据在药物基因组学领域中的应用与发展[J].药物流行病学杂志,2017,26(1):68-73.
[22] 任慧朋.医疗大数据环境下的健康信息分析方法[J].中国医疗设备,2016,31(5):173-177.
[23] 栾曾惠,胡欣,孙雪林.药物基因组学在药物剂量调整中的应用[J].中国合理用药探索,2017,14(1).
[24] 胡灿,邓官华,蓝茂英,等.混合模态人体个性化组织介电特性电磁模型的建立与应用研究[J].中国医疗设备,2016,31(5):23-29.
[25] 柯艳,王忠庆.个性化临床科研随访闭环管理[J].中国医疗设备,2016,31(6):152-153.
[26] Duke JD,Morea J,Mamlin B,et al.Regenstrief institute's medical gopher: A next-generation homegrown electronic medical record system[J].Int J Med Inform,2014,83(3):170-179.
[27] Zheng X,Ding H,Mamitsuka.Collaborative matrix factorization with multiple similarities for predicting drug-target interactions[A].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining[C].New York:ACM, 2013:1025-1033.
[28] Dimmer EC,Huntley RP,Alam-Faruque Y,et al.The UniProt-Go annotation database in 2011[J].Nucleic Acids Res,2012,40(2): 565-570.
[29] Dudly JT,Deshpande T,Butte AJ.Exploiting drug-disease relationships computational drug repositioning[J].Brief Bioinform,2011,4:303-311.
[30] Cheng L,Schneider BP,Li L,et al.A bioinformatics approach for precision medicine off-label drug drug selection among triple negative breast cancer patients[J].J Am Med Inform Assoc,2016,23(4):741-749.
[31] 罗丽娜.中国居民EHR系统构建研究[J].兰台世界,2015,(11):6-7.
[32] 卢云,王丹,翟红,等.基于电子健康档案的区域医疗实现方式[J].中国医疗设备,2012,27(3):54-56.
[33] 王婴,姚志洪,刘雷.电子健康档案标准-CDA与openEHR[J].中国医疗设备,2010,25(3):11-14.
[34] 王惠来,雷寒,汪洋,等.基于大数据的智能健康管理信息模型研究[J].重庆医学,2017,46(10):1422-1424.
[35] 段小蕾.健康数据计划催生医疗创新[J].中国社会组织, 2015,(8):30-31.
本文编辑 王婷
Prospects of Precision Medical Based on Big Data Analysis
XIANG Jun1, LIU Meng2
1.Department of Information Network, People’s Hospital of Deyang City, Deyang Sichuan 618000, China;
2.Department of Pharmacy, the Second People’s Hospital of Deyang City, Deyang Sichuan 618000, China
With the advance in technologies capturing molecular and medical data, we enter the area of "Big Data" in biology and medicine, which offers many opportunities to advance precision medicine. The precise medical treatment can accurately analyze the bioinformatics data that obtained based on individual genes, molecules, cells and behavior differences, provide accurate diagnosis of the disease and personalized treatment services on this basis. In this process, the high performance computing, large data analysis, cloud computing technology and other methods are used. This paper gave a brief account of the development of precision medical and bioinformatics under the big data analysis method. Meanwhile, we outlined the key challenges of precision medicine and the present recent advances in data integration-based methods to uncover personalized information from big data produced by various omics studies. Moreover, in view of the growing nature of big data, a series of key problems, such as big data integration, that precise medical would face in the future were analyzed.
big data; bioinformatics; precision medicine; gene sequencing; biomarker
TP393
A
10.3969/j.issn.1674-1633.2017.08.030
1674-1633(2017)08-0112-04
2017-02-24
2017-05-23
作者邮箱:280620806@qq.com