大数据与癌症研究
2016-11-30乔若静编译
乔若静/编译
大数据与癌症研究
乔若静/编译
抗癌之战中的大数据开发利用还处于初始阶段,但这一前沿阵地正在不断向前推进。
北卡罗莱纳大学的诺曼·沙普利斯(Norman Sharpless)正在利用沃森计算机系统分析DNA数据
癌细胞突变分类基因组图谱目录包含有大约250万字节数据,这一由美国国立卫生研究院(NIH)开展的一个庞大的研究项目,极大地提高了我们对各种形式癌症的理解。但对于提供样本患者的临床治疗经验,我们了解的还相对太少。
在癌症治疗链的另一端,电子健康档案中包含有丰富的个案信息,如充分加以利用,可极大地提高癌症治疗的水平。但实际情况是,这类病史记录往往都被封存在各个医院和医疗诊所内。结果就是,“研究人员与大多数病史都失之交臂。”纪念斯隆-凯特琳癌症中心专攻乳腺癌的肿瘤学家克利福德·胡迪斯(Clifford Hudis)说道。
为提高癌症治疗水平,胡迪斯和其他许多研究人员合作,正在努力开发如何来利用医疗科研、病人护理和临床试验中产生的大量数据的方法。大数据催生的许多机会,已扩展到医学界的大多数领域中,而“癌症研究更是走在了最前列。”美国马里兰州一家医疗保健咨询机构的医疗顾问林恩·伊瑟雷吉(Lynn Etheredge)说道。但是,多样化的致命癌症意味着,虽然研究取得了很大进展,但障碍依然多多。
伊瑟雷吉在2007年写的一篇很有影响力的文章中提出了大数据处理的“快速学习系统”,他认为,我们已进入了一个新的癌症研究和治疗的历史时期。“我们知道,癌症是一种与基因相关的疾病,而我们拥有对癌症进行分析的数据基础和计算能力。”他说。
怀着对尽早成功开发个性化癌症药物的希望,肿瘤学家和计算机专家正在共同努力,充分利用数字化信息,并将其运用到临床诊疗实践中。然而,面对这样的一项新兴事业,他们需要克服隐私、数据所有权以及可持续商业模式等方面的困难和障碍。“大数据既是一种研究工具,也是一种专营商品。”伊瑟雷吉说道,“这一领域仍处于早期发展中,我们需要解决的问题还有很多。”
在美国,许多机构组织通过将大数据运用到癌症临床实践中,使其在癌症治疗的一些方面走在了世界前列。这其中有四个决定性的因素:快速成长的新兴公司;专业的项目计划;强大的计算机能力;以及一个以癌症研究为中心的学术网络。
大数据与临床实践的互动
2009年,马萨诸塞州剑桥博德研究所的科学家们创办了一家基础医学公司,专门从事对肿瘤学家提交的病人组织样本进行基因测序和分析,然后与公司庞大的数据库以及其他公共数据库中的数据进行对照,从中筛选辨认致癌基因。基础医学公司数据库中的数据来自50 000以上癌症患者的资料。
“公共数据库与谷歌不同,肿瘤学家没法通过简单的途径搜索与自己病人所患肿瘤相关的致癌基因。”基础医学公司首席执行官迈克尔·帕利尼(Michael Pellini)说道,“我们对组织样本进行分析,然后将分析结果反馈回治疗实践,或以美国食品药品管理局(FDA)批准药物的形式反馈,或是以临床实验的形式反馈。”
对于一些疑难病症,肿瘤学家也可以在基础医学公司的客户网络端咨询,以期获得可能的建议。帕利尼说道,网站会在72小时内作出回应,将一些数据综合汇总发送给医生,咨询者可以从中权衡,哪一种特定药物或治疗方法有可能会是有效的。公司的宗旨是尽可能地将客户数据运用于更广泛的临床实践和医学决策中。
2015年1月,瑞士制药业巨头罗氏公司以10亿美元的价格,收购了基础医学56%的股权,以推动个性化癌症诊疗和相关药物开发。
2015年底,美国临床肿瘤学会(ASCO)预计将推出CancerLinQ平台,这个平台旨在通过对成千上万肿瘤治疗案例中获得的电子健康档案进行分析综合,为医生们提供更多临床实践经验——肿瘤学家通过访问CancerLinQ平台,从中可以了解特殊案例的治疗效果,然后对照己有的治疗方法,为进一步开发新的治疗方案开拓思路。
“我们所知道的癌症治疗案例来自于登记注册的临床试验,而这些案例只占癌症确诊患者的3%。”在CancerLinQ平台理事会任职的胡迪斯说道,“有了CancerLinQ平台,我们可以从97%以上未直接参与研究项目的肿瘤学家那里获得更多的经验。”
迄今,已有15个规模不等的小组开始了这方面的实践,预计到2016年ASCO将拥有50万份癌症患者的医疗档案。研究者和临床医生能够通过查询这些病史记录将其与患者的治疗效果进行比较。如此庞大数量的数据,可有助于明确某种特定药物或治疗方案的有效程度。
“CancerLinQ所做的最重要的事情是报告治疗结果,例如,接受了某种特定治疗方案的患者生存期更长,或病情发展得到缓解等。”ASCO质量研究所医疗主任、肿瘤学家罗伯特·米勒(Robert Miller)说道。
2013年,在一项针对17万乳腺癌患者进行的研究中,通过了CancerLinQ平台的一个原型测试。据米勒称,未发表的一些数据表明,该系统可以突显不同医疗实践提交数据的特点和效果。例如,他们是如何通过刺激产生更多红细胞来治疗化疗后贫血的。
CancerLinQ平台从电子健康记录中提取病人数据,对数据进行匿名化处理,然后将它们与其他类型的数据信息,包括医生的笔记和生物标记等整合在一起。其目的是当医生在对病人进行诊断和治疗过程中有疑问而难以决断时,这些数据将能够支持他们及时做出决策。
CancerLinQ平台的运行目前还是依靠捐赠,但米勒说道,随着时间的推移,这个平台将通过出售有效性报告和数据研究工具而获得更独立的生存能力。“我们正在考虑与CancerLinQ平台合作开发相关的一系列产品和服务,以帮助降低系统的运营成本。”米勒说道。
计算机运算能力亟待提升
大数据需要庞大的计算能力,2013年IBM成立了一个独立的业务单元:“沃森健康部门”(Watson Health unit),为结合了自然语言和学习能力的沃森认知计算机系统提供更多的商业机会。沃森储存的生物医学知识包括:公共医学(PubMed)数据库中的所有摘要、美国国家癌症研究所(NDI)的药典(批准药物和临床试验数据)、癌症体细胞突变的完整目录数据库以及其他多种来源的数据。
沃森认知计算机系统于2011年在美国电视智力竞赛节目Jeopardy中以击败人类冠军而出名。IBM沃森健康部门与十多个医疗机构、癌症中心和研究机构都建立了合作关系,IBM研究在纽约的计算生物学中心主任艾杰·罗伊鲁(Ajay Royyuru)说道。
例如,纽约基因组中心需要借助沃森计算机系统对胶质母细胞瘤患者的DNA突变进行筛选。胶质母细胞癌是一种会致命的脑癌。
纪念斯隆-凯特琳中心和得克萨斯州休斯顿MD安德森癌症中心的医生们,正在升级沃森系统成为一种临床支持工具,一种能够在电脑上展示匿名假设病例的程序。例如,一位患者的肿瘤细胞测试中,发现其STK11的基因缺陷呈阳性,可用糖尿病药物二甲双胍医治,罗伊鲁解释道。但沃森可能不会推荐二甲双胍,因为这是一个标示外的药物。“通过这个实例我们知道,需要教会沃森更多的东西,将网撒得更大。”罗伊鲁说道。
安德鲁·塞德曼(Andrew Seidman)是纪念斯隆-凯特琳中心的乳腺癌专家,他补充book=42,ebook=43