基因数据分析云上闯关
2017-01-10赵艳秋
赵艳秋
成本降低与时间缩短,给基因在临床医疗和健康领域的进一步深入应用和普及带来曙光。
最近,第11届国际基因组学大会(ICG)公布了历时6个月的全球公开竞赛结果。
一家从2009年起开展基因检测临床转化研究的初创企业在“数据压缩”和“计算加速”两个项目上刷新世界纪录。这家名为人和未来生物科技的公司从全球300多家参赛团队中脱颖而出获得冠军,并保持最低的计算成本。
“数据压缩”和“计算加速”是对基因数据进行处理分析过程中两个根本性的难题。它们的突破,给基因在临床医疗和健康领域的进一步深入应用和普及带来曙光。
上云的难处
去年起,主流基因数据生产企业开始面临数据爆发式增长的状况。这些自建计算集群来存储和处理数据的企业开始考虑数据上云,并且形成了行业趋势。
“云的架构能保证我们获得很高的数据安全性和稳定性。如果我们自己做本地存储,通常要把数据备两份甚至三份,肯定不如在云上做存储好。”人和未来首席技术官宋卓说。
不过,数据上云过程也遇到棘手问题:庞大的基因数据怎么搬上云?要耗多少时间和成本?上云后,基因数据这类大规模分析项目,根本不是靠简简单单地堆砌机器就能完成高效的计算分析。
“云上计算节点之间有I/O。当你布的节点越多,I/O之间的数据传输就越多。如果你不精细控制,就会形成一大堵“I/O墙”,计算性能大幅下降。这正是基因行业面临的两大难题,也是大赛设定这个比赛题目的根源。
人和未来已经花了两年时间来突破这两大难关。他们开发了“无损压缩”基因数据的新方法,实现了数据快速上云和存储。“我们把所有压缩算法都重新梳理了一遍,找到最好的压缩方式,并在工程技术上做了针对CPU指令集层面的优化”。
在这次大赛上,人和未来将200G测试数据无损压缩到原来的1/15大小,数据传输存储效率自然会大幅提升。
针对数据上云后的计算难题,人和未来基于AWS公有云上的EC2和S3存储和计算基础服务,自主研发构建了数据分发、调控和存储体系,绕过I/O墙。
“我们18分钟完成了对400GB人类全基因组数据的处理。这个级别的数据在单台高性能服务器上分析计算要花30个小时以上,目前世界范围内已报道的云上分布式计算的最好成绩是1小时50分钟。”宋卓说。这是一个质的变化,行业人士对此感到很振奋。
人和未来也希望把在过去两年所研发的计算加速和数据挖掘的应用工具和解决方案,提供给健康信息领域的专业机构。
“这将是一个封装好的,可以跑在任何云上的解决方案。”宋卓说。当然,最先选择基于AWS公有云研发,是因为AWS提供了目前市场上最稳定、丰富和灵活的云计算资源。“在AWS上能够选择的计算节点类型是最多的,这让我们可以根据不同任务类型,选择最高性价比的机器”。而当分析项目从十几台机器到几百台,每上一个层次规模都会触发不同问题,需要AWS较为成熟的支持。
巧用“竞价”
这次参赛,人和未来的基因数据处理和分析费用为16美元,将全基因组计算带入“百元时代”。
对于降低成本的秘诀,宋卓介绍,通常购买云服务,付费方式有两种:一种是按需付费;一种是预付费,一次性先购买一年的服务,成本约是按需付费的六、七折。但是AWS除此以外还提供了SPOT Instance——竞价型实例。AWS将闲置的资源用竞价方式释放出来,价格通常是按需服务的1/10,非常低。
“我们一次用几百个节点,相对是规模比较大的。我们与AWS一线人员交流,他们会告诉我们,在全球的范围内,哪些区域的SPOT Instance价格比较低,在哪个时间段内竞价不会大幅波动。”宋卓说。
人和未来在此次竞赛中巧用竞价模式,最终只花了16美元。
成本降低与时间缩短推动了基因检测技术的实际应用,极具现实意义。2011年前后,基于基因检测技术的的无创唐筛(唐氏儿筛查)被引入临床。与传统羊水穿刺相比,它准确率高且无创。现在,全国每年有100万以上的孕妇选择无创唐筛。它的终端价格是2000元,基本为人们所接受。
目前,人和未来与三甲医院临床疾病和肿瘤相关科室、健康体检和健康管理机构以及保险公司合作,开发相应的检测产品。不过,基因技术要在临床的各种应用中得到普及,需要成本的进一步下降。
宋卓透露,除了后端的分析计算成本外,前端通过基因测序仪生成数据的价格目前仍比较昂贵。如果前端测序价格能进一步降低,就会催生出更多数据。“我估计,测序价格从现在的1000美元降到500美元,基因检测将更深刻的影响社会的医疗和健康产业。这需要两三年时间。”他说。到那时,更多的基因检测将会在临床和大健康行业得到更多应用。