云存储基因组数据的可行性研究
2019-12-02张燕广州工商学院
张燕 广州工商学院
引言
生物信息学是一门交叉学科,综合了数学、计算机科学、统计学、生物学等学科。随着海量基因组数据的诞生,如何深入挖掘这些数据所蕴含的信息是一个亟待解决的问题。然而这些数据难以识别,数量过多,所涉及的处理与分析步骤多且繁琐,传统的数据处理方法无法使用,因此需要更高能力的数据计算分析和存储能力。而云计算有高速计算能力、超大存储量及应用特点,因此通过云存储渐渐成为生物计算发展的趋势。
1 研究内容的可行性分析
基因组数据持有者广泛而安全地使用数据是发挥数据价值、提供基于数据的作用的前提条件。现实中,有很多方式致力于解决此问题,如STATA,SPSS等基础软件,后出现了贝叶斯网络、聚类分析等统计学方法。然而随着基因组数据高通量的增长,准确运用数据、从而发现数据信息的复杂性也在不在增加,如何有效处理实验中产生的海量数据引起了研究者们的广泛注意。人们清楚地认识到对这些海量数据进行简单处理是远远不够的,必须有更有效的方法才能获取更有价值的信息。本项目力图解决分析海量数据时存在的问题,符合大数据时代的发展趋势,有助于推动大数据分析技术的发展,具有现实意义。
2 研究方法和技术路线的可行性分析
通过对研究内容和关键问题的分析,本项目提出了相应的研究方法和技术路线。对于大数据环境下的基因组数据,本项目引入云计算平台,通过该平台分析基因组数据的相互关系,并预测。云计算平台这几年发展非常迅速,适合分析高通量数据。通过较成熟的理论基础与技术平台结合,可以得出准确结论。
基于国内外文献研究分析,2018年初开始研读相关文献,了解最新研究成果。且课题组成员具备完成课题的能力:团队成员结构合理,其中包括科研、教学经验丰富的教师;学历层次高,绝大部分为硕士以上学历;科研能力强,大部分成员主持或参与过科研项目,且发表了高质量的科研论文。
3 技术、经济效益及风险分析
云计算从提出到今天已经有10多年的历史,现在平台建设日渐成熟,尤其随着数据数量越来越繁多,种类越来越繁多,云计算已经成为一种不可或缺的重要方式。
经济效益方面,则有以下几种情况:
(1)准确、安全、有效地通过云计算平台处理好基因组间的相互关系,可以进一步推进生物、医学的发展,弥合基因组的关系预测在技术上的鸿沟。
(2)有效处理基因组的关系(基因测序)带来了商业价值,提高了经济效益。本项目基于经济学的研究思路,使得基因关系更容易走向商业。在本领域有很多成功的例子:例如,2011年,华盛顿大学里26台基因测序仪器中的一台,以及一台超级计算机,经过几周昼夜不停地运行,准确找出了沃特曼(一名白血病患者)的病因——一个正常基因FLT3表达过于活跃,刺激了沃特曼癌细胞的快速生长增殖;并找到一种可以抑制基因表达的新药。这使得沃特曼成为第一个用此药治疗白血病的病人,且病情好转。再例如,莲的两个子类:热带莲(清迈野莲)和温带莲(中湖野生莲),它们有不同地理来源(由太平洋分开),但保持相同染色体数目。通过基因组测序分析二者之间的关系,对了解莲的基因多样性和亲缘关系,以及对种质资源的育种和非原位保存有重要意义。因此,基于本项目的新的安全有效的基因测序必定带来新的商业机会。
(3)有助于大数据战略,带来社会效益。大数据是建设智慧城市的基础,然而只有对大数据在“集大成”的基础上重组分析,数据的价值才能不断放大,成为“智慧”。
至于风险分析,由于基因组数据量多,导致可能选取不准确,从而影响实验结果。
要达到的主要经济、技术指标为:准确对高通量基因组数据进行测序分析并预测,及时应用到白血病、乳腺癌等疾病的临床诊断中,使得该技术及早造福社会,带来经济效益。
4 总结
云计算所具有的高速计算能力、高存储量及使用特点很好地满足了这些需求,因此融合云计算渐渐成为生物计算发展的趋势[5]。本文介绍了云存储基因组数据的可行性研究。