APP下载

基于肿瘤异质性的读段仿真工具设计方法研究

2019-03-28耿彧白涛

现代商贸工业 2019年3期

耿彧 白涛

摘 要:高通量基因測序因具有费用更低、通量更高、速度更快的技术特点得以迅猛发展,不同测序平台高质量仿真数据的产生有利于生物学研究。设计了一种适用于肿瘤异质性的读段仿真工具,能够真实反映肿瘤内复杂克隆结构,并可实现各种结构类型及不同测序平台数据,研究者可根据自身研究环境以及测序数据类型的特异性,产生合适的仿真数据,为肿瘤研究奠定实验基础。

关键词:肿瘤异质性;克隆结构;仿真工具

中图分类号:TB 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.03.096

1 引言

目前,肿瘤是急待解决的全球性医学难题。肿瘤基因组学可从基因水平上挖掘肿瘤发病机理,深入理解克隆演变过程,为寻求耙向诊疗提供理论依据。高通量测序技术的飞速发展使得各种测序平台产生海量的读段数据,为肿瘤基因组学奠定了研究基础。通常,实际情况在真实数据中是未知的,但仿真数据却可直接测试结果。运用仿真工具模拟真实数据,不仅可充分体现真实数据的特征,减少成本,而且可以对数据的某一特性进行独立分析,通过参数调整更好的评价算法性能。因此,采用合理有效的仿真数据不仅能够验证理论假设和模型有效性,而且为理论模型应用于实践提供了有力的支持。

目前,各种类型的读段仿真工具相继被提出,分别适用于基因组、宏基因组、转录组和外显子组等研究领域。其中,单基因组的仿真工具有来自于samtools软件包的Wgsim,错误模型服从均匀分布;ART依据真实数据集产生具有上下文相关的错误模型;pIRS和ArtificialFastqGenerator基于GC含量进行覆盖度的模型化设计。MetaSim、GemSIM、Grinder和NeSSM可指定物种的丰度来实现宏基因组的数据仿真。PBSIM对PacBio数据集进行分析,能产生适合第三代测序平台的长读段仿真数据。GENOME、FREGENE和FIGG考虑重组率和群体演变历史,可实现群体全基因组仿真。Wessim主要针对外显子区域进行数据仿真。尽管已有的仿真工具对各种测序平台产生的真实数据仿真效果颇佳,然而它们不能充分体现多级继承结构的数据特性。由此,本文设计了肿瘤基因组的仿真工具,TNSim,主要分析癌克隆中存在的多级克隆分布情况,形成合成的测序读估,有助于对癌症的克隆性及肿瘤异质性进行有效分析,并与已有的几种仿真工具针对克隆继承性进行了仿真性能比较。

2 方法

在Peter Nowell提出的CE理论模型中指出肿瘤发展的动态性,在治疗中的抗药性和选择压力下,不断地分化出新的子克隆,而每种克隆又具有独特遗传变异特性,使得个体肿瘤发展具有异质性,克隆性及克隆进化模式成为理解肿瘤进展的关键。因此,对肿瘤中复杂克隆结构的读段仿真成为了必然需求。TNSim由两个阶段组成,开发实现了一套完整的多级克隆结构仿真软件包,包括正常细胞数据发生器生成(NorSim)、肿瘤细胞数据发生器生成(TumSim)、Reads数据生成器(ReadGen)。

第一阶段设定正常细胞与肿瘤细胞样本中变异位点及类型,明确变异间继承关系,使具有上下级继承关系的子克隆等位基因变化频率的多态性保持不变,保证每一级子克隆新产生的变异情况不与其它子克隆的变异情况发生冲突,即克隆之间具有互斥关系。通过生成索引文件记录克隆的位置变化信息,来有效地解决多个克隆之间的变异位点互斥问题。

肿瘤组织中既有遗传变异,又有与疾病密切相关的体细胞变异,因此近来绝大多数研究都是联合分析正常细胞和肿瘤组织,为了使所有的变异位点避免冲突,具有唯一性且保证继承性,由读段仿真器首先产生正常细胞和各级克隆的sim文件,此文件中采用64位无符号数标识量记录变异位点信息,此标识量在数据结构层面仅为一个整型数值,却可以解析出描述一个变异所需的全部信息,包括位点、变异类型、基因型和其他属性,节约存储空间,提高计算效率。工作流程如图1所示。

第二阶段为生成仿真数据阶段,根据正常细胞和肿瘤细胞中子克隆各自的sim文件,形成包括各种变异情况的仿真环境并完成读段随机采集,在正反链上随机生成指定长度的读段文件(*.fq文件),该工具同时支持单末端读段和双末端读段采集以及单体型序列的生成,其中双末端读段的插入距离符合正态分布。对于皮肤癌等肿瘤细胞具有局部变异率增高的特性,TNSim可以在任意位置设置任意长度区域的不同变异频率。此外,可按着实际的需求调整来自于不同细胞和子克隆的覆盖度构成比例,由于变异位点在数据发生器中单独生成的,所以不会改变原有已生成的各自变异位点信息。TNSim还可以生成各种类型的变异,包括单点变异、短插入/缺失型结构变异、长插入/缺失型结构变异、串联重复型结构变异、倒置型结构变异、缺失-插入型复杂结构变异。

3 实验分析

为了验证TNSim工具生成的具有肿瘤异质性的仿真数据可靠性,随机选取人类基因组中的一条染色体作为参考序列,去除标识为“N”的无法确定的字符。设置正常细胞样本的变异率为10-3,肿瘤细胞样本的变异率为10-4。采用Wgsim、SInC、pRIS与TumorSim四种仿真方法实现克隆结构仿真数据的对比分析,进一步验证TNSim的实用性与有效性,如图2所示。选取美国肿瘤基因组路线图计划的三例肿瘤样本(AML、BRCA、UCEC),编号分别为AB-2968、BH-A18P和B5-A0JV。原图为发表在Nature上的亚克隆真实情况结果分布图,Wgsim、SInC、pRIS和TNSim根据已知的变异数据和参数,采用相同的数据分析流程得到各自的仿真结果。从图可见,Wgsim、SInC、pRIS都存在不同程度的峰值偏移和假阳性峰值问题,具有仿真误差。与之相比,TNSim基本不存在峰值偏移的问题,假阳性峰也相对最少。实验表明,TNSim更能真实的仿真肿瘤克隆结构及演变模式,更利于肿瘤异质性研究中的模型验证。

4 结论

肿瘤演变中蕴含着不同层级的子克隆,各克隆间互为依存、相互影响,呈现继承性与变异性共存,具有高度异质性的特点,群体遗传进化过程中也存在类似特征。研究肿瘤演变和群体进化过程都需要多级结构的仿真数据,针对演变进化中的多级结构特性及异质性特点,专门设计了仿真工具,利用位点标志量设定变异相关的类型、位置、继承关系并形成读段仿真数据,充分展现了克隆或样本之间保持相同等位基因变异频率的多层级继承关系。不仅适用于多级克隆结构的数据仿真,也能实现普通的读段数据仿真。为验证模型和算法的有效性提供依据。

参考文献

[1]Kandoth C,McLellan MD,Vandin F,et al.Mutational landscape and significance across 12 major cancer types[J].Nature,2013,502(7471):333-339.

[2]Li,H.et al.The Sequence Alignment/Map format and SAMtools[J].Bioinformatics,2009,(25),2078-2079.

[3]Pattnaik et al.SInC:an accurate and fast error-model based simulator for SNPs,Indels and CNVs coupled with a read generator for short-read sequence[J].BMC Bioinformatics,2014,(15):40.

[4]Hu X,Yuan J,Shi Y,Lu J,Liu B,et al.pIRS:Profile-based Illumina pairend Reads Simulator[J].Bioinformatics,2012,(28):1533-1535.