全基因组数据分析软件PLINK在统计遗传学教学中的应用
2016-11-08吕洪超张瑞杰姜永帅段炼李晋
吕洪超,张瑞杰,姜永帅,段炼,李晋
哈尔滨医科大学
全基因组数据分析软件PLINK在统计遗传学教学中的应用
吕洪超,张瑞杰,姜永帅,段炼,李晋
哈尔滨医科大学
统计遗传学是一门理论实践相结合的课程,是生物信息学专业重要的必须课程。我们在讲授理论知识的同时,注重培养学生的实践操作技能,引入了PLINK等当前国际流行的统计分析软件。通过指导学生利用PLINK软件对一套类风湿性关节炎的真实案例的分析,即促进了学生理论联系实际,又激发了学习的积极主动性,为将来顺利开展科研训练打下基础。
统计遗传学;PLINK软件;关联分析
人类基因组计划和人类基因组单体型图计划完成以后,随着基因分型技术的发展与成熟,统计遗传学方法已成为研究多基因复杂疾病易感性关系和基因定位的主要技术手段。在生物信息学领域,针对现代遗传学的研究尤其是分子遗传学研究逐渐成一门新兴学科《统计遗传学》。这是一门综合运用遗传学与数学的理论和方法,归纳整合群体遗传学、遗传流行病学、数量遗传学、生态遗传学和分子遗传学等分支学科内容,是遗传学、统计学、信息学高度交叉的学科。目前,经过多年的教学探索,教研室已经形成了比较完善的统计遗传教学内容和教学手段。现行的教学内容包含了基因频率与基因型频率、遗传连锁分析与关联分析、群体遗传结构与分化分析、QTL基因定位、单体型分析等内容,阐明了遗传变异规律及方法论,用于指导复杂疾病的分子分型与基因定位、单体型分析等研究实践[1]。
统计遗传学作为一门侧重实际应用的学科,实验教学是统计遗传学课程教学的重要组成部分,也是统计遗传学教学成功的重要保证。我们设置了12学时的实验课,结合当前国际上最流行的统计遗传学软件,把理论课中学习到的大部分方法在计算机上得以实现。教学过程中涉及到的相关软件很多,比如遗传关联研究的PLINK[2],单倍体关联研究的Haploview[3],循证医学相关的Revman,STATA。相对而言,遗传关联研究软件PLINK应用广泛,功能强大,在统计遗传学应用中占据重要的地位,因此,笔者将重点介绍其在本科统计遗传学教学中的应用。
1 PLINK软件及其功能简介
PLINK是一个免费、开源的全基因组关联分析工具集合,是由人类遗传研究中心(CHGR),马萨诸塞州总医院(MGH),哈佛大学和麻省理工学院的Broad研究所等机构科研人员所开发。PLINK主要针对基因型/表型数据的分析,近年内容不断丰富,包含了拷贝数变异(CNVs)分析、Meta分析等等。此外,软件除了使用命令行分析之外,基于JAVA开发了图形用户界面gPLINK,并与单体型可视化分析软件Haploview建立了关联,对于后续可视化展示,结果的注释和存储都起到了有力的支撑作用。
PLINK功能强大,包含的功能分析模块众多,是统计遗传学领域常用软件。主要的功能模块包括:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析(病例-对照数据),家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。
2 PLINK在统计遗传教学中的应用
《统计遗传学》是哈尔滨医科大学校级精品课程,经过教研室教师多年来教学实践的不断改进,紧密契合当前学科研究的前沿,形成了完整的内容体系。课程的大部分理论内容都可以通过PLINK软件分析模块实现,因此,我们把PLINK软件作为本课程案例教学主要的分析实现软件。随着大数据时代基因分型技术的发展,高通量测序成本的降低,大量真实测序数据的获取,都为我们开展统计遗传学实践教学提供了有力的支撑。我们获得了威康信托基金会病例对照协会(WTCCC)和北美类风湿性关节炎协会(NARAC)等国际组织机构提供的多套遗传变异数据,为同学初步利用真实数据开展科研实践活动提供了锻炼的机会。结合课堂的理论内容,通过同学对这些案例以讨论或者研讨的方式,分析问题和解决问题。这种教学方式易于为学生接受,能很好地克服统计遗传学理论学习中的困难。下面我们以GAW16类风湿性关节炎数据为例,对PLINK软件在教学过程中的使用作一简单介绍。
案例:类风湿性关节炎(RA)是是一种慢性炎症性自身免疫疾病。我们获取了一套NARAC提供的全基因组测序数据,总样本数为2062个病例对照数据(868为cases、1194为controls),包含了22条常染色体的531689个SNPs[4]。针对本套数据,我们结合教学理论知识,指导学生完成部分的数据分析工作。现仅截取号染色体的一段数据为例,对关联分析过程中的一些关键内容作一简单介绍。同时,考虑到本专业课学生已经拥有较好的编程能力,拥有C++,JAVA,R,MATLAB等课程学习经历,所以PLINK教学实践采用的是命令行分析教学。
1)数据格式类型
PLINK软件输入数据类型主要为Linkage格式纯文本文件,包含:“*.ped”文件,数据文件的前六项固定为家系、个体、父亲、母亲、性别和患病状况的编码,此后各项为拟分析的单核苷酸多态性(SNPs)的基因型编码,各变量之间以空格间隔(见下表1);“*.map”文件,按SNP所属染色体编码、SNP名称、遗传距离、物理距离的顺序排列。
命令语句:plink--file RA(假设RA为文件名,包含RA.ped和RA.map)。
2)数据质量控制
这是对于数据的过滤过程,一般考虑的因素是基因型缺失率,哈迪温波格平衡,统计结果从中得到满足条件的数据,命令如下:
plink--file RA--mind 0.05--geno 0.05--maf 0.01--hwe0.001。
上述命令行表示,提取数据中满足以下条件的SNP数据:个体基因型缺失率小于0.05,位点基因型缺失率小于0.05,位点次等位基因频率大于0.05,哈迪温波格平衡检验大于0.001。分析结果会产生一个名称为plink的纯文本文件。
表1 RA病例对照部分数据(部分)
表2 PLINK软件关联分析结果(部分)
3)基本的关联分析
病例对照数据的关联分析对应的遗传模型有多种,包括等位基因模型,显性效应模型,隐形效应模型,加性模型等。假如我们研究的位点有C和A两个等位基因,其中CC表示野生基因型,CA表示杂合型突变基因型,AA表示纯合型突变基因型,则相应的等位基因模型:A VS C;隐性模型:AA VS(CA+CC);显性模型:(CA+ AA)VS CC;加性模型:AA VS CC。比如我们执行等位基因模型分析,命令为:plink--file RA-assoc。
运行将生成结果文件“plink.assoc”,部分结果如表2。
上述结果可以看出rs17806289卡方检验的p值为5.87E-10,小于0.001,具有统计学意义,并且优势比OR=0.43,显示该位点等位基因A可能是一个保护因素。
当然,如果考虑某一位点SNP等位基因频数不满足列联表检验的要求(频数小于5),可以采用Fisher精确检验的方法,选择PLINK命令参数“--fisher”即可。更进一步,如果考虑分析其他遗传模型,可以选择PLINK命令参数“--model”。为巩固理论知识,加强学生学习的兴趣,这两部分内容均以课堂作业形式交给学生以讨论组的形式完成。很好的激发了学生的学习热情,加强了动手能力。
3 理论实践结合的思考
《统计遗传学》是一门理论与实践结合非常紧密的课程,也是一门与当前科学研究前沿紧密结合的课程。针对理论教学中抽象的统计原理,复杂的推导以及繁琐的运算,我们通过实验案例教学,一方面,加深学生对课堂学习的印象,能熟练掌握软件分析工具,增强动手操作能力;另一方面,我们采用真实案例数据,在很大程度上也很好的调动了学生学习的积极性,促使他们主动地查阅相关文献资料,深化学习的内容。此外,我们鼓励学生参与教师的科研活动,运用所学统计遗传学知识解决实际问题。在今后教学中,我们将继续进行教学方法的创新与改进,引导学生自主的利用所学知识解决实际问题,为将来开展科研训练打下坚实的基础。
[1]张明明,张瑞杰,李晋,吕洪超.统计遗传学精品课建设探索与实践[J].黑龙江科技信息,2010(24)∶185-185.
[2]Purcell S1,Neale B,Todd-Brown K,et al.PLINK∶a tool set for whole-genome association and population-based linkage analyses[J].Am J Hum Genet.2007 Sep;81(3)∶559-75.
[3]Barrett JC,Fry B,Maller J,Daly MJ.Haploview∶analysis and visualization of LD and haplotype maps[J].Bioinformatics.2005 Jan 15;21(2)∶263-5.
[4]Cupples LA,Beyene J,Bickeböller H,et al.Genetic Analysis Workshop 16∶Strategies for genome-wide association study analyses. BMC Proc.2009 Dec 15;3 Suppl 7∶S1.