群体遗传学分析软件的应用现状
2011-04-13延边大学133000单元春
延边大学(133000)单元春
吉林省医疗器械检验所(130026)刁红雨
分子群体遗传学是利用DNA序列的变异式样来研究群体的遗传结构及引起群体遗传变化的因素与群体遗传结构的关系。群体遗传学分析软件,是利用群体的基因频率和基因型频率进行多项遗传学数据的统计分析的便捷式操作软件。目前国内群体遗传学的研究越来越热门,对遗传学的数据分析也提出了更高的要求 ,本文对群体遗传学分析软件进行了比较分析。
1 MEGA
MEGA是一种利用核酸或蛋白序列重建进化树的软件,具有分析核酸多样性、推测物种间的进化距离等功能,可以在Windows、Mac OS、Linux平台下操作。输入的序列需要用序列比对软件比对之后才可以使用,保存的序列经过比对后保存为*.MEG格式,即可用来构建四种类型的系统发育树,分别为neighbor joining、maximum parsimony、minimum evolution和UPGMA4种算法。软件本身提供了不同数据格式的转换功能,增强了软件的通用性[1]。此外,该软件还能够得出不同序列间的距离矩阵。结果可以直接保存本身格式或者保存为图像格式,结果输入随时可以使用标注,标注的内容可以被保存和复制。(该软件可在http://bioinformatics.psb.ugent.be/software/details/3下载)。
2 GENEPOP
GENEPOP是一种具有进行正合检验(如哈迪-温伯格平衡、种群差异、连锁不平衡等)、估算群体遗传学参数(如Fst、基因频率等)、转换输入文件格式功能的分析软件,但它不能直接计算出居群间的实际遗传距离。该软件可以在MS-DOS环境下运行,也可以在线使用(http://wbiomed.curtin.edu.au/genepop/index.html)。GENEPOP的数据输入文件为纯文本文件,数据文件要与GENEPOP存于同一子目录下才可使用,可以用2位或3位数对数据进行编号,输入文件中缺失的数据可以用00或000表示。输出结果可以在EDIT文字处理程序中进行查看[2]。(可通过匿名FTP在服务器ftp.cefe.cnrsmop.fr的pub/pc/msdos/genepop子目录下下载[3])
3 POPGENE
POPGENE32是一种用C++语言编写,利用显性、共显性标记和数量性状来分析种间种内的遗传变异以及基因流的软件,可以在辅助软件TREEVIEW帮助下生成系统发生树[4],可在Windows界面下操作。POPGENE对输入格式要求十分严格,而且不易查出错误所在。它的文件由表头和数据两部分组成,表头要用/*...*/符号限定,输入的离散数据或基因频率数据之前为每个population的ID和名字,如果这两项没有给出,则要在每个population之间留下至少一个空白行,由软件自动生成ID。输出为文本格式,需要人工查找目的数据,进化树显示也不直观,而且不可以进行修改。(该软件可在http://ualberta.ca/-fyeh/index.htm进行免费下载)
4 PHYLIP
PHYLIP是一种功能强大的软件包,主要功能软件包包括:DNA和蛋白质序列数据分析、序列数据转变为距离数据后的分析、对基因频率和连续的元素进行分析、独立看待每个碱基/氨基酸时的序列分析、按照DOLLO简约算法进行序列分析、绘制和修改进化树。但其设置参数复杂,软件包众多,并不十分适合大批量复杂数据处理。该程序可以在Windows、Dos、Macintosh、Linux平台下运行。输入的数据为分子序列、基因频率、限制位点、离散数据等,输入文件只能以记事板的ASCⅡ格式或Word中的纯文本形式保存。输入文件名必须为“infile”,输出文件名必须为“outfile”或“outtree”。处理结果可以以文本形式打开,进化树需要用其他软件修改[5]。(可在http://evolution.genetics.washington.edu/phylip.html免费下载)
5 SHESIS
SHESIS软件是一种具有哈迪-温伯格平衡检测、连锁平衡水平检测、单倍体型分析、卡方检验等基本功能的实用性软件,可在线使用,只需要按标准格式录入每个样本的ID和等位基因数据,数据可从EXCEL里进行复制,粘贴到SHESIS数据录入框中,只要保持每一纵行之间留有至少一行空白即可,没有成功分型的样本,等位基因需要用00来表示。观察处理结果非常直观易懂,不需要其他辅助性软件,是目前很多科研机构广泛使用的软件。(可在http://analysis.bio-x.cn进行免费下载)
6 群体遗传分析易
该软件是2006年蔡颖等科研人员利用VBA语言开发的,用于短串联重复序列基因座群体遗传学统计分析的软件。具体功能有:对群体遗传学原始数据进行基因型和等位基因频率统计,计算大部分群体遗传学指标(杂合度、耦合率、个体识别能力、平均非父排除率等)、哈迪-温伯格平衡检验、连锁平衡检验等。可以在Windows系统下操作,输入数据格式兼容性能好,输出采用表格方式,不需要二次整理。软件使用无需安装,不占用系统资源[6]。目前我国群体遗传学正在快速发展,大量不同物种基因组测序的研究需要一种简便而快捷的统计分析工具来对数据进行精确有效的分析,以提取统计信息。本文对6种目前广泛应用的群体遗传学分析软件的比较分析,可以看出,分析软件正趋于方便数据录入、多种平台操作、集多项分析功能于一体、傻瓜式操作,旨在为群体遗传学的科研发展提供更为科学、快速、可靠的统计工具。