概率在分子遗传学教学中的应用
2023-01-02张潇潇王宇传刘秋云
张潇潇,甘 滔,王宇传,刘秋云
(1.中山大学生命科学学院,广东 广州 510275;2.昆明医科大学生物医学工程研究院/云南省干细胞和再生医学重点实验室,云南 昆明 650500;3.赣南医学院基础医学院,江西 赣州 341000;4.华北理工大学基础医学院河北省慢性疾病基础医学重点实验室,河北 唐山 063210)
分子遗传学是在遗传学基础上发展起来的一门学科,主要研究基因的结构与功能、基因表达的调控、表观基因组学调控等等。在以前发表的文章里,我们阐述了分子遗传学的教学大纲,以及二项式分布与珀松分布在分子遗传学课程里的具体运用[1]。然而,另有一些该课程的内容涉及概率的运用。这些计算方法的学习有利于学生更好地掌握课程的精髓,同时也有助于他们将来的学习和工作。
1 组织学生学习概率的实例
1.1 实例一:概率在RFLP分子标记上的应用
最早的分子标记是ABO血型。在18、19世纪,欧洲人认为输血可以预防疾病、有益于健康。但他们观察到输血后部分人死亡,由此促使了ABO血型和更多其他血型的发现。真正的第一代分子标记是RFLP,由美籍华人简悦威和一位西方科学家同时发现。他们通过限制性内切酶酶切DNA、电泳、Southern杂交,发现镰刀细胞贫血病的致病基因产生了两个条带,而野生型只有一个条带。部分限制性内切酶的识别序列为回文对称。RFLP的建立由普林斯顿大学的David Botstein教授在20世纪70年代完成。
我们可以从概率的视角研究DNA,比如碱基配对概率是1/4,而错配概率是3/4。如可选嘌呤碱基概率是2/4,可选嘧啶碱基也是2/4。对于EcoR I限制酶来说,其识别序列与切割序列均为GAATTC,所以概率是(1/4)6[2]。
1.2 实例二:概率在AFLP分子标记上的应用
AFLP是Amplified Fragment Length Polymorphism的简称,在植物研究上使用的较为广泛[3]。一般情况下采用一个6碱基酶和一个4碱基酶共同切割,加上接头,再进行PCR扩增。由于4碱基酶酶切位点极多,特异性主要由6碱基酶的特异性所决定。综上所述,平均4096个碱基有一个6碱基酶酶切位点,这导致基因组AFLP扩增产生极多的片段。为了减少片段数量,需要在两个引物的3’端分别加上2个和3个碱基,这样理论上减少扩增片断数量至原来可能数量的(1/4)2X(1/4)3。
1.3 实例三:概率在SNP分子标记上的应用
SNP是单核苷酸多态性[4],在基因组上一般是双等位的,作为分子标记区分度还不够。为了更高精度的研究遗传连锁,我们可以考虑使用多对SNP,比如A/a,B/b,C/c三对SNP。这样共有2X2X2=8种组合方式。将家系的基因型分成了8组。与遗传疾病的连锁关系的分析从而更为精确,特别是在关联分析上很有价值。
1.4 实例四:概率在遗传密码扩增上的应用
科学家提出了引入更多的碱基对来扩增遗传密码数量[5],一组科学家通过疏水配对引入了一对碱基,将遗传字母增加到6个。那么这样的DNA的4碱基、6碱基、8碱基回文对称的限制性内切酶的识别频率怎么计算呢?那就是(1/6)4、(1/6)6、(1/6)8。
另一组科学家将遗传密码的碱基用氢键配对扩增到8个,这样的DNA的4碱基、6碱基、8碱基限制性内切酶的识别频率就是(1/8)4、(1/8)6、(1/8)8。如此类推,遗传密码的增加将使蛋白质的多样性得到极大的扩展。
1.5 实例五:概率在差异显示上的应用
差异显示(Differential Display)可以展示一对DNA样品的mRNA条带的差异。比如抗旱诱导的样品与非抗旱诱导的样品的比较,癌症组织与癌症组织旁边正常组织的比较。这个技术用随机引物与Oligo-dT引物配对进行PCR扩增,而Oligo-dT引物不能锚定于cDNA,故不能形成固定大小的片段。为了锚定引物,可在Oligo-dT引物的3’端加入2个碱基(A/G/C)(A/G/C/T)。这样Oligo-dT锚定引物就共有3X4=12组。但是,另一端的随机引物数为20组左右,通过配对产生了20X12=240个PCR组合,工作量太大。为了减少工作量,在Oligo-dT引物的3’端加入1个碱基(A/G/C)。这样Oligo-dT锚定引物就共有3组。PCR组合减少为20X3=60个,工作量大大减少。
1.6 实例六:概率在古尸上的病毒基因组的恢复研究上的应用
坟墓里的古尸有些携带了古代流行病病毒等致病源。出于研究的需要,有时要恢复这些病毒基因组的完整序列。而尸体上的病毒DNA或RNA长度一般只有几十个碱基。长的引物和较高的退火温度无法PCR扩增或逆转录/PCR扩增,那么需要使用6碱基寡聚核酸(oligo)N6,其配对概率为(1/4)6。N6具有所有的6碱基组合,使用这个技术科研人员恢复了1918年西班牙流感H1N1的基因组。
1.7 实例七:概率在简并DNA与定向进化研究上的应用
有时候需要对一个氨基酸位点进行所有氨基酸的替换,可以设计中间含NNN的引物,进行同源重组和双交换。为了减少终止密码子,可使用含NNK的Oligo,K代表T/G,这样只有4X4X2=32个密码子,终止密码子只有一个,其他氨基酸的密码子数量也得到了均一化。如果要对两个氨基酸同时替换,可使用中间含NNKNNK的Oligo。
1.8 实例八:概率在分子标记辅助育种研究上的应用
在利用分子标记进行作物辅助育种研究时,一般使用单分子标记。方差是研究遗传性状的重要方法。有时,尽管两组样品平均值类似,但变异的幅度不一样,产生的方差大小不一样。单分子标记与产量性状等存在一定重组,因此分析具有误差。基于这一考量,MIT的EricLander提出用区间作图法进行植物基因定位和克隆。原理是用两个分子标记来定位某个决定性状的基因。假设有两对等位基因A/a和B/b,如果A和B之间存在一个高产基因Y,a和b之间存在一个低产基因y,A和B的重组距离为0.2,那么a和b之间存在Y的概率为x(0.2-x),即通过一个双交换a和b之间也可以得到一个高产等位基因Y。A和B之间存在一个高产基因Y的概率变为0.2-x(0.2-x)。通过类似这样的加权处理,并结合线性回归和最大似然法,Eric Lander开发出了广泛使用的植物遗传研究技术,加速了植物育种革命。
2 展望
综上所述,通过运用概率进行分子遗传学教学,将使学生对本学科有更深入的理解,学习时能够结合一定的概率或其他数学知识,并加以运用。为本科生和研究生创新能力和跨学科思维能力的培养提供一条可行途径。