新疆褐牛产奶和繁殖性状候选基因功能注释
2019-12-24周靖航杨朝云张梦华叶连萌李叔臻黄锡霞王兴平史远刚
卢 鑫,周靖航,杨朝云,张梦华,叶连萌,李叔臻,黄锡霞,马 云,王兴平,史远刚,*
(1.宁夏大学 农学院,宁夏 银川 750021; 2.新疆农业大学 动物科学学院,新疆 乌鲁木齐 830052)
新疆褐牛是我国自主培育的乳肉兼用型地方品种,具有高乳脂、高乳蛋白的乳用特征和肉质优良、风味鲜美的肉用性能,还具有超强的抗逆性和卓越的适应能力,在新疆畜牧业发展中有着举足轻重的地位[1-2]。本研究以新疆褐牛产奶和繁殖性状相关候选基因为研究对象,对其进行功能注释和富集分析,旨在为后期的基因功能验证、基因组选择和分子育种工作奠定理论基础。目前关于新疆褐牛分子育种相关基因的研究已有许多报道,李娜[3]发现LEP、FAS、LPL、FTO等4种脂代谢调控基因的表达在新疆褐牛中具有组织特异性,刘丽元等[4]通过DNA池重测序等方法得到与产奶性状和体细胞评分相关的单核苷酸多态性(single nucleotide polymorphism,SNP)位点分别位于HAL、ZNF66、GPIHBP1和PDE9A等8个基因中,韩丽云[5]对MYF5、PPARγ和AGPAT基因的遗传多态性与生长性状进行了关联分析,林嘉鹏等[6]研究POU1F1基因第6外显子的多态性与产奶量之间的关系,发现在新疆褐牛群体中B等位基因对产奶量具有正效应,以上研究均为新疆褐牛产奶性状和肉质性状的分子标记辅助选育提供了理论依据和参考意见。
实施标记辅助选择可以加快奶牛分子育种遗传进展,提高育种的准确性,加快品种的改良和新品系的选育。对控制畜禽数量性状基因座和主效基因的精准定位是分子育种的前期基础。随着牛基因组测序计划的完成和商业化高密度SNP芯片及分型技术的发展,全基因组关联分析逐渐取代常规的数量性状座位(quantitative trait locus,QTL)定位方法成为鉴定畜禽数量性状功能基因的最有效策略[7]。目前关于牛的生长性状[8-9]、繁殖性状[10-11]、产奶性状[12-14]全基因组关联分析的报道已经有很多,这些研究为目标性状形成分子机理的深入研究提供了重要线索。产奶性状是奶牛最重要的经济性状,而奶牛的繁殖效率直接影响生产的经济效益,二者均是由多个部分组成的复杂的生理过程,近些年来国内外已逐渐将繁殖性状纳入平衡育种的考量因素[15]。
通过全基因组关联分析(genome-wide association studies, GWAS)来探寻影响复杂性状的相关基因已经广泛应用开来,本课题组前期研究中采用150K牛基因芯片设计新疆褐牛资源群体,对奶牛的产奶性状乳脂量(fat yield,FY)、乳蛋白量(protein yield,PY)、乳脂率(fat percentage,FP)、乳蛋白率(protein percentage,PP)、产奶量(milk yield,MY)、体细胞评分(somatic cell score,SCS)及青年牛的初配日龄(age at first service,AFS)、初产日龄(age at first calving,AFC)、经产牛的妊娠长度(gestation length,GL)、产犊间隔(calving interval,CI)进行了全基因组关联分析,共检测到57个SNPs与其基因组水平显著相关。本研究旨在基于前期新疆褐牛产奶性状GWAS结果,进一步对产奶性状和繁殖性状功能基因进行位置候选鉴定及功能注释,为后期产奶性状和繁殖性状的主效基因鉴定及后续基因功能验证提供研究基础。
1 材料与方法
1.1 GWAS筛选候选基因
本课题组前期通过家系和表型记录,从新疆褐牛4个核心群中挑选出403头母牛,利用牛150K基因芯片进行基因分型,每个样本平均检出139 376个标记。对表型和基因型原始数据进行质量控制后,采用动物模型DMU软件估计育种值,用主成分分析方法检测种群结构,最后用混合线性模型Farm CPU软件进行全基因组关联分析,共计得到57个SNP位点分别与产奶性状和繁殖性状显著相关。
1.2 功能基因组信息学分析
将显著SNPs位点与NCBI网站数据库中牛基因组序列数据库(Bos taurus UMD 3.1.1)进行比对,根据SNPs的物理位置来推断其所在或临近基因,再根据NCBI、Ensemble、Panther(http://www.pantherdb.org/)、GeneCards(https://www.genecards.org/)等数据库中牛、人和小鼠对应基因编码产物的生理生化功能,对候选基因进行功能和通路富集分析,结合相应文献报道,初步确定基因的基本生物学功能。
2 结果与分析
2.1 候选基因的鉴定
前期GWAS研究检测分析得到共计57个显著SNPs位点,分别分散在牛的30个染色体上。通过SNP位点的物理位置临近的相关基因初步得到55个候选基因。根据这57个显著SNPs位点的物理位置得出有29个位点位于基因侧翼区域,其中与相邻基因最近的距离是882 bp,有28个位点位于基因的内含子区域。产奶性状中与乳脂量相关的2个SNP位点均位于CNIH3基因;繁殖性状中EPRS基因中有2个SNP位点,分别于初产日龄和初配日龄相关,结果见表1和表2。
2.2 候选基因功能注释
通过功能基因组生物信息学分析,对上述55个基因进行功能注释。研究结果发现,14个未命名基因中有7个是根据序列推测出的未命名的假定基因,有7个基因编码长链非编码RNA,但其中有3个基因由于目前没有后续的功能注释已被NCI召回,LOC101903067、LOC104990303、LOC104969301、LOC104970790这4个基因可以编码长链非编码RNA。将被召回的3个未命名基因、在牛中未发现的ZDHHC17和RSPH10B基因和编码tRNA(TRNAF-GAA)基因剔除,共得到49个基因的染色体定位及功能注释信息。
表1 产奶性状相关SNP位点信息
Table1SNP locus information and candidate genes related to milk production traits
性状TraitSNP位点名称SNP Name染色体号Chromosome No.位置Position与候选基因的距离Distance/bp候选基因Candidate geneFPBovineHD0100012734144652580内部 WithinEFHBBTB-01890990426186690114212SNX13BovineHD0500001661561941766257824ZDHHC17ARS-BFGL-NGS-82026771141471882NIPAL4Hapmap34648-BES8_Contig530_7431032715286内部 WithinMEIS2ARS-BFGL-BAC-61881838850678内部 WithinLOC101903067BovineHD210001208521424101884827GPR33BovineHD24000079162429095464内部 WithinCDH2FYBovineHD16000079771628501351内部 WithinCNIH3BovineHD16000079841628528105内部 WithinCNIH3PPHapmap54547-rs290121984110776624120776CNTNAP2BovineHD0500021288574915500内部 WithinLOC100847379BTA-103663-no-rs16212438638464LOC538060BovineHD23000145342349827689662TRNAF-GAAPYBovineHD01000367531129629193内部 WithinCLSTN2BovineHD0100040938114256936086982LOC104970303BovineHD03000000633343817内部 WithinSFT2D2BTA-88698-no-rs74692971041250FSTL4BTB-01731924775830763内部 WithinGABRG2ARS-BFGL-NGS-80161281302573内部 WithinTMTC4BovineHD13000225391377860915内部 WithinARFGEF2BovineHD2000015131205526823381531LOC784462BTA-112312-no-rs2069638890161115IRX1BovineHD25000107402538532556内部 WithinRSPH10BMYBovineHD0600014209651560184内部 WithinPCDH7BovineHD07000001587778150内部 WithinGFPT2Hapmap45084-BTA-1137462719594127121781LOC104976064SCSBovineHD050001329654629133328240DYRK2BovineHD05000332915115103698内部 WithinSULT4A1BovineHD0800003484810705865内部 WithinSCARA5BovineHD0800007286824250348120194LOC104969301ARS-USDA-AGIL-chr9-30332222-000790930332222内部 WithinTBC1D32BovineHD10000093731028618805内部 WithinAVENBovineHD110003015611103632442内部 WithinNACC2ARS-BFGL-BAC-13745125770736259530LOC782305ARS-BFGL-NGS-1075281525181966内部 WithinLOC782610ARS-BFGL-NGS-433022237402411内部 WithinPRICKLE2BovineHD22000122612242292699158098FHITBovineHD24000135202448435771163815ZBTB7CARS-BFGL-NGS-11953129460628955539GSTP1
表2 繁殖性状相关SNP位点信息及候选基因
Table2SNP locus information and candidate genes related to reproductive traits
性状TraitSNP位点名称SNP Name染色体号Chromosome No.位置Position与候选基因的距离Distance/bp候选基因Candidate geneAFCHapmap43251-BTA-376121573304557351578LOC107133188BovineHD16000066911624235446内部 WithinEPRSAFSARS-BFGL-NGS-998212676488726427LOC104971350BovineHD030003523731204966613195KIF1ABovineHD1400016327145878179972553RSPO2BovineHD16000066911624235446内部 WithinEPRSGLBovineHD1400021729147746414076045LOC786994ARS-BFGL-NGS-24511110588483015267LOC785220ARS-USMARC-5281734752485内部 WithinSPRY1BovineHD180001791418621244873301CACNG6ARS-BFGL-NGS-1077982210269204内部 WithinSTACCIBovineHD25000034622512378774145129SHISA9BovineHD30000296503010794131644746USP9XBovineHD01000027411874039629865LOC104970790ARS-BFGL-NGS-14087166721297内部 WithinHCLS1BovineHD190000200719755725034950ANKFN1BTB-01898603203957663761382RAI14
2.2.1 乳脂率候选基因
乳脂率候选基因包括EFHB、SNX13、NIPAL4、MEIS2、LOC101903067、GPR33、CDH2等7个基因。EFHB基因有7个可变剪接数,编码EF手性结构家族蛋白,可与钙离子结合;SNX13基因有13个可变剪接数,能编码分选蛋白SNX家族的PHOX结构域和G蛋白信号转导调节因子RGS家族的RGS结构域,前者是磷脂酰肌结合结构域,作为异源三聚体G蛋白Gα亚基的GTP酶激活蛋白的调节分子,后者参与细胞内转运;NIPAL4基因有5个可变剪接数,可编码膜受体蛋白,与镁离子结合;MEIS2基因有27个可变剪接数,可编码TALE家族同源异形蛋白,是高度保守的转录调节因子;LOC101903067基因有1个可变剪接数,可编码长链非编码RNA;GPR33基因有1个可变剪接数,被鉴定为孤独基因趋化因子GPCR(G蛋白偶联受体)的假基因,参与信号转导;CDH2基因有5个可变剪接数,可编码钙黏蛋白,与钙离子结合,参与细胞骨架蛋白合成,其中一个转录本可以编码细胞黏附分子和糖蛋白,促进神经发育和骨骼形成。
2.2.2 乳脂量候选基因
乳脂量候选基因为CNIH3基因,有14个可变剪接数,可编码Cornichon家族AMPA受体蛋白,参与蛋白的代谢,协助蛋白转运到高尔基体并参与随后的修饰。
2.2.3 乳蛋白率候选基因
乳蛋白率候选基因包括CNTNAP2、LOC100847379、LOC538060等3个。CNTNAP2基因有25个可变剪接数,可编码接触蛋白相关蛋白,含有表皮生长因子重复序列和层粘连蛋白G结构域,可能有PDZ结合位点,在神经系统发育中介导神经元与胶质相互作用,参与分化轴突内钾通道的定位;LOC100847379基因有1个可变剪接数,是编码载脂蛋白L2类的假定基因;LOC538060基因有1个可变剪接数,可编码二氢二醇脱氢酶1和20-α-(3-α)-羟基类固醇脱氢酶。
2.2.4 乳蛋白量候选基因
乳蛋白量候选基因包括CLSTN2、LOC104970303、SFT2D2、FSTL4、GABRG2、TMTC4、ARFGEF2、LOC784462、IRX1这9个。CLSTN2基因有2个可变剪接数,编码钙同线蛋白,可与钙离子结合,调节钙介导的突触后信号;LOC104970303基因有1个可变剪接数,可编码长链非编码RNA;SFT2D2基因有4个可变剪接数,可编码STF结构域蛋白2,参与胞内小泡介导途径,将其逆向转运至高尔基复合体;FSTL4基因有7个可变剪接数,编码卵泡抑素蛋白,可与钙离子结合,对脑源性神经营养因子受体信号通路有负调节作用;GABRG2基因有29个可变剪接数,编码γ-氨基丁酸(GABA)受体蛋白,可与氯离子结合,是配体门控离子通道Cys环家族的成员,负责协调GABA的抑制效应,参与葡萄糖、胆盐和有机酸、金属离子和胺类化合物的运输;TMTC4基因有11个可变剪接数,编码含有N-端跨膜结构域和C-端四肽重复序列结构域的转运蛋白家族,介导了突触囊泡融合、蛋白质折叠和蛋白质移位中的蛋白质相互作用;ARFGEF2基因有2个可变剪接数,编码核糖基化因子鸟嘌呤核苷酸交换因子2,参与胞内囊泡转运,可以加速GTP取代结合GDP而参与ARFs的激活,并参与高尔基体小泡的运输;LOC784462基因有1个可变剪接数,是编码Aurora激酶B的假定基因;IRX1基因有1个可变剪接数,编码易洛魁家族同源家族蛋白,可与DNA结合。
2.2.5 产奶量候选基因
产奶量候选基因包括PCDH7基因和GFPT2基因。PCDH7基因有8个可变剪接数,编码非成簇原钙黏蛋白家族蛋白,与钙离子结合,在细胞识别和粘附中起作用;GFPT2基因有8个可变剪接数,是果糖-6-磷酸酶酰胺转移酶和氨基己糖生物合成途径的限速酶,参与能量代谢。
2.2.6 体细胞数候选基因
体细胞数候选基因包括DYRK2、SULT4A1、SCARA5、LOC104969301、TBC1D32、AVEN、NACC2、LOC782305、LOC782610、PRICKLE2、FHIT、ZBTB7C、GSTP1这13个候选基因。
DYRK2基因有6个可变剪接数,是双特异性酪氨酸磷酸化调节激酶2,参与细胞生长和发育过程,可调节细胞凋亡以应对DNA损伤,其磷酸化可通过泛素-蛋白酶体系诱发蛋白降解,可与镁离子结合;SULT4A1基因有4个可变剪接数,编码脑特异性硫转移酶,参与神经递质代谢;SCARA5基因有4个可变剪接数,是A类清道夫受体5型,可借助特异性配体和受体分子识别和清楚外来物质和体内废物,参与免疫防御;LOC104969301基因有1个可变剪接数,编码长链非编码RNA;TBC1D32基因有9个可变剪接数,编码TBC结构域包含蛋白,与CDK20一起,通过协调纤毛膜和轴突的组装来控制初级纤毛的结构,参与SHH信号通路,与细胞周期相关激酶互相作用;AVEN基因有3个可变剪接数,是凋亡和Caspase激活抑制因子,能通过结合凋亡蛋白激活因子-1干扰器自交连能力抑制细胞凋亡蛋白酶的水解作用,进而抗细胞凋亡;NACC2基因有3个可变剪接数,能够抑制细胞增殖,对DNA损伤致使细胞凋亡敏感,是P53通路上重要的转录调节因子;LOC782305基因有1个可变剪接数,编码小泛素相关修饰物类蛋白;LOC782610基因有1个可变剪接数,编码烟酰胺N-甲基转移酶类蛋白;PRICKLE2基因有9个可变剪接数,编码PET家族蛋白,有1个PET和3个半胱氨酸-组氨酸、锌配位的LIM结构域、N-糖基化位点、环磷酸腺苷依赖的蛋白激酶磷酸化位点、3个核定位信号和1个C端异戊二烯化化标记,可以促进非典型Wnt信号传递,又可促进无序降解而抑制典型Wnt通路,可与金属离子结合;FHIT基因有8个可变剪接数,是脆性组氨酸三联体,编码二腺苷P1-P3双三磷酸水解酶,含有FRA3B脆性位点,脆性区域有较多Alu序列,参与嘌呤代谢,参与细胞增殖和凋亡;ZBTB7C基因有28个可变剪接数,是BTB-POZ家族转录因子,参与糖异生的调节因子,可以被PIAS1糖基化,通过泛素介导的蛋白酶体途径促进Kr-Pok的降解;GSTP1基因有9个可变剪接数,编码谷胱甘肽S-转移酶P1,通过催化疏水和亲电化合物与还原型谷胱甘肽结合,发挥解毒作用。
2.2.7 初产日龄候选基因
初产日龄候选基因为EPRS基因,有6个可变剪接数,编码谷氨酰-脯氨酰-tRNA合成酶,催化谷氨酸和脯氨酸分别结合不同tRNA,通过选择性沉默阻遏血浆铜蓝蛋白的表达参与炎症反应调控过程,通过SLC27A1促进脂肪细胞摄取长链脂肪酸,发挥在mTORC 1信号通路中的作用。
2.2.8 初配日龄候选基因
初配日龄候选基因包括KIF1A、RSPO2、EPRS等3个基因。KIF1A基因有31个可变剪接数,编码驱动蛋白家族3,参与将前突触囊泡从胞体沿着微管轨道向轴突末端的运输,也参与高尔基体到ER的逆行转运以及巨核细胞发育和血小板生成;RSPO2基因和EPRS基因分别有8个和6个可变剪接数,RSPO2基因编码富含半胱氨酸的分泌蛋白,由Pspo1、Pspo2、Pspo3、Pspo4组成,具有50%左右的序列同源性和相似的结构域,是Wnt信号通路的胞外激动剂,能与LGR4/5/6受体相互作用,调控Wnt/β-catenin信号通路和非典型Wnt信号通路。
2.2.9 妊娠长度候选基因
妊娠长度候选基因包括LOC786994、LOC785220、SPRY1、CACNG6、STAC这5个基因。LOC786994基因有1个可变剪接数,编码核仁RNA解旋酶2假基因;LOC785220基因有1个可变剪接数,编码小着丝粒相关蛋白假基因;SPRY1基因有9个可变剪接数,编码软脂酰化磷蛋白Sprouty1,负反馈调节受体酪氨酸激酶(RTK)信号通路,调控细胞增殖和凋亡,受生长因子的调节;CACNG6基因有3个可变剪接数,编码钙离子电压门控通道辅助亚基γ6蛋白,参与电压门控离子通道的调节;STAC基因有8个可变剪接数,编码SH3富含半胱氨酸结构域蛋白,可与金属离子结合,参与信号转导和电压门控离子通道的调节。
2.2.10 产犊间隔候选基因
产犊间隔候选基因包括SHISA9、USP9X、LOC104970790、HCLS1、ANKFN1、RAI14等6个。SHISA9基因有5个可变剪接数,编码Shisa家族蛋白,通过阻滞Wnt和Fgf通路的分子成熟或将他们的受体转运到细胞表面;USP9X基因有8个可变剪接数,编码X染色体连锁的泛素特异性蛋白酶,可通过囊泡网络定向蛋白质运输参与信号转导,参与细胞增殖和细胞凋亡;LOC104970790基因有1个可变剪接数,编码长链非编码RNA;HCLS1基因有12个可变剪接数,是造血细胞特异性酪氨酸激酶的作用底物,参与胞外刺激因子介导的免疫应答以及生长因子信号传导通路;ANKFN1基因有9个可变剪接数,编码锚蛋白重复序列和纤维连接蛋白Ⅲ型结构域蛋白1;RAI14基因有28个可变剪接数,编码一种肌动蛋白结合蛋白,参与丝状肌动蛋白的重构过程,参与建立精子极性和正常精子细胞的黏附作用,促进支持细胞在血-睾丸屏障的紧密连接的完整性。
2.3 候选基因的GO分类
分别对上述新疆褐牛产奶和繁殖性状的47个候选基因进行GO分类,主要通过分子功能(molecular function,MF)、生物学过程(biological process BP)和细胞组分(cellular component)3个方面进行生物信息学分析。在奶牛产奶性状33个候选基因中,共计分布于18个GO terms中(图1);繁殖性状14个候选基因中,共计有12个GO terms(图2)。在产奶性状和繁殖性状中,富集基因最多的GO条目都是细胞进程,产奶性状的候选基因参与其中的有GFPT2、GPR33、CNIH3、CLSTN2、TBC1D32、CDH2、GABRG2及他们的可变剪接体,繁殖性状的候选基因参与其中的有STAC、HCLS1、SPRY1和KIF1A,其次是产奶性状中的细胞有8个基因分别是GABRG2、GPR33、CDH2、LOC538060、CLSTN2和TBC1D32等,繁殖性状中的催化活性有5个基因分别是EPRS、SPRY1、KIF1A、USP9X和其可变剪接。
图1 新疆褐牛产奶性状候选基因GO分类Fig.1 GO classification of candidate genes for milk production traits in Xinjiang Brown cattle
2.4 候选基因的KEGG pathway富集分析
进一步对新疆褐牛候选基因进行KEGG通路富集分析,结果显示,产奶性状候选基因富集于4 pathways,繁殖性状富集于3个pathways(图3),其中Wnt信号通路和钙黏素信号通路基因数最多,且CDH2和PCDH7基因都有参与其中,表明此次GWAS筛选出的候选基因中大多数参与其中。
3 讨论
本研究基于前期全基因组关联分析得到的与产奶和繁殖性状显著关联的SNPs位点,通过比对各多肽位点所在染色体的物理位置可知有29个位点位于基因间隔区,有28个位点位于基因的内含子区域。虽然商用基因芯片的密度和数量很高,但其采用的SNP位点多位于基因非编码区和基因间隔区,大多不是和性状存在直接关联的致因变异,而是通过与致变异相连锁而显示出关联性[16]。因此,GWAS分析也只是鉴定出和目标性状相关染色体片段,但不同群体中可能具有不同的等位基因频率和不同的连锁不平衡区域,导致非功能性的标签SNP在不同群体中的应用具有不确定性[17]。但是显著的SNP位点很可能与真正影响产奶和繁殖性状的SNP紧密连锁,虽然得到的大部分候选基因从后续功能注释的结果中并不能明确参与到泌乳和繁殖过程,只能判断他们所调控的转录和翻译等生物过程以及生成的蛋白可能与产奶和繁殖性状相关联,与畜禽上的其他重要性状GWAS研究的结果相类似[18]。近年来全基因组关联分析在人类复杂疾病、猪和奶牛生产性状上的大量应用证实了在全基因组范围内发掘目标性状显著相关新位点上的高效性[19-21],实现对重要性状的遗传标记和基因的鉴别,实现个体基因组选择。
图2 新疆褐牛繁殖性状候选基因GO分类Fig.2 GO classification of candidate genes for reproductive traits in Xinjiang Brown cattle
图3 新疆褐牛产奶性状、繁殖性状候选基因KEGG通路分析Fig.3 KEGG pathway analysis of candidate genes for milk and reproductive traits in Xinjiang Brown cattle
通过功能基因组信息学分析GWAS结果得到的47个候选基因共分布于30个GO terms,富集在7个pathways上,GO分析得到富集基因数最多的是细胞进程、细胞和催化活性,表明大部分候选基因参与了新疆褐牛的生产发育和代谢。KEGG代谢通路富集发现候选基因参与最多的是Wnt通路,调控细胞增殖、分化和迁移过程[22],对脂肪细胞的影响表现为对间充质干细胞(MSC)转化为脂肪前体细胞和脂肪细胞终末分化为成熟脂肪细胞的两个阶段有调控功能,抑制脂肪细胞的分化。细胞黏附分子是调节细胞之间相互作用的膜表面糖蛋白,钙黏蛋白是最早发现得介导细胞间相互聚集的黏附分子,神经钙粘素是其中的一员,在CD抗原中被命名为CD325,编码基因为CDH2,由于该基因同时参与了Wnt通路和钙黏素通路,并且GWAS得到SNP位点位于该基因内,但是该基因与牛产奶性状的相关研究很少,故将其筛选为乳脂率性状的候选基因。同时,GABRG2基因主要参与γ-氨基丁酸门控氯离子通道的活动,并参与GABAA受体活性,其所在的QTL区域与乳蛋白量有关。EPRS基因可以通过SLC27A1促进脂肪细胞摄取长链脂肪酸,发挥在mTORC1信号通路中的作用。mTORC1通路处于生长调节的中心环节,可以调控蛋白质和核糖体的生物合成、营养物质的吸收和细胞自噬等过程,初步认为该基因与初配日龄有关。因此,通过生物学功能、生理生化分析初步确定产奶性状中的CDH2、GABRG2基因和繁殖性状中的EPRS基因为候选基因,为后续试验验证分子标记对特定性状的效应提供前期理论基础。
由于可变剪接的机制复杂多样,所以在进行功能注释的同时也对基因的可变剪接数进行统计。首先调控mRNA剪接位点的有顺式和反式作用元件,其活性受细胞内剪接因子之间的互作和竞争调控来进一步影响机体剪切位点的选择,其次不同启动子的选择和结构,以及募集剪接因子的能力和调控转录速度的差异都会影响可变剪接。此外,RNA的二级结构、细胞因子、激素等也能影响剪接位点的识别。目前研究可变剪接的方法有实时荧光定量RCR法、表达标签序列分析法以及生物芯片法。mRNA的可变剪接增加了蛋白质组的多样性,反映出遗传信息在基因组水平外的变异和重组,增加蛋白质表达的复杂性,使机体利用有限的基因满足多样性功能蛋白的需求。根据GWAS发掘功能位点所得到的候选基因需要进一步通过基因表达谱分析、功能试验等方法进一步确定其具体的基因功能。
4 小结
本研究基于课题组前期GWAS研究结果,对57个显著SNPs位点进行功能基因组生物信息学分析,经过筛选后得到47个候选基因,随后进行了GO和KEGG分析和功能注释。根据GWAS得到显著的位点与候选基因的位置和候选基因本身的功能信息,对产奶性状中CDH2、GABRG2基因和繁殖性状中EPRS基因可进一步进行系列的基因功能研究。