基于DISCERN算法筛选影响肉鸡脂肪沉积的关键基因
2021-03-10翟祥云陈耀峰杜志强
翟祥云,陈耀峰,李 辉,杜志强*
(1.东北农业大学 动物科学技术学院,黑龙江 哈尔滨 150030;2.农业部鸡遗传育种重点实验室,黑龙江 哈尔滨 150030;3.黑龙江省教育厅动物遗传育种与繁殖重点实验室,黑龙江 哈尔滨 150030)
目前,肉鸡育种的目标不仅要提高肉鸡的生长速度,同时要降低肉鸡腹部脂肪以提高鸡肉品质,以满足人们不断提高的物质生活水平。基因的作用不是孤立的,而是作为复杂网络的一部分来执行各种细胞过程。包括脂肪沉积在内的许多脂肪相关问题都是由基因失调引起的,导致网络的摄动(拓扑变化)[1-3]。鸡腹部(内脏)脂肪的动态消化代谢、内分泌协调和脂肪细胞生成等是受多转录基因调节的一个复杂过程,构建目标性状驱动的相关基因网络是功能基因组学相关研究的主要问题[4-5]。对基于同一组织里的所有基因存在同一个复杂网络进行分析研究,本试验拟采用differential sparsE regulatory network(DISCERN)算法对高低脂2组7周龄肉鸡腹部脂肪的RNA测序转录组数据中的17 934个基因进行一一打分,根据得分高低及相关文献搜索推断其与脂肪沉积性状相关的重要程度,并筛选出影响肉鸡腹部脂肪沉积的关键基因。
1 材料与方法
1.1 数据及来源数据来源于NCBI GEO Series Accession #GSE42980。文献资料显示,该肉鸡来自法国努齐立国立农学研究所家禽研究所(本文简称法国肉鸡),根据腹脂量进行双向选择而得,根据基因型该肉鸡分为高脂鸡(fat line,FL)和低脂鸡(lean line,LL)。随机选取7周龄的FL和LL各4只,剥离腹部脂肪组织提取RNA,通过Illumina HiSeq 2000平台进行测序分析。该测序原始数据包含24个样本,17 935个基因。
1.2 DISCERN算法采用DISCERN算法[1]对数据进行分析,该方法是假设一个基因以2种方式在网络中受到影响:一个基因影响其他基因的方式(图1),例如,转录因子的驱动突变可以影响细胞增殖途径。一个基因受其他基因影响的方式,例如,当一个突变基因(遗传或表观遗传)获得一套新的调控因子时,就会在肉鸡生长和病变过程中发生 (图2)。筛选导致基因网络拓扑变化的基因对了解腹部脂肪分子机理和确定关键腹部脂肪靶点至关重要。本试验利用肉鸡的高、低脂系存在基因调控网络为出发点,认为存在一类这样的基因:在2种不同的生理状态下(如高脂和低脂),基因与其他基因的联系方式发生了较大变化,这种与其他基因变化联系较大的基因被称为差异联系基因(differentially linked genes,以下简称DLGs)。
图1 基因影响其他基因方式示意图
图2 基因受其他基因影响示意图
其中,x1,…xp表示候选的调控因子,一组已知基因去调控其他基因,包括转录因子、染色质修饰体或调控因子以及信号转导基因。
线性模型能够从包含数万个基因的全基因组表达数据中得到有效条件依赖性关系。一个零权重Wir表示调控基因r不会对目标基因i的表达程度产生影响。稀疏诱导正则化可以帮助基因选择一个候选调控因子的子集,这种线性模型比其他方法更具生物合理性并解决了高维数据中基因数远远大于样本数的问题。
为了确定任一给定基因的调控因子集,利用DISCERN惩罚回归模型,将每个基因的回归优化问题定义如下:
(2)
利用DISCERN方法来分析脂肪组织基因表达水平间的条件相关关系,评价肉鸡的转录因子如何调控每个基因在高、低脂系脂肪组织中的基因调控网络的位置和网络结构变化,计算相关得分(分值越高,网络结构变化越大),这种算法被定义为:
(4)
其中,ns是数据中状态为s下的样本数,分子是预测基因i在高脂系(低脂系)的权重系数下低脂系(高脂系)表达水平的测量误差,如果基因i在高脂系和低脂系之间有较大的权重系数差异,那么基因i有可能有一个高的DISCERN分数。分母作为归一化因子发挥着重要作用,最后得到的DISCERN值是一个相对表达量。
2 结果
运用DISCERN算法得到法国肉鸡腹脂中所有基因的得分排序结果,共筛选到677个DLGs(以分值>15为筛选阈值)。根据相关文献查阅及基因分子功能分析,挑选其中的14个重要基因,整理基因主要信息如表1。其中,HCN4是心脏的起搏基因,属于HCN基因家族成员,可以编码产生起搏电流,参与心脏活动[6]。NPPC属于利钠肽家族成员,可以调节糖脂代谢[6];NPPC和受体结合,通过cGMP/PKG通路进一步分解脂肪[7]。UCN3是CRF肽家族新成员,对CRFR2具有高亲和性,被认为是CRFR2的内源配体。UCN3广泛分布于动物的各种组织,如在外周组织中,UCN3在消化道、肝脏等组织均有丰富表达,尤其是胃组织,因此UCN3可能参与食欲控制和代谢调节[8]。FGF13属于FGF家族成员,该家族是一个生长因子大家族[9];FGF13又称FHF2,参与脂肪前体细胞分化,已被多次报道可能与肌肉的生长发育相关[9]。CERKL基因依靠与SIRT1的相互作用对自噬进行调节,自噬即自我降解途径,在饥饿状态下,通过自噬可从机体获得能量,维持生存。自噬是一种分解机制,与脂肪沉积有密切联系。SIRT1的磷酸化也受CERKL基因调节,SIRT1是自噬乙酰化与去乙酰化的主要调节蛋白[10]。GHRHR基因属于生长激素释放激素受体,和藏鸡或泸宁鸡等其他品种肉鸡相比,该基因在白羽肉鸡中的基因表达量较高[11]。SLC38A5与谷氨酰胺转运及降解有关,参与谷氨酰胺代谢[12]。GATA4是锌指结构域转录因子,可调控细胞分化和增殖;锌指结构域转录因子家族有6个成员,其中GATA2和GATA3具有抗成脂分化作用,能够与C/EBPα和β结合,破坏其转录活性,这说明GATA因子可以通过多种信号通路阻碍脂肪的生成[13]。PLAC8是胎盘特异蛋白8,又称C15或onzin,该基因表达的蛋白富含半胱氨酸;PLAC8是一个诱导剂,通过C/EBPβ通路,促进棕色脂肪分化,从而调节体温和控制体质量;PLAC8通过AKT及RAF-1-ERK2-C-MYC通路信号调控细胞增殖[14]。综上,成功筛选出一批与脂肪沉积相关的候选基因。
表1 重要基因、得分及基因主要信息列表
3 讨论
本试验采用的DISCERN算法可以有效识别影响肉鸡腹部脂肪沉积的关键基因,DISCERN算法用模型系数的绝对值函数作为先验值来压缩模型系数,兼有子集选择和岭回归估计的优点。采用DISCERN方法进行变量选择与未知参数估计,可用于高维数据分析和解决多重共线性问题[15-16]。
本试验对7周法国肉鸡龄腹部脂肪转录组测序数据中的17 934个基因进行打分筛选,对基因调控网络进行量化研究,旨在筛选出能够较大程度影响网络结构差异,且具有重要生物学意义的基因,可以为筛选与目的性状相关的重要候选基因以及预测新的基因功能提供依据。