民猪低温胁迫的基因表达谱分析
2013-11-05杨月莹丁常宏祁雪莲
杨月莹,刘 娣 ,丁常宏,祁雪莲
(1.东北农业大学 理学院,黑龙江 哈尔滨150030;2.黑龙江省农业科学院,黑龙江 哈尔滨150086;3.黑龙江中医药大学 ,黑龙江 哈尔滨150040)
生物体是复杂的交互系统,寒冷、炎热刺激短期内会引起内分泌,组织间信号传导等生理方面的反应[1-5]。近年来,关于动物抗寒相关基因方面的讨论工作已经有所开展[6-10]。东北民猪是东北地区的一个古老的地方猪种,与我国其他地方猪种相比,抗寒性是民猪的一大特色。因为黑龙江省是全国气温最低的省份,在这样寒冷气候下生长培育出的民猪具有极强的抗寒特性。对民猪的抗寒性进行系统和深入的观察研究,可为民猪保持良好的生长状态,提高抗病性和适应能力,降低发病率,多产高产提供参考依据。在民猪的抗寒性方面[11-13],生物体在分子水平上的表达差异性对于抗寒性能的发生发展,应激反应等方面都起到重要作用。在不同的温度及生理条件下,机体作为一个统一的整体进行调节,在个体发育过程中保持高度时间、空间,表达量的协调性。从全基因组水平考查抗寒性状相关基因的表达差异,有助于高通量筛选寒冷相关基因表达并对其进行功能方面的分析、鉴定及预测。
通过系统地识别和鉴定寒冷条件下猪表达特异的基因,对于揭示猪抗寒性状的发生本质是有价值和意义的,识别特征基因的方法已经非常多[14-17]。Brown 等采用支持向量机用同属于一个代谢途径的一组基因训练分类器,并且运用所得分类器进行分类检验。Ben -Dor 等运用了支持向量机和AdaBoost 等方法对两类组织进行分类。Alon 等对两类组织样本数据进行了分类。本文对于常温状态和低温状态下的两类民猪样本进行了基因芯片表达谱研究,采用一种优化方法进行抗寒性状相关基因的筛选,对这些特异的基因进行表达,可以明确这些抗寒相关基因如何与蛋白之间发生相互作用而行使功能,并能高效地完成动物体抵御外界环境刺激的使命。在寒冷条件下猪抗寒性状研究是复杂的系统工程,如果能全面掌握猪在寒冷条件下表现的优势基因组合,必将为提高猪抗病抗寒能力,达到高产优产提供依据。
1 材料与方法
1.1 材料与方法
选取3 窝3 月龄同期出生的民猪,将每窝个体随机分成2 组,组成低温处理组和常温处理组。一组置于常温(10 ~15 ℃),另一组置于低温(-10 ~15 ℃),分别处理15 d。在低温处理期的15 d 之内,每天需测量天气温度和风速;每天分早、中、晚3 个时间段测量猪只的体表温度、呼吸频率和每分钟肌肉颤栗次数。采用人为观测结合摄像头检测录像的办法,观察记录实验个体每天的采食行为,主要包括采食量、每次采食时间、饮水次数、饮水量、群居行为、活动与睡眠行为和异常行为。
处理结束后,采血并分别制备血清和血浆。血浆中IL24 和IL210 采用双抗体夹心ELISA 试剂盒测定;皮质醇和ACTH 采用RIA 试剂盒测定。血清中T3 和T4 浓度用中国原子能研究院生产的放射免疫药盒测定,去甲肾上腺素用2 mol/L 高氯酸抽提,经中性Al2O3吸附,0.3 mol/L 醋酸溶液浸泡提取,中性条件下K3Fe(CN)6氧化,产物在碱性溶液中生成三羟基吲哚类的荧光化合物。Fluormax -2 型荧光光谱仪检测,激发光波长410 nm,发射光波长524 nm。屠宰实验猪群,采集肝脏和肌肉组织样品,置于液氮中保存带回实验室。
将实验样品按照实验要求合成芯片,采用的是Affymetrix GeneChip 3000 TG System 实验平台,用Invitrogen 的TRIzol 提取总RNA,定量检测纯化总RNA,合成cDNA 等实验后,按照芯片类型在芯片中注入预杂交液,将芯片放入杂交炉中进行预杂交。在洗涤工作站FS450 上按照芯片类型,运行洗脱程序,对芯片进行清洗、染色和信号放大过程。对芯片进行扫描和信号值转换,在芯片质控结果良好的情况下,获得低温状态和常温状态两类样本基因的表达数据。获得芯片结果后,对实验结果进行分析,筛选出与冷诱导相关的候选基因。
1.2 分析方法
1.2.1 特征提取方法 对基因表达数据补充缺失值并且进行标准化处理,消除实验过程中混杂在变量中的噪声的影响。标准化按如下公式进行:
抗寒性状相关的基因集合的获得需要考虑以下问题。常温处理和寒冷处理得到的表达谱数据并非一般意义上的线性分类,因此可假设有参数 β0,β1,β2,…,βn使得以下式子成立:
β0+其中,ei是弹性变量。
当样本属于常温处理组的样本,有ei>0;当样本属于低温处理组的样本,有ei<0。
模型中参数 β0,β1,β2,…,βn被确定,该模型还可以被应用于新的样本分类。
应用目标规划估计参数值β0,β1,β2,…,βn,用2 个非负变量d-和d+的差值,来评价ei。对于任意至多有1 个取得正值,分别代表常温样本被错分为冷处理样本和冷处理样本被错分为常温样本的样本数目。
其中,用b0用于估计β0,bj用于估计βj为了限制分类函数中的基因数目,再引入了一个目标。
min Σjyjyj=0 或1
当bj=0 时yj=0,但当bj≠0 时yj=1。因此,Σjyi的最小值表示分类函数中基因的数目。
筛选出的特征基因可以通过评价分类效能的方法来推断特征选择的结果,采用分类正确率评价指标来反映特征子集的分类效能,TP 表示真阳性,FP 表示假阳性,TN 表示真阴性,FN 表示假阴性。
1.2.2 特征提取和分类器训练流程 流程如下:
Step1:对标准化后的基因芯片数据进行样本划分,生成训练集和检验集,对于每组训练样并行运用目标优化方法训练分类器,转Step2。
Step2:根据分类器加权打分排序,筛选特征基因集合,加权值排序在前列的特征基因入选特征基因组合,转Step3。
Step3:采用5 -fold 交叉验证,满足目标规划约束的所有特征基因构成的集合,即抗寒性状相关基因候选组合。
Step4:对于分类性能进行评价,运用检验样本获得分类准确率。
2 结果与分析
实验数据总共有24 123 个基因,其中有22 458 个基因是已知基因,1 665 个对照的探针。通过优化方法筛选得到抗寒性状相关基因。根据功能检索,笔者进行了注释。应用数学规划算法对基因芯片数据进行特征基因的选取,采用五倍交叉验证进行样本集合的选择,每组训练样本含有相应比例的常温状态样本和低温状态样本,训练样本分类器的同时进行特征基因的加权筛选,进行1 000次扰动依据权重均值对所筛选的特征基因进行排序,选取高分值的特征基因子集。这些特征基因子集的构成见表1。
表1 特征基因集合Tab.1 Feature gene sets
针对以上基因子集,对于包含寒冷样本和常温样本两类的检验样本,分别应用目标优化算法、支持向量机分类算法和神经网络分类器对分类效能的稳定性进行评估,以此对目标规划算法筛选得到的特征基因子集的分类性能进行评价。分类稳定性分析结果如图1。
结果表明:通过目标规划算法应用筛选得到的特征基因子集分类效果都非常稳定,分类准确率比较高;应用支持向量机应用不同特征基因子集进行分类,分类性能较好,其中应用5 个特征基因子集进行分类的效果比较差,原因在于基因调控过程中关联的基因比较多,过少的特征基因造成有效数据的损失,直接导致分类准确率下降;神经网络分类器过程中分类准确率也比较高,但是过多基因构成的特征基因子集引起了数据冗余造成分类效能减弱。3 种分类方法都具备稳定分类正确率的特征基因子集是10 个特征基因,所以回溯得到这10 个特征基因的基因功能,通过注释分析,这些基因注释到多个功能节点上,基因功能注释如表2。
图1 分类稳定性分析结果Fig.1 Classification accuracy
表2 基因功能注释Tab.2 Gene functional annotation
对于25 个分类有效的特征基因和35 个分类效果较好的特征基因,其中部分基因功能还不完全清楚,对于这些基因功能的验证是下一步研究的工作。
3 讨论与结论
对于寒冷胁迫下的地方民猪抗寒性状相关基因的筛选,本文提出了一种集特征基因组选择和两类别样本分类性能为一身的数学优化算法,通过对于冷胁迫下的基因表达谱数据的五倍交叉验证,筛选得到几组不同容量的抗寒相关基因。这个方法运行效率非常高,筛选特征基因的同时,也可以对两类样本进行分类,而且筛选得到的特征基因通过其他分类方法的佐证表明分类准确率很高。
数学方法的最终目的还是获得抗寒相关基因,既然这样几组抗寒相关基因对于常温样本和低温样本分类效能非常高,这组基因的功能验证就非常重要。从基因表达水平对样本进行分型克服了基于表型分类的主观性,显著提高了检索特征基因的效率,为进一步的分子实验提供了极大的启示。
针对越来越多的被量化的生物学实验数据,提高测量技术、开拓存储技术、深入分析研究都是必要的。为了加快对于不同科学数据的深入研究,推进算法改进技术将为地方生物遗传特性的研究具有重要的价值,对于这些生物的遗传特征的研究将为保种育种提供宝贵的理论依据,这不是单纯解决一些特殊问题而采取的技术策略,从长远发展的角度出发,研究地方动物的基因组信息具备深远的意义。
寒冷胁迫下动物体发生了复杂的生理变化,生物体分子水平上基因和蛋白的结构和功能都随外界环境的刺激而相应形成反馈。单纯从单基因角度对于寒冷条件刺激引起的防御应答是没有办法全面准确的反馈机体变化的全过程的,识别冷应激胁迫下生物体基因表达水平的全面信息进行整体研究将有利于研究整个寒冷胁迫的复杂反应机制。
基因芯片数据一般都是样本容量比较小,基因探针数目非常大,运用统计学方法对于这种低样本,高通量的数据的处理不可避免会有系统误差。如何降低小样本高维的芯片数据分析误差,一方面提高基因芯片数据实验技术,另一方面就是要从复杂的高维数据出发提高数据处理技术。对基因芯片数据的处理方法已经非常普遍,笔者对提出的优化算法进行特征基因的数据挖掘方法的局限性也有思考。例如,通过优化方法筛选的抗寒性状相关基因普遍分类效能良好,然而采用非线性神经网络方法处理数据的时候,网络误差在开始时收敛速度较快,后期却衰减的比较严重,耗时较长。所以对于后期基因功能的验证将是下一步的具体工作。
[1]Yih-Cherng L,Ante T,Peter L D,et a1.Mimicry of ice structure by surface hydroxyls and water of a beta-helix antifreeze protein[J].Nature,2000,406:322 -324.
[2]Airaksinen S,Jokilehto T,Robergh C M,et a1.Heat -and cold -inducible regulation of HSP70 expression in zebrafish ZF4 cells[J].Comp Biochem Physiol Part B,2003,136:275 -282.
[3]杨明,李庆芬,黄晨西. 布氏田鼠在冷暴露条件下褐色脂肪组织产热的神经内分泌调节[J]. 动物学报,2003,49(6):748 -754.
[4]王秋菊.耐旱基因PC2300 AF1 在寒地粳稻上的功能验证[J].江西农业大学学报,2012,34(3):434 -438.
[5]胡振,龚亮,张彦博,等.甜菜夜蛾PAP 基因克隆及在高温胁迫下其表达量的变化[J].江西农业大学学报,2011,33(3):458 -464.
[6]杨发青,钱令嘉.寒冷适应差异表达的研究[J].生物学报,2003,55(3):360 -363.
[7]钟其旺,樊廷俊.鱼类抗冻蛋白的研究进展[J].生物化学与生物物理学报,2002,34:124 -130.
[8]Baardsnes J,Davies P L.Contribution of hydrophobic residues to ice binding by fish type Ill antifreeze proteins[J].Biochim Biophys Acta,2002,1601:49 -54.
[9]Cambi A,Figdor C G.Dual function of C-type lectin-like receptors in the immune system[J].Cur Opi Cell Biol,2003,l5:539 -546.
[10]王金涛,李宁,徐世文. 急慢性冷应激对雏鸡腓肠肌及血清抗氧化功能的影响[J]. 中国农学通报,2007,23(3):28 -32.
[11]陈萍,杨焕民,李士泽,等.急性冷暴露对仔猪血浆中IL -2、IL -6、ACTH 和皮质醇水平的影响.应用与环境生物学报[J].2009,15 (1):91 -94.
[12]黄小波,杨恒,曹三杰,等.DLY 猪白细胞介素IL-6 基因的克隆及生物信息分析[J/OL].中国科技论文在线,2013,[2013 -01 -17].http://www.paper.edu.cn/releasepaper/content/2013 -01 -803.
[13]沈婷.冷应激对猪的影响及其预防[J].安徽农业科学,2007,35(36):11839 -11840.
[14]Brown M P,William N Grundy,David Lin,et al. Knowledge -based analysis of microarray gene expression data by using support vector machines[J].Proc Natl Acad Sci,2000,97:262 -267.
[15]BenDor A,Bruhn L,Friedman N,et al,Tissue classification with gene expression profiles[J]. J Comput Biol,2000,7:559 -583.
[16]Alon U,Barkai N,Notterman D A,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays[J].Proc Natl Acad Sci,1999,96:6745 -6750.
[17]钟伟红,马修水,关宏伟,等. 基于RBF 神经网络的三坐标测量机动态测量误差预测[J]. 中国科技论文,2012,7(7):560 -562.