某猪场母猪繁殖性能预测和logistic回归分析
2020-12-13翟静静刘则彰蒋思文
翟静静,刘则彰,蒋思文
(华中农业大学,湖北 武汉 430070)
母猪在养殖生产中扮演着重要的角色,在规模化养猪生产中,母猪的繁殖效率是重中之重,是养殖场的核心,也是决定猪场生产水平和经济效益的关键因素[1]。母猪繁殖性能主要指标包括总产仔数、产活仔数、断奶仔猪数、断奶发情间隔(Weaning to estrus interval,WEI)、PSY等[2],还包括繁殖力(如分娩率和死亡率)。
胎次也是影响母猪繁殖性能的重要因素,一般来说,繁殖性能随着胎次数的增加而提高,在3~5胎次时达到最高水平[3,4]。在2~4胎时母猪的受胎率会随胎次升高而增加,4胎后逐渐下降[5]。胎次主要通过影响分娩率和产仔数来影响母猪繁殖性能[6]。朱世平等发现,依据胎次可将母猪繁殖性能划分为1-2胎、3-6胎和7-8胎这三个阶段,并且得出母猪繁殖的最佳胎次为3-6胎,繁殖高峰期是4胎次(P<0.05)[7]。
WEI是指母猪断奶到再次发情配种的间隔时间。据国外的各个猪场数据分析,WEI与产仔数呈负相关,WEI时间越长,产仔数越低,而在3~5 d发情的母猪,分娩率高。因此要想提高断奶母猪7 d内的配种率,应缩短WEI,保持母猪的理想体况,保障产仔舍和配怀舍的饲养管理工作,减少体重损失,做好诱情工作,提高分娩成绩[7]。
生产中把繁殖母猪发情期进行配种后没有怀孕并重新发情的现象称为返情。常规返情是受胎失败,非常规返情是妊娠失败,都会导致低分娩率的出现。母猪一般配种受胎为80%~90%,而配种未分娩的10%~20%就是返情。返情的增加,会导致配种分娩率降低,从而影响养殖场的经济效益[8,9]。返情后再配种母猪分娩率降低10%左右[10]。实际生产中母猪返情率一般在10%左右[11]。
时间序列法是一种统计分析方法,将研究对象的数量随着时间的发生而呈现变动的这种特征按照时间顺序进行排列,所形成的这个序列便称为研究对象的时间序列[12]。常用的时间序列法有移动平均法、加权移动平均法和指数平均法,时间序列的平稳性是建模必不可少的环节[13]。时间序列分为两类:第一类是某时间序列各时期的数值是不变动的,为确定型时间序列。第二类是此时间序列各时期数值变动,充满不确定性,为随机型时间序列。一般情况下都是随机型的时间序列。朱迪国等对全球猪流行性腹泻疫情进行时间序列分析发现,猪血液制品贸易可能是该病跨国界传播的潜在途径[14]。因此,在母猪繁殖生产数据中,可以运用时间序列对性状的时间发展进行预测。
对于因变量为只具有两种分类结果的属性数据,例如母猪生产中的母猪分娩或未分娩,就需要去建立逻辑回归模型,这是一种经典的分类算法[15]。Logistic模型中的参数是通过极大似然法进行估计的。逻辑回归分析是通过一组预测变量(自变量)预测一个或多个响应变量(因变量)一种统计分析方法[16]。在使用Logistic模型前,需判断是否满足以下几个条件:(1)因变量是二分类变量;(2)分类变量的分类是全面的且相互独立;(3) 连续的自变量与因变量的对数转换值之间存在线性关系;(4)自变量之间不存在共线性。利用建立的回归模型可以对母猪性能及后期发展进行预测。Logistic模型也可以用来评估预测变量对响应变量的预期效果。Hosmer and Lemeshow运用Logistic模型预测母猪体重发育相关变量与第2胎中的非妊娠和产仔数的关联,发现是高度相关[17]。Koketsu等人利用Logistic回归模型分析与分娩率相关的因素时发现,胎次、分娩季节以及泌乳天数与采食量之间的交互作用会对母猪分娩率产生影响[18]。
研究根据猪场的生产记录,时间序列和Logistic回归模型这两种方法,把所得的猪场数据进行汇总处理,运用时间序列去进行短期预测母猪繁殖性能高低的时间段和母猪状态,来判断猪场中繁殖母猪在某一时间段可能会出现的情况;通过Logistic回归模型进一步剖析影响因素,对影响该猪场母猪繁殖性能的因素进行调查研究,为该猪场采取相应措施提高母猪繁殖性能提供科学依据,有效提高猪场经济效益。
1 材料与方法
1.1 数据来源
此研究选择某公司的2016-2019年7个分场的母猪繁殖性能记录数据,包括产仔性能、配种分娩明细及淘汰死亡等。以母猪繁殖性能为主线,对规模猪场不同生产指标的各种数据进行处理分析,根据对生产数据的分析,找到影响繁殖性能的因素,制定行之有效的解决方案,以此展开相关研究。
1.2 数据统计分析
对数据采用Excel软件进行统计,数据以平均值±标准差表示;运用GraphPad Prism 7.0作图,使用SPSS 19.0建立逻辑回归模型和对数据进行显著性检验,P<0.05表示差异显著,P<0.01表示差异极显著;运用SAS 9.4软件构建时间序列模型ARIMA进行预测。
1.3 Logistic模型的构建
此研究采用二元Logistic回归分析方法对母猪胎次和年份进行了分析。母猪繁殖性能相关因素分析研究的变量与赋值见表1。根据收集到的数据,将数据分为两类情况,如受胎:1和未受胎:0;首先采用多重共线性模型筛选变量(|r|>0.7)。然后,对每个解释变量进行单因素分析,将上述变量P<0.1的解释变量纳入logistic回归分析模型中,运用基于最大似然估计的向前逐步回归法(Forward: LR法)建 立logistic回归模型,确定与母猪繁殖性能相关风险因素的依据是似然比统计量的P值<0.05。回归系数用95%置信区间(Conf idence intervals,CI)的似然比(Odds ratios,OR)表示。OR值即是相对危险度的精确估计值,如果OR大于1,变量施加的风险增加。Logistic回归模型的公式如下:
其 中,β0为 常 量,A、B分别表示因素断奶或配种年份、母猪断奶或配种胎次。把胎次、年份等影响7 d断配率、返情率、受胎率、分娩率这些指标的因素进行定义变量和赋值(见表1)。
表1 母猪繁殖性能相关因素分析研究的变量与赋值
2 结果与分析
2.1 时间序列分析预测
2.1.1 时序图检验
此研究收集了2016-2019.11、2016-2019.08、2016-2019.07、2016-2019.07的猪场健仔数、断奶头数、7 d断配率、分娩率的数据。选取了其中80%的数据用于时间序列分析,留下20%的数据作为实际值与预测值对比。首先对原始序列进行平稳性检验,分别描绘平均每头母猪健仔数(图1a)、断奶头数(图1b)、7 d断配率(图1c)、分娩率(图1d)的时序图,从时序图中可以看出该时间序列具有明显的递增趋势性和下降趋势性,为典型的非平稳性序列。
2.1.2 一阶差分时序图
时间序列预处理,可知这四个指标均为不平稳序列,ARIMA模型基于平稳时间序列的基础上,因此根据数据特征对数据进行差分处理,一阶差分后的时序图(图2)显示,各观测值围绕着一个常数附近上下波动,数据逐渐趋于平稳,序列表现平稳的性质。
2.1.3 模型识别
为了验证一阶差分后此序列的平稳性,依次做出该序列的自相关图和偏相关图(图3到图6)。观察ACF(自相关)图和拖尾效应确定ARIMA模型的P值,观察PACF(偏相关)和截尾效应确定ARIMA模型的q值。其中差分的次数就是模型ARIMA(p, d,q)中的阶数d,因此通过最佳准则函数定价方法选择ARIMA(0,1,1)、ARIMA(5,1,5)、ARIMA(0,1,0)、ARIMA(0,1,0)分别为健仔数、断奶头数、7 d断配率、分娩率的相对最优模型。
2.1.4 模型的预测
根据已经建立的ARIMA模型对母猪健仔数、断奶头数、7 d断配率及分娩率的数据进行预测。预测时间为9个月,健仔数的预测时间从2019年3月到11月,断奶头数预测时间为2018年12月到2019年8月,7 d断配率和分娩率预测时间都是从2018年11月到2019年7月。为评估模型的预测效果,引入均方误差(Mean square error,MSE)和平均绝对百分比误差(Mean absolute percentage error,MAPE)两个指标。预测的偏差较小,与实际观察值基本吻合(表2到表5)。预测值的变化趋势与实际值大致保持一致,实际值基本落在预测曲线95%的可信区间内,该模型拟合预测成功,具有一定的实际价值。由表6误差评估表可见,MSE值约小,说明预测模型具有更好的精确度,MAPE<20%,可以从中判断该模型拟合预测很成功。
2.2 因素分析
2.2.1 受胎率的logistic回归分析
原始数据为192 874条配种记录,剔除掉胎次为0的数据,剩下143 464条记录用于后续的因素分析。由表7可知,配种年份和配种胎次会影响母猪受胎率。高胎次(≥7)(OR值:0.889,95%CI:0.810~0.975)的母猪跟低胎次(1~2)的母猪相比受胎率小于0.889倍;在2019年(OR值:1.247,95%CI:1.157~1.344)配种的母猪比2016年配种的母猪成功受胎的概率高1.247倍。
2.2.2 返情率的logistic回归分析
收集了7个分区猪场192 874条配种记录,剔除掉胎次为0的数据,剩下143 464条记录用于后续的因素分析。由表8可知,配种年份和配种胎次会影响母猪返情率。3~6胎 次(OR值:1.272,95%CI:1.208~1.339)的母猪比1~2胎次的母猪出现返情现象的概率高1.272倍;在2019年(OR值:0.802,95%CI:0.744~0.864)配种的母猪比2016年配种的母猪发生返情的概率小。
2.2.3 分娩率的logistic回归分析
表2 ARIMA模型预测母猪健仔数效果表 头
表3 ARIMA模型预测母猪断奶头数效果表 头
表4 ARIMA模型预测母猪7 d断配率效果表 %
原始数据为192 874条配种记录,剔除掉胎次为0的数据,剩下143 464条记录用于后续的因素分析。由表9可知,配种年份和配种胎次会影响母猪分娩率。2017年(OR值:0.782,95%CI:0.747~0.817)的母猪比2016年的母猪分娩率低;高胎次(≥7)(OR值:0.851,95%CI:0.808~0.897)的母猪成功分娩的概率比低胎次(1~2)的母猪小85%。
2.2.4 7 d断配率的logistic回归分析
收集了7个分区猪场2016-2019年间142 478条断奶配种记录,剔除掉WEI>100的数据,剩下138 114条记录用于后续的因素分析。由表 10可知,断奶年份和断奶胎次会影响母猪7 d断配率。2019年(OR值:1.610,95%CI:1.526~1.698)的母猪断奶发情间隔大于7 d的发生概率是2016年的1.610倍;3~6胎次(OR值:0.939,95%CI:0.904~0.975)的母猪断奶发情间隔大于7 d的发生概率比低胎次(1~2)的母猪低。
3 小结与讨论
数据的时间序列大多是不平稳的,数据本身具有季节趋势,若采用简单的模型进行分析,往往不能得到准确的预测结果。随着对时间研究的发展,时间序列研究的方法更加多样,其中ARIMA模型是常用的非平稳的模型[13]。时间序列预测法对于中短期预测的效果要优于长期预测的效果,因为时间过长发生外界因素变化的可能性会加大。世界上没有一个模型可以做到100%的精确,只能随着时间发展进行改善,不断添加新的数值和因素。此研究中以健仔数、断奶头数、7 d断配率和分娩率的实际数据为基础,拟合ARIMA模型,同时对未来9个月的数据进行了预测和比较。研究结果表明健仔数在未来几个月呈上升趋势,与实际值相比最大偏差为0.8头;断奶头数预测值具有一定的波动性,与实际值最大偏差为1.67;7 d断配率预测值持续上升,实际值时而下降时而上升,最大偏差为11.55个百分点;分娩率预测结果呈下降趋势,实际值具有波动,最大偏差为4.26个百分点。这几个指标虽有一定偏差,但实际值基本落在预测曲线95%的置信区间内,说明模型对原始序列信息的提取比较充分。通过预测效果表和MAPE值(值越小,代表预测的准确度越强)来看,利用ARIMA模型对这些数据进行拟合和预测是合理可行的,但也会有一定的局限性,生产过程中可能会因环境变化或疾病、饲养管理方案改变引起差异。在短期预测当中,猪场未来一段时间的母猪生产情况将会高于前段时间的均值,或是有走低的趋势,这值得生产者注意调整适当的养殖方法。时间序列分析方法可以用在养猪生产中,可以预测未来一段时间的生产变化发展。
表5 ARIMA模型预测母猪分娩率效果表 %
表6 ARIMA模型误差评估
表7 与母猪受胎率相关因素的logistic回归结果
表8 与母猪返情率相关因素的logistic回归结果
对受胎率、返情率、分娩率和7 d断配率的二元logistic回归分析,表明受胎率、返情率、分娩率和7 d断配率均与年份和胎次有回归关系。此研究发现在2017年受胎率高于2016年,返情率、分娩率和7 d断配率低于2016年,说明2017年该场母猪配种要比2016年更好,而分娩率低可能是受胎后其他因素导致的。2018和2019年受胎率和7 d断配率高于2016年,返情率和分娩率低于2016年,分娩率进一步降低可能和非洲猪瘟的暴发有关。而随着胎次的增加受胎率、分娩率和7 d断配率下降,返情率上升。此结果与朱世平等得出母猪繁殖的最佳胎次为3~6胎相反[7],说明该公司繁殖母猪的繁殖性能仍有待提高。该公司猪场年份之间具有差异,特别是2017年性能比较好,后来随着胎次增加繁殖性能不增反减,可能是有新建场区,母猪养殖水平和设施等还未跟上,也可能是猪场管理制度不严,需要从饲养管理方案到技术设备、母猪淘汰制度、发情鉴定和足够的后备母猪储备、专业的人员操作进行完善[19],细化采精、配种和分娩等记录,提高猪场效率。
表9 与母猪分娩率相关因素的logistic回归结果
表10 与母猪7 d断配率相关因素的logistic回归结果
时间序列分析方法对于母猪繁殖性能方面有一定的短期预测效果,可进一步探索用于其他生产指标。相较于之前的研究,此次研究根据数据更全面分析了母猪的繁殖性能。并应用logistics模型和时间序列ARIMA模型对母猪繁殖性能进行因素分析及短期预测,试验数据量大,为生产提供了更具参考价值的依据。