机器学习预测母猪断奶仔猪数
2022-02-20任行达李喜阳王中齐杨钰青刘向东
任行达,梁 璐,李喜阳,王中齐,杨钰青,刘向东,2*
(1.农业农村部猪遗传育种重点实验室,华中农业大学动物科学技术学院,湖北武汉 430070;2.农业农村部生猪健康养殖重点实验室,广西扬翔股份有限公司,广西贵港 537100)
断奶仔猪数(Number of Weaned Piglets)是母猪重要的繁殖性状之一,其直接决定猪场的生产力水平和经济效益,受遗传、营养、疾病和环境等诸多因素影响。刘彬等研究发现母猪的繁殖性能受胎次、不同的杂交方式、季节等因素影响。孙亚楠等研究发现诸如胎次、年龄、品种、饲养管理、营养等均会影响母猪的繁殖性能,且其之间也会有一定程度的相互影响。由此可见,影响断奶仔猪数的因素繁多且作用复杂,传统的建模方法如线性回归很难捕捉众多影响因素之间复杂的非线性关系,这也是很多研究的局限所在。然而,随着大数据时代的到来,机器学习算法为解决此类问题带来了希望。
机器学习由数据驱动,可从历史数据中训练模型进而对未来数据进行预测。机器学习是人工智能的核心,其在农牧领域已有诸多的应用尝试。Gorczyca等利用随机森林等4种机器学习方法对猪直肠、表皮和皮毛外部温度进行了预测,并取得了较好的预测效果。Messad等利用肌肉转录组数据,通过梯度增强机器方法,鉴定出了几个可作为猪饲料效率预测因子的基因。Mollenhorst等根据农场生产管理数据如个体活重、产仔数等,在屠宰前的3个月使用梯度增强树算法对猪肺炎、生长速度和肉类百分比进行预测,为建立育肥猪预警系统打下了良好基础。因此,本研究基于收集到的猪场生产数据,利用逻辑回归等5种机器学习算法对断奶仔猪数进行早期预测,以期为确定母猪选留和调整哺乳期管理策略提供一定参考依据。
1 材料与方法
1.1 数据的收集与整理 本研究收集了广西某规模化母猪场共13 285头母猪的生产数据,包含母猪的配种季节、分娩季节、断奶季节、断配间隔、胎次、妊娠天数、胎间距、分娩窝重、哺乳天数和断奶仔猪数信息,使用Excel 2016软件删除异常值后剩余10 623头母猪数据。断奶仔猪数为要预测的目标变量,其余变量作为构建模型的待选特征。
1.2 描述统计 使用SPSS 26.0软件对目标变量及非季节特征进行描述统计,检查数据集是否存在缺失值,计算四分位数、均值和标准差(表1)。
表1 目标变量及非季节特征描述统计
1.3 制定分类标准 以上四分位数为阈值,将断奶仔猪数大于或等于14头的定义为高产母猪,小于14头的定义为非高产母猪。
1.4 特征选择 使用R 4.0.3软件中的ggpubr包进行Wilcoxon秩和检验筛选高低产母猪之间差异显著的非季节特征,然后使用R 4.0.3软件中的Boruta包筛选预测断奶仔猪数的重要特征。<0.05表示差异显著。
1.5 机器学习算法简介 逻辑回归(Logistic Regression,LOG):逻辑回归是研究离散型因变量与自变量之间关系的有监督机器学习方法,通常应用于二分类问题,属于广义线性回归,其优点是运算速度快,模型可解释性好;缺点是对多重共线性较为敏感,难以处理数据的不平衡问题。本研究使用R软件的Glm函数构建LOG模型。
支持向量机(Support Vector Machines,SVM):支持向量机是应用于分类和回归问题的有监督机器学习算法,其核心是利用核函数寻找一个能实现最大分类间隔的最优超平面,进而求得最优解,其优点是擅长处理非线性问题,缺点是必须对输入数据进行完全标记以及解出的模型参数难以理解。本研究使用R软件的e1071包构建SVM模型。
决策树(Decision Tree,DT):致力于从无规则的事物中推理出划分属性,以自上而下的方式生成若干叶节点直至到达终末节点,可用于分类和回归问题。其优点在于原理规则较易理解以及结果呈现更为直观,缺点是不能很好的处理非结构化数据。本研究使用R软件的tree包构建DT模型。
随机森林(Random Forest,RF):随机森林是包含多棵相互独立的决策树的集合算法,根据生成的所有决策树的众数来划分样本归属,其优点在于对数据集中的噪声和异常值有较大容忍度,可以判断出特征的重要程度;缺点在于计算耗时,对于噪声较大的数据容易过拟合。本研究使用R软件的Random Forest包构建RF模型。
K-近邻(K-Nearest Neighbour,KNN):K-近邻是一种基于统计的可用于分类和回归问题的算法,其原理可简单理解为依据距离样本最近的k个其他样本来计算样本归属,其优点在于易于实现,无需对参数进行估计,缺点是容易导致维数灾难。本研究使用R软件的kknn包构建KNN模型。
1.6 模型评价方法 对根据分类标准处理后的数据集进行随机拆分,其中70%的数据作为训练集来训练模型,30%的数据作为验证集来验证模型的性能。采用ROC(Receiver Operating Characteristic)曲线下面积(Area Under Curve,AUC值)评价模型优劣。
2 结果
2.1 特征选择 使用Wilcox秩和检验分析高低产母猪非季节特征之间的差异(表2)。结果显示,在高低产母猪群体之间,其断配间隔差异显著(<0.05),胎次、妊娠天数、胎间距、分娩窝重差异极显著(<0.01),哺乳天数差异不显著(>0.05)。
表2 高低产母猪非季节特征差异分析
然后使用R 4.0.3软件中的Boruta包从季节特征和差异显著的非季节特征中筛选预测断奶仔猪数的重要特征。结果显示待选的8个特征都是重要特征,其中分娩窝重特征重要性要远远大于其他特征(图1)。
图1 特征筛选箱线图
2.2 模型评估 根据筛选到的重要特征,使用RF、SVM、LOG、DT、KNN 5种机器学习算法对断奶仔猪数进行分类预测,预测结果(AUC值)如图2所示。结果显示,5种机器学习预测准确性(AUC值)在0.846~0.912之间,其中RF、LOG和SVM预测模型的AUC值均在0.9以上,LOG和RF预测效果较好(AUC值为0.912和0.910),SVM和DT预测效果次之(AUC值为0.903和0.876),KNN预测效果最差(AUC值为0.846),表明机器学习尤其是LOG、RF和SVM对于预测母猪断奶仔猪数有一定的实用性和准确性。
图2 5种模型的ROC曲线图
2.3 非季节特征变量相关分析 为了进一步探究特征变量的相互关系,使用R4.0.3软件中的psych包分析数据集中非季节变量之间spearman相关性(图3)。结果显示,分娩窝重与断奶仔猪数之间存在较强的正相关(=0.6),胎间距与断奶仔猪数之间存在微弱的正相关(=0.06),胎次和妊娠天数与断奶仔猪数之间存在微弱负相关(=-0.06),而断配间隔和哺乳天数与断奶仔猪数之间不存在相关性(=0)。此外,断配间隔与胎间距、胎次与妊娠天数、胎间距与妊娠天数之间都存在一定程度的正相关(>0.1)。
图3 非季节变量相关性热图
3 讨 论
本研究在特征筛选之前对非季节特征进行了Wilcox秩和检验,以最大程度发现重要特征和防止特征冗余,如Oh等在利用微生物组和代谢组数据预测非酒精性脂肪肝硬化时,在特征筛选之前,先使用Wilcox秩和检验筛选患者与对照组之间差异显著的微生物和代谢物,防止了冗余特征的出现,提高了模型预测性能,这与本研究结果相一致。
Boruta(https://cran.r-project.org/web/packages/Boruta/)是基于随机森林分类器构建的一种特征选择算法。该算法将特征的相关性与随机森林的相关性进行比较,可以捕获与结果变量有关的所有特征,已被广泛应用于筛选各类重要特征。本研究利用Boruta筛选影响断奶仔猪数的重要特征有配种季节、分娩季节、断奶季节、胎次、胎间距、妊娠天数、断配间隔和分娩窝重,而前人利用传统的分析方法,如单因素方差分析、多因素方差分析等,发现胎次、断配间隔、分娩窝重、配种季节、分娩季节、断奶季节等多种因素都会对母猪断奶仔猪数产生一定影响,与本研究结果相一致。众多研究表明,胎次对母猪的产仔数有显著影响,初胎母猪由于子宫等发育尚未完全成熟,产仔数较低,3~6胎母猪逐渐到达产仔高峰,6胎以后由于母猪年龄过大,各方面机能下降,产仔数逐渐降低。Iida等研究发现断配间隔在0~6 d的母猪的产仔数要显著高于7~12 d的,而断配间隔往往与母猪在妊娠期和哺乳期的营养状况有关,合理的营养模式可使母猪在产后加快子宫损伤修复、断奶后保持良好的体况,进而缩短断配间隔,发挥其产仔性能,最终提高断奶仔猪数。母猪在不同季节其卵泡发育和排卵时间不同,实质上是由于温湿度不同导致的,如夏季温湿度过高会损伤卵泡发育、降低受孕率以及增加胚胎死亡率,导致总产仔数降低,进而降低断奶仔猪数。
此外,本研究基于筛选的重要特征利用LOG等5种机器学习算法拟合的模型的AUC值均在0.84以上,进一步验证了所选特征的正确性。在特征选择中发现分娩窝重的重要性要远远大于其他特征,或许是因为分娩窝重与断奶仔猪数之间的相关度远大于其他特征与断奶仔猪数的相关度。
本研究基于收集到的生产数据,使用了LOG、RF等5种机器学习算法预测断奶仔猪数,模型的AUC值在0.846~0.912之间,其中,LOG、RF和SVM的AUC值均在0.9以上,与之相比,Piles等人使用RF等机器学习算法从转录组数据中识别与猪饲料效率相关的基因时其模型AUC值均低于0.85,Mollenhorst等利用机器学习预测猪胴体性状时其模型AUC值只有0.58~0.83,表明机器学习在预测断奶仔猪数等繁殖性能方面拥有巨大潜力。然而本研究仍具有一定局限性,首先是特征数量仍不够丰富,没有纳入采食量、温湿度、品种等可能影响断奶仔猪数的因素;其次,本研究群体规模有限,所得模型是否具有很好的泛化能力和普遍适用性尚有待验证。下一步应尝试扩大群体规模,增加特征变量,进一步提高模型预测性能和泛化能力。
4 结 论
母猪的断奶仔猪数高低直接影响猪场的生产水平和经济效益,分娩前后的早期预测对管理者决定母猪的淘汰选留以及调整哺乳期管理策略具有重要的现实意义。本研究根据分娩窝重等生产数据,利用LOG等机器学习算法预测断奶仔猪数,取得了较好的预测性能,这意味着猪场管理者或可在母猪哺乳前期依据预测结果提前制定淘汰计划以最大程度节约成本和提高生产效率。