全自动体况评分与人工评分的对比研究

2020-09-14文/刘燕

中国乳业 2020年8期

文/刘燕

〔利拉伐（天津）有限公司〕

体况评分（Body Condition Scoring，BCS）是奶牛饲养管理（尤其是营养技术管理）中的一项非常实用的技术，可以用于衡量奶牛的能量储备，从而判断其胖瘦程度。同时，BCS是分析奶牛健康、采食量和产犊以及首次授精之间的最佳时间间隔的重要管理工具。奶牛在不同生理时期和泌乳阶段具有不同的体况，而不合理的体况表现将会影响奶牛的健康水平、繁殖率、泌乳持续力，也会导致其终生产奶量的下降。体况评分最通用的方法是5分制，即1分代表过瘦，5分代表过肥。本文分别使用利拉伐BCS自动体况评分系统和人工在国内试验牧场对同一牛群进行评分，通过数据分析，对比二者在评分一致性、稳定性上的表现情况。

1 人工评分

目前，国内牧场日益重视奶牛的体况评分，其中多数中小规模的牧场是由饲料公司或其他第三方服务人员对奶牛进行体况评估，而大规模牧场则会由专门负责饲养的技术人员对奶牛进行体况评分。这些人员一般使用传统方法获取奶牛体况评分，但这是一项非常耗时的任务，对奶牛的应激比较大，需要训练有素的技术人员。人工评分的缺点大致可总结如下5 点。

1.1 可能存在数据不准

人工评分方式是主观的，可能会受人员水平、天气、光线、视角以及奶牛花片的影响，导致主观评判的分数不能很好地反映皮下能量储备量。

对于数据不准的原因可以按照多角度进行解读，即BCS评分人员判断的误差、数据不及时、数据传输中易出错。数据是管理的依据和度量，而不及时的数据具有滞后性，错误的数据会误导生产。

1.2 工作量大

大规模牧场奶牛存栏量大，评分的工作量很大。体况评分一般由2 人进行，1 人负责评分，1人负责抄录牛号和评分值。评分前需要保证提前立好牛舍颈枷，使用颈枷夹住待进行体况评分的牛只。手法成熟的技术人员需要20～30 s，通过观察和触摸完成1 头奶牛的体况评分，而生疏的技术人员可能会耗时更长。以1 个舍区120 头牛为例，所有牛至少要夹40 min～1 h才可全部完成评分工作，若以2 400 头泌乳牛的牧场进行计算，则至少需要耗时13～20 h。

1.3 部分数据无法代表整体情况

由于体况评分工作量大，因此一些大规模牧场会采用一些减少工作量的方案。以本次试验牧场（国内华北地区1 个牧场）为例，牧场具有关于BCS的标准化操作流程，要求技术员在为奶牛进行体况评分时以牛舍为单位，体况评分牛头数不得低于整个牛舍存栏量的10%，单独记录特殊肥胖或消瘦的牛号。这样在某些层面上能为牧场管理进行一些基础性数据的堆砌，但是无论是10%还是20%，部分数据是不能很好地用于代表整体情况的。

1.4 数据传输过程中易出错

在人工评分工作结束后，数据员需要将对应的纸质数据录入电脑中。但从在牛舍评分到办公室录入，这个过程中很难保证牛号、BCS数据的抄录完全正确，也无法保证数据录入是完全准确的，这就会造成数据的缺失或错位，丧失数据的意义。

1.5 牧场人员流动性大

目前，国内牧场的人员流动性较大，很多技术人员可能非专业院校毕业，或者没有接受很好的培训就接手工作，这是牧场不可避免的现状之一。而且，不同技术人员对奶牛的体况感官经验是不同的，这也难免会在人员更替中出现感官经验评价不一致，造成数据的偏差，从而导致数据不可用的情况。

2 全自动体况评分系统

除了人工评分以外，全自动体况评分系统是牧场进行体况评分的另一种选择。利拉伐 BCS自动体况评分系统于2015年发布，是全球首个商用全自动体况评分系统。系统由3D摄像头以及帝波罗牧场管理软件构成。3D摄像头通常架设在分隔门或者挤奶机器人上，在奶牛通过或挤奶时自动为奶牛拍摄3D照片，并计算每头奶牛的体况评分。目前该系统可以为多品种的牛进行体况评分，如荷斯坦奶牛、西门塔尔牛（弗莱克维赫）、挪威红牛和新西兰杂交牛。

BCS摄像头采集的奶牛体况评分会传输至帝波罗牧场管理系统，供牧场管理人员查看，也可通过帝波罗的监控面板和报告设置提醒牧场奶牛体况评分的异常情况。

利拉伐BCS自动评分系统的主要特色有5 点：可以每天为所有泌乳牛进行评分；采用一致的评分标准；评分过程不会对奶牛产生应激反应；通过牧场管理软件自动生成关于奶牛健康情况的评估报告；体况评分结果可以直接分享给兽医及营养师使用。

3 试验设计和方法

3.1 试验牧场的选择

试验牧场位于华北地区，使用利拉伐PR3100重型转台、利拉伐帝波罗牧场管理系统，并于2019年1月13日安装利拉伐BCS自动评分系统。

3.2 试验方法

3.2.1 验证人工评分的相关性

参与人员为饲养经理、技术员；试验地点为牛舍；试验牛头数为117 头。

具体方法：在奶牛下奶厅采食阶段，给奶牛上夹，每人为该舍的牛只进行体况评分。在获得数据后，采用Pearson相关系数和Kappa系数来衡量相关性与一致性。对于各方评分差异大的牛只，需要在现场再次共同评分，找到共识的分数（奶牛BCS的5 个关键点评判标准是一致的，因此可以达到共识）。

本试验r值可接受范围为0.8～1.0极强相关，0.6～0.8 强相关。kappa系数计算结果预期范围为0.61～0.80 高度一致性，0.81～1.00几乎完全一致性。

3.2.2 验证人工评分的一致性

参与人员为饲养经理、技术员；试验地点为牛舍；试验牛头数为13 头牛。

具体方法：在奶牛下奶厅采食阶段，随机选取一定数量的奶牛进行第2次体况评分。在获得数据后，用Pearson相关系数和Kappa系数来衡量相关性与一致性；对于各方评分差异大的牛只，现场再次共同评分，找到共识的分数（奶牛BCS的5个关键点评判标准是一致的，因此可以达到共识）。

本试验r值可接受范围为0.8～1.0 极强相关，0.6～0.8 强相关。kappa系数计算结果预期范围为0.61～0.80 高度一致性，0.81～1.00几乎完全一致性。

3.2.3 验证BCS 摄像头与人工评分的相关性

接上一步试验，选取3 组人工评分的平均值进行分析，采用Pearson相关系数与kappa系数来衡量人工与设备评分的相关性。

本试验r值预期范围为0.8～1.0 极强相关，0.6～0.8 强相关。kappa系数计算结果预期范围为0.61～0.80 高度一致性，0.81～1.00几乎完全一致性。

3.2.4 验证BCS 摄像头评分一致性

参与人员为牧场方负责BCS的人员；试验地点为奶厅；试验时间为挤奶结束；试验牛头数为1头。

具体方法：选取1 头牛连续过分隔门（20 次），累计获得单头牛的20 个评分，绘制BCS摄像头评分曲线，用Pearson相关系数来衡量。

本试验r值可接受范围为0.8～1.0 极强相关，0.6～0.8 强相关。

4 试验过程及结果

2019年4月，利拉伐人员与2 名牧场人员依照上述试验思路进行试验。在试验第一阶段，3名人员分别对选定区域（5 舍）的117 头奶牛进行1次人工体况评分，再针对部分奶牛（共13 头）进行第2次体况评分。具体评分数据见图1。在奶牛挤奶完成后下奶厅采食阶段进行评分，这是由于考虑该阶段上夹率最高，对牛产生的应激更小。第2次评分选取的奶牛数量有限，主要是考虑长时间上夹会影响奶牛的休息。整个试验过程累计人工评分130 头次，共计40 min。在评分过程中奶牛一直处于上夹状态，影响了采食，并对奶牛造成了较大的应激反应。

4.1 验证人工之间评分的相关性

图1 试验牛只的体况评分情况

图2 三组人工评分分布情况

图3 人工评分Pearson系数分布情况

图4 人员1与人员2的Kappa系数

图5 人工评分稳定性评估

图2是3组人工评分分布图，其中Delaval代表的是利拉伐的工作人员，人员1是牧场的饲养经理，人员2是牧场的技术员，从中可以看出人工评分的相关性。结果表明，各组人工评分的趋势大致是相近的，说明参与评分的3 人都具有良好的专业经验，但是也可以看出，不同人对不同牛只的评分差异较大。人工体况评分依靠感官来给奶牛的体脂储备做评，差异性大。此外，大多数奶牛的体况评分存有差异，根据数据可以发现，90%的人工评分差异集中分布在-0.75～0.50。而这个数据差异范围在体况评分中是不能被接受的。

由图3所示，人工评分的Pearson系数主要处于0.6～0.8 ，有较强的相关性。结果说明，3位评分人员在体况评分方面上具有扎实的基础知识，但是由于不同人具有不同的眼光和触觉差异，造成个别评分的Pearson系数偏低，差异值较大。

图4结果显示，r值为0.66，结果表明2 组人工评分有比较强的相关性，这也再次验证了评分人员对BCS是比较了解且比较专业的。

4.2 验证人工评分的一致性

在完成第1次体况评分后，随机选取其中13 头奶牛进行第2次评分。从图5评分结果可以发现，在针对单头牛的评分中，同一人两次评同一头牛的评分结果会有较大差异（0～0.5分）。但由于奶牛体况不会在一两天内有大幅度变化，评分差异大的数据对实际生产不仅没有指导意义，还会在很大程度上误导饲养及分群决策。

图6 人工评分与BCS摄像头评分的分布情况

图7 BCS摄影头与人工评分之间的Pearson系数

图8 BCS 摄像头与人工评分（三组评分平均值）的Kappa系数

4.3 验证 BCS 摄像头与人工评分的相关性

在试验第二阶段进行利拉伐BCS自动体况评分系统的对比试验。利用BCS自动体况评分系统对同一牛群的117 头牛进行体况评分，大约用时10 min，全程无人为干扰，奶牛只需通过分隔门即可完成自动评分。将利拉伐BCS体况评分系统获得的评分数据和人工评分数据进行对比分析，结果如下。

从图6中可以看出，BCS 摄像头的评分基本分布在3 组人工评分曲线之间，符合预期，其中90%的BCS 摄像头评分与人工评分差异集中在-0.30～0.52。

根据本试验Pearson相关系数的可接受范围，从图7、表1和表2中可以看出，BCS 摄像头评分与人工评分相关性远高于人员之间评分的相关性，且有44%的BCS 摄像头与人工评分的Pearson相关系数处于0.8～1.0，有极强相关性。

图8显示r值为0.85，Kappa系数中，0.81～1.00几乎完全一致性，再次印证BCS 摄像头评分与人工评分有极强的相关性。

4.4 验证 BCS 摄像头评分一致性

原有试验思路是在班次挤奶结束时，选取1 头牛连续过分隔门（20 次），累计获得单头牛的20 个评分，绘制BCS 摄像头评分曲线。但为了避免留1 头奶牛会造成动物恐慌，因此本试验选取了2 头奶牛。但是在实际操作中发现，单独留2 头奶牛连续过分隔门同样会造成奶牛产生很大应激，加之工人交接班，赶牛的速度比较快，奶牛没有以正常的步态经过分隔门，导致此次试验失败。

因此，此处仅以欧洲进行的BCS 摄像头一致性试验的数据做参考，结果见图9。该试验选取了1头奶牛连续且自然地通过分隔门17次，得出1 个平缓的分布，且评分之间的差异在0.25分以内。该结果很好地印证了BCS 摄像头评分的稳定性和一致性。

表1 BCS 摄像头与人工评分的Pearson系数占比情况

表2 人工之间评分的Pearson系数

5 小结

本次试验为首次在中国牧场进行的全自动体况评分系统与人工体况评分的对比试验。

首先，可以肯定的是，人工评分的主观因素会导致评分差异性较大，如试验数据揭示了多人评分相关性不高，单人重复评分的一致性也有较大差异。从这两方面来看，BCS 自动评分系统在可靠性和一致性方面的表现优于人工评分，在为同一群牛进行评分时，BCS 自动评分系统得出的数据更能反映奶牛的实际膘情。同时，BCS 自动评分系统相比人工奶牛评分的数据更稳定。

其次，在BCS自动评分系统与人工评分的相关性分析中，可以发现BCS自动评分系统与人工评分的平均值有很强的相关性，其r值为0.85；在Kappa系数中，0.81～1.00几乎完全一致性，结果说明，BCS 自动评分系统与人工评分有极强的相关性，可以很好地替代人工。

最后，BCS自动评分系统测评1 头牛耗时2～3 s，在奶牛经过分隔门时自动实现体况评分数据的获取，对奶牛造成的应激反应小。评分数据可直接上传至帝波罗系统，不会存在数据传输错误，同时能保证数据的及时性。BCS自动评分系统既能覆盖所有待评分牛只，也能跟踪单头牛的体况变化趋势。通过帝波罗软件生成的报告和及时提醒，可以为牧场的营养、繁殖、健康、淘汰等决策做出有效参考。