APP下载

利用python分析无害化处置工作数据

2019-07-06刘巍申四川省彭州市动物卫生监督所

中国畜牧业 2019年11期
关键词:无害化数据挖掘畜禽

文│刘巍申(四川省彭州市动物卫生监督所)

自2015年起,四川省彭州市全面实施了养殖、屠宰环节病害畜禽集中无害化处置工作,养殖场、屠宰场病害畜禽尸体不再由业主自行无害化处置,而是按规定转运至指定地点由专业机构进行集中无害化处置。3年多来,无害化处置工作开展卓有成效,对减少动物疫病传播风险、确保畜牧业健康发展发挥了重要作用,但是,业务工作产生的数据量大、维度多,采用传统图表可视化分析手法已力有不逮,无法达到较精准定位目标群体,并无法达到针对性开展防控的目标。

对此,彭州市卫生监督所积极学习借鉴数据挖掘技术在其他行业的有效应用,积极探索数据挖掘技术和畜牧兽医业务工作的有效结合途径,将现代商业中的“客户价值分析”理念引入到动物卫生监督工作中,对该市近3年来积累的6000余条工作数据,利用时下广泛应用于工商业的python语言对数据进行了“聚类”分析。根据“死亡发生数、发生频次、死亡发生率、首次死亡时间、末次死亡时间”重点字段特征,采用K-Means聚类算法分析,将全部数据聚为5类,有效甄别不同特征类别,从而为后续防疫工作开展提供支撑。

一、需求分析

动物防疫工作质量高低,很大程度上取决于数据及数据分析。与工业、商业、服务业类似的,动物防疫工作同样存在“数据驱动”,比如免疫抗体合格率、畜禽发病率、死亡率、病死率、发生频次等,过往工作质量与后续工作愿景均需通过数据表达和驱动。那么,针对养殖环节病害畜无害化处置工作,收集、整理、分析相关数据就显得尤为重要。以生猪无害化处置为例,工作数据关系到生猪死亡率,包含着大量动物疫病发生、传播和流行的信息,相比畜禽群体抗体免疫合格率分析更具指导意义。因此,挖掘发现数据背后隐含的信息,关系到过往工作成果检验与后续工作思路拟定,影响深远。

数据挖掘手法多样,如分类、聚类、预测、关联规则。对生猪无害化处置数据而言,从动物卫生监督工作角度出发,类比商业中的“客户价值分析”理念,从全部数据中甄别一定时间窗口内表现出不同发生数量、频次、时序特征的养殖场群体、进而调查分析其生猪是否存在异常死亡及原因,以针对性开展整改,促使其提高生物安全水平、降低发病死亡率,提升经济效益,确保公共卫生安全。

二、资料来源与方法

1.资料来源。根据四川省成都市畜牧兽医主管部门安排部署,自2015年彭州市实施病害畜禽集中无害化处置工作制度以来,对养殖、屠宰环节病害畜禽按国家规定进行无害化处置,历年来积累了6000余条工作数据。根据本次分析工作需求,首先挑选出“场名、无害化处置头数、无害化处置发生时间、生猪存栏量、死亡率”字段,形成本次数据挖掘的源数据。整理发现,源数据存在少量“异常值、缺失值、错别字”,影响到后续分析工作。因此,对源数据进行“数据清洗”,包括修正异常值、填补缺失值,更正错别字等。重点是补充完善源数据中少量遗漏的“生猪存栏量”字段信息。方法是通过查找最接近时间段内该场户存栏量,估算遗漏的存栏量信息。对于多次事件中均空缺存栏量的,直接通过电话询问填补。然后,将源数据通过Microsoft Excel“数据透视表”功能,形成以“场名”为主键、以“无害化处置头数汇总、无害化处置频次汇总、首次无害化处置距今月数、末次无害化处置距今月数、死亡率标准差”为字段的工作数据表。工作数据表即为本次数据挖掘资料来源。

2.分析方法。首先进行“数据变换”。整理发现,上述各字段数值数量级差异较大。因此,通过python语言中的panda库“标准差标准化”功能将数据标准化至-1到1之间,便于算法分析,减少数值数量级差异对分析工作的不利影响。然后进行“导入模型分析”,通过python语言的sklearn.cluster库,利用K-Means聚类算法进行分析。针对6000余条小规模数据,选择聚类类别数为5。运行算法,将全部养殖场数据聚为5类,即为本次分析结果。

三、结果与分析

结果显示,全部数据按病害生猪发生时间先后,发生量(率)高低等维度特征,聚为5类,5类数据分别对应了不同维度特征的养殖场户。

重点表现为5类群体主要特征:第一,“死亡量低、发生时间距今较长”、占比25%;第二,“频繁、大量死亡、死亡量波动大、发生时间距今很近”,占比3%;第三,“较频繁死亡、死亡量较高”,占比3%;第四,“死亡间隔期长、死亡量低”,占比31%;第五,“死亡量较低、但波动大”,占比38%。

不难发现,针对上述第二、三类特征群体,应加大工作力度,通过开会约谈、现场调查、流行病学调查、病原学监测等措施,有针对性开展防疫工作。

四、讨论与展望

数据的获得是有一定成本的,数据分析工作质量高低首先取决于数据质量。相较于问卷调查所获得的数据,兽医主管部门投入财政资金统一进行的病害畜禽集中无害化处置所获得的数据质量更高,成本也相应提高。因此,更应有效利用工作数据,切实发挥信息支撑作用。

绘制事件-时序趋势图、计算平均值等手段对6000余条无害化处置数据进行分析,往往难以将大量、频繁生猪死亡的重点关注养殖场对象和其他养殖场甄别出来。无差别、全面覆盖的防疫工作策略无法达到“精准定位、有效甄别”的目标。因此,应通过数据挖掘技术,对不同特征的养殖场户分类治理,对于频繁、大量发生生猪病害现象的养殖场户,重点关注、积极治理,从而达到降低养殖环节生猪死亡率、节约财政补助资金、深度发挥财政资金实效的目标。

数据挖掘技术还可应用于兽药经营企业GSP监管、畜禽群体免疫抗体监测等防疫工作。比如,收集整理辖区内全部兽药经营企业GSP规范经营数据,通过“关联规则”分析技术,挖掘分析全部兽医处方笺,探索兽用处方药之间联合使用或相互排斥的现象,分析兽医处方笺背后隐含着的动物疫病发生、传播、流行信息,对动物疫情预警分析将是极大的助力。

总之,将数据挖掘等工商业上广泛应用的分析技术导入畜牧兽医监管工作,帮助发掘多年来累积工作数据背后的信息,精确指导动物疫病监测、检测、流行病学调查工作的开展,具有积极的现实意义。

猜你喜欢

无害化数据挖掘畜禽
湖北出台磷石膏无害化处理技术规程
改进支持向量机在特征数据挖掘中的智能应用
畜禽夏季喂野菜 防病快长真不赖
菌株出马让畜禽污染物变废为宝
夏季养畜禽 驱蚊有妙招
上海祥欣畜禽有限公司
两种高温法无害化处理病死动物灭菌效果比较
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
规模化养殖场粪污无害化处理技术