APP下载

大数据挖掘技术在进出口食品农产品安全风险预警中的应用研究

2014-09-21高志国

关键词:数据仓库数据挖掘检疫

□朱 佳 张 萍 高志国

大数据挖掘技术在进出口食品农产品安全风险预警中的应用研究

□朱 佳1张 萍1高志国2

出入境检验检疫机构是进出口食品农产品安全风险的主管部门,其下属检测机构每年检测大量样本,产生大量的检测数据,并定期公布风险预警信息。利用数据挖掘技术,对海量的检测结果数据进行挖掘分析,在国内尚无先例。在进出口食品农产品安全风险预警中应用数据挖掘技术,比传统的数理统计有明显的优势,其挖掘结果及趋势分析对于辅助政府对进出口食品农产品安全的管理与决策,是具有实际意义的。

数据挖掘;进出口;食品农产品;风险预警

进出口食品农产品的安全检测的大数据时代已经到来。在我国,出入境检验检疫机构对进出口食品农产品的安全性负有管理职责。国内各级出入检验检疫机构都有自己食品检测实验室,每天受理各出口单位的大量检测申请,多年来积累了数量巨大的食品检测信息,已经构成了规模相当的出口食品农产品检测结果信息库,样品检测的大数据时代已经到来。单份样品的检测报告中能够反映出口食品的某一项或几项,但形成大数据以后,我们可以挖掘出丰富的、深层次的出口食品农产品安全信息。在大数据中挖掘出这些信息,并有效利用,为改革检验检疫监管模式提供决策依据,是有效面对国外技术性贸易壁垒的解决手段,也是出入境食品安全风险预警急需解决的重大问题。对政府部门和监管机构来说,利用大数据挖掘技术寻找进出口食品安全的发展趋势和预警信息,发现食品农产品的生产、加工、储运各环节存在的问题,引导进出口企业趋利避害,具有非常重要的实际意义。

出口食品农产品安全风险分析预警是目前控制食品安全性的较为先进有效的手段,也属于检验检疫机构行政执法职能的范围。目前,国内的食品农产品风险预警手段仅限于典型案例通报和简单的数理统计两类方式,尚无有效的手段对大量的食品农产品检测数据进行深度分析利用。在处理大量的检测数据时,大数据挖掘技术较以往的数理统计分析方法更适于对食品安全检测数据中多因素的分析,可以发现其中有价值的知识、规则,为决策提供依据,是一种高效的分析手段。但是,目前无论是在出入境检验检疫部门还是在食品安全监管部门,尚没有成熟的数据挖掘技术应用案例应用。在国内外食品农产品企业的安全风险预警中,数据挖掘技术实际应用仍是空白。本文就大数据时代,数据挖掘技术在出入境食品农产品安全风险预警中的应用进行了研究,主要内容如下:

一、大数据挖掘技术研究原理及目标

大数据,顾名思义就是海量数据。从中分析、提取出数据之间的规律性发展趋势,发现离散数据之间的联系,排除垃圾数据的干扰,形成有用的知识,就是数据挖掘,也有观点认为这是联机分析处理(OLAP)的高级阶段[1]。数据挖掘工具可以利用已有的分析工具在海量信息中分析数据间的关系,建立有效的分析模型,这些模型和关系可以用来做趋势分析。简单的说,就是从海量的、信息不完整的、有噪声的、无规律的实际应用数据中,寻找潜在有用的信息和知识的过程。

面对海量进出口食品农产品检测结果信息,出入境检验检疫希望能够通过整合全国各地检测机构的检测结果,建立食品监测信息的数据仓库,结合统计分析与数据挖掘,实现对食品安全整体状态的实时监测与预警,科学有效的评价食品安全状况,准确预测食品安全的发展趋势,为监管机构提供科学的决策依据。例如,利用大数据挖掘,可以发现某种农药在全国某类食品的地域、季节分布规律信息,并根据时间变化计算出发展趋势。具体原理可用流程如图1来表示。

二、大数据挖掘技术的实施步骤

1.选择合适的数据挖掘系统工具。目前数据挖掘系统比较成熟的有IBM公司的Intelligent Miner、SAS的公司Enterprise Miner、SGI的MineSet、ISL公司的Clementine、DBMiner Technology公司开发的DBMiner等等。上述系统在数据挖掘算法和功能上各有特点,一般的数据挖掘系统往往针对某一行业或现有应用需求开发,擅长某一特殊的数据挖掘算法,或只有一种数据挖掘算法。也有的数据挖掘系统具备多个数据挖掘功能。这里针对食品监测数据的数据分析统计及预测的功能要求,选择使用SAS的公司Enterprise Miner,它的突出特点是具有统计分析工具丰富,这与SAS公司在统计分析市场多年的项目经验密不可分,同时系统具备强大的图形工具。

图1 进出口食品农产品实验室检测数据数据挖掘原理

2.建立数据仓库,清洗基础数据。数据仓库中的数据即是对原有数据库系统中的数据进行集成和重组而形成的数据集合,是面向决策分析的数据库。[2]在数据仓库所要解决的问题确定后,选择合适的软件平台,包括数据库、建模工具、分析工具等,先后建立数据仓库的逻辑模型、数据模型。最后合并不同的数据表,对已有的数据进行清洗、转换和传输。

进出口食品检测实验室近几年积累的检测数据,格式多样,表结构不统一,有execl、access、MS sql sever等多种形式的数据。利用Enterprise Miner的数据导入整理功能,按照出入境检验检疫系统的统计分类方法将食品进行分类,积累不同食品中各类危害物的残留量限量规定,物理、化学、生物学特性、法律法规等信息,对出入境检验检疫系统内检测数据系统内涉及的危害物清单进行分类和范围确定,危害物清单包括农、兽药残留情况、病原微生物、食品添加剂、生物毒素、有害元素、工业污染物、禁用类物质等,初步分级分类以后,根据食品安全检测数据和信息的特点进行数据筛选、清洗等处理工作,例如将诸如“未检出”、“ND”等描述性数据转换为数值型数据,以保证基础数据的规范性,以便那能够更加方便高效地建立数据仓库,同时保证数据仓库的质量。主要步骤如图2(自己画)。

图2 数据清洗流程

3.利用关联、聚类算法和工具建立数据分析模型,按照分析需求进行数据挖掘。食品农产品安全检测得到的大量的数据中,隐含着许多潜在有用的信息。出入境检验检疫部门希望通过大数据挖掘,提取决策、预警、趋势分析所需要的信息,发现食品农产品的不合格项目在时间,空间上的分布规律,预测发展趋势。[3]例如,植物监管部门可以通过数据挖掘,分析全国出口保鲜洋葱使用农药的地域分布情况,农产超标突出的地区,或者近几年以来全国出口保鲜洋葱使用农药的种类、数量变化情况。如果某一地区的某种农药使用含量持续走高,阳性结果逐年增多,则可以提出出口保鲜洋葱的预警信息。

具体实施起来首先是食品名称、种类、生产企业、地区、检测项目、检测结果、时间、不合格项目、的多维分析。本文中涉及的主要方法是使用SAS的工具进行关联规则挖掘,建立数据模型。以便发现大量检测数据中项集之间的关联或相关联系。所谓关联规则,就是指检测信息之间的相互依赖关系,而利用发现规则可以从数据仓库中发现确信度(Conk—dente)和支持度(Support) 都在提前设定的阀值之上的强壮规则。[4]简单说来就是利用SAS的系统根据数据分析的需要,构造一种复杂但是有用的数据结构——数据立方体,使用关联规则挖掘,对检测项目、频次、抽检的有效性进行分析,发现食品农产品抽检的有效性,分析阳性结果的地区分布特点、时间分布规律等。其次是趋势分析及预警,根据发现的分布特点、时空分布规律,利用发现规则,对安全风险因素进行趋势分析,超过预定值的趋势预测可以作为预警信息。

三、应用案例

基于山东出入境检验检疫系统青岛、济南、烟台、潍坊等地的几大技术中心及其附属的几十个食品农产品实验室在2006-2011年间积累的数据,我们利用大数据挖掘技术,使用SAS的Enterprise Miner建立了检测信息的数据仓库,并对检验检疫业务部门的需求进行分析,建立了关联分析和发现分析模型,进行数据挖掘结果。为了更直观的显示挖掘结果,我们建立了基于web的检测结果分析预警系统,能够直观地输入分析项目,显示挖掘结果,对进出口食品农产品业务有一个风险预警的功能,根据项目的分类,对检测批次、检出批次、检出率及检出同比增幅的一个信息的汇总,同时进行趋势分析。例如利用2006-2012年度的的数据挖掘结果,对出口花生检测结果的趋势分析(见图3)。比较直观的看到了山东出口花生存在的问题是黄曲霉素超标和毒死蜱超标的问题,数据来源于全省多个实验室、花生制品厂家及国外的的通报。有了这一结果,在指导检验检疫局的具体工作上就有了目的性,对花生种植和产品加工过程质量控制有了指导意义。

图3 山东出口花生安全风险趋势图

与以往的数理统计和典型案例的分析方法相比,该项目更适于对出入境食品农产品安全检测数据中多因素的分析,可以发现其中隐含的关联规则,有价值的知识、规则,新的风险信息或高层次的信息就能从数据库的相关数据集合中抽取出来,为决策提供依据。数据挖掘技术在进出口食品农产品安全风险预警中的应用,有助于解决如何建立食品安全风险预警分析的直观平台,如何着力解决如何科学抽检,如何确定各类危害物预警等级,如何合理确定抽检食品的检测项目等监管工作中亟待解决的问题,最终服务与食品安全管理与决策。

[1] J. Han,M. Kamber数据挖掘:概念与技术[M].机械工业出版社,2012:10-11.

[2]王珊,萨师煊数据库系统概论[M].高等教育出版社,2011:408-411.

[3] 钱敏,陈海光,白卫东,赵文红,黄桂颖.食品安全问题背后的思考——构建食品安全预警体系和食品安全追溯体系[A].广东省食品学会第六次会员大会暨学术研讨会论文集[C];2012.

[4] 陆昌华,黄胜海,吴孜忞,胡肄农,白云峰,白红武.动物卫生风险管理机制构建及管理资源合理配置的初探[A];中国畜牧兽医学会兽医公共卫生学分会第二次学术研讨会论文集[C];2010.

[5] 董春兰.数据仓库在ITS中的应用[A];2007第三届中国智能交通年会论文集[C],2007.

2014-03-20

1.山东商业职业技术学院,山东 济南,250103;2.济南出入境检验检疫局,山东 济南,250014

朱 佳(1978- ),女,硕士研究生,从事数据库教学及研究工作;张 萍(1983- ),女,硕士研究生,从事数据库教学及研究工作;高志国(1979- ),男,硕士研究生,专业方向为计算机技术,近年来从事出入境检验检疫综合管理及统计分析工作。

F323.7

A

1008-8091(2014)03-0099-04

猜你喜欢

数据仓库数据挖掘检疫
英国检疫隔离立法源流及启示
探讨人工智能与数据挖掘发展趋势
《检验检疫学刊》简介
检验检疫学刊
基于数据仓库的住房城乡建设信息系统整合研究
《检验检疫学刊》简介
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用