APP下载

基于食品安全检测的数据仓库模型设计

2015-11-23宋良辉娄新爱郑健琨阿力甫

河南科技 2015年14期
关键词:数据仓库维度实验室

宋良辉 娄新爱 杨 中 郑健琨 阿力甫 高 杰

(1.新疆维吾尔自治区分析测试研究院,新疆 乌鲁木齐 830011;2.贵州大学,贵州 贵阳 550025;3.贵州省分析测试研究院,贵州 贵阳 550002)

食品安全问题与人民生活息息相关,必然成了各国政府密切关注的问题。政府对于开展食品安全监测和预警系统的研究[1],提高食品安全监管效率进行积极的探索。随着实验室信息化管理建设不断深入推进,国内不少第三方检测实验室都积累了大量的食品安全检测数据资源。而其中一些被人忽略的、有价值的重要信息就隐藏在这些海量的检测数据中。如何利用这些检测数据,进而实现数据可视化,使食品行业的相关企业或者监管机构能够根据这些数据做出预测性的判断,都是值得探讨的。数据仓库技术,为进一步挖掘数据资源、有效利用数据资源、协助管理决策奠定了基础。

本文主要以新疆、贵州两地流通环节食品检测实验室的检测数据为分析对象,研究分析数据仓库模型的设计,为构建流通环节食品安全检测数据的挖掘与分析平台做准备。

1 数据仓库的概念

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,用以支持管理决策[2]。因此,数据仓库具有以下几个主要特征:①面向主题的。主题是对数据进行综合归类的抽象概念,是数据仓库用户进行决策分析所关心的方面。②集成的。数据仓库中的数据从企业的数据库中提取出来,然后经过清洗处理。因此数据仓库一般是将多个异种数据源集成在一起的。在数据整合过程中使用数据清洗技术和数据集成技术,确保命名规范、编码结构的一致性等。③时变的。数据仓库中数据有时间维度。数据仓库记录了系统数据各个时间的状态。④非易失的。正因为数据仓库只有数据的初始化装载与数据访问功能,所以它是非易失的。

2 食品安全检测数据的特点

在构建数据仓库时,食品安全检测的数据会存在着数据源众多、数据类型繁杂以及数据格式不规范等特征。因此,可能有以下两种情况存在于这些数据中[3]:第一种是无意义的数据,使得其不具有太高的数据分析价值;第二种是对那些有意义的数据,存在数据零碎化、片面化与数据冗余等情况。数据分析的结果,也必将会因为这些缺失的、不规范的数据产生负面的影响。新疆、贵州两地检测实验室的食品安全检测结果是构建本数据仓库的数据源。由于食品检测项目多,国家标准、地方标准、企业标准都有差异,使得检测结果数值,检测项目,判定依据存在较多不统一的地方。由于食品检测本身的复杂性和原始数据录入的不规范,导致数据源较为杂乱,因此建立一整套针对性的规则对于检测数据清洗是很有必要的[4]。对于新疆、贵州两地的食品安全检测数据来说,需要考虑的影响因素有:食品类型、检测项目、检测标准、分析方法、检测结果等。要实现这些不同层次的挖掘分析都需要对属性进行概念分层。科学的概念分层的意义:一是可以为构建数据仓库提供支持;二是要考虑与限量标准专家知识库有效关联;三是要反过来对生产数据库(实验室管理系统)的基础分类设置提供参考建议。

3 食品检测数据分析模型设计

3.1 需求分析

该实验室有一套比较成熟的实验室管理系统(简称LIMS)。该实验室的现有业务流程如下图:

图1

LIMS是按照业务流程的顺序记录数据。LIMS让实验室检测工作流程化、规范化,提高了实验室的工作效率。但是LIMS中保持的有价值的数据没有被充分挖掘、有效利用。

在接收样品的过程中,收集的数据有样品(指从流通市场中抽取的信息)的基本信息、被检测人(指抽取样品的场所企业/个人)信息以及生产企业(样品生产企业)信息。实验任务制定中确定的商品类别中的检测项目(包括判断标准、检测依据以及技术指标)信息。实验室检测人员检测出的检测结果。

根据对实验室流程的调研以及各部分人员的调查分析得到以下需求:①能够实现对某一类商品的检测数据进行分析。②对某一生产企业的检测数据进行分析。③对某一被检测人的检测数据进行分析。④对某一检测项目的检测数据进行分析。⑤对整体样品检测数据的分析。因此数据仓库设计要从生产企业、检测项目、样品类别、被检测人和时间五个维度分析。时间维度有年和月两个层次,包括样品抽样的时间和样品生产的时间[5]。

3.2 概念模型设计

概念模型的设计包含了两个方面:一是界定系统的边界;二是确定主题域及其内容。概念模型设计主要确定每个决策主题与属性以及主题之间的关系。结合食品的特性,依据实验室具体工作的需求可以容易地得到如下主题:样品、商品类别、生产企业、被监测人、检测项目[6-7]。

3.3 逻辑模型设计

通过对食品安全检测数据主题进行分析,逻辑模型设计主要包括:①模型转换;②粒度层次划分;③关系模式定义和定义记录系统。作为数据仓库设计中的重要环节,逻辑模型直接展示用户的具体需求,同时对数据仓库的物理实施有着重要的指导作用。根据维度设计,该数据仓库的逻辑模型可以设计为以下形式:

食品检测事实表包含了五个维度表,食品检测数据在事实表中维护,维度数据在维度表中维护。每个维度表通过一个关键字直接与事实表关联。

3.4 物理模型设计

通过在数据仓库中实现食品安全检测数据的逻辑模型,成功建立了数据仓库的物理模型,而数据仓库中的维表与事实表对应的索引可以依据前面逻辑模型设计出的各种数据表的存储结构。下图给出了模型中部分逻辑模型与物理模型的对应关系。

4结论

图2

以数据仓库基础的食品安全检测数据分析预警,将作为风险信息中最为基础和关键的一环,也会从侧面加强与完善整个食品安全监管系统,从而保障人民的食品安全,因此数据仓库在食品安全方面的应用也得到了更多的研究与重视。本文所设计的流通环节食品安全检测数据仓库模型就是对这一技术的具体研究。基于食品安全检测数据分析的数据仓库模型的建立,主要服务于食品监管部门以及实验室决策人员。进一步为食品安全预警分析提供了支持。

[1]王海明,郑培,潘海虹.食品安全风险监测预警系统研究[J].中国卫生监督杂志,2010(6):12-15.

[2]李雄飞,杜钦生,吴昊.数据仓库与数据挖掘[M].北京:机械工业出版社,2013.

[3]郭曙超,龚方,昃向君,等.食品安全检测数据仓库技术的应用于研究[J].食品研究与开发,2013,34(17):125-128.

[4]何玉洁,张俊超.数据仓库与OLAP实践教程[M].北京:清华大学出版社,2008.

[5]宋国杰,杨冬青,林子雨,等.实时主动数据仓库的概念、问题及应用[J].计算机研究与发展,2007.

[6]Guo Shuchao,Gong Fang,Ze Xiangjun.Applied Study on Food Test Data Warehouse Technology[J].Food Research and Development,2013,34(17):125-128.

[7]Song Guojie,Yang Dongqing,Lin Ziyu et al.Concept,Issues and Applications of Real Time Active Data Warehouse[J].Journal of Computer Research and Development,2007,44(z3).

猜你喜欢

数据仓库维度实验室
理解“第三次理论飞跃”的三个维度
基于数据仓库的数据倾斜解决方案研究
浅论诗中“史”识的四个维度
基于数据仓库的住房城乡建设信息系统整合研究
电竞实验室
电竞实验室
电竞实验室
电竞实验室
探析电力系统调度中数据仓库技术的应用
光的维度