茶叶质量安全分析预警系统研究
2020-04-10林淼郭旭东周雪晖江树勋李耀平黄晗黄孟娟
林淼 ,郭旭东 ,周雪晖 ,江树勋 ,李耀平 ,黄晗 ,黄孟娟
(1.福州海关技术中心,福建福州 350003;2.福州宏泰仁顺信息科技有限公司,福建福州 350002)
近10年来我国茶叶出口量一直徘徊在30~35万吨,2019年出口茶叶量虽然达到36.7万吨的历史新高,但仅占全球茶叶出口量约20%,与我国茶叶生产、消费第一大国的地位不相称。农药残留是影响茶叶质量安全的最主要因素,因其主要应用于茶叶种植、栽培过程中的病虫害防治,伴随茶叶整个生长周期,控制难度较大。据统计,欧盟食品和饲料快速通报系统(RASFF)在2015~2019五年间通报我国出口茶叶77次,其中因农药残留超过欧盟法规规定的最大限量70次,占90.9%[1]。
茶叶农药残留检测是加强茶叶种植加工基地用药控制,保证茶叶质量安全最常用的手段。然而,农残检测一般只按项目出具检测结果,而茶叶中各种农药残留的最大合格限量要求分布于各个国家(地区)不同的法规、标准中,茶叶从业人员和质量安全监管人员要全面、准确地了解掌握,并对每项检测数据做出正确的符合性判定存在一定困难;另一方面,这些检测数据只是针对单个样品的检测结果,无法反映一定区域范围、时间间隔内,某种茶叶产品的整体质量安全情况,难以针对性地采取有效防控措施,对防控措施的实施效果也难以做出科学的评估。建立茶叶种植加工基地质量安全分析预警系统 (Quality and Safety Analysis and Early Warning System,以下简称QSAS系统),对茶叶农残检测结果自动做出符合性判定,在看似离散孤立的检测数据间建立科学逻辑的关联,运用信息化、大数据和统计技术,对海量检测数据按一定规则清洗、加工、整合、统计、分析,客观全面反映茶叶整体质量安全状况并作出趋势分析和预警,指导企业有针对性地开展种植环境治理和科学用药,从源头上保证茶叶质量安全。
1 我国和主要发达国家茶叶农药残留限量标准
为避免茶叶中的农药残留对消费者的安全健康造成危害,我国和世界主要发达国家都制定了茶叶中农药最大残留限量 (Maximum Residue Limits,MRLs)。只有农药残留量低于MRLs的茶叶方才符合入市要求。
新发布的《食品安全国家标准 食品中农药最大残留限量》(GB 2763—2019)中规定了茶叶中65种农药的最大残留限量(MRLs)。国际食品法典委员会 (CAC)标准规定了茶叶中22种农药的MRLs值,其中有19种在GB 2763—2019中对茶叶有MRLs规定;欧盟规定了茶叶中480种农药的MRLs值,其中有54种在GB 2763—2019中对茶叶有MRLs规定,对于未制定最大残留限量的农业化学品,欧盟一律执行检出量不得超过0.01 mg/kg的统一限量标准;日本实施的《食品中残留农药肯定列表制度》(Positive List System,简称“肯定列表制度”)规定了茶叶中276种农药的MRLs值,其中有52种在 GB 2763—2019对茶叶有MRLs规定,对于未制定最大残留限量的农业化学品,日本执行 “一律标准”即含量不得超过0.01 mg/kg[2-4]。中国国家标准规定的65种茶叶中农药最大残留限量(MRLs)与主要发达国家标准规定对比见表1。
2 茶叶种植加工基地质量安全分析预警系统的实现
2.1 系统设计目标和整体架构
茶叶送实验室检测后形成的各种数据,均以相应格式的文件保存在实验室信息化管理系统(Laboratory Information Management System, 以下简称LIMS系统)中。QSAS系统采集LIMS系统中基地产品相关检测数据,经清洗加工整合和统计分析,按客户需求的方式(如表格、图形、图表等)呈现,主要包括委托业务统计分析,不合格情况统计分析,检出情况统计分析,以及质量安全趋势和预警分析等。
基于检测大数据的茶叶种植加工基地QSAS系统由数据库设计、数据采集、数据清洗、数据加工整合、统计分析、结果展示等部分构成。
2.2 基础数据库设计
为了将LIMS系统中反映单个样品、项目检测结果数据联系起来,反映出企业在一个时间段内某类产品的整体质量安全情况,QSAS系统首先应根据统计分析和展示需求,按设定规则建立茶叶品种分类数据库,茶叶种植加工基地企业分级数据库和检测项目-方法-判定标准数据库等基础数据库,并以此为基础,设计开发相关质量安全分析预警功能。
2.2.1 茶叶品种分类数据库
一般将茶叶分为白茶、绿茶、青茶(乌龙茶)、黄茶、红茶、黑茶(普洱茶)、花茶、其他茶等。为实现相关数据按产品品种分类存储和展示,须对数据库进行分级数据结构管理,QSAS系统使用产品品种分类ID和父产品品种分类ID两个字段做关联以实现无限级管理的设计规范。为了平台的可拓展性和兼容性须考虑整合第三方系统的产品品种分类数据需求,产品品种分类表以无序且唯一的GUID作为主键,还增设产品品种类别编码字段来进行归类划分。
表1 我国国家标准规定的65种茶叶中农药最大残留限量(MRLs)与主要发达国家(地区)标准规定对比表Table 1 Comparison table of the maximum residue limits (MRLs)of 65 kinds of pesticides in tea specified by Chinese national standards and standards stipulated by major developed countries(regions)
注:“-”表示该标准未规定此项指标。 Note:Requirement are not specified.
2.2.2 基地企业分级数据库
QSAS系统对基地集团及下属企业采用多层级结构数据管理,树形结构展示,上一层级企业能够统计和分析本级和所属下级企业的送检信息。系统使用企业ID和父企业ID两个字段做关联以实现无限级管理的设计规范,同时增设一个行业类别字段来设置企业所属行业。为了平台的可拓展性和兼容性须考虑整合第三方系统的基地企业数据需求,基地企业表以无序且唯一的GUID作为主键,增设基地企业编码字段来进行区分。
2.2.3 检测项目-方法-判定标准数据库
在各检测机构(实验室)的LIMS系统中,对于送检的茶叶产品,检测项目、检测方法和检测数据都有各自的分类规则、数据结构和ID编制规则,要对检测结果的符合性作出判定,就必须将产品、检测项目、检测方法与QSAS系统判定标准数据库中最大 (合格)限量进行关联及检测数据的对接,通过对LIMS系统相关数据的同步和比对实现对送检产品、检测项目的结果判定。
在LIMS系统中,通常一个检测项目对应多个检测方法,不同产品使用同一检测方法时又存在多个判定标准,而且还有中国国家标准、CAC标准、欧盟标准、日本标准或其他指定标准等不同国家(地区)判定标准类型之分。为了将这种多对多的复杂关系梳理清楚,并快速作出正确的判定,可以将判定标准作为中间表关联产品类别和检测项目,判定时首先在前端人工选择判定标准类型,而LIMS系统中的检测结果一般都明确对应产品、项目的检测方法,这样就既能作出直观便捷、快速准确的判定,又降低了数据库维护的工作量。
由于欧盟、日本等发达国家和地区对未制定最大残留限量的农业化学品执行统一限量标准,因此在判定标准数据库中,对于这些国家和地区未制定最大残留限量的检测项目,一律按“统一限量”设定最大残留限量。
2.3 数据处理统计分析的实现路径
QSAS系统通过与检测机构(实验室)的LIMS系统关联对接同步获取相关数据,由于各检测机构 (实验室)LIMS系统中的数据结构和格式不统一,且LIMS系统涉及的功能模块多、数据量大,信息实时更新,存在大量“脏数据”(无效数据、残缺数据、错误数据、重复数据)需要清洗加工整合,必须在LIMS系统与QSAS系统间建立数据中间池和分析数据库。将需要处理、分析的数据信息经过清洗加工后,通过Kettle工具转换形成QSAS系统所需要的数据集,存放在数据中间池的分析数据库中,再根据需要进行统计分析。图1给出了QSAS系统对从LIMS系统采集的数据处理统计分析实现路径的示意图。
图1 QSAS系统数据处理统计分析实现路径Fig.1 Implementation path of QSAS system data processing and statistical analysis
2.4 数据清洗
对通过数据接口从LIMS系统中采集的相关数据进行审查、甄别和校验,识别出“脏数据”,特别是当问题数据非随机出现且变量之间明显相关时,避免无效值、缺失值、格式异常值、重复值影响统计分析结果的准确可靠性。
2.4.1 无效(错误)数据的剔除
异常值又称“离群点”,常用处理方法有简单统计分析、3σ原则处理等,如检测结果值超过阈值或合理范围,则视为无效(错误)数据,不作为分析源数据加以剔除。简单统计分析法对数据进行描述性统计筛选,如果变量的取值超过了合理的范围,则视为异常值。根据3σ原则,对于服从正态分布的一组数据,距离平均值大于3σ的值出现的概率为P(|X-μ|>3σ)≤ 0.003,即与平均值的偏差超过3倍标准差的值属于小概率事件,可视为异常值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述,超出此范围的数据为异常值。
2.4.2 缺失数据筛查填充
某些缺失值可以从本数据源或其它数据源推导出来,在检测数据清洗前先确定送检企业、样品类别、检测项目、检测结果、判定标准(最大限量)等核心数据,在数据整理过程中当发现一些送检企业数据缺失、层级关系缺失、样品类别缺失,判定标准缺失等情况时,系统可以以历史累计数据为基础,自动筛查、填充这些缺失数据。
2.4.3 格式表述清洗
QSAS系统具有较强的开放性,当不同客户的LIMS系统通过数据接口进行数据同步时,从多数据源集成的数据可能有语义冲突,不同专业和检测项目的结果表述也存在较大差异,例如有的检测结果值采用科学计数法表示,对于符合标准要求的结果,就有“Y”“P”“阴性”“符合”“合格”“未检出”“≤最高限量”“≥最低限量”等多种表述方式,应通过定义数据格式对上述不一致性加以约束,也可通过数据分析找到不同表述格式间的联系并转换为满足统计分析要求的数据格式。
2.4.4 逻辑错误清洗
LIMS系统中的业务数据,存在许多名称和表述各异而实质内容相同的情况,例如名称为“Pb”,“Pb计”“铅”等检测项目实际上指同一项目,这类数据就需要甄别后合并统计;又如,茶叶样品必须且只能归为白茶、绿茶、青茶(乌龙茶)、黄茶、红茶、黑茶(普洱茶)、花茶或其他茶等8种中的一种,方可实现QSAS系统的统计分析,对于将样品品种归为“茶叶”“茶饮料”或其他不规范归类的就必须识别出来重新归类;再如,对于树状层级企业结构,种植加工企业的相关数据信息必须与底层企业相关联,上层企业应关联其所涵盖下层企业的汇总数据,这些都需要经系统识别校验后适当归类合并。
2.4.5 非需求数据清洗
(1)剔除本次分析无关的业务数据信息,筛选出指定基地种植加工企业茶叶相关数据信息。
(2)清除不需要的字段信息,如送检企业的联系人、电话、地址;检测人、审核人、检测时间等与统计分析预警无关的信息,以提高系统数据的处理效率。
(3)剔除无法或无需进行符合性判定和风险预警的检测数据,如检测项目为非农药残留项目,如茶叶品质、营养成分等。
2.5 数据加工整合
经清洗后的“清洁”数据,QSAS系统根据统计分析和展示需求,运用Kettle工具转换整合成基础数据集,存储在数据中间池的分析数据库中,然后通过数据建模整理出需要统计分析的关键要素,实时提取包括茶叶类别、样品名称、检测项目及检测结果、检出限、最大限量等关键信息,进一步综合样品送检时间、送检企业信息等参数整合出统计分析和风险预警所需要的SQL数据集。再通过FineReport报表工具进行分析报表的设计、部署、统计、分析和展示。
2.6 数据统计与分析
2.6.1 数据分析模型
风险分析模型是将检测结果值与检测方法规定的检出限和判定标准规定的最大合格限量进行比对,对检出限以上的检测结果,划分出“>合格限量”(不合格),“>80%合格限量,且≤合格限量”,“>50%合格限量,且≤80%合格限量”和“≤50%合格限量”4个区间,根据项目的不合格率、检出率和检测值的区间分布来评估该检测项目的质量安全状况并进行风险预警。
2.6.2 数据处理工具
利用第三方报表工具FineReport进行分析报表的设计、部署和统计分析。FineReport工具主要由报表设计器(设计报表)和报表服务器(解析报表)两大部分组成(见图2),使用报表设计器进行数据集准备及报表格式制作,即将统计分析相关的所有数据进行整理、归类成所需的数据集,并通过SQL语句从数据中间池的分析数据库中提取出来;使用报表解析工具将数据统计分析结果部署生成可供WEB浏览的展示界面。
图2 报表工具数据处理示意图Fig.2 Data processing diagram of report tool
数据集包括服务器数据集和模板数据集。服务器数据集在服务器>服务器数据集处定义,是适用于整个服务器上所有报表的公用数据集,可统一维护,在服务器>定义数据连接中定义需要连接的数据库,就可以用自定义查询语句查询出需要的数据集,按需求统计分析并制作报表。当服务器数据集发生变动,系统所有涉及到该项的集合都发生变动,且与之保持数据一致。模板数据集只适用于单张报表模板,仅供当前报表调用,单独创建、独立管理。
报表主体是FineReport设计模板的主体界面,是一个类似Excel的表格,支持无限行与无限列,基本的操作方法与Excel类似。
2.7 结果展示
运用FineReport工具,可通过形象直观的图表进行统计分析、预警分析结果展示。
查询条件设计为多类型的树状结构。其中种植加工基地企业分为企业集团、下属二级公司、种植加工企业、种植基地四级;送检样品分为茶叶和主要茶叶品种两级;判定标准类型分为中国国家标准、CAC标准、欧盟标准、日本标准或其他指定标准等,通过筛选送检企业、样品品种、标准类型等条件锁定检索和统计分析范围。
2.7.1 业务和检测费统计
选择送检企业(可单选、多选)、送检起止时间、样品类别(可单选、多选)进行统计查询,生成各送检企业委托业务(送检批次、检测费用)统计柱状图、变化趋势图,各类茶叶送检量、各企业送检量占比饼图(图3),并输出各企业送检情况详情列表。包括报验编号、送检企业、送检时间、送检样品、送检量和检测费用等。
2.7.2 检出情况和不合格情况统计分析
可选定时间段分别统计各送检企业、各类产品所有送检项目的检出率;依据指定标准(中国国家标准、CAC标准、欧盟标准、日本标准或其他指定标准)判定的项目不合格率、批次不合格率。生成各企业送检项目统计柱状图,各项目检出率和不合格率折线图,送检量(批)柱状图和批次不合格率折线图(图4)。输出各送检企业检出情况和不合格情况详情列表,包括报验编号、送检企业、产品类别、名称、检出(不合格)项目、检出限、最大限量、实测值等。
2.7.3 趋势和预警分析
可选定时间段分别统计各送检企业、各类茶叶样品中各项目的检出值超过指定标准 (中国国家标准、CAC标准、欧盟标准、日本标准或其他指定标准)规定最大限量及其80%、50%的检出情况预警图(图 5)。
2.8 安全性和保密性
数据库的安全性是本系统安全性和保密性的关键,主要防范对象是非法入侵和非法操作。QSAS系统从以下几个方面严格定义:
2.8.1 物理安全
通过提高物理介质的安全级别保证信息 (数据)在存储和传输中的安全、可靠和完整性。如采用双服务器冷备份方式储存和管理数据,可能条件下采用双机容错系统,确保在出现故障时及时进行系统恢复。
2.8.2 防止非法入侵
一般采用防火墙等安全隔离措施,尽量避免非法入侵。同时高度重视入网计算机病毒的防范和清除。
2.8.3 数据备份
采用自动定时备份,必要时也可由系统管理员手工备份,并在系统投入使用时设置妥当。经常性的数据备份工作可以大大降低由于系统故障、病毒或其它原因造成的数据损坏。
2.8.4 严格限制数据库访问权限
将数据库的访问权限分为查询、操作及系统维护三类用户,各类用户各司其职,互相独立,以减小不必要的人为操作对数据的影响。系统提供和交换平台中用户认证层的接口连接,以保证用户的身份安全和访问安全。
3 小结
文章针对茶叶产品质量安全管理工作中 “为检测而检测”,“重样品检测轻结果分析”,检测数据离散孤立,提供的质量安全信息碎片化等问题,梳理对比了我国和主要发达国家茶叶农药残留限量标准的要求和主要差异,研究建立茶叶种植加工基地质量安全分析预警系统(QSAS系统),通过建立茶叶品种分类数据库,茶叶种植加工基地企业分级数据库和检测项目-方法-判定标准数据库和数据中间池,实现QSAS系统与各实验室LIMS系统的对接和数据采集,清洗加工,在数据中间池中整合形成符合分析和展示要求的数据集,进而运用FineReport工具进行合格判定,统计分析和结果展示,及时、客观、全面反映茶叶种植加工基地产品质量安全状况。
图3 业务和检测费统计报表Fig.3 Statistical report of business and testing expenses
图4 检出情况统计分析报表Fig.4 Statistical analysis report of checked out situation
图5 趋势和预警分析报表Fig.5 Trend and early warning analysis report