APP下载

卫生健康委多系统食品分类与编码融合机制研究

2020-03-15谢双肖革新张成梅王娅南张朝正陆洋孙晓红谭红

中国农业科技导报 2020年8期
关键词:食源性编码分类

谢双, 肖革新, 张成梅, 王娅南, 张朝正, 陆洋, 孙晓红, 谭红,7*

(1.贵州医科大学公共卫生学院, 贵阳 550025; 2.国家食品安全风险评估中心, 北京 100020; 3.贵州省分析测试研究院, 贵阳 550014; 4.贵阳市公共卫生救治中心, 贵阳 550004; 5.广东省疾病预防与控制中心, 广州 511430; 6.贵州省轻工业科学研究所, 贵阳 550002; 7.贵州科学院, 贵阳 550001)

食品分类系统是指科学规范食品分类的标准性文件[1],针对特定目的建立的分类形式有所不同[2]。食品编码是在分类的基础上,根据一定规则制定的对应编码[3]。《中华人民共和国食品安全法》第十四条规定:国家建立食品安全风险监测制度,对食源性疾病、食品污染以及食品中的有害因素进行监测[4]。食品分类和编码体系的建设是实现构建食品安全风险监测体系的基本框架和参考标准[5],也是实现监管精细化、高效化的基础。同时,食品分类与编码体系是开展食品研究、食品内外贸易的重要数据基础[3],是食品数据的最终使用工具[6],与数据融合共享以及整理、分析等都有重要关联。

为实施食品安全风险监测计划,国家卫生健康委员会(简称“卫健委”)下属机构国家食品安全风险评估中心开发了全国食品污染物填报系统、食源性疾病暴发监测系统和全国食品微生物风险监测数据汇总信息平台,对各类监测数据进行收集、管理和分析,以提高对食品安全风险的识别、监测、评估及预警。但目前由于食品分类与编码体系间不统一,出现了数据孤岛和数据隔离等问题,使监测数据面临有效性差、利用率低、共享难等尴尬局面[7]。食品安全大数据具有海量、高速变化、噪声、结构复杂等特点[8]。但由于数据不融合的问题,目前我国各系统间存在3大主要问题:食品分类习惯不统一、食品编码不规范、数据共享交换难。食品分类和编码是食品安全大数据和信息化建设的基础性工作,分类与编码的一致性、完整性和易用性将直接影响到上层信息系统的信息交互、信息数据共享与深度分析利用。没有统一的科学分类与编码,现实世界、概念世界与数据世界之间的关系映射会发生紊乱,导致数据统计和分析结果矛盾冲突。

本文以全国食品污染物填报系统、食源性疾病暴发监测系统和全国食品微生物风险监测数据汇总信息平台中的食品分类和编码体系为研究对象,首先通过横向比较,从食品分类层级、依据和编码位数、规则等方面入手研究了体系间的差异,其次参考科学的分类编码方法建立通用标准体系,并以此为基础,建立了食品映射标注系统网络平台,利用本体映射等方法完成食品安全数据的跨库查询、统计,从而解决数据孤岛和数据隔离等问题,为加快推动食品安全数据融合共享、提高数据利用率、减少资源浪费提供切实可行的参考方案。

1 材料与方法

1.1 数据来源

以国家食品安全风险评估中心开发建立的全国食品污染物填报系统、食源性疾病暴发监测系统和全国食品微生物风险监测数据汇总信息平台中的食品分类和编码相关数据为研究对象,分别纳入1 340、500和2 401个具体食品。数据包括“名称”“食品编码”和“路径”。

1.2 研究方法

①比较研究:整理归类食品分类和编码相关数据,横向对比各系统的食品大类构成、设计目标、分类层次及依据、编码位数及规则等;②通用标准体系建立:在借鉴国际和国外食品分类的科学方法和食品安全数据编码经验的基础上,结合我国食品特性,研究建立一套具有中国特色的、兼容、可扩展的食品分类和编码通用标准体系;③数据层融合:基于上述通用标准体系以及食品安全大数据融合技术建立食品映射标注系统网络平台,利用数据层融合、映射方式解决食品分类和编码相关数据融合问题。

1.3 质量控制

“食品编码”需符合各自体系的编码规则,且在同一体系中每个名称对应的编码是唯一、不重复的。

1.4 数据分析

采用Microsoft Excel 2010软件对数据进行整理和核对,统一不规范的食品名称和编码格式,对可疑数据进行筛查,为数据导入食品映射标注系统网络平台做好准备。

2 结果与分析

2.1 三大监测系统中食品大类名称及构成比较

三大监测信息系统中食品大类名称及构成比较结果见表1。全国食品污染物填报系统中有32个食品大类,145个亚类,共包含1 340个结点;全国食品微生物风险监测数据汇总信息平台有26个食品大类,151个亚类,共包含2 401个结点;食源性疾病暴发监测系统中共有植物类、动物类、其他食品产品类、保健食品、不明、混合食品、多种食品和盒饭8个食品大类,25个亚类,500个结点,但由于其中多个大类不存在下一级,以更具可比性的25个亚类作为此系统的大类进行比较。相同大类在不同体系中名称也存在一定差异。

表1 三大监测信息系统食品大类名称比较Table 1 Comparison of the food category of three major surveillance information systems

2.2 三大监测系统设计目标、食品分类和编码规则比较

全国食品污染物填报系统的建立是为实现在线数据审核、查询和动态统计分析,实现我国食品污染物监测数据上报的标准化管理[9];食源性疾病暴发监测系统能提供有关食源性疾病危害程度、发生原因及其变化趋势等基本信息,以便采取相应的预防与控制对策,对指导食品安全政策和食源性疾病防治工作具有十分重要的意义[10];全国食品微生物风险监测数据汇总信息平台为了解和掌握我国食品中食源性致病菌的污染状况,以实现数据上报的规范化和时效性、数据审核的便利性、数据统计的自动化、方便数据的上报和读取,迅速应对和科学决策提供基础条件而建立[11]。

各体系的分类层级不一致。在农产品和初级农产品的分类上依据较相似,均是靠生物学和加工方式等分类;但在具体食品和特殊类别,如包装材料、食品添加剂等分类依据上差别较大。各体系编码位数长短和规则也不统一,一定程度上差异较大,详见表2。

表2 三大监测信息系统分类和编码规则比较Table 2 Comparison of classification and coding rules of three surveillance information systems

2.3 融合三大监测系统的通用标准体系建立

以我国常识食品分类规律为特性,国际食品法典委员会的食品添加剂通用法典标准[12]、食品与动物饲料分类标准[13],国际物品编码协会EAN·UCC[14]、欧盟食品安全局FoodEx2[15]、美国农业部食品与营养日常研究数据库[16]、日本“肯定列表制度”[17]和德国食品法典与营养数据库[18]食品分类系统为参照,以食品加工方式为依据,以我国食品安全国家标准中食品分类附录、市场上主要流通食品商品的食品名称为标准,遵循“唯一性、排他性、穷举性”三大原则,将标准中的食品分为8个层级、24个大类,133个亚类,若干组别,涵盖2 504个具体食品。各大类名称及各类食品数量见图1。为更准确描述带有多种加工方式、分类不能完全覆盖的食品,在通用标准体系中添加了“方面”,利用“分类”+“方面”中属性的方式完成对食品更准确的描述,“方面”的建立参考了欧盟FoodEx2系统[15]的32个“方面”,通过对我国食品安全法和附加属性的考虑,最终添加了20个适用于我国食品的“方面”,详见表3,涵盖280个属性。

注:1—饮料;2—水产动物及其制品;3—蔬菜及其制品;4—豆类及豆类制品;5—糕点;6—水果及其制品;7—淀粉和淀粉制品;8—谷物及其制品(不含烘焙制品);9—畜禽肉及副产品;10—调味品;11—餐饮食品;12—保健食品;13—糖类及产糖植物;14—食用油、油脂及其制品;15—鲜乳及乳制品;16—特殊膳食用食品;17—坚果籽类及其制品;18—其他类食品;19—蛋及蛋制品;20—食用动物;21—膨化食品;22—蜂产品;23—医学用途配方食品;24—食用明胶相关产品。Note: 1—Beverages;2—Aquatic animals and derived products;3—Vegetables and derived products;4—Beans and soy products;5—Pastry products;6—Fruits and derived products;7—Starch and starch products;8—Cereals and derived products(no baking products);9—Poultry meat and by-products;10—Condiments;11—Catering foods;12—Health foods;13—Sugars and sugar-producing plants;14—Edible oil, grease and products;15—Milk and dairy products;16—Special dietary foods;17—Nut and seeds products;18—Other foods;19—Eggs and egg products;20—Edible animal;21—Puffed food;22—Bee products;23—Formula food for medical use;24—Edible gelatin related products图1 通用标准体系食品大类及各大类下具体食品分布Fig.1 General standard system of food categories and specific food distribution under each category

该体系中分类和属性均采用流水号编码,由电脑自动分配,共编码5位字符,首字母为F,中间3个字符为拉丁字母和阿拉伯数字,最后一位字符为拉丁字母,码制为:F[A-Z 0-9]{3}[A-Z],理论上可以对1 213 056个条目进行编码。分类和属性间用“|”连接,各属性间用“$”连接,句法规则为:食品分类码|属性表编码.该属性编码$…末位属性表编码.末位属性编码,多个属性的先后顺序按照表3编号的顺序排列。

2.4 融合三大监测系统网络平台的建立

在2.3的理论基础之上,利用信息化手段,通过集成本体、编码规则、分类标准构建了食品映射标注系统网络平台,完成通用标准体系与全国食品污染物填报系统、食源性疾病暴发监测系统和全国食品微生物风险监测数据汇总信息平台中食品分类和编码相关数据的映射,实现多系统的数据融合。网络平台建立技术流程见图2,三大监测系统食品数据映射机制流程见图3。

图2 网络平台建立的技术流程Fig.2 Technical flow of network platform establishment

图3 三大监测系统食品数据映射融合机制流程Fig.3 Flow of food data mapping fusion mechanism of three monitoring systems

3 讨论

国务院于2015年发布《促进大数据发展行动纲要》,以推动政府数据开放共享,促进社会事业数据融合和资源整合[20]。由于大多数据库采用不同的食品识别方法,且数据库资金投入巨大,重新构建统一的数据库不符合职能需求和现实情况,因此,很难在国家、组织之间甚至同一机构内实现数据交换[21]。在不影响原系统架构的同时,解决食品安全数据融合问题,食品映射标注系统网络平台的建立显得尤为重要,它能通过映射的桥梁来连接各个数据孤岛,解决数据融合问题。

本研究建立的通用标准体系的分类参考了国际分类标准,按照大类、亚类、多级组别、具体食品等8个层次进行分类,其中大类和亚类是在GB 2760—2014附录E[19,22]划分基础上,再结合监测系统实际情况形成的;多级组别参考了相关的食品行业及国家分类标准,例如果冻、膨化食品等国家标准中的定义和产品分类[23-24],这弥补了GB 2760—2014对部分分类过于笼统[25]的问题;具体食品充分考虑我国市场上流通的主要食品[26-27]、监测系统以及《中国食物成分表》[28]中的具体食品名称等,涵盖的食品更多,充分满足我国复杂的饮食结构。

由于我国食品原料多样、加工程序繁琐及加工方式复杂[3],不能照搬国外食品单一、原料及加工方式明确[29]的食品分类和编码体系,而现有监测系统中的食品分类和编码并不能全面、准确地对食品进行描述。本研究借鉴欧盟FoodEx2[15]食品分类+属性的多元组合的理论方法及对应的编码算法,建立了符合我国饮食文化的通用标准体系,不仅可用来描述食品的有用细节,同时输出的编码可以用来快速识别、提取食品安全相关数据,更好地建立各系统间的数据关联,为后续的数据分析提供技术支撑。本研究以标准的分类编码作为卫健委三大监测系统的共同桥梁,分别与标准分类编码系统进行映射,达到三大系统之间的后台数据的融合。

本研究通过在后台构建通用标准编码与网络标注平台,在不影响原有全国食品污染物填报系统、食源性疾病暴发监测系统、全国食品微生物风险监测数据汇总信息平台三大系统的各自独立运行的基础上,实现三大系统互联互通和数据共享交换,初步解决了化学污染物、病原微生物及食源性疾病监测之间的业务孤岛,为进一步探索化学污染物与微生物联合作用机制、食源性疾病的病因溯源与关联分析奠定了基础。

下一步,借助本研究食品分类与编码系统可以有效兼容现有的外部多源异构的监测系统,实现全链条、全过程、跨部门的数据融合。例如,可以将农业农村部、市场监管总局、海关总署等部门食品安全数据进行关联分析,构建知识图谱和深度学习的人工智能模型,实现深度挖掘分析,为建立基于大数据的食品安全现代化治理体系奠定基础。

猜你喜欢

食源性编码分类
秋冬季高发食源性疾病的危害与预防
生活中的编码
食源性寄生虫病流行趋势与控制策略
论食品安全与食源性疾病的控制
夏季食品安全头号杀手——食源性疾病
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare
按需分类
教你一招:数的分类