APP下载

食品安全监管大数据质量评估体系构建研究

2024-01-31郑岩黄燕陆进宇周洪美马江涛周二磊

中国标准化 2023年15期
关键词:评估体系数据质量数据源

郑岩 黄燕 陆进宇 周洪美 马江涛 周二磊

摘 要:食品安全监管的核心是充分利用各种数据资源,但由于食品数据涉及部门和来源方式多样化,是典型的多源异构数据,需要对数据质量进行评估,以便于采取相应的数据治理手段提升数据质量,从而为食品监管大数据应用奠定建设基础。本文对食品监管大数据进行梳理,对食品生产经营主体的经营主体登记注册数据、行政监管数据、经营行为数据、消费投诉数据、互联网舆情数据进行剖析。随后充分考虑数据特点,提出数據全面性、数据完整性、数据冗余性、数据规范性、数据一致性和数据异常值六个方面的数据质量评估体系。最后,对食品大数据质量评估机制建设提出了相关对策建议。

关键词:食品安全,数据源,数据质量,评估体系

DOI编码:10.3969/j.issn.1002-5944.2023.15.009

基金项目:本文受国家市场监督管理总局科研项目“基于大数据技术的食品经营主体风险分类管理关键技术研究”(项目编号:2021MK067)、河南省科技攻关项目“食品生产企业信用风险分类和智能识别方法研究”(项目编号:222102310515)以及河南省市场监督管理局科技计划项目“市场监管大数据分析应用”(项目编号:2021sj119)资助。

Research on Construction of Big Data Quality Assessment System for Food Safety Supervision

ZHENG Yan1 HUANG Yan2 LU Jin-yu3 ZHOU Hong-mei4 MA Jiang-tao5 ZHOU Er-lei1

(1. Henan Provincial Big Data Center of Government Affairs; 2. Unit 32316; 3.Platform Economy Development Guidance Center of Henan Province; 4. Hongdun Data Co.,Ltd., Beijing; 5. College of Computer and Communication Engineering, Zhengzhou University of Light Industry)

Abstract: The core of food safety supervision is to make full use of all kinds of data resources. However, food data involves various departments and sources, which are typical multi-source heterogeneous data, making it necessary to evaluate data quality, in order to take corresponding measures of data governance to improve data quality, and lay a foundation for the big data application of food supervision. This paper comprehensively sorts out the food supervision data, and analyzes the registration data of operation entities, administrative supervision data, business behavior data, consumer complaint data, and internet public opinion data of food production and operation entities. Taking full account of the characteristics of data, the paper proposes a data quality evaluation system, including data comprehensiveness, data integrity, data redundancy, data normalization, data consistency and data outlier. The paper also puts forward relevant measures and suggestions for the construction of a big data quality evaluation mechanism for food.

Keywords: food safety, data resource, data quality, evaluation system

党和政府高度重视食品安全监管工作。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中提出要“深入实施食品安全战略,加强食品全链条质量安全监管,推进食品安全放心工程建设攻坚行动,加大重点领域食品安全问题联合整治力度”,《“十四五”市场监管现代化规划》(国发〔2021〕30号)中也指出“加强食品安全源头治理。加强食品全链条质量安全监管,推进食品安全放心工程建设攻坚行动,加大重点领域食品安全问题联合整治力度”。食品安全作为市场监管工作的重点和难点,面临监管对象多、类型多元化、监管环节长、过程难以全面覆盖等传统监管模式难以解决的问题,通过引入大数据技术实现信用风险监管、智慧监管成为一种必然选择[1-3]。食品安全信用风险监管和智慧监管的核心是充分利用各种数据资源,但由于食品数据涉及部门和来源方式多样化,是典型的多源异构数据,需要对数据质量进行评估,并采取相应的数据治理手段提升数据质量[4-5],为食品监管大数据应用奠定建设基础。

1 食品安全监管数据梳理

对食品生产、经营主体进行信用风险监管和智慧监管,需要充分利用多来源、多种形式的数据进行分析挖掘,并尽可能归集各方面数据。目前食品监管相关数据源主要包括食品生产经营主体的经营主体登记注册数据、行政监管数据、经营行为数据、消费投诉数据、互联网舆情数据等。

1.1 经营主体基本数据

登记注册数据是经营主体的基本信息。根据《中华人民共和国经营主体登记管理条例》(以下简称《条例》),所有经营主体应当去市场监管部门办理登记,未经登记不得以经营主体名义从事生产经营活动。《条例》规定经营主体登记内容包括名称、主体类型、生产经营范围、住所或者主要生产经营场所、注册资本或者出资额、法定代表人、股东等信息,同时需要将公司章程、经营期限、认缴出资额、出资方式、高管人员等事项进行备案[6]。经营主体在办理登记时会被自动赋予一串18位的统一社会信用代码,相当于经营主体的“身份证号”。统一社会信用代码作为经营主体的唯一标记,将贯穿经营主体的整个生命周期,也是整合各类数据的核心主键。

1.2 行政监管数据

行政监管是政府部门依据授权对监管对象实施的管理行为[7]。首先是许可审批数据,《中华人民共和国食品安全法》规定,从事食品生产、食品销售、餐饮服务,应当依法取得许可。许可审批数据包括食品生产经营主体经营业态、经营项目、生产经营场所、有效期、食品类别等内容。其次是食品生产、经营监管检查数据,监管部门根据实际情况开展日常检查、专项检查、飞行检查等工作,针对不同生產经营类别纳入不同检查内容,如食品生产环节监督检查要点包括食品生产者资质、生产环境条件、进货查验、生产过程控制、产品检验、贮存及交付控制、从业人员管理、信息记录和追溯、食品安全事故处置等,食品销售环节监督检查要点包括食品销售者资质、一般规定执行、禁止性规定执行、经营场所环境卫生、经营过程控制、进货查验、食品贮存、食品召回、温度控制及记录、过期及其他不符合食品安全标准食品处置、网络食品销售等。再次是食品安全抽样检查数据,国家市场监督管理总局负责组织开展全国性食品安全抽样检验工作,县级以上地方市场监督管理部门负责组织开展本级食品安全抽样检验工作,并按照规定实施上级市场监督管理部门组织的食品安全抽样检验工作,相关数据包括被抽检食品名称、规格、商标、生产日期或者批号、不合格项目,标称的生产者名称、地址,以及被抽样单位名称、地址等。最后是行政处罚数据,是监管部门对食品生产、经营主体各类违法行为实施的行政处罚记录,包括违法类型、处罚结果等。

1.3 经营行为数据

经营行为数据是指相关主体在整个生产、经营活动中产生的各种过程和结果数据。一方面是一般企业反映经营绩效的营收、税收数据。主要反映企业品牌和技术研发实力的商标、专利、标准、认证等数据,反映就业情况的招聘、社保和从业人员数据,反映企业扩展的开设分支机构和对外投资数据等。另一方面是针对食品监管特殊要求产生的行为数据,如国家市场监督管理总局发布的《餐饮服务明厨亮灶工作指导意见》明确提出,鼓励餐饮服务提供者实施明厨亮灶,以此保障消费者的知情权,各地纷纷推进明厨亮灶工程并实现了较高的覆盖比例[8-9],采用视频方式对经营者的后厨行为进行实时监控;对于重点食品数据,还引入了追溯制度,能够通过溯源系统及时掌握食品从原料、生产、仓储、物流以及销售的全链条动态信息。

1.4 投诉举报数据

投诉举报信息是指消费者和商家发生纠纷无法达成一致或者发现违法线索时向相关机构进行投诉举报时产生的诉求信息。目前食品类投诉举报渠道主要有三个方面。一是市场监管部门整合原工商部门12315、原质监部门12365、原食药部门12331等五部门投诉举报热线电话后的新12315热线。二是各地市人民政府设立的由电话12345、市长信箱、手机短信、手机客户端、微博、微信等方式组成的专门受理热线事项的公共服务平台。三是大型互联网平台设立的投诉举报系统,如美团、饿了么等;或者是社会机构设立的投诉平台,如中国消费者协会、新浪旗下的黑猫消费投诉平台等。投诉举报数据一般包括涉及经营主体、问题类型及描述、相关诉求等信息,是食品风险线索的重要来源之一。

1.5 互联网舆情数据

互联网舆情数据是指对某一网络事件在互联网上的整体传播情况。随着互联网的深入普及,互联网舆情的重要性日益凸显,例如“天价虾”“天价鱼”等事件在互联网的传播均引起了较强的社会反响[10-11]。通过收集互联网数据进行分析,自动生成涵盖事件简介、事件走势、网站统计、数据类型、关键词云、热门信息、热点网民、传播路径、相关词、网民观点、舆情总结等各个维度的舆情信息。一般来说,互联网舆情源包括微信公众号、微博、网络新闻(新浪、搜狐、网易、腾讯四大门户网站,百度新闻)、媒介报刊(人民网、新华网、央视网等主流媒体网站)、论坛(QQ论坛)、问答(知乎)、点评(大众点评网)、博客(新浪博客、腾讯博客、网易博客)等。通过互联网舆情数据的采集、分析,形成对企业、人员、行业动向、热点事件预判、专项行动效果分析、行业发展研判等需求的辅助支撑。

2 食品安全监管数据质量评估体系构建

数据质量是数据的灵魂,也是利用大数据转变监管方式、提高监管执法效能和公共服务能力的基础支撑。食品安全监管数据源头多、形式多样,因此需要进行相应的数据质量评估后才能采用针对性的数据治理措施。目前针对不同来源、不同类型的数据质量评估体系各不相同[12-13],需要基于食品安全监管数据的特点,建设相应的数据质量评估体系,及时发现数据问题。充分考虑以上5类数据特点,其质量评估可以从数据全面性、数据完整性、数据冗余性、数据规范性、数据一致性和数据异常值6个方面实施。

2.1 数据全面性

数据全面性主要是指涉及跨部门的同一类型数据是否做到了全面归集,主要是针对食品生产、经营主体的行政许可、行政处罚、抽查检查结果、黑名单信息等。根据《国务院办公厅关于政府部门涉企信息统一归集公示工作实施方案的复函》(国办函〔2016〕74号),其他政府部门涉企信息中的行政许可、行政处罚、抽查检查结果、黑名单信息应做到应归尽归。数据全面性主要采取数据检查比对的方式进行校验核对。一是与媒体公布的新闻、政府各部门发布的报告、监管部门发布的许可名单、处罚名单等信息,尤其是与信用中国、国家企业信用信息公示系统等平台数据进行比对。二是通过将不同地区涉及的部门数量和相关数量占比情况进行对比,找出标杆区域,将其他地区与标杆区域情况进行比对评估。三是采集重点企业互联网上涉及的行政处罚、重大变更新闻舆情,与归集数据进行对比。

2.2 数据完整性

数据完整性主要包括字段完整性和记录完整性。字段完整性是对数据字段取值是否完整,实体类型、属性特征、维度取值是否完整等,特别是相关联的数据的完整性进行检查。记录完整性是检查核对某字段或项目(包含多个字段)的非空值情况,并做出数据质量评估。对于涉及不同来源数据进行整合时,通常会因为技术原因或者机制原因导致数据归集的不完整,可以通过不同源的数据统计结果对比来评判数据的完整性。

2.3 数据冗余性

数据冗余会导致数据异常和损坏,但保留一定的数据冗余并使用外键能够提升数据调用的效率,便于数据共享、数据挖掘、数据分析和应用。在归集和挖掘食品生产经营主体的冗余数据,主要是检查数据记录重复情况,例如主体身份代码冗余、企业名称冗余,企业处罚信息冗余等。由于多源数据重复归集、数据生产系统逻辑不严谨等原因经常会造成数据冗余,需要针对不同类型数据设置不同的数据主键,制定冗余检查规则,对数据冗余性进行评估。

2.4 数据规范性

数据规范性检查主要用于检查数据取值的规范性和代码规范性。取值规范性是指为对同一内容所使用的取值字段是否统一,代码规范性包括两个方面:一是代码编制规范性,主要检查各部门数据所用代码的匹配程度。例如行政检查结果代码,各个部门使用的分类和代码可能会不同。二是代码使用规范性,即检查不同数据使用代码的字段与其代码表(外键)的匹配程度,查找出数据库中与代码表相符的记录数。

2.5 数据一致性

数据一致性是检验数据中不符合业务逻辑的错误,主要思路是具体的应用根据领域知识定义显式约束规则,然后根据一定的数学方法求出规则的整个闭集,對于每条记录,自动判断其是否违反规则约束。例如食品生产、经营主体的许可到期时间必然大于许可生效时间,如果生产、经营主体存在移出经营异常名录记录,必然会存在列入记录,同时列入时间要早于移出时间等。

2.6 数据异常值

所谓异常值(outlier)是指在数据中有一个或几个数值与其他数值相比差异较大。可以从数据的分布甄别出离群值,对于呈正态分布的数据,一般认为2个标准差以外的数值属于离群值。这部分数据质量评估主要针对食品经营主体的财务数据、从业人员数据等数值型数据。对于异常数据,可以通过人工核对的方式适当调整规则,确保数据异常值的阈值设置能够贴近数据实际,既能发现问题数据又避免对真实数据的误判率。

3 食品安全监管大数据质量评估机制建设相关对策建议

为了确保食品安全监管数据质量,需要建立数据质量评估的工作流程和机制,建议如下:

3.1 构建食品安全监管数据质量评估考核机制

通过建立食品安全监管数据质量评估考核机制,实现“以评促建”“以评促优”和“以评促用”的目的。建立食品安全监管数据质量评估体系,按照月度、季度、年度定期评估并将评估结果通报相关部门,督导相关部门加大数据归集和检查力度,促进数据管理能力建设,提升数据质量,为进一步的应用奠定坚实基础。同时可以按照半年度或者年度制定数据质量评估报告,为政府决策提供决策支持。

3.2 建设食品安全监管数据质量提升支撑系统

为了实现食品安全监管数据质量提升的常态化支撑,需要建设一套技术支撑系统,一是实现数据质量检查规则模型的构建和运算;二是对归集数据质量的常态化监测评估;三是将问题数据自动反馈到各相关单位;四是对各来源数据质量进行自动化评估;五是对数据比对所需的外部数据进行采集和处理。通过支撑系统建设,实现上述工作的流程化、自动化和可视化展现。

3.3 拓展更多数据应用场景倒逼数据质量提升

数据的价值在于运用,通过运用才能够更好地发现数据问题。为此,应大力拓展食品数据在信用风险分类监管、部门共享以及社会服务方面的应用场景,并及时搜集数据应用中存在的质量问题,以应用倒逼数据质量提升。另外,在相关部门进行应用共享时,可以构建数据交换机制,为数据质量评估提供参考。同时可以发挥社会公众的力量,开通社会公众数据质量的反馈通道,及时掌握数据质量问题并进行修正。

参考文献

[1]封立荣.大数据时代食品监管模式的创新[J].食品安全导刊,2022(34):7-9.

[2]许瑾,王广平,程婕.基于风险评估的食品安全大数据决策体系建设[J].质量与标准化,2022(11):1-4.

[3]李辉.基于大数据背景分析食品安全管理的创新及其面临的挑战[J].中国管理信息化,2022,25(10):204-206.

[4]宋暮凡.数据开放视角下的政府开放数据质量评价研究[J].图书情报导刊,2022,7(8):63-70.

[5]吴小娥.物联网数据质量评估应用[J].宝鸡文理学院学报(自然科学版),2022,42(4):50-54.

[6]国务院.中华人民共和国市场主体登记管理条例[EB/OL].[2023-04-03].http://www.gov.cn/zhengce/ content/2021-08/24/content_5632964.htm.

[7]宋慧宇.行政监管概念的界定与解析[J].长春工业大学学报(社会科学版),2011,23(1):21-22.

[8]王越.广东:实现学校食堂“互联网+明厨亮灶”全覆盖[J].中国食品,2021(3):41.

[9]陈广晶.北京市全面推进“阳光餐饮”工程 计划用3年时间基本覆盖全市各类餐饮服务单位[J].首都食品与医药,2017,24(11):17.

[10]陈旭辉,苏晓娟,崔丽霞.基于社交媒体关系互动的旅游城市形象负面偏差引导策略——以“青岛天价虾”事件为例[J].旅游学刊,2017,32(7):47-56.

[11]苑晟.出现“天价”舆情的应对和处置[J].中国价格监管与反垄断,2021(8):52-53.

[12]孙嘉睿,安小米.开放政府数据质量评估指标体系研究[J/OL].情报理论与实践:1-11[2023-05-31].https://kns. cnki.net/kcms/detail//11.1762.g3.20221222.1340.001. html.

[13]吴小娥.物联网数据质量评估应用[J].宝鸡文理学院学报(自然科学版),2022,42(4):50-54.

作者简介

郑岩,硕士,工程师,研究方向为大数据分析应用。

黄燕,硕士,工程师,研究方向为计算机。

陆进宇,硕士,正高级工程师,研究方向为信息化、计量。

周洪美,博士,高级统计师,研究方向为政务领域大数据应用。

马江涛,研究方向为大数据分析、机器学习、知识图谱等。

周二磊,高级工程师,研究方向为大数据分析应用。

(责任编辑:张瑞洋)

猜你喜欢

评估体系数据质量数据源
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于系统思维的高职产学研合作评估体系探析
“互联网+”二手汽车交易模式探析
大学英语课程体系和评估体系创新研究
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
基于真值发现的冲突数据源质量评价算法
分布式异构数据源标准化查询设计与实现