APP下载

EgoSF:基于区块链的食品安全数据监管集成模型

2022-03-25张乐冷基栋吕学强田驰姜阳李果林

食品工业 2022年3期
关键词:模板节点区块

张乐,冷基栋,吕学强,田驰,姜阳,李果林

1.北京信息科技大学网络文化与数字传播北京市重点实验室(北京 100101);2.阳光易购(北京)科技有限公司(北京 100036)

随着世界各国经济发展水平的提高,食品产业的安全问题被广泛关注。食品的原料来源较为广泛,大多数原料来源信息由食品的生产者掌握,而管理人员掌握的食品原料信息很少。正是这种信息拥有程度的不对称,当食品安全问题出现后,对食品原料和生产过程溯源的难度增加。此外,大量食品生产信息的存储问题也困扰着食品行业[1]。食品安全供应链需要在农户、食品加工企业、物流企业、销售商、消费者及政府职能机构等各个环节加强安全管理,确保食品交易和流通过程中安全信息有效集成、共享[2]。同时每一个环节的组织节点需要承担食品安全的社会责任,进行协调有序的合作。

部分食品生产者与企业经营者的法律意识淡薄,只重视企业效益,忽视生产卫生,违规超量使用食品添加剂,以此来延长食品保质期、提升食品的口感,对食品质量安全造成极大的隐患。我国食品卫生监督管理机制尚不是特别健全,部门分段式管理导致各个部门之间的配合度低,监督效果不佳。卫生行政部门、工商管理部门和质量检查部门之间的沟通与联系不到位,不能在食品安全方面实现高效监督[3]。在消费市场中,很多小商小贩存在无证无照非法生产与经营的情况。任由其发展,食品安全问题将越来越严重。部分生产者素质低、社会责任感不强,生产操作不规范,导致食品出现污染或消费者发生食品中毒事件[4]。如地沟油事件、三聚氰胺奶粉事件等,使消费者对我国的食品安全监管能力产生质疑。

近年来,网络订餐平台开始兴起。主要的网络订餐平台有美团外卖和饿了么,商户想要入住网络订餐平台,必须向其提供合法的经营证明,如食品生产经营条件证明、相应的证照证明、产品和服务范围的许可证等。网络订餐平台的食品安全监管也存在部分问题,如商户证照上传不全、虚假填报经营地址、经营不在许可范围内的产品、许可证过期、食品生产环境条件差、贮存能力不足及物流运输方式不达标等[5]。线上交易的监管不到位,会诱发恶意投诉,导致成本增加。对于网络订餐行业的垄断型平台来说,平台盈利依靠流量,为降低流量流失带来的损失,受马太效应的影响,平台将付出越来越高的流量成本[6]。

供给侧背景下食品安全监管的关键在于从根本上杜绝食品安全事件的发生[7]。区块链技术是近年来在计算机技术基础上发展,可以在不同应用场景下广泛使用的一种典型分布式账本技术,通过共识机制、智能合约等手段支持数据验证、共享、计算、存储等功能,受到工业界人士的推崇[8]。基于区块链的食品溯源系统充分利用区块链和数据挖掘技术,形成一个覆盖面广的信息监管系统。在食品溯源系统的场景下,提出一种基于区块链的食品安全数据监管集成模型(EgoSF),利用区块链获得可溯源、不可篡改的安全监管数据,结合数据挖掘技术充分挖掘安全监管数据的隐含信息,提升监管质量和效率。

1 研究现状

数据分析与决策是大数据处理技术的重要内容,它和数据感知与采集、数据存储与建模、数据应用共同组成大数据体系。选择合适的计算框架和数据挖掘方法构建领域数据分析模型,通过分析存储系统中的数据能更好地理解用户需求,从而指导商业决策[9]。

区块链是一种分布式数据存储账本,用于数据溯源并确保数据不可篡改。数据的可溯源和不可篡改可以提升知识的有效性,通过数据挖掘技术处理这种高质量的数据,能够挖掘出更多具有现实指导意义的隐式规律。为更好地结合区块链和数据挖掘技术,区块链技术需要克服吞吐量低、泛化能力差的缺点[10]。目前的公有链交易效率低,而联盟链可以很好地解决效率问题。沃尔玛采用的IBM Food Trust食品安全区块链解决方案就是基于Hyperledger Fabric架构的区块链食品溯源系统,该系统能够将产品追踪时间从一周减少至几秒[11]。大多数区块链食品溯源系统均采用Hyperledger Fabric架构。区块链技术与机器学习技术的结合是研究和产业应用的关注热点。琚春华等[12]设计一种基于区块链和数据挖掘技术的大数据征信系统,该系统对去中心化的信用数据进行数据分析,讨论区块链在信任构建中的作用,该平台可以使用不同的语言进行机器学习、人工智能算法的开发,同时平台为用户提供可信互联网服务,包括数据预处理和可视化工具,降低开发信用度量模型的成本。

Algredo-Badillo等[13]在2013年提出一种新型自动食品交易系统,该系统充分利用联盟区块链的读取权限限制的特性,在进行食品交易时可以为不同用户角色设置权限,依托SM3散列函数的安全性保护用户的隐私。2018年曾小青等[14]提出的食品安全追溯系统集成区块链技术和物联网技术,通过使用Hyperledger Sawtooth平台实现“从农场、加工到消费”的食品溯源。该系统通过在食品供应链中铺设的物联网设备,采集食品流动信息并将流动信息存储到区块链中。仵冀颖等[15]利用区块链分布式存储的特性,根据节点功能为节点提供数据传输或者数据查询的权限,交易参与方生成数据并向区块链网络内传输数据,监管机构实时查询可靠、不可篡改的产品交易信息。2019年Lin等[16]提出并开发的食品安全溯源系统则基于区块链和EPC(Electronic Product Code)信息服务,区块链技术具有过程可追溯和信息不可篡改的优点,该系统结合区块链的核心技术共识机制和智能合约实现准确记录食品供应链交易过程中产生的全部有效数据,实现交易数据的共享及食品溯源,避免数据在交易中的篡改和泄露,准确定位食品质量问题的第一责任者。张朝栋等[17]在供应链溯源系统中应用侧链技术,整个供应链交易过程按照智能合约进行,实现交易数据共享,利用侧链技术提升区块链的可扩展性,实现供应链的可追溯需求。高阳阳等[18]将区块链技术应用于农产品溯源,将品牌农产品关键生命周期信息记入溯源区块链,采用第三方检验方式上链,溯源体系进一步结合大数据收集分析决策,构建整个品牌农产品产业链的溯源能力,增强品牌信任感。

有研究表明,应用区块链有助于确保食品安全。然而,倾向于研究食品的可追溯性,而不是食品的监管[19]。在食品溯源系统中提出一个基于超级账本技术和数据挖掘技术的食品安全监管集成模型,以加强食品安全监管的有效性和高效性。具体地,通过收集区块链上的智能合约监督管理人员的检查项结果,利用随机森林(random forest,RF)机器学习模型直接分析监督管理人员采集到的检查项结果,将分析结果反馈给监督管理人员参考。通过应用该模型,监督管理人员可以对模板内的企业进行一轮初筛,选择潜在的具有隐患的企业进行实地检查,监督管理人员需要对自己在检查和打分过程中的行为负责,筛查和检查结果均记录到区块链中,保证数据的安全不可篡改,为食品安全的监管提供保障。同时应用机器学习的方法可以通过学习以往的检查结果为当前检查任务提供参考。结果表明,与传统方法相比,该模型通过对监督过程的记录提高监督管理人员责任意识,同时大幅降低监督管理人员的工作量,实现食品安全监管效率和监管质量的提升。

2 食品溯源系统

此次设计的食品溯源系统通过“互联网+”食品安全的模式创新,利用区块链技术将食品供应链涉及的市场监管局运营方、批发市场、农场、屠宰场、企业餐厅、学校餐厅、餐饮企业、消费者等食品消费的参与主体连接起来,形成政府职能部门监管、餐饮企业自我约束、食品检测技术支持、消费者参与的新型综合治理模式。在形成食品安全社会共同治理的基础上,每一类参与者节点各司其责、互为补充,促进食品安全信息在食品消费流通活动的主体中合理流动,及时地进行风险等级预警,预防食品安全问题发生,保证食品安全过程可追溯。

2.1 系统架构

如图1所示,该系统依托于Hyperledger Fabric 2.0,Fabric 2.0为联盟链各个组织提供BAAS服务。根据参与者在供应链中的角色与职能,将节点分为用户参与方节点和管理员参与方节点。用户参与方节点上链需要上传包括企业经营范围、经营地点等信息,获得公钥和私钥后可进入区块链网络进行营业活动。食品交易信息保存在区块链中,根据节点属性的不同,节点拥有不同的信息访问权限。此外,食品供应链的服务规则由智能合约定义并存储在区块链中,任何单一节点组织都没有权限修改服务规则和交易信息的数据,以保证数据的可靠性和有效性。若要改变食品供应链的服务规则,需要向参与食品供应链的全部节点进行广播并且由政府职能机构核实确认。

图1 食品溯源网络架构图

2.2 系统性能

该系统支持SOLO/kafka/FBFT常规共识算法[20],支持节点故障自动恢复、节点弹性伸缩,支持ECDSA加密、国密加密、零知识证明。同时利用智能合约技术解决线上交易的重复、乱序等问题[21],交易峰值超过超过1 000 TPS,满足线上交易速度快和保护用户隐私。

3 EgoSF模型

EgoSF是基于去中心化的Hyperledger Fabric 2.0和基于集成学习随机森林的食品安全数据监管模型。

如图2所示,EgoSF主要依据区块链技术和数据挖掘技术实现动态监督,通过数据挖掘技术分析日常检查内容,为检查结果提供参考,并最终将检查结果、任务结果和整改信息存储到超级账本中。该模型应用在食品溯源系统中的食品安全监测管理模块,通过应用该模型能够在确保食品安全监管质量的基础上节省人力成本。

图2 EgoSF:基于区块链的食品安全数据监管集成模型

3.1 食品安全监管数据挖掘

3.1.1 数据集

数据集是监督管理人员对企业进行检查后保存在区块链中的数据。以对食品流通经营主体现场检查记录模板过往的巡检数据为例,如表1所示,原始的数据集主要有3 646条ID唯一的数据,检查结果为0,1和2的整数,0代表优秀,1代表合格,2代表不合格。每个任务有35个属性,分别代表35个检查项,属性值1代表合格,0代表不合格,空值代表此任务没有进行该项检查。

表1 部分检查数据

3.1.2 评价指标

试验将预测结果的准确率p(precision)、召回率r(recall)和F1(F-measure)作为评价模型性能的指标,以检验模型为监督管理人员提供的决策的有效性。其中,TP是正类预测正确的样本数,FN是正类未能被正确预测的样本数,FP是错误的预测为正类的样本数。

其中,准确率p是指任务结果预测正确的样本数与模型预测为正例的总样本数的比例,如式(1)所示。

召回率r是指任务结果预测正确的样本数与任务结果为真实正例的总样本数的比例,如式(2)所示。

F1指标是依据准确率和召回率综合得出的一种评价指标,如式(3)所示。

3.1.3 随机森林算法

随机森林是一种在决策树(decision tree,DT)算法的基础上改进而得到的算法,可以进行分类试验并给出预测结果,随机森林的特点是简单高效。

决策树是一种基于归纳学习的树状分类器,通过在训练数据中归纳规则来推导任务的结论用于决策。决策树是由节点和分支组成的,节点代表属性,每个决策树可以根据不同的分裂策略进行分支,分支的过程也可以理解为利用部分属性进行简单的分类。为确保在一个决策树中根节点到叶子节点的路径唯一,每一个特征属性在一个决策树中最多出现在一个决策树节点。一般情况下决策树的准确率高,而且决策过程相比于神经网络更容易理解,但是当数据维度较高时,决策树性能会出现瓶颈[22]。

决策树算法易受噪声和异常值的影响,而随机森林可以有效解决这一问题。随机森林在处理复杂数据时便于模型扩展,还可以提高并行性。此外,随机森林和决策树相同,都是可以根据样本信息直接设计分类器,不需要消耗大量时间进行迭代学习先验知识来训练模型参数[23]。

3.1.4 试验结果与分析

考虑到在食品溯源的真实场景中,不同的任务有不同的检查项未参与日常巡检测评,但对检查任务结果有一定影响。试验均在食品流通经营主体现场检查记录模板的数据上进行,随机选取3个模板进行验证,以确保模型具有较好的泛化能力。

试验对缺失值分别进行0,1和均值补全的操作后,划分训练集和测试集,采用随机森林的方法进行预测,结果如表2所示。在不添加试验控制条件时通过应用随机森林算法能有效预测检查任务结果,精确度可达97.27%,但召回率和F1值较低,仅为51.6%和55.92%。分析1号模板数据,结果发现可供学习的数据的检查结果94.84%为0(检查结果优秀),说明模板内的数据不平衡。通过在随机森林模型中引入平衡权重,召回率提升了37.26%,F1值提升23.42%。进一步挖掘模板数据信息,结果发现检查项的属性值0和1的数量与检查结果相关,增加num_0和num_1两列属性。试验结果表明,加入num_0属性准确率提升0.33%,召回率提升1.96%,F1值提升0.89%。

表2 数据预处理试验

在食品安全场景下,不同的检查项对检查任务结果的影响程度不同。对所有特征进行特征重要性排序,num_0属性重要性排名第一,部分特征重要性排名如表3所示。

表3 重要特征前五位

其中:1943代表是否在显著位置悬挂或摆放食品流通或食品经营许可证;1945代表是否配备专职或兼职的食品安全管理人员并在显著位置公示其姓名、联系方式等信息,是否履行相关职责;1942代表是否不存在未经许可改变许可事项、擅自出租、转让转借许可证的现象;1971代表是否无销售假冒伪劣、五无食品(无生产厂家、无生产日期、无保质期、无食品生产许可、无食品标签)、过期变质等食品违法的行为;是否无销售未经检验或者检验不合格的食品。

在进行特征重要性度量之后,通过取前10个特征、前20个特征和取全部特征进行对比试验,如表4所示,取全部特征时试验结果最好。

表4 特征选择试验

此外,对比试验还包括在空值填充为均值,增加平衡权重和sum_0属性的全部特征条件下的决策树、SVM、线性回归模型(linear regression,LR)的试验。如表5所示,全部数据属性应用随机森林方法的试验结果最佳,这与随机森林的集成属性有关。

表5 模型对比试验

3.2 模型功能

EgoSF用于处理食品安全数据,即监管的基本信息包括食品流通企业经营食品品类、食品来源、运输物流信息、索证索票、食品检验检疫、食品流向、企业名称、经营范围、生产经营许可证、法人代表、营业执照、企业详细地址、联系人、联系方式等信息,EgoSF通过日常巡检管理和整改复查管理追溯流通环节中的基本信息,对食品生产与消费,对食品安全监管的完整性与实用性起着重要作用。

3.2.1 日常巡检管理

日常巡检管理包含动态监督、日常检查项管理、现场执法出证和日常巡检结果出具。

3.2.1.1 动态监督

工作人员进入日常监管的发布任务模块。通过输入监督单位名称、许可证号等信息,查询相关企业。系统将自动提取相关企业的名称、地址、法人代表、电话号码、经营许可证号、经营许可类别等信息。

3.2.1.2 日常检查项管理

监督执法人员通过系统后台,依据相关法律法规对日常检查项及对应评判标准进行判定操作,该检查项根据实际情况判定合格或不合格。

3.2.1.3 现场执法出证

监督执法人员在抽查或巡检过程中发现不合格情况,可以通过拍照、录制音频或视频进行现场取证,相关影音文本资料信息会通过系统平台保留存证。

3.2.1.4 日常巡检结果出具

监督执法人员日常巡检过程中将依据设置好的日常检查项对具体执法对象进行检查,并填写相应电子表单;系统根据设置标准与提交的实际检查表单数据,对比出具相应的检查结果,其结果为合格、不合格、整顿;监督执法人员对系统自动生成检查结果修正确认后向对应执法对象出具检查结果。同时系统自动提交检查结果至后台保存留档。

3.2.2 整改复查管理

整改复查管理是日常巡检管理的延伸功能,在日常巡检管理中检查结果为整改时将自动创建整改复查任务,自动与日常巡检任务进行关联。

3.2.2.1 发送整改通知

工作人员在日常检查结果中判断为整改复查,系统自动汇集检查模板表中不通过的检查项,并汇集整改意见和法律法规文件。工作人员可以调整这些信息,以及整改日期,通过微信消息发给相关餐饮企业,并将该条整改复查任务重新指派给相关工作人员。

3.2.2.2 上传整改结果

餐饮企业收到微信消息后,根据检查意见,在规定时间内在系统中上传整改后的图片、视频材料。工作人员不用再去现场复查,通过系统接收到整改的结果,根据相应法律法规,判断此次整改任务为合格或重新整改。当结果为合格时,整改任务结束;当结果为重新整改时,将重新发送整改通知。

3.3 模型评估

以随机森林的最优参数方法,基于食品溯源系统的不同监管模板进行测试,如表6所示,各模板(1.食品日常销售检查要点模板;2.小型餐馆、快餐店、饮品店、小吃店日常监督检查模板;3.食品流通经营主体现场检查记录模板;4.餐饮服务日常监督检查要点模板)均取得较好效果,证明EgoSF有较强的泛化实用性,能应用于不同的监管模版。

表6 模型泛化试验

4 结论

针对基于区块链的食品溯源系统存在监管效率低的问题,利用区块链内的上链信息结合数据挖掘技术分析监管模板,提出基于区块链的食品安全数据监管集成模型。通过分析区块链中已有的监管信息,能够帮助监管人员提供预判,缩小应检必检的餐饮单位范围,便于制定详尽合理的监管策略,降低监管人员的工作量,从而达到机器换人的目的。同时监管人员需将决策和检查结果上链,以规范工作人员的检查质量,迭代式提升技术分析的准确性。该模型继承随机森林算法的特点,具有高鲁棒性,响应速度快,能泛化应用于不同监管场景,能够为监督管理人员的工作提供决策和支持。后续研究可根据具体区块链的应用场景提升该模型的集成泛化能力。

猜你喜欢

模板节点区块
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
分区域的树型多链的无线传感器网络路由算法
特高大模板支撑方案的优选研究
Inventors and Inventions
基于移动汇聚节点和分簇的改进节能路由算法
基于点权的混合K-shell关键节点识别方法
百度推出“区块链操作系统”BBE平台
区块链产业发展速度放缓
Unicorn正式上线区块链浏览器UIC—Explorer