APP下载

基于大数据挖掘的食品安全风险智能监测模型

2021-05-08

食品工业 2021年4期
关键词:粗糙集数据挖掘危害

浙江财经大学(杭州 310018)

各行的数据规模和种类近年来随着信息产业的发展呈指数级增长,开启了我国大数据时代。通过数据挖掘可以提高数据库中的数据价值[1]。与此同时,我国频繁发生食品安全事件,如有毒大米事件、“瘦肉精”中毒事件、劣质奶粉事件以及“苏丹红”事件等,对消费者的身体健康造成了极大的威胁,同时在社会中引起了负面效应。因此需要对食品安全风险进行监测,通过食品安全风险监管可以提高食品安全水平[2-4]。当食品安全存在危机和风险时,食品安全监管部门需要采取相关措施,对食品的危害程度和危害成分进行辨别,并以预警的形式公告给顾客,提醒顾客禁止使用或慎食,最小化危害和风险。当前食品安全风险监测方法存在实时性差和监测准确率低的问题,需要对食品安全风险监测方法进行研究。

张明等[5]提出基于Rosetta粗糙集理论的食品安全风险监测方法,该方法在Rosetta粗糙集理论的基础上简约指标,获取指标属性对应的重要性,分类并整理数据,构建指数分级标准,生成决策表,实现食品安全风险的监测,该方法获取指标属性重要性所用的时间较长,存在实时性差的问题。梁辉等[6]提出基于最邻近距离空间分析法的食品安全风险监测方法,该方法将采样地点数据通过GIS地理编码技术转变为经纬度坐标,并在电子地图数据库中利用经纬度坐标制作采样地点专题图,通过空间随机模式下的平均最邻近距离与采样地点平均最邻近距离的期望比值判断空间分布特征,来实现食品安全风险的监测。该方法存在监测准确率低的问题,得到的监测结果与实际不符。

为了解决上述方法中存在的问题,提出基于大数据挖掘的食品安全风险智能监测模型。

1 数据降维

基于大数据挖掘的食品安全风险智能监测模型通过数据挖掘技术对食品数据进行降维处理:

对m个变量ξ1,ξ2,…,ξm进行n次观测,构建观测数据矩阵X,其表达式如下:

设sj代表样本标准差,

设R代表样本相关矩阵,其中通过下式对R=UUΛUT进行特征分解。

1) 对R的特征向量和特征值进行计算。设λ1≥λ2≥…≥λm≥0代表样本相关矩阵R的m个特征值,对各个主成分对应的贡献率进行计算[7],主成分分析结果为符合λp+1<1的前p个主成分:

2) 对特征值按照从大到小的顺序对进行排序λ1,λ2,…,λm[8-10],并对特征值所对应的特征向量eig1,eig2,…,eigm进行计算,各个特征向量在此时为两两正交,是单位向量。

3) 构建主成分载荷阵。设Um×p代表的是主成分载荷阵,通过前p个特征向量构成,其表达式为

通过上述过程获得原变量ζ1,ζ2,…,ζm,通过式(5)用主成分变量η1,η2,…,ηp代替原变量。

经过变换后获得新样本数据对应的特征维数明显小于原始数据对应的特征维数,其降低了样本的数据量,实现了数据降维。

2 食品安全风险智能监测模型

风险是风险因素的损失度与发生的可能性的二元函数,可通过公式进行描述:R=f(P,S)。式中,R表示食品风险分析值;S表示风险因素产生的损失度;P表示发生风险因素的可能性[11]。

2.1 单个危害指标的风险分析

在式(12)的基础上分析危害指标,对危害指标的损失度大小和风险可能性进行度量,并在风险计算公式中引入损失度数值和可能性数值。

2.1.1 风险可能性

2.1.2 风险损失度

通常由风险因素造成的危害程度与其污染程度决定风险损失度,社会影响因子会对风险损失度产生影响。设代表第n种食品的第i个危害指标在第m类食品中对应的风险损失度,可通过式(7)计算得到:

式中:Di代表危害指标对应的危害程度;Wi为社会影响因子,由于人为影响或社会流动性食品风险因素的损失度比实际严重;为危害指标对应的污染指数[15]。设xij代表第i个危害指标测试试验中存在的第j条检验数据值。计算危害指标的污染指数

式中:li1为在食品含量中第i个危害指标对应的危险值;li2为国标中的限量值;J为第i个危害指标测试试验的检验总次数。

2.1.3 风险等级评定

由于风险是损失度与可能性的二元函数,基于大数据挖掘的食品安全风险智能监测模型通过基于风险矩阵的风险结果表现形式对风险结果进行直观的描述。

在食品安全风险智能监测模型中,通过式(9)对风险进行计算:

在第一象限内不同半径的圆的分布与不同等级风险分布近似,通过式(10)对单个危害指标对应的风险值进行计算:

2.2 单种食品的风险分析

通过度量风险损失度与风险可能性的方法对风险等级进行综合考虑。

2.2.1 风险可能性

度量各个风险因素在单种食品中的风险,由危害指标产生的风险等级最大值对应的风险可能性对单种食品产生风险的可能性进行决定,即:

式中:Pnm为第n种食品在第m类食品中产生风险的可能性;max{·}为取最大值操作;I为食品危害指标的总数。

2.2.2 风险损失度

通常由危害指标产生的风险等级最大值对应的风险损失度决定单种食品对应的损失度:

式中:Snm代表第n中食品在第m类风险食品中对应的风险损失度;Znm在区间[0,1]内取值,表示食品管理控制因子,食品管理控制因子随着食品管理控制管理力度的增强而增大,食品造成的损失度随着管理力度的增强而减小。

2.2.3 风险等级评定

在风险等级矩阵中引入量化处理后的单种食品产生风险的损失度和可能性,获得单种食品对应的风险等级,风险值Rnm可通过式(13)计算得到:

2.3 区域食品总体状况的风险分析

通过食品总体汇总加权系数加权求和各类食品对应的风险可能性,通过公式计算食品总体产生风险对应的可能性通过食品总体汇总加权系数加权求和各类食品对应的风险损失度在风险等级矩阵中代入量化处理后的P和S,获得食品安全总体状况对应的风险等级,通过式(14)对具体风险评价值进行计算:

3 试验结果与分析

为了验证基于大数据挖掘的食品安全风险智能监测模型的整体有效性,需要对基于大数据挖掘的食品安全风险智能监测模型进行测试,此次测试在MyEclipse 8.6软件中完成,分别采用基于大数据挖掘的食品安全风险智能监测模型、基于Rosetta粗糙集理论的食品安全风险监测方法和基于最邻近距离空间分析法的食品安全风险监测方法进行测试,通过分析数据所用的时长比较,对比不同方法的实时性效果,测试结果如图1所示。

图1(a)为基于大数据挖掘的食品安全风险智能监管模型的测试结果,分析图1(a)可知,采用基于大数据挖掘的食品安全风险智能监管模型进行测试时,在多次迭代中分析数据所用的时间均低于0.4 s;图1(b)为基于Rosetta粗糙集理论的食品安全风险监测方法的测试结果,分析图1(b)可知,采用基于Rosetta粗糙集理论的食品安全风险监测方法进行测试时,在第3次迭代过程中分析数据所用的时间高达0.7 s;图1(c)为基于最邻近距离空间分析法的食品安全风险监测方法的测试结果,分析图1(c)可知,采用基于最邻近距离空间分析法的食品安全风险监测方法进行测试时,在第1次迭代中分析数据所用的时间高达0.8 s。对比基于大数据挖掘的食品安全风险智能监测模型、基于Rosetta粗糙集理论的食品安全风险监测方法和基于最邻近距离空间分析法的食品安全风险监测方法的测试结果可知,基于大数据挖掘的食品安全风险智能监测模型分析数据所用的时间最短,因为基于大数据挖掘的食品安全风险智能监测模型对食品安全风险进行监测之前通过大数据挖掘技术对食品数据进行降维处理,降低了数据量,缩短了分析数据所用的时间,提高了基于大数据挖掘的食品安全风险智能监测模型的实时性。

图1 不同方法的数据分析时间对比

在食品安全风险监测过程中需要对食品风险进行评价,分别采用基于大数据挖掘的食品安全风险智能监测模型和基于Rosetta粗糙集理论的食品安全风险监测方法进行测试,对比两种方法所用的评价时间,测试结果如表1所示。

表1中,CS代表的是试验次数;TJ代表的是评价食品安全风险花费的时间,单位为秒;SJ代表的是基于大数据挖掘的食品安全风险智能监测模型;RO代表的是基于Rosetta粗糙集理论的食品安全风险监测方法;PJ代表的是5次迭代的平均评价时间。分析表1中的数据可知,在5次迭代中基于大数据挖掘的食品安全风险智能监测模型所用的评价时间均低于基于Rosetta粗糙集理论的食品安全风险监测方法所用的评价时间,因为基于大数据挖掘的食品安全风险智能监测模型根据区域内食品的跟踪抽样检测结果确定具体危害指标,其降低了选取评价指标花费时间,提高了基于大数据挖掘的食品安全风险智能监测模型的评价效率。

表1 评价时间

为了进一步验证基于大数据挖掘的食品安全风险智能监测模型的整体有效性,分别采用基于大数据挖掘的食品安全风险智能监测模型、基于Rosetta粗糙集理论的食品安全风险监测方法和基于最邻近距离空间分析法的食品安全风险监测方法进行测试,对不同检测方法的监测准确率进行对比,其测试结果如图2所示。

图2 不同方法的监测准确率

图2(a)为基于大数据挖掘的食品安全风险智能监测模型的测试结果,分析图2(a)可知,采用基于大数据挖掘的食品安全风险智能监测模型对食品安全风险进行监测时,获得的监测准确率均高于90%;图2(b)为基于Rosetta粗糙集理论的食品安全风险监测方法的测试结果,分析图2(b)可知,采用基于Rosetta粗糙集理论的食品安全风险监测方法对食品安全风险进行监测时,获得的监测准确率在70%附近波动;图2(c)为基于最邻近距离空间分析法的食品安全风险监测方法的测试结果,分析图2(c)可知,采用基于最邻近距离空间分析法的食品安全风险监测方法对食品安全风险进行监测时,获得的监测准确率在60%附近波动。对比基于大数据挖掘的食品安全风险智能监测模型、基于Rosetta粗糙集理论的食品安全风险监测方法和基于最邻近距离空间分析法的食品安全风险监测方法的测试结果可知,基于大数据挖掘的食品安全风险智能监测模型的监测准确率最高,因为基于大数据挖掘的食品安全风险智能监测模型通过对引起食品安全的风险因素的风险损失度和风险可能性进行综合评估,实现食品安全风险的智能监测,提高了基于大数据挖掘的食品安全风险智能监测模型的监测准确率。

4 结语

研究提出的基于大数据挖掘的食品安全风险智能监测模型,对数据进行降维处理,在风险矩阵中引入风险损失度和风险可能性构建食品安全风险智能监测模型,解决了当前方法中存在的问题,实时性和监测准确率有了较大提高。未来的工作将集中在提高数据的多维度多影响因素分析方面,更好地为食品检测服务。

猜你喜欢

粗糙集数据挖掘危害
降低烧烤带来的危害
基于Pawlak粗糙集模型的集合运算关系
探讨人工智能与数据挖掘发展趋势
药+酒 危害大
基于并行计算的大数据挖掘在电网中的应用
酗酒的危害
多粒化粗糙集性质的几个充分条件
“久坐”的危害有多大你知道吗?
双论域粗糙集在故障诊断中的应用
一种基于Hadoop的大数据挖掘云服务及应用