APP下载

针对农残检测数据的多MRL分析系统

2018-09-26陈红倩温玉琳杨倩玉

计算机应用与软件 2018年9期
关键词:圆环例数可视化

陈红倩 温玉琳 杨倩玉 李 慧

1(北京工商大学计算机与信息工程学院食品安全大数据技术北京市重点实验室 北京 100048)2(北京联合大学管理学院 北京 100101)

0 引 言

食品安全问题目前是中国最重要的问题之一,食品安全主要由生物因素和化学因素引起,其中化学因素便涉及到农产品中的农药化学污染残留,简称为农残。目前市面上公布的蔬菜农残检测结果主要来自于政府、第三方检测机构和媒体等相关部门。现有的Excel、Tableau等数据分析软件,虽然可以很好地通过数学运算与图形结合的方式完成数据分析工作,但对于没有专业知识的人来说难以迅速上手,属性较多操作复杂,且数据量不够大。采用数据挖掘的方式需要在前期对数据预处理做大量的工作,但大部分分析都只是针对一种MRL进行分析,无法进行综合比较和数据评价。此外,针对不同地区,对采样策略、快速采样决策,以及实现整体性食品安全管控,还未有详尽的支持。

本文针对专业人员和非专业人员设计了一个基于分类统计的多视图联动农残可视分析系统。采用了地理数据可视化技术和层次数据可视化技术,直观地展示了农产品的所属地区、产品分类,可以对大量数据进行概览,提高数据分析的效率。并利用多重放射环的方法快速将农产品按照毒性进行分类,设计了一系列交互手段去支持用户根据选择年份、地区来查看农残污染情况,实现多MRL标准对比。同时可以进行综合分析和数据评价,快速获知哪些地区的农药残留量普遍超标或有高剧毒农药检出,获知哪些地区的农产品需要重点关注,为市场管理机构提供决策支持。

本文的主要分析任务如下:

(1) 能够显示某一地区的采样农产品种类及超标样例数,并进行多国MRL标准对比。

(2) 能够得知某一毒性下的采样农产品种类及样例数,并显示特定采样农产品残留农药的品种、检出频次等。

(3) 能够根据筛选,对多地区高效进行农药残留对比分析。

1 相关工作

1.1 食品安全数据分析现状

在食品安全研究领域中,国内外很多专家学者在食品安全领域进行了不懈的努力,并取得了很多重要的成果。目前针对农残检测数据的分析,主要有以下几类研究:(1) 借鉴领域上专家学者的经验知识来进行数据分析,这种手段虽然具有快速性,但是无法保证其准确性和充分性。(2) 一些领域专家通过统计分析方法进行数据分析,但这种分析数据量小,只能分析概况,无法针对特殊内容进行细节分析。(3) 一些专家学者使用一些经典的数据挖掘方法来对食品安全数据进行检测与分析,但由于食品安全数据的特殊性,这些方法有时会得出一些错误结论。

数据可视化以更直观的方式表达数据信息,已被可视化领域众多专家证明其为一种高效获取信息的方法,文献[1]指出“可视化技术是数据分析与信息获取的重要手段”。文献[2]指出将专家知识引入数据挖掘过程,从而在可视化结果中寻找数据可能存在的模式。而在可视化技术方面,文献[3]提出目前数据可视化主要集中于层次数据和高维数据的研究。本文结合可视化技术,提出了一种高效的针对农残检测数据的多MRL分析系统,农残检测数据具有显著的层次结构,如农产品的分类、农药的分类等。同时农药检出分布在国家不同区域,还需考虑地理数据可视化技术。因此将从两个方面讨论与该可视化系统的相关工作。

1.2 层次数据可视化技术

层次数据是一种常见的数据类型,注重表达数据间的层次关系。层次关系主要分为包含和从属两类,也可以表示逻辑上的承接关系。层次数据可视化主要分为三类:

(1) 节点-链接法 这种方法清晰直观,擅长表达层次结构,但不利于广度和深度相差较大时的布局,代表技术有径向树[4]等。

(2) 空间填充法 空间填充法相对节点-链接法弱于层次结构的表达,提高了空间利用率。空间填充法主要分为树图[5]和径向布局[6]两类典型方法。树图采用矩形表示节点,通过矩形的嵌套表达父子关系;径向布局类似于节点-链接法里面的径向树,但其采用放射环填充的形式改善了空间利用率,并且比树图更注重层次关系。

(3) 混合布局 节点-链接法和空间填充法各有优缺点,将两者组合可以结合双方的优势。这种组合设计的方法实现了可视化的多样性,将方法的优势最大化,但也会造成可视化结果的复杂化。如文献[7]提出的显性+隐性的布局方法、文献[8]提出的Flexible Trees布局。

1.3 地理数据可视化技术

地理数据描述了一个对象在真实空间中的位置,目前最传统最常用的地理数据可视化技术分为以下三类[9]:

(1) 点数据可视化 常用的点数据可视化方法是将对象根据坐标直接标识在地图上,例如文献[10]面向世界各国贸易数据设计了基于点的地理数据可视化,文献[11]设计热力图展示美国冠军在Twitter上发布的推文数量信息等。点数据可视化可以在有限的空间中展示大量的信息。

(2) 线数据可视化 绘制连线的时候通常采用不同的可视化方法来达到最好的效果,减少线段之间的重叠和交叉,增加可读性。当数据量太大时,会造成严重的视觉混淆,如果是为了理解数据整体模式,则可以采用适当的简化方法,例如文献[12]面向大量的船舶运输轨迹利用捆绑技术设计了基于线的地理数据可视化。

(3) 区域数据可视化 可视化区域数据的目的是为了表现区域的属性,最常见的方法就是颜色映射值。文献[13]针对传统地图的缺陷设计了贝叶斯可视化方法,分析了加拿大各省的犯罪情况。

2 单区域数据可视化方法

农残检测数据主要包含采样点、农产品、农药、农残检测值四大类数据,是典型的层次地理型数据。从分析各采样点农产品中是否检测出农药的实际需求出发,需要针对各个采样点采集的农产品,每种农产品采样的多个样本,每个样本的农药检出情况和农药的检出频次,检出农药残留值与农药毒性等相关信息进行深入的对比分析。除此之外,应使用不同国家或地区组织的MRL标准数据对采样点的各项数据进行统计对比,判定划分出超标与未超标的农产品,以提高判定的全面性。

单区域数据可视化方法原理如图1所示,它将根节点设计为饼图置于中心圆环,用以区分无检出、中低毒检出和高剧毒检出三大类,分别映射为A、B、C三个区域。外射的同心环以圆环向外辐射的方式逐级表达层次关系而并非同级关系,采用堆叠图的形式表示未超标/超标数据的占比。

图1 单区域数据可视化示意图

2.1 检测结果分类数据展示方法

检测结果分为无检出、中低毒检出和高剧毒检出三大类,在本文中通过图1中的A、B、C三个区域进行展示。

2.1.1 内径映射与计算

A、B、C区域半径为整个区域内径,内径映射为单采样点的采样样例数,根据本文数据集,内径映射如下所示:

(1)

首先将全部采样点的样例数作为一个集合Num,计算集合最大值Num.max和最小值Num.min;然后根据实际绘制效果,自定义映射区间[min,max];最后根据式(1)将内径映射为数值radius.in。A、B、C三区分别代表了无农药检出、中低毒农药检出和高剧毒农药检出。

2.1.2 角度映射与计算

将无农药检出类、中低毒农药检出类、高剧毒农药检出类映射为图1中的A、B、C三区,并依次计算占比。圆心角的计算如下所示:

(2)

式中:n为检测种类数;xi为第i种检出类的样例数。θi为起始角度开始到第i个区间的结束角度,i取值范围为[1,n],起始角度默认为0。

2.2 毒性判定结果可视化

饼图A、B、C区外的映射圆环,根据根节点饼图的区间数,各分区饼图外圈圆环的环宽度值映射为三种情况:

(1) 无农药检出类(图1 A区)无承接属性,所以对应外圈环宽度为0。

(2) 中低毒农药检出类(图1 B区),按其评估值映射为B1区的单层环宽值,该评估值选择为农药残留量的平均值。B1区的计算如下所示:

(3)

式中:[min/2,max/2]为B1区的单层环宽值,其值根据内径映射区间决定,将全部采样点中低毒农药类评估值作为一个集合Low,Low.max为集合最大值,ring.width为B1区单个环宽值,radius.out为多重放射环外径。

(3) 高剧毒农药检出类(图1 C区),将外圈圆环的环宽映射为检出频次,根据检出频次所在区间决定C1区环宽。映射方法为将B1区的外径由内到外划分为6个分段,每个分段映射为一个检出频次区间(具体细节见2.3节)。

2.3 多标准MRL下的毒性判定结果可视化

为可视化多种MRL检测标准下的超标/未超标判定结果,将中低毒农药检出分类(图1 B1区)的外径由内到外划分为6段:第一分段对应的单层圆环表示中国的MRL标准下的判定结果;第二分段对应的单层圆环表示欧盟的MRL标准下的判定结果;第三分段对应的单层圆环表示日本的MRL标准下的判定结果;第四分段对应的单层圆环表示中国香港的MRL标准下的判定结果;第五分段对应的单层圆环表示美国的MRL标准下的判定结果;第六分段对应的单层圆环表示CAC的MRL标准下的判定结果。判定结果中未超标/超标占比将对应圆环逆时针分割。分割计算如下所示:

(4)

式中:m为分割区间数,只有超标与未超标两种情况,因此范围为[1,2];yj代表第j个分割区间的样例数,取值范围为[1,m];φj为起始角度到第j个分割区间的结束角度;θi-θi-1为中心饼图中第i个扇区的圆心角。

2.4 各区域着色方法

将饼图的未检出类、中低毒农药检出类、高剧毒农药检出类分别对应不同颜色,第二重环采取24颜色环的着色方式,同一圆环采用同一色系。在同一圆环中,为增强可读性,超标部分使用深色着色,未超标部分不着色。

3 农残检测数据分析系统

基于分类统计的农残检测数据可视分析方法能从信息可视化的角度将各采样点、样品农产品、检出农药和检出农残限量值展现在同一页面中,并通过设计的交互手段辅助用户进行深入式的探索分析。在对传统可视化方法进行比对后,本文基于多重放射环的标准对比方法,结合层次数据可视化方法和地理数据可视化方法针对这四大类数据进行分类统计,设计并实现了该农残可视分析系统。系统界面图如图2所示。

图2 系统界面图

(1) A区 数据筛选包括时间筛选、地点筛选、点筛选等。本文农残检测数据集包含了2012年到2016年5个批次的采样数据,每年都将对不同地区的各大超市进行采样。针对地区的筛选,系统提供从全国到各城市再到具体市县的选择,方便用户快速指定感兴趣区域。点筛选功能提供对地图层采样点的筛选,可以在地图层绘制多边形或矩形选择点数据,通过点筛选可实现多采样点农残污染评估对比。

(2) B区 地图层是为了辅助地理位置信息的展示,结合人类的认知习惯,方便用户使用。地图层通过Arcgis提供地图底层,并且由leaflet插件提供API实现点数据的交互功及功能控制。功能控制按钮与视图协同展示,极大地利用了空间。

(3) C区 饼图是该系统的辅助视图。当用户与地图层点数据交互时,系统将会过滤出该位置点的农残检测数据集,通过选择C区某一采样农产品类别,将显示该类别下采样农产品分类样例数占比,从而辅助用户了解基于农产品分类的采样情况。当数据集无某一采样农产品采样时,将提示用户无对应农产品类采样,当用户未与地图层点数据交互时,将提示用户选择感兴趣的采样点。

(4) D区 当与地图层点数据交互后,将过滤数据集通过多重放射环布局显示在D区。由于单采样点属性展示不涉及多点对比,应将冗余属性去除,简化可视化编码。多重放射环的内径和外径不再映射采样量和中低毒农药检出的评估值,而是固定值。其次A1区不再通过颜色映射高剧毒农药的评估值,而是固定颜色。B1区原本采用堆叠图展示两类判定结果,考虑该部分重点关注我国超标农药检出样例数占比与其他国家的差异,因此去除了未超标农药检出样例数占比结果,从而提高了用户分辨率。同时D区对应的图例部分将根据交互选择的结果更改样例图标,帮助用户记忆交互过程。

(5) E区 该部分同C区,是系统的辅助视图,也是D区交互的结果。显示某检出类下采样的采样农产品类别,通过选择某一类别,用玫瑰图展示该类别下各类农产品采样样例数占比。

(6) F区 该部分支持用户进行单采样点圈选和多采样点圈选两种方式。当进行单采样点圈选时,通过与玫瑰图的交互,用散点图加直方图显示某类农产品下具体采样的农产品项、检出农药物、农药残留值属性、农药检出频次。其布局效果如图2中F区所示,其中坐标轴横轴方向表示某一类检出类别下的检出农药名,坐标轴纵轴方向表示某一检出类别下采样的农产品名,轴上的气泡表示该位置点对应农药的检出,通过气泡半径映射农药残留值。叠加在气泡图上方的直方图表示对应气泡图横轴农药的检出频次。

(7) G区 颜色图例。

(8) H区 各部分快捷菜单。

4 可视交互与案例分析

本案例通过A区筛选出2016年全国农残检测数据集,针对该数据集分析结果如下:

当用户选取多个采样点时,通过F区展示多采样点对应的多重放射环矩阵视图,效果图如图3所示。此处多重放射环为有对比展示,需要加上采样量、中低毒农药平均检出含量、高剧毒农药平均检出含量。该部分主要用于多采样点的数据对比及农残污染评估。

图3 多重放射环矩阵视图

通过图3可以看出,本案例共选8个采样点,均为北京市地区。从多重放射环半径代表的采样量看,超市2和超市8相对其他要少;从多重放射环外径代表的中低毒农药平均残留量看,超市6较少;从饼图部分看各检出类样例数占比,发现大部分超市农产品都有农药残留,其中超市3和超市8无农药检出样例数占比较其他要多,超市8高剧毒农药检出样例数占比相对较少。从多国MRL标准超标情况来看,欧盟、日本均有超标农药检出,且超标检出样例数占比均较大,而超市2、超市4、超市5、超市7大部分MRL标准下均有超标。从高剧毒农药平均检出含量值来看,超市5较少,从高剧毒农药检出频次来看,大体一致。

D区高剧毒检出样例数大约占据总样例数的25%,中低毒检出样例数偏多,只有较少的农产品样例未检出农药。如图4所示。

图4 单采样点放射环

通过C区饼图发现该采样点蔬菜类有9种采样,其中叶菜类蔬菜占比较大,其他相对均衡。如图5所示。

图5 采样农产品采样样例

通过点击D区中低毒农药检出类发现E区只有蔬菜类有中低毒农药检出,而蔬菜类中有9种含有中低毒农药检出,其中叶菜类蔬菜检出占比较大,其他相对均衡。如图6所示。

图6 中低毒农药检出类采样农产品

通过案例分析,本系统很好地完成了预期的分析任务,极大地提高了分析效率。

5 结 语

本文针对农残检测数据集,利用层次数据可视化方法和地理数据可视化方法,实现了基于单采样点的数据分类统计,并根据数据分层结构。针对不同的数据特征,呈现数据的层次关系、时间趋势、分类对比,提出了针对多判定标准的对比可视化方法。同时设计并实现了基于分类统计的农残检测数据可视分析系统,帮助用户筛选感兴趣的数据集。针对目标区域引导用户从整体到部分对数据进行全面、深入的分析,并根据可视结果评估农残污染程度。设计了一个直观可交互的农残可视分析系统,利用多视图协同的模式引导用户概览农残检测数据的检测及判断结果,并且还可针对具体的农产品、农药的检出细节查看,同时给出污染评估指标,评价地区污染程度。通过分类使人们更容易理解数据,通过简单直观的方式使更多的人能发现数据的潜在价值。

在未来的研究过程中,将引入焦点+上下文技术,辅助用户展示重点关注的内容,凸显用户感兴趣程度,展示更多信息。

注: 本文中所使用的农残检测数据内容已进行脱密混淆处理,非真实数据,请勿直接采信,但不影响阐述数据分析过程。

猜你喜欢

圆环例数可视化
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
圆环填数
思维可视化
自然资源可视化决策系统
猪圆环病毒病的发生、诊断和防治
盆腔灌注法治疗慢性盆腔炎的临床效果
人工膝关节翻修例数太少的医院会增加再翻修率:一项基于23 644例的研究
观察糖尿病足护理“五部曲”的健康教育预防糖尿病足的发生的效果
孕晚期经会阴超声评价宫颈各参数的临床意义