大数据的研究现状及对食品安全监管带来的机遇与挑战
2017-04-09陈世奇
陈世奇
(重庆市食品药品检验检测研究院,重庆 401121)
大数据的研究现状及对食品安全监管带来的机遇与挑战
陈世奇
(重庆市食品药品检验检测研究院,重庆 401121)
阐述了大数据技术的概念和特点,结合我国食品药品检验机构数据资源的获取、分析、利用现状,提出了大数据时代食品药品检测机构面临的机遇和挑战,食品药品监管部门需要加快大数据信息化平台建设,促进监管检测信息共享;以数据分析应用为重心,为决策层提供数据支撑,形成智慧监管。
大数据;数据挖掘;食品药品监管
当今世界正处在一个数据爆炸的时代。物联网、云计算等新技术快速发展,以及全球定位、移动互联、物联网、电子商务、安全监控、社交网络、金融电信等随处可见,由此而产生的数据呈现井喷式暴涨,给社会各界乃至每个人的工作和生活带来了巨大的变化,食品行业处在这一浪潮中面临巨大的机遇和挑战。党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》中明确指出:完善统一权威的食品药品安全监管机构,建立最严格的覆盖全过程的监管制度,建立食品原产地可追溯制度和质量标识制度,保障食品药品安全。"建立最严格的覆盖全过程的监管制度"将食品药品安全监管纳入了一个全新的定位,是食品药品监管工作定位的重大飞跃,充分说明食品安全监管工作不仅是保障和改善民生的重要内容,而且已处在维护公共安全、促进社会和谐的关键点上。监管体系是国家治理体系的重要组成部分,食品安全监管更是公共安全治理的重要内容。这就要求监管工作跳出固有的模式,加快信息化建设步伐,打造现代化监管体系,让“智能监管”成为监管新常态,食品行业“大数据”、“云计算”的时代已经到来。
1 大数据概述
1.1 大数据的定义及其特点
大数据是指经过长期收集所得的资料, 因规模巨大而复杂, 无法通过目前主流的数据库管理工具和数据处理软件来处理[1]。大数据与过去的海量数据的区别不仅仅在于数据量更大, 更在于数据类型繁多[2],不单纯包括“数字”,还包括文本、图片、音频、视频等多种格式, 涵盖内容十分丰富[3]。
1.2 大数据的价值链
大数据的价值链是由数据、技能和思维构成。其中, 数据指数据化; 技能指对数据的分析处理技术, 而大数据思维则与目前的互联网思维有着本质区别: 前者指的是一种意识, 挖掘数据的新价值的独特想法,后者的本质是如何找到针对不同事物的有效分析模型[4],是大数据的核心价值所在。
2 大数据及其质量研究的国内外研究现状
2.1 国外研究现状分析
国外关于数据质量的研究开展较早,已经从不同角度进行了深入研究:D.Boyd 等分别从文化、技术、学术现象、数据分析等方面说明大数据所带来的影响和意义; Y.Demchenko 等描述了大数据的定义及其“5V”特征,指出了不同科研团体对大数据管理、获取控制和安全的需求情况,并对大数据中非结构化因素等问题提出了建议; J.M.Tien 概述了大数据时代的数据采集、数据存取、数据分析和数据应用的基本理论及其改进方法[5]。I.Taleb 等提出在数据预处理阶段解决大数据质量问题,包括子过程如清洗、整合、过滤和归一化等,并提出了一种结合流程的大数据质量模型来支持数据质量的选择和适应;B.Saha 指出当前大型数据库和网络中存在大量的低质量数据,会对数据分析结果产生严重影响;T.Lukoianova 等认为大数据的来源、处理技术、数据收集和科学发现方法的不同,导致大数据存在偏差、模棱两可与不准确等质量问题,详细阐述了“大数据准确性”的概念,并分别从客观性和主观性、诚实与欺骗、信任和难以置信三个主要维度探索大数据的“准确性”[6]。2014 年联合国统计司和联合国欧洲经济委员会对78 个国家统计局和 28 个国际组织的大数据项目调查显示,超过 2/3 的国家尚未定义大数据质量评估框架,许多国家正积极推动大数据质量框架建设[7];联合国欧洲经济委员会提出了大数据质量评估的 11 个维度,分别是机构/商业环境、隐私和安全、复杂性、完整性、可用性、时间因素、准确性、连续性、真实性、可获得性和清晰、相关性;欧盟BLUE-ETS 项目已经开始将大数据的基本框架用于评估二手资料的输入质量;联合国亚太经社会(ESCAP)虽尚未提出大数据质量评估框架,但会对数据的相关性、可获得性、代表性和持续性等数据质量的重要指标进行评估。
2.2 国内研究现状分析
相对于国外而言,国内的大数据研究和应用尚处于起步阶段,国内文献的研究成果主要集中于大数据述评研究和大数据技术研究,虽然大数据质量相关研究文献较少,但大数据质量问题已经得到了学者们的广泛关注。陶雪娇、方巍等人较详细的介绍了大数据的含义、基本特征、大数据兴起的时代背景[8];涂新莉等人分析了大数据的研究及应用现状,并对国内外大数据处理工具及技术进行了相应的论述;王乾、周世佳等人阐述了大数据思维的重要意义[9];孟小峰、王珊等对大数据带来的机遇和挑战进行了相应分析;冯登国、王璐、刘雅辉、戚建国等人对大数据时代的信息安全和用户隐私问题进行了探讨[10]。程学旗等人总结了深度学习、知识计算、社会计算与可视化等技术在大数据分析理解过程中的关键作用,梳理了大数据处理和分析过程中面临的数据、计算和系统等多重复杂性挑战,并提出了相应的对策;杨单、赵梦龙、苏毅娟、张顺龙等人提出了一系列关于大数据聚类、分类、数据分析的算法[11];费仕忆、于富东、程耀东等人探讨了大数据平台构建中面临的数据采集清洗、存储、处理、传输、共享与安全等关键技术,提出了大数据平台的系统架构并开展了实践研究[12]。宗威等人从流程、技术和管理的视角分别讨论了大数据时代下企业数据质量的挑战、重要性及应对措施[13];李建中等人指出大数据质量问题产生的原因在于大数据具有规模性大、高速性和多样性等特点;王宏志总结了大数据质量管理的问题与挑战,认为大数据质量管理的挑战主要有计算困难、错误混杂和缺少知识三个方面,并相应地提出了解决方案;黄沈滨等人则从技术的角度探讨了大数据的数据清洗问题,基于 Hadoop 设计并实现了一个大数据云清洗系统,通过 Mapreduce 计算模型检测并修复数据质量问题[14];蔡莉等人提出了大数据质量标准,包含可获得性、可用性、可靠性、相关性、表达质量等 5 个维度,该维度进一步细化出 17 个质量特征和 32 个质量指标,并探讨了大数据质量动态评估的流程。
3 大数据呈现的特点:
3.1 数据来源社会化,应用广泛化
大数据时代,随着电子商务,即时通讯、搜索引擎和网络交友等为主体的互联网经济飞速发展,物联网、云计算、移动互联、手机平板电脑、台式终端以及遍布全球的各种传感器,都成为数据的来源或者载体。数据采集不再局限于统计者人工有意识地主动采集,其来源被分散化、社会化、自动化。其数据覆盖了数字、文本、声音、图片、视频等多种信息类型;数据对象分布广泛,可能来源于不同的主体或个体;即使来源于相同的主体或个体,但观察的视角、维度、频率也可能有所区别,结构异常复杂;数据量的增长快速。所以,数据采集是社会化的。另外,数据的应用也是社会化的。如此丰富庞大的数据为人类的社会生活创造出前所未有的可量化的维度,任何个体、组织都可以各取所需,进行不同程度不同方向的数据挖掘;大数据时代人们关注的重点已经由对精确性的追求让位于混杂性与全面性,由因果关系的探索让位于追求相关关系。大数据已经成为了许多新发明构想和新服务开发的源泉,正渗透到政府、科技、商业、经济、医疗、教育、人文以及社会生活的各个领域,大数据的开发应用日益成为经济价值的重要来源之一。
3.2 数据需求层次多元化
大数据时代,给了人们条件可以在广泛的领域和深入的层次获得和分析整个数据。政府层面,可应用大数据来提高应急处理及安全防御能力,改进社会管理和治安管理;企业层面,可以衍生出许多基于大数据分析的商业模式,帮助批零商及时掌握市场动态并快速做出反应,帮助生产商准确把握市场需求脉搏、提升产品设计、提高生产效率,帮助电商制定更加准确有效的营销策略等;公众层面,可以享用到更多个性化、人性化、多样化的商业产品和公共服务。
3.3 数据分析方法智能化
大数据除了传统的结构化数据外,还涵盖所有格式的办公文档、文本、XML、HTML、各类报表、图片和音频、视频等多种数据类型,数据的预测功能成为核心。分析完整过程中产生的不间断海量数据,能够总结发现相对稳定的规律。通过数据比对,去除偶然性和外界环境干扰带来的噪点,通过数据累积,找出异常波动和结果之间的对应关系。而传统的数据主要通过单个数据精确来反应当时状态,且由于数据产生的时滞性,往往只能事后反映。大数据包含大量非结构性或半结构化的数据必须实用智能化方法才能进行有效的分析,大数据中包含大量传统分析方法难以处理的非机构化的数据,处理这些数据就必须使用大数据时代先进的分析方法。
4 大数据应用的分析技术
分析技术指的是寻找被分析者之间的关系及其隐藏的内容来获取有用的信息,我国对大数据的分析应用目前还处于起步阶段,多种新技术日新月异,主要有以下几个方面:
(1)可视化分析 数据的可视化分析对普通分析或者深入分析都是最基本的功能。数据图像化可以让抽象数据具体化,给用户直观的感受;
(2)数据挖掘算法 可视化分析是将机器语言翻译给人看,而数据挖掘就是机器的初始语言。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值,这些算法符合大数据时代的要求,同时还提高数据处理的速度;
(3)语义引擎 大数据时代非结构化、半结构化数据越来越多,我们需要一套工具系统去分析,提炼数据,而语义引擎恰好满足这个条件;
(4)预测分析能力 数据挖掘算法是让分析师对数据承载信息更快更好地消化理解,进而提升自身判断能力,而预测性分析可以让分析师根据前两种分析的结果做出一些前瞻性判断;
(5)数据质量和数据管理 数据质量与管理是管理的最佳实践,透过预先设定好的流程和机器对数据进行处理确保获得一个可靠的结果。
5 利用大数据的环境做好食品药品的监管工作
食品药品监管部门需要以创新理念指导顶层设计,以总体架构方法加强整合;加快信息化标准规范建设,促进监管检测信息共享;以数据分析应用为重心,为决策层提供数据支撑,形成善用"大数据"成就食品药品智慧监管的新局面。根据国家食品药品监督管理总局要求,食品药品检验系统将建立全国食品药品检验检测信息化体系,实现自动化、流程化开展业务工作,并实现各级食品药品检验机构间的互联互通的信息共享,完成多级系统间的数据交换工作,同时建设与应用系统相配套的基础运行环境、数据资源、应用支撑平台、标准规范体系等。这一切都推动着食品药品检验业务服务和业务统计信息及监管工作从手工报告向网络电子报告,从统计报表向数据服务平台方式转变,食品药品检验信息平台和业务系统也因此逐步建立完善,并将积累丰富的统计信息大数据资源。同时,随着大数据技术的不断应用,食品药品大数据将为我们提供了一种新的看待数据的方法,不再完全依赖于随机抽样,不再热衷于追求精确度,不再热衷于寻找因果关系,通过大数据分析,挖掘出小数据无法提取的有价值信息,服务于经济社会发展,大数据必将对食品药品检验领域带来重大影响。
[1] Wikipedia. big data[EB/OL]. http://en.wikipedia.org/wiki/Big_data,2014-05-16.
[2] Grobelnik M. Big data tutorial [EB/OL].[2012-10-22].Http://viedeolectures.net/eswc2012-grobelnik-big-data/.
[3] 陈冠如. 善用“大数据”成就智慧监管[N]. 中国医药报, 2014-04-08(8).
[4] 维克托·迈尔-舍尔维恩,肯尼斯·库克耶. 大数据时代[M]. 浙江: 浙江人民出版社, 2012.
[5] Viktor Mayer-Schonberger, Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work, and Think[M]. New York:Eamon Dolan / Houghton Mifflin Harcourt, 2013.
[6] Decandia G, Hastorun D, Jampani M.Dynamo: amazon's highly available key-value store[J].Acm Sigops Operating Systems Review. 2007 , 41 (6) :205-220.
[7] Fauconnier G,Turner M.The way we think : conceptual blending and the mind's hidden complexities[J].Wired, 2003 (2) :254.
[8] 陶雪娇,胡晓峰,刘 洋. 大数据研究综述[J]. 系统仿真学报,2013(s1): 142-146.
[9] 周世佳. 大数据思维初探:提出、特征及意义[J]. 中共山西省直机关党校学报,2014(5):10-12.
[10] 冯登国,张 敏,李 昊. 大数据安全与隐私保护[J]. 计算机学报,2014(01):246-258.
[11] 杨 单. 基于图像差分特征的彩色图像差分预测与信息提取算法研究[J]. 计算机科学,2015(01):308-311,316.
[12] 费仕忆. Hadoop 大数据平台与传统数据仓库的协作研究[D].上海:东华大学,2014.
[13] 宗 威,吴 锋.大数据时代下数据质量的挑战[J]. 西安交通大学学报(社会科学版),2013(05):38-43.
[14] 金 连,王宏志,黄沈滨,等. 基于 Map-Reduce 的大数据缺失值填充算法[J]. 计算机研究与发展,2013(s1):312-321.
TheResearchStatusofLargeDataandtheOpportunitiesandChallengesforFoodSafetySupervision
ChenShiqi
(Chongqing Institute for Food and Drug Control,Chongqing 401121,China)
This paper expounds the concept and characteristics of large data technology. The opportunities and challenges of food and drug testing organizations in large data age are proposed based on the acquisition, analysis and utilization of data resources of food and drug inspection institutions in China. Moreover, the food and drug supervision departments need to accelerate the construction of the big data information platform and promote the supervision and testing of information sharing; the intelligent supervision is formed with data analysis applications as the focus and being data supportfor the decision-making level.
large data;data mining;food and drug regulation
2017-07-13
陈世奇(1968—),重庆人,正高级工程师,主要从事食品化工检验、技术管理。
F426.82;F203
A
1008-021X(2017)18-0136-03
(本文文献格式陈世奇.大数据的研究现状及对食品安全监管带来的机遇与挑战[J].山东化工,2017,46(18):136-138.)