APP下载

大数据实验室质量控制的研究方向

2017-07-18刘艳华秦士忠韩玥闫嵩马奔徐吉

质量安全与检验检测 2017年3期
关键词:实验室质量研究

刘艳华秦士忠韩玥闫嵩马奔徐吉

(1.北京出入境检验检疫局 北京 100026;2.中云智慧(北京)科技有限公司)

大数据实验室质量控制的研究方向

刘艳华1秦士忠1韩玥1闫嵩2马奔2徐吉2

(1.北京出入境检验检疫局 北京 100026;2.中云智慧(北京)科技有限公司)

实验室的管理者和质量保证人员通过观察质量控制测试的数据变化趋势,可以发现某些检测项目存在的变化趋势和可能的风险。利用大数据分析技术,对实验室数据进行质量控制,把大数据分析误差控制在允许限度内。在数据收集与统计分析的基础上,可以进行商业智能与趋势预测方面的应用,可以进行实验数据异常点校验与关联分析等方面的数据挖掘工作等。

大数据;云计算;实验室;质量控制

1 前言

随着人类的进步和科技的发展,计算机已经成为人们生活和工作中必用的工具。计算机应用的增多带动了数据量的增长,并且带动了互联网产业的发展,这次发展又带来了一次数据增长的高潮。在互联网时代下,每个人都是数据的制造者。近年来,物联网、云计算、移动互联网的进一步应用,使数据呈指数级增长。正是因为数据疯狂式增长,“大数据”才慢慢地被各界所研究。

大数据是指在不可承受的时间范围内用常规软件工具进行获取、管理和处理的数据集合。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分,大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

2 大数据国内外发展现状

2.1 国外发展状况

2.1.1 国家启动大数据布局

2012年3月,奥巴马政府投资2亿美元启动“大数据研究和发展计划”;2012年7月,日本发布“新ICT计划”,重点关注大数据研究和应用。

2.1.2 跨国 IT企业进入大数据领域

谷歌、Facebook等大数据资源企业优势显现;甲骨文、IBM、 微软、SYBASE、 EMC、Intel等企业陆续推出大数据产品和方案,如甲骨文公司的Oracle NoSQL数据库、IBM公司的InfoSphereBigInsights数据分析平台、微软公司Windows Azure上的HDInsight大数据解决方案、EMC公司的Greenplum UAP大数据引擎等。

2.1.3 大数据技术发展迅猛

以 HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB为代表的一批大数据通用技术和开源项目迅猛发展。

2.1.4 数据科学研究不断壮大

美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立大学等纷纷成立数据科学研究机构;美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国邓迪大学、中国香港中文大学等一大批高校开设了数据科学课程。

2.2 国内发展状况我国国内发展的状况见表1。

表1 国内发展状况

3 大数据国内外研究现状

当前对大数据的研究大致可以分为专注于研究大数据的复杂性和计算模型的基础理论,以及着眼于大数据的感知与表示、内容建模与语义理解,和大数据计算架构体系的关键技术这样两个层面。下面简要介绍相应的研究现状。

3.1 基础理论方面

针对大数据的复杂性,前期的研究主要是对网络上多种来源的数据进行性质分析和规律探索,很多学者尝试运用图论和统计分析等方法对数据进行定量分析。特别值得注意的是,人们已经发现了复杂的网络大数据之中存在一些统计规律性。面对大数据的复杂性,还有一些学者尝试使用统计方法和复杂网络方法来研究如何对大数据进行按需约简。但这类基于统计的方法在处理大数据时其时效性难以保证。

针对大数据的计算理论和算法的研究目前主要集中在大数据机器学习的基础理论、参数估计方法、优化算法等方面,形成的一系列成果为大数据高效计算提供了理论支持。

3.2 关键技术方面

爬虫是当前大数据感知和获取的基本技术,已得到迅速发展和广泛应用,但仍不能有效应对被称为Web2.0的新一代互联网数据[1]。为了有效利用网络大数据,需要将异构、低质量的网络数据转化为结构统一的高质量数据,因此业界提出了一系列数据抽取算法。但总的来说,将这些技术直接用于大数据处理,在数据处理的规模和得到的数据质量方面还不能令人满意。另一方面,人们很早就认识到了动态性和时效性是大数据的重要特性[2],数据流(data stream)[3,4]和时间序列(time series)[5]是表示和处理数据动态性和时效性的主要技术。同样,从数据的可处理规模和功能上,传统数据流和时间序列技术还无法满足大数据处理的需求。

大数据的架构体系研究首先需要关注的问题就是大数据如何存储,大数据存储的形式包括分布式的文件系统、分布式的键值对存储以及分布式数据库存储。当前的研究也集中在这3个方面,并依据应用的需求进行相关优化。在分布式文件系统研究方面,传统的分布式文件系统NFS应用最为广泛[6]。

4 大数据在实验室管理研究的应用

近年来,数据管理系统以及大数据在实验室管理研究中的应用日益增高。

2012年,韩深等[7]将科学数据管理系统应用在出入境检验检疫中,以实验室数据管理过程中的重要结点为研究对象,比较了传统数据管理方式和实验室科学数据管理系统各自的特点及优势,并通过研究和引进对接,建立了适用于检验检疫实验室的数据管理系统。该系统将实验室分析仪器与数据库对接,使仪器生成的原始数据能够在线上传到服务器中并保存,避免了原始数据的丢失和被修改。同时,通过数据管理系统可以方便地对检测报告进行调阅,大大提高了各级审核的效率。利用实验室科学数据管理系统与实验室LIMS系统、财务预算管理系统、试剂耗材管理系统、CIQ2000等系统进行对接,搭建了实验室数据交互平台,实现了现代实验室数据科学、高效、安全。

2014年,吴梅[8]以贵州地质矿产中心实验室为例,阐述了大数据及其对地矿分析测试工作的启示。在介绍大数据的内涵基础上,分析大数据的特征和时代价值,探讨其带给社会经济发展的意义,结果显示大数据时代对地质矿产实验室的分析测试数据库建设和管理工作带来了新的机遇。

2014年,梁祥炎等[9]在大数据下的实验室研究中阐明,大数据近年来引起各领域的广泛关注,大数据毋庸置疑将对各方面产生重大影响。实验室作为科学研究的阵地现有诸多不足,必定会受大数据冲击。大数据是实验室研究工具的创新,能有效反映实验室研究动态,寻找内部深层次规律,对实验室研究进行有效感知。大数据打破人认识及思维局限,实现实验室研究的协同创新及社会化,使实验室研究减少不必要的实验,实现实验的可预测。鉴于大数据对实验室研究的重要性,应提高实验研究人员对信息数据的主动性和敏感性,创新实验室研究方式和方法,培养实验室大数据人才,增强实验室研究的合作,加强实验室大数据的硬件设施建设,完善相关制度。

2014年,梁祥炎[10]在基于现象学方法的大数据实验室研究中表示,在大数据背景下,实验室研究的思维方法和方式都会产生重大变革。用现象学方法中的先验、解释以及体验等研究方法看待大数据下的实验室研究,以及探明实验室研究在大数据背景下的具体作用机理。

2015年,吴明念[11]开展了基于应用型本科院校的大数据实验室建设探究,从阐释大数据的内涵出发,探讨大数据应用型技术人才的需求、组建大数据实验室的意义和目标、大数据实验室建设方案及内容。

2015年,王定珠等[12]详细介绍了电子病历、手持移动终端、大数据采集与分析、数据安全在医疗质控中的应用。

5 大数据实验室质量控制的研究方向

5.1 大数据实验室质量控制的作用

实验室的质量管理架构中,检测结果的质量保证是关键的一环。实验室通过内部和外部质量控制了解分析检测结果偏差情况,采集和分析质量控制数据,然后采取纠正和纠正措施,从而保证检测结果的可靠性和准确性,并在具备条件的检测设备上将质量控制数据实时上传,形成动态的质量控制图,以便更有针对性地改进检测工作。

为保证检测质量的可靠性,实验室需要采用统计技术对实验室进行实验室内部和外部质量控制。在实验室制订质量控制计划的时候需要考虑的数据来源有:特定时间内的检测项目数、不同检测项目匹配的基质数、检测方法覆盖的领域范围、历年质量控制计划的结果、可重复性检测结果的数量、客户投诉的检测项目、内审中发现问题的检测项目以及实验室管理机构规范性要求等。实验室的管理者和质量保证人员通过观察质量控制测试的数据变化趋势,可以发现某些检测项目存在的变化趋势和可能的风险。

质量控制的方式包括定期使用有证标准物质进行监控或使用次级标准物质开展内部质量控制;参加实验室间比对或能力验证计划;使用方法比对;留样再测;一个物品不同特性结果的相关性分析。实验室将上述质控方式产生的结果,与实验室的自我质量要求纳入大数据分析,筛查出有必要进行质量控制的项目数据,避免人为确定质量控制项目的盲目性,使得实验室质量控制更加科学合理,降低实验室质量控制运行成本。

当实验室数据采用大数据分析技术,具有较完善基础及分析工作者具有一定素质之后,实验室使用内部和外部质量控制是科学管理实验室的主要方式和组成部分。

5.2 大数据实验室质量控制应与技术发展对接

(1)大数据与互联网的发明一样,绝不仅仅是信息技术领域的革命,更是在全球范围加速企业创新、引领社会变革的利器。

现代关系学之父德鲁克有言,预测未来最好的方法,就是去创造未来。而大数据战略,则是当下领航全球的先机。各类实验室作为创新基点,应该充分吸纳大数据技术带来的便利,更好地与技术发展对接。

(2)及时判断、分析实验结果发展和应用趋势。

大数据需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力,成为海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。而实验室数据庞大且冗杂,虽有一定规律性,但很容易产生数据变异。实验室数据分析与大数据技术相结合,利用并行运算和开源的大数据分析工具(如Hadoop),通过大量实验大数据应用状况,可以分析、预测实验最终结果的趋势,便于研究人员解决他们的难题,灵活、快速、高效地响应。

(3)可对实验室进行有效考核。

利用大数据分析技术,对实验室数据进行质量控制,把大数据分析误差控制在允许限度内,从而保证分析结果具有一定精密度和准确度,使分析数据在规定的置信水平内,达到所要求的质量。同时,也是对新方法、新技术可靠性有效考核的一种方式。

5.3 商业智能与趋势预测方面的应用

(1)在数据收集与统计分析的基础上,进行商业智能与趋势预测方面的应用。

实验数据经过处理之后进行入库处理,建立历史数据库,然后进行统计分析与商业智能分析。商业智能又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值,在有历史数据的支持下,可以使用商业智能技术做出丰富的报表统计,同时使用arima模型进行趋势分析和预测,得出未来可能的实验数据。

(2)在数据收集与统计分析的基础上,进行实验数据异常点校验与关联分析等方面的数据挖掘工作。

实验数据检测结果可以使用朴素贝叶斯模型进行异常点校验,将不符合常见历史数据的异常点筛选出来,再进行人工比对确定该实验数据的正确性;同时可以使用fptree等算法进行关联挖掘,分析历史数据间的关联关系。

6 结语

借助大数据的统计结果可以帮助实验室质量保证工作摆脱滞后和被动的角色,避免人为确定质量控制项目的盲目性,成为预判和主动改进的工具。基于大数据分析的实验室质量控制应与技术发展紧密对接,当采用大数据分析技术具有较完善基础及分析工作者具有一定素质之后,实验室的内部和外部质量控制应是科学管理实验室的主要方式和组成部分。在数据收集与统计分析的基础上,实验数据在商业智能与趋势预测方面有着广泛应用前景。

[1]Cho J,Garcia-Molina Hector,Page Lawrence.Efficientcrawling through url ordering[C].WWW 1998,April14-18,Brisbane,Australia.

[2]Fetterly Dennis,Manasse Mark,Najork Marc,et al.Alarge-scale study of the evolution of Web pages[J].Software:Practice and Experience,Special Issue:Web Technologies,2004,34(2):213-237.

[3]Motwani R,Widom J,Arasu A,et al.Query Processing,Resource Management,and Approximationin a Data Stream Management System[R].CIDR 2003.

[4]Chen Yixin,Dong Guozhu,Han Jiawei,et al.Multidimensionalregression analysis of time-series datastreams[C]//VLDB 2002:323-334.

[5]James D Hamilton.Time Series Analysis[M].Princeton University Press,1994.

[6]Shepler S,Callaghan B,Robinson D,et al.NFSv4.Request for Comments,2003,3530.

[7]韩深,刘岩,冯骞,等.科学数据管理系统在进出境检验检疫中的应用[J].检验检疫学刊,2012,22(2):51-53,57.

[8]吴梅.大数据及其对地矿分析测试工作的启示——以贵州地质矿产中心实验室为例[J].价值工程,2014,(17):234-235.

[9]梁祥炎,莫晓静.大数据下的实验室研究 [J].技术与市场,2014,21(7):7-10.

[10]梁祥炎.基于现象学方法的大数据实验室研究 [J].科技广场,2014,(5):6-11.

[11]吴明念.基于应用型本科院校的大数据实验室建设探究[J].电脑知识与技术,2015,11(16):6-7.

[12]王定珠,周凡漪.电子病历、手持移动终端、大数据采集与分析、数据安全在医疗质控中的应用 [J].中华医学图书情报杂志,2015,24(12):56-58.

The Research Orientation of Quality Control in Big Data Labs

LIU Yanhua1, QIN Shizhong1, HAN Yue1, YAN Song2,MA Ben2, XU Ji2
(1.Beijing Entry-Exit Inspection and Quarantine Bureau, Beijing, 100026;2.Sinocloud Wisdom(Beijing)Technology Co.,Ltd)

Laboratory management and quality assurance technician can identify the variation trend and possible risk of some test items by observing the data variation tendency of quality control test.The big data analysis technology can be used to the quality control on laboratory data,which ensures the big data analysis error control within the allowable limit.Based on the data collection and statistical analysis,big data technology can be used not only for the application of business intelligence and trend forecast,but also for the abnormal point calibration of experiment data and the correlation analysis of datamining,etc.

Big Data;Cloud Computing;Laboratory;Quality Control

G482

E-mail:liuyh@bjciq.gov.cn

国家认监委认证认可科技支撑计划(2016RJWKJ015)

2017-02-24

猜你喜欢

实验室质量研究
FMS与YBT相关性的实证研究
“质量”知识巩固
辽代千人邑研究述论
质量守恒定律考什么
视错觉在平面设计中的应用与研究
做梦导致睡眠质量差吗
EMA伺服控制系统研究
电竞实验室
电竞实验室
电竞实验室