智能制造背景下工业大数据的数据质量控制探讨
2018-03-05段成
段 成
(北京神舟航天软件技术有限公司,北京 100094)
近年来,随着制造业信息化和工业化的不断融合,我国迎来了以智能制造为主体的新一轮工业革命。制造业是增强国家综合国力和国际竞争力的根本保障,世界制造强国纷纷加快智能制造战略布局和规划,无论是德国提出的“工业4.0”战略,美国提出的“工业互联网”,英国提出的“制造2050”计划,法国提出的“新工业法国”战略,日本提出的“智能制造系统”国际合作计划,还是我国提出的实施“中国制造2025”行动计划,它们的主要特征都是基于CPS(cyber physical systems)实现对人、机、物的实时状态的全面感知,对海量异构的工业现场数据和信息进行智能分析并处理,推动制造业向基于工业大数据分析与应用智能化的产品需求、设计、制造、销售及服务的转型。
工业大数据是智能制造的引擎,蕴含着巨大的经济社会价值。麦肯锡报告认为:大数据能够帮助制造商提高设计和生产效率,降低缺陷和返工,更好地满足客户需求和进行有效的营销[1]。以波音公司飞机系统为例,波音737发动机在飞行过程中每30min就能产生10TB数据,这些数据被有效用于故障诊断和预测[2]。工业大数据是由工业领域信息化应用所产生的海量数据组成[3]。制造业的工业大数据来源涉及产品全生命周期的需求设计、原材料采购、生产制造、仓储物流、销售售后、报废回收等环节,包括传感器、工控系统、MES(manufacturing execution system)、ERP(enterprise resource planning)、CAX(computer-aided technologies)、PDM(product data management)、SCM(supply chain management)、CRM(customer relationship management)等相关工业信息化应用,数据的多源和类型的多样性导致数据情况十分复杂。由于采集系统缺陷、链路问题、硬件故障、模型参数错误、人为因素等主客观原因造成了数据质量问题不可避免地广泛存在,而低劣的数据将导致大数据分析出现偏差,可直接导致生产事故或错误决策,给企业经营发展造成不利影响。拥有高质量的数据是发挥工业大数据效能的前提条件,只有从高质量数据中挖掘出隐含的、有用的信息,才能更好地为企业的经营决策服务[4]。数据质量控制是工业大数据分析应用的关键问题之一。
1 工业大数据特征及其数据质量定义
1.1 工业大数据的特征
智能制造背景下的工业大数据呈现典型的大数据“4V”特征,具体表现在以下4个方面:第一,数据量大(volume)。随着设备感知数据的广泛接入,一些企业的数据量甚至可达到EB级别。第二,高速生成(velocity)。设备高速运转,数据产生和采集频率(如机床的输出功率、动态切削力、主轴振动、扭矩等)可达到毫秒级。第三,模态多样(variety)。工业大数据的类型丰富多样,涉及结构化(如产品开发、人财物、产供销、客户及用户等)、半结构化(如HTML页面、XML文本、报表等)及非结构化(如工况、文档、图形、音视频等)数据。第四,价值密度低(value)。工业大数据的价值密度分布极为不均,存在着“二八法则”,20%的结构化数据占有80%的价值密度,而80%的非结构化数据仅占有20%的价值密度,价值密度低但蕴藏着巨大的价值。此外工业大数据还具有数据之间关联性强,动态多时空时间序列性,对数据采集、存储、处理实时性要求高等特征[5]。工业大数据的主要特征如图1所示。
图1 工业大数据的主要特征
随着大数据时代的来临,人们在享受大数据带来价值的同时,也深受数据质量问题的困扰,大数据的数据质量问题普遍存在,与社交媒体、医疗、教育、金融等行业应用相比,工业领域应用对分析结果的准确度要求更高,因而对大数据的质量要求也更高。工业大数据的上述特征使得数据质量的问题更为突出。
1.2 工业大数据的数据质量定义
ISO 9000将产品定义为“过程”的结果,质量定义为一组固有特性满足要求的能力。MIT(massachusetts institute of technology)研究者WANG将数据(信息)看作为产品,将制造业传统的产品全面质量管理TQM(total quality management)技术引入到数据质量管理中,提出全面数据质量管理TDQM(total data quality management)方法[6]。智能制造背景下,工业大数据是CPS(cyber physical systems)的输入原料、中间产品和最终产品,工业大数据质量可以被定义为:一组工业大数据的质量特性满足产品的需求、设计、生产、制造、销售及维护等过程的能力。工业大数据的数据质量特性与具体应用对象相关,可用一组维度来度量,核心的指标可以包括以下几个方面。
1)数据精确性:刻画数据测量值与实际值的符合程度。例如,环境温度实际数据是24.8℃,而测量值是23℃,则该数据偏差较大,精度不够。
2)数据完整性:刻画数据支持各类应用,可追溯来源,不存在缺失的程度。例如,传感器或链路故障,使得一段时间生产过程数据的缺失,可能导致数据分析出现偏差。
3)数据一致性:刻画数据不存在不合语义的错误,关联逻辑关系的相容的程度。例如,设备台账信息中,将设备A的编码错误地记录为设备B的编码。
4)数据时效性:刻画数据符合应用时效要求的程度。例如,RFID(radio frequency identification)感知数据未及时更新,数据过时。
5)数据实体同一性:刻画同一实体在不同信息记录中拥有同一标识的程度。例如,同一物料存在的“多码”的问题。
2 工业大数据的数据质量控制体系
2.1 数据质量控制面临的挑战
高质量的数据是工业大数据有效分析应用的前提条件,否则即便建立再先进的数据挖掘分析模型,借助再强大的数据分析工具,也只能是符合所谓的“垃圾进、垃圾出”这一计算机业界著名的说法。工业大数据的质量控制体系是一项复杂的系统工程,涉及数据的产生、采集、转换、存储、传递、使用及销毁的全生命周期过程,涉及到管理、技术和流程三大方面因素。
工业大数据的主体是设备感知的机器数据,具有多源、异构、多模态的特征,其数据质量控制面临的挑战包括以下几个方面:
1)高质量的采集设备感知数据。机器数据主要来自传感器、RFID等感知设备,由于设备自身的局限性或工业现场环境因素的干扰,会出现数据冗余、数据缺失、数据错误等问题,不利于数据的后续利用。
2)高效的清洗和融合设备感知数据。及时发现并校正感知数据中可识别的错误,去除冗余数据,对缺失数据进行有效填补,并对海量多源异构感知数据进行有效的处理整合提供确定性信息。
3)有效地使用弱可用设备感知数据。对于错误数据不能全部被识别并修复的情况,需要容许弱可用数据的存在并在其上提供满足用户质量要求的近似计算。
4)持续的设备感知数据质量治理。对设备感知数据质量实施科学的数据质量管理过程,实现设备感知数据质量的不断改善。
2.2 数据质量控制的方法及对策
针对上述工业大数据质量控制所面临的挑战,阐述数据质量控制的方法及对策。
1)设备感知数据的数据采集和处理。
感知数据主要由时空序列数据组成,针对存在的多读、漏读和误读等问题,一方面可以采用更加先进的感知设备,优化的传感器网络部署策略和高效的数据采样技术;另一方面对感知数据进行预处理,可设定约束规则清除冗余数据,并采取时空关联等方法删除误读数据和填补漏读数据。
2)设备感知数据的数据错误发现与修复。
按照数据精确性、数据完整性、数据一致性、数据时效性及实体一致性等质量维度进行错误发现和修复。其中错误发现可以基于实体识别、基于函数依赖和基于主数据等方法,错误修复可采用基于规则、冲突数据的真值发现和基于机器学习等方法[7-9]。
3)设备感知数据的数据融合。
工业现场针对某一目标环境的识别和控制一般涉及多个传感器。首先,感知数据融合要对多个传感器的时序感知数据进行分析与综合处理以提高所需数据的质量,按照融合的层次由低到高,可以分为数据级、特征级和决策级数据融合,层次越高,信息损失越大,精度越低,抗干扰能力越强,容错性和实时性越好,融合层次的选择取决于具体的应用需求[10]。数据融合的效果依赖于融合算法,已有的一些较为成熟算法如卡尔曼滤波法、证据理论、贝叶斯推理、熵法、人工神经网络、粗糙集、支持向量机等。其次,感知数据融合还可以通过建立统一的数据标准及数据模型,基于统一的数据模型将多源异构感知数据转换加载到统一的数据框架中,促进感知数据的规范化和数据共享。
4)弱可用设备感知数据的近似计算。
大数据环境下数据的清洗及修复所要付出的时间代价更大,并且无法做到完全清除和修复数据错误。目前针对弱可用数据的利用研究还处于起步阶段,主要集中在数据的查询、分析/挖掘等方面,可采用的方法包括近似连接与查询操作、弱可用数据的分类算法[11-13]等。
5)设备感知数据的数据质量管理。
数据质量管理是一个永无止境的过程,新的问题和挑战总是不断出现[14]。设备感知数据的数据质量优化绝非一蹴而就,可实施TDQM方法论,并坚持以应用为导向,从数据质量定义、数据质量评价、数据质量分析及数据质量改进等方面进行闭环管理。
设备感知数据的质量定义:明确对感知数据的质量要求,包括数据的执行和检测标准。
设备感知数据的质量评价:构建感知数据质量的评价指标体系,运用定性或定量的综合评价方法进行科学的质量评价。文献[15]~[17]分别提出了数据质量评估模型。
设备感知数据的质量分析:针对存在的数据质量问题,深入分析问题产生的原因,为数据质量的治理提供真实有效的输入。
设备感知数据的质量改进:根据数据质量问题背后的原因,从技术手段、管理流程等方面着手对数据质量进行治理。基于TDQM的数据质量管理如图2所示。
图2 基于TDQM的数据质量管理
3 我国工业大数据质量管理重点工作建议
工业大数据分析应用是制造企业向智能制造转型升级的重要基础,工业大数据的数据质量问题日益受到我国学术界和产业界的重视,相关的研究也越来越多,除了需要对上述数据质量控制理论技术方法在深度和广度上继续拓展外,还应加强以下几个方面工作:
1)加强工业大数据质量管理工具集及管控平台建设。
“工欲善其事,必先利其器”。目前国内对工业大数据的研究开发热点集中在大数据文件系统、大数据分布式存储与计算、大数据资源调度、大数据分析与领域知识等方面,缺乏针对工业大数据进行有效的数据清洗校验、数据质量监控、数据质量分析与处理、数据质量评估等方面的工具。通过建立覆盖数据全过程的数据质量管理工具集及管控平台,可以大大降低数据质量管理的难度,有力支撑工业大数据的质量提升。
2)加强工业大数据数据质量标准体系建设。
“提升数据质量,标准化要先行”。目前针对工业大数据质量的相关技术标准尚处于起步阶段,在工业数据领域已研制了一些数据质量标准,如ISO8000、PDQ9000 等两项国际标准,以及中国标准化研究院制定的《CAD/CAM数据质量》与《CAD/CAM 数据质量保证方法》等两项国家标准,这些都为工业数据质量标准的研制打下了良好基础[18]。要加快工业大数据的数据质量标准体系建设,充分发挥标准化工作在工业大数据应用和发展过程中的基础引领作用。
3)加强工业大数据质量管理人才队伍建设。
“功以才成,业由才广”。我国工业大数据的应用正处于快速发展的初级阶段,对于各方面的人才具有巨大的需求,在加强大数据平台技术、数据分析、工业领域知识等方面技能人才培养的同时,还应该重视数据质量管理相关技能人才培养,努力打造一批工业大数据领域的专业型和复合型人才队伍,从而为工业大数据产业发展提供有力的人才支撑和智力保障。
4 结束语
工业大数据在制造企业向智能制造转型升级的过程中扮演着极其重要的角色,当前工业大数据的应用尚处于起步阶段,其价值有待于人们进一步挖掘和利用,工业大数据的应用除了需要运用先进的大数据分析平台和掌握工业领域知识建模技术之外,数据质量控制也是其中必不可少的重要一环。同社交媒体、教育、金融等一些行业应用相比,工业大数据分析对数据质量的要求更高,很多大数据质量通用的观点和做法并不适用,需要针对工业大数据的特点,对覆盖工业大数据全生命周期过程的数据质量管理进行全面、系统、深入的研究。
[1] MANYIKA J, CHUI M, BUGHIN J, et al. Big data :The next frontier for innovation ,competition, and productivity[EB/OL].[2017-06-16].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.
[2] 智能制造时代的工业大数据分析——基于物联网的八大工业大数据与应用场景[J].智慧工厂,2015(11):42-44.
[3] 王建民. 智能制造基础之工业大数据[J]. 机器人产业,2015(3):46-51.
[4] 宗威,吴锋. 大数据时代下数据质量的挑战[J]. 西安交通大学学报(社会科学版),2013(5):38-43.
[5] 李敏波,王海鹏,陈松奎,等. 工业大数据分析技术与轮胎销售数据预测[J]. 计算机工程与应用,2017(11):100-109.
[6] WANG R Y. A product perspective total data quality management[J].Communications of the ACM,1998,41(2): 58-65.
[7] 李卫榜,李战怀,姜涛. 分布式大数据多函数依赖冲突检测[J]. 计算机学报,2017(1):144-160.
[8] ZHAO B, RUBINSTEIN B I P, GEMMELL J, et al. A Bayesian approach to discovering truth from conflicting sources for data integration[J]. Proceedings of the VLDB Endowment,2012,5(6):550-561.
[9] 王宏志. 大数据质量管理:问题与研究进展[J]. 科技导报,2014(34):78-84.
[10] 周芳,韩立岩. 多传感器信息融合技术综述[J].遥测遥控,2006(3):1-7.
[11] 李建中,王宏志,高宏. 大数据可用性的研究进展[J]. 软件学报,2016(7):1605-1625.
[12] 林学民,王炜. 集合和字符串的相似度查询[J]. 计算机学报,2011(10):1853-1862.
[13] 陈懿诚. 弱可用数据上的分类算法研究[D]. 哈尔滨:哈尔滨工业大学,2014.
[14] ABDULLAH N, ISMAIL S A, SOPHIAYATI S, et al. Data quality in big data:a review[J]. International Journal of Advances in Soft Computing and Its Applications,2015,7(3):16-27.
[15] PIPINO L L, YANG W L, WANG R Y. Data quality assessment[J].Communications of the ACM,2002,45(4): 211-218.
[16] 杨青云,赵培英,杨冬青,等. 数据质量评估方法研究[J]. 计算机工程与应用,2004(9):3-4,15.
[17] 黄刚,袁满,吴秀英,等. 元数据驱动的数据质量评估体系架构研究[J].计算机工程与应用,2013(8):114-119,181.
[18] 王志强,杨青海,岳高峰. 智能制造的基础——工业数据质量及其标准化[J]. 中国标准化,2016(10):70-74,126.