面向工业的开放数据服务平台研究*
2017-08-07陈彦萍王忠民
夏 虹,郭 超,陈彦萍,王忠民
(西安邮电大学计算机学院,西安710121;2.西安邮电大学大数据处理研究中心,西安710121)
面向工业的开放数据服务平台研究*
夏 虹1,2,郭 超1,2,陈彦萍1,2,王忠民1,2
(西安邮电大学计算机学院,西安710121;2.西安邮电大学大数据处理研究中心,西安710121)
随着工业制造业的快速发展,工业智能化、自动化、信息化进程的推进,产生了大量的多源异构数据,如工业传感器、物流、社交、交易等数据,但这些数据不论是存储还是管理都是各自为政,孤立存在,未能形成服务化的数据产品提供方式。首先分析了国内外现有工业数据平台后,针对开放数据平台的缺陷与挑战,提出面向工业的开放数据服务平台的体系结构和企业数据中心的工业大数据系统工作流程,实现了对工业开放数据的数据服务发布、数据服务获取、数据服务使用,对于完善工业系统的数据管理与共享、建立完备的工业数据服务体系起到一定的作用。
开放数据;数据服务;大数据;面向服务的体系架构;服务模型;数据分析
1 引言
随着通信技术、计算机技术的快速发展,各种传感器的广泛使用。使得各个行业产生和存储了大量的数据,各类数据机构研究表明,在未来数据总量还将会呈指数性增长,大数据引发前所未有的革命。虽然目前大数据主要应用在互联网领域和传统的商业行业中,如销售业中的客户及产品数据的挖掘和预测,网络上的一些用户行为分析等。随着工业生产过程的网络化、智能化、柔性化和服务化的实现,所有的生产装备、感知设备、互联网终端,包括生产者自身都在源源不断地生产数据。据麦肯锡咨询公司统计,制造业的数据存储量已经高于其他行业,其2010年数据存储量已接近2EB,且企业所管理数据的规模、种类和复杂度都在以前所未有的速度呈爆炸式增长[1],这将使得工业大数据横空出世。而以德国工业4.0和美国工业互联网为代表的新型智能化工业生态系统的深入发展及“中国制造2025”规划的提出,使得自动化智能分析与物联网的密切结合将会对现存的生产管理与运行方式产生颠覆式的改变[2]。在德国工业4.0里提及的“智能工厂”、“智能生产”和“智能物流”等概念不是关注点,最为关心的是在这些“智能”后面的那些数据。工业4.0是怎样将分散在各个合作伙伴处的数据整合在一起,有效地支撑着这些“智能”工程。而这些数据将会渗透到企业运营、价值链乃至产品的整个生命周期,以推动制造业向基于大数据分析与应用基础上的智能化转型,而智能制造时代的到来,也意味着工业大数据时代到来[3]。
2 相关工作
文献[4]指出工业大数据具有多层面不规则采样性、多时空时间序列性、不真实数据混杂性的特点,并对其数据建模方法进行了研究。文献[5]认为工业大数据可以分为密集数据、快速数据、和慢数据。密集数据指的是具有业务相关性和高价值的数据,一般是结构化数据。快速数据指的是产生的快且需要快速响应的数据,主要来自传感器网络和系统日志等。慢数据指的是一般意义上的大数据,如ERP、MES系统里面的数据。从中可以看出工业制造业的数据有多种来源,且分布于各个独立的系统。故而工业大数据具有多源异构、分布广泛、动态增长、实时性强等特点[6],与传统数据不同,导致工业大数据的数据管理分析面临着新的挑战。工业数据涉及多个领域单位和部门,面临着数据安全、数据所有权、数据质量、数据管控等多方面的问题。而目前工业数据还没有统一的采集和存储管理的标准及规范,易形成“信息孤岛”。如何存储、管理和共享这些海量的工业大数据,并提高它们的利用效率,成为进行工业变革研究的关键之一。
工业互联网和工业大数据是在大数据的背景下提出的新概念,其目的是利用设备、工业互联网、大数据的结合,促进生产和服务,让整个工业系统优化运行。2013年6月通用电气宣布联手亚马逊等公司打造“工业云”产品,利用亚马逊的云技术,准备将全球在运营的并己经联入网络的机器和设备,以“大数据”的概念和方式来处理原始数据。同年,通用电气在其白皮书《The Rise of Industrial Big Data》中介绍了其工业大数据分析处理平台。文献[7]中提出了一种基于物理网络的工业大数据处理架构,来实现传感器数据、非结构化数据的情景智能数据挖掘。在国内,文献[8]针对不同类型数据也提出了一个工业大数据集成处理平台,并对其进行详细的技术分析。文献[9]提出了一个柔性生产线的智能控制大数据模型,并在相关零件生产企业得到使用,实现了不同零部件换型时多工艺流程自主运行、生产过程监控和自适应优化条件控制。实现柔性生产线面对单件小批量生产时的智能控制。文献[10]中研发了一个基于工业大数据的压缩机全寿命周期管理系统,并进行了测试应用。对压缩机行业的发展起到推动作用。文献[11]中也对工业大数据的相关问题进行了探讨,对大数据在工业复杂系统中的应用提出了新思路。
3 工业开放数据服务平台体系架构
面向服务的体系结构(SOA,Service-Oriented Architecture)的思想,即可以根据需求通过网络对松散耦合的粗粒度应用组件进行分布式部署、组合和使用。服务之间通过简单、精确定义接口进行通讯,不涉及底层编程接口和通讯模型。SOA中有以下三个基本角色:服务提供者、服务请求者和服务注册中心。服务提供者发布服务,并且对服务请求进行响应。服务注册中心注册已经发布的web服务,对其进行分类,并提供搜索服务。服务请求者在服务注册中心查找所需要的服务,然后使用服务。SOA能够帮助企业系统架构者以更迅速、更可靠、更具重用性架构整个业务系统,能够更加从容地面对业务的急剧变化。
由开放地理空间联盟 (OGC,Open Geosppatial Consortium)提出一种传感器Web整合框架(SWE,Sensor Web Enablement),提供了一个标准的平台和一系列标准,实现“即插即用”的Web传感器网络。SWE定义了三种信息模型和四种服务规范:观测与测量(O&M,Observation&Measurement)传感器描述语言(SensorML)、Transducert语言(TML)、传感器观测服务(SOS)、传感器规划服务(SPS)、传感器通知服务(WNS)和传感器报警服务(SAS)或传感器事件服务(SES)。通过这个平台,用户可以获取来自不同传感器和传感器网络中的数据。该标准的提出,实现传感网络主动、实时地关注其所集成的异构传感器信息并实现联网范围内的传感器信息共享。
在SOA和SWE思想的启发下,将各开放工业数据资源作为服务,打造工业开放数据服务平台(Industrial Open Data Service Platform,IODSP)。该平台将专注于跨行业数据服务代理和数据服务应用,其目的是将分散的工业数据转换为一个可信的数据服务网络。在“中国制造2025”中IODSP的定位如图1所示。
从图1中可以看出IODSP的位置是介于底层的网络基础设施和各类终端设备、传感器、实时生产线与上层中国制造2025中提及的产品与服务创新,如物流、工业制造、健康、医疗等行业之间。它所起到的作用就是通过数据连接“智能生产”工厂和“智能物流”公司以及需要“智能服务”的个人客户与企业客户三方面的关系,起到承上启下和中介的作用。类似于SOA中的服务提供者、服务使用者、服务代理的角色。在这个过程中,IODSP要聚合三方面的数据,如来自工厂和物流公司的直接数据,来自政府部门的如交通等方面的公共数据,来自电商、电信运营商、社交网站等第三方数据。
图1 工业开放数据服务平台IODSP的定位
为了能够让各方开放的数据在IODSP中创造出价值,提出了工业开放数据服务平台IODSP架构如图2所示。
图2工业开放数据服务平台IODSP架构图
首先要解决的就是数据所有权问题,提出了在IODSP中数据合法的掌握者决定数据的使用条款与条件,即产出数据的一方来决定它的数据应该怎样使用。类似于Web服务的发布者一样,决定服务的功能和非功能属性,用户如何使用它。这样开放的数据就可以在被认证的合作伙伴之间共享。第二是在IODSP的去中心化思想。IODSP是希望由所有参加这个平台的各个企业数据中心构成,企业数据中心只是通过IODSP提供的标准接口(IODSDL,Industrial Open Data Service Description Language)进行连接,企业数据中心之间是没有一个中央集权的权威机构负责数据管理。IODSP是一种面向数据服务的架构,其中开放的数据源被视为是一个数据服务,数据通过服务调用进行流通。当用户需要提供数据增值服务的时候,数据可以在被认证的合作伙伴之间共享。Broker的概念来自金融交易是指帮别人买卖的代理人。在这里工业开放数据服务代理的主要职责是负责数据源的注册,为数据提供方提供数据发布的手段,为数据使用方提供数据搜索查询工具,为数据提供方和使用方建立诚信协议。
应用商店主要是为IODSP中的应用开发者和应用使用者提供服务。除去B2C的服务模式,IODSP还提供B2B的应用服务,此时的应用可以是数据服务,也可以是端到端的应用。对于应用商店推出的应用,IODSP还提供安全及质量认证。
4 工业开放数据服务平台的核心模块
在前面介绍了开放数据服务平台的工作原理,其中涉及企业数据中心。目前针对不同的场景下的大数据处理系统主要分为以下四种:批量数据处理系统、流式数据处理系统、交互式数据处理系统、图数据处理系统[12]。工业大数据自身的一些特性,如多源性获取,非结构化数据比例大;数据蕴含信息复杂,关联性强;采集、存储、处理实时性要求高;与具体工业领域密切相关。这些特性使得上述传统大数据处理平台不能满足其存储管理要求。因此需要构建适合处理工业大数据的企业数据中心和打造面向工业的开放数据服务平台。
企业数据中心在功能上要能支持多种类型数据的采集和导入,能存储大量的多源异构的复杂工业数据,满足数据的挖掘分析和多种数据展示方式,为企业提供有价值的决策支持。应具有如下特性:高可扩展行、高容错性、低成本、低时延、及高性能低成本等。
工业大数据系统是一个复杂的、提供数据生命周期,即从数据的产生到消亡的不同阶段数据处理功能的系统[13]。如图3所示,分为数据源、数据获取、数据存储和数据分析四个阶段。
图3 工业大数据系统功能流程图
数据源是整个企业数据中心实现的基础,是不同数据源产生的大量的、多样的和复杂的工业大数据集。在功能上要实现这些数据的获取,即可分为数据采集、传输和预处理。
数据获取是指从特定的数据生产环境获得原始数据的特定数据采集技术。工业大数据的采集主要是根据工业标准通信协议的现场设备数据采集,如生产数据及设备状态信息采集分析管理系统,开发的生产过程数据采集系统,企业信息管理系统中采集数据,如ERP、MES、CRM等。非标数据的采集,比如监控视频、设备日志等数据采集。在数据采集完成后,需要高速的传输机制将数据传输到合适的存储系统,有线和无线等各种网络的传输。最后是数据的预处理,面对一些无意义、冗余的数据,可以采用数据压缩、清洗、集成、转换等技术来减少数据的传输量,提高数据的价值,实现数据后期的高效存储和分析。
数据存储层是整个平台的关键部分具有承上启下的作用,是为了解决工业大数据的存储和管理。数据存储模块可以分为两部分:硬件基础设施和数据管理软件,数据存储模块集成了一系列的开源软件[14],根据不同应用的即时需求,以灵活的方式组织而成。硬件基础设施应能够向外扩展,并能进行动态重配置以适应不同类型的数据存储需求,来屏蔽不同数据源的异构性问题。数据管理软件则部署在硬件基础设施之上用于维护工业大数据集。使用Mongodb和Hadoop集群来对数据进行存储,Mongodb本身也提供了MapReduce功能,但是其分片功能不容易使用,更大的可能是使用副本集的方式,而Hadoop提供了HDFS和分布式计算的功能,所以利用Hadoop的 MapReduce来取代 Mongodb的 MapReduce,用Mongodb的副本集来取代Hadoop的HDFS。此外,为了分析存储的数据及其数据交互,数据存储模块应提供功能接口、快速查询和其他编程模型。
数据分析处理层是工业大数据处理平台的核心,利用分析方法和工具对工业大数据进行建模、分析和挖掘来得到数据中潜在的价值。目前大数据的分析技术可分为这六种:结构化数据分析、文本数据分析、多媒体数据分析、Web数据分析、网络数据分析和移动数据分析[15]。根据工业大数据复杂多样、实时可用的特点使用Hadoop集群和Spark平台对数据进行分析。利用编程模型提供的接口实现不同的数据分析功能,包括查询、统计分析、数据的聚类和分类等,同时通过组合基本分析方法开发适合工业大数据的相关应用,来为企业提供可参考和预测的决策支持。
5 应用实例
工业大数据获取与预处理有以下特点:数据来源众多;数据采集设备种类多、接口复杂;必须支持数量众多的硬件连接驱动;支持万级以上大规模数据点快速采集;超效的数据压缩;分布式实时服务器数据存储;支持数万事件精确时间标签分辨率。中国制造2025以制造资源和生产活动的数据作服务,通过信息网络和服务网络的融合最大程度地降低工厂各功能资源、知识资源之间的耦合程度,将生产过程分解为服务的请求、匹配和处理的独立过程,从而优化企业资源配置、提升生产效率和产品质量。
中兴西安智能终端生产基地是有代表性的手机生产制造企业,厂内配备业界领先的全自动生产线25条,同时在信息化建设方面也已大力投入,建成SMT网路、生产网络、办公网络、数据中心机房、网络配线机房、制造BI指挥室、企业资源管理系统、制造运营管理系统等。每天20多条生产线产生的大量多源异构数据如何发挥作用是公司急需解决的问题。将工业开放数据服务平台思想引入到中兴通讯终端科技有限公司,并应用到中兴智能终端生产中,对工艺流程、物料人员信息、刀具信息以及生产数据进行采集存储,通过对生产运行过程产生的大数据分析,实现不同零部件换型时多工艺流程自主运行、生产过程监控和自适应优化条件控制。并最终实现产品质量溯源及预测,对企业实时管控和科学决策提供支持。
6 结束语
建立面向工业的开放数据服务平台的体系结构和企业数据中心的工业大数据系统工作流程,实现了对工业开放数据的发布、获取、使用,并在中兴西安智能终端生产基地进行了实施,对于完善工业系统的数据管理与共享、建立完备的工业数据服务体系起到一定的作用。
随着工业大数据的高速增长,工业信息化智能化的迫切需求,工业大数据分析成为现在研究的热点问题。提出面向工业的开放数据服务平台适合工业大数据的存储分析的需求,在未来的工作中,要考虑如何将工业大数据分析的结果反馈到工业制造系统中,来实现一个闭合的控制系统,真正实现人工决策和自动化系统的结合,进一步对企业制造系统进行控制优化。
[1] GE智能平台.工业大数据云利用大数据集推动创新、竞争和增长[J].自动化博览,2012(12):40-42 GE Intelligent Platforms.Industrial Big Data Clouds Driving innovation,competition,and growth with large data sets[J].Automation Panorama,2012(12):40-42.
[2] 罗平.浅谈工业大数据的价值实现方式 [J].商,2015(29):210-211.Luo Ping.On the Value Realization of Industrial Big Data[J].Business,2015(29):210-211.
[3] 马蕾.何为工业大数据[J].经营者(汽车商业评论),2015(7):105-108.Ma Lei.What is industrial Big Data[J].Auto Business Review,2015(7):105-108.
[4] 刘强,秦泗钊.过程工业大数据建模研究展望[J].自动化学报,2016(2):161-171.Liu Qiang,Qin Si-Zhao.Perspectives on Big Data Modeling of Process Industries[J].Acta Automatica Sinica,2016(2):161-171.
[5] Cun Ji,Shijun Liu,Chenglei Yang,Lei Wu,Li Pan.IBDP:An Industrial Big Data Ingestion and Analysis Platform and Case Studies[C].Proceedings of the 2015 International Conference on Identification,Information and Knowledge in the Internet of Things(IIKI),Beijing,China,2015:223-228.
[6] 王淑芬.基于大数据的制造运行监测与分析平台研究[D].广州:广东工业大学,2014.Wang Shu-fen.Study of big data based manufacturing operational monitoring and analyze platform [D].Guangdong:Guangdong University of Technology,2014.
[7] C.K.M.Lee,C.L.Yeung,M.N.Cheng.Research on IoT based Cyber Physical System for Industrial big data Analytics[C].2015 IEEE International Conference on Industrial Engineering&Engineering Management,Guangzhou,China,2015:1855-1859.
[8] Cun Ji,Qingshi Shao,Jiao sun,et al.Device Data Ingestion for Industrial Big Data Platforms with a Case Study[J].Sensors,2016,16(3):279-293.
[9] 丁涛,齐建军,杜林,等.基于工业大数据的柔性生产线智能控制模型[J].信息技术与标准化,2015(7):15-17.Ding Tao,Qi Jian-jun,Du Lin,et al.Intelligent Control Model of Flexible Production Line Based on Industrial Big Data[J].Information Technology&Standardization,2015(7):15-17
[10] 何振威,于雷,周受钦,等.基于工业大数据的压缩机全寿命周期管理系统开发 [J].自动化与信息工程,2014(6):11-15.He Zhen-wei,Yu Lei,Zhou Shou-qin,et al.The Compressor Life-Cycle Management System Based on Industrial Big Data[J].Automation&Information Engineering,2014(6):11-15.
[11] 柴天佑,陶品.工业“大数据”为实现现代工业系统的多目标运行优化开辟了新途径[J].计算机学会通讯,2013(12):36-39.Chai Tian-you,Tao Pin.Industrial Big Data for the realization of modern industrial system multi-objective operation optimization has opened up a new way[J].Communications of the CCF,2013(12):36-39.
[12] 程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.Cheng Xue-qi,Jin Xiao-long,Wang Yuan-zhuo,et al.Survey on Big Data System and Analytic Technology[J].Journal of Software,2014(9):1889-1908.
[13] Fisher D,DeLine R,Czerwinski M.Interactions with big data analytics[J].Interactions,2012,19:50-59.
[14] Yuan Bao,Lei Ren,Lin Zhang,Xuesong Zhang,Yongliang Luo.Massive Sensor Data Management Framework in Cloud Manufacturing Based on Hadoop[C].IEEE 10th International Conference on Industrial Informatics.Beijing,China,2012:397-401.
[15] 李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015(1):1-44.Li Xue-long,Gong Hai-gang.A survey on big data systems[J].Scientia Sinica Informations,2015(1):1-44.
Research on Industrial Open Data Services Platform
Xia Hong1,2,Guo Chao1,2,Chen Yanping1,2,Wang Zhongmin1,2
(1.School of Computer Science and Technology,Xi’an University of Posts and Telecommunications,Xi’an 710121,China;2.Big Data Processing Research Center of Xi’an University of Posts and Telecommunications,Xi’an 710121,China)
With the rapid development of industrial manufacturing,the process promotion of industrial intelligence,automation and information technology generates a large number of multi-source heterogeneous data,such as industrial sensors,logistics,social,trade and so on.However,these data are stored or managed separately,and fail to form data products for service.In this paper,we analyze the shortages and challenges of the industrial data platform,and propose industry-oriented open data service platform architecture and workflow of industrial big data systems of enterprise data centers to achieve release,access and using for the industrial open data and play an important role for improving sharing of data management of industrial systems,and establishing the completed industrial data service system.
Open data;Data service;Big data;Service-oriented architecture;Service model;Data analysis
10.3969/j.issn.1002-2279.2017.03.019
TP393.0
A
1002-2279-(2017)03-0088-05
陕西省工业攻关项目(No.2016GY-092);陕西省科技统筹项目(No.2016KTZDGY04-01)
夏虹(1977-),女(蒙),河北省保定市满城县人,博士,讲师,主研方向:计算机网络、服务计算、工业大数据。
2016-09-26