工业大数据助力两化融合：挑战、机遇与未来

2018-04-10高韵，李成

现代工业经济和信息化 2018年1期

高　韵，李　成

（1.工业和信息化部国际经济技术合作中心，北京　100846；2.中国电信集团有限公司政企客户事业部，北京　100032）

1　工业大数据简介

1997年，在“Application-controlled demand paging for out-of-core visualization”这篇文章中，作者提到，海量的数据已经无法被存储于内存、本地磁盘甚至远程磁盘中，于是他将这一现象，称为“大数据”问题。从此以后，学术界和产业界均对这一新概念产生了极大的兴趣，并不断丰富和完善大数据的内涵、技术体系和应用场景。

为了更清晰地描述大数据，维克托·迈尔·舍恩伯格在《大数据时代》一书中提出大数据具有4V特性，即 Volume（数据量大）、Velocity（流动速度快）、Veracity（准确性）和 Variety（来源多样）。目前，4V特性已被学术界广泛使用，成为描述大数据特点的共识。

相比于传统的大数据，对于工业大数据，还应该有两个“V”[1]。

Visibility：可见性，即通过大数据分析使以往不可见的重要因素和信息变得可见。

Value：价值，即通过大数据分析得到的信息应该被转换成价值。

正是因为工业大数据具有更强的专业性、关联性、流程性、时序性和解析性等特点，工业大数据的挑战和目的一般通过“3B”和“3C”来理解。

Bad Quality：数据质量差。受制于生产一线数据获取手段，以及现有传感器、传输信道的稳定性，加之不可避免的人为干扰，极大地降低了所采集数据的准确性和真实性。

Broken：碎片化。面向应用要求具有尽可能多维度的样本数据，全方位反映生产过程中各类变化的因素，保证从数据集中能够提取出真实反映对象状态的全面性信息。

Below Surface：隐匿性。除了对数据所反映出来的表面统计特征进行分析以外，更应该关注数据背后的物理意义以及特征之间关联性。

Comparison（比较性）：通过纵向或横向比较，发现数据波动的规律和异常，为海量信息的分类与管理奠定基础。

Correlation（相关性）：借助大数据相关技术，才能发掘出不同维度数据的相关性，从不同维度分析同一生产过程，优化生产效率。

Consequence（因果性）：工业生产的流程众多，影响因素错综复杂，但无论如何目标都是利用最少的材料，生产出质量最优的产品。因此，在制定特定决策时，需要通过数据预测分析出其所带来的影响，判断决策是否对于实现最终目标有益。

通过以上分析可以看出，工业大数据贯穿了工业生产的全过程，全面细致地反映出制造业生产的全流程，从不同角度记录制造业生产的影响因素。通过对数据的汇总分析，以信息化带动工业化，帮助制造业企业科学决策、优化生产、精细管理，走上新型工业化的道路。这其实正是两化融合的内在要求。

2　工业大数据技术

对于制造业而言，随着信息化建设进步和工业物联网的普及，数据量呈现出爆炸性增长趋势。大数据技术，正是为了解决海量数据的存储、处理、分析以及利用数据决策这些问题（如图1所示）。

图1　大数据分析流程及相关技术

2.1　数据存储技术

随着数据规模的显著上涨和对数据写入速率要求的提升，以及例如日志、文本和图片等非结构化数据的增多，Oracle、DB2、PostgreSQL、Microsoft SQL Server为代表的传统关系型数据库（RDBMS）已经不能适应工业大数据的发展要求。因此，为适应大数据的发展，越来越多的企业开始使用MongoDB、Redis、CouchDB等非关系型数据库（NoSQL）。这些非关系型数据库，简化了数据之间的关系，因此非常容易扩展，可以适应数据量迅速上涨的要求，并且特别适合部署在分布式存储系统中，符合大数据发展的要求。

图2　关系型数据库与非关系型数据库速度对比

从图2可以看出，数据量较小时，关系型数据库与非关系型数据库二者速率相当。但随着写入数据量的增大，非关系型数据库（MongoDB）表现明显优于关系型数据库（MS SQLExpress），因此非常适合大量数据的写入[3]。

2.2　数据处理技术

数据处理包含数据的清洗、筛选以及加工。然而，受制于存储容量、数据读取速度、硬件稳定性等原因，传统的计算机系统已经无法满足海量数据的处理要求。为解决这一问题，新的分布式系统架构应运而生，其中最有代表性的就是由Apache基金会开发的Hadoop系统。

Hadoop的框架两大核心设计：分布式文件系统HDFS和并行计算模型MapReduce。其中HDFS负责为海量数据提供存储能力，分布式的设计，也让其具有理论上无限扩展容量的能力；而基于并行计算的MapReduce为海量数据提供了高效快速的计算框架，可以充分利用集群内所有机器的计算、数据读取、网络带宽等资源。解决了数据的存储和计算问题，技术人员就可以通过Hadoop来实现对海量数据的全面提取加工。

然而，发展10余年的Hadoop解决了处理大数据的问题，但因其设计之初没有考虑到效率，导致在面对迭代计算问题时效率很低，在此背景下，强调效率与速度的Spark应运而生。Spark允许传统Hadoop集群中的应用程序在内存中以100倍的速度运行，即使在磁盘上运行也能快10倍。与此同时，Spark使用了 RDD（Resilient Distributed Datasets）数据抽象，这允许它可以在内存中存储数据，只在需要时才持久化到磁盘。这种做法大大减少了数据处理过程中磁盘的读写，大幅度降低了运行时间。当前越来越多的企业正在通过升级改造，加入到Spark的生态系统中。

2.3　数据分析技术

大数据分析指的是运用不同方法以发现数据的隐藏模式，未知相关性和其他有用信息的过程[4]。主要目的是帮助决策者更进一步了解数据，发现数据的规律，以便科学决策，提升生产效率。目前在Hadoop生态系统中，活跃着许多数据建模分析工具，帮助开发人员从不同角度对现有数据进行建模分析。比如，Apache旗下开源项目Mahout。借助Mahout提供的机器学习算法包，开发人员可以方便快捷地运用聚类、分类、推荐过滤和频繁子项挖掘等不同算法对数据进行建模分析。此外，为了更进一步降低数据分析门槛，微软推出的商业分析工具Power BI可以帮助普通用户一键生成美观的报表，直观地发现数据的规律和特点。

当前，随着图像识别、语音识别和神经网络等人工智能技术的发展，为大数据的使用提供了更广阔的思路。比如，利用图像识别技术，生产企业可以进行实时的缺陷检测，发现流水线上产品的瑕疵，效率和准确率都比之前的人工检测大大提高。

3　工业大数据面临挑战与机遇

虽然大数据发展形势向好，但目前大数据依然面临四大挑战：数据收集、数据传输、数据隐私保护和数据模型决策。

3.1　大数据采集

数据采集是工业大数据应用的第一步，直接决定了数据的质量和维度，是数据分析决策的基础。尽管现在多种多样的传感器被大量应用在工业生产环境中，但是，数据的采集仍存在一些问题。首先，受制于制造信息化水平以及从业者素质，许多企业不得不采取手动抄录的方法记录数据。因此，数据经常不完整、不准确、不及时，这导致基于数据的决策不能真实及时准确解决生产实际问题。此外，即使数据由传感器自动采集传输，由于各个制式的传感器数据的异构性，缺乏统一的采集标准，大量的非结构化数据对下一步的数据处理造成了极大困难。最后，采集有效数据也是另一大难题。由于缺乏有效的规划，没有考虑过数据分析的目标，往往是先有数据后有模式，很容易造成众多传感器采集回传的数据没有用武之地，而一些对决策关键的数据反而没有采集的情况。

针对以上的问题，各方一直在着手解决，并且已经形成了一些可行的办法。随着工厂信息化智能化的改造，以及一线人员素质的提升，很多工厂已经逐渐实现了机器换人，淘汰了落后的手工统计数据的做法，转型升级成“数字无人工厂”。此外，更多的射频识别（RFID）、红外感应器、全球定位系统和激光扫描器等信息传感设备在制造车间使用，大大提升了工厂的信息采集能力。各个传感设备厂商也开始着手制定行业统一的数据格式和传输标准，保证设备的兼容性和数据的格式统一性，并合力打造数据集成监测云平台，让各类数据在云平台上聚集，发挥互补优势，全面反映生产状况。最后，在建设信息系统之初就要确立数据分析的目标，从应用价值的功能与目标出发，反推需要分析与利用的数据要求，进而设计满足要求的物联网数据环境和数据标准，针对性地选取数据，做到先有需求再采集数据。

3.2　大数据传输

传感器收集到数据以后，需要将数据传输到数据中心存储。其中，传输主要分为两部分：有线传输和无线传输。特别是无线传输，由于数据的传输量大、采集频率高，传输信道极易受到其他电子设备的干扰，造成数据的丢失和损坏。此外，工业互联网传感器众多，为确保数据采集效果，每个传感器均被接入到无线网络中，占用大量的网络资源，给现有的网络造成了极大的压力，甚至有可能超出了基站容量。此外，受限于现在的网络带宽，海量的数据传输速度可能变得十分缓慢。

为解决以上问题，基于蜂窝的窄带物联网协议（Narrow Band Internet of Things简称NB-IoT）应运而生。具体来说，NB-IoT具备四大特点：一是广覆盖，在同样的频段下，NB-IoT比现有的网络增益20 dB，相当于提升了100倍覆盖区域的能力，极大提升了传输信道的抗干扰能力；二是具备支撑海量连接的能力，NB-IoT一个扇区能够支持10万个连接，支持低延时敏感度、超低的设备成本、低设备功耗和优化的网络架构，非常适合数量众多的传感器连接；三是更低功耗，NB-IoT终端模块的待机时间可长达十年；四是更低的模块成本，企业预期的单个接连模块不超过五美元[5]。

对于数据传输慢这一问题，产业界也进行了许多尝试，比如向运营商购买专用网络、部署速度更快的互联网交换设备、使用更先进的通信标准等。但总体来说，对于提升传输速率的作用有限。2016年11月，亚马逊新推出一项名为AWS Snowmobile的服务，为用户提供一种新意十足的数据传输方式：通过载有一个45 ft标准集装箱能够容纳100 PB数据的卡车，将大型企业客户数据由企业数据中心“开到”亚马逊公共云计算数据中心。根据亚马逊的数据：如果使用一条10 Gbps的高速网络传输1 EB（1 EB=1 024 PB）的数据，需要26年；但如果使用Snowmobile，这个时间很可能会缩短到6个月。亚马逊的这项服务，为大数据传输提供了新的思路。

3.3　数据模型决策

对于数据的利用，最终要落实到大数据模型的建立以及基于模型的科学决策上。但是，目前大数据模型的建立仍存在一定的困难，主要由于工业大数据来源于工业生产，涉及众多的生产过程。对于大数据分析师而言，虽然在数据分析建模领域有丰富的经验，但无法深刻理解工业生产过程，因此无法实现对大数据的精准分析。另一方面，工业生产专家虽然熟悉生产过程，但缺乏相关的统计学知识和数据分析技能，面对大数据时经常显得束手无策。因此，要解决这一问题，需要企业培养一批既懂生产过程，又具备统计及数据分析能力的人才，与大数据分析师一起联合攻关，共同构建大数据模型。

4　结语

以工业大数据为代表信息技术不断被政府和企业所重视，从德国的“工业4.0”到美国的“工业互联网”战略规划，再到中国的“中国制造2025”和“互联网+”，这其中无不体现政府对以云计算、物联网和大数据技术与传统工业深度融合，协同发展的期待。

面对发达国家的“再工业化”与新兴市场低生产成本的双重挤压，在新一轮的工业革命和产业变革中，中国的制造业正面临前所未有的严峻挑战和难得的历史机遇。为了实现制造业强国的战略目标，2015年5月8日，国务院正式印发《中国制造2025》。这一十年期的行动纲领对于两化融合做出了进一步阐释，明确提出“新一代信息技术与制造业深度融合，正在引发影响深远的产业变革，形成新的生产方式、产业形态、商业模式和经济增长点。”与此同时，对于工业大数据，也明确指出“工业大数据是我国制造业转型升级的重要战略资源”。

相信在未来的十年里，中国的制造业将以两化融合为主线，以智能制造为主攻方向，借助工业大数据、云计算、5G等信息技术，实现工业化信息化相互渗透、相互融合。到2025年，制造业整体素质大幅提升，创新能力显著增强，全员劳动生产率明显提高，两化融合迈上新台阶。

[1]李杰（Jay，Lee）.工业大数据：工业4.0时代的工业转型与价值创造[M].北京：机械工业出版社，2015.

[2]工业互联网产业联盟.中国工业大数据技术与应用白皮书[Z]，2017.

[3]Y.Li，S.Manoharan.A performance comparison of sql and nosql databases[G]//Communications Computers and Signal Processing（PACRIM）2013 IEEE Pacific Rim Conference on，2013：15-19.

[4]SearchBusinessAnalytics.What is big data analytics-Definition from WhatIs.com.[EB/OL].[2017-10-09.]http://searchbusinessanalytics.techtarget.com/definition/big-data-analytics.

[5]未来移动通信论坛.蜂窝上的万物互联：NB-IoT[EB/OL].[2016-02-03].http://www.future-forum.org/2009cn/onews.asp id=5627.