APP下载

基于工业4.0大数据分析的常用软件

2019-11-30张雪苏海涛陈明潇安晓哲彭涛

电子技术与软件工程 2019年9期
关键词:数据挖掘可视化数据库

文/张雪 苏海涛 陈明潇 安晓哲 彭涛

随着大数据时代的到来,如何实现企业核心数据资源的统一管控,更好地保障核心数据资产的安全和权威,更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值,基于数据中心建设企业级的数据资源管理平台,显得尤为必要。面对高数据量、高维度与异构化的特点,传统统计分析工具已经难以应对,众多新的软件分析工具应运而生。本文分别从大数据的存储、分析、挖掘以及可视化四个方面概述了大数据分析常用软件,并比较了各自的优缺点及适用范围。

1 大数据存储

联合国“全球脉动资深发展经济学家艾玛纽尔·勒图曾提出,大数据描述的是海量结构化和非结构化数据,这些数据的容量非常巨大,以至于很难用传统的数据库和软件技术处理。在进行大数据存储并建立相应的数据库时,由于大数据属性繁多,数据量呈爆炸性增长,常规标准处理和存储技术已难以应对。

一段时间以来,全世界数据库市场基本被Oracle,IBM/DB2,Microsoft/SQL Server 垄断。随着互联网的出现和快速发展,大量数据通过设备、服务器、应用自动产生,其类型呈现出以非结构、半结构化为主的转变。要实现对各类大数据进行整理、交叉分析、比对,进行深度挖掘,对用户提供自助的即席、迭代分析,并对非结构化数据的特征进行提取,以及半结构化数据的内容检索、理解等,传统数据库无论在技术还是功能上都难以应对。Hadoop技术平台的出现,为开源技术的快速发展提供了良好的发展机遇和空间,产生了一些面向大数据分析的数据库新产品,主要包括基于Hadoop环境下的各种NoSQL数据库以及基于Shared Nothing架构的NewSQL。

NoSQL数据库代表性软件有基于Hadoop架构的HBase、Google的Bigtable、Cassandra等。此类数据库摒弃了传统关系型数据库管理系统的设计思想,采用了不同的解决方案来满足扩展性方面的需求,没有固定的数据模式并且可以水平扩展,能够很好地应对海量数据的挑战。相对于关系型数据库而言,NoSQL最大的不同是不使用SQL作为查询语言,避免了不必要的复杂性、高吞吐量、高水平扩展能力和低端硬件集群以及昂贵的对象-关系映射。

相比NoSQL,NewSQL在实时性、复杂分析、即席查询和开发性等方面表现出独特的优势。具体表现在:

(1)NewSQL整体优化较好,实时性较强,而NoSQL相比实时性较差;

(2)NewSQL采用多种索引和分区技术保证多表关联,效率较高,而NoSQL缺少高效索引和查询优化,复杂分析差;

(3)NewSQL采用列存储和智能索引保证了即席查询性能,而NoSQL只能做精确查询不能做关联查询;

(4)NewSQL是基于标准的成熟商业软件,对用户的研发能力要求相对较低,而NoSQL属于平台型的模块,对用户的研发能力要求较高。

NewSQL数据库代表性软件有ΕMC的Greenplum,HP 的Vertica,TD的Asterdata以及南大通用开发的GBase 8a MPP Cluster等。作为NewSQL的代表数据库,Greenplum是一款基于标准X86极速智能分析数据库,完全无共享的并行处理架构,专门为BI分析、挖掘预测应用优化,数据跨越所有节点均匀分布,高度灵活的行+列混合存储,所有节点以并行方式工作,支持PB级以上的海量存储和处理。能够映射Hadoop集群中的HDFS、HIVΕ、HBASΕ等多种格式数据。其局限是列存储模式有限制,不支持delete/update操作,数据库需要额外的空间清理维护,没有增量备份。Greenplum 数据仓库解决方案曾为中信银行信用卡中心提供了统一的客户视图,借助客户统一视图,中信银行信用卡中心可以更清楚地了解其客户价值体系,从而能够为客户提供更有针对性和相关性的营销活动。

南大通用开发的GBase 8a产品定位就是“行业大数据”,并针对云架构做出的创新。该数据库为超大规模数据管理提供高性价比的通用计算平台,可广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。GBase 8a MPP Cluster基于现代云架构,与传统数据库相比在扩展性,处理数据,灵活性,维护性以及建设成本上更具优势。

综合各种大数据存储平台的特点,针对企业级大数据应用,笔者认为Greenplum产品更成熟,编程开发和用户访问以SQL为主,对人员要求低,且购买产品后可以使用所有功能,无论初期投入和后期扩容成本都可以控制,更符合企业降成本增效益的发展目标。

2 大数据分析

工业大数据除了容量大、类型多、存取速度快这些特点,还具有高维度、强非线性、样本分布不均和低信噪比的特点,所以对工业大数据的分析和挖掘与传统的大数据分析方法也有差异,Chone J等人认为,最好的大数据分析系统应具有磁性、灵活性和深刻性。磁性指该系统能抓取所有数据,不管其结构和质量;灵活性指系统具有适应性和对不同数据的应变性;深刻性指该系统能支持传统的商业情报以及机器学习和复杂的统计分析。目前常用的分析框架及软件包括,Hadoop、Storm以及Pentaho BI 平台等。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,以一种可靠、高效、可伸缩的方式进行处理,被认为是时下最流行并有可能为下一代大数据处理确定标准的软件系统。其特点在于,其一假设计算元素和存储会失败,维护多个工作数据副本,确保能够针对失败的节点重新分布处理;其二以并行的方式工作,通过并行处理加快处理速度,能够处理PB级数据;其三Hadoop依赖于社区服务器,成本低廉,使用便捷。采用Hadoop的案例较多,如中国移动的详单实时查询系统。美国AMD半导体公司利用ClouderaHadoop大数据分析提高了产品预测能力,通过分析一定时间段内芯片出故障的频率,从而提升生产质量水平。王成辉等人[4]提到,在钢铁工业中,利用HDFS实现海量的能耗数据的分布式存储,通过本体建模技术实现加热炉本体模型构建与数据属性映射,为大数据分析提供数据源。在MapReduce分布式分析模型上运用线性回归、遗传算法等对Hadoop平台筛选出来的数据进行分析,来挖掘海量数据背后隐藏的能耗模型,同时能挖掘出加热炉的节能能力,分析加热炉的最佳工况运行参数,来提高加热炉的能耗水平,构建加热炉大数据节能潜力分析系统。

Storm是自由的开源软件,一个分布式的、容错的实时计算系统,可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。该软件支持许多种编程语言,由Twitter开源而来,应用领域包括实时分析、在线机器学习、不停顿的计算、分布式RPC、ΕTL等,经测试,Storm的处理速度惊人,每个节点每秒钟可以处理100万个数据元组。该软件曾应用于淘宝双十一实时流计算实现实时销售额统计以及电信行业在重大节日的实时保障监控。

Pentaho BI 平台是一个以流程为中心的,面向解决方案的框架。其特点在于将一系列企业级BI产品、开源软件、API等组件集成起来,方便商务智能应用的开发。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等。这些组件通过 J2ΕΕ、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。

以上大数据分析软件都可以满足对企业中的大数据进行分析统计,Hadoop擅长批处理、吞吐量大、做全量数据的离线分析,对比Hadoop的批处理,Storm是一个实时处理计算框架,是针对在线业务而存在的计算平台。同Hadoop一样,Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时,节省了运行时间,提高效率。

3 大数据挖掘

大数据挖掘是目前人工智能和数据库领域研究的热点问题,是一种决策支持过程,基于人工智能、机器学习、模式识别、可视化技术等高度自动化地分析企业的数据,做出归纳性的推理,帮助企业领导调整市场策略,减少风险,做出正确的决策。下面介绍四种开源数据挖掘软件工具。

RapidMiner是世界领先的数据挖掘解决工具,用 Java 语言编写,用户无需写任何代码。RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等典型商业案例。

与RapidMiner相比,WΕKA优势在于通用公共许可证下是免费的,用户可以按照自己的喜好选择自定义。WΕKA基于 Java 版本,应用在包括数据分析以及预测建模的可视化和算法,支持多种标准数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取等。

Orange是一款基于 Python 语言,功能强大的开源工具,对初学者和专家级的大神均适用。它不仅有机器学习的组件,还附加有生物信息和文本挖掘,具备了数据分析的绝大部分功能。如以学生的基本信息和成绩数据作为处理对象,利用Orange软件中的决策树分析法学生的成绩分布进行数据分析,为学校决策者在专业培养计划的制定中提供科学依据。

R语言是一款针对编程语言和软件环境进行统计计算和制图的免费软件,被广泛应用于数据挖掘以及开发统计软件和数据分析中。除了数据,它还提供统计和制图技术,包括线性和非线性建模,经典的统计测试,时间序列分析、分类、收集等。

R语言几乎覆盖了整个统计领域最前沿的算法,有广泛、便捷的数据接口,可以通过不同的加载包调用其他开源数据挖掘软件,成为这几年各大高校和企业最受欢迎的数据挖掘软件。

4 大数据可视化

一图胜千言,数据可视化以信息图的方法描述大数据,可以让数据分析师的发现更容易被理解和信服。

IBM Cognos Analytics是一种BI工具,实现企业级的交互式数据库查询和报表生成,对企业数据进行多维分析和统计汇总,提供丰富的数据展现形式,灵活的自助分析能力,主要功能包括元数据建模、MOLP建模、内存OLAP建模、专业报表开发、可扩展的可视化RAVΕ引擎、SDK开发集成,在提供丰富的前台展现和分析能力的同时,后台通过优异的查询引擎和多维分析能力,提升数据查询效率,增强各层次业务人员分析体验。如在雅戈尔的供应链系统中,Cognos是辅助决策的核心组件,对整条供应链系统中的重要数据进行抽取和多维分析,通过二维报表和多维数据立方体展现出来,供决策者按需定义分析条件,找到问题的关键,使雅戈尔对订单的反应能力及生产周期缩短了50%,库存周转率提高一倍以上,节省了2.5亿元的库存成本。

SAS可视化分析软件通过交互式数据可视化和易于使用的分析探索数据,设计分发报表和仪表盘,通过自动绘图提供一系列先进的数据可视化技术和向导式分析,从报告和探索、分析直至通过不同渠道分享信息,可利用单一用户界面来完成。如XL Group集团应用SAS可视化分析软件,应对保险行业新变化,实现了全球保险和再保险业务新突破。SAS可视化分析能直观形象地展示信息,同时又能进行先进统计概念的交流,比以往通过大量图表、数字和相互关系说明更加有效。

Tableau是一款定位在数据可视化的商务智能展现工具,可以用来实现交互地、可视化的分析和仪表盘分析应用。Tableau可视化界面帮助用户通过数据寻找业务答案,通过普通的硬件环境,实现上百万条数据的访问,对内存技术的数据没有大小的限制,无需对数据进行事先的汇总和计算。它允许普通业务人员将表格中的数据转变成各种可视化的图形,强交互性的仪表盘并共享给企业中的其它用户,这些通过点击鼠标即可完成。如中国东方航空公司,以前制作报表需要3周的时间,应用Tableau将制作报表时间缩短至数分钟,及时作出决策,营业额增长了2%。

Smartbi采用最新的互联网技术,以简洁、直观的界面,展现企业各环节的经营数据,并以丰富的形式为企业决策者剔红分析和管理上的帮助,洞察企业的运营状况。Smartbi具有仪表盘、灵活查询、电子表格、OLAP多维分析、移动BI应用、Off i ce分析报告、自助BI分析、数据采集填报、数据挖掘等功能模块,适用于领导驾驶舱、KPI监控看板、财务分析、销售分析、市场分析、生产分析、供应链分析、风险分析、质量分析、客户分析、精准营销等管理领域,增强了企业的洞察能力、盈利能力,为企业获得可持续的竞争优势提供强大的保障。

Cognos Analytics同时满足了企业级BI和敏捷BI分析需求,提供企业级的数据建模分析和报表能力,同时兼顾业务部门自助服务,针对不同管理层次的用户业务进行定位分析,更能满足企业的需要,个人认为,Cognos Analytics是企业大数据可视化软件的首选。

5 小结

基于工业4.0要求下的大数据管理,需要从数据采集、存储、分析、挖掘、展示等各个阶段进行处理。如何将工业各工序存在的与产品、质量、成本、物流、能源等相关的信息进行大数据管理,进而形成决策支撑是当下工业革命的重要课题。本文在概述了近年来基于hadoop平台开创后产生的针对大数据存储、分析、挖掘、可视化软件,旨在为工业建立适合自身的大数据管理体系,实现以效益为目标,精益、精品管理为内核的愿景,从而全面提升企业的运营管理效率,推动企业的全面发展。

猜你喜欢

数据挖掘可视化数据库
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究