利用大数据平台打通管理软件数据壁垒
2021-01-29周政王彩平张家口卷烟厂有限责任公司
周政 王彩平 张家口卷烟厂有限责任公司
大数据技术是近年来兴起主流数据处理技术,它一般依托于云平台或虚拟环境,能够提供或支撑数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。其中,数据采集、数据预处理、NoSQL数据库、数据仓库功能,可以在联通各个业务系统数据库、获取数据库数据的同时,进行一定的数据清洗过滤,最终存储在非关系数据库中,以供其他业务系统获取使用。
各类企业在发展的过程中都会依赖信息化软件辅助运营,从最早的财务软件,到之后的MES辅助生产运营软件,ERP企业管理软件等,随着企业逐步发展和业务水平的不断提高,各类管理软件的功能划分也愈加精细,对于大中型企业,尤其是生产企业来说,往往拥有多种辅助管理软件,甚至每个独立的职能部门都拥有属于自己的一套软件系统。在日益追求数据价值发掘的今天,将职能部门间的信息关联起来做分析已经成为一种重要数据分析方式,这就要求企业能够打通不同管理软件之间的信息传递通道。以往多采用手动信息汇总或者做接口的方式进行数据传递,但是前者需要耗费大量的人力和时间,且在数据收集整理的过程中也难以保证数据的准确性,后者需要进行系统间接口开发,但单一接口只能满足单一数据要求,对数据有更深入要求的时候只能进行新的接口开发,且接口开发费用普遍较高,长期如此会陷入软件运维费用过高的泥潭。因此,借助大数据平台技术建立企业的数据池,将各个业务系统的核心数据按照统一标准采集起来集中存放,同时可以提供给其他业务系统做数据关联分析,是一种有效打破管理软件数据壁垒的方法。
一、平台总体设计
建立服务器集群,以此为基础搭建大数据平台,在平台中部署数据池,通过ETL工具建立大数据平台与各个业务系统间的数据传输通道,制定一定的数据获取规则,将各个业务系统中的高价值数据统一存放到大数据平台的数据池中。当业务部门需要做单个系统数据分析或多系统数据关联分析时,可以通过大数据平台直接获取数据池中经过初步处理的高价值数据,根据自己的实际需要进行数据二次加工,生成各类图形报表,反馈给管理者作为制定策略的数据依据。
1.体系结构
根据大多数企业的特点和实际情况,平台采用多台服务器搭建服务器集群,服务器采用Linux操作系统CentOS7.2或以上版本,大数据平台管理软件使用Cloudera Manager,并在之上部署CDH集群来实现可扩展存储和分布式计算,通过Sqoop工具实现数据的导入和导出,以Hive作为数据存储池。硬件设备方面,完全可以采用企业现有的服务器进行部署,需要3台以上、能够部署CentOS7.2或以上版本的服务器,其中一个服务器为管理节点,其他为存储节点。
运行环境方面,采用Linux发行版本之一的CentOS7.2或以上版本为系统运行环境,以Cloudera Manager6.3.1管理大数据平台,以基于Hadoop的CHD6.3.2集群提供可扩展存储(HDFS)和分布式计算(MR)。
数据存储方面,以Hive作为数据池。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行,十分适合对数据池中的数据进行统计分析。
数据交互方面,以Sqoop进行Hive数据池和传统数据库的数据传输工具。Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql等)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2.功能结构
在数据贯通方面大数据平台主要提供以下功能:
<1>数据存储空间扩展;
<2>从业务系统中进行数据采集导入、数据清洗;
<3>数据存储;
<4>提供关联数据并导出到业务系统;
<5>平台状态监控。
平台功能实现:
业务数据在部署成功的大数据平台传递需要通过以下几步:
<1>在集群中添加服务。通过Cloudera Manager在选定的主机上添加Sqoop服务,通过# sqoop help验证服务是否添加成功。
<2>导入数据到Hive数据池。可以提前在Hive中创建表,也可以不创建在导入时自动创建,通过命令将关系数据库(MySQL、SqlServer、Oracle等)中表的数据导入到Hive中。
<3>在Hive中通过命令验证传入数据的准确性。
<4>导出数据到关系数据库。在关系数据库(MySQL、SqlServer、Oracle等)中建立对应表格。通过命令将Hive中的数据导出到关系数据库对应表格中。
<5>根据数据导入导出命令编写Xml脚本,通过脚本管理定时定期进行数据导入导出操作,实现对Hive中数据的更新。
二、结束语
利用大数据平台的数据处理能力和特性,根据企业打通管理软件数据壁垒的需求,结合数据一体化管理理念,采用Hadoop为基础的CDH提供存储和计算能力,Cloudera Manager作为平台管理工具,Sqoop作为数据传输工具,实现了对企业数据的集中存储处理,打通了多个业务系统间的数据传输通道。此功能的落实,能够有效提升企业运营数据的时效性和准确性,提高企业数据价值,帮助企业对业务系统中积累多年的数据进行数据价值挖掘,同时避免了高额度的接口开发费用,使数据在业务系统间的传输不再需要开发成本,减少业务系统运维费用,为企业下一步进行大数据分析提供了数据基座和支撑。