APP下载

基于数据库的大数据平台设计和实现

2022-12-07陈琨王萍利

华东科技 2022年11期
关键词:数据仓库数据源结构化

文/陈琨,王萍利

为保证系统数据资源的全面性和合理性,本文基于数据库设计了一款功能完善、实用性强的大数据平台。首先,本文在分析大数据平台需求的基础上,对该大数据平台进行了科学设计;其次,为全方位确保大数据平台的运行效果,本文为该大数据平台配置了14台服务器;最后,经过测试,在数据库的应用背景下,本文所设计的大数据平台运行正常、可靠、稳定,且平台中各功能模块均满足相关设计要求。总的来说,该大数据平台有效地提高了数据集成水平,有助于企业更加高效地运转。本次研究旨在为相关技术人员提供有效借鉴。

得益于互联网技术的迅猛发展,大数据技术被广泛地应用于各个领域,从而更好地满足了日益多样化的信息资产需求,同时也为企业的现代化运行提供了重要的技术支持。随着数据库及大数据平台的优化设计和推广应用,企业的数据集成与分析应用水平进一步提高,进而促使企业更加高效地运转。在此背景下,如何科学地设计和使用大数据平台,成为相关技术人员必须思考和解决的问题。

一、大数据平台需求分析

为确保所设计的基于数据库的大数据平台能够更好地满足企业用户的实际需求,本文尽可能全面地收集和整理了相关企业实际需要的系统数据资源。经整理,这些系统数据资源主要包含以下几种。(1)工程管理系统。该系统通常涉及投资计划、工程物质等数据,这类数据条目通常高达130万条以上。(2)生产管理系统。该系统通常涉及库存数据、运行操作数据以及设备物资数据等数据信息,这类数据条目通常在1900万条以上。(3)人力资源系统。在实际运行过程中,该系统通常涉及员工薪资、员工职务等数据信息,且这类数据条目往往不少于4万条。(4)财务管理系统。该系统主要包含企业在实际经营过程中所需要的发票、合同、报销等相关数据信息,这类数据条目通常在400万条以上。本文通过系统化分析和研究上述系统数据资源,发现相关企业在实际管理和经营过程中,各数据系统均表现出一定的独立性和分散性,这无疑增加了信息数据共享的难度,同时极易引发“数据孤岛”等问题。而基于数据

库的大数据平台的设计和应用,不仅可以更好地归纳、存储和转化结构化数据及非结构化数据,同时还能极大地提高数据集成水平,从而为相关企业的后续高效化、科学化运营和管理提供良好的平台支持。

二、大数据平台的设计

通常,在大数据平台设计阶段,技术人员必须在严格遵循统一性、经济性、时效性等原则的基础上,完成大数据集成平台的总体框架设计。本文所研究的大数据集成平台的总体框架设计如图1所示。从图1中可以看出,该大数据平台重点整合了以下几个层面。(1)数据源层。数据源层主要包含结构化数据、非结构化数据、实时数据等。为确保数据管理的统一性和集中性,用户需要采用统一命名的方式,对不同类型的系统进行科学命名[1],并以此提高数据存储的规范性。(2)数据集成层。数据集成层主要包含接口数据文件、消息队列、接口表等内容。基于对系统所获取的数据源层数据的整理和转化,该大数据平台能够将数据存储层进行有效连接。此时,用户便可以通过大数据平台提供的接口表[2],对结构化数据进行不间断的衔接处理,进而确保结构化数据能够安全、准确地传输到数据仓库缓冲区。(3)数据存储层。数据存储层主要涉及数据仓库平台、流数据平台以及分布式数据平台。用户可以利用数据存储层,向数据源层安全、可靠地传输所需要的数据仓库缓冲区的数据。

另外,在进行非结构化数据集成设计期间,本文主要采用了FTP文件传输方式,并对数据文件进行了科学化处理;同时,本文还利用FTP文件传输方式将非结构化数据传输到FTP服务器中;随后,本文向数据平台中安全、可靠地导入和存储了此前获取的非结构化数据,并向数据仓库存储区导入相应的数据结构信息,从而完成了数据存储层的构建。需要注意的是,当大数据平台内部含有大量的非结构化数据时,用户需要采用接口调用的方式,向数据仓库缓冲区导入所需要的非结构化数据。同时,由于实时数据监控系统在实际运行过程中,需要处理的数据量相对较大,且这些数据的时效性通常较强,所以本文所设计的大数据平台可以通过数据源层来大量生成实时数据,并实时向数据平台传输所需数据。此外,该大数据平台的流数据平台设计示意图如图2所示。在流数据平台的实际设计环节,本文主要利用Redis技术和Java程序,完成了对Java转储程序的编写;之后,本文将最终编写好的转储程序存入了分布式数据平台数据转储区。

三、大数据平台的实现

当前,大数据平台所使用的产品主要包含数据仓库、流数据平台、分布式数据仓库等,这些产品的对应用途分别为分布式存储、内存数据库、数据仓库等。为了进一步提高用户的使用体验,本文为此次设计的大数据平台配置了14台服务器;同时,本文严格按照大数据平台部署图,将管理节点、存储节点同步设置到大数据平台中。[3]随后,本文结合相关企业的实际应用需求,对服务器进行了科学配置,从而在提高服务器资源利用率的基础上,全面确保该大数据平台具备强大的存储功能和计算功能。此外,本文将设计完成的基于数据库的大数据平台科学地应用到某水电企业。经过六个月的运行使用,本文确定该大数据平台完全符合该水电企业的实际使用需求,并且该大数据平台在运行过程中具备较强的稳定性和可靠性,能够为企业后期集成和分析应用数据提供良好的技术支持,便于企业实现高效化、自动化运行。[4]

四、结语

综上所述,本文对基于数据库的大数据平台的设计与实现,大致经历了以下几个阶段。(1)本文通过全面分析相关企业的系统数据资源,发现各分部数据系统表现出一定的分散性和孤立性。对此,本文通过构建扩展性高、数据处理能力强的大数据平台,从根本上解决了各信息系统间存在的“数据孤岛”等问题。(2)本文在严格遵循大数据平台先进性、时效性的基础上,完成了大数据集成平台总体框架的科学化设计,从而为企业更好地整合企业全类型数据奠定了基础。(3)本文采用逐层分解的方式,优化了该大数据平台的总体框架设计,完成了大数据平台的整体构建,从而有效提高了系统运行的稳定性和可靠性。

猜你喜欢

数据仓库数据源结构化
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
基于数据仓库的数据倾斜解决方案研究
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践