大数据环境下的企业网络管理工作的开展

2015-01-03吕灵敏

中国管理信息化 2015年20期

关键词：数据仓库海量数据处理

吕灵敏

（大庆油田信息技术公司，黑龙江大庆 163000）

大数据环境下的企业网络管理工作的开展

吕灵敏

（大庆油田信息技术公司，黑龙江大庆 163000）

文章首先针对当前企业环境中的数据以及处理工作特征进行深入的说明和分析，而后在此基础之上，进一步针对云环境下的数据处理体系结构，以及相应的层级职能展开讨论，对于加深大数据环境之下的企业数据管理工作具有一定的借鉴意义。

大数据；企业；网络；管理

当前信息环境下，企业对于数据的依赖性呈现显著上升的趋势。并且在大数据相关技术不断成熟的领域中，数据所带给企业的，已经远不止工作效率的提升，而更多是围绕数据本身所展开的更为深层价值的发现和挖掘，并通过数据价值的深入应用，实现对企业决策的良好支持。在这样的需求背景下，数据的重要程度得到了前所未有的肯定，对应的数据的收集也因此得到进一步落实。这些都直接带动了网络环境中数据量的激增，而如何在海量数据的基础之上进一步实现对于大数据的有效利用和解读，成为当前企业网络管理工作的重点。

1　当前企业环境中的数据以及处理工作特征

对于目前的企业环境而言，为了能实现对于企业工作状态以及对应环境的全面反映，切实实现对于整个系统的深入有效分析，通常都会深入到企业工作过程及工作环境中展开数据的采集。这直接导致当前企业环境中的数据呈现出3个突出特征，即海量性、异构性和非确定性。传统工作环境下，企业的数据多相对比较常规，数据量也趋于稳定，但是当前，尤其是对于油田企业工业环境而言，为了确保工业过程的整体安全稳定，各个工作环节都开始加强数据建设，包括视频传输以及数字化油田仪表监控数据等在内的诸多数据，构成了当前油田企业环境中的数据体系。这样的数据环境从数据总量上看，表现出明显的激增，并且更多格式的数据涌入，都带给企业数据环境以新的特点。同时，数据的实时性也成为新的突出特征，这种特征与数据本身的不确定性、语义匹配的不确定性等共同构成了数据环境的非确定特征，并影响着当前企业在面向数据展开深入处理的整个工作方式。

传统的数据处理多围绕数据库展开，以数据库作为整个数据处理系统展开工作的核心环节，其存储和处理方式包括关系型数据库处理方法、数据仓库处理方法以及数据仓库和大内存结合的方法三种。其中关系型数据库处理方法是将工作过程中采集和产生的数据存放在数据库环境中，并且以SQL语句作为工具展开分析和计算。此种工作方式适用于结构化数据，曾经成为数据处理工作的重要依据和形式，但随着当前数据格式种类的增加，需要将非结构化数据在后台进行转化，降低了整体的工作效率，因此不再适用于海量数据分析环境。而对于数据仓库处理方法而言，则是面向数据展开抽取处理，而后离线对数据进行汇总并保存在数据库中。此种工作方式的效率同样无法满足海量数据之下对于数据处理效率的要求。而对于数据仓库与大容量内存结合的工作方式而言，则是利用数据仓库来实现对于海量数据的预加工，而后展开深入处理。此种工作方式虽然能在海量数据的环境下实现初步支持，但是内容容量成为此种数据处理方式的瓶颈问题，因此难以得到深入发展。

2　云环境下的数据处理技术

在海量数据环境中，云计算方式成为未来发展的突出表现，并且分布式的数据处理实现方式，本身也适应了当前海量数据的突出特征。以Hadoop开源技术为例，其能够在成本、二次开发灵活特征以及广泛支持等方面有良好表现。云环境之下，一个典型的数据处理体系包括五个层面，自下而上分别是数据源层、计算层、存储层、查询层以及应用层。

从职能的角度看，最基层的数据源层负责实现数据的采集，在油田工业环境中，主要包括诸多信息采集终端，例如终端摄像头以及油田工业环境中的开采以及加工仪表等，同时也包括为工作人员提供的数据读取和录入接口。这些数据源层端口负责实现将油田工业环境中方方面面的描述数据纳入到数据环境中来。而计算层，在云环境中，位于存储层之下，主要是考虑到分布式数据处理的实现。具体而言，这一个层面的职能包括数据的抽取、装载和加工，主要用于对实时数据有所及时反应。而存储层多位于数据中心，通过局域网与分布式计算层保持联系，在油田工业环境中，由于数据节点以及数据终端相对分散，因此基于公共网络的虚拟专用网技术也会出现在这个环节中。存储层负责将大量数据汇总和整理，为分布数据节点腾出空间。在此之上的查询层，同样担负有数据处理的职能。但是相对于计算层而言，查询层的数据处理职能更多是对数据的综合性深入挖掘，采用的技术也包括人工智能等在内的更为复杂的处理技术。最后，应用层主要负责面向系统用户展开对话，包括多个应用组件，诸如全业务运营系统以及查询系统等，都会涵盖在该层面中。

在这样的系统中，数据的采集和Hadoop集群数据处理，以及数据仓库三个部分称为职能重点。数据采集环节而言，除了需要完成相对常规的数据采集职能以外，还需要实现从源数据到Hadoop集群数据的格式转化，形成Hadoop技术能够直接处理的数据文件。这个职能多被放置于分布节点上，靠近数据采集终端。而对于Hadoop集群数据处理而言，则需要在对数据文件展开Map-Reduce计算的基础上，将处理结果存入数据仓库，且添加对应的标签，方便应用层程序使用。而数据仓库多采用Oracle 关系型数据库展开设计和建设，保持良好兼容特征，同时对工作人员友好。