基于大数据的数据处理与分析应用研究

2019-09-10魏云

现代营销·理论 2019年6期

魏云

摘要：现阶段，随着互联网的普及和信息技术的快速发展，数据的种类和数量以前所未有的速度快速增长着，我们所处的时代已是数据日益渗透的时代，“大数据”已经来临。现如今，各行各业都在使用大数据，人们的生产生活已无法离开大数据，无论是从事大数据的专业者还是普通用户都有着一个共同的感触：大数据很有用！但是，大数据的价值并在数据本身，而是数据处理和分析，因为没有经过处理和分析的数据，其价值是难以体现的。伴随互联网消费的蓬勃发展，我们每一位网络消费者都曾有过被精准推送广告信息的经历，众多的互联网平台如阿里、京东、亚马逊等也因接触规模巨大的网络消费群体而获得大量数据，但是若不对这些数据进行处理、分析和挖掘就很难从大数据中辨别隐藏在其中的能对决策提供支撑的信息，当然也就没法产生价值。对数据进行有效处理和分析就是广告被精准推送的原因之一，那么如何处理、分析、挖掘出有用的大数据？如何更好地管理和利用大数据已是人们普遍关注的话题。

关键词：大数据数据处理分析应用研究

引言

在云计算、物联网技术不断发展下，逐渐形成了大数据，作为一项革命性技术，大数据当中蕴含大量不同的信息。在21世纪以来，大数据时代颠覆了传统信息数据的应用方式，当今社会数据挖掘无时无刻不在改变着人们的生活，结合信息整合额技术，更能够实现多元化、丰富化信息内容，这也成为了当今人们重点研究的课题。其不仅可以出了庞大的信息群体，还可以呈现出多个种类信息逻辑功能，消除信息源之间的相互影响、空间局限。由此可见，加强数据挖掘的信息整合技术研究有着重要意义。

一、大数据分析的前期准备

数据变得越来越常见，数据分析的价值也越来越凸显。但是，大数据分析前是需要做好一定准备工作的，这个工作其实就是在预处理阶段要做的工作，即数据清理、数据集成、数据归约和数据转换。因为初始获得的数据多含噪声数据、错误数据、缺失数据或冗余数据，通过数据清理对数据进行噪声识别，对错误、缺失或冗余数据进行过滤与修正，进而提高数据的一致性、准确性与可用性;通过数据集成将多个数据源中的数据结合起来存放到一个一致的数据存储中，进而提高数据的完整性域安全性;通过数据归约将去噪后的数据根据相关要求对数据属性进行处理，在保证数据完整性的基础上，获得比原始数据小且合乎要求的数据;最后再用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据，即通过数据转换实现数据统一。

二、应用措施分析

2.1数据存储技术

数据的存储就是指将网上新增的数据通过技术手段储存起来，当用户需要时再将数据调取出来使用。如今网上每天就会新增上万亿GB的数据，数据存储的工作量也大大增加，现在云存储，云盘技术的发展有效解决了这一问题，每个用户都可以将自己有用但占内存的数据存到云盘上，对于整个网络来说，云存储技术和云计算技术的出现及时解决了日益激增的网络数据。

2.2数据挖掘与数据仓库

信息整合技术作为数据挖掘技术的衍生品，是基于数据挖掘的基础上，实现信息整合。在信息挖掘或整合过程中，必须要从信息整合的数据仓库中获取数据挖掘库或数据集市。从数据仓库当中直接获取挖掘信息有诸多助益。数据仓库下的数据清理和数据挖掘数据清理差不多，如果数据导入到数据仓库中已经清理完毕，则在数据挖掘、整合时就没有必要再清理一次，并且可以解决数据不一致等问题。信息整合的数据仓库中，数据挖掘库只是一个子集，并非是物理层面上的单独数据库。如果数据仓库数据信息非常紧张你，则可以再建立一个数据挖掘库。当然，数据挖掘并非要构建一个数据仓库，并非是必须环节。信息整合技术可以构建一个巨大的数据仓库，可以将那不同资源整合到一起，解决数据间的冲突问题，将那所有数据导入到数据仓库内是一项非常大工程。所以，只是为了挖掘数据，可以将几个事务数据库导入只读数据库当中，将其作为一个数据集市，并在此基础上进行数据挖掘。

2.3分布集群数据库在大数据中的应用

目前，许多数据增长率很高的大型数据库系统正被用于改善全球人类活动，如通信、社交网络、交易、银行等，分布集群数据库已成为提高数据访问速度的解决方案之一。为多种类型的用户在多个存储中组织数据访问，分布集群数据库的问题不仅在于如何管理大量的数据，而且在于如何组织分布式存储中的数据模式。智能数据组织是提高检索速度、减少磁盘I/O数量、缩短查询响应时间的最佳方法之一。基于规则的聚类是提供数据库自动聚类和数据存储模式解释的解决方案之一，基于规则的集群通过分析属性和记录上的数据库结构，将数据模式表示为规则。使用不同规则池分区的每个集群，每个规则与内部集群中的规则相似，与外部集群中的规则不同。分布集群数据库是一种有向图结构的进化优化技术，用于数据分类，在紧凑的程序中具有显著的表示能力，这源于节点的可重用性，而节点本身就是图形结构的功能。为了实现基于规则的集群，分布集群数据库可以通过分析记录来处理数据集的规则提取。分布集群数据库的图形结构由三种节点组成：起始节点、判断节点和处理节点。开始节点表示节点转换的开始位置;判断节点表示要在数据库中检查的属性。分布集群数据库规则提取的节点准备包括两个阶段：节点定义和节点排列。节点定义的目的是准备创建规则，节点排列是选择重要的节点，以便高效地提取大量规则。节点排列由以下两个顺序过程执行，第一个过程是查找模板规则，第二个过程是结合第一个过程中创建的模板生成规则。提取模板以获得数据集中经常发生的属性组合。在模板提取过程中，分布集群数据库规则提取中只使用了少数几个属性，它旨在增加获得高支持模板的可能性。与没有模板规则的方法相比，该节点排列方法具有更好的聚类结果，这两个过程中的规则生成都是通过图结构的演化来实现。

2.4大规模并行处理技术的应用

大规模并行处理技术主要用于编写和调试现代处理器的程序，而不是本地汇编程序，所有的书面代码都是从C/C++语言翻译成一个低级的核心汇编程序。在大数据应用中，会产生很多数据，在数据的分析和计算中，应该结合编程技术，标准语言是面向传统体系结构的，这就是为什么编译器不能使用所有可能的DSP体系结构以最佳效率生成代码的原因。为了获得一个良好的优化代码，有必要直接在低级汇编语言上编写代码。为了简化编写程序的任务，可以在某个处理器上使用面向代码生成器。使用一个专门的汇编代码生成器，使用并行结构化的编程语言可以获得比在C/C++中翻译的应用程序更高效的代码，生成高效的汇编代码，该代码积极利用DSP内核的并行性和其他特性。低级汇编代码是由所有编译器生成的，但是它们与传统的基于文本的语言（如C/C++）一起工作。大数据应用环节，在数据分类和计算中，当两个计算操作在不同的操作单元上执行时，才能在一个dsp核心的vliw命令中并行执行两个计算操作。根据运算执行单元的不同，计算运算可分为op1和op2两种类型。属于不同组使得在一个命令中执行两个操作成为可能。第一种类型包括由算术和逻辑单元执行的操作，第二种类型包括由乘法器、移位器ms执行的操作。在模板中，标记“1”表示第一种类型的标识，标记“2”分别表示第二种类型。如果两个操作具有不同的类型并且没有数据依赖关系，则可以进行并行化，DSP核心的并行性是通过在一个核心中存在多个操作单元来保证的。在大数据计算和分析中，如果有足够多的通用寄存器来执行这两个操作，并且它们可以并行执行，代码就会并行化，提升数据計算的效率。

结语

为了更好地服务于社会、服务于人民，我们有许多的思维需要转变，有许多的知识需要学习，有许多的技术需要研究。要不断变革和创新数据处理技术，不断完善数据的分析方法等。

参考文献

[1] 王春驹.“大数据”时代的计算机信息处理技术研究[J].通讯世界，2016（6）：92-94.