大数据管理分析中的分类法
2020-11-30朱懋强
朱懋强
(金航数码科技有限责任公司 北京市 100028)
近些年来,各种各样的数字设备得到了广泛的应用,源源不断的产生着各种各样的数据,全国乃至全球的数据量都在疯长,逐渐形成了我们所谓的大数据时代。大数据实际上就是数据量增长太快,传统中的数据库面对如此之多的数据,以及无法满足其存储、分析以及处理的需求。当前各个行业进行竞争的重要依据就是以数据的形式对大数据进行管理。大数据的管理是科技信息技术目前最大的挑战,各个行业都在寻求数据为核心的管理结构和运用方式。
在过去进行数据储存、分析和处理的时候,其产生都是来自有限的源或者比较简单的数据,一般计算结果都比较准确。但是大数据产生为数据管理带来很大的难题,因为传统的程序和工具在设计时并没有考虑到数据会发展到如此庞大的数量。并且,当前的基础计算工具也无法进行大数据管理中各类数据的计算。其原因不只是因为数据量的扩大,还有数据变得复杂化和动态化的原因,这导致分析和处理工作几乎不可能使用传统的管理技术进行。显而易见,大数据的管理对基础设施来说挑战性很高。
当前对大数据进行处理的技术将重点放在了数据的特征上来进行,比如类别、体积或者速度等等。另外,大数据中有很多关于管理和生产的数据,这类数据一般具有较高的复杂性,这就使得管理技术必须进行不断的创新和升级。但是目前还没有此类技术的深入性研究,所以本文尝试通过分类化对大数据管理进行探究,旨在为大数据管理工作者提供一些参考。
1 大数据的概念
目前对于数据这一概念,还没有达到统一的意见。从内容来看,数据被定义为物体运动变化的状态以及数字的体现,是基于人们感官得到的刺激然后进行记录的得到的信息或者符号;从形式来看,数据包含的类型有数字、事实、图像、文本、音频以及尚未注释的数字编码等等,数据不依附于问题存在,没有鲜明的意义,它的存在是毫无意义的;再通过关联性来看,各个数据之间并没有关系的建立,呈现出分散性和孤立性。
2 大数据管理分类的意义
大数据是通过计算机来实现大量数据的处理工作,在超出计算范围后,常规的数据处理器已经无法满足处理工作的需求,就要进行创新和开发更加高级的数据处理器,以实现管理收法数据的目的。
数据管理分类顾名思义就是把属性相似或者有一定共性的数据进行归类,能够以数据的特征或者特点为重点进行检索,以便于查询数据或者筛选数据,比较常用的数据管理分类包括:离散型和连续性、截面数据和时序数据、定类数据、定比数据以及定序数据等等,统计学、逻辑学等相关行业对数据管理分类运用的比较多。数据管理分类也要根据一定的原则进行,首先要保证稳定性,以数据的特点、属性作为分类标准的时候,要保证提取的特点或者属性具有稳定性,从而保证数据管理分类的稳定性;其次要满足系统性,数据管理分类后必须有清楚的逻辑,系统中要井井有条,便于浏览和修改;再次要具备可兼容性,储存越来越多的数据是数据管理分类最根本的目的,数据变得越来越多后,要确保数据的各个类别可以兼容共存;然后是具有扩充性,数据随时能够以分类标准为依据进行扩充;最后是实用性,为了科学、有效的管理和应用数据,才对数据进行分类,因此必须要具备鲜明的分类标准,并且有清楚的逻辑,以便于索引,方便获取和使用数据[1]。
3 大数据管理分析的分类法
对大数据管理分类法进行讨论之前,必须充分了解大数据管理的相关技术设计的环节。首先,将各个来源的数据汇总到储存设备上,然后进行预处理的执行,最后进行分析,这样就是到了决策的终点。管理大数据是为了有效并且安全的进行储存数据、应用数据[2]。但是,大数据的管理进展受到了很多因素的影响和阻碍,这表明大数据管理在分类以及流程等方面还存在着一定的问题。针对这些问题,也有一些解决方案的提出,比如,在复制和高维数据方面,聚类受到了储存的限制,为了解决这个限制问题,国外一位学者拿出了相对应的解决方案,对存储的空间利用分层聚类机制进行优化。并且,因为分区缺乏选择科学合理的分区机制,加大了数据的处理量,因此为数据的科学处理带来了一定的挑战,所以,机器学习算法是十分重要的。
3.1 数据的存储
由于容量数据以及异构的不断产生,存储的管理成为了根本性的问题,可用设备的储存量远远不足以保存如此大量的数据。为了保证未来决策的科学性和准确性,不能一味的对数据进行筛选过滤甚至是浪费。由于数据的多维度、动态化以及复杂化,使得储存管理要满足的要求越来越高,管理系统要保存大量的数据,优化数据对处理站的可使用性,同时要提高检索工作的效率。大数据的管理包括对储存的优化工作以及并行执行工作等等。从这一角度来看,数据的集群、索引以及复制等等都是十分重要的活动[3]。
3.2 预处理
决策的质量离不开数据的质量。数据的合理性问题是大数据管理同化工作中重要的问题之一。所以在大数据进行分析之前,有必要对数据的质量进行检测。数据的预处理工作是指将原始的数据进行转化,以便能够更加有效的对数据进行分析,这些原始的数据可能有缺失、错误或者不能使用的问题。比如说,在某个数据库内,A 物品的数据的定义类型是数字,记为001,但是在另外一个数据库内,该物品被定义为字母,记为a,那么,在对该物品的数据进行分析之前,必须将数据全部处理为标准的格式,才能对数据进行性集成。
3.3 处理
一些丰富的信息可能会影响到业务的处理,为了充分利用这些信息,就必须有能力对大量的数据进行处理。但是,受数据处理工作复杂性的影响以及支持算法过于基础,不能充分扩展,对于大部分的处理程序来说,处理数据仍是一个很大的挑战。数据的处理目标主要是对各个特征间的联系进行充分了解,同时开发出数据挖掘的有效方式[4]。大数据的处理原则主要有:首先对于各种类型的分析算法,该构架都能够支持,比如机器学习、视觉分析、统计分析以及数据挖掘等等各种方式;再次就是不能将全部的数据在同一个类型的空间进行存储,所以,不同的阶段存储的机制以及数据的处理都是不同的;最后要保证数据访问的有效性,无论是结构化的数据还是非结构化的数据,随着时间的变化,他们的挖掘和访问速度都在不断的增长,可见,数据处理的技术必须要能够对庞大的数据进行挖掘处理。
3.4 安全性
由于大数据的生成来源不止一个,这些来源是否安全是需要重视的问题。绝大部分的企业组织难以对数据进行有效的处理,主要是因为大量的数据都不是正常的数据并且特征明显。想要保证分析数据的质量,就必须扩大储存空间,推出更高级的算法,并对现有的算法进行优化,以实现对发大数据的高效处理。
4 传统数据管理分析中分类存在的问题
4.1 分类数据过于冗余
数据的冗余就是指数据存在重复情况,简单来说就是在多个系统或者文件中都能对同一个数据进行查询,适当的数据冗余可以一定程度上防止丢失数据,确保数据的安全[5]。一旦数据冗余太多,就会造成检索过程中不能高效的对数据进行查询,大部分通过人工操作在不同的地方对同一数据进行存放,并且为了保证数据完整多次进行了储存和备份,这样一来,使得数据的冗余度大大增加。传统的数据管理分类中过于担心数据会丢失,多次对数据进行备份工作,但是实际上提高数据的独立性,降低数据的冗余程度,对数据的质量以及使用效率都可以进行提高,提高这方面的意识是十分重要的。
4.2 数据分类没有明确的标准
数据分类的目的是为了更加充分的管理和运用数据,数据进行分类的工作一定程度上可以缓解以前操作中数据过于冗余的情况,但是传统的数据分类没有对分类的标准进行明确的规定,数据在分类的过程中过于盲目,在检索时会发生很多不便,不能有效的对数据进行查询和提取。对传统数据进行分类的方法主要有基于支持向量机的分类方法、基于小波变换算法分类方法、基于数据增益算法,这几类的算法都会使数据的冗余程度过高。
5 大数据管理分析中对分类进行优化
5.1 对数据冗余进行分类优化
数据冗余简单来说就是对种类进行分类的问题,计算机进行数据分类的主要目的之一就是提高数据的独立性,降低数据的冗余程度[6]。大数据通过对分类算法的改变进行优化分类,分析并处理冗余的数据,在这数据进行分类优化的工程中,通过局部特征这一分析的方式,再次提取冗余数据里面的重点信息,并对其进行标记,以替代之前数据的特征和属性,并且将之前的数据特征和属性定义为数据冗余的标准和标志,避免数据管理的后再次发生同样的数据冗余。
5.2 要有明确清晰数据分类标准明确清晰
由于大数据的数量庞大性,其中包含了很多的类别,对这些数据进行分类的过程中必须有明确清晰的标准可以依据,目前传统的计算机技术不能达到这一点。在对大数据进行研究的时候,以特定的标准作为依据对数据进行分类,分类的标准主要以大数据中的关键特征和数据作为依据,在后续对数据进行整理和归类的工作中,能够严格按照分类的标准实施归档工作,以实现高效的管理和运用数据。通过研究表明,在一些特定的仿真环境中,在虚拟的世界里,模拟数据分类的优化过程,并且对结果进行统计得出仿真图像,通过图像能够看出,大数据的分类处理以时域波形的形状呈现,这说明数据的分类处理得出的结果是比较准确的。另外,向量量化法也可以对大数据中的关键信息进行提出和分析处理,并且能够对分类起到优化的作用,效果十分理想。
6 未来的发展趋势
尽管大数据在管理方面的研究已经有了一定的突破,但是目前还有很多问题没有解决。想要为相关人员能够充分把握管理大数据的发展趋势和研究重点提供帮助,就必须更加深入的对未来机遇和挑战进行研究。因为某些原因,会造成相当一段时间里,数据的预处理工作要面临很大的挑战[7]。比如说,一些社交软件提倡用户对自己的相关数据进行搜集、探索或者总结,并分享给其他人。他们希望人们能够生成或者寻到合适的数据,实现共享数据的简单化,并对客户实行激励措施,通过极具说服力的条款对数据隐私的覆盖率进行提高,并且避免数据拥有者出现降低系统性能级别的发生。从某种角度来讲,数据集成就是实现人们的数据共享。但是,数据的集成有很强的复杂化,并且很多处理程序还没有明确的集成方式。比如,有两家公司生产不同的产品,并且使用的系统是一样的,那么就必须对两家公司系统数据在同一系统中进行集成是如何操作的进行充分的了解。所以,大数据的管理分析中,主要的挑战就是开发出更多的集成工具对数据进行处理。
7 结束语
随着时间的流逝,数据的规模变得越来越庞大,进而扩展出了更多的生成数据。所以,管理大数据的重点就是要采取科学有效的管理技术。本文全面分析了大数据管理的分类法,对分类法的存储、预处理、处理以及安全性进行了论述,并且对分类法的问题和优化措施进行了简单的探究。大数据管理目前还没有达到成熟阶段,希望本篇文章可以对大数据的管理分析工作有所助益。