大数据技术的演进与发展历程
2021-04-13牛长春王福超
牛长春 王福超
摘要:在这个充满多样性信息的二十一世纪,科技与信息技术的发展等对我们产生着很大的影响,各种数据在呈现一个指数型的趋势增长,大数据时代的到来,影响着我们的各个方面,同时也得到了各个行业和领域的广泛关注。本文将对大数据技术的演进与发展过程进行简要的阐述。
关键词:大数据;数据挖掘;大数据技术
1 简述
当下互联网不断发展的速度让我们震惊,同时它的发展也影响着其他领域,都是有关联性的,最明显的是改变了我们的生活、工作等各个方面。目前对大数据这个词贴上了很多种标签,这些标签都是有利的,每种标签都有它的道理可言,部分人认为大数据当下无法做到在一个时间段内应用传统的数据库软件进行数据的采集、分析、存储等功能[1]。无论哪一种定义,大数据不可被称为新产品,同时也不可被称作新技术,大数据的存在只是数字化形式所表现出的一种现象[2]。大数据的诞生是一次重大的信息变革,它其实也是一种信息爆炸的体现[3]。当它发展到大数据2.0时,它是一个商业驱动,其整合外部数据,也是面向业务人员的;当演变成大数据3.0时,它是人工智能驱动,是面向合作的数据交换与数据交易[3]。如图1所示。
2 数据库技术的发展过程
2.1人工管理的阶段
基本上是靠手工或者分散的方式来进行相应的处理,数据不保存在机器中,计算机在数据管理中还没有发挥应有的作用,这种管理方式严重影响了计算机的使用效率。
2.2 文件系统的阶段
各个文件之间是独立的,无法体现与现实事务之间的内在联系,且各程序之间无法共享相同数据。数据冗余大,冗余数据具有不一致性,数据处理能力较差,文件的结构单一。
2.3 数据库的阶段
该阶段提供了相当完整的一套管理制度,保证了数据和程序的逻辑独立性,用户共享冗余度小,保证了数据的完整性和安全性。
2.4 大数据阶段
传统的关系型数据库已经不能满足当下需求,所以数据库管理技术就出现了分化发展的阶段,与此同时引入了分布式技术。
3 大数据的特征
(1) 大容量。伴随着各种各样的随身设备、云计算、物联网等发展,我们的轨迹都会被记录,因此产生出来大量的数据。早前的移动互联网主要以分析一些网页为主,但现在它的重点不再是网页,而是转移到人的身上,我们每一个人都是数据的传递者、制造者,例如短视频、微博、录像、照片等都是数据产品,数据来源于无线自动传感器、收款机、网页浏览、打电话等所产生。其中还包括银行、商场、电信运营商等机构所产生的海量数据。
(2) 多样性。现如今,智能设备的快速发展,产生的数据也较为复杂,它不仅仅包括关系型数据库,还有来自网页、社交媒体、电子邮件、搜索引擎等原始数据、半结构化数据。随着大数据的发展,它的格式存在也变得很多样化,其中包括视频、文本、图片等不同的类型。多样化的数据可以称为大数据的核心体现,大数据不仅仅可以处理海量数据,更可以用来处理不同格式的数据,也为不同来源的数据处理提供了很大的可能性。
(3) 速度快。在数据的处理速度上,要在很短的时间内给出相应的结果,如果超出时间范围,即该批数据就变得没有价值。如何做到快速,其在商业领域,已经贯穿于整个企业的运营、管理、决策部署等。大数据技术和数据挖掘二者有区别,主要在于速度快这一特性,大数据的特性是实时处理,以实时出结果为导向,其分为两方面:一是数据本身产生的速度快;二是数据处理的速度快。
(4) 真实性。数据的真实性对扩宽思路具有很重要作用,其实追求高质量的数据是一项重大挑战,在处理这批数据时,数据的清洗过程无法改变数据所存在的不确定性,因为数据本身包含着很宝贵的信息,我们必须接受它的这种不確定性,可以采取相应的措施,例如,数据融合,结合多种可靠性比较低的来源来进行创建更精准的数据点,或者通过模糊逻辑方法等一些先进的方法来处理。
4 数据库结构的演变
4.1 RDB(Relational Database)
关系型的数据库的结构其实很简单,它主要由不同的表进行关联来组成,存在的形式也简单,通常是行与列,每一个数据表所代表的方面都不同,行代表的是一条记录,列代表的是数据库表中的存储对象的同有的属性。
它的特点是单服务器,集中式数据,小型机,其响应的时间比较慢,同时本身的成本也比较低。其缺点也有很多,比如处理性能较差,还有它的扩展性、灵活性、稳定性相对来说也较差,在一些业务的处理上和处理的规模上都是有局限性的。
4.2 MPP
MPP其实具有并行处理的特性,而且是大规模处理,其业务数据会根据数据库的模型和特点来划分到每一个节点上,并通过专用的网络或其他的商业网络来进行连接,最后作为一个整体来提供一些数据库的服务,数据库集群有着完整的高效性、高可用性、高性价比等优点。
特点是多服务器,多节点,任务并行执行,数据呈分布式存储和计算,具有商业化。缺点是造价的成本挺高,对并发的支持程度有局限性,对节点的增删维护工作较复杂,不支持非结构化数据。
4.3 Hadoop
它由Apache基金会所研发出来的,是一个分布式的系统基础架构,同时它也是一个分布式形式的文件系统,简称HDFS,它的核心架构主要是HDFS和MapReduce组成,前者为海量的数据提供相应的存储功能,后者为海量的数据提供相应的计算功能。
特点是开源的,多服务器型、多节点的集群架构,可以来处理很多种不同格式的数据源。缺点是不支持多用户随意更改文件内容,同时也不支持写入等操作,对SQL的支持力度很有限制,数据之间的交互,实时性都比较差,以至于无法高效地存储大批量的小文件,很缺乏专业性的服务支持。
上述几种结构的对比如下表1所示。
5 大数据时代之数据挖掘
在当下,人们对数据挖掘这个词的认识与理解存在于各个方面,在各个领域中数据挖掘都取得了不小的成就。在互联网上数据存在着多样性的特点,它本身的复杂度也变得越来越高,我们会考虑应用一些方式来对存在的这种数据进行分析,由于传统的数据分析方法存在很大弊端,所以已不能满足当下的需求,而使用新型的数据挖掘手段进行相应的分析,可以对这些多样化的数据精准而快速的处理,分析出数据内部的真实信息。数据挖掘的进一步发展要依靠算法的改进来完成,现在数据的分布那么广泛,随时随地都可以收集到,如何更有效、更精准地来进行数据的处理,就要依赖于更精准的数据挖掘算法,现如今对挖掘手段的不断变革,提高数据挖掘的效率,以便于更多领域的应用。当下可以考虑将数据挖掘技术与其他一些领域进行结合的方式来实现自身价值,最大程度上来体现数据挖掘技术在当下大数据时代发展的优势。详细如图3所示。
6 结束语
大数据技术的发展影响着很多的领域,它其实是结合计算机相关技术进行数据分析等一些操作。尽管目前大数据已经取得了很多的应用成果,但在学科研究,应用的广泛性等方面仍存在着需要解决的问题。这些问题需要企业、高校、政府以及科研机构等的共同努力,推动国家在此项领域走向技术发展的前列。
参考文献:
[1] 于婷.大数据时代的数据挖掘技术与应用[J].通讯世界,2018(12):18-19.
[2] 侯聪聪.计算机软件技术在大数据时代的应用[J].电脑知识与技术,2018,14(14):234-235.
[3] 吴荣珍.基于大数据技术的计算机应用人才培养模式的研究[J].计算机时代,2019(3):61-63,66.
【通联编辑:梁书】