大数据技术体系及发展趋势探析
2021-08-27黄小华
黄小华
进入二十一世纪以来,以计算机技术、网络技术等为代表的新技术应用,深刻的改变了人类社会的方方面面,尤其是近年来,伴随着5G技术的应用、物联网技术的突飞猛进,万物互联、一切皆可数据化似乎正从梦想走向现实。目前,数据已经渗透到了每一个行业领域并成为重要的生产因素,数据规模也正以惊人的速度呈膨胀式的增长,大数据正成为这个时代最为显著的标签。大数据概念的提出,颠覆了我们对传统数据的认识,同时也引起了数据获取、存储、分析、挖掘以及可视化等技术的变革,大数据以及其相关技术的发展正在成为改变人类生产以及生活方式的重要基础。本文基于对大数据内涵的认识,就其技术体系进行一些探讨并分析其未来发展趋势,以期能够对相关研究提供一些参考与借鉴。
大数据内涵分析
大数据的概念一经提出便受到了学界的广泛关注,但到目前为止,对于大数据还没有形成一个统一的定义。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。维基百科則将大数据定义为:利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集。中国科学院院士徐宗本则将大数据定义为:不能够集中存储、并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。从上述定义不难看出,大数据从不同角度、侧重点可以有不同的理解,但其本质核心是一种数据集,是相较于传统数据在获取、存储、分析处理等方面具有较大差异,需要特殊技术支撑的复杂数据集合。
大数据具有数据规模大、流动速度快、类型多样、低价值密度以及真实性等特征,这使得其与传统数据相较具有较大差异。计算机技术、数字化技术以及网络技术等的飞速发展以及大范围普及是大数据产生的基础条件,使得数据的产生脱离了对活动的依赖,从被动产生到主动产生再到自发性产生,数据的规模在此情况下得到了爆发性的增长。但大数据的战略意义或者说是价值体现并不在于对海量数据的掌握,而在于对这些数据的分析加工、处理能力,也就是说,大数据技术才是大数据从“死数据”变成“活资产”的关键。大数据的数据类型主要分为结构化数据、非结构化数据的半结构化数据,其中非结构化数据和半结构化数据是大数据的主要类型,也被称为异构数据。由于半结构化数据和非结构化数据无规则性结构、模式多样化,且在大数据海量数据规模中占比较大,为大数据的存储、分析、呈现带来巨大挑战。
大数据技术体系
大数据采集技术
大数据采集是指从终端设备、社交网络、企业管理系统以及其它互联网平台、系统等获取数据的过程。大数据采集的数据包括了从各种数据源如RFID、传感器、社交网络及移动互联网等采集的各种类型的结构化、半结构化及非结构化的海量数据。这些数据不但来源广泛,且数据类型多样、规模庞大、产生速度快,传统的数据采集方法基本无法胜任。大数据采集过程中主要挑战是并发数高,成千上万的用户在同一时间对系统进行访问和操作,无疑对其技术支撑提出了挑战。大数据采集的数据源不同,数据采集方法也有所不同。就目前来说,针对不同的数据源,采集方法大致有如下几种:一是数据库采集。传统的关系型数据库如MySQL和Oracle等可用大数据的采集,但其在处理超大规模和高并发的数据采集中显得有些力不从心。近年来,非关系型数据库如Redis、MongoDB和HBase等在大数据采集中的应用日益增多;二是系统日志采集。很多企业管理系统、商务平台每天都会产生大量的日志,这些日志是大数据中的一种重要数据类型。对于系统日志采集,目前使用最广泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求;三是网络数据采集。网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。网络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中。四是感知设备数据采集感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
大数据存储技术
大数据的存储与数据采集环节密切相关。一般情况下,当数据采集量在一定的量级范围内且仅需要响应简单的处理请求时,可将数据存储在轻型数据库内。大数据存储的轻型数据库包括了关系型数据库、非关系型数据库和一些新型数据库。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大数据存储的关系型数据库;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大数据存储的非关系型数据库;此外,Google的Spanner、Megastore、F1是具有代表性的大数据NewSQL数据库。
当轻型数据库难以满足大数据存储需要时,便需要采取大型分布式存储数据库或者分布式存储集群的方式,这类大数据存储技术也被称为大数据存储平台。目前典型的大数据存储平台包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。