大数据处理系统的研究进展与展望
2017-12-27胡勇内蒙古科技大学
胡勇 内蒙古科技大学
大数据处理系统的研究进展与展望
胡勇 内蒙古科技大学
随着计算机技术发展与计算机应用普及,数据如果对其加以利用就可以将其变为有效的资源,从而产生价值增值。数据分析与利用技术正是基于此种情况发展起来的,大数据技术的应用对社会生活的多个方面都产生了影响,已经是当下社会发展的热点。本文就大数据处理系统的研究进展与展望作简要阐述。
大数据处理系统 研究进展 展望
移动互联网,移动设备,物联网发展产生了大量数据,如何对大量数据加以利用,找到其中有价值的数据,从而为社会发展带来积极影响,是数据分析工作者需要面对的问题。由于数据量大,因此其潜藏的价值量大,要实现对大量数据的有效利用,就需要通过一定技术,从海量数据中准确定位有价值的数据,提升工作效率,并以此推动社会向前发展。
1 大数据概述
大数据并不是近年发展的新事物,早在四十多年前,智利政府就实施了一项计划,将各地工厂的数据传输到运营中心,通过对其中某些领域数据进行分析,以此来对生产活动开展情况实施监督,对经济发展情况进行预估。该模式与当下大数据模式相似。由于当时的技术条件无法为工作开展有效的服务,因此工作开展的效果也不是特别明显。后来有科学家在研究工作首次提出了大数据这一概念,在当前对于大数据其定义也不相同。数据量需要达到一定的规模,并且利用传统方法无法对其进行有效管理与利用。在发展的过程中逐渐变成了一个十分宽泛的概念,包含了数据采集,归纳,整理,分析等一系列环节,以及工作开展所应用到的手段,技术与方法。
2 大数据处理系统分类
大数据处理系统类别非常多,因此其分类方法也比较多,未能得出统一公认的方法。比如可以从数据类型与负载类型两个角度对其进行分类。
从负载类型方面对其进行分类,可以将系统分为流式计算,批处理,交互式查询。批处理重点在于系统数据处理的量,而流计算则注重于产品时效性,能够在较短时间内完成工作。
从数据类型方面来分,系统能够提供表,图,集合,矩阵不同数据抽象,通常情况下一个编程框架只能够解决某一类型问题,不具有普通适用性。对编程框架进行分类,批处理能够有效适用于多种数据类型,其研究领域也最为宽泛。交互式处理则主要针对关系型数据。
3 研究工作进展
3.1 基于数据流模型的编程框架
某些编程框架可以将其归结到数据流模型,该模型利用有向无环图表达计算,顶点表示计算任务,数据依赖则利用边来表示。
3.2 图计算
实际式作中通常会有大规模图计算分析的需求,比如互联网网页所形成的图,顶点规模可以达到千亿级别,针对此类型分析和挖掘工作须借助于大规模集群才能够有效完成。图数据结构不规则,由此会导致其访问的局部性差,现实工作中许多图都与幂律分布相符合,顶点分布不均匀,通过边与其它顶点发生联系的顶点非常少,导致数据图难以切分均匀,从而会导致机器负载不均,风络通信开销量大等问题,对计算机整体运行效率造成严重影响。
大图分割作为图计算基础性问题,图数据切分可以应用两种方法,切点与切边。采用第一种方法,切割线只能通过图的顶点,如果利用该方法将顶点切割成两份,则意味着顶点会出现在两台机器上,并且是同时的,机器间的网络通信量会明显减少。由于算法迭代需要持续对图顶点值进行更新,顶点数据进行一致性维护会对通信开销造成影响。如果利用切边法,则只能通过图的边。
3.3 分布式机器学习系统
大数据时代,受到处理器与内存条件限制,传统单版机器算法无法对海量数据进行处理,分布式机器学习就成为了研究领域关注的重点,机器学习算法应用的是迭代计算,从而在巨大参数空间中寻找到最优解,但是其计算特点会对机器学习带来严重挑战。主要体现在并发问任务存在并且数量众多时,由于其它影响因素存在,执行速度会产生影响,负载不均衡会导致其影响到整体工作效率。
大规模深度学习在实际工作中应用取得了巨大成功,尤其是在图像识别与语音识别方面,深度学习通过深层神经网络对大脑工作原理进行模拟,其组成包括了输入层,隐含层,输出层。
4 研究趋势与热点
大数据处理系统研究工作虽然已经取得了一定成果,但是仍然存在许多方面需要进一步探索,技术还未能达到成熟阶段。在未来发展过程中,大数据处理系统研究工作要关注的重点问题包括,异构硬件平台,串行代码自动化并行,现有的编程框架提供了标准数据操作接口,程序员编写接口,底层系统执行代码,与传统编程方式存在较大差异。大数据处理技术多样丰富,但是也对实际应用工作带来了一定难度,全能通用型计算框架基本不存在,因此需要多种编程框架协同工作才能有效完成任务。
5 结束语
大数据处理正处于快速发展过程中,并且其应用于生活实际产生了巨大的价值。大数据处理系统与处理技术一样处于发展的过程,虽然已经取得了一定成果,但是在未来仍然需要结合到实现情况变化解决不断出现的新问题。
[1]王鹏;张利.大数据处理系统的研究进展与展望[J].高技术通讯,2015(Z1)
[2]李晓飞.基于云计算技术的大数据处理系统的研究[J].长春工程学院学报(自然科学版),2014(01)