APP下载

大数据系统和分析技术综述

2016-02-27吴卉男

信息记录材料 2016年3期
关键词:知识库复杂性数据处理

吴卉男

(贵州师范大学数学与计算机科学学院 贵州 贵阳 550001)

大数据系统和分析技术综述

吴卉男

(贵州师范大学数学与计算机科学学院 贵州 贵阳 550001)

本文以大数据时代为背景,对大数据处理系统与大数据分析进行了有效阐述,并在此基础上梳理了当前大数据计算面临的问题,最后提出了相应的解决对策,旨在为提升大数据计算效率,增强系统有效性提供相应地借鉴与参考。

大数据;数据分析;深度学习

1.大数据处理系统

1.1 批量数据处理系统

大数据处理系统的最主要的任务就是根据大批数据分析适合的模式,并得出相关的明确含义,制定相应的策略,最后制定出科学有效的应对措施,实现特定的业务目标。大数据通常来源于互联网、云计算等网络平台,可以有效解决上述平台中出现的若干问题,并提出新的问题。对于企业来说,他们可以通过处理过程中所产生的数据进行恶意软件或者是网络攻击的识别,进而可以有效判断某些外来的信息是否为安全产品。

1.2 交互式数据处理系统

同非交互式的数据处理相比较而言,交互式数据处理具有更为灵活和直观的特点,该系统与相关的工作人员可以通过人机对话的方式进行输入,系统便可以自动进行数据或者信息的提示,并指导操作人员按照要求一步一步进行操作,直至最终获得有效的处理结果。这种处理方式的使用可以方便系统中的应用信息进行有效及时的处理,便于交互方式的继续进行。

2.大数据分析

2.1 深度学习

在大数据分析过程中,最为关键的问题就是如何有效地表达、解释以及学习数据,无论何种形式的数据都具有很多种数据的表达方式,最为主要的方式就是相对比较简单的模型,这种模型还处在低级阶段,不能有效地带来良好的学习效果。为此,深度学习应运而生。深度学习就是根据层次的构架中针对对象在不同阶层上的表达来解决相对较为抽象的问题。深度学习起源于20世纪80年代,近几年来深度学习无论是在图像、语音还是在语言的理解等应用领域中均取得了许多有效的进展。2009年,微软研究院的Dahl等人首次在关于语音的处理中使用了这一深度神经网络,这一网络使得语音在被识别过程中的正确率明显提升,这便使语音的处理成为了在深度学习的相关应用中最为成熟的一个应用。

2.2 知识计算

以大数据为基础的知识计算是进行大数据分析的一个基础环节。知识计算在世界范围内的工业界来说是一个十分关键的研究热点。从目前来看,国内外共建立起了50多种相关的知识库,有效的应用系统更是建立了上百种,其中,代表性的知识库或应用系统有KnowItAll,TextRunner,NELL,Probase,Satori以及一些基于维基百科等在线百科知识构建的知识库,如DBpedia。随着大数据信息的逐步发展,针对较大规模网页信息中所包括的知识,自动地构建知识库这种方式已经得到越来越多人的重视与认可。面对海量知识建库,需要根据不同信息领域及其不同需要建立各种知识间的相互融合,这是当亲应该解决的主要问题之一。

3.当前大数据计算面临的问题及解决对策

3.1 数据复杂性挑战

随着大数据的不断涌现,人们在计算过程中遇到了以往所不曾出现的问题,即大规模样本的出现,这一现象的出现导致人民也面临越来越复杂的数据对象。正如前所述,大数据的重要特征就是数据的类型和模式具有更多的多样性,联系也较为复杂,数据的质量显得良莠不齐,这便造成数据在理解、计算与表达上面临了相当大的困难,传统的全量数据模式下计算的复杂性与难度增大,语义的分析与情感的体会也变得非常复杂。然而,目前人们对于数据中所蕴含的物理意义相对缺乏,加上相关知识的匮乏,这在一定程度上影响了计算机模型的设计与制作。

因此,将大数据的复杂本性定量化,有效研究数据所包含的内在问题是当前我们在计算机模型的设计上应该着重解决的重要问题。通过这一问题的有效解决可以在一定程度上帮助人们理解复杂的大数据模型,了解其所具有的本质特征,进而更好的获得抽象化的知识信息。由此可见,我们应该不断完善多模式关联之下的数据分析理论与模型,梳理好各个数据之间存在的内部联系,对复杂的模型系统进行有效的解析,有效降低其原理的复杂程度,使之逐渐转变为大数据的坚实基础。

3.2 计算复杂性的挑战

众所周知,大数据具有规模大、速度快、结构多样等特点,这一特点使得以往的机器学习、信息搜索以及数据收集得不到当前大数据的有效支持,尤其是大数据在面对小样本的数据处理时,不能够进行全局式的数据分析与计算,因而需要在计算时适时脱离传统计算的束缚。在进行大数据的求解过程中,要求我们对它的可计算性进行有效的评估,对计算方法进行有效的确认,并对价值驱动在特定领域的应用给予一定支持,这是当前的核心问题。但当前大数据的样本较多、结构较为复杂、分布极不均衡,这在为大数据的研究工作提供了机遇的同时也带来了一定的挑战。

因此,应将目光放眼于大数据的生命周期,在大数据自身的复杂性特征的基础之上,对以数据为中心的相关的计算模式进行有效的探究,合理改善守旧得数据计算模式,建立起更为规范化的推送式的数据模式,对大数据的相关理论进行深入研究,摒弃传统计算理念,不断探索充足的数据,按简约的方式研究局部计算的相近办法,建立起牢固的不依赖于全量数据的较为新式的数据计算理论基础。

3.3 系统复杂性的挑战

当前,有效支持大数据研究的平台是针对不同数据类型的大数据的处理系统。这一数据处理的大平台在面临数据较大、结构较为复杂的情况下也会存在计算周期长、难度较高的问题。这一问题不仅给大数据处理系统的整体结构、计算机构以及计算方式提供更加严峻的挑战,同时也在数据处理系统的运行速度及其耗能方面都造成了巨大的挑战,对其处理系统的要求也更为苛刻,这些问题是解决大数据处理应面临的重要问题,也是该系统进行设计与优化的最根本的准则,更是系统进行优化与处理的有效基础,因而,这是大数据处理中必须解决的关键性问题。

因此,必要充分了解大数据处理系统存在的复杂性难题,针对大数据在价值上的洗属性以及局面访问较弱这一特点的基础之上,有效整合大数据的处理与存储系统构架,严格执行大数据的感知与计算准则,在其系统机构方面、性能评估方面以及数据的处理方面开展具有针对性的深入研究,以便形成高效率、低能耗的大数据处理系统。

[1]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J]. 软件学报,2014,09:1889-1908.

[2]曹军威,袁仲达,明阳阳,张华赢. 能源互联网大数据分析技术综述[J]. 南方电网技术,2015,11:1-12.

Review of big data system and analysis technology


WU Hui-nan. Guizhou Normal University Institute of Science in Mathematics with Computer Science, Guizhou Province, Guiyang 550001, China

This paper with big data era as the background, the big data processing system and data analysis techniques and effectively, and on the basis of combing the current big data calculation problems, and puts forward the corresponding countermeasures, so as to improve the data offer reference for computational efficiency and enhance the system effectiveness.

Large data; Data analysis; Deep learning

G250.74

A

1009-5624-(2016)03-0002-03

猜你喜欢

知识库复杂性数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
PFNA与DHS治疗股骨近端复杂性骨折的效果对比
简单性与复杂性的统一
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
应充分考虑医院管理的复杂性
高速公路信息系统维护知识库的建立和应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
直肠腔内超声和MRI在复杂性肛瘘诊断中的对比分析
基于Drupal发布学者知识库关联数据的研究