APP下载

大数据研究综述

2017-01-21卿勇

软件导刊 2016年12期
关键词:三网融合关键技术大数据

卿勇

摘 要:信息技术的迅速发展,促使物联网、云计算、移动互联网三网融合,并衍生出海量数据,大数据时代已悄然来临。以几何倍数增长的数据如何高效率地采集、处理、挖掘是大数据领域亟待解决的关键问题。阐述了大数据的定义、国内外研究现状及特点、大数据的关键技术,提出了大数据的发展趋势。

关键词:大数据;三网融合;关键技术

DOIDOI:10.11907/rjdk.161834

中图分类号:TP301

文献标识码:A文章编号:1672-7800(2016)012-0175-02

0 引言

在数据量以几何级数方式迅猛增长的今天,随着物联网数据感知、云计算数据计算、三网融合以及移动互联网的迅速发展,数据增长快、数据类型多、价值密度低,大量的数据信息已不能以传统的计量单位(GB和TB)来衡量,产生更为巨大的计量单位,如PB、EB、ZB、YB等,使用现有的数据库管理工具难以进行数据快速获取、存储、检索等操作。通过对大数据的抓取、管理和处理,挖掘出有价值的数据或信息,可以极大地提升数据的有效率和利用率。

1 国内外研究现状

信息与网络的飞速发展,信息量大量增长;计算机硬件成本逐渐降低,使得昂贵的数据存储和处理变得经济。谷歌的MapReduce、GFS和BigTable等核心技术引起了雅虎、Facebook等互联网公司的注意,为目前应用最广泛的开源大数据框架Apache Hadoop的诞生奠定了基础。联合国发布的《大数据促进发展:挑战与机遇》大数据政务白皮书指出,大数据对人类而言是一个历史性的挑战和机遇。

美国政府耗费巨资投入大数据技术研究,颁布了《大数据研究和发展计划》,目标是通过大数据技术实现感知、认知和预测支持的结合,增强信息提取分析、情报获取和对目标的洞察能力,培养该领域的技术人才。投入155个项目涉及国家多个重要领域,如国防部、能源部以及国家安全及未来发展战略等。主要项目包括:多尺度异常检测项目(ADAMS)、网络内部威胁计划(CINDER)、加密数据的编程计算项目(PROCEED项目)、视频与图像检索分析工具项目(VIRAT项目)等。为实现决策优化,美国还进行了数据可视化、信息安全与大数据结合等方面的综合研究,建立大数据中心,对各类大数据进行整合、分析,并向相关领域提供大数据分析产品。

我国大数据应用还处于起步阶段,但已有国际知名项目投入使用,如Facebook开发的社交图谱数据、NSA棱镜计划、IBM Waston等项目。2013年,我国开始进行大数据专项研究,2014年,国内主要互联网公司已将大数据应用于相关业务中,取得了巨大的经济和社会效益。同年,清华大学开设了大数据相关课程,正式开启了培养大数据领域专业人才的序幕。

大数据作为一个新兴的技术门类,已经渗透到国民经济各个领域。大数据为人类带来了无限的机遇和挑战,是一场即将改变未来的信息革命。

2 大数据特点

大数据无法使用传统数据库工具对其内容进行处理,具有传统数据所不具备的特点,见表1。

大数据定义的5V特征(Volume,Velocity,Variety,Veracity,Value)涵盖了5个层面。

(1)数据量大(Volume)。此为大数据最明显的特点,从传统的MB、TP跃升至PB或更高的EB、ZP级别。数据量的大小决定数据价值和潜在信息,数据表示各种业务活动,推动社会与企业共同进步。

(2)处理速度快(Velocity)。在数据量飞速增长的同时,对数据实时分析和处理要求更高。如果海量数据未能实时处理,将失去其应有价值。

(3)数据类型多(Variety)。大数据来源复杂,数据类型多种多样,包括结构化、半结构化和非结构化的等多种数据类型。传统的数据处理工具已不能对类型多且杂的大数据进行处理。在如此繁多的数据中获得有价值的潜在信息,正是大数据多样性的重要体现。

(4)数据真实性(Veracity)。大数据来源于真实世界发生的各类活动,而高质量的数据是大数据发挥效能的前提和基础。唯有如此,专业的数据分析工具才能从海量数据中提取出隐含的、准确的、有用的信息。

(5)价值密度低,商业价值(Value)高。在大量的数据中只有少数数据具有利用价值。合理运用大数据,提取出能够解释和预测现实的数据,以低成本创造高价值。

3 大数据技术

信息无处不在,海量数据的产生、共享以及交换应用如何实现是大数据研究领域的核心问题。

大数据技术能够实时、高效、可视化地处理各种类型数据,使用户按需求获取分析和预测结果。大数据关键技术是数据的采集与预处理、数据存储与管理、计算模式与系统和数据分析与挖掘,如图1所示。

(1)大数据采集与预处理。数据来源渠道繁多,导致数据类型多样化,包括结构化、半结构化和非结构化数据。非结构化数据价值低、异构且冗余,故首先要对数据进行清洗,以消除相似、重复或不一致的数据,为后续过程提供高质量的数据集合。现有的数据采集手段主要有以下4种[1]:基于物化或 ETL 引擎方法、基于联邦数据库引擎或中间件方法、基于数据流引擎方法和基于搜索引擎方法。

(2)数据存储与管理。PB或EB数量级的大数据不仅需要上层应用高效的数据访问接口,而且对数据实时性和有效性提出了更高标准。为快速高效可靠地处理大数据,需建立计算编程模式以及相关的优化方法。大数据环境下,目前最适用的技术是分布式文件系统、分布式数据库以及访问接口和查询语言[2]。

(3)计算模式与系统。大数据计算模式是指根据不同的数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立各种高层次抽象或模型。大数据计算与计算算法、数据规模、数据分布以及用户访问行为密切相关,不仅从多维度建立大数据计算程序集合,还分析了计算系统之间的相互影响,建立复杂条件下大数据运行的行为模型。典型的大数据计算模式与系统如表2所示。

IBM结合自主计算和大数据技术,提出具备自主能力的“认知计算”,是继制表计算、编程计算之后的第三代计算模式。

(4)数据分析与挖掘。鉴于大数据价值密度低、商业价值高的特点,为提高数据质量和可信度,要求从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过分析数据结构、类型及数据间的关联度,综合运用统计和机器学习,从数据库管理系统的大数据中提取出隐含其中的潜在信息和知识,这就是数据分析与挖掘。在庞大的数据中,数据呈现形式至关重要。可视化借助图形化手段,通过直观传达大数据关键特征,对数据进行可视化表达,呈现数据中隐含的信息,挖掘数据中所包含的规律。数据可视化分为科学可视化、信息可视化和可视化分析。

4 结语

大数据概念日益完善、特点日益突出、关键技术日益提高。大数据作为近年的新兴产业,像互联网、云计算及物联网一样,改变了国民经济和生活,已成为新一轮信息技术革命的发动机,成为社会经济的支柱,带来了全新的变革和机遇。但大数据核心处理技术尚不成熟,大数据产业发展应符合国情,科学规划,形成良好的发展环境,国家要推动大数据领域技术走在世界前列。

参考文献:

[1] LI X,DONG X L,LYONS K,et al.Truth finding on the deep web:is the problem solved[C].Proceedings of the 39th International Conference on Very Large Data Bases ( VLDB'2013) ,2013:97-108.

[2] 中国计算机学会大数据专家委员会.中国大数据技术与产业发展白皮书[R].2013.

[3] ARASU A,CHAUDHURI S,CHEN Z,et al.Experiences with using data cleaning technology for bing services[J].IEEE Data Engineering Bulletin,2012,35(2):14-23.

[4] GONZALEZ J E,LOW Y,GU H,et al.Power graph:distributed graph-parallel computation on natural graphs[C].Proceeding of the 10th USENIX Symposium on Operating Systems Design and Implementation,2012:17-30.

[5] KUMAR R.Two computational paradigm for big data[EB/OL].[2014-08-25].http://kdd2012.sigkdd.org / sites /images / summerschool / Ravi-Kumar.pdf.

[6] KANG U,CHAU D H,FALOUTSOS C.PEGASUS:miningbillion-scale graphs in the cloud[C].IEEE International Conference on Acoustics,Speech,and Signal Processing ( ICASSP ) ,2012:5341-5344.

[7] VICTOR MAYER SCHONBERGER,KENNETH CUKIER.大数据时代[M].杭州:浙江人民出版社,2013:193-232.

[8] 李翠平,王敏峰.大数据的挑战和机遇[J].科研信息化技术与应用,2013(1) :12-18.

[9] 刘军. Hadoop 大数据处理[M]. 北京:人民邮电出版社,2013:45-60.

[10] 李纪舟,叶小新,丁云峰.美军大数据技术发展现状及对其信息作战的影响[J].外军信息战,2013(6) :34-38.

[11] 陈为,沈则潜,陶煜波,等.大数据丛书:数据可视化[M].北京:电子工业出版社,2013:29-37.

(责任编辑:杜能钢)

猜你喜欢

三网融合关键技术大数据
小麦春季化控要掌握关键技术
棉花追肥关键技术
成功育雏的关键技术
老苹果园更新改造的关键技术
融媒体时代三网融合下电视新闻网建设的思考