大数据研究综述
2018-01-31郑强高群
郑强 高群
【摘 要】随着移动互联网、无线传感网等技术的的发展,新兴应用不断涌现,数据成爆炸式增长。大数据成为重要的生产要素,蕴含着巨大的知识价值。本文介绍了了大数据的定义和面临的技术挑战,归纳了大数据集成与预处理技术、数据分析与挖掘技术、数据展现技术,最后总结了大数据的发展趋势,为大数据的研究提供有益参考。
【关键词】大数据;数据处理;数据挖掘
中图分类号: TP311.13 文献标识码: A 文章编号: 2095-2457(2018)30-0179-002
DOI:10.19694/j.cnki.issn2095-2457.2018.30.078
0 引言
随着无线传感网、移动互联网的普及,21世纪以来数据量呈现出指数级增长,社会已经步入大数据时代。《大数据时代》一书的作者英国牛津大学教授维克托指出,大数据正在改变人们的工作和生活方式,并且更多的改变正在悄然发生。大数据已在网络通信、金融市场、气象预报等诸多领域得到广泛应用[1]。大数据背后蕴含着巨大的价值,尤其是通过数据集成、分析与挖掘之后,其所表现出价值已经远远超过传统的数据。大数据研究成为经济和社会发展以及科技进步的重要推动力量。
本文归纳和总结了大数据的定义、发展现状和面临的挑战及其关键技术。首先阐述了大数据概念及其发展现状、数据处理面临的问题及挑战,然后分析了大数据技术,最后是全文总结并对大数据研究进行展望。
1 大数据的概念
著名咨询公司麦肯锡给出的大数据定义:大数据指的是体量超出常规的数据库工具获取、存储、管理和分析能力的数据集。并强调,并非一定要超过TB级的数据才可以称作大数据[2]。《Science》杂志在2008年出版的专刊中定义大数据为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”。Gartner公司也给出了大数据的定义:大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化[3]。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
一般而言,大家比较认可关于大数据从早期的3V,4V说法到现在的5V。大数据的5V是指Volume,Velocity,Variety,Varacity,Value[4]。Volume:数据体量巨大;Velocity:数据生成速率高,时效要求高;Variety:数据类型繁多,既包括结构化数据,也包括半结构化和非结构化数据;Veracity:数据真实且准确;Value:数据潜在价值密度低,但价值高。
2 大数据的现状
随着数据科学的深入发展,欧美等众多发达国家都意识到作为国家战略资产的数据的重要性,分别发布了大数据发展战略。美国于2012年颁布了《大数据研究和发展计划》,包括约150余个项目类别,计划项目涵盖国防、卫生、能源等诸多领域。我国也把大数据技术也提到了国家的战略发展日程。2013年,国内多位院士联合建议设立国家专项,开展大数据技术研究。事实上,大数据技术已经应用在互联网、商业智能、金融业以及医疗、零售等行业,并对社会、经济产生了巨大的影响[5]。
3 大数据面临的挑战
不同于与传统数据,大数据来源广泛、种类繁多、动态增长,以上特点使得大数据技术面临新的挑战,以下几个方面尤其值得关注:
3.1 数据异构性和不完整性
据统计,目前半结构化和非结构化数据占当前社会数据总量的80%以上,已有的传统的数据结构已经无法准确的描述它们。因此,将数据组织成易于处理的结构,进行数据集成是大数据处理面临的一个重要难题。不完整性是指在大数据常常包含一些属性值缺失的和错误的数据。在进行大数据分析处理之前,必须对数据的不完整性进行有效处理才能分析出有价值的信息。
3.2 数据处理的实时性
大数据有着很强的时效性,随着时间的推移,数据背后所隐藏的的知识价值也会很快地降低。因此,大数据需要以较高的速率进行分析处理。
3.3 数据安全与隐私保護
大数据的隐私保护不仅仅涉及技术层面的问题同时也涉及到社会学伦理问题。相比于传统的数据安全,大数据时代的数据安全变得尤为复杂,面临着来自各方面的挑战。因此在大数据环境下,如何保证数据共享的安全性以及怎样为用户提供精细可靠地的数据共享控制策略等问题的研究显得越发重要。
3.4 高能耗问题
随着大数据体量的爆炸式增长,数据中心规模的日渐扩大,高能耗制约大数据发展的问题已日益加重。针对降低能耗、提高数据中心可靠性问题,常见措施包括:冗余配置、云计算技术和分布式计算技术。在存储时,首先要对数据进行分类,然后进行数据过滤和去重操作,来减少数据体量,同时建立多级索引以方便日后的查询操作。
3.5 大数据易用性问题
易用性的挑战突出体现在两个方面:首先大数据的体量巨大,价值密度低,这使得分析过程更加复杂,而且输出结果形式更加多样化;其次,大数据展现技术也是易用性的一个重要方面。
4 大数据技术
大数据技术包含数据预处理、大数据存储、大数据分析与挖掘、大数据展示技术及大数据安全等几个方面。
4.1 大数据预处理
大数据最典型的特征是多源异构。原始数据中会包含一些“脏数据”,比如离群点,值缺失等状况。因此首先需要进行数据的预处理和集成,为将来的数据分析和挖掘提供方便处理的数据集。目前市面上常见的方法大体可分为4类:基于物化或ETL引擎方法、基于联邦数据库或中间件方法、基于数据流引擎方法以及基于搜索引擎方法。
4.2 大数据存储与管理
数据压缩技术虽然能减少数据量和提高存储效率,但同时也加重了计算结点的数据处理负担。考虑到存储空间和数据的性质,针对不同的数据采取不同的存储方式。核心业务数据依旧采用传统的并行数据仓库进行存储;时效性要求高的数据则采用实时数据库或内存数据库;对大量的累积数据和无结构数据则采用分布式文件系统。
4.3 大数据分析与挖掘
人们希望如何从海量的数据中迅速的提炼出关键信息,为社会和企业带来价值。大数据分析的主要方法分为:统计数据分析方法、基于机器学习的分析方法、基于图的分析方法和自然语言中的分析方法。大数据的挖掘包括关联规则、分类分析、聚类分析等。常用的数据挖掘工具有:R语言、RapidMiner、免费的Weka、KNIME以及Prange等。最典型的挖掘平台包括基于Hadoop的平台和基于Spark的平台。
4.4 大数据展示技术
作为最重要的展示技术,可视化技术可迅速有效地提炼数据流,帮助用户迅速的从大量的数据中筛选出新的发现。大数据可视化技术包括:高维数据可视化、文本数据可视化、网络数据可视化、时空数据可视化等。在大数据可视化分析领先的公司是Tableau Software公司,该公司致力于让不懂可视化技术的特定行业领域知识专家也能方便地进行实时数据分析展示。其他可视化工具包括:文本可视化工具Wordle、网络可视化工具Gephi以及Data-Dirven Documents。
4.5 大数据隐私与安全
面对日益严峻的大数据安全形势,目前主流的安全解决方法包括:经典的文件访问控制技术、设备加密技术、匿名保护技术、加密保护技术、数据水印技术等。同时提出利用大数据技术本身用作大数据安全防护的实现方法,增强大数据时代的信息安全防护性能。
5 大数据发展趋势
随着大数据应用的日益广泛,新的问题也不断涌现。大数据研究的方向大体如下[6]:
(1)传统的关系型数据库与日益壮大的非关系数据库的集成
(2)采集的数据的不确定性与数据质量
(3)跨领域数据集成方法的可移植性
(4)利用大數据进行预测
6 结束语
大数据关系到到国防军事、社会生活、经济金融和科学技术等多方面的问题,大数据已经成为推动社会经济发展的强进动力。本文首先阐述了大数据的概念和大数据技术面临的挑战,然后介绍了大数据集成技术、数据分析与挖掘技术、数据展现技术,最后总结了大数据研究的重点方向。如何高效、合理地利用大数据为社会服务,还需要进一步地探索发现新技术。
【参考文献】
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶,ViktorMayer-Schonberger,等.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社,2013.
[2]孙勤红,沈凤仙.大数据时代的数据挖掘及应用[J].电子技术与软件工程,2016(6):204-204.
[3]Ji C,Li Y,Qiu W,et al.Big Data Processing in Cloud Computing Environments[C].International Symposium on Pervasive Systems,Algorithms and Networks.IEEE,2013:17-23.
[4]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J]. 南京信息工程大学学报,2014(5):405-419.
[5]涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014,31(6):1612-1616.
[6]中国计算机学会大数据专家委员会.中国大数据技术与产业发展白皮书[R].2013.