大数据关键技术及应用研究
2015-05-15蒋晓科符龙生李健
蒋晓科 符龙生 李健
摘要:随着云计算时代的来临,大数据引起越来越广泛的关注,大数据技术在飞速发展,大数据的应用领域也在不断拓展。该文首先介绍了大数据的概念及其4V特点,接着介绍了大数据的关键技术及其应用领域,最后对大数据的建设进行了探讨。
关键词:大数据;云计算;分布式文件系统;数据挖掘
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)08-0005-02
随着信息技术的发展和互联网应用的拓展,特别是电子商务、社交平台、智能终端等应用的飞速发展,全世界每分每秒都在产生着巨量的数据,这些数据不再局限于结构化数据,非结构化数据正在急剧增长,如何对不同类型的巨量数据进行分析和处理,从而实现数据的巨大价值,正是大数据要思考和解决的问题。
1 大数据概述
1.1 大数据的概念
大数据,又称巨量资料,是一个数据类别和数据规模都特别大的数据集,这个大数据集,无法用传统的工具在合理时间内进行抓取、管理和处理。
1.2 大数据的特点
大数据的首要特点,是数据规模大,此外,大数据同以往的海量数据有所不同,具有4V特点,即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
1)Volume(大量):大型数据集,指的是数据集的规模从TB级别,跃升到了PB级别。据IDC(互联网数据中心)的报告,早在2011年,全球的数据总量就达到1.8ZB,而到了2020年,全球数据总量将增长50倍。
2)Velocity(高速):是指大量实时数据流的快速收集、创建、分析、处理、传送的过程。通过高速的处理器和性能良好的服务器,企业能快速的将数据反馈给用户。
3)Variety(多样):是指数据类型的多样性。随着各种通信网络的发展,数据来源更加丰富,数据类型也不再局限于以前的结构化数据,还包括了半结构化和非结构化的数据。如电子商务、社交平台、智能终端、地理位置信息、网络日志、互联网搜索及传感器网络等都使得数据类型更为多样化。
4)Value(价值):基于前三个特点对数据进行管理,从庞大的数据中提炼出有价值的数据和信息,通过对未来的趋势和模式做出预测等方式,形成巨大的商业价值。
2 大数据关键技术分析
大数据的概念,广义而言,不仅仅是指数据规模,还包括了对数据进行采集、分析、处理的一整套平台系统和技术。从类型繁多的巨量数据中,快速找出有价值数据和信息的技术,就是大数据技术。
1)云计算技术:随着海量不同类型碎片化数据的产生,常规的技术已经不能胜任PB级大规模数据的计算,云计算技术的兴起有效的解决了这一问题,云计算技术可以说是处理海量数据最为低成本和高效率解决方案,通过云计算技术,可以把海量分散的数据从手机端、电脑端及其他智能终端均传送至云平台,然后再通过一个大规模的分布式系统加以高效分析和计算,提炼出富有价值的数据和信息。
2)分布式文件系统:Hadoop 是一个由Apache基金会开发的,用于处理庞大数据集的分布式系统架构,其特点是高吞吐量、高容错性、硬件成本低廉、开源等,可以存储巨量数据,并通过MapReduce对巨量数据进行计算。
3)分布式数据库系统:传统的关系模型数据库已经难以适用于大数据时代,主要原因是:传统的数据库倾向于采用纵向扩展的方式,这种方式下性能的增加远低于数据的增加速度,而大数据时代的数据远远超出单机处理能力,而为了具有更好的扩展性,大数据采用数据库系统应该是横向发展的;在大数据时代数据的存在的形式是多样的,各种半结构化、非结构化的数据是大数据的重要组成部分,如何有效利用如此海量且种类繁多的数据时大数据时代数据库的一大挑战;在大数据时代不同的应用领域在数据理性、数据处理方式以及数据处理时间的要求上千差万别;综上,分布式数据库系统是必然的选择。
除了上述的云计算技术、分布式文件系统、分布式数据库系统,大数据技术还包括遗传算法、回归分析、机器学习、数据挖掘、可视化技术等,各种技术并不是相互独立,往往是相互融合贯通的,最终都是为了取得有价值的数据。
3 大数据应用领域
1)金融行业:金融行业的非结构化数据在迅速增长,金融行业正在步入大数据时代的初级阶段,大数据将为金融行业的市场格局、业务流程带来巨大改变。大数据主要将从金融交易形式和交易结构两方面改造金融业,一方面,大数据将促进交易形式的电子化和数字化,从而提升运营效率;另一方面,大数据将促进金融脱媒化,弱化中介功能,从而提升结构效率。
2)电力行业:大数据将大力推动智能电网的建设,通过分析用户的用电行为和规律,智能电网可以更合理有效的进行电的生产和分配,更合理有效的进行电网的安全监测和控制,从而促进电力企业的精细化运营,实现科学管理,提升运营效率。
3)物流领域:物流是整个社会经济发展的重要组成部分,当前整个物流行业尤其是电子商务领域已经呈现出爆发式的增长,而信息化成为现代物流最核心的特征,应用大数据技术,将促进仓储空间的优化配置,物流路线将更合理的规划,物流运输工具将被更有效的调度。
4)交通领域:我国与交通相关的数据量已从TB级跃升到PB级,大数据技术将大力促进智能交通的建设和发展。运用大数据技术的海量存储和高效计算等特点,可以实现交管系统跨地区、跨部门的资源整合,为交通管理的规划、决策、运营、服务和改进提供有力支持。
4 大数据建设探讨
1)标准体系:中国电子技术标准化研究院发布了《大数据标准化白皮书》,提出了大数据标准体系框架,即大数据标准体系由六个类别的标准组成,分别为:基础标准、数据处理标准、数据安全标准、数据质量标准、产品和平台标准及应用和服务标准。虽然我国在大数据标准建设上有一定基础,但缺乏整体规划,许多标准还不够完善,可以考虑成立专门的大数据标准制定和管理工作组。
2)运行机制:建立健全大数据运行的一套良好的机制,从国家层面给予大数据建设和发展有利政策,从经济和技术等方面予以大力支持,促进大数据建设过程中各个部门、各个行业、各个领域的协同工作,促进大数据建设的可持续发展。
3)专业队伍:培养一支专业的大数据建设队伍,大数据建设是一个系统工程,包括管理、技术、应用、服务、推广等各方面都需要专业人员完成,只有为大数据建设安排了合理的人力资源,才能高效推动大数据各方面、各环节的建设。
4)共享平台:搭建一个数据共享和数据交换平台。数据只有在不断的流动和共享中才能体现出更强大的生命力,才能发挥更大的价值。可以在各个专用数据库的基础之上,通过数据集成实现各类数据的流通。
5 结束语
基于大数据的4V特点,只有综合有效的运用大数据相关的各种技术,才能更好的挖掘和实现数据的价值,从而推动大数据应用和服务于经济与社会。此外,标准体系、运行机制、专业队伍和共享平台是大数据建设的必要保障。
参考文献:
[1] 孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014(4).
[2] 陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络数据关系抽取[J].计算机研究与发展,2013(9).
[3] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013(6).
[4] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1) .
[5] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6).