大数据面临的问题及挑战
2016-03-27赵保华
赵保华
(阿坝师范学院,四川汶川 623002)
大数据面临的问题及挑战
赵保华
(阿坝师范学院,四川汶川623002)
本文首先对大数据的定义及研究现状进行了全面论述。同时大数据在存储、数据安全、数据显示也面临各种各样的问题。大数据在助推各个行业发展的同时也带来严峻的挑战。最后论文对大数据进行了简单的展望。
大数据;挑战;挖掘
0 引 言
随着云计算、社交网络等媒体技术的不断发展,全球各种各样的数据呈爆炸态势发展。而数据的存储单位也由曾经的B、KB、MB、GB、TB发展到了PB、EB、ZB、YB的级别,有关数据显示,在过去几年数据的增长量超过了原初几万年的数据累积总量,如此即对社会经济的发展,企业或者组织的管理,以及社会个人生活产生了巨大的转变推动力。面对迹近庞大的数据量,目前的数据处理软件已经远远不能满足时下大数据分析和处理工作的发展需求。同时又由研究可知,数据量越大,于其中可挖掘提取的价值也就越大,因此大数据中的问题和机遇始终并存。大数据是继云计算之后IT界的又一次技术性革命[1]。本文即就这一课题内容展开如下完整全面论述。
1 大数据
1.1大数据定义
对于大数据,业界迄今仍尚未做出一个明确定义。麦肯锡将大数据定义为:无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合[2]。大数据来源于网络交易数据,无法用现有的技术工具处理。作为已然形成的研究热点,大数据有如下4个特征:数据类型多样(variety)、数据处理速度快(velocity)、数据量大(volume)和数据价值密度低(value)。具体可作如下阐析:
1)数据类型多样。即数据来源多种多样,现有的数据大多都是结构化的数据,而大数据不但包含了结构化数据,还包含了半结构化和非结构化数据。
2)数据处理速度快。就大数据的分析和处理而言,随着高性能计算服务的提高,每秒钟业务处理的速度大幅提高。
3)数据量大。随着网络、手机等智能设备的推广普及,关于人类行为的数据已达到了前所未有的爆炸式增长,目前数据即已达到了PB级别、甚至ZB级别。
4)数据价值密度低。即大数据本身所展现的价值密度非常低。比如监控,在连续若干小时间的监控数据之中,也许仅有几秒钟的数据才真正是有价值的。
1.2大数据研究现状
1980年,大数据的概念思想即已获得提出。在此后的几十年,特别是最近几年,人们对大数据的重视关注也在日渐增加,国际顶尖的学术期刊更陆续出版了关于大数据的系列文章。大数据不但在学术界掀起了研究热潮,就是政府也对大数据给予了高度重视,例如奥巴马政府即将大数据提升至战略地位,助推了大数据研究工作的大范围开展及成果实现。在国内,已有论文对大数据进行了综合的讨论,同时也对大数据未来提出了合理化建议。随着大数据阶段式研发的开启与延续,与大数据相关的一些专著则越来越多,大数据正在影响和改变着人们的生活方式、思维方式和管理模式,而大数据的发展也必将带来新的商业契机。
2 大数据亟需解决的问题
与传统数据类似,大数据的处理也包括了数据存储、数据有效获取、数据分析和数据展示等技术实现步骤。相应地,大数据面临的问题也蕴蓄其中。现给出详细分述,具体如下。
2.1大数据的存储问题
与传统数据存储不同,大数据均来自不同的地方,存放标准各有特色,而且数据类型也呈现为多种多样,使得无法用结构化方式存放已有的大数据。同时,这些问题也增加了数据集成和整合方面的难度。实时性是大数据的一个显著特点。所以关于大数据的存放设备也就必然对其实时性和吞吐率加以着重要求与特别考虑。
2.2大数据的获取
大数据的获取是指获取大数据中的有用数据。大数据的核心对象就是数据,这些数据规模巨大,种类繁多,并且包含着颇具研究价值的实用信息,因此数据质量的好坏对大数据分析有着十分重要的影响。也有人提出了不必过于注重数据的质量,在大数据的分析过程中,允许出现少量的错误数据,但是若不对其加以限制,一定数量的错误数据即有可能导致分析结果完全相反。由此可知,数据获取技术的效果提升也将在一定程度上促进了大数据的可见性应用研究发展。在实际应用中,并不是数据越多越好,而是要在大量的基础资源中获取有用数据,得到的有用数据越多,就有可能更为完备地描述事物的发展态势。所以,大数据的关键就是从大量的原始数据中获取有益的有用数据。对于传统数据来说,以某种方式将这些有用数据聚合起来是一件非常简单的事情,但是对于大数据来说,由于大数据种类繁多,而且又都是非结构化数据,所以在处理时要尽量获取其中的有效数据,排除一些无关或者错误的数据。
2.3数据分析
大数据的核心节点就是数据的分析。大数据处理后的研究结论即是从对大数据的分析过程中得出的。就数据本身来说,这些数据并不具备明显意义,只有将这些数据关联特定的应用,并对其实施分析,才能使这些无用数据转化成为有用数据。在分析大数据的过程中也存在着挑战因素。数据越多,获取的有用价值信息可能也就越多,但是数据在获取价值信息的同时也将带来干扰因素。所以在数据分析中必须着重考虑分析粒度,如果分析粒度太大,就无法达到理想效果;如果分析粒度太小,很多有用信息就可能会被过滤或排除掉。因此,在数据分析过程中,数据的质和量就需要进行综合、统一的定制与权衡。
2.4展示数据
数据展示是获得现实普遍关注的因素。传统的数据展示就是将处理的结果以文本或者图表的形式显示在电脑上,这对少量的数据来说,是完美的解决方案,但是对于大数据来说,却并不可行。大数据需要用到可视化技术来展示这些数据结果。数据起源技术或者人机交互技术[3],能够生动描述对数据的分析结果,同时也能够使用户理解各类结果的由来。
2.5数据安全
和传统数据一样,大数据也存在数据安全的问题。在网络传输中,大数据更易遭受攻击,原因之一就是大数据包含了大量有价值的信息,从而使其更易成为攻击焦点。大数据中也或许包含了个人信息,如果大数据泄露,对个人的安全也随即构成了重大威胁。
3 大数据带来的机遇和挑战
3.1机遇
大数据的应用深刻影响着当下的商业模式。大数据是具有高额利润的大市场,对其的成功运用,则能为企业或单位节省大量的资本。据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3 000亿美元和1 000亿欧元,利用个人位置信息潜在可创造出6 000亿美元价值[4]。
大数据的应用为信息安全带来了新的发展机会。大数据背后隐藏着巨大的价值,对数据安全要求极高,由此必将推动信息安全技术的现实迅捷发展,而且更会带动众多信息技术和安全产品的提升式进步发展。数据安全贯穿于大数据链中的各个环节,云安全技术的发展,即可会为大数据提供稳定安全保证。
综上可知,大数据的发展必使促进商业的智能化向更高一级别的发展,也必将获得云计算产业、商业智能化和信息安全技术的整体可见优势发展。
3.2挑战
大数据的发展在带来了机会的同时,却也在技术、安全和人才方面带来了更大的挑战。
大数据的技术解决方案包括了自然语言建模和处理、统计学、复杂数据的分析和处理等等,这些方面都需要专业的技术和管理人才来运作与支撑。从目前情况来看,国内IT人员缺口较大,与大数据的要求产生了巨大的冲突,因此大数据对我国的人才方面提出了严峻的挑战。
另一方面,大数据对信息数据安全也相应提出了高端挑战。在大数据时代,数据的隐藏价值较高,在数据的分析和共享中,数据信息的安全即已成为人们考虑与关注的重点。所有的数据都是存储在云端,对于非法用户和合法用户难以做到明确区分,如何防止用户信息遭遇非法篡改或窃取,则又是当下面临的一个严重挑战。同时,大数据中也具体包含了很多用户个人信息和上网行为记录,如何使得这些信息既可为人类服务、又要保证其不致出现非法利用,这也成为大数据时代致力于研究攻关的另一个重要难题。
4 大数据展望
利用大数据的挖掘分析技术,可以预测未来经济走势,由此将可规避不必要的运营风险。随着各个行业对大数据的巨额投资,将会引来创新式的商业变革。在硬件方面,随着大数据对实时吞吐的技术指标要求,将会催生一系列的硬件厂商的强劲发展。而在软件方面,由于大数据对实时分析和挖掘技术的迫切需求,则将引发智能应用市场和挖掘技术的空前的繁荣发展。
不仅如此,随着大数据的发展,大数据在各行各业的应用也将日趋广泛。无论是政府单位、零售行业还是制造行业,大数据均将产生高度丰厚的社会价值和经济价值。
首先,在政府方面,政府通过对大数据的挖掘和分析,能提高政府机构决策的正确性和科学性,同时也能够大幅缩减政府的预算开支。提高政府决策的权威性,使国家未来遭受的经济损失降至最低。通过大数据,还可以使政府单位部门进入更加透明、公开和公正。通过大数据的分析,政府能够更加明确本国国民的意愿,而后据此提供更加贴切的服务,显著提升人们的幸福指数。
其次,在零售行业,例如美国一些企业通过巨额资本投入,广泛收集各个门市信息,并提升企业的数据分析能力,而后根据分析的结果再应用到实际销售中,于是不断扩大自己的市场,最终获得了企业利润的大幅增加,从而保障实现企业发展计划追求目标。
第三,在制造业方面,传统的以生产产品为主的模式已经不再适合大数据时代的多元发展,时下众多企业已经领会了产品个性化定制的重要性,所以,制造业需要充分完善利用大数据,通过对大数据的提取分析,清晰掌握客户需求,从而生产出符合客户理想需求的产品,使企业立于不败之地。
5 结束语
本文对大数据以及研究的现状进行了完整论述,接下来即对大数据所面临的问题进行了解析阐述。大数据在带来挑战的同时,也必将带来各式各样的机遇。随着大数据时代的来临,各行各业必将围绕大数据展开新一轮的激烈竞争,各家企业均要从人才战略储备的高度、信息技术安全的角度把握大数据带来的机遇,同时也要应对大数据带来的各种挑战,从而完成企业的潮流转型和最优发展。
[1]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,23(4):168-172.
[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[3]李芬,朱志祥,刘盛辉.大数据发展现状及面临的问题[J].西安邮电大学学报,2013,18(5):100-103.
[4]CHEN Jinchuan,CHEN Yueguo,DU Xiaoyong,et al.Big data challenge:a data management perspective[J].Front.Comput.Sci.,2013,7(2):157-164.
[5]LEE Y,CHUNG W Y,MADNICK S,et al.On the rise of the chief data officers in a world of big data[C]//Information Quality and Data Science Initiative.[S.l.]:Massachusetts Institute of Technology,2012:1-4.
The problems and challenges of Big Data
ZHAO Baohua
(Aba Teachers College,Wenchuan Sichuan 623002,China)
In this paper,the definition of big data and research status are completely discussed firstly.At the same time,a variety of problems are also encountered in such aspects as big data storage,data security,data display.While boosting the development of various industries,big data brings serious challenges.Finally,the future prospect on large data are also provided.
Big Data;challenges;excavate
TP393
A
2095-2163(2016)03-0111-03
2016-05-09
赵保华(1968-),男,硕士,副教授,主要研究方向:计算机及应用、网络技术、高校信息化。