浅谈大数据技术
2020-12-14崔倩
崔倩
摘 要:大数据已经成为一种基础性新资源,已初显潜在的价值和巨大的变革之力。本文介绍了大数据的定义、特征,分析了大数据的应用和发展趋势。
关键词:大数据;大数据时代;应用
引言:
随着新一代信息技术的发展和应用,尤其是互联网、物联网、移动互联网、社交网络等技术的发展,人类产生的数据成倍增长,数据种类繁多,数据在宽带网络中高速流动,数据的待开发价值越来越大,我们正在进入一个大数据时代,大数据应用也成为当前最为热门的信息技术应用领域。
一、什么是大数据
(一)大数据的定义
大数据(Big Data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力,以及海量、高增长率和多样化的信息资产。
(二)大数据的特征
大数据的“大”是一个动态的概念。以前10GB的数据是个天文数字,而今在地球、基因、空间科学等领域,TB级的数据已经很普遍。关于大数据的特征,虽然有多种解读,但业界一般认为,大数据具有4V特征:Volume(数据量大)、Variety(数据类型多样)、Velocity(处理速度快)和最重要的Value(价值密度低)。
1.数据量大(Volume)
大数据的体量大,数据集合的规模不断扩大,已经从GB到TB再到PB级,甚至已经开始以EB和ZB来计数。例如,一个中型城市的视频监控头每天就能产生几十TB的数据。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。国际知名咨询机构IDC(International Data Corporation)的研究报告预测,未来十年全球大数据将增加50倍,管理数据仓库的服务器的数据将增加10倍。
2.数据类型多样(Variety)
大数据类型繁多,包括结构化、半结构化和非结构化数据。以往产生或处理的数据类型较为单一,大部分是结构化数据。而现代互联网应用呈现出非结构化数据大幅增长的特点,非结构化数据越来越成为数据的主要部分。据咨询机构IDC的调查调查报告显示,企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
3.处理速度快(Velocity)
大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。业界对大数据的数据处理速度有一个称谓——“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。这个速度要求是大数据处理技术与传统的数据挖掘技术最大的区别,这也充分说明了大数据需要具备快速处理的能力。
4.价值密度低(Value)
数据总体的价值巨大,但是价值密度很低。价值密度的高低与数据总量的大小成反比,数据规模越大,真正有价值的数据相对越少。以常规的监控视频为例,连续24h的视频监控中,有用的数据可能仅有数秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
也有机构在4V之外定义第5个V:真实性(Veracity)指的是当数据的来源越来越多元时,这些数据本身的可靠程度如何、能否反映真实情况、质量是否合格,都需要关注。若数据本身就有问题,那分析得到的结果也不会正确。
二、大数据的应用
1.洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
2.Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
3.统计学家内特?西爾弗(Nate Silver)利用大数据预测2012美国选举结果。
4.麻省理工学院利用手机定位数据和交通数据建立城市规划。
5.梅西百货的实时定价机制,根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
6.医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
三、大数据的发展趋势
(一)数据的资源化
资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
(二)与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
(三)数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
(四)数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
(五)数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。