浅谈大数据技术及应用
2021-04-16赵丽常娟任霓洲
赵丽 常娟 任霓洲
【摘 要】从大数据概念、本质、特征方面讲述大数据的基础知识,对大数据关键技术进行了分析,总结了大数据在各个领域的应用价值和安全权问题。
【关键词】大数据;大数据技术; 大数据应用
引言
人类社会迈入新世纪以来,在物联网、云计算等信息技术和产业推动下,大数据已经全面渗透到了各行各业,“数据即资产”成为了共识,与“物质资产”和“人力资本”并列为三大社会生产要素,大数据技术及相关研究在全球范围内给政治、经济、社会、军事领域带来了深刻影响。理解大数据概念、认识大数据本质和特征、建立大数据思维,对于信息化建设和改革、重塑伟大征程有着重大现实意义。
1.大数据的概念
20世纪80年代美国阿尔文·托夫勒在其著名的预言书《第三次浪潮》中就提出了“大数据”的概念,资料显示,最初,大数据是指那些不断增长、类型复杂、短时间难以分析和处理的海量数据,其已经超出了一般电脑在处理数据时所能使用的内存量,普通的软件工具难以捕捉、存储、管理和分析,因此工程师们必须改进处理数据的工具,导致了新处理技术的诞生。目前,大数据主要是指对海量数据进行开发与利用的技术及相关政策标准,实现由“拨云散雾见数据”到“腾云驾雾用知识”的转变。实际上,到目前为止,大数据并非一个确切的概念,人们对其也没有一个标准的定义,不同研究机构和部门对大数据从不同角度进行了阐述,对大数据的本质和特点基本达成了共识,综合起来不外这几个方面:
从数据本身看,大数据的明显特征是数据规模庞大,其体量远远超出了传统数据库系统的处理能力。从技术角度看,大数据是从海量的多类型数据中,快速获得有价值信息的所有技术集成。从数据类别看,大数据主要指无法或者很难用传统的关系数据模型去分析、处理的信息,用户也很难用传统的处理方法去直观认识数据的隐藏内涵。从应用分析看,大数据是对特定海量数据进行处理、分析和挖掘,获得有价值信息,并以多种形式呈现的行为。从思维认识看,大数据分析对象是全部数据而不是抽样数据,分析内容追求高效率而不是绝对精确,分析过程体现相关性而不局限于因果关系,分析结果重在未来预测而不仅是过去总结。
2.大数据的本质
涂子沛在《大数据》一书中指出:“之所以要称之为战略,是因为‘大数据之‘大,并不仅仅在于其‘容量之大。当然,由于数据容量的爆炸,数据的收集、保存、维护以及共享等任务,都成为具有研究意义的现象和挑战。但‘大数据之大,更多的意义在于:人类可以‘分析和使用的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值。”也有专家一针见血地指出:大数据的核心,就是预测。
当前,比较普遍的观点认为,大数据的本质既包含不断增长的海量复杂数据,也涉及获取、管理和应用这些海量数据全生命周期的各种关键技术和解决方案。海量数据存储、数据挖掘、图像视频智能分析、信息感知、信息传输、信息安全等技术都与大数据密切相关。大数据不是指一般意义上的数据规模大。例如,银行数据库中的数据实时产生增长,数据量庞大,但不能称之为大数据,因为其具有明确的格式,且尽在银行的掌控之中。
3.大数据的特征
目前,对大数据的特征描述,比较一致的看法是可以用“4V”来表达,就是容量(Volume)、类型(Variety)、速度(Velocity)、价值(Value)。
容量大(Volume)。指数据体量巨大,Google的资料显示,作为其“长尾效应”的头部,2016年其首页导航每天需要提供的数据超过2.5PB,如果这些数据全部打印出来,大约将有8千亿张A4纸。
类型多(Variety)。指数据类型多样,数据类型涵盖结构化、半结构化和非结构化等各种形式的数据,其中既包括文本、文件、图片、视音频、地理位置信息等富媒体数据,远远超出传统数据格式和分析工具能处理的范畴。
速度快(Velocity)。指数据增长率和处理速度快,有统计显示,近十年以来,网页、视频类数据每年都以60%的速率增长,预计到2020年,全球将产生44ZB的数据;与此相对应,必然要求处理速度快,才能在及时发现有效信息。
价值高(Value)。指数据背后隐藏的价值高,大数据价值密度很低,但如果被有效挖掘,发现规律,预测趋势,产生的价值却很高,有时甚至无法用金钱衡量。在国家安全领域,数十小时的监控录像,数据量达近百G,可用的数据也许只有几秒,但这几秒钟的数据如果能够及时发现,则会产生巨大的效应。
4.大数据技术的应用及安全问题
大数据时代已经到来,但大数据技术的运用却是一把双刃剑。
一方面,大数据开启了一次重大的时代转型,引发了一场生活、工作与思维的大变革,其在经济、政治、文化等方面都产生了深远的影响,它帮助人们开启了循“数”管理的模式。例如,零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时数据挖掘系统就在此客户和真丝衬衣之间创建关系。销售部门就会直接发送真丝衬衣的行情,以及所有关于真丝衬衣的资料给该客户。零售公司通过数据挖掘系统发现了以前未知的关于客户的新信息,并且扩大了经营范围。
而另一方面,大数据主宰一切,也让我们的隐私暴露在“第三只眼”之下。它使得目前用以保护隐私的法律手段和核心技术失去了效果,甚至威胁到国家秘密的安全。电商监视着我们的购物习惯,搜索引擎、交友网站和微博消息,使得人们的行为习惯和情绪的细节化测量成为可能。据《华盛顿邮报》2010年的研究表明,美国国家安全局每天拦截并存储的电子邮件、电话和其他通信记录多达17亿条。为了弄明白这些数据,美国建立了庞大的数据中心。
在大数据高度融入我们的生活和生产之中时,与其相伴而生的是人们对隐私被侵犯的担忧与无奈,其安全问题是一个绕不开、必须谈的话题。应对大数据的汹涌来袭,我们没有万无一失的方法,只能正确认识大数据的问题和缺陷,改变一系列的惯例来帮助社会应对这种冲击,建立规范自身的新准则。一个层面是运用大数据技术,来解决大数据时代的安全问题,用数据驱动安全,这一理念将是未来网络安全发展的方向;另一层面是大数据作为重要资产,用其本身的安全来驱动数据产业开花結果,良性发展。
参考文献
[1]张雪超.数据致胜时代已经到来
[2]黄征.大数据技术在军事中的应用浅析
[3]李俭.大数据ABC
[4]周德旺.大数据引发新一代信息技术变革浪潮
作者介绍:赵丽(1980.08-),女,汉族,甘肃庆阳人,工程师,研究方向为通信技术。
常娟(1989.09-),女,汉族,陕西米脂人,助理工程师,研究方向为通信技术。
任霓洲(1985.10-),女,汉族,陕西淳化人,工程师,研究方向为通信技术。
1.中国人民解放军32269部队 甘肃兰州 730000
2.中国人民解放军31682部队 甘肃兰州 730000