浅析大数据相关知识
2018-03-20张羿九
张羿九
(西安市西光中学,西安 710043)
1 大数据及其发展历程
1.1 大数据简介
大数据三个字从字面上看很容易想到海量、大规模等词语。不过大数据不仅仅是表面上看的庞大,其还满足其余几个特点。首先通过大数据这个名词我们就能首先看到,大数据大在数据量的庞大,以至于使用常用的计算工具处理所需的时间完全超过可容忍和要求的时间。同时不仅数据量大,数据的类型也多种多样,大部分数据是以半结构化和非结构化的数据为主,没用统一的模型,这就为数据的预处理增加了难点。
完成了数据的处理后,新的数据又会不断涌入。在短时间会有大量的数据生成或旧数据的更新,同时伴随着智能设备的不断普及,在这个趋势下数据的生成速度将会越来越快,怎么去处理这些高速更新并且因处在不同维度而导致杂乱无章的数据将会是这个领域发展的方向。
正是因为这些困难的出现,使得这个数据处理领域有很多的数据处理工具出现,同时不断数据的变化也使得一些处理工具脱颖而出能够在这个领域占有一席之地。但是有了数据处理的工具和方法还不够完成相应的科研,因为好多的数据是无价值的数据,我们只能在很多无价值的数据样本后,来挖掘有用的数据。
1.2 大数据的发展
大数据是从2007年才兴起的一个词语,而究其根源还是一种数据,只是随着时代发展,硬件不断升级,人们也意识到了数据的重要而开始不断存储各种数据,最终推动社会进入大数据时代。随着硬件的更新发展,可存储的空间越来越多,随着人们渐渐认识到了数据中蕴含的大量价值,以前大量被丢弃的数据现在都被原原本本记录了下来。智能设备普及,互联网覆盖率越来越高,网民数量不断增加,导致数据量飞快的积累,一时间,数据处理手段的发展完全跟不上数据量的爆炸式增长。后来,随着Google、微软和Twitter等多家互联网公司研发出了较为有效的大数据处理方式,而且与大数据有关的理论如神经网络、机器学习等愈加完善,大数据才真正被人提了出来并得以发展。
2 大数据的处理分析
2.1 大数据处理与工具
海量数据对现在的数据处理技术提出了极大的挑战,目前,人们对处理的大数据形式主要分成静态和动态两种。
2.1.1 静态数据
静态数据主要是一些历史数据,长久的保存在硬盘中,更新频率低,其体量庞大体现在积累时间长,维度多,导致对其进行移动和备份的成本很高。由于这些数据是慢慢沉淀下来的,所以虚假信息较少,数据的结构较为清楚,但处理时却往往需要更加的精确和全面。从如此庞大的数据集中抽取有价值的数据需要通过合理的算法来实现。处理静态数据耗时很长,稍有差池就会白白浪费大量资源,因此更适合一些很成熟的作业流程。
2.1.2 动态数据
动态数据主要是实时产生的数据,其变化速度很快,更新频率高,其体量大体现在产生渠道多,输入端用户多,导致不能及时存储下来处理。然而这些数据的价值具有很强的时效性,价值随着时间推移是快速流失的。数据的数目庞大,意味着不会有永久的存储空间来存储这些数据,所以这些数据往往无法永久保存,同时因为数据不断的更新,也使得用户很难得到数据的全局特征。因此如何在短时间内清除垃圾数据并处理出有价值的信息,对于内存的安排,算法的优化和系统的可伸缩性都有着极大的挑战。
2.2 大数据分析方法
(1)内容信息。语言是社会媒体最重要的表现形式,文本是社会媒体中用户表达信息的最重要的方式[1]。想从数据中挖掘信息,尤其是文本数据,就必须要将其和实体物质关联在一起。社交媒体的出现,使得短文本成为人们文本输出的主要方式,搜索时人们也大都使用简短关键词。传统的计算难以全部理解这些短文本。而大数据通过人们浏览的历史记录,可以发现这些发送某一类简短文字的人,与某些特定网页或信息有很大的联系,通过不断的交集就可以找出与实体之间的关联。掌握用户的真实意图。
(2)社区关系。社会媒体的强交互性、时效性等特点使其在信息的产生、消费和传播过程中发挥着越来越重要的作用[2]。而社交网络中一个重要的部分就是人与人之间的关系。通过数据挖掘,我们可以发现,一些人之间的联系很紧密,这些人与外界联系比较少,自己形成了一个圈子,仿佛就是一个小社区。社区的规模处于数据网络中观结构,对上方的宏观网络而言,小社区的不断演化,就促使了大规模信息网络的内容与结构的改变,对下方的个体用户而言,社区结构的研究有利于发现新的个体关系。
3 大数据应用
大数据的应用可以说是渗透到了现代社会的每个角落,无论是尖端科技还是日常生活,大数据都发挥着巨大作用,这里大致选出几个主要和典型的做以分析。
(1)科技方面。驾驶在以前被看作一个不确定问题,故很多人认为短时间内司机被代替的可能很低。可是在2010年,在自动驾驶研究方面晚起步了几十年的Google开发出了自己的自动驾驶汽车。基于它已经非常成熟的地图系统,Google把这个事情当成了一个大数据问题,提前准备的交通情况(长久以来的收集的信息),十几个传感器的数据,从谷歌数据中心传来的信息进行每秒钟几十次的处理。行驶接近百万英里后还没有出过一次主动造成的事故,比人驾驶安全得多。
(2)医疗方面。我们都知道看病要去找一些经验丰富的医生,这些医生看过太多的病,学习过太多的病例。可是病例积累到了今天这个地步,有无数的医学影像可用来学习,正常人尽其一生可能都看不完,但机器人却可以。有了这些影像,通过学习后的机器人可以做出比医生更准确的判断。如今全世界的医疗资源都十分不均衡,看病贵可谓是常态。而大数据应用到医疗方面后,必将影响这种现状。
(3)工业方面。全自动化无人码头:2017年5月,从欧洲而来的大型集装箱班轮停靠在中国青岛港首次开放的全自动化码头,一共需要卸载4500个集装箱,在船舶靠泊前,全自动化码头操作系统就依据船舶信息,自动生成作业计划并下达指令,整个码头一个人都不需要。机器人自己开锁,然后放到自动引导车上。之后,整个码头就由几十辆自动引导车在转运平台和堆场之间来回搬运集装箱,每条路线都经过了大量运算的优化,保证了效率和安全。这其实就是传统业与大数据平台的结合,既提高了效率,又节省了人工。
4 大数据的现状
大数据目前还处于起步阶段,还有大量的技术、法律、道德伦理上的问题需要面对和解决,在此对几个主要的进行分析。
4.1 数据收集
数据收集的困难主要体现在两方面:一是收集途径:数据来源广,各式各样的移动终端都是数据源,导致很多数据掌握在其他互联网公司手里无法直接获得,只能想办法通过相关性,绕个圈子,间接地获得数据。如何想出数据与数据间的相关性就是需要认真思考的。二是数据本身:数据类型复杂,以半结构化和非结构化为主,收集以后进行整理存储就非常复杂和难以统一处理。并且数据质量好坏不一,需要进行清理,如何清理的干净又尽可能少的损毁有用的数据也是需要考虑的。
4.2 数据处理
数据处理是大数据最核心的部分,有着承上启下的关键作用。是需要不断更新处理技术的一个环节。无论什么数据处理都有两个核心思想:一是把计算推到数据。过于庞大的数据在来回传递和通信时会产生大量不必要的开销,数据越多消耗的越多,所以只能把计算推到数据面前,避免这些消耗。二是并行处理:一个明显的事实是,数据库不能通过纵向发展,只依靠一台或少数几台机器的升级来满足数据量的爆炸增长,而是希望能方便的通过横向并行来实现此目标[3]。那么如何合理分配任务就非常的关键了,因为多个任务并行时很容易出现 木桶效应 ,即最慢节点性能决定整个及其性能。然而图数据越来越被广泛应用的当下,图数据非常难以分割成多个独立的子图来用以并行处理。这些问题都需要有了合适的图分割和图计算模型才能解决好。
4.3 隐私问题
大数据带来的争议首当其冲就是个人隐私问题。在大数据时代,我们在各种网站用自己的个人信息注册虚拟账号;使用打车软件,地图软件;随时随地在网上浏览感兴趣的信息,购买喜欢的物品,与好友聊天;在网上查病情,建立自己的病史 我们一举一动都和网络与软件息息相关,这些所有信息都可以很轻易的通过直接或间接的方式被互联网公司获取。可以说,在这个时代,我们是真正 赤裸 的走在街上。通常情况下,大多数人都不喜欢被他人看到自己所有隐私,一方面,毕竟我们不是完人,总有这样那样的错误,有些甚至都不想让亲人知道;另一方面,就算像购物记录这种公布了也不会对我们造成直接危害的信息,在经过一些别有用心的人处理后可以很轻易的总结出一个个人的习惯,喜好甚至日常安排等极其重要信息。这些信息在正常的互联网公司都能起到大作用,在黑客、不法分子手里一样有非常大的作用。人们对个人隐私问题缺乏深刻认识,尤其不了解大数据的威力,不知道多维度的数据凑到一起可以组成一个完整的人,有时数据比你自己都更了解你自己。
4.4 社会影响
有很多人也把数据革命叫作第四次工业革命,而数据就是一种新的能源。随着人们处理的数据越来越多,人类的各种各样的行为都可以用被大量数据训练过的机器所替代。尽管之前的每一次工业革命都有这样的成果,但前三次大都只是解放人的双手,并没有直接危及到人类最骄傲的 大脑 。而数据革命恰好能够完成之前由人脑负责的问题。如前文所说的较为复杂的产品装配,语音识别等问题,计算机完成的越来越好,有时甚至能超过人类。之前的每一次工业革命都让一部分人丢了饭碗,导致了贫富差距越发悬殊,人们需要通过很长的时间来消化这种负面影响。然而,这次数据革命与信息革命相差时间太短,其变革又十分深刻,旧的还没处理掉,新的更加艰巨的挑战就到来了,这对社会的冲击必然是巨大的。社会对各个方面的劳动力需求减少,以廉价劳动力作为资本的国家如何及时转型,政府如何安排大量被剩余出来的劳动力,这些都是需要结合各方面进一步思考。
5 结束语
正如前文所说,我们身处在一个数据化的时代之中,大数据分析的出现为我们处理后续类似问题提供了最优的解决方案,无论是在图数据方面还是在分析人日常行为方面都有不错的表现。但是大数据依然存在一定的挑战,虽然科学社会的不断进步,数据的多样性和数量级将不断变大,如何去应对这种变化将成为大数据研究方面的挑战。在未来,大数据处理的技术方面,并行化的处理技术来实现对未来多样性数据的处理将成为我们研究的热点。在大数据应用方面,未来应对不同用户的需求,大数据面向的对象由整体分散成个体,更加具有个性化的特征。
[1] 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[2] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(06):1125-1138.
[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.
[4] 王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.