APP下载

大数据引领我们走向智能化时代

2014-11-10张振兴牟如玲

科技创新导报 2014年20期
关键词:大数据分析大数据技术大数据

张振兴 牟如玲

摘 要:随着大数据时代的来临,各类智能化新生事物层出不穷。该文通过了解大数据的真正内涵,分析大数据的现状和面临的困境,总结大数据分析的深刻意义,我们对大数据分析的技术与方法以及大数据工作的开展给出了相关建议。

关键词:大数据 大数据分析 大数据方法 大数据技术

中图分类号:TP31 文献标识码:A 文章编号:1674-098X(2014)07(b)-0052-02

现象1:重庆市科学技术研究院成功研发的“智能公交站牌”,不仅能显示本站的公交车车次、途经地点以及首末班车时间,还能准确定位下一班车的位置信息,如距离本站的距离、站数和到达本站的时间,甚至能实时监测下一班车的拥挤程度,方便市民出行的同时为公交线路的合理规划奠定基础。随着智能公交站牌的深入人心,一款结合移动设备便携、强交互特性的生活助手类APP“车来了”应运而生。该应用可以实时查询下一班车的位置信息和拥挤程度,旨在打破在公交站台等车的局限性,彻底解决在各种恶劣天气下等待时间长、候车苦的难题,实现真正意义上的出行无忧。

现象2:针对传统教学中学生出现问题但找不到问题所在、被动学习效果越来越差、享受不到优质教学资源、羞于提问而问题越攒越多等现象,中小学优质教育资源共享平台“梯子网”按照教材版本、章节、知识点、难易程度、考试比重等多重属性对拥有的1000多万道题目进行精确定位,通过专业的在线评测结果,提供针对性的专项优化练习并给出可视化的成绩分析。该系统不仅能让学生了解自身学习的真实状况、得到优秀教师的在线答疑,还让那些贫困地区的学生享受到最优质的资源,解决了因地域限制优秀师资难以均衡流动的难题,开创了简单轻松地提高学习成绩的方法。

现象3:主打公务员考试、司法考试等成人职业资格考试的智能在线教育产品“猿题库”,提供各科目历年真题及精编模拟题,每题答案和解析均由2位业界名师编审,经过5轮严格审校;根据用户目标考试的考点、考频、难度分布和用户对各个考点的掌握情况,智能调整出题范围和难度,实现一对一智能出题;根据用户的答题情况实时生成个人能力评估报告并给出专业化做题建议,还能精确预测用户参加目标考试可能获得的分数;支持电脑、智能手机和平板电脑三种方式的在线练习,同时支持下载或打印试卷和答题卡,手机扫描答题卡就能自动实现评分、查看答案和解析。

现象4:“百度迁徙”利用百度地图LBS开放平台的定位功能,从时间和空间两个纬度全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征,通过选择日期、时刻、城市可查看“迁入城市、迁出城市”和“最热线路”等三个数据指标排名。该应用对用户位置变化时间、轨迹、省份等进行挖掘,以可视化图表的形式展示不同城市之间、不同时间段的迁移轨迹,旨在通过对大数据的创新应用服务于政府部门科学决策,赋予科学研究新的观察视角和方法工具,同时为公众创造近距离接触大数据的机会、科普数据价值。

现象5:“浪漫指数”,是百度搜索对大数据挖掘的一种新技术形态,展现了各个省份区域网民的实时搜索行为,并通过彩色搜索气泡在地图上的不断闪动显现网民不断变化的关注点。随着区域搜索浪漫词气泡的数量增多,地图颜色也会由浅至深。浪漫指数不仅展示全国各地不同特点的情人节,也可以看到网民们共同演绎的“中国式浪漫”。通过对大数据的分享,可以让更多人洞察到数据之美,意识到数据的价值,并对个人生活和企业决策提供重要的驱动作用。

现象6:“快的打车”,是一款立足于LBS的O2O打车应用,将传统出租车与乘客间的被动等待转化为主动联系。用户通过手机号和用户名进行注册,打开地图就能看到自己周边的出租车,输入目的地就能叫车,利用支付宝钱包直接支付车费。该软件为打车乘客和出租司机量身定做,乘客可以轻松发单,随时随地打车或约车;司机可以选择接单,降低空驶率。

大数据是一场生活、工作、思维的大变革,就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式。大数据的科学应用将服务每一个人,让每个人受益无穷。

1 大数据定义

大数据时代的来临,是互联网发展到一定阶段的必然产物。随着互联网的高速发展,互联网中的信息量急剧增加,这些信息有用的部分被称为数据。当数据规模越来越大时,量变就会引起质变,大数据应运而生。大数据的火热并不意味着对于大数据的了解深入,大数据不等于大的数据而是一种全新的概念。如何定义大数据,这是一个仁者见仁、智者见智的问题。

百度给出的定义:大数据,或称巨量资料,指所涉及的资料规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据概念给出的定义:大数据是一个体量特别大、类别特别大的数据集,并且无法用传统数据库工具对其内容进行抓取、管理和处理。首先,数据体量(Volumes)大,在实际应用中已形成了PB级的数据量;其次,数据类别(Variety)大,囊括了半结构化和非结构化数据。接着,数据处理速度(Velocity)快,在数据量非常庞大的情况下能够做到数据的实时处理。最后,数据真实性(Veracity)高,企业愈发需要有效的信息以确保其真实性及安全性。

研究机构给出的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

2 大数据分析的现状和面临的困境

大数据具有海量、多源、复杂的信息属性和高端、前沿的技术特征,是继云计算、物联网之后又一次颠覆性的技术革命。大数据使人的思维方式、行为模式、管理理念发生全方位变革,在各个领域蕴含巨大的应用潜力和创新空间。为了尽快加入大数据实践的行列,从海量数据中获取价值,把大数据转为企业敏锐的洞察力,驱动业务的长足发展,许多企业和管理者盲目收集数据并进行分析,期待能够得到快速的回报。但很遗憾,大多数企业距离从数据中提取利润都差着十万八千里。endprint

2.1 现状

数据量:由TB级升至PB级,并仍在持续爆炸式增长。根据WinterCorp的调查显示,最大的数据仓库中的数据量,其增长速度远超摩尔定律增长速度。照此计算,2015年最大数据仓库中的数据量将逼近100PB。数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇。

分析深度:由常规分析转向深度分析,数据分析日益成为企业利润必不可少的支撑点。企业已经不满足于对现有数据的分析和监测,而是更期望能对未来趋势有更多的分析和预测,从而增强企业的竞争力。

硬件环境:由高端服务器转向由中低端硬件构成的大规模机群平台。由于数据量的迅速增加,并行数据库的规模不得不随之增大,从而导致其成本的急剧上升。出于成本的考虑,越来越多的企业将选择由中低端硬件构成的大规模机群平台。

2.2 困境

数据共享不足:高度数据开放是数据应用的前提。目前一些机构拥有大量数据但不愿提供给有关部门共享,导致信息不完整或重复投资。另外,政府、企业和行业信息化系统建设往往缺少统一规划和科学论证,数据之间缺乏统一的标准,形成了众多“信息孤岛”。无疑,这给数据应用造成极大障碍。

技术人才匮乏:高端技术人才是数据应用的关键。麦肯锡公司预测美国到2018年需要深度数据分析人才44~49万,缺口14~19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。

3 大数据分析的意义

近年来,包括互联网、物联网、云计算等信息技术在内的IT通信业迅速发展,现代信息社会已经进入了大数据时代。大数据改变的不只是人们的日常生活和工作模式、企业运作和经营模式,甚至还引起科学研究模式的根本性改变。

大数据中蕴含着大价值,大数据价值的合理共享和利用将创造巨大的财富。大数据智能分析能够给智慧城市的管理和服务系统提供新的洞察力,是提升智慧城市“智商”的关键。以大数据技术为支撑的综合智能化分析和决策系统,使智慧城市的管理系统和服务系统充分、有效、合理地发挥各自的作用,解决目前困扰各地的“信息孤岛”现象,做到信息资源的共享、智能决策的集成,实现智慧城市让城市生活更美好、更幸福的目标。

4 大数据分析方法

大数据不单单是数据大,而且呈现了不断增长的复杂性。当前最重要的是对大数据进行分析,只有通过分析才能获取智能的、深入的、有价值的信息,大数据分析方法是决定最终信息是否有价值的决定性因素。

可视化分析:在信息化建设过程中,数据可分为三种类型:结构化数据,非结构化数据和半结构化数据。由于所涉及到的数据比较分散、数据结构可能不统一,而且通常以人工分析为主,加上分析过程的非结构性和不确定性,所以不易形成固定的分析流程或模式,很难将数据调入应用系统中进行分析挖掘。借助功能强大的可视化数据分析平台,可辅助人工操作将数据进行关联分析,并做出完整的分析图表。

数据可视化的优点:第一,交互性强。用户不仅能看数据,还能方便地管理和开发数据。第二,多维性好。通过每一维的值分类、排序、组合来显示数据的多个属性或变量。第三,直观度高。数据可以用图像、曲线、二维图形、三维体和动画来显示。

数据挖掘算法:数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声的具有很大随机性的实际应用数据中,提取出隐含其中、事先未被人们获知、却潜在有用的知识或模式的过程。数据挖掘在有效处理海量且无序的数据时,还能够发现隐藏在这些数据中的有用的知识,最终为决策服务。数据挖掘就是利用一系列相关算法和技术从大量的数据中提取出为人们所需要的信息和知识,隐藏在数据背后的知识,可以以概念、模式、规律和规则等形式呈现出来。

预测性分析能力:根据可视化分析和数据挖掘的结果,预测性分析可做出一些预测性的判断。可视化分析和数据挖掘都是前期铺垫工作,只要在大数据中挖掘出信息的特点与联系,就可以建立科学的数据模型,通过模型带入新的数据,从而预测未来的数据,大数据分析最终要实现的应用领域之一就是预测性分析。大数据的预测分析能力,能够帮助企业分析未来的数据信息,有效规避风险。在通过大数据的预测性分析之后,无论是个人还是企业,都可以比之前更好地理解和管理大数据。

语义引擎:非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

数据质量和数据管理:大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。

5 大数据技术

大数据环境下,数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。然而,传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理;传统的并行数据库技术追求高度一致性和容错性,难以保证其可用性和扩展性;传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。

在数据采集方面使用的新方法有以下几种。

系统日志采集方法:用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

网络数据采集方法:用于非结构化数据的采集,将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

其他数据采集方法:对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

6 大数据工作的开展

第一个是完善信息采集平台。充分利用物联网等技术,使越来越多的基础设施具备信息自动采集和迅捷采集的能力,便于信息的获取更加便捷和高效。扩展采集的设备类型和支持的协议类型,使数据采集的范围和通道越来越广。在此基础上,打破各行业的信息资源壁垒,实现信息资源的高度整合和共享。

第二个是加强大数据分析和挖掘。大数据如何为我所用,如何体现价值,缺少大数据分析光有一堆大数据的堆积和存储是没有任何意义的。我们应结合重点行业,如水利、交通、城管、公共安全,推动这些行业的大数据分析和预测挖掘系统,并以典型行业和典型项目为基础逐步扩展。

第三个是推动大数据可视化。现代城市产生的数据量非常大,对数据价值的挖掘不能只依靠数字和报表,大数据可视化有助于帮助用户更形象地分析、挖掘数据的价值。通过数据可视化方式,包括GIS和专业图形的可视化方式,用非常直观的方式帮助业主去获取数据价值,从而分析、挖掘数据中间的关系和趋势。数据可视化方式是我们未来发展的重点。

参考文献

[1] 维克托·迈尔-舍恩伯格.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.浙江:浙江人民出版社,2013.

[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013, 50(1):146-169.

[3] 李芬,朱志祥,刘盛辉.大数据发展现状及面临的问题[J].西安邮电大学学报,2013,18(5):100-103.

[4] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1134.

[5] 王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1751.

[6] 李战怀,王国仁,周傲英.从数据库视角解读大数据的研究进展与趋势[J].计算机工程与科学,2013,35(10):1-10.endprint

猜你喜欢

大数据分析大数据技术大数据
传媒变局中的人口电视栏目困境与创新