APP下载

大数据的研究现状与展望

2017-03-29张科星

赤峰学院学报·自然科学版 2017年3期
关键词:分析信息

张科星

(太原学院,山西 太原 030012)

大数据的研究现状与展望

张科星

(太原学院,山西 太原 030012)

人类生产生活和科学研究产生的数据信息飞速增长,开启了大数据时代.大数据不仅指数据本身,还包含了对其进行分析处理的理论、技术和方法.大数据涵盖的内容包括信息的采集、管理、分析和做出决策,其出现后首先应用于商业和金融,后来逐渐扩展到能源、科研、医疗和经济等领域.但是,大数据目前还面临数据管理、干扰信息清除和个人隐私安全等方面的挑战.解决了上述问题后,大数据在科学研究中的应用将日益广泛,也会对人类社会产生更加深远的影响.

大数据;现状;应用;展望

随着社会的发展和技术的进步,进入21世纪后,大数据开始引起各行业的密切关注,自然科学的顶级杂志《Nature》和《Science》都推出专刊对科学研究中的大数据问题进行讨论,美国政府最先启动了涵盖大数据的研究发展计划,并赋予其与信息高速公里计划同等的地位[1].随后经过主流媒体的科普宣传,社会大众开始接触和理解大数据的概念,并认识到其对日常生产生活所产生的深远影响.

本文从大数据的基本概念出发,简述了大数据相关的技术支持,并对其研究现状和在各领域的应用做了阐述.然后介绍了大数据在实际应用中所面临的挑战,最后对其未来的发展进行了展望.

1 大数据的概念

大数据包括规模庞大的数据,但是又不同于以往的海量数据和超大规模数据概念.目前,根据大数据在不同领域的应用特征,对其有多种定义.为了便于理解和记忆,这里引用百度百科对大数据进行定义,即指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产.由此可见,大数据的概念涵盖丰富的内容,包括信息的采集、管理、分析直至做出决策.

大数据所处理的数据规模通常以我们极少涉及到的TB、PB为基本单位,数据类型可以是数字、符号,也可能实音频、视频等,并且有从结构化向半结构化和非结构化转变的趋势.同时,在大数据分析过程中,分析模式不是一成不变的,而是随着数据规模和类型的增长而不断地演化,从而具有更强的适应性.大数据不仅仅是数据本身,还包含了对其进行分析处理的理论、技术和方法.因此,我们在实践中无须过分地注重大数据的具体定义,而应该把握其核心内容和主要特性,利用大数据解决实际问题.

2 大数据的现代技术支持

人类社会发展到今天,各种科学知识和数据信息都呈现爆发式的增长,例如科学研究中的天文观测、基因测序以及社会生活中的天网监测、居民消费等.数据和信息的采集在时空上是实时的,全方位的.采集的方式也是复杂多样,从最初的运营式阶段,经过用户原创阶段,进化至现在的感知式阶段.在科技进步的支撑下,极微小的传感器和大型的天文望远镜日臻完善,使人类的感知能力同时向微观和宏观世界拓展.同时,收集信息的触角逐渐遍布世界各个角落,海量的数据被不断的产生和汇集.

数据和信息本身并没有价值,只有通过处理分析,从中提炼出社会和自然界运行的规律,或者得到解决实际问题的方法,才能体现出它们的意义.大数据的规模不同于以往,因此有其独特的处理分析工具和技术.对大数据的分析处理模式主要有流处理和批处理两种.流处理是针对价值实效性较强的数据,如网页点击统计、金融交易等,在数据产生的第一时间进行分析并得到结果.这种模式以实时数据为流,数据流入处理器,很快便以结果的形式流出处理器.批处理是把数据先存储再处理,这一模式的代表是Google公司设计的MapReduce模型.MapReduce模型根据不同类型将数据分成若干Map任务区进行处理,通过自定义的Map函数计算出初步结果存入本地硬盘.Reduce任务负责从硬盘上提取结果,根据Key值进行排序和组织.然后上述数列在Reduce函数的作用下形成最终的结果被导出.MapReduce模型将海量数据进行了分解,较流处理方法简单易行,通用性好,在财务分析、营销分析和生物信息学方面用途广泛.

云计算是大数据存储、管理和分析的支撑技术.大数据的流处理要求数据的处理即时完成,其中按照概要数据结构而设计的用于云计算的内存必不可少,它突破了容量对流处理模型的限制这一瓶颈.以相变存储器为代表的储存级内存可以彻底解决内存对流处理的制约,是未来流处理内存的发展方向.流处理广泛应用的同时,与其相适应的开源系统也得到了开发,如Twitter的Storm和Yahoo的S4等.

3 大数据的应用领域

大数据是在人类的需求下诞生的,出现后首先应用于商业和金融,后来逐渐扩展到能源、科研、医疗和经济等领域,并且其适用范围还在不断地增加.这里以其在地球空间信息学、物流服务、经济发展状况和智能电网等方面的应用作为代表分别进行介绍.

地球空间信息学产生于上世纪90年代,是测绘遥感和信息科学的交叉学科,通过多个平台,从多个角度和分辨率上对空、天、地进行实时观测.依托大数据,地球空间信息学的数据获取从以前的专业传感器扩展到了数以亿计的非专业传感器,如智能手机、监控视频等,极大地提升了地球空间信息学的信息采集能力.大数据时代传感器的信息采集速度和精度是前所未有的,可以实现对地球的多维动态描述,建立高精度的时空动态模型.在大数据和相关技术的支持下,地球空间信息研究形成了多颗卫星组成的集遥感、导航和通讯功能于一体的天基网络,并与地面网络互联互通,组成信息实时服务系统[2].

近些年来,物流服务业蓬勃兴起,促进各种商品和资源在社会的不同角落合理分配.随着生活水平的提高,人们对物流服务的要求也越来越高.订单任务分配是物流服务供应链中的重要环节,对物流服务水平、成本乃至竞争力有着决定性的影响.大数据能够用于对物流客户信息的分析,根据分析结果合理地分配订单任务.刘艳秋等利用大数据分析客户的浏览记录,预测客户的固定需求和行为规律,从而确定了最佳的配送货方案.研究结果表明物流服务供应链得到优化后,在降低运行成本的同时,服务水平和竞争力都得到了提高[3].

大数据的信息采集设备遍及社会的各个角落,能够忠实地记录社会的经济活动和交易行为,作为研究和评价经济发展状况的第一手资料.其中的国际贸易、商品生产、销售记录和银行转账记录等都是反映某一区域经济的重要参考指标,可以进行大数据分析.相比传统的经济普查,大数据对社会经济的覆盖范围更广,效率更高,极大的节省了时间和人力成本,更突显出支撑经济决策的及时性.大数据的优势具体体现在:首先大数据采集设备所获取的信息能够及时并持续更新,准确反映当下经济运行的情况,如互联网检索对通货膨胀的实时预测.其次大数据涵盖的信息类型全面,很多经济指标在以往的技术条件下无法采集,但确是反映经济状况的重要依据.例如,个人通讯和社会网络数据会被采集分析,在经济状况预测中发挥作用[4].

能源输送中的智能电网集成了多种先进技术,是未来电力工业发展的方向.智能电网的建立需要对电力系统的整个环节进行实时的全景监控.智能电网的运行过程离不开实时数据采集、传输、存储以及大数据分析的技术支持,因此成为大数据应用的一个重要的技术领域.电力属于传统行业,新型的大数据概念和技术还没有被完全认同,其应用的价值得到充分体现需要一个长期的过程.另外,与公民个人隐私应该得到保护一样,大数据中的电力公司核心数据也只能在特定范围内使用,其隐私保护和数据安全问题也有待彻底解决[6].

4 大数据面临的挑战

大数据的应用领域越来越广泛,这给数据的集成和分析提出了新的要求.部分大数据的类型由结构化向半结构化和非结构化演变,数据源日益复杂,数据的时空特性迅速增强,都极大的增加了大数据集成、转换和管理的难度,创新升级相关设备的存储和分析功能已经势在必行.

大数据所包含的内容广泛全面,其中公民个人信息的采集和传播都很容易,产生了一系列的隐私安全问题.大数据的信息采集点遍及社会的各个角落,人们在各个地点活动的数据足迹,特别是上网记录会被收集并保存起来.这些数据经过积累和关联分析后,可以得到个人的详细信息,其隐私便有泄露的危险.现实社会中,从技术层面上利用大数据对公众人物或焦点人物进行“人肉搜索”的例子不在少数,侵犯了公民的权利,也给大数据时代的隐私保护带来挑战[7].

在科技发展日新月异的今天,大数据的如火如荼并不等于人们已经对其深刻理解.和其它新兴的概念一样,大数据过度炒作的风险也是存在的.各个行业在对大数据的核心定义、关键技术和应用方式上仍然存在一定的分歧和争议,这些因素都不利于大数据的进一步发展和广泛应用.

5 展望

大数据具有划时代的意义,在此之前都是技术进步推动信息发展,大数据出现以后,则是由信息推动技术进步.大数据不仅促进了社会进步,更推动了科学研究向更广的领域和更深的层次迈进.相比整个信息科学的发展历史,大数据成长的时间还很短,因此具有广阔的拓展空间和潜力[8].首先,为了应对未来规模日益庞大,类型愈加复杂的数据存储和分析要求,须要构建分布式数据库的存储技术以及高效的操作系统.大数据的核心资源就是数据,其价值也来自数据本身,只有重视对数据的整合和分析,才能让大数据体现出更大的价值.其次,大数据的发展,既要以现有的学科和技术为基础,也应该促进云计算、物联网、移动网络等技术的融合,为现代科学研究和社会运行管理注入新的活力.最后,即建立以人为本的大数据体系,人类因为需求才将科技和社会发展不断地推向高峰.所以,大数据的分析结果应该以直观友好的形式展现,如报表、柱状图和曲线等,以便于被用户接受和理解.随着数据采集、集成、分析和处理技术的进步,大数据在科学研究中的应用将日益广泛,对人类社会的影响也会愈加深远.

〔1〕孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.

〔2〕李德仁.展望大数据时代的地球空间信息学[J].测绘学报,2016(4):379-384.

〔3〕刘艳秋,王浩,张颖,蔡超.大数据背景下物流服务订单分配[J].沈阳工业大学学报,2016(2):190-195.

〔4〕高见,周涛.大数据揭示经济发展状况[J].电子科技大学学报,2016(4):625-633.

〔5〕刘强,秦泗钊.过程工业大数据建模研究展望[J].自动化学报,2016(2):161-171.

〔6〕张东霞,苗新,刘丽平,张焰,刘科研.智能电网大数据技术发展研究[J].中国电机工程学报,2015(1):2-12.

〔7〕刘雅辉,张铁赢,靳小龙,程学旗.大数据时代的个人隐私保护[J].计算机研究与发展,2015(1):229-247.

〔8〕张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013(S1):216-233.

TP311

A

1673-260X(2017)02-0029-02

2016-11-10

猜你喜欢

分析信息
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
订阅信息
电力系统及其自动化发展趋势分析
展会信息
中西医结合治疗抑郁症100例分析
在线教育与MOOC的比较分析
信息
健康信息
健康信息(九则)