当今大数据研究发展简述
2020-04-17刘元诺
[摘 要]文章详细叙述了大数据的特点、分类、发展趋势、代表人物、国内外研究现状。特点主要有大容量、多样性、快速度、真实性。分类主要有海量性数据、响应型数据、影随行数据、过程型数据、未知型数据。发展趋势主要有数据的资源化、与云计算的深度结合、科学理论的突破、数据科学和数据联盟的建立。代表人物主要是对当今世界大数据发展产生巨大影响的人。国内外研究现状主要包括生物信息学、生物信息管理学科、云计算、MapReduce和Hadoop以及可视化研究。
[关键词]大数据;大容量;真实性;云计算;可视化研究
[DOI]10.13939/j.cnki.zgsc.2020.04.018
随着人类社会的进步,数据的数量与质量同时都在提高。人类在工业革命之后对数据更加重视,于是在不同的行业分别建立了相对应的数据标准,并积累了一定量级的结构化数据。紧接着随着计算机与网络的这股浪潮,人们急需高效的处理数据的方式,随着人们的研究使得处理大量的传统的结构化数据成为了可能。近几年来,音频、文字、图片、视频等半结构化、非结构化数据随着互联网的快速发展大量出现,社交网络、物联网、云计算的广泛应用,使得个人数据的发布与获取可以更加准确快捷。在众多领域如科学研究、互联网应用、电子商务,数据的规模与种类正在以极快的速度增长,现如今的时代即将变成大数据时代。接下来文章将从大数据的特点、分类、发展趋势、代表人物以及国内外研究现状进行详细叙述。
1 大数据的特点
(1)大容量。数量(Volume),即数据本身的量级就非常巨大。随着科学技术的不断进步,人们制造出的数据从最开始的纸质文件数据为主,到现在的数字数据为主并且在数量上不断增加,增加的速度也在不断提高。
马丁·希尔伯特和普里西利亚·洛佩兹曾经对1986—2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。其中大约包含了书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等60种模拟和数字技术。
(2)多样性。多样性(Variety)就是指数据种类多样化,包括传统的格式化数据以及来自互联网的网络日志、视频、图片、地理位置信息等非格式化数据。
在大数据时代,数据形式的种类越来越多,包括了文本、音频、图片、视频、模拟信号等各种不同的类型;数据的来源也越来越多样化,在组织的内部与外部均会产生。
(3)快速度。速度(Velocity),即处理速度快,“1秒定律”在数据处理速度方面是非常有名的,定律规定要在秒级时间范围内给出分析结果,如若超出这个时间范围那么数据就失去了其价值。由此可见数据更迭之快以及快速度处理的重要。
英特尔中国研究院首席工程师吴甘沙发表过以下观点,大数据处理技术和传统的数据挖掘技术最大的区别就是快速度。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的“快”有两个层面:一个是数据的产生速度快,另一个是数据处理得快。
(4)真实性。真实性(Veracity),即追求高质量的数据。数据的重要性体现在其对决策的支持,数据的规模并不能作为能否为决策提供帮助的標准,数据的真实性和质量才是获得真知和思路最重要的因素。 但是即使是高质量的数据中,也存在不确定性,同时这种不确定性又无法修正,因此如何调整算法使得应用这些数据仍能得出正确的结果就变得更为重要。
2 大数据的分类
(1)海量型数据。挖掘发展趋势或是通过挖掘惊人海量的数据推动科学知识的界限,这些都是传统预测分析的问题。 总的来说,数据集越大,结论越精确。尽管如此,大范围意味着要重新考虑数据将如何存放、存放在哪里、如何共享这些问题。
(2)响应型数据。响应型数据集依旧很大,但围绕着它的价值能够产出足够好的分析结果:一个根据近实时数据做出的精确车流预测要比一个小时之后才能得到的完美分析要好得多,要精准得多。
(3)影随型数据。影随型数据是一种确实存在,但并不容易拿到的数据。要挖掘这些数据需要庞大的计算量和复杂的算法,但是从这些数据中能得到相关场景下一时刻的发展规律与状态,对于预测来说还是有比较重要的意义。
(4)过程型数据。过程型数据,也叫作操作数据。这是从生产设备、化工锅炉、工业机械和其他在商业建筑和工业厂房里找到的信息,是在这些设备运行过程中产生的大量数据,这并不是技术上的丢失,而在于这些数据存在于操作系统内部,对这些数据的处理可以得到设备的运行情况,进而判断设备当前和下一时刻的运行状态,并进行相应的故障分析。
(5)未知型数据。未知型数据包括现在拿不到的、想要拿到的、还不充足的信息。但是这些数据背后隐藏的信息与价值又是巨大的,处理这些不明朗的数据使其逐渐清晰,并最终得到相应的结果。全世界每年约有86000亿加仑石油在流入管道时丢失,这足以填满一个胡佛水坝。以色列的TaKaDu正在进行解决问题的第一步——利用一个复杂的算法查明泄漏源。
3 大数据的四个主要发展趋势
(1)趋势一。数据的资源化,所谓的资源化就是指大数据已经成为一种重要的战略资源,企业必须要提前制定大数据战略营销计划,去抢占市场先机。未来企业的生存与发展可能将取决于对相应大数据资源的获取与处理。
(2)趋势二。深度与云计算结合,大数据与云计算的关系十分紧密,云处理为大数据提供了可弹性拓展的基础设备,是产生大数据的平台之一。同时云计算使得大数据的快速处理的可行性不断提高。各种新型的计算形态的发展也将对大数据的发展产生促进作用,让大数据营销产生其相应的价值。
(3)趋势三。科学理论的新突破,大数据很有可能是新一轮的技术革命。随之兴起的相应的学科可能会影响之前存在的理论与算法,并可能引发新一轮的技术革命。
(4)趋势四。数据科学和数据联盟的成立,未来,数据科学也有可能将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
4 大数据研究的代表人物
大数据研究的代表人物都是在当今世界产生巨大影响的人物,影响着整个领域的发展。
Geoffrey Hinton。“神经网络”在刚开始人们都对这门学科无从下手,但是Geoffrey Hinton和他的团队强力将其变成了研究与应用的热潮,“神经网络”如今已经是备受推崇的学术课题,学者们都想在这方面作出新的突破。“深度学习”也是因为Geoffrey Hinton和他的团队的研究使其从当初的边缘课题变成了当今Google等互联网巨头仰赖的核心技术。
Yann Lecun。他在机器学习、深度学习、计算机视觉、计算神经科学领域进行了深度研究。
Yoshua Bengio。他的主要贡献在于深度学习与人工智能等领域。
Corinna Cortes。她的研究主要在人工智能、机器学习、自然科学通论、算法与理论等方面。
Micheal I Jordan。他近些年的研究工作主要集中在无参数贝叶斯分析、概率图模型、谱方法、核方法以及信号处理中的应用等方面。
5 大数据的国内外研究现状
(1)生物信息学。自然科学领域一直是产生数据的活水源泉。近年,生物信息学也伴随医学领域数据的指数增长而持续走热,大数据作为一种技术手段逐渐应用于自然科学研究,并且也在不断推动自然科学领域的发展。
(2)生物信息管理学科。生物信息管理是在大背景下新兴热门的领域,它使得人们对生物信息数据的处理更加趋向于资源化和集中化,使得人们对生物信息领域的研究能够更加深入。
(3)云计算。云计算在2006年问世后备受推崇。云计算是一种基于互联网而能够无处不在、无时无刻、便捷、按需获取计算资源的共享池模式。
(4)可视化。可视化的成果主要分布在以下三个方面。
①多学科应用。将大数据与其他学科相结合起来,并进行进一步的开发,在医学领域大数据的应用已经较为广泛,比如心率记录手表、健康监控系统等。
②可视化分析。可视化可以用于对情报的分析,科学家们也研究出了可视化分析系统用于情报的可视化分析。
③信息可视化。即将信息变为人们可以直接理解的自然语言,使得人们更加了解这一事物或一类事物内在的联系与规律。
6 结论
大量种类繁多的数据给人们对它们的获取方式、分析途径、处理方法、存储方式等都带来了极大的挑战,人类急需找到更好的方式来处理利用这些庞大的数据。这些大量的数据已经开始影响人们的日常生活以及人类社会的发展。文章从大数据的特点、分类发展方向、代表人物、国内外研究现状等方面进行了详细的分析与叙述,大数据的概念虽然起源并发展于美国,但现如今全球都在对大数据进行研究,大数据的研究与发展一定会为我国未来的各项发展起到重要的作用。
参考文献:
[1]黄永勤.国内外大数据研究热点及发展趋势探析[J].情报杂志,2014,6(33):3.5.
[2]黄海翔.详解大数据的4个基本特征[Z].黄海翔博客数据分析,2014.
[3]馬建光,姜巍.大数据的概念、特征及应用[J].国防科技,2013,2(34):2.4.
[4]ZIKOPOULOS P,EATON C.Understanding big data:analytics for enterprise class hadoop and streaming data[M].McGraw . Hill Osborne Media,2011.
[5]杨绎. 基于文献计量的“大数据”研究[J].图书馆杂志,2012,31(9):29.32.
[6]韩芳芳,范群,韩青青. 我国大数据领域研究论文的计量分析[J].图书馆学研究,2013(8):2.7.
[7]王新才,丁家友. 大数据知识图谱:概念,特征,应用与影响[J].情报科学,2013(9):1.
[8]CHEN C. CiteSpace II:detecting and visualizing emerging trendsand transient patterns in scientific literature [J].Journal of the American Society for Information Science and Technology,2006.
[作者简介]刘元诺,哈尔滨工业大学(威海)理学院数学系应用数学专业。