大数据及其应用前景研究
2016-05-30徐立水辛敏
徐立水 辛敏
(1.北京医信天下数据技术有限公司,北京 100021;2.中国医学科学院 医学信息研究所,北京 100020)
【摘 要】大数据成为当前学术界和产业界的研究热点,是继云计算、物联网之后又一次颠覆性的技术革命,并不断影响着人们的生活习惯和思考模式。为进一步建立理论基础依据和探索开展应用研究,文章定义并详细解释大数据的概念,剖析大数据的内涵与外延,阐述大数据的属性和使用方法。大数据蕴含着巨大价值,相信未来在人体疾病预防监测、健康关怀、银行用户资信评估与应用、国家安全恐怖监测与预警、工业质量监控等领域将得到更加广泛的应用。
【关键词】大数据;大数据定义;大数据技术;数据分析;大数据应用
【中图分类号】G201 【文献标识码】A 【文章编号】1674-0688(2016)06-0021-03
目前,最热词莫过于大数据,各界媒体关于大数据的讨论层出不穷,大数据已成为流行语和现代科学趋势技术。基于大数据的科学研究,近年各大数据库发稿增长率较高,在PubMed数据库中全文检索包含“big data”的文章,2011年至2015年大数据相关文章占比分别为0.03%、0.04%、0.05%、0.08%、0.10%,5年增长近2倍。在CNKI数据库中全文检索包含“大数据”的文章,2011年至2015年大数据相关文章占比分别为0.28%、0.39%、0.82%、1.62%、2.54%,5年增长近8倍。大数据研究论文量增长率如此之高,说明大数据研究在当前科学研究中呈良好增长的势头,开展大数据研究的学者不断增多,进行大数据研究的单位也不断增多。大数据已经成为继石油和矿业之外,另一种更重要的资源业态存在。大数据研究热潮正是因为各界广泛认识到大数据研究的重要性,同时更多人已经知道大数据技术将会是一场新技术革命[1],现在开展大数据学术研究是为未来应用大数据技术建立理论基础,也是为未来更好地使用大数据开展基础应用研究和探索。
大数据技术不同于以往任何科学技术,大数据是一种全新的应用科学技术,大数据全新科学技术是以前人类没有研究甚至无从知晓的技术,是以实际应用出发为需求方做的科学研究。大数据热是因为大数据技术蕴含巨大的价值。
2012年3月29日,美国发布《大数据研究和发展倡议》[2-3],欲大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。2015年12月10日,中国国务院发布《国务院关于印发促进大数据发展行动纲要的通知》[4],各个国家重视大数据研究的目的在于在未来科技应用领域取得领先地位。目前,大数据研究刚刚开始,各国、各界大数据研究都还处于起步阶段,大数据应用方法仍在探索中。加大对大数据应用研究的投入,加强大数据领域人才的挖掘和培养至关重要[8]。开展大数据方法研究和大数据应用方向研究具有重要的意义,它可以为中国的“大众创业、万众创新”开辟一条更广阔的科技创新道路。
当前,大数据概念已经深入人心,大家共同的认识是未来大数据应用会颠覆传统的科学思维,使人类思考边界和思考方式发生颠覆性改变[5],这也是学术界和各国政府非常重视大数据研究的重要原因。大数据已经作为大国国家发展战略,已经在各国科研财政投入中成为政府重要战略指导方向,目的在于占领未来科技制高点和在国家竞争中取得科技优势。大数据在经济领域和医学领域更是开展了广泛研究,IBM、Google、Microsoft、Facebook进行大数据研究正是看中了大数据未来无可限量的价值[6]。
1 大数据的概念
最早提出大数据概念时,有人用4个“V”[6-8](Volume、Variety、Velocity和Value)形容大数据的特征,也有人认为大数据是指海量无法计算的数据[9],英文为“big data”。大数据的描述应该属于大数据概念和大数据性质,未来大数据应用需要一个清晰且容易被大多数人理解的大數据定义,定义大数据是为了更好地应用大数据,明确大数据定义可以供学者研究讨论,可以教学生更好地学习大数据,也可以为管理部门决策管理规范管理边界。
研究大数据多年,笔者认为最恰当的大数据定义如下:大数据是指具有一定属性关系资源数据的集合,属性关系资源可以是量化资源数据集合,也可以是定性化资源数据集合,这些数据资源集合统称为大数据。
大数据定义强调以下3点。
(1)大数据是指具有一定属性关系资源数据的集合。数据已经在人类生活中广泛存在,数据种类众多,存在形式各异,数据内涵外延各有不同,数据之间相互关系强弱不同,各类数据未来应用权重或是有效性不同,做任何一次大数据应用都不可能取用人类社会生活所有数据,应该是按照一定属性关系取舍数据,达到取舍有度、应用有理。如果数据是“海量的无法计算的”,那么它将会是无法应用的。传统意义上的数据就应该是加减乘除微积分等算法运算的数值及数值运算的结论,数据发展到现代已经不仅仅是数字,数据的内涵和外延已经更加广泛,数据含义更深,但数据本身的意义就是用来运算,未来只是数据运算方法不同而已,数据应该是无法计算的价值而不是无法计算的数量。搞清楚数据属性关系,研究清楚数据的内涵和外延,定义好大数据就可以做到更好地应用数据。
(2)资源数据的集合。资源通常是指自然资源、文化遗产资源等,往往强调是某某资源,资源的价值是这种资源已经存在。大数据定义使用的是资源数据,强调的是数据是资源,数据可以是已经存在的数据资源,也可以是现在没有的数据资源但未来会出现的数据资源,因此大数据定义使用资源数据。
(3)资源数据的集合是存在一起的,但存在方式、性质都可能不同,只表示资源数据已经因为数据相关性可以集合在一起。数据表现形式是定性数据或是定量数据。
2 大数据的内涵和外延
大数据的核心是数据,数据最早是由阿拉伯数字组成的一组数字,但现代大数据把数据概念大大延展。
大数据是建立在数据基础上的科学,任何数字、图片、声音、概念单元、性质描述等都是数据,可以把一组数据、一个数据集合统稱为相应的大数据,如医学资源数据集合统称为医学大数据。依据大数据定义推出医学大数据定义如下:具有医学属性关系资源数据的集合,涵盖人类健康、人体解剖生理病理、遗传、疾病诊断治疗、药品食品及人类生命健康关系资源数据集合。
一切都是数据,能够使用的都是数据,这种说法不容易让使用者理解什么是数据,理解什么是数据才能够使用数据,尤其对初期理解应用大数据的学者更加重要。大数据的数据可以理解为人类生活中任何词组、词条、数字等,大数据的数据更容易理解的是一些定性数据和量化数据,定性数据如大小、高低、长短、好坏等,定量数据如100万、1个等。数据的理解和使用也宜结合使用者个人知识结构、教育水平、喜好,让数据使用者理解一切都可能是大数据的数据,数据使用者认知水平的提高有助于自身理解数据的内涵和外延不同,计算机技术的发展也会让数据的内涵和外延不同。大数据的数据不管存在任何形式、含义、大小、难易都应统称为大数据的数据。
应用大数据中数据的能力是使用者的认知水平、理解水平、哲学水平,尤其是逻辑思维水平的体现,同时需要改变认识数据、收集数据、分析数据的思维[10]。因此,大数据的数据的内涵和外延是由数据使用者的认知水平决定的,大数据的数据是由数据使用者定义的。
3 大数据的属性和使用方法
大数据的属性是以各种形式量级存在,大数据的数据中,1个数据就是1个数据,2个数据就是2个数据,3个数据就可以称为大数据。一两个数据不能称为大数据是由现阶段计算机技术决定的,只有计算机技术提高到一定的程度,才可以决定是否可以使用。3个数据称为大数据也是指应用,3个数据就可以应用在大数据技术上。
大数据是建立在计算机技术基础上的全新应用科学,不同于以往任何科学技术。在计算机应用前,没有任何大数据理论论述,大数据使用会伴随计算机技术的提高而不断完善。
目前,大数据研究的热潮是一种科学技术应用初期的学术探索。当下研究的大数据包括2种:①数据量大就是大数据;②大数据技术方法。
大数据是一门应用科学技术,我们从应用科学技术角度讨论大数据技术。应用科学的关键在于使用,简述大数据使用方法为DATA+MODEL+COMPUTER(简称DMC),即数据+模型+计算机技术=大数据技术。
大数据应用的关键是数据采集、数据标示、数据使用方法。数据使用方法需要建立计算模型,计算模型可以称为数据模型或需求模型或需求数据模型,应用计算机技术让采集的数据运行在软件编程的需求模型上。大数据是数据应用在计算机技术基础上的科学技术,可以说大数据是计算机技术的扩展和延伸。
4 大数据适用领域
大数据技术是研究数据应用方法和数据应用方向的应用科学,大数据技术研究需要相关属性的基础数据支持。这里的属性是指属性数据未来应用方向,研究相关属性数据研判未来发展方向及预测属性数据通过大数据技术研判未来发展方向的可能概率,研究实质是研究事物未来发展趋势的可能性,大数据是预测未来的应用科学数据技术。
万事万物发展有其本质规律,人性是心迹,事物是规律,心迹是趋势,趋势也是规律,规律就是可能。数据是人和万物发展过程中产生的资源数据,资源数据按照心迹规律生产出来,资源数据内涵是心迹和规律,资源数据外延表达反映的是心迹和规律趋势方向。
大数据是应用科学,按照数据的内涵和外延特点,有其适合领域和优势领域。总结归纳大数据最适用领域是为了预判行为趋势和进行事物质量预测与控制。大数据技术适用领域具体包括人体疾病预防监测、健康关怀、银行用户资信评估与应用、国家安全恐怖监测与预警、工业领域质量监控等。
参 考 文 献
[1]朱东华,张嶷,汪雪锋,等.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理,2013,34(4):172-175.
[2]王忠.美国推动大数据技术发展的战略价值及启示[J].中国发展观察,2012(6):44-46.
[3]John Gantz,David Reinsel.The Digital Universe in 2020:Big Data,Bigger Digital Shadows,and Biggest Growth in the Far East[J].IdcIviewIdc Analyze the Future,2012(12).
[4]国发〔2015〕50号,国务院关于印发促进大数据发展行动纲要的通知[Z].2015.
[5]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].战略与决策研究,2012,27(6):647-657.
[6]马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013,34(2):10-17.
[7]朱扬勇,熊赟.大数据是数据、技术,还是应用[J].大数据,2015(1):701-711.
[8]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4):47-49.
[9]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
[10]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):10-15.
[责任编辑:邓进利]
【作者简介】徐立水,男,本科,北京医信天下数据技术有限公司CEO,住院医师,研究方向:大数据;辛敏,男,硕士研究生,北京医信天下数据技术有限公司医院部主任,研究方向:大数据。