APP下载

数据学和数据科学

2017-12-10

天津经济 2017年7期
关键词:自然界规律科学

数据学和数据科学

一、内涵

数据学(Dataology)和数据科学(Data Science)是关于数据的科学或者研究数据的科学,定义为:研究探索Cyberspace中数据界(data nature)奥秘的理论、方法和技术,研究的对象是数据界中的数据,研究认识数据的各种类型、状态、属性及变化形式和变化规律,其目的在于揭示自然界和人类行为的现象和规律。数据记录了宇宙和生命现象,记录了人文和社会。寻找数据所含的规律,就是探索宇宙的规律,就是探索生物的规律,就是寻找人类行为的规律,就是寻找社会发展的规律,这是数据学的目的所在。与自然科学和社会科学不同,数据学和数据科学的研究对象是Cyberspace的数据,是新的科学。数据学和数据科学主要有两个内涵:一个是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。

二、产生背景和研究方法

信息化是将现实世界中的事物和现象以数据的形式存储到CYBER空间中,是一个生产数据的过程。这些数据是自然和生命的一种表示形式,这些数据还记录了人类的行为,包括工作、生活和社会发展。今天,数据被快速大量地生产并存储在CYBER空间中,这种现象称为数据爆炸(data explosion),数据爆炸在CYBER空间中形成数据自然界(data nature)。数据是CYBER空间中的唯一存在,需要研究和探索CYBER空间中数据的规律和现象。另外,探索CYBER空间中数据的规律和现象,就是探索宇宙的规律、探索生命的规律、寻找人类行为的规律、寻找社会发展的规律的一种重要手段,例如:可以通过研究数据来研究生命(生物信息学)、研究人类行为(行为信息学)。

数据学已经有一些方法和技术,例如:数据获取、数据存储与管理、数据安全、数据分析、可视化等;还需要有基础理论和新技术,例如:数据存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类与数据百科全书、数据伪装与识别、数据实验、数据感知等等。数据学的理论和方法将改进现有的科学研究方法,形成新型的科学研究方法,并且针对各个研究领域开发出专门的理论、技术和方法,从而形成专门领域的数据学,例如:行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学,等等。

三、发展历史

数据科学在20世纪60年代已被提出,只是当时并未获得学术界的注意和认可,1974年彼得.诺尔出版了《计算机方法的简明调查》中将数据科学定义为:“处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。1996年在日本召开的“数据科学、分类和相关方法”,已经将数据科学作为会议的主题词。2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,因此有人认为是克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。

四、研究内容

(一)基础理论研究。科学的基础是观察和逻辑推理,同样要研究数据自然界中观察方法,要研究数据推理的理论和方法,包括:数据的存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类与数据百科全书等。

(二)实验和逻辑推理方法研究。需要建立数据科学的实验方法,需要建立许多科学假说和理论体系,并通过这些实验方法和理论体系开展数据自然界的探索研究,从而认识数据的各种类型、状态、属性及变化形式和变化规律,揭示自然界和人类行为现象和规律。

(三)领域数据学研究。将数据学的理论和方法应用于许多领域,从而形成专门领域的数据学,例如:脑数据学、行为数据学、生物数据学、气象数据学、金融数据学、地理数据学等等。

(四)数据资源的开发利用方法和技术研究。数据资源是重要的现代战略资源,其重要程度将越来越凸显,在本世纪有可能超过石油、煤炭、矿产,成为最重要的人类资源之一。这是因为人类的社会、政治和经济都将依赖于数据资源,而石油、煤炭、矿产等资源的勘探、开采、运输、加工、产品销售等等无一不是依赖数据资源的,离开了数据资源,这些工作都将无法开展。

五、与其他学科的关系

数据是存在于CYBER空间中的东西;信息是自然界、人类社会及人类思维活动中存在和发生的现象;知识是人们在实践中所获得的认识和经验。数据可以作为信息和知识的符号表示或载体,但数据本身并不是信息或知识。数据学的研究的对象是数据,而不是信息,也不是知识。通过研究数据来获取对自然、生命和行为的认识,进而获得信息和知识。数据学的研究对象、研究目的和研究方法等等都与已有的计算机科学、信息科学和知识科学有着本质的不同。

自然科学研究自然现象和规律,认识的对象是整个自然界,即自然界物质的各种类型、状态、属性及运动形式。行为科学是研究自然和社会环境中人的行为以及低级动物行为的科学,已经确认的学科包括心理学、社会学、社会人类学和其他类似的学科。数据学支持了自然科学和行为科学的研究工作。随着数据学的进展,越来越多的科学研究工作将会直接针对数据进行,这将使人类认识数据,从而认识自然和行为。

人类探索现实自然界,用计算机处理人类的发现、人类的社会、自然与人,在这个过程中,数据已经巨量产生,并正在经历大爆炸,人类在不知不觉中创造了一个更复杂的数据自然界。自第二次数据爆炸以来,人们生活在现实自然界和数据自然界两个世界里,人、社会和宇宙的历史将变为数据的历史。人类可以通过探索数据自然界来探索自然界,人类还需要探索数据自然界特有的现象和规律,这是赋予数据学的任务。可以期望,目前的所有的科学研究领域都可能形成相应的数据学。

猜你喜欢

自然界规律科学
自然界里神奇的“干饭人”
规律睡眠中医有妙招
找规律 画一画 填一填
找排列规律
点击科学
科学大爆炸
盘点自然界中你没见过的怪异生物
盘点自然界最土豪的动物
巧解规律
漫画