从科学方法的变革和哲学思考探究大数据方法
2015-05-30李世宇
李世宇
摘要:信息与网络技术的迅猛发展给人们存储数据带来了极大便利,在这一背景下数据已逐步由量变转为质变,“大数据”概念应运而生,成为当下各行各业学者研究的焦点。本文在简述大数据涵义与方法的基础上分析了大数据方法及其改革,立足于科学方法变革与哲学思考角度提出大数据方法论,并进一步探究大数据的核心特征及其意义,以期为当下的大数据方法研究提供一定的借鉴价值。
关键词:科学方法变革;哲学思考;大数据方法
1998年,生物化学家托尼·卡斯在《大数据管理者》一文中首次提出“大数据”概念,并在2008年“大数据”专刊后迅速爆发,成为社会各界积极研究的热点课题。大数据的爆发带来了第二次数据革命,在实现万物皆数理念的同时开启了数据发展的第三个阶段,同时在科学研究当中,数据作用、地位的改变也引发了诸多哲学问题,使得大数据研究逐渐被纳入到科学、哲学领域当中。
一、大数据的概述
(一)内涵。首先,大数据是一门数据科学,它借助数据挖掘等方式来对海量数据这一研究对象的内在规律进行挖掘,所研究的内容涉及到不同科学领域当中的所有共性数据问题,在找出数据规律的基础上解答相关的科学问题;其次,大数据是一个技术平台,与常规的数据不同,大数据的数据收集、提取、存储、分析都离不开软件与硬件的支持,这些技术共同构成了大数据分析的技术平台;再次,大数据是一种研究方法,它涉及到生物医学、生物信息学、自然灾害预报等科学,科学在大数据背景下正逐步走向数据密集型科研;最后,大数据是一项潜在的资源,根据相关报告,大数据在医疗领域每年所创造的价值将高达300亿美元,且将会使零售业的利润提高一半以上。
(二) 方法。大数据中的数据挖掘主要采取分类、关联分析、聚类分析、异常检测技术。其中,分类是根据数据学习得出将自变量对应到因变量以实现自变量分类的分类模型;关联分析是对海量数据当中关联规则等有意义数据关系的发现;聚类分析是把海量数据划分为同簇对象相似性高、异簇对象极不相似的多个有意义的簇;异常检测是找出离群点的过程。
二、大数据方法及其改革
(一)与传统模型方法的区别。部分学者在研究过程中将模型划分为两类,即物质形式和思维形式的科学模型,前者根据模型来源的不同分为天然模型与人工模型;后者依据模型特点的差异分为理想模型、数学模型、理论模型以及半经验半理论模型。通过对比分析得出,大数据模型不同于传统数据模型,它不具有物质形式,是没有抽象过程的数据运算,且其算法同数学模型的得出过程大不相同,因此大数据模型并不属于以上的科学模型,而是一种新型的经验模型。
(二) 与统计建模的区别。数据挖掘在模型方法上虽然很接近统计学,但其与统计建模仍存在本质差异。表现在:1.研究地位。前者的数据模型是科学研究的主角并担当了科学理论角色,而后者一般是经验、理论研究当中的配角、检验者;2.数据类型。前者的数据是类型复杂、质量偏低的海量数据,后者则是精心设计、高质量的实验数据;3.模型确立。前者借助海量数据确立模型且其目标变量具有不明确性,后者依据研究问题确立模型且有明确的目标变量;4.建模驱动。前者采用强调建模过程、模型可更新性的数据驱动,而后者则采用强调设计、验证合理性的验证驱动。
(三) 与计算机仿真的区别。计算机仿真包含了由模型建立、仿真模型建立和仿真实验所联系的系统、系统模型以及计算机三要素。大数据方法与计算机仿真方法的区别主要表现在:1.研究对象。前者的研究对象为海量数据,后者则面向依据系统建立的数学模型;2.推理逻辑。前者为数据归纳,后者为演绎计算;3.自动程度。前者为计算机自动进行,后者的计算机仅仅在仿真实验环节采取自动进行;4.说明力度。前者相比较后者具有更高的说明力;5.角色地位。前者在科学研究中占据了主体地位,而后者则担当实验角色;6.基础设施。前者包括传感器、网络设施等,后者通常只涉及一台或多台计算机。
三、大数据的方法论
(一)逻辑维度。科学论证从逻辑角度来看可分为归纳和要求前提决定性支持结论的演绎。在大数据分类当中使用得最为广泛的方法是由包括根节点、叶节点、内部结点的结点与由向边构成的具有层次性的决策树。其中根节点、内部结点主要由数据集中属性组成而叶节点则由类标号所组成,由向边是在归纳已有数据的基础上所得出的,其归纳方法包括求同法和求异法。与其他算法的原理相同,决策树也是根据数据集中提取分类模型来完成分类的。
(二) 主体维度。传统科学定律的理解主要来自于规则性进路的恒常联系、心理习惯以及必然性进路的必然性,根据大数据模型可预测的、依据相关算法与数据得来、不具有必然性的特征可以得出大数据不属于演绎系统,不符合系统进路与必然性进路,但其预测性使得其符合心理习惯进路。因此,大数据模型与物理定律可应用在不同的领域当中。
(三) 内涵维度。作为大数据哲学及其方法研究当中的一个焦点问题,因果关系、相关关系的研究目前在业界还没有统一的定论。大数据因果、相关的考量目前需要研究的主要包括大数据方法是不是仅能获得相关关系、相关关系可否在科学角色中取代因果关系这两个问题。
一方面,大数据算法虽然包含了消除归纳法,但无法体现因果性所严格强调的充分条件当中的必要条件,不能完全确定其因果性。由此可见大数据方法仅能发现相关关系,只有在具备具体模型的情况下才能发现相关关系。另一方面,第二个问题对因果、相关关系间的对立隐含了假设,实际上针对科学、定律、因果说明目前还存在争议,根据大数据符合心理习惯进路、不符合系统与必然性进路可得出在仅认为定律是心理习惯的情况下才可科学说明大数据的相关关系并代替因果性。
(四) 功能维度。大数据的功能主要包括对既有数据模型的描述和预测。从描述角度看,大数据方法因无法发现因果性而不能进行因果说明,而在定律说明中大数据模型又仅仅符合心理习惯进路,由此可见大数据模型说明力弱。从预测角度看,大数据模型经过评估、随数据更新而更新、针对具体问题且海量数据中蕴含的经验信息丰富,使得大数据预测虽无必然性但预测准确。
四、大数据的核心特征和意义
科技的进步改变了经验世界,海量的数据使人们的视野更加开拓。大数据技术超越了人类智力,未来还将逐步突破人们的心理习惯。以说明力低、预测力高为核心特征的大数据预示了一种全新的科学,相比较现有的能够借助因果机制、科学定律、模型隐喻类比来说明的科学,大数据模型利用复杂其计算量大的计算方法从数据形式下的经验世界中直接获得,在涵盖了经验世界的丰富信息的同时也表现了海量的经验。作为一种全新的经验表现形式与科学研究类型,大数据同时给科学研究创造了一种全新的方法。从经验角度来看,大数据实现了无所不在;从方法角度来看,大数据的核心特征使得其突破了人们的智力与心理习惯;从科学的角度来看,大数据将会引领现代人们走向一个全新的世界。
五、 讨论
随着我国经济水平的快速提升和科技水平的不断进步,一些发达国家开始逐步制定、实施大数据战略。大数据给科学研究带来了新兴的方法,通过对海量数据的潜在模式做出描述并在此基础上做出预测,以实现对数据中富有价值的规律、模型的深入发掘。大数据既是经验表征的新方法,也是探索经验后的知识的新方式,大数据方法在科学、哲学等领域当中具有很大的研究前景。(作者单位:江西财经大学马克思主义学院)
参考文献:
[1]喻国明. 大数据方法与新闻传播创新:从理论定义到操作路线[J]. 江淮论坛,2014,04:5-7+2.
[2]刘继伟. 基于大数据的多尺度状态监测方法及应用[D].华北电力大学,2013.
[3]肖奎. 维基百科大数据的知识挖掘与管理方法研究[D].武汉大学,2013.