大数据时代下的相关分析方法变革
2017-03-11陈玮
陈 玮
大数据时代下的相关分析方法变革
陈 玮
自2008年《自然》(Nature)刊登“大数据”专刊以来,大数据迅速成为学界、商界、政界关注的热点。一般认为,大数据指新处理模式下具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产,也包括处理这些信息资产的技术。维克托·迈尔·舍恩伯格及肯尼斯·库克耶提出大数据带来分析信息的三个转变,并断言:“建立在相关关系分析法基础上的预测是大数据的核心。”[1]通过比较传统相关分析方法的特点可以发现,大数据时代下的相关分析方法在使用的资源、方法的发展、科学研究的目的与动因、对科学研究的影响等方面发生着转变。
1 传统相关分析方法及其特点
在大数据时代来临以前,对相关关系的探究常见于社会科学领域,以统计学方法即相关分析方法为代表。在大数定律及中心极限定理的预设下,传统相关分析是利用样本分析以获得总体变量相关性的方法。传统相关分析方法的优势在于仅通过对样本的少量数据进行分析就可以最大限度地还原总体信息,省时省力,能够降低成本,但传统相关分析方法尚存在一些不足。
一方面,传统相关分析受样本限制。统计分析即样本分析,而样本的大小及取样方式在一定程度上决定使用的数学模型以及样本是否能很好地代表总体。因此样本数据需要精确,且最大限度地排除干扰信息,其取样易受影响。另一方面,传统相关分析缺乏对所有数据的有效利用,使用样本的同时就决定了对总体数据的取舍。由于数学模型对数据的要求,只有结构化的数据可以被分析,而不同的模型会不同程度地丢弃数据所蕴含的信息。此外,传统相关分析方法在科学研究中地位较低。传统相关分析的过程是假说——检验的过程,是验证问题而不是发现问题的过程。在以问题驱动的科学研究占主流的时代,传统相关分析通常只作为科学研究中的工具。传统相关分析方法在科学研究中的使用有限,在自然科学中受到冷遇,归根结底在于其方法论基础是归纳推理,是一种或然性推理,它的前提与结论之间没有“必然得出”关系而只具有或然性关系。传统相关分析方法常用于社会科学中对相对复杂的变量关系进行探究,而对于追求因果关系的自然科学则较少使用。
2 大数据时代下相关分析方法的改变
信息时代,传统相关分析在使用上除了以不同的数学模型为基础,还会借助一些统计软件,是相关分析法与信息技术的早期结合。但这仅节约了计算的时间成本,是量的改变,并没有从质上使传统相关分析法产生变革,即使需要使用者自主导入数据,也没有改变相关分析法使用的问题驱动模式。随着大数据时代的到来,对相关关系的探究越来越受重视,由此带来了使用的资源、方法发展的方法、科学研究的目的与动因、对科学研究的影响四个方面的转变。
2.1 使用更完整的数据
传统相关分析根据不同总体分布及数据类型采用不同的数学模型,但不同的模型对数据信息的保留程度不同。在样本的选取方面,统计学中一般将样本数大于30的样本看作“大样本”,而拥有“大样本”的相关分析可以选择使用更多的数学模型。大数据时代下,往往出现样本即是总体或无限趋近总体的情况。面对数据体量大、类型繁多但价值密度低的大数据资源,“大样本”的概念已远远超出了30的标准,只使用包含少量数据的样本难以摆脱干扰信息的影响,因此需要使用更为完整的数据。大数据的特点不仅在于其数据,同时还有能够对这些数据进行快速处理的技术。庞大、可处理的数据量使得大数据相关分析在数学模型的选择上可以不受样本与总体的分布情况的限制,从而保留更多的信息。此外,传统相关分析只能处理结构化的数据,而大数据采集的85%以上为非结构化和半结构化的数据[2],大数据相关分析所处理的数据更贴近现实世界。总的来说,大数据时代下的相关分析所使用的数据更完整,研究的是更真实的世界。
2.2 信息技术成为突破口
统计模型是传统统计学数据处理的基础,建立不同的统计模型是传统统计学的发展方向之一。大数据时代下,相关分析对统计模型的要求发生变化,一方面削弱了由样本大小及总体分布等带来的限制,另一方面,处理非结构化和半结构化信息成为必须具备的能力。大数据处理包含数据获取、数据集成、数据分析和数据解释的过程[3],这几部分环环相扣,相关分析不是一个独立的环节。大数据的相关分析不仅需要获取庞大的数据规模和繁多的数据类型的技术,亦需将非结构化数据转化为结构数据的技术,同时需要识别并选取关联数据的方式技术。也就是说,大数据的相关分析(关联分析)是数据挖掘技术的一部分[4]。发展大数据相关分析是要使其适用于大数据,应用于大数据,最终使我们从大数据中获益。目前已有的大数据处理关键技术主要包括大数据采集、大数据存储和管理、大数据分析及挖掘、大数据解释和应用[5],这些技术都将成为发展大数据相关分析方法的突破口。
2.3 科学研究的目的和动因的转移
2.3.1 对于微弱、模糊关系的重视
传统统计学一般用相关度R(Relationship)表示相关关系的强弱。而大数据关联规则中通常用支持度和置信度来反映所发现的关联规则的有用性与确定性[6]。一般而言,人们总希望获得强相关以证明事物之间的变化存在某种规律,即相关度或支持度、置信度越高越符合人们的心理期望。但著名的啤酒与尿布的故事告诉人们,即使是较低的支持度和置信度,同样能带来巨大的商业价值。卖场中,香槟与开瓶器、白面包与果酱之间的强相关早已为人们所料想到而被摆放在一起,而那些微弱相关商品的组合才是创收的关键。大数据的相关分析方法将事物之间微弱的联系呈现出来,蕴藏了巨大的未曾开采的财富。2009年甲型H1N1流感爆发前,谷歌一群不懂医学的工程师们以事物相关性的原理对流感的爆发做出大数据预测,比公共卫生机构更及时有效[7],大数据为非专业主体的科学发现提供了可能性。此外,庞大的数据量导致相关分析中的精确性难以保证。大数据所挖掘的相关关系往往是复杂的,从而变得模糊难以被解释,但这并不影响这种关系的有用性。正因如此,复杂性哲学和科学实践主义哲学的主张才得到了真正落实[8]。
2.3.2 以大数据相关分析为起点发起科学研究
科学研究的逻辑起点问题曾在科学哲学史上引起关注,讨论主要围绕科学研究始于观察还是问题展开。自波普尔提出科学研究始于问题以来,问题驱动的科学研究模式获得了多数学者的认可。人们之所以寻求强相关,部分原因在于人的视野束缚了问题驱动的科学研究,以至于那些微弱的相关性因不会被注意到而无法成为科学研究中的问题。大数据4V的特点提供了一种可能,即相关分析可以是“盲目”的,科学研究可以始于对大数据的相关分析。对于“科学研究始于机会,还是始于问题或观察”[9]的问题,大数据扩大了科学研究的可能性空间,为科学研究提供机会和资源;通过对大数据进行相关分析,出现与现有理论不相容的,或与理论预期发生冲突的结果,可以称之为问题;而这种相关分析本身即为一种观察和实践,同时也可以形成一种理论。由此可以预见,以大数据相关分析为起点的科学研究将加速人类探索世界的进程。
2.4 相关关系的地位在提升
因果关系一直是科学尤其是自然科学所追求的规律,这种追求引发了科学体系的建立。而相关关系作为一种不够精确、关联性不够强的规律则不被科学研究所重视。相关不等同于因果,使用相关分析方法不能检验逻辑上的因果关系。所以传统相关分析法通常是经验研究和理论研究的配角和检验者,但大数据相关分析的结果却可以成为科学理论本身[10]。一方面,因为上述相关分析方法的变化,更多的相关关系被发现,使得科学研究可以更接近真实复杂的世界;另一方面,万有因果律的存在一直饱受诘难;此外,表面上大数据的低价值密度给分析因果关系造成极大困难,使获得相关关系成为无奈之举,但实际上,商业领域并不关心因果,相关分析已足够为企业提供有效措施增加利润[11]。目前大数据相关分析方法已被运用到生物医学、天文学、海洋学、环境学、高能物理等多个领域,相关关系的地位不断得到提升。
3 结论
统计学中,相关分析法常作为探究事物之间关系的方法被社会科学使用,但一直存在如取样困难、浪费数据等问题。而在大数据时代,相关分析方法产生极大的转变。从研究的材料来看,大数据相关分析更完整地使用了数据;从方法本身的发展来看,信息技术或许会成为大数据相关分析法发展的突破口;从研究目的与动因的变化来看,数据驱动的科学研究中,人们可以寻求微弱、模糊的相关关系,非专业人士也可涉足其他学科领域;从产生的影响来看,相关关系在科学研究中的地位将会越来越高。
[1] 维克托·迈尔·舍恩伯格, 肯尼思·库克耶. 大数据时代:生活、工作与思维的大变革[M]. 杭州:浙江人民出版社, 2013:75.
[2] 游士兵,张佩,姚雪梅. 大数据对统计学的挑战和机遇[J]. 珞珈管理评论,2013(2):165-171.
[3] Dou Wanchun, Jiang Cheng. Big Data: Technical Ecosystem and Problem Discovery [J]. ZTE Technology, 2013, 19(4):8-16.
[4] 李平荣. 大数据时代的数据挖掘技术与应用[J]. 重庆三峡学院学报,2014(3):45-47.
[5] 徐子伟,张陈斌,陈宗海. 大数据技术概述[C]//中国自动化学会系统仿真专业委员会,中国系统仿真学会仿真技术应用专业委员会,离散系统仿真专业委员会.系统仿真技术及其应用学术论文集,2014:7.
[6] 金宗泽,冯亚丽,纪博,张希,高快. 大数据分析中的关联挖掘[J]. 计算机与数字工程,2014(10):1924-1928.
[7] 张平. 故事里的大数据:从求因果到重相关[J]. 企业管理,2013(4):112-114.
[8] 黄欣荣. 大数据技术对科学方法论的革命[J]. 江南大学学报(人文社会科学版),2014(2):28-33.
[9] 吴彤. 科学研究始于机会,还是始于问题或观察[J]. 哲学研究,2007(1):98-104.
[10] 张晓强,杨君游,曾国屏. 大数据方法:科学方法的变革和哲学思考[J]. 哲学动态,2014(8):83-91.
[11] 李国杰,程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域[J]. 中国科学院院刊,2012(6):647-657.
责任编辑 闵海英
(北京理工大学 人文与社会科学学院,北京 100081)
大数据时代的到来使科学研究方法产生了变革。相关分析方法作为重要的科学研究方法得到学界的高度关注。通过将传统的相关分析与大数据相关分析方法进行比较后发现,大数据相关分析在使用的资源、方法的发展、科学研究的目的与动因、对科学研究的影响四个方面发生转变。这些转变为科研创新提供了新的契机。
大数据; 相关分析方法; 变革
Transformations of the Correlation Analytic Method during the Age of Big Data
CHENWei
(School of Humanities and Social Science, Beijing Institute of Technology,Beijing 100081, China)
The age of big data brings a reform on the scientific research methods. As an important scientific research method, the correlation analytic method has been highly concerned by the academic circles. After compared correlation analytic methods of big data with traditional methods, the result could be found that the method of big data makes four major changes. They are been mentioned in the different resources, the development trend, the purpose and motivation of scientific research and the influence of R&D. These changes provide new opportunities for scientific research innovation.
Big Data; correlation analytic method; transformation
10.13750/j.cnki.issn.1671-7880.2017.01.014
2016-12-26
陈玮(1990— ),男,安徽铜陵人,在读硕士研究生,研究方向:科学思想史。
G 304
A
1671-7880(2017)01-0050-03