APP下载

新兴媒介技术背景下的大数据再认知

2019-07-11赵鹏

新媒体研究 2019年9期
关键词:相关性大数据

赵鹏

摘  要  近年来,众多新兴媒介科技概念背后的技术指向都是基于大数据技术,这些科技概念正以极快地速度进入到我们的生活中。作为基础性技术指向的大数据,明确其概念是正确运用它的前提和基础。文章从数据的发展历程及大数据对信息分析带来的“三个转变”这两个方面着手,反向推导出大数据的样本量应为全体样本数据,同时应具备既有性、多源性和实时性;面对全体数据的复杂性不应刻意追求数据的精确性;大数据所呈现出两个变量间的相关性关系某种程度上可以代替因果关系。

关键词  大数据;媒介技术;全体样本;相关性

中图分类号  G2      文献标识码  A      文章编号  2096-0360(2019)09-0024-02

人类总是在制造一些新的概念,并且对其赋予新的意义,然后使用它、利用它、魔幻它,最后重新认识它,周而复始地进行着我们对这个世界的认知升级。近年来,媒介科技领域出现了很多新兴的概念例如“人工智能”“数据新闻”“智媒体”等,这些热点媒介技术以极快地速度进入到我们的生活,成为我们讨论的话题和研究的对象。分析这些新兴概念后可以得出,它们背后的技术指向都是基于大数据技术,或与其有着很高的关联度。大数据正逐渐成为推动这个时代不断向前发展的基础性技术,在理解、认知、运用它之前,我们有必要对其追本溯源、厘清概念。

1  关于大数据的界定

目前,学界与业界基于大数据的复杂性并没有给出一个明确的界定,大多都为描述性的概念为主。麦肯锡全球研究所把大数据描述为一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征[1]。它对大数据的描述是以数据本身为主体,在数据规模上提出了海量化,在数据类型上提出了多样化,把数据流转迅速和价值密度低作为其特点。Gartner在其研究报告中提出:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。它是从数据运用的角度上提出了运用新的处理模式才能恰当的利用大数据。以上两种概念从不同维度对大数据做出了解释,但并不全面与明确。笔者认为,对于大数据的界定首先应从数据发展的历程着手,找出大数据区别于其他传统数据形态的主要特征。然后再从数据的来源、数据的分析方法与数据的解释应用三个方面得出对大数据的判定与理解标准,由此基础上再对大数据做一个相对完善的界定。

2  数据的发展及大数据的特征

2.1  数据的发展

收集、整理分析大量的数据一直以来都是一个比较难以真实、准确完成的事情,学者涂子沛以美国为主体,以统计学为参照,把数据的发展划分为七个时代[3]。在初数据时代中,美国建国初期为了解决政治体制与权力分配的问题,采取了以逐一清点人头的方式开始了美国第一次人口普查,由于在普查中一些人的不配合和瞒报以及普查人员的工作疏忽,这份报告在一开始便受到了广泛的质疑。在内战时代、镀金时代中,由于问卷问题的细化和人口的增长,数据量急速增多,普查工作耗时多年。在抽样时代中,美国当时统计界的领袖人物乔治·盖勒普用“科学抽样”的方法,凭借5 000人的样本量打败了《文学文摘》240万人的调查,准确预测出了罗斯福当选为美国总统。在开放时代中,他阐述了数据的开放是逐步形成且不可逆转的。在大数据时代中,他提出了大数据不仅包含结构性数据,其还应包括文字、图片、音频、视频等非结构性的数据,这种非结构性的数据在某些数据类型中的分析将会呈现为实时性等观点。

数据的发展起始于一味追求数据量的增加阶段。在这一阶段中,数据量的增加并不能增强结果的准确性。对于庞杂的研究对象来说,我们的做法通常是对数据样本进行结构性的优化,由此数据的发展进入了凭借抽取较少的样本量,以达到获取较大信息量的抽样时代。在这一阶段中,由于干扰抽样样本收集和分析的客观性因素较多,所以导致研究结果准确性不足的现象。这一现象究其根本是因为数据的收集与处理受限于当时的技术手段,我们难以掌握全体数据。随着技术的进步,当前的某些领域已经可以收集到全体数据,具备了分析海量数据的能力,我们已经初步进入了大数据时代。

2.2  大数据的特征

大数据的逻辑起点起始于统计学并在其参照下不断发展,它与其他数据发展阶段相比较,在样本数据为全体数据的基础上,从数据来源的角度可初步得出大数据的三个基本特征。首先是“既有性”。既有性就是指非人工清点、非抽样得出的一种数据,是一种客观存在、客观产生的数据形态,它排除了在样本收集和数据分析时的一些干扰因素。其次是“多源性”。多源性是指数据来源非单一,对于某一研究对象来说,测量数据、非结构化数据等都应作为不可或缺的数据来源。第三是“实时性”,由于某些数据是实时产生的,所以基于对某一动态样本的分析应当具有实时性。

3  大数据的判定与理解标准

维克托·迈尔-舍恩伯格在《大数据时代》一书中提出了大数据的精髓在于我们分析信息时的“三个转变”。第一个转变为:不是随机样本,而是全体数据[4]27。这一转变随着科学技术的不断进步和摩尔定律的不断显现,使得我们有了掌握某一研究对象全体数据的可能。第二个转变为:不是精确性,而是混杂性[4]45。一方面,非结构性数据的难以整合所造成的現实困境使得我们不得不暂时忽视其所产生的误差。另一方面,基于数据样本量的提升和不同数据间的相互验证会不断提高数据的精确性。所以大数据得出的“非精确结论”会比其他统计方法得出的“精确结论”更加趋向于准确。第三个转变为:不是因果关系,而是相关关系[4]67。用数据变量间的相关性代替因果性是舍恩伯格提出的在应用大数据所得出结论后,我们应具备的思维

模式。

依据在大数据时代中分析信息时的“三个转变”,首先,我们可以反向推导得出大数据界定的判定条件为大数据的样本量应为全体样本数据。其次,我们在理解大数据时应该认识到大数据时代的“非精确性”比其他统计方法所得出的精确结论更加趋向于准确。最后,应用大数据所得出的两个量化了的变量之間所存在的强相关系,会比我们认为的两个看似为因果关系变量的弱相关关系更加趋向于

真实。

4  结论

通过对大数据基本特征的分析和对大数据判定与理解的探究,笔者认为大数据是在掌握被研究对象全体数据的前提下,对多个变量进行相关性分析的数据研究方法。对被研究对象的全体数据来说,其还应当具备既有性、多源性和全体性,对动态样本的分析还应当具备实时性。我们在理解大数据时应转变我们的认知观念,对于大数据所呈现的非精确性与相关关系给予足够的宽容与理解。

大数据作为“人工智能”“数据新闻”“智媒体”等新兴媒介技术概念背后的技术指向,在众多领域发挥着重要作用。值得注意的是,在现阶段某些数据样本从来源上看还难以具备既有性、多源性与全体性,对动态样本的分析还难以做到实时挖掘与分析。数据样本存在的先天缺陷,会导致所得出的结论与真相产生偏离,所以我们现在所处的数据发展阶段是介于数据逐步开放环境下的抽样时代与大数据时代之间的数据发展阶段,这一阶段笔者将它称之为“初级大数据阶段”。在这一阶段中,抽样的方法与大数据应用将同时存在。我们只有在分清二者的基本概念与了解二者的前提条件之后才能依据其各自的特点对其得出的结论做出正确的判断,也只有这样我们这个时代才不会被“伪大数据”所

绑架。

参考文献

[1]Beyer,Mark:“Gartner Says Solving‘Big DataChallenge Involves More Than Just Managing Volumes of Data",Gartner, 10 July 2011.

[2]See McKinsey&Company Report:”Big Data:The Next Frontier for Innovation, Competition, and Productivity",Fujitsu North America Technology Forum,January 25,2012.

[3]涂子沛.数据之巅:大数据革命,历史、现实与未来[M].北京:中信出版社,2014.

[4]维克多·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:27,45,67.

猜你喜欢

相关性大数据
基于Kronecker信道的MIMO系统通信性能分析
小儿支气管哮喘与小儿肺炎支原体感染相关性分析
脑梗死与高同型半胱氨酸的相关性研究(2)
脑梗死与高同型半胱氨酸的相关性研究
会计信息质量可靠性与相关性的矛盾与协调
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
决策有用观下财务会计信息质量研究