大数据语境下的价值研究
2017-09-06刘柯
刘柯
[摘 要] 自2013进入大数据时代以来,大数据巨大的潜在价值日益受到重视,大数据的4V价值作用要素更是为数据价值的挖掘奠定了坚实的基础,吸引人们对其深入研究和挖掘。通过对大数据价值来源的深入考察,对其发展的路径选择进行尝试性探索,提出大数据深化发展建议,应结合大数据与小数据、软计算与硬计算,使数据应用与采集双向互动,使人的判断和行为担负起维护数据价值的重担,从而实现对大数据价值的较为全面的认识与利用。
[关键词] 大数据;价值来源;作用机制;路径选择
[中图分类号] F49 [文献标识码] A [文章编号] 1009-6043(2017)08-0138-04
众所周知,大数据时代虽然来临不久,但其4V特征已经被学界基本确定下来,即Volume(体量)、Variety(多样)、Velocity(速度)和Veracity(真实),然而Value(价值)曾被作为第四个V,因此可见大数据的价值与其四个特征有着紧密的联系,并且对其关系的复杂性目前学界也没有给出一个明确而又权威的认识。
一、价值本位:大数据的根本追求
(一)海量数据再现世界
随着云计算、物联网等新科技的快速蓬勃发展,大数据成为能够变革人类思维和促进时代转型的新价值关系,在其领域掀起了一场如雨后春笋般的数据采集、传输、储存、处理和分析的爆炸式的繁荣景象。也就是说,在这一时代进程中,人们与世界相处的方式以及理解世界的视角都受到了前所未有的巨大冲击,大数据的出现和发展甚至有可能颠覆旧有的世界观,或者说曾经的世界观正处在大数据的冲击下,而“大数据的科学价值和社会价值正是体现在这里”。大数据以一种无论是形式方面还是实质内容方面都与以往的传统科技形态迥异的方式引起人们的兴趣,它解构这个静态世界的同时又以一种全新的思维重构起被它肢解了的世界,让世界重获生机,就像全身僵化了的脉络重新被打通一样,海量数据在非结构世界里流动、碰撞与融合,在此动态的无限否定之否定中,源源不断的价值创造的新模式渐渐取代了之前机械的数据生成价值的一次性利用的僵局。
(二)普遍数据化成为可能
智能芯片、移动终端、网络技术、云存储等前沿科技使得人们越来越丰富的社会生活痕迹的普遍数据化得以可能。古代世界各地的人们虽然在人类文明的开端就已经学会了丈量土地、以爻为卦,甚至将得来的度量结果以规整的形式在龟壳、绢布等物质载体上比较系统完整地呈现出来,这些开辟人类文明的伟大实践将人类社会发展引向了一个光明的康庄大道,尽管是以原始形式表现的数据,它仍旧能够肩负记录历史的重任以供后人了解人类社会发展的历程,从中汲取无人比肩的智慧养分。可以说,数据的价值不管在中国,还是在世界的其他地方,比如古埃及和古印度,都有着源远流长的历史根源。然而,这些令人惊叹的信息记录方式在今天看来却显得不那么让人满意,因为它们的有限性特征和延展性的缺乏不能满足现代社会人们的需要,其历史使命已不能担起创造价值的新要求。“数据”从原始的意义上就是数字加上测量单位的简单化表述,在内涵与外延两方面都不能与现代科技化的大数据模式相提并论。在内涵上,用原始测量方法需要占用大量人力物力,但是测量结果所得到的数字量与相应的投入并不协调甚至严重失衡,效率极其低下;外延方面,大数据式的数据类型不仅包括传统统计策略有限的度量单位,而且包括大千世界复杂多样的数据格式,比如视频、音频、图片、文字、无线电波等,它们以传统数据形式不能被采集和处理,但在可穿戴设备、人工智能等算法手段的处理下,都可以用0和1将其打破常规地聚合起来,从小数据的仅仅“数据”的状态转变为“数聚”的半结构或非结构数据状态,强大的传输功能使数据信息超越时间空间的束缚得以应用于各种价值目的。
(三)数据相关动态变迁
现代智能設备奠定了数据价值本位的基石,但价值的挖掘与创造在大数据时代则主要体现在思维的变革上。首先,20世纪50年代以来伴随计算机技术的日臻成熟并日渐渗透到人们生活的方方面面,智能终端采集的信息触角也伸向了世界的各个角落,使关于世界的信息快速增长,数据几何级的翻增模式让世界淹没在信息的疯狂扩张之中。在这样一种背景下,人们获得了大量可以用来分析的数据,甚至可以分析关于某个特定对象的全部数据,以至于人们可通过先进的数据处理技术,发现用传统采样技术不曾发现,也不能够发现的深层次细节部分,就像暴露在显微镜之下,世界以一种崭新的面貌被认知和理解,从而实现了古人“尽精微”的远久抱负,也促使哲学史上抽象的世界是否可知的论战,向具体化的经验层面转变。其次,存储技术的快速更新迭代使规模巨大的海量数据得以保存下来,而不是被一次性使用后就废弃掉,不仅如此,即便是那些被认为与调查对象毫无关系的“数据垃圾”也被储存下来,而具有无限容纳量的云存储技术更是数据化信息得以保存的利器。强大的储存技术、数以亿计的海量资源储存能力,让数据不会在完成一次的特定目的的任务后就终结其短暂的存在使命,而是使数据可以永久的保存下来以待二次使用甚至多次重复使用。除此之外,随着新数据的加入,数据的信息形态势必会发生翻天覆地的巨大变化,数据原来暂时的相对静止状态被新的数据打破,数据的碰撞与新形式的聚合导致快速的蜕变,也就是说,数据更新一方面让数据呈现动态的变迁,另一方面,当它处于“每个时间单位上”时,它都以一种新的姿态展现出数据之美,使人们毫不费力地用不同于第一次的角度对它重复利用,挖掘出无穷的潜在价值。在思维上最重要的转变可以说就是由因果关系向相关关系的转变了。以往人们热衷于从仅有的信息数据之中找出其中的因果关系,以便当再次遇到相同或者类似的情况时根据因果关系决定行动方案以解决问题,但在总结因果关系时,由于科学哲学中观察渗透理论“从中作梗”,稍有偏差便会导致几近离谱的结论。近代哲学家休谟也曾怀疑因果关系合理性的基础,认为因果关系只是由于人的习惯在起作用而已,“感觉”的偏离使价值实现的目标很可能南辕北辙,得不偿失。而现在在巨大规模的数据面前,人们利用新的数据处理技术对信息进行处理,在全数据模式下得出人们所能得出的最好的结果而不是基于因果关系。
(四)数据价值不断催生
以ZB级计的庞大规模数据让我们的世界焕然一新,“大数据代表着一种新的世界观,万物皆数据,数据是万物的本质属性”,可以说,大数据的出现自然而然地让人们看到了日光之下暴露的一切信息,就如对目力不及的远方进行眺望,不过以前由于采集技术等客观条件的影响不能被观察到的“遥远”却并不是因为太远,而是因为近在咫尺却被人们忽略了,但现在大数据让发现并分析那些以前对人们来说很遥远的所在变得现实,这种遗憾再也不会发生,关于万物的信息会以数据流的形式,会不间断地暴露在网络终端上,供人们对细分领域深入研究。无数细节信息的数据化使信息在数据通道里畅行无阻,而且随着新数据的加入和数据处理能力的提高,无限的自由排列组合使原有数据重新焕发活力。与此同时,数据的相关关系的被发现在数据的重复使用中得以实现,甚至可以说,源源不断的海量数据实现了数据系统内部的优化组合,在这一过程中最明显的就是相关关系和重复使用二者的相互渗透,相互作用,可以说,它们在细节信息节点的良好条件下催生了价值的本位追求,甚至可以说,价值是数据的终极追求,在细节信息、重复使用和相关关系的动态运动中形成的一切关系的总和就是价值。很显然,数据的价值本位会越来越稳固,毕竟价值既是作为原始动力的起点也是作为最终目的的终点,而且这个终点并不会完结,因为它同可再生资源有着相同的属性,也可以说它就是可再生资源。
二、影响要素:大数据的作用机制
大数据巨大的潜在价值,不仅有赖于它给予人们思维的超级头脑风暴的洗礼,而且更根本的是其基本特征之间错综复杂的相互影响,相互贯通。在这一动态的过程中形成的丰富哲学关系能够更好地揭示大数据的价值生成机制,对大数据的认知、理解及其进一步的发展都有着重大的现实意义。众所周知,大数据具有数量大、多样性、速度快和真实性四大基本特征,它们之间存在着或明或暗的联系,可以说是大数据巨大的潜在价值的一体四面,以一种整体性的作用机制对其价值性产生全方位多角度的影响,与价值有着千丝万缕的复杂关系。
(一)数据通约构建完整认识
大数据拥有规模巨大的数据量。凡是能够被看到、被听到和被想到的都可以用数据表达出来。不仅仅如此,数据化的世界通过机器采集的途径达到了人工采集所不能及的广大和精微,毫不夸张地说世界是由数据堆砌起来的,甚至连人本身都被数据化了,所以有学者提出数据是物质和精神之外的世界第三大本体的假设也不足为怪了。数据以这种占领世界的方式囊括一切于自身,价值亦不例外。价值被数据以字节的形式离散化处理之后覆盖着世界的整体,铺满了世界的各个角落,信息数据的价值性就这样被隐藏着,无处不在。当出现特定的需要时,看不见的隐性价值以全息化的数据面貌被计算出来,数据化的价值同时也克服了异质性的阻隔,使各种形式、格式的具体事物都被解构为字符单位,世界实现了价值意义上的统一,人们对周围世界的认知和理解变得方便,数据的隐性价值由普遍的数据化而显现出来。
(二)数据更新活化认知对象
大数据可以收集人们感兴趣的任何事物的所有信息,不仅仅在量上,在“类”上亦是如此。大数据多样性指的是不同类型的数据源,包括结构化数据、半结构和非结构数据,也包括那些不完整的甚至是错误的信息数据。大数据的第二个特征就是多样,如果把量和类分别比作地球的纬线和经线,那么,二者的纵横交错就可以结成一张密密麻麻的网,将整个世界围的密不透风,世界穿上了一件没有针脚的神奇“外套”。然而大数据的多样性不同于其巨大的规模,后者将世界打碎,将异质基础的世界的丰富多彩全部同质化了,世界彻底变成了仅仅用比特就可以代言的一切;而世界原本是由具有独立性的多类别构成的多样外观,世界的各个部分各有其独特的一面,不同颜色不同形状不同质感等等的不同才是世界完整意义上的根据,所以说仅仅把世界用单一的字节打碎并表示出来并不是数据化的目的,因为它把价值也连带着打碎了,没有了多样性的价值的世界并不是科技进步与人的发展所期待的结果,世界还需要还原其本来面目以满足人的需求。数据的多样化则可以做到将同质的比特字节再次分门别类地整合起来,只有这样的数据才是关于世界的信息的多样表达,世界也因此维持其多样性的一贯传统,只有在多样性的基础之上,世界才能在科技化的浪潮中拥有稳固的成长基石,世界的价值也便拥有了积累的可能性,人类文明的发展才能得到保障。完整意义上的价值在大规模数据和多样化数据的交叉连接过程中实现了质上的飞跃,因为在这样的背景下既有了数据流动的基础又有了数据赖以链接的支柱,碎片化的数据字符提供了数据流动的可能,多样的类别提供了信息聚合的归属,由此,数据的关联价值得以建立。
(三)数据流动产生新型样态
美国国际数据公司(IDC)的研究报告表明,到2020年全球的数据获取能力将增加50倍,用于数据存储的服务器将增加10倍。数据信息获取能力的高倍增长意味着数据获取速度的大幅加快,与此相得益彰的是数据的处理能力也会同时跟进。移动终端等数据源产生的庞大规模的数据在数据化的过程中以比特的形式将异质基础之上的视频、音频、图片和文本等数据转化为同构体,使得价值载体的数据形式成为了价值意义上的同构体,这在客观上建立了多样化的信息数据之间聚合的结构形式,在特定价值目的的外部驱动下,使原来担负着不用价值使命的比特单位,通过数据通道也就是同构体,才具有流动可能性,完成特定的价值任务,异质同构体为潜在价值的挖掘提供了最终的呈现模式,而这个模式贯穿在在整个数据价值挖掘的过程,它既是同一数据价值挖掘的开始,也是同一数据价值挖掘的终点。在这同一价值挖掘过程中,信息数据的离散化处理以比特为基本单位,在异质同构体运动目标的引导下,进行着具有可控性的价值凝聚,将静态异质性信息数据由点状的离散状态快速吸引以达成价值的块状类聚形态,实现动态数据承载价值的即时性。在这一动态过程中,不仅有相关数据向价值中心的聚合而且排除了数据废气,比如,在数据运行后台,“亚马逊决定只使用仍有生产价值的数据,这就需要不断地更新数据库并淘汰无用信息”。[2]简单地说,数据在由静态转向动态的过程中,不仅具有速度快的特点,而且在此基础上具有不断吸收有效信息并淘汰垃圾信息的“新陈代谢”功能,也只有这样,大数据的高速度运行才会渐渐克服价值密度低的初始状态,最终更快更好地实现既能及时更新而又承載更高的价值密度的信息数据,这是大数据的动态价值所在。
(四)真实数据构成对象价值
大数据的第四个特征是真实性。在数据采集的层面上讲就是这样,因为传统数据都是人工采集,而且是按照预定的调查目的设计采集方案,这个过程难免有人的意志参与其中,即使是相同的调查方案,也很可能因调查主体不同而产生相异的结果;与此截然不同的是,大数据的采集都是由机器进行的,通过智能采集系统和网络终端吸收一切信息数据,相较于人工采集大数据的方式绝对要客观得多,将减少甚至消除了人的主体性影响而得来的数据作为数据处理分析的对象条件,再辅以适当的数据分析算法,最后是不是会发现可靠的巨大潜在价值呢?回答是肯定的。换句话说,在前提条件分析方式都足够正当的全数据推断中,得出的结论是一般的普遍的那么也必定是可信且可靠的,而这正是大数据所追求的客观价值所在。只有客观价值才能是大数据价值本位最牢固的根基,如若根基不稳,那么无论多么先进的科技在虚假信息数据的面前都显得多余甚至有害,因为它可能给人提供了扰乱判断的信息,产生负价值效应,给人以有偏差甚至错误的判断依据,极有可能导致人做出离谱的决策,从而不可避免的造成无法挽回的损失,但是这样的损失究竟要让谁来负责呢?受害者是人,然而让机器来承担后果显得并不那么现实,这样两难的处境还是很可怕的,最好永远也不要出现以免人们难以抉择还要承担损失。所以说,真实性是永远不可缺失的东西,不管是在人类社会中还是在数据处理中,真实的数据分析才能实现客观价值,这对于大数据的价值本位追求是有大裨益的。
总之,大数据的四个基本特征对大数据的价值本位追求影响深刻,其相互之间的作用机制十分复杂。海量数据构成大数据的隐性价值,多样性成为关联价值的基础,高速度使即时性成为可能从而实现了动态价值,真实性特点使大数据的客观价值得以维持;不仅如此,海量数据与多样性特征相辅相成,没有海量数据,多样性就显得过于孤立;没有多样性,海量数据就会过于单一;而速度快更是让由海量数据和多样性特征这两条地球的“经纬线”由静止状态运动起来,成为一个“会动”的非结构或者半结构信息数据系统,而真实性则是这个系统的安全保护,缺少真实性的数据信息流并不能产生人们需要的价值,自然大数据的价值本位就得不到支持,那么与之有关的一切也就会失去意义。
三、全新路径:大数据的价值走向
(一)大数据的初始呈现混杂状态
大数据时代的来临使人们的思维得到了深刻的变革,其巨大的价值更是让人们坚定了对它追求的一贯性。大数据创造了价值发现的一片大好形势,但是人们还是会注意到良好前景之下不可忽略的数据“瑕疵”。巨量信息库是建立在纷繁芜杂的各种类型的数据基础之上的,混杂性是是其存在基础的明显特征之一,这种混杂性不仅包括许多需要通过清洗才能利用的多样格式,甚至还夹杂着不易察知的错误。这里需要注意的是,大数据的杂乱性并不是海量数据的无序堆砌,而是指大数据还未摆脱这种杂乱性,这种杂乱性不在于吸收了看似无关的信息数据,不在于堆砌了规模巨大的的海量数据垃圾,不在于丧失了传统的结构化统计规则,其实这些都是表面表现出来的“假象”,数据使用者在面对这种混杂性之时已经改变了习以为常的数据观念,在大数据的视野里一切信息都是有用的,包括“数据废气”甚至那些错误信息都是构成未来价值的重要因素。那些看似无关的信息数据在发挥作用时实际上已经不再依赖归纳逻辑了,归纳的逻辑基础已经不适用于海量数据库了,取而代之的是相关关系,人们通过这种相关关系达到特定的价值目标,至于为什么的问题已经不在那么重要了,至少对于那些以价值为最终追求目标的主体使用者来说是这样的,因果关系的阐释被搁置一旁而鲜有人问津。数据垃圾用传统的目光审视自然会被认为是既不能发挥价值作用又侵占数据空间的多余信息,然而垃圾信息的反面却隐藏着巨大的潜在价值,潜在价值在多次的重复利用中愈来愈多地被挖掘出来;世界被解构为全数据模式,使得传统的关系型数据库的数据聚集方式也就是结构化数据失去了继续存在的合理性,因为更具优势且有效的数据形式就是半结构或者非结构化的数据呈现方式,这才是价值本位使命的真正需要,“要想获得大规模数据带来的好处,混杂应该是一种标准途径,而不应是竭力避免的”。[2]
(二)大数据的精确化发展要求
然而,客观存在的混杂性却不应该成为主观上放任无度地对精确性一再妥协的理由,“数据的质量可能会很差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到量化它的目的”。[2]可以说在半结构或非结构化的数据中必然存在着多重价值赖以生成的强相干关系和弱相干关系,当作为数据节点的具有弱相关性质的数据被忽略时,强相关关系就会失去其价值延展的可能性,直接的结果就是潜在价值很难或者再也不可能被挖掘出来,这无疑是对价值的巨大浪费。值得注意的是,混杂性中很可能存有不少错误信息数据,当这些错误的信息数据恰巧就处在相关关系连接的数据节点上时,就会发生错误的价值延展,这样不仅导致已获取价值的功亏一篑,更会造成负价值的肆意横行,这样得不偿失的结果十分严重,所以对混杂性的筛选和清洗工作就显得尤为必要。
(三)人文要素的全面考量
数据化的世界不仅仅只有冷冰冰的数字,作为数据主体的人的意志、信仰、情感、直觉、不确定性和创意等又该以何种身份同理性元素相处呢?一方面,人类无法预知的意外、灵感等恰恰就是创造新世界的源泉,在灵感和意外等的交互作用下,价值的创造显示出生活可以更加丰富多彩,而不仅仅只有单调的数据表证,如若人的情感要素被数据禁锢起来,这世界也会失去人的主体性价值。与此相应,人所固有的情感、意志具有很大的不稳定性,因此变得难以处理也就是数据达不到可用于分析的条件,这样的数据在相关关系的建构过程中加大了难度,很可能会让价值聚合的努力分崩离析,破坏数据价值。
(四)大数据深化发展建议
面对诸多此类难题,“我们希望能够通过大数据分析直接告诉我们结果,告诉我们该怎么做。而事实上,我们的判断变得越来越不可或缺”,[5]所以,人的判断和行为应该担起维护数据价值的重担,主要可以从以下几点入手:第一,大数据和小数据的结合。大数据具有庞大的数据规模,但其纷繁芜杂,甚至潜藏着一些错误的信息数据,“我们不认为准确性是大数据的一个决定性特征,但我们认识到准确性是大数据的内在挑战”,[6]只有准确的数据信息才具有挖掘价值的能力,才能完成大数据预测的任务,而成功的预测是提取数据价值的重要保证。所以,在大数据采集信息的基础上,还需要传统具有价值目标的数据采集,大数据和小数据协同运作,尽量保证价值目标所需数据与实际采集数据的一致。第二,软计算和硬计算的结合。由机器自动采集的数据具有理性和受动性,而人的意志和灵感具有感性和主动性,理性数据为感性主体提供判断和行动的客观依据,感性因素激发创造客观数据巨大的潜在价值,理性和感性的融合相得益彰,最大可能的实现价值追求。第三,应用与采集的双向互动。大数据具有动态属性,它不是一个静止孤立的数据集,价值发现的整个过程以不断地更新与反馈、纠错与重构的方式运动,只有这样,数据才能建立广泛的联系,删除错误信息和过时数据,保持数据的活力以便重新产生价值。
四、结束语
大数据时代的到来引发了一场颠覆历史的思维变革,从一次利用到多次重复利用,从样本数据到全数据,从因果关系到相关关系,不管哪一方面都为数据价值的重新审视提供了良好的角度,大数据的4V价值作用要素更是为数据价值的挖掘奠定了坚实的基础;同时,我们也应该看到,大数据刚刚兴起所带有的混杂性和不精确性,除此之外人的感性因素对数据价值挖掘也有着亦正亦邪的双重影响。所以,我们把大数据作为价值目标实现的工具时,应该明白,它只給出了它所能给出的最好答案,而作为行为主体的我们还应该继续努力,作出正确的价值判断与价值选择。
[参考文献]
[1]黄欣荣.大数据的语义、特征与本质[J].长沙理工大学学报(社会科学版),2015(6):7,11.
[2][英]维克托·迈尔-舍恩伯格,肯尼思·库克耶/盛杨燕,周涛.大数据时代[M].杭州:浙江人民出版社,2013:1,60,210,247.
[3]Son K. Lam, Stefan Sleep, Thorsten Hennig-Thurau, Shrihari Sridhar, Alok R. Saboo.Leveraging Frontline Employees' Small Data and Firm-Level Big Data in Frontline Management[J].Journal of Service Research,2016:14.
[4]康路晨.一本书读懂大数据时代[M].北京:民主与建设出版社,2015:139.
[5] Scott Tonidandel,Eden B. King,Jose M. Cortina.Big Data Methods: LeveragingModern Data AnalyticTechniques to BuildOrganizational Science[J]. Organizational Research Methods,2016:2.
[责任编辑:史朴]