大数据时代“一切皆可量化”中抽象概念的量化分析
2018-01-03田然
田然
摘 要 随着“大数据时代”的来临,信息处理和应用也同时进入了新的发展领域。一个全新的理念从计算机领域拓展延伸到了传播学领域,通过大数据对受众相关信息即时收集和分析,媒介可以从中以数据的形式获得相关结论,并对下一步的传播或其他行为、策略进行调整。巨大的发展红利和客观的社会、经济效益,使得对数据量化的研究越发深入,“一切皆可量化”成为了理想状态。而在“一切皆可量化”的探索过程中,也出现了“量化”上的缺失和不足,对于“一切皆可量化”是否存在的争议逐渐增多,而抽象概念的量化正是其中亟待解决的问题之一。
关键词 大数据;量化;抽象概念
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2018)19-0028-03
当大数据时代蓬勃发展,对大数据的分析、筛选和使用提出了更高的期望和要求。在人工智能程序不断完善的背景下,所有的信息都被纳入了大数据的“数据库”收集的范围。在学界,尤其是计算机、人工智能领域,出现了一种观点,即社会的一切事物、行为和联系都可以被具体量化为数据。“量化”成为大数据时代最重要的成果。
“一切皆可量化”的概念认为大数据时代的数据化,实质是一种把现象转变为可指标分析的量化形式过程。通过文本的定量分析,由机器或程序阅读这些数字化形成的数据,用于对人类行为的预测。这样的观念,正在成为一种主流的思想。
1 “一切皆可量化”的争议
“一切皆可量化”的特点是大数据,而“大”所带来的后果是精确性的下降。它的应用,其关键不在数据的收集,而在于数据的分析环节,只有分析的结果才能够为受众所感受,并接受相应应用而产生的服务。如何对信息安全进行有效地监管,如何保证受众的知情权,已经成为巨大的挑战。“一切皆可量化”中的“皆可”是一种技术,或者传播学层面的可能,而并非代表着许可。如何确保受众对于自身数据的上传和共享得到充分的知情,享有确认和监管的权利,是“一切皆可量化”急需解决的关键问题。在此基础上,保障共享和被收集信息的安全,也尤为引人关注。
“一切皆可量化”是一种宏观的概念,一方面,媒介在大众传播的过程中需要媒介、受众的主观能动参与,受情感、人文情怀的影响与支配,而感情和具体的情感体验很难用数据去具体界定与衡量。另一方面,受众参与大众传播,接触信息或上传、提供信息具有瞬时性,具有一定的空间、时间的限制和影响,数据并非恒定不变且过度依赖于设备、信息技术,在特定的环境下并不能完成数据的收集和分析。因此,如何判断量化后是否改变了其原有属性,量化后的传播效果如何判断,都是“一切皆可量化”需要解决的问题。
对于中文而言,“一切皆可量化”还面临着技术层面的巨大挑战。不同于英文等西方语言体系的特点,中文的表达讲究隱喻、修辞、借代、暗指等,往往需要结合具体的语境、场景,甚至是标点符号、断句、组词等进行辅助表达。而“一切皆可量化”自然是无法按照人的逻辑、思维和情感判断对这些表达进行精细、准确地量化。这也是“一切皆可量化”在特定的语言和文化中无法完全实现的重要原因
之一。
2 抽象概念量化的进展分析
在信息的传播过程中,受众会因为接受信息的刺激而产生相应的情绪、感受、想法、思考。传播学研究就已经明确的定义,受众在未接受信息刺激时,以及在选择接受信息洪流中的某种信息刺激时,已经持有自己的观点和倾向、主张。那么,这样的主张、倾向、感受、情绪等抽象性的“数据”,不能简单地按照大数据的收集方法,从用户的身体指标、行动轨迹、搜索内容、消费指数等直观数据中进行量化,大数据应该怎样在没有人类逻辑思维判断和“察言观色”的基础上进行量化呢?
大数据真正的价值在于“全”,而大数据分析就是通过多维度、多层次的数据,以及历时态的关联数据,“找到问题的症结,直抵事实的真相”[1]。因此,大数据要做到“全”,就必须尝试将抽象数据进行准确的量化,并与直观数据、形象数据纳入统一的数据及分析体系。
其中一种方式是建立结果模型,将所需要的数据以具体的传播行为进行量化。参照新浪微博舆情监测系统,是通过对微博所体现的受众观点进行数量统计和分析,从而与整体微博环境中的关注度、发布数等进行整合,形成对于微博舆论的数据量化,同时对效果进行统计分析,从而形成预测或参照。这样的方法实则上是利用了一种层次分析法,将相应的直观数据指标与抽象数据指标结合在一起,对效果和后续倾向进行量化的数据分析。
而为了应对中文语系特有的复杂性和隐喻性,规避因多义词、异议词带来的意义混淆,部分学者及从业人员尝试采取层层分解、分析的方式,运用大数据的快速运算、海量分析的技术特点,对抽象画的概念进行判断。即将内涵丰富的抽象概念,分解成为能容易被量化和分析的词语或判断标准,在同一个意义框架内进行分解定位,根据这些分解后的数据判断标准被触及和涉及的程度,对抽象概念进行相应的量化[2]。
另一种方式,是采取逻辑学及统计学、哲学结合的方式,形成一种“质化与量化研究”,将社会现象切割为一个个用数据表达的条块,并赋予这些模块在含义与表达数据上的逐一对应关系。质化的实质是一种微观的某种现象进行深入观察分析,以归纳法进行分析形成数据。这样的方式需要人工的参与,利用大数据平台进行初选判断后进行具体研判,但仍未摆脱前大数据时代的量化分析局限,且效率和效果均大受影响。
在这样的体系构建中,较为直观的就是“百度指数”。“百度指数”是大数据时代数据量化后传播效果的直观评价体系之一。它按照用户关注程度、媒体关注程度、受众分布等进行直观数据体现,同时结合性别、年龄、职业、学历,对相应的信息进行指数判断和评价。此外,它利用受众转发数量、关键词词频、评论倾向等数据,反映受众在指数所涉及的数据中所保持的抽象性意见和反馈,从而体现了包括抽象概念在内的量化后传播效果。但这种反馈实际上仍旧较为简单,是一种最基本的频次分析结果,具备的参考价值有限。
3 “一切皆可量化”中抽象概念的设想
为了应对抽象概念的量化,真正实现“一切皆可量化”,运用传播学的理论,结合大数据运用的实际,尝试对其提出一定的假设与设想,构建一种具备通用性的逻辑判断模式。
首先,发扬和继承原有的“量化”判断体系。这种体系基于用户的个人数据收集和整合,通过用受众转发数量、关键词词频、评论倾向进行意见的整理和收集。
其次,与经过用户同意而进行收集和整理的性别、年龄、职业、学历等信息进行对比,从而形成直观的分布效果和统计数据,为数据的应用者提供参考,产生相应的社会和经济价值。这种收集的另一个关键在于,对于受众的长文、长句、长词进行逐步分解,采取“意义表达”“句意加强或反转”“个人态度表明”等进行分解归类,从而按照相应的组合进行判断,得到受众最为准确的态度和立场。
此外,建立关键词库,对信息关键词进行梳理、归纳汇总之后,建立一个信息关键词库,由词库进行相应的信息转换,类似于密码表格的形式,按照词库中的内容对应相应的信息,从而转换为特定的数据或数据符号,融入整个大数据量化的系统中。例如,“难道”“岂能”表示句意具有反转的可能性,“非常”“十分”表示语气的加强,从而对频次整理进行辅助。
同时,要将表情包、表情、修饰图片等加入统计和分析的库中。在微博、微信和QQ心情等主要表达方式中,表情包等图片形式的存在更具有直观性,也更容易进行归纳、整理和统计、分析。
另外,在建立结果模型的基础上,结合智能化的质化研究,出现了利用受众在大数据系统内获取信息时所产生的搜索、点击、暂停、跳转等行为,进行相应的态度判断,例如跳转代表有兴趣、屏蔽代表厌恶、重播或回看代表关注、暂停代表思考等,了解受众在获取信息过程中的抽象情感、态度、感觉和心情,用以对数据进行补充。在此基础上,通过有效地编码,将大数据变为可分析的数据,提取有价值的,更重要的是能量化的数据。
因此,抽象数据的收集和量化,继而被分析,被赋予通用性和实用性,其方法应是运用事先预设的结果模型,对抽象概念进行分解形成单一的或直观的信息,再对信息进行编码排列,从关键词捕捉、倾向性表达判断、用词频次、使用行为等方面进行综合性量化,并进行相应的密码配套和解码转化;同时在大数据技术自动化的同时,保证人工抽查和再判断的方式,减轻错误概率,并对部分极端数据进行及时处理,增强大数据的预警机制。
与此同时,借鉴手机定位中的多元定位法,可以在抽象意见的判断中引入相关的“场域”概念。即参照抽象数据的量化过程,对数据进行抽象化还原,从而判断受众对于量化数据的接受和反馈情况。例如,将数据按照态度、感受、心情、消费冲动、倾向选择、意见改变等分类划定为一个“场域”,对“场域”进行行为模式的定义,从而将抽象数据快速还原到一个相对大数据较小并具有共通性的区域内,类似于数学上的坐标轴。这样的坐标轴按照相应的“X”“Y”“Z”轴进行隔离,按照各坐标轴上的数字进行多维定位,从而在立体几何图像中找到精确的唯一坐标点。这样的方式同样可以应用在大数据的抽象概念分析中,通过对用户词频、语气词、助动词、态度附加使用等数据的统计,在“支持”“反对”“中立”结合“欢迎”“疑惑”“排斥”等抽象态度,在这样的坐标轴上,按照态度深浅进行精确定位。这样的通过多个“场域”的叠加,多次定位的方式,最终形成立体坐标,在将坐标带入相应的判断表格中进行具体判定,完成还原和效果的判断过程。
无论是“分解—解码”机制,还是“场域”概念,其实质都是解决“一切皆可量化”过程中对于抽象概念的量化难题。无论如何,大数據仍旧是互联网的发展趋势,“一切皆可量化”也将成为关注的重要领域,市场有着迫切的需求。
因此,传播学也应该进一步投入关注力度,对“一切皆可量化”分成分批解决,“一切”解决包括抽象概念在内的内容;“皆可”解决法律、道德层面的约束、制约;“量化”解决大数据分析、收集和应用的技术和方法,最终使大数据时代的宏利得到真正的体现。
参考文献
[1]喻国明.从精确新闻到大数据新闻——关于大数据新闻的前世今生[J].青年记者,2014(36):43-44.
[2]喻国明.构建社会舆情总体判断的大数据方法——以百度海量搜索数据的处理为例[J].新闻与写作,2013(7):67-69.