APP下载

大数据背景下受众研究面临的挑战及对策

2013-04-02文/曹

传媒 2013年9期
关键词:海量数据挖掘媒介

文/曹 刚

受众研究在传播学领域占有突出位置。一方面,它连接着媒介功能和效果研究,几乎每一项重要的效果研究都离不开受众研究;另一方面,它是媒介产业运营中不可或缺的一个环节,是连接传媒产业和广告产业的纽带。进入新世纪以来,面对加速演变的媒介技术,受众研究从未止步。与此同时,一个源自计算机界的技术概念——“大数据”,近年来旋风般“横扫”政治经济社会诸多领域,其能量不容小觑。大数据能给受众研究带来什么?大数据时代受众研究将面临哪些挑战?本文将对这些问题进行深入研究,并探讨应对之策。

一、从小样本到大数据:受众测量技术的升级换代

传统的受众研究在捕捉受众媒介接触、使用行为时主要针对随机样本或固定样本(定期更新)进行,调查方式以入户面访、电话访问、日记卡回收等人工测量为主。即使是20世纪80年代兴起的各种主动、被动测量仪,也是以少数样本为测量对象。进入21世纪,随着互联网、尤其是移动互联网技术的迅猛发展,各类智能化手持电子设备逐渐推广普及,报纸、杂志、广播、电视等传统媒介纷纷通过互联网平台拓展原有传播渠道,受众媒介接触和使用行为日趋多元化、复合化。新兴电子媒体在测量受众媒介使用行为时具有突出优势。作为交互媒体,互联网对于用户的访问都会通过log日志的形式进行记录,而且是以一种旁观者的身份、不必惊动受众的方式进行观察记录。针对智能设备的电子访问记录成为受众研究不断增长的测量数据的主要来源。这些数据符合大数据的主要特征:第一,海量数据。传统受众调查1000个样本就算较大规模,而现在电子设备的访问记录几乎是以普查的方式在进行,伴随移动互联设备和软件的飞速发展,某些热门端点用户访问数量动辄百万、千万,甚至过亿,而且数据量随时间不断增长。第二,高维数据。数据集的维度是数据集合中的对象具有的属性数目,简言之,就是记录单个受众时可能涉及的属性有多少。传统受众调查由于访问成本所限,面向受测样本的问题数量往往精简到最小程度,特别是电话访问时。而现在电子设备对于受众的媒介使用行为可以近乎全方位、无遗漏地详细记录下来;不仅如此,由于苹果、亚马逊等大型公司构建的网上商店系统,受众往往实名注册,大量个人信息与受众媒介使用行为可以进行关联分析,这在过去是难以想象的。第三,数据记录的非目的性。传统受众研究在调查之前有明确的理论框架或商业用途,根据这些既定目标设计相应的需要调查的受众属性。而电子设备访问记录事无巨细地记录受众各种信息和媒介使用行为,并非出于事先规划好的调查目标。

二、大数据背景下受众研究面临的挑战

1.受众媒介使用行为的海量数据,给数据分析带来困难。由于电子设备在记录受众媒介使用行为时并不进行抽样,而是全部纳入测量范围,加之日积月累,因此记录的数据量不再是传统受众研究的兆字节,而是以指数级增长,达到了惊人的吉字节、太字节。这样庞大的数据甚至不能放进计算机内存中运算,而用非内存算法可能相当耗时。而数据更新越来越快,时效性也越来越强,等计算机对海量数据分析出结果,有可能已失去应用价值,难以帮助媒介经营者及时决策。

2.受众媒介使用行为的高维数据,传统统计方法难以应对。传统受众调查常见的是由少量受众属性集合而成的数据,为这些低维数据开发传统的数据分析技术和软件通常不能很好地处理高维数据。现在,研究者往往要面对成百上千的受众属性,中、高维度数据与低维度数据有质的不同,传统统计方法和软件失去用武之地,这就使计算机在分析高维数据时会陷入所谓的维灾难。

3.受众测量数据量非常大,而其中有价值的信息却很少。传统受众调查与统计分析是在有明确研究假设条件或媒介运营指标指导下,精心设计问题收集相应数据,以达到检验假设真假或判断媒介运营成败的目的。因此,数据分析的方法基本上在数据收集之前已确定。现在,研究者事先并不知道在海量多维数据中隐含着哪些有用的信息,就像从矿石中淘金一样,需要应用各种算法探索和揭示隐藏的、未知的规律性,这无疑加大了数据挖掘的难度。

三、受众研究在处理“大数据”时的对策

1.利用抽样技术有效压缩受众测量数据量。抽样是一种选择数据对象子集进行分析的常用方法。在调查研究中,抽样常常用于缩小调查对象或不宜做普查的情形。传统受众研究正是建立在对受众进行抽样调查的基础上。在大数据时代的数据挖掘中,抽样也非常有用。与传统受众调查不同的是,大数据背景下数据挖掘的抽样对象不是受众,而是海量数据集。当直接处理所有海量数据的费用太高、太费时间时,只好退而求其次对庞大数据集合进行抽样。在合理选择抽样方案的基础上,使用抽样的算法可以有效压缩数据量。除了传统的抽样方法,面对大数据,研究者还可以采用渐进式抽样。这种抽样方法的优点是可以不用事先确定样本规模(事先往往不知道合适的样本规模),先从一个小样本开始,然后逐渐增加样本容量,当预测模型准确率的增加趋于稳定时,就可以停止增加样本容量。

2.利用维归约技术降低受众的数据维度。电子设备自动记录的受众数据集可能包含大量属性。数据预处理的一个重要方面就是减少维度,称为维归约。相比高维数据,经过维归约处理后的低维数据在后续分析中具有明显优势:第一,目前开发的数据挖掘算法通常对低维数据的计算结果更具实际意义;第二,基于低维数据建立的数据模型可视化效果更好,更易于非专业人士理解。

维归约技术常常通过创建新属性,将一些旧属性合并在一起来降低数集的维度。

3.充分利用受众研究的背景知识增加数据挖掘的预判性。传统受众研究方法较为成熟,研究者在计算机辅助下,可以完成调查设计、数据分析、结果诠释等一系列受众研究环节。但是,在大数据时代,面对复杂的海量数据,需要有不同专长的人员密切配合来完成数据挖掘任务。首先,由对传播理论感兴趣或有深厚媒介运营背景的专门人才,尽可能清晰地定义出数据挖掘的问题。尽管没有人能事先预测数据挖掘的最后结构,但是从概率论角度看,经过传媒专业人士界定数据挖掘的问题之后,在实践中挖掘出有价值信息的几率更高,而盲目地运用各种数据挖掘算法去处理数据,得到的数据结构往往没有很大现实意义。接着,由精通数据库技术和统计分析技术的数据分析人才,将受众研究目标转换成数据挖掘的具体任务,并为每步操作选择合适的技术。由此可见,在大数据预处理和数据挖掘算法尚存“门槛”之际,受众研究将是一个多学科专家交互协作的知识探索过程。

面对“大数据”热,受众研究有可能陷入过分拟合的数据“陷阱”之中,这并非危言耸听。这是因为大数据条件下,受众数据的记录项目并非在事先规划严密的框架下设定,从而导致海量数据中存在一些不相关的变量,如果这时完全遵循计算机对数据建立的模型,很可能该模型本身对于所有数据的拟合度非常好,但是这一模型的实际含义与现实不符合,这就要求研究者对计算机自动生成的数据模型保持谨慎态度。

[1]丹尼斯·麦奎尔著.刘燕南,李颖,杨振荣译.受众分析[M].北京:中国人民大学出版社,2006.

[2]谢邦昌等.从数据采集到数据挖掘[M].北京:中国统计出版社,2009.

[3]张余.裂变与交互——数字电视时代的受众研究[M].北京:中国传媒大学出版社,2011.

猜你喜欢

海量数据挖掘媒介
一种傅里叶域海量数据高速谱聚类方法
探讨人工智能与数据挖掘发展趋势
媒介论争,孰是孰非
海量快递垃圾正在“围城”——“绿色快递”势在必行
书,最优雅的媒介
基于并行计算的大数据挖掘在电网中的应用
欢迎订阅创新的媒介
一个图形所蕴含的“海量”巧题
一种基于Hadoop的大数据挖掘云服务及应用
反思媒介呈现中的弱势群体排斥现象