国民阅读统计转型及大数据融合的方法逻辑*
——基于阅读焦虑下数据错觉思考
2016-02-12刘军华
刘军华
(西安财经学院统计学院 西安 710100)
·专题研究·
国民阅读统计转型及大数据融合的方法逻辑*
——基于阅读焦虑下数据错觉思考
刘军华
(西安财经学院统计学院 西安 710100)
文章认为外部信息诱因、内部统计缺陷、调查主体差异及核心数据缺失是构成认知错觉引发阅读焦虑的主要因素,在大数据上升到国家战略情势下,实现阅读统计转型与大数据融合是消除阅读焦虑、化解数据错觉的科学途径,基于理论前提、业务方向、逻辑内涵、转型路径研究,提出深度阅读大数据概念与方法逻辑,认为在技术复杂性与信息敏感性需求下的相关理论、技术、体制与人才研究不仅是图书馆学方向之一,也是国家阅读管理需要关注的重要课题。
阅读统计 转型 大数据 方法逻辑
1 阅读焦虑
每年“4·23”(世界读书日)总有许多阅读数据见诸网络与媒体,基于数据新闻分析、个体感觉和数值理解成为社会认知阅读的主要信息来源,纵观2010-2014年我国阅读统计数据,不论是国民图书阅读率还是媒介综合阅读率以及数字化阅读方式接触率等,主要指标数值时有波动,总体依然呈上升趋势[1]。这些数据虽然勾勒出国民阅读持续增长的感性图谱,但是从2014年阅读评价调查来看,认为数量较多的为10.20%,数量较少的则占44.10%[2],而对阅读现状满意的仅25.80%[3]。调查结果显示数据缓慢增长距离公众阅读期望尚存一定差距,而数量少和总体满意度低却已成公众阅读认知潜意识,也正是这潜意识不仅触发了国人对阅读现状和未来的焦虑,也让反思“不读书”成为“世界读书日”另类主题[4]。需要注意的是2014年我国人均纸质图书阅读量为4.56本,较上年下跌0.21本[5],这一国民阅读统计主流指标在趋势拐点位置的敏感波动也成为加剧阅读焦虑的数据痛点。
2 阅读焦虑与数据错觉下的统计思考
2.1 数据错觉
虽然抽象的数据概括和遮蔽了阅读形态多样性与内涵复杂性,但阅读焦虑不仅反映了数据叠加后混合传播中信息化消解与误区以及由此造成的数据错觉,也折射出数据自身的局限与问题[6]。显然对于阅读数据“低水平”认知与其科学性思考和能否反映现状或者阅读是否合理计量以及被现有数据低估的各种质疑[7]成为数据错觉的主要内涵,而剖析其现有来源与传播过程中的信息诱因以及数据机理层面的方法缺陷则成为国民阅读统计转型研究的切入点。
2.2 数据错觉来源解析
2.2.1 外部信息诱因
数据错觉主要表征为阅读数据增长与社会感觉的背离,而阅读数据不当应用造成的此类问题较为突出。首先是媒体视角,主要表现阅读数据横向国际比较多以美、欧西方发达国家为参照,且习惯于仰视思维,缺乏客观全面分析;纵向国内比较一般只与上年度对比,缺少必要的连续数据引导,造成数据敏感度与趋势特征缺失。其次报道境外数据引用不实与忽略国情基础则助涨国民阅读道德性数据期望攀升,由此引发数据认知落差扩大。因此数据不当应用和国情现状的客观存在与传播视角偏差以及数据自身不严谨等成为传播层面诱发数据错觉的主要外部信息诱因[8]。
2.2.2 内部统计缺陷
在目前数据来源仍以统计调查为主的前提下,从机理层面分析数据低水平产生的首要因素在于计量缺陷,或者说计量不足。现有阅读统计主要以时间和书本为计量载体,在统计上基于纸质阅读的正统性[9]调查以存量即传统阅读为计量主体,对增量部分即数字化阅读不论范围还是程度均涉及不深。而传统阅读正处于从主流走向常态的转折关口,显然阅读统计范畴局限已成为计量层面数据低水平的主要基础性因素。其次是指标与方法问题。现有数据来源指标包括:人均每天互联网接触时间、国民综合阅读率、人均纸质图书年阅读量、国民人均阅读电子书、人均藏书量、人均购书量、人均读书时间等,从名称可以看出这些多属于宏观统计平均范畴。在数据获取主要依靠抽样调查的现状下,由于受地域属性、人口特征、空间性质以及样本选择的数量差异和方法制约,所采集到的数据信息有限。而维度分散、指标雷同等技术缺陷不仅造成国内阅读数据现状的繁杂与混乱,也让数据总体上缺乏统计学层面的系统性和阅读趋势特征的针对性,显然指标简单、实践滞后以及方法所限等成为阅读数据错觉形成的主要内部统计缺陷。
2.2.3 调查主体差异与核心数据缺失
现有的全国性阅读统计包括中国新闻出版研究院连续十二次的《国民阅读调查报告》和央视新闻频道与人民日报联合百度、新浪、京东、亚马逊、零点研究咨询等发布的所谓“国民阅读大数据”。区域性方面具有代表性的有国家统计局成都调查队进行的“2014年成都市国际通识阅读指数调查”[10]以及上海市新闻出版局《上海市民阅读状况调查报告(2015)》等。从这些可以看到阅读调查主体组成正在从少数产业研究、行业管理向媒体和企业甚至政府统计部门演变,虽然这标志着阅读统计的多元化、网络化、专业化推进,但是阅读统计中调查主体对数据影响亦不可忽视,不同数据来源由于统计视角、方法与技术差异以及行业背景不同,相应的统计结果与信息解读形成了对阅读现状的不同认知和判断。这种差异在提升数据对比性同时也让噪声增加造成某种程度数据认知度降低,而与国民阅读密切相关的图书馆行业和教育部门系统性阅读统计数据缺失则成为关键缺陷,因此调查主体差异与核心数据缺失成为数据错觉构造中不可忽视的现实因素。
外部信息诱因、内部统计缺陷、调查主体差异与核心数据缺失三方面是构成国民阅读数据错觉的主要因素,而大数据背景下消除阅读焦虑、化解数据错觉的根本途径在于国民阅读统计转型与数据方法创新。
3 阅读统计转型的理论前提、业务方向与逻辑内涵
3.1 阅读统计转型理论前提
数据化演变正在重构阅读的社会技术形态与信息内涵,现有数据逻辑是基于传统阅读范畴与统计方法对阅读形态进行简单性宏观评估。虽然目前国民阅读在信息层面数量增加是确定的,问题在于其是否符合阅读相关定义要素,而这关系到阅读测量数据边界的确定,从现有阅读理论思考,其中很大部分尚不能归入阅读统计范畴。而美国已将“听书”等新生阅读类型纳入统计体系,如果我国阅读测量中将数字化阅读(主要包括网络、微博、微信、有声阅读)等全面纳入的话,国人的阅读数据也不会这么低[11]。因此测量对象主体从传统静态物理性阅读向网络动态数字化阅读扩展成为转型起点,而这不仅关系到阅读统计指标体系与方法的重构,也必然涉及阅读内涵界定以及信息空间融通与聚变下阅读如何定义。因此阅读理论创新由此产生的计量主体重构、指标性质改变与数据方法工具选择成为阅读统计转型的理论前提[12]。
3.2 阅读统计转型业务方向
面对数据洪流,目前主要依靠统计抽样的国民阅读统计不论方法还是数据技术能力都显滞后,虽然目前大数据正处于探索过程与趋势层面,但阅读统计亦处在变革的十字路口,数据化正冲击着其现有的业务模式和调查体系,受此影响阅读统计正在发生着深刻的渐进性改变[13],如2014年国民阅读调查中的有效样本量为49802,比往年增加一倍[14],而自2013年开始的包括央视和人民日报以及百度、腾讯、当当网、亚马逊等新闻媒体与互联网企业发布的所谓阅读大数据也是在抽样基础上对线上与线下数据整合处理,二者却都以增大统计样本量为共同点,而从 “大样本”到“大数据”的转变不仅意味着国民阅读数据处理从样本调查向总体测量的迁移与统计方法的演变,也标志着阅读统计转型的业务方向。
3.3 阅读统计转型逻辑内涵
阅读统计在于通过数据解决“读多少、怎么读、读什么”问题,不论是国民阅读调查报告还是网络媒体所谓阅读大数据,都是基于图书销售或者出版产业相关数据来确定阅读的基本数量,通过阅读载体的间接数据回答“读多少”问题。虽然现有数据基本完成了“读多少”的统计目标,少部分兼顾到“怎么读”以及简单“读什么”,但是关于“读什么”的信息内涵有限,其最多也就测量到中图法基本大类如文学、经济等,这些数据由于资源结构限制与管理水平差异,尚不能全面揭示阅读内容的信息特征。由此看到现有国民阅读统计逻辑在于间接测量载体数据以此推断阅读数量,但并未系统涉及阅读内容的信息属性。而目前阅读数据“低水平”包括两方面:一是阅读数量低水平,二是阅读质量低水平[15]。因此化解数据错觉的关键在于实现统计内涵的转变,而对现有阅读测量维度的大数据拓展成为统计转型的潜在逻辑,其主要包括:首先实现阅读统计对象从存量传统物理性阅读为主向增量数字化阅读覆盖,统计维度从数量向质量延伸,数据内涵从“读多少”载体数量向“读什么”内容与质量信息属性数据转换;其次是数据视角与统计性质的转变,即国民阅读数据视角从宏观向微观、统计性质从定点低频结果性测量向动态随机过程性测量转变;其三阅读数据采集从传统有限人工抽样向数据化生态下阅读平台大数据收割转变,以上几方面构成阅读统计转型逻辑内涵。
4 阅读统计转型路径与大数据方法逻辑
4.1 阅读统计转型路径
在数据层面现有以时间和图书为计量载体的阅读数据其意义类似于人均GDP,仅在宏观上具备一定基本价值,而基于商业营销的大数据虽然对阅读现状判断具有一定参照功能,但对于国家阅读管理总体价值有限。严格而言,现有所谓阅读大数据基本上还属于统计范畴,主要以图书销售、阅读时间等结构化数据为主,其业务形态也仅限于对统计测量过程数据化扩展或者数据结果可视化,总体上依然是传统统计的延续。
数据化趋势下阅读在技术、载体与内容的聚合演变中,阅读形态正在向系统化、半公开易测量社会行为转变,相对于超越现有技术能力的大量信息过程数据,阅读统计目前正处于大数据演变的初级阶段[16],而数据化进程加速与阅读生态雏形展现则成为阅读统计转型的主要动力,实现国民阅读统计与大数据融合,基于阅读全过程的数据采集并进行大数据处理与分析,成为阅读统计转型的主要路径。
国民阅读统计转型及大数据融合目标在于实现对阅读全过程信息数据的获取与处理,相对有媒体中于已存在的所谓阅读大数据,把后者称之为深度阅读大数据,其内涵分布正在从间接的单维结构化载体点数据向生态化多维非结构化阅读线数据扩散。而基于传统统计体系下的结构化数据与互联网生态中不同信息化平台的非结构化数据整合研究是深度阅读大数据实践推进的重要内容。
4.2 深度阅读大数据来源类型与方法逻辑
数据化生态下深度阅读大数据内涵主要包括阅读的内容数据、评价数据、互动数据以及在此基础上的需求数据。其数据分布则是从创作到阅读、从出版到销售、从社交到评价、从作者到读者、从个体到群体等过程数据的系统性存在,在确定条件下产生的一系列结构化与非结构化数据成为深度阅读大数据重要来源与主要类型。而数据的采集对象也已超越独立阅读个体,是一组特征群体数据主要包含时间序列、空间区域、特定人群如未成年人、大学生、农民工等条件要素,只有这样研究具有典型特征的系统连续线性数据,才能发掘出阅读演变数据化本质与潜在趋势[17],而这些只有少数互联网巨头或专业阅读平台掌握。但拥有数据并不意味着完成了测量,对数据如何处理则成为核心问题。在深度阅读大数据处理方面,目前除了BAT(百度、腾讯、阿里巴巴)等有能力做之外,其它没有能力或者没有意愿去做,尚未形成明显的方向性业务趋势。而深度阅读大数据处理方法逻辑包括两点,其一是对大数据的筛选与标准化,转化成目前传统数据分析技术处理,让大数据转化成一个统计学问题。而另外一种就是黑箱式大数据分析,不预设指标和问题直接对数据进行处理。它是自下而上的数据处理范式,以数据为先导无需预设目标或方法,直接从中找到数据之间的关系从而获取新的认知与判断。这不仅改变了从理论或经验出发,先设计指标,然后搜集数据进行实证分析的业务逻辑,而且颠覆了阅读统计自上而下的固有实证范式[13],成为一种全新的数据方法逻辑。
5 结语
大数据正处于从概念、理论向实践的科学演变进程中,国民阅读数据来源中的统计测量与技术时尚中的大数据是目前并行的两个实践维度,从传统统计转型到技术趋势再到完全融合为主流业务模式尚存一段距离,而由此造成的数据缺陷与认知错觉成为阅读焦虑的主要因素。虽然对于目前社会层面数据错觉以及由此引发的阅读焦虑不必过于纠结,但是对现有阅读数据来源与统计过程缺陷却不可忽视,消除阅读焦虑的科学路径在于推动阅读统计转型及大数据融合并促其进一步深入发展,而这也是数据科学方法论与技术工具以及阅读理论协同演变的渐进过程,在大数据上升到国家战略的情势下,基于技术复杂性与信息敏感性阅读统计与大数据融合则需要相关理论、技术、体制与人才等方面支持,而这不仅是图书馆学研究方向之一,也是国家阅读管理需要关注的课题。
(来稿时间:2016年2月)
1.国家新闻出版广电总局.2014 年新闻出版产业分析报告(摘要)[J].中国出版,2015(8):8
2.第十二次全国国民阅读调查报告:读书的人更多了[EB/ OL].(2015-04-21)[2015-12-19].http://sh.wenming.cn/TT/2015 04/t20150421_2569790.htm
3.做书.第12次全国国民阅读调查报告解读[EB/OL].[2015-12-19].http://book.ifeng.com/a/20150504/ 14604_0.shtml
4.刘娇.世界读书日到来 静心读书已成难事?[EB/ OL].[2015-12-19].http://sn.xinhuanet.com/news1/2015-04/23/ c_1115058426.htm
5.2015年第十二次全国国民阅读调查报告.[EB/OL].[2015-12-19].http://www.cnrencai.com/diaochabaogao/190936.html
6.宓永迪.大陆、台湾和美国阅读行为比较、解读与思考[J].图书馆, 2014(6):84
7.徐雁.阅读大变革,不是危机而是机遇[N].中华读书报,2011-12-28
8.刘婷.全国国民阅读调查报告发布 数字阅读首超纸书阅读[N].北京晨报, 2015-04-21
9.馨远.高校图书馆阅读推广冷观[N].新华书目报,2015-11-27
10.江水.29.54%的成都市民不知道图书馆在何处[N].新华书目报,2015-04-17
11.施晨露.怎样看待国民阅读“大数据”[N].解放日报,2015-04-24
12.向坤.寻找科技和人文的最佳结合点[EB/OL].[2015-12-19].http://xiangkun.baijia.baidu.com/article/38228.2014.12.1
13.许小乐.“大数据”与政府统计改革[J].调研世界,2013(5):42-43
14.刘彬.第十二次全国国民阅读调查结果公布[N].光明日报,2015-04-21
15.梁玲.国民阅读困境的深层之因:读图时代辨析[J].探索与争鸣,2015(2):39-41
16.Alexandra Alter.当心,电子书也在“读”你.华尔街日报[EB/OL].[2015-12-19].http://cn.wsj.com/gb/2012 0717/lif074354.asp?source=mostpopular
17.大数据所能做到的三大错误假设[EB/OL].[2015-12-19].http://wenku.baidu.com/view/0ab71d8ef8c75 fbfc67db20e.html
Method Logic of National Reading Statistics Transformation and Big Data Fusion——Based on the Reflection on Data Illusion under Reading Anxiety
Liu Junhua
( School of Statistics, Xi’an University of Finance and Economics)
This paper discusses that external information incentive, internal statistical defects, the variation of investigation subjects, and the lack of core data are the main factors constituting cognitive illusion and causing reading anxiety.In the current situation of big data rising up to the national strategy, realizing the transformation of reading statistics and big data fusion are believed to be the approach to eliminating the anxiety and resolving the illusion.Based on the study of the theory premise, the business direction,logical meaning and the path of transformation, the paper puts forward the concept of in-depth reading large data as well as its method logic.It also holds that further research of related theory, technology, system and talent due to the technical complexity and information sensitivity be not only one of the directions of library science, but also a principal concern of national reading management.
National reading statistics Transformation Big data Method logic
G251.4;TP391
格式〕 刘军华.国民阅读统计转型及大数据融合的方法逻辑——基于阅读焦虑下数据错觉思考[J].图书馆,2016(9):83-86
刘军华(1970-),男,硕士,西安财经学院统计学院副研究馆员,发表论文10余篇,研究方向:数据化理论与信息技术管理。
* 本文系全国统计科学研究计划项目“大数据趋势下政府统计转型研究”(项目编号:2014LY0038)成果。