出版业有“大数据”吗?
2016-08-19张立
张立
出版业的内容数据虽具有数据真实性属性,但离海量的数据规模尚有差距,短期内也不大可能向快速的数据流转、多样的数据类型、价值密度低转型。
一、互联网上的讹传
一种在互联网上广泛流传的说法是:互联网上一天所产生的数据可以刻满1.68亿张 DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达 200万个(相当于《时代》杂志770年的文字量)。截止到2014年,数据量已经从TB级别跃升到PB、EB乃至ZB级别。
这一组对比数据似乎在告诉我们:传统出版业的数据量其实非常有限。那么传统出版业的数据量究竟有多大?是否够得上“大数据”?
2013年3月20日发表于“中国IDC圈”网站上的《印象:人类生产的印刷材料数据量达200PB》一文提到:“到2012年为止,人类生产的所有印刷材料的数据量是200PB……”另一篇提到“200PB”的文章是2015年4月21日发表于“36大数据”网站上的《报告:数据大爆炸,“互联网+”基础设施数据中心大发展(上)》。该文在提到200PB印刷数据时明确说明是摘自中信证券分析师的《云计算/IDC行业专题研究报告——数据大爆炸,数据中心大发展—“互联网+”基础设施之二》一文。
为此,笔者购买了中信证券的报告。中信证券的报告是这样表述的:“国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人每年产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。”
为进一步求证,笔者又查阅了英文网站上的相关文献。但文献中都未明确指出或含混暗示该数据与IDC有任何关系,“200PB”似乎是为了说明PB的数据量级而举的例子,作者举例时还特地使用了“estimated”(估算)一词,并不是严谨的科学统计。
与此同时,笔者又查阅了IDC历年公开发布的报告,也未发现有此说法。那么,出版业的数据量到底有多大呢?我们不妨粗略计算一下。
二、出版物的内容数据
1.计算标准
为方便计算,笔者分别以中国书籍出版社出版的图书、《出版发行研究》杂志社出版的期刊和《中国知识产权报》这份报纸为例,拟了一个每面大约排字量的近似标准如下:
图书:以目前较为流行的大32开、每面约800汉字计算,1印张汉字数约为:800汉字×32开=25600汉字 = 51200字节。
期刊:以目前较为流行的大16开、每面约1800汉字计算,1印张汉字数约为:1800汉字×16开=28800汉字 = 57600字节。
报纸:以对开4版、每版约6660汉字计算,1印张汉字数约为:6660汉字×4版 = 26640汉字 = 53280字节。
2.2014年当年出版物内容数据量
以《2014年全国新闻出版产业分析报告》中的印张数为依据,计算得出2014年我国书刊报内容数据量(含复本数)约为:图书1802.88万亿多汉字,期刊528.71万亿多汉字,报纸5121.01万亿多汉字;书刊报合计约为7452.6万亿多汉字,换算成字节约为14905.2万亿多字节,即约13.24 PB。
同时,2014年当年出版书刊报合计内容数据量(不含复本数)约为:图书987.45亿汉字,期刊336.35亿汉字,报纸439.40亿汉字;书刊报合计约为1763.2亿汉字,换算成字节约为3526.4亿字节,即约0.32 TB。
3.2005?2014年十年出版物内容数据量
2005?2014十年书报刊累计出版内容数据量(含复本数)约为:图书1.52亿亿汉字,期刊0.49亿亿汉字,报纸5.20亿亿汉字;十年合计约为:7.21亿亿汉字,换算成字节约为14.42亿亿字节,即约128.08 PB。
以2005?2014年十年《全国新闻出版产业分析报告》为依据,计算得出我国近十年书报刊累计内容数据量(不含复本数)约为:图书6899.17亿汉字,期刊2878.57亿汉字,报纸4700.30亿汉字;十年合计约为:14478.04亿汉字,换算成字节约为28956.08亿字节,即约2.63 TB。
以上计算说明,我国传统出版业中正式出版的书刊报,近十年的累计内容数据量整体也就在TB级别,就某个单一出版单位或出版物来说,其数据规模看起来真的不是很大。
三、出版物其他相关数据
1.出版物发行数据
2014年,全国新华书店系统、出版社自办发行单位出版物总销售199.05亿册(张、份、盒),总销售金额2415.5亿元,纯销售量69.86亿册(张、份、盒),销售额777.99亿元。
2014年全国出版物零售情况如下:
①图书零售量63.93亿册(张、份、盒),零售额684.5亿元;
②期刊零售量0.18亿册(张、份、盒),零售额10.07亿元;
③报纸零售量0.21亿册(张、份、盒),零售额2.15亿元;
……
2005?2014十年间,全国新华书店系统、出版社自办发行单位出版物数量及金额合计为:总销售1737.87亿册(张、份、盒),总销售金额17530亿元;纯销售量658.08亿册(张、份、盒),销售额6110.5亿元。
2005?2014十年间,出版物零售情况如下:
①图书零售量594.37亿册(张、份、盒),零售额5973亿元;
②期刊零售量14.79亿册(张、份、盒),零售额160.5亿元;
③报纸零售量7.21亿册(张、份、盒),零售额19.77亿元;
……
2005?2014十年间,出版物总购进量1765.39亿册(张、份、盒),总销售金额17989.8亿元;库存数量530.01亿册(张、份、盒),库存金额7263.02亿元;非出版物商品销售金额545.41亿元(不含在销售总额之内);发行网点合计1659298处;从业人员合计665.71万人。
2.印刷复制数据
2014年,印刷复制(包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销)总体实现营业收入11740.16亿元,利润总额814.66亿元;
全国出版物印刷企业(含专项印刷)9079家,工业销售产值1504.72亿元;图书、报纸、其他出版物黑白印刷产量31936.28万令;彩色印刷产量252658.6万对开色令;装订产量31965.32万令;印刷用纸量65406.06万令。
2005?2014十年间,印刷复制(包括出版物印刷、包装装潢印刷、专项印刷、打字复印、复制和印刷物资供销)总体实现营业收入55061.01亿元,利润总额3760.04亿元;
全国出版物印刷企业(含专项印刷)82531家,工业销售产值11302.26亿元;图书、报纸、其他出版物黑白印刷产量272667.73万令;彩色印刷产量1523209.22万对开色令;装订产量282529.76万令;印刷用纸量510573.37万令。
3.出版物进出口数据
2014年,全国累计出口图书、报纸、期刊1689.42万册(份),5649.66万美元;累计进口2538.85万册(份),28381.57万美元;累计出口音像制品、电子出版物与数字出版物9.58万盒(张),2214.41万美元;累计进口13.44万盒(张),21000.13万美元。
2005?2014年十年间,全国累计出口图书、报纸、期刊13076.3万册(份),48283.88万美元;累计进口26357.86万册(份),245117.66万美元;累计出口音像制品、电子出版物与数字出版物439.42万盒(张),9141.39万美元;累计进口243.96万盒(张),103662.3万美元。
4.版权管理与版权贸易数据
2014年,全国版权合同登记17376份;作品自愿登记997350份;全国共引进版权16695种,全国共引进图书、音像制品和电子出版物版权16321种;共输出版权10293种,共输出图书、音像制品和电子出版物版权8733种。
2005?2014十年间,全国版权合同登记152679份;作品自愿登记4914108份;全国共引进版权150835种,全国共引进图书、音像制品和电子出版物版权142854种;共输出版权56360种,共输出图书、音像制品和电子出版物版权47143种。
在出版物发行、印刷复制、进出口和版权交易等分领域的统计数据背后,出版业也存在与之对应的庞大的实时交易数据。除此之外,出版业还有大量的图书在版编目(CIP)数据,国家标准《图书在版编目数据》于1990年7月31日发布,要求自1991年3月1日起实施,经过几年的实施和准备,于1999年4月1日开始在全国强制性推广实施,截至目前共登记了340万条左右的数据。CIP数据包括著录数据(书名、著作责任者项、版本项、出版项、丛书项、附注项、标准书号项等)和检索数据(图书识别特征的检索点和内容主题的检索点)两个部分,这为图书的分类标引、著录、检索等提供了很大的方便。
四、什么是“大数据”
关于“大数据”有太多有识之士给它下过定义了,有些定义大同小异,有些则表达角度不同。本文采用麦肯锡的定义,即一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,它具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、价值密度低(Value)、数据真实性(Veracity)五大特征(5V)。本质上,它为我们观察世界提供了一种全新思维。
下面我们拿5V来说说吧!
1.什么叫Volume?
大数据的“大”是否可以理解为是名词,而非形容词,它代表一个数据级别,而非简单形容数据之多。也就是说只有到一定级别的数据才能称之为“大数据”,如PB、EB等?
另外,从上述统计看,出版业虽然每年都在生产一定量的数据,但这些数据是完全按印刷品上的内容量来统计的,首先它不是基于互联网上的实时交易数据,其次它也不是实时的用户行为数据,它与今天我们多数人认知的基于互联网上的大数据截然不同,出版业的内容数据更多是文本类数据,这类数据是否适合运用目前流行的大数据工具来处理,值得讨论。
2.什么叫Velocity?
它是指数据的实时快速生成、更新与累积,如互联网公司服务器上的实时生成的日志、社交网站上实时生成的用户信息、传感器数据和监视数据等。所以有人提出1秒定律,来形容其数据更新的快速性。也就是说它指的不是出版物上的静态数据,而是基于联机交互、实时更新的动态数据,大数据是活水,不断地会有新的数据注入进来。
3.什么叫Variety?
它是指数据类型非常多,包括结构化数据、非结构化数据、富媒体数据、不连贯语法语义数据等,以及这些数据的超大规模激增。而出版物内容数据类型相对简单、内容表现形式相对统一,迥异于互联网上繁杂的数据。
4.什么叫Value?
即价值密度的高低与数据总量大小成反比,数据量越大,有价值的数据越难荟萃,越需要通过强大的机器算法和工具软件来实现,因此有人认为价值“提纯”是大数据的特点之一。
换句话说,完全面对需求的严谨的、干净的结构化数据,还需要挖掘吗?挖掘的本意不就是沙里淘金吗?
5. 什么叫Veracity?
即数据的真实性。数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。获取真实可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取有意义的结果。
除了以上5V外,“大数据”还有一些特点,比如分布式,也就是说这么大规模的数据量,只能通过分布式存储、分布式读取、分布式利用来实现;复杂性,是说数据量巨大,数据来源多渠道,包括传统数据、交易事务型数据,而互联网和物联网的发展,则带来了微博、社交网络、传感器等多种数据来源。
下面,我们来看看出版业的数据特征:
如果按上述标准来看,出版业的内容数据虽具有Veracity属性,但离Volume尚有差距,按照目前的数据生成和利用模式看,短期内也不大可能向其他3个V转型。这是因为,出版业是精英生产内容的模式,与互联网上的草根生产内容或用户生产内容模式不同。精英生产内容有以下特点:
(1)严格的内容评价与筛选机制,如“三审制”等,非经过“三审”的稿件是无法得以出版的,而互联网上则通常都是通过敏感词过滤软件来实现内容的筛选,显然在内容质量上不是一个量级。
(2)正是这种精英式的内容生产机制,使内容产出物是按一定标准制定出来的,即其数据结构完整统一,内容表达符合语法规范,基本不存在异构和混乱的数据。
(3)也正是这种严格的内容审查与编辑机制,使传统出版物具有较高的价值含量,具有较集中的知识属性,这与互联网上的口水性内容不可同日而语。
(4)同时,传统出版的内容生产流程复杂、周期过长,属于非实时性数据,所以不具有高速生成性,高速更新的特点。
(5)传统出版在内容形成产品发布之前,基本也不是分布式存储、读取和利用的过程。
(6)传统出版物的数据是内容数据,而非实时交易数据或用户行为数据。什么叫用户行为数据?它是指对用户访问网站的有关数据进行统计、分析,从中发现用户访问网站的规律,包括:用户来源地区、来路域名和页面;在网站停留时间、跳出率、回访次数;使用搜索引擎、关键词、关联关键词和站内关键字;在不同时段的访问量情况等。
相比较而言,传统出版中的报刊,除自办发行的报刊外,绝大多数发行量大的报刊都是通过邮局订阅发行的,通过邮局订阅的用户,其信息内容过于简单,而且即使如此简单的用户数据,报刊社也不掌握,更谈不上进行用户行为分析了。另外,即使是报刊社自办发行的用户数据,由于其用户数量相对有限,所有信息都是非常明确、非实时产生的,因此是否需要用“大数据”工具进行挖掘分析值得研究。
图书则主要是通过新华书店和二渠道书商发行,其终端用户的行为数据也无法掌握。
当然,如果出版单位想要进行选题策划,以“大数据”的方式分析市场需求和潜在用户,那到不妨用“大数据”工具试试;或者出版单位转型互联网平台,真正产生规模庞大的用户行为数据,“大数据”工具也可能是一种不错的选择。
五、“大数据”软件有哪些典型应用
目前,大数据软件最擅长处理的是以下类型的数据,这些数据多产生于互联网:
1. 用户行为数据。用户进入网站后的所有操作,都会被网站记录下来,会分析用户是从哪些入口(如搜索引擎、微信等)进入该网站的哪个网页?他们在各个网页的行为路径,最后在哪个网页离开去了哪里等,最终实现产品优化,提高用户转化率。
2.用户消费数据。电子商务网站一般会将用户的交易信息,包括购买时间、购买商品、购买量、支付金额等信息保存在数据库中,所以对于这些用户,可以基于网站的运营数据对他们的交易行为进行分析,以估计每位用户的价值,并针对每位用户进行精准营销。
3.用户地理位置数据。如手机用户在实用短信业务、通话业务、正常位置更新、周期位置更新和切入呼叫、应用App时均会产生定位数据。
4.互联网金融数据。当用户需要小额短期资金周转,不必去银行或小贷公司申请了,只需靠自己常年累月积攒的信用,凭借第三方征信公司提供的信用分,就可以在金融平台上贷款了。
5.用户社交等UGC数据。企业可以通过对这些数据的处理,进行趋势、流行元素、受欢迎程度、舆论监控、生活行为、社会问题等分析,从中挖掘出政治、社会、文化、商业、健康等有用信息。
从上述类型的数据看,多不属于内容数据,而内容数据的分析涉及到的是自然语言处理、文本挖掘、自动标注、知识图谱、词频分析等。由于大数据软件目前尚无统一界定,自然语言处理技术算不算大数据软件也不好说,但从功能上看,至少可以分为擅长数据分析的软件和擅长内容挖掘的软件。擅长数据分析的软件多用于金融服务、天气预报监测等领域。擅长内容挖掘的软件多用于智能机器人问答、语音识别等领域。目前,我们的出版业除出版单位自建或合建的基于互联网或移动互联网的业务平台所产生的数据外,更多的是传统出版物的内容数据,这些内容数据基本不适用于流行的数据分析类软件处理,而擅长内容挖掘的软件在出版物内容的智能化处理,特别是知识检索和知识服务方面,更多还处于探索阶段,尚未形成普遍成熟的应用。
同时,即使是内容数据,也还可以再细分为出版物内容数据和基于互联网的实时原创内容数据。近年来大获成功的基于个性化推荐的新闻资讯类内容数据便是基于互联网实时原创的内容数据。
六、明确需求,量体裁衣
举个例子吧。一个只有10名员工的公司,要统计每个人中午吃什么,直接向每个人问一下,脑子就记住了;一个有100名员工的公司,要统计每个人中午吃什么,可能就得借助纸和笔这样的工具了;一个有1000名员工的公司,要统计每个人中午吃什么,说不定得拿EXCEL表汇总一下了;假如要想实时了解互联网上的用户中午用餐行为,EXCEL表恐怕也未必管用了。此时,“大数据”粉墨登场。
再举一例子。如果求一个正方形面积,长乘宽就够了,何必非要使用微积分呢?是说我们进入了一个“极限时代”吗?极限思想肯定是人类认识史上的巨大飞跃,其伟大之处是面对复杂问题有了特殊的解法。但如果问题简单到像求正方形面积一样,使用微积分就未必合适了。
上述两个例子是想说明,“大数据”既意味着一种数据的量级,也意味着数据的复杂程度,这正是“大数据”的两大主要特点。
大数据平台的建设本身不是目的,其目的是要建立数字化时代新的商业运营模式,通过直接或间接的方法为企业创造利润,同时增加企业的影响力和话语权。大数据平台的使用,一定要与实际需求挂钩。离开了实际需求,空谈大数据没有意义。就像一定要让线装书局转型去出版电子书一样,有点儿“为转型而转型”的意味了。同时,如果不考虑大数据的特点,一味从概念出发强行上马,最后很可能就是一场筷子夹汤的愿望,永远也走不到真正的应用。