传统出版业数据与互联网大数据比较分析

2018-07-10文/介晶

传媒 2018年12期

文/介晶

“大数据”正由技术热词变成一股社会浪潮，影响社会生活的方方面面。在以移动互联网技术为代表的信息技术的快速发展和国务院部署与推动下，我国各行各业都在谋划自己的大数据中心和大数据产业，那么出版业到底有没有大数据？又拥有哪些数据？这些数据与互联网大数据有哪些差别呢？这些差异在未来是否可以得到转化？我们从以下几方面来进行比较分析。

图1　传统出版业数据与互联网大数据的对比

数据规模方面

1．传统出版业数据规模

表1　我国传统出版业数据规模

传统出版业数据与互联网大数据有着很大差别。产生这些差别的主要原因是传统出版单位与产业链下游用户距离远、联系疏。随着出版单位在自己网络平台上业务的不断拓展、业务规模不断扩大，用户能够更多地利用互联网来获取服务，势必会生成相应数据，当数据复杂性和规模达到一定程度的时候，大数据将是帮助出版单位提高服务效率、优化产品效果的一条捷径。

2．互联网大数据规模

表2　互联网大数据规模

3．数据规模比较

首先，传统出版业以内容资源数据为主，互联网大数据以行为数据为主，从数据类型和数据内涵来说是完全不同的，不具可比性。其次，两者数据价值密度的差异也导致它们的数据规模无法进行简单比较。传统出版业的内容资源数据是经过严格的审核程序而产生的，其数据价值较高，具有较为集中的知识属性；而互联网大数据具有全数据收集的特点，所得数据通常是没有经过严格筛选的，这导致其数据量虽然大但价值密度却较低。而数据的价值、内容的思想目前来说是无法进行衡量的。“信息熵”只是一个比较近似的概念，它衡量的是信息价值的高低，然而对于不同的信息接收者而言，信息的价值含量亦是不同的，并不能作为客观衡量内容价值的尺子。

如果一定要比较数据规模的话，只能借助信息量度量单位比特（bit）这把尺子。从2007至2016年全国书刊报累计出版数据量来看，十年间正式出版的内容数据量超过100PB，如果加上非正式出版的印刷品数据量，可能超过200PB。IDC发布的《中国互联网市场洞见：互联网大数据技术创新研究2012》曾显示“截至2011年底，中国互联网行业持有的数据总量已达1.9EB”。很明显，2011年我国互联网数据量就已远远超过传统出版业十年累积数据量。同时，IDC在2016年曾预计，未来全球数据总量增长率将维持在50%左右，到2020年全球数据总量将超过40ZB，其中我国数据量将达到8.6ZB，占全球21%。所以，就数据规模而言，传统出版业虽已积累了大量的内容数据，但离大数据的海量还有一定差距。

数据类型方面

1．传统出版业数据类型

表3　传统出版业现有数据类型

2．互联网大数据类型

表4　互联网大数据类型

3．数据类型比较

传统出版业数据主要来源于出版单位自身产生的数据，包括内容数据、销售数据、财务数据、运营数据等，其数据类型相对完整、单一；而互联网大数据来源则是多样的，包括传感器数据、地理位置数据、消费数据、社交数据等。这使得互联网大数据存在大量异构、混乱的数据，必须通过数据转换和数据清洗才能进行下一步的数据分析与利用。

数据利用方面

1．传统出版业数据利用

表5　传统出版业数据利用

2．互联网大数据利用

表6　互联网大数据利用

3．数据用途比较

目前，传统出版业的数据多用在宏观统计、趋势分析、选题策划和营销发行等方面；而互联网大数据则更多地用在了具体产品的优化迭代，以及对未来趋势进行预测和判断等方面。

数据其他方面

1．数据真实性比较

IBM最早提出大数据具有真实的特征，其理由是互联网上留下的都是人类行为的真实电子踪迹，能真实反映或折射人们行为乃至思想和心态。基于这些用户数据，通过大数据模型的挖掘和匹配，可分析消费者的真实需求，进行针对性的进行产品设计、迭代和运营。传统出版业的内容生产模式是精英式的，所有正式出版的内容都严格经过“三审制”筛选。出版业的数据“真实性”主要是指内容与知识的精准性与可靠性。如此看来，两者所说的“真实性”并不完全是一回事。

2．数据时效性比较

传统出版业内容资源数据是经过严格的审核流程产生的静态数据，由于内容生产周期较长，故数据时效性较差；而互联网大数据则是基于联机交互、实时更新的动态数据，其时效性较强。大数据就像是活水，时刻都有流动的新数据注入。

3．数据产生方式比较

传统出版业内容生产流程较为复杂，需经过选题策划、组稿、审稿、加工整理、装帧设计、发稿等一系列出版环节，具有严格内容审查和编辑机制。故其内容资源数据是经过编辑等出版专业技术人员根据出版规范人工干预把关所得，这种传统出版的生产模式属于精英式生产。而互联网大数据均为自动产生的数据，这些数据的收集和获取是不需要人为干预的。

4．用户信息掌握程度比较

传统出版业长期以来是不知道哪些读者购买了出版物，不知道读者的真正需求所在。无论是传统出版业中的报刊业，还是图书业，对用户信息都不能及时收集和分析，不能掌握读者的真实需求。即便是通过第三方电商平台来销售出版物，出版单位也仅能得到电商平台提供的销售量数据，而无法获得读者具体行为数据，从而无法掌握读者喜好、职业、性别和年龄等信息，这将使出版单位无法对读者进行群体细分，也就无法做到针对性内容策划和精准营销，造成同质化选题大量出现，浪费出版资源。而大数据则不同，大数据应用特点之一便是可全面记录用户行为数据，并能给出用户画像，可对用户进行群体细分，从而可以进行精准内容推荐和产品优化等。

从上面几方面可看出，传统出版业数据与互联网大数据有着很大差别。产生这些差别的主要原因是传统出版单位与产业链下游用户距离远、联系疏。随着出版单位在自己网络平台上业务的不断拓展、业务规模不断扩大，用户能够更多地利用互联网来获取服务，势必会生成相应数据，当数据复杂性和规模达到一定程度的时候，大数据将是帮助出版单位提高服务效率、优化产品效果的一条捷径。