大数据与数字阅读未来
2017-01-26白燕燕董二林
□文│白燕燕 董二林
(作者单位:渤海大学文学院)
大数据环境下的数字阅读体现了一种基于数据思维和数据逻辑的思维方式,在这种思维方式的帮助下人们开始重新认识阅读的逻辑规律。在传统纸媒阅读时代,阅读的逻辑规律是图书出版发行机构规划选题、出版印发,读者再从已发售的图书中选择自己想要阅读的内容。而大数据环境下的数字阅读蕴含着对阅读规律的重新界定,数字阅读的出版发行规律与传统纸媒时代的发行规律正好是逆向的,数字阅读出版发行机构可以根据读者的阅读需求来确定发行阅读资源,这种按需分配的发行策略,能够有效地杜绝资源浪费。
一、大数据给数字阅读带来变化
大数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍然不断给予。它的真实价值就像漂浮在海洋上的冰山,第一眼看到的是冰山的一角,而绝大部分都隐藏在表面之下。[1]大数据对数字阅读产生的影响可以从以下几个方面进行解读。但我们有理由相信在不久的将来会有更多更有价值的作用被挖掘出来。
1.从“人找信息”到“信息找人”的转变
在大数据思维的搅动下,人们渐渐开始转变数字阅读领域的思维观念。数字阅读并不等于阅读的数字化,它将是一场深刻的阅读革命。大数据环境下的数字阅读转变了我们的阅读理念,在传统的纸媒时代,阅读处于一种“人找信息”的状态。传统的书店、图书馆都具有典型的“人找信息”特质,人们在海量的图书中翻阅自己感兴趣的阅读资源,在广泛涉猎的同时也耗费了大量的时间与精力。在互联网高速发展的今天,人们依然热衷于用各种搜索引擎在海量的网络信息中检索自己想要的资源。当然,网络时代这种近乎精准的检索相比纸媒时代浏览式的查找已经具有了相当大的进步。
数字时代的到来促使人们每天都在产生数据,只要你使用任何可以与互联网连接的电子设备就会留下数据,用户的每一次点击、转发、收藏、评论、上拉、下滑的网络活动都会生成数据。这些数据记录了个人喜好、阅读倾向、行为特点等非常个人化的行为数据,通过对这些数据的整合分析就能够对用户进行综合的评价,分析系统可以根据以往的阅读情况推送用户感兴趣的相关阅读资源。大数据环境下数字阅读已经实现了从“人找信息”到“信息找人”的逆转。
2.从抽样到总量,从全方位到个性化
在传统纸媒阅读时代,出版社想要了解读者的个人信息和阅读情况往往只能采用抽样调查的方式进行市场调查分析,这种通过用小数据取样调查分析的结果来判断整体的方法往往受到相当多的客观因素的制约,结果的准确性和精确度存在很大的争议和误差。而大数据环境下的数字阅读所获得的反馈数据都是由每一位读者产生的,这些数据不但客观、准确,而且非常全面,所采集的数据就是所有读者阅读产生的数据,这种从抽样到总量的变化实现了样本等于总量的突破。
样本等于总量的优势是显而易见的,计算机系统通过统计学、人工智能等方法,不但可以深入了解每个读者的个性化信息,还能够全面而丰富地监测数字阅读的总体趋势和发展方向。大数据环境实现了数字阅读从全方位到个性化的发展。
3.大数据推动了数字阅读产业的发展与变革
受大数据思维的影响,数字阅读出版企业也在积极寻求内部变革,一些数字出版企业已经开始转变思想,积极探索新的商业模式。目前备受行业内广泛关注的四种商业模式——自助出版模式、电子书借阅模式、单篇作品售卖模式和众筹出版模式——就凸显了作者与读者的地位。同时,在数字阅读内容资源的研发与推广过程中也在积极探索垂直整合、细分内容和细分受众等新型模式。大数据背景下的数字出版企业在注重内容质量的同时,也充分认识到细分内容和细分受众的重要性。细分内容有利于对内容的归类整理,细分受众有利于对受众进行个性化服务。
我国数字阅读资源总量巨大,但是用户面对海量的数字阅读资源如何选择成了一个难度很大的问题,许多优秀的数字阅读资源未能得到有效地传播。利用大数据的高效分析计算能够有效的对用户数据进行分析,在细分受众的基础上有针对性地筛选数字阅读资源,为用户提供需要的内容和服务。亚马逊通过利用大数据成功实现优化销售的案例值得借鉴。亚马逊通过对网络销售记录的分析,将与读者购买相似性的作品推荐给读者,同时以电子邮件的形式进行辅助推销,并收集读者的邮件浏览量和点击率等指标。在大数据的帮助下,亚马逊的网络图书销量有了大幅提升。
二、数字阅读的发展趋势
大数据对数字阅读的影响才刚刚开始,但已经引起了数字阅读领域的深刻变革。随着数字阅读产业的发展,数据量的积聚必将推动数字阅读产业的快速发展和进一步的深刻变革。受到大数据在全领域范围内的启示,目前我们可以大胆预测,大数据环境下数字阅读将有如下几个发展趋势。
1.大数据将推动数字阅读更快速地发展
随着数字阅读与数字出版的不断普及与发展,数字阅读领域所积累的数据量会不断增多,这些数据既包括了数字出版资源中作者、文章、书籍等基本的结构化信息,又包含了出版内容、版式和元数据等半结构化信息,当然也会包含图像、视音频等非结构化信息;同时更会产生大量的读者信息,其中既包括读者通过搜索、浏览、点击、阅读、翻阅等过程留下的行为信息,又包括由机器生成的浏览量、浏览时间、页面停留时间等设备反馈信息。通过对这些海量信息的统计分析能够实现对数字阅读的全过程的量化管理。
在不久的将来,大数据的信息汇聚和分析管理将贯穿于数字阅读领域的全流程。数字出版发行机构完全可以通过大数据反馈信息确定需要发行什么内容,甚至计算机系统可以根据大数据统计结果,在自己的海量存储系统中自动生成数字阅读资源。当然,根据目前的算法和结构,我们还无法保证所生成内容的科学性、合理性与可读性,但是,我们有理由相信在大数据的驱动下人工智能技术会得到不断的完善和长足的发展。大数据会为数字阅读领域的发展带来更多的支持与惊喜。
2.基于大数据的知识图谱将得到不断完善
在大数据环境下各种数字阅读资源增长迅速,知识的生产和更新速度更是呈指数形式增长。而数字阅读资源面向的服务对象是广泛的,不同类型的用户有不同的需求,如何让用户在互联网中获得所需的知识体系,而不是一个知识点和相关知识点的堆砌,是当下困扰数字阅读发展的一个关键问题。随着大数据环境的快速发展、技术的不断成熟、算法的不断改进,未来基于大数据的知识图谱将得到不断完善。知识图谱是基于大数据环境的一个典型应用,通过一系列的不同图形以可视化方式描述资源,能够显示知识发展进程与结构关系。2012 年谷歌推出知识图谱,根据用户的搜索关键词返回多种媒体样式,多种知识点形成的知识关联结果,用户可以有效获得基本信息的汇总,而不再是单一知识点。[2]近年来国内的一些搜索引擎公司和科技公司也在积极探索以知识图谱形式呈现信息的方式,相信在不久的将来,一个基于大数据环境的动态的高效的知识图谱体系将会形成。
基于大数据的知识图谱的建立和完善有利于改善数字阅读“浅阅读”的现状。当下的数字阅读资源给读者带来的是资源相对过剩和优质资源匮乏的双重困扰。和传统的纸质阅读资源相比,数字阅读资源极大丰富,尤其是近年来随着移动互联技术和智能终端技术的快速发展,各种面向手机媒体同时能够实现多屏共享的APP、公众号等阅读资源被源源不断地创建、分享和推送出来。人们每天都要或主动或被动的接收大量的数字阅读信息,这些令读者眼花缭乱的“过剩”资源渐渐让人产生了无所适从甚至是迷茫的感觉。学者们开始感叹在如此丰富多彩的阅读资源中却很难找到能让读者静下心来认真、持续阅读的资源。知识图谱的建立有利于引导读者建立整体的知识结构,系统地学习和阅读,亦或能够帮助读者走出数字阅读“浅阅读”的误区。
3.多平台的聚合发展或将成为数字阅读发展的大趋势
大数据环境下的多平台聚合能够实现数字阅读产业的快速发展。从数字阅读的发展现状来看,单一的媒体形式和媒体信息很难受到读者的青睐,内容资源应该是同时兼顾互联网、智能手机终端以及其他智能终端并同时收容图文、视音频等多媒体内容才能够更受读者的持续关注。多平台的聚合发展有利内容资源的整合呈现,提升数字阅读质量,增加企业的整体竞争力和抗风险能力。
大数据环境下的多平台聚合发展符合大数据的运营规律。从我国目前数字阅读资源平台来看,平台种类繁多、数量巨大。根据艾媒咨询(iiMedia Research)发布的《2016年APP与微信公众号市场研究报告》显示,2016年全球手机应用软件(APP)数量达到519.8万个,较2015年增长19.1%。2016年中国微信公众号数量超过1200万个,再加上通讯运营商的阅读平台,各门户网站、社交网站和数字出版企业的网络平台,等等,保守估计我国现有的数字阅读资源平台总量不少于2000万个,这样庞大的数字阅读平台数量,不但阅读资源质量难以保障,还拉低了用户的阅读兴趣,更影响了数据采集的有效性。多平台的聚合发展能够将平台间的优势资源有效整合起来,发挥各种优势,实现共赢的同时,也会为提高全民的数字化阅读水准做出贡献。
4.数据公开将打开数字阅读的另一扇大门
从美国、英国等发达国家的大数据应用与发展现状来看,数据公开是一个必然趋势,事实证明大数据的拥有者并不一定能够有效利用这些大数据,大部分数据的价值都是潜在的,需要通过创新性分析来释放,而大数据的拥有者由于受到专业素养和固有思维的制约很难从固有思维中跳跃出来。2008年美国总统奥巴马在就职的第一天就发表了一份总统备忘录,要求政府部门尽可能多的公布数据。[3]无独有偶,英国政府也颁布了相关鼓励信息公开的规定。近年来,我国也在积极鼓励各级职能部门开放政府掌握的大数据,深化大数据在各行各业的应用,催生新业态和新模式。
数字阅读领域的数据公开有利于扩大统计分析总量范围和总数据量,能够有效提升统计分析结果的精准度,更大范围地了解读者情况、阅读情况和数字阅读的发展趋势,能够促进交叉学科的数据共享,能够充分发挥具有数据挖掘能力的学者和科技公司挖掘数字阅读这座宝藏的积极性和主动性,推动数字阅读的不断发展。
三、结语
任何事物的发展都具有两面性,大数据环境给数字阅读带来便利、机遇和挑战的同时,也存在着一定的隐患:大数据环境下存在着一定的安全隐患,一些读者的信息具有私密性,一旦数据丢失或者在数据共享过程中被不法分子利用,很可能会对读者造成一定的损失;机器毕竟有它与生俱来的缺陷,任何算法和统计结果都可能有它不合理的地方,都需要人为地去干预和纠错,从大数据统计出来的被热捧的阅读资源不一定具有正能量和推广价值。在这个由大数据开启的数字阅读新时代的十字路口,我们要坚定信念,利用好大数据推动数字阅读不断发展。
注释:
[1][3](英)迈尔-舍恩伯格,(英)库克耶.大数据时代[M].杭州:浙江人民出版社,2013
[2]张博,乔欢,李武.基于大数据的出版内容价值发现与应用[J].出版发行研究,2014(3)