出版企业掘金大数据的两个层面
2014-04-14姚永春
姚永春
大数据应用通常需要依赖数据公司的外部数据服务,但外部数据服务能否取得良好的效果,取决于出版企业对自己的需求和目标是否有明确清晰的刻画。出版企业如果缺乏明确的大数据应用规划,再好的大数据技术服务也难有用武之地。
这是一个概念层出不穷的时代,有些概念不过是昙花一现,有些却注定会改变整个人类社会的发展轨迹,“大数据”当是后者中的一个。自20世纪80年代被提出,到现今炙手可热,“大数据”概念在一番沉寂后,终于迎来“大爆发”。《自然》《科学》等重要刊物相继推出“大数据”专刊,美英等国政府及联合国先后提出与大数据相关的发展计划。2013年,Gartner将大数据列为在未来三年将对企业的长期计划、规划和行动方案产生重大影响的十大战略技术之一,更让其商业实践如火如荼:IBM、微软、甲骨文、EMC等大数据行业公司设计出各种“硬件+软件+数据”的整体解决方案,提供基础性服务;亚马逊、脸谱、谷歌、沃尔玛、淘宝、百度、阿里巴巴、腾讯等企业,通过深度挖掘自身积累的海量用户数据,在精准营销、个性化服务等各个业务领域积极尝试大数据应用,布局大数据业务体系。同时根据Gartner的一份名为《2013年大数据普及程度背后的炒作》的报告,64%的受访企业表示他们正在或即将进行大数据工作。
出版企业显然没有理由漠视大数据的存在及其作为一股强大的技术变革力量对商品生产、营销、消费以及文化领域等方面的影响。出版业就实质而言,自古就是数据的生产与集成部门,承担着生产、收集、管理、分析、发布数据,实现数据知识化转化的任务。换言之,出版业是数据高度密集型行业。据麦肯锡公司下属全球研究所的一份报告,美国传媒业拥有715拍字节的数据总量,在所调查的17个行业中位居第三[1]。问题在于,出版企业该如何把握大数据带来的机遇,真正从“大数据金矿”中获得价值呢?
舍恩伯格在《大数据时代:生活、工作与思维的大变革》中分析了有信息化基础的非互联网公司的大数据价值链。根据他的观点,大数据的价值创造源自数据本身、处理数据的技能以及利用数据的创新思维三个方面,对应三种商业模式:掌控大数据并利用海量数据的授权使用获取收益,如twitter;掌握大数据技术并通过提供技术服务获取收益,如Teradata;通过挖掘数据价值并整合创新获取收益,如Jetpac。以此观照大数据之于出版企业的价值,显然,出版企业不太可能转型为大数据技术的掌控者和服务提供商,而作为大数据的掌控者和价值挖掘者,不仅符合出版企业知识生产、传播和积累的功能定位,而且能够充分发挥出版企业既有的资源优势和智力优势。与之对应,笔者认为,传统出版企业要掘金“大数据”,必须在两个层面进行合理规划——大数据构建层面和大数据应用层面。
一、大数据构建层面:从建立大数据库到部署云环境,搭建出版企业的大数据平台
在大数据时代,数据本身是“宝藏”,可以创造价值。传统出版时代积累的海量数据及出版活动中源源不断产生的新数据,是“大知识”“大科学”的重要源泉,是出版企业重要的新经济利益来源。但正如舍恩伯格强调的,良好的信息基础是企业获得大数据价值的前提。只有拥有PB级甚至TB、ZB级的多样化数据,且保证这些数据能够便捷地进行关联,出版企业才能够通过对大数据的授权使用或相关关系分析生成有价值的数据产品获益,才可能形成自身的大数据价值链。所以,出版企业必须着力夯实数据基础,搭建一个标准化、可横向拓展的统一数据平台,扩大数据规模,扩展数据容量,收集、存储更全面、更翔实、更完备、更有效的出版数据及相关数据,成为规模数据拥有者。大数据构建,是出版企业真正成为数据驱动型企业,掘金大数据的根本。
出版企业大数据构建层面的工作可以从两个方面展开:一是事实信息数据化,主要通过大数据库建设完成;二是内部数据与外部数据的对接与整合,主要通过出版企业云环境的部署实现。
1.建立出版企业的大数据库
“大数据存在前提是客观事物的活动状态得以便捷高效、低成本、全方位地数字化记录”。[2]出版企业在多年数字化探索中,虽然已经部分实现了事实信息的数据化,有了一定的数据积累,比如,许多出版企业通过ERP系统,积累了选题、发行、财务、人事管理等方面的内部信息。但整体而言,还是存在数据资源数量少,类型单一,缺乏关联等问题,远远无法满足掘金大数据的需要。这也是目前出版企业的数字化实践主要停留在“从既有的出版资源中遴选优秀、畅销的内容进行数字化生产”[3]层面的重要原因。大数据的本义是庞大的数据集,具有规模大、种类多等特点。根据IDC对大数据的定义,大数据要收集超过100TB的数据,或从小数据开始,但数据每年增长60%以上[4]。显然,出版企业属于定义中的后一种情况。因此,出版企业要做的事是,以既有ERP系统数据资源为基础,充分实现事实信息数字化,并进一步扩大数据来源,特别要增加对各类实时流数据的收集和存储,提升数据的精细化程度。
大数据资源繁杂、增长迅速,出版企业在建立自己的大数据库之前,必须依据大数据应用目标定义自身的价值数据标准,确定大数据收集、存储的类型和范围。基于出版企业掘金大数据的需要,笔者以为,出版企业的大数据库可以由以下类型数据集构成。(1)读者数据集:读者数据一直是出版企业重点收集存储的数据,但传统读者信息主要是人口统计指标信息,如性别、年龄、文化层次等,这些相对静态的数据很难满足数字出版的需要。大数据库中的读者数据集,更强调对与读者消费行为相关的动态数据的抓取,比如通过Cookie技术获取读者浏览网页、搜索和评论图书产品、阅读状态等行为数据,通过这些数据,出版企业可以获得关于读者在购买偏好、购买意愿、购买频率、购买周期、忠诚度、满意度、营销手段适应性等方面的丰富数据,有利于出版企业准确把握读者的阅读与消费脉动,实现供给与需求的精准匹配。(2)产品数据集:主要收集、存储出版企业自己生产的各类有形产品数据,包括内容数据集和销售数据集。内容数据集收集、存储服务于产品定制化生产和数据创意服务的产品内容数据,可以在出版企业内容数字化的过程中一并建立。销售数据集可以在现有ERP系统中的选题信息基础上进行扩充,增加出版物在载体形态(如纸质版、Pad版、手机版、网络版等)、不同载体形态的销售状况、生命周期、销售淡旺季、营销分类、促销手段适应性、替代与互补品种等方面的数据。如果出版企业提供出版服务,应独立建立出版服务数据集。(3)供应链数据集:可在现有ERP发行系统信息的基础上升级而成,重要的是,不仅要收集出版企业既有供应链上各级批发商、零售商的相关数据,也要收集行业供应链数据,特别是电子商务方面的数据。对供应链数据的采集,除了运营效率、成本、市场覆盖面等基础数据,要注意针对每类产品甚至每件产品实时追踪其供应或销售数据,以及时调整其供应链构成,保证产品生产或销售取得最大收益。(4)营销活动数据集:数字时代,营销是与内容创新并重的出版企业竞争优势来源。营销活动的投入产出比如何,与产品、读者的适应性如何,线上线下营销活动的关系是互补还是替代……这些都是大数据时代出版企业应该收集也可以收集得到的数据。(5)作者数据集:包括作者的性别、年龄、主要作品等基本数据及动态行为数据,如作者新近发布的微博、参与的互动话题、新加入的圈子等。这些动态数据,对出版企业的选题创新、作者开发都有积极意义。(6)其他数据集:如版权数据集、财务数据集、人事数据集等。
出版企业在建立大数据库的过程中,要逐步形成数据收集网络,扩大数据存储范围。不能仅仅局限于传统ERP信息源,或者业务与社交数据源,还应该把对出版活动有较大影响的其他数据源囊括进来,比如二维码信息,源自信息亭、车载娱乐系统等智能系统和网络边缘设备传感器生成的内容,搜索、移动、网络分析工具产生的数据等,这些复杂的流数据是大数据的重要组成部分,是企业打造个性化客户服务的全新信息价值宝库。在数据类型方面,大数据库建设的重点是突破传统ERP系统主要采集结构化数据的局限,增加对半结构化数据和非结构化数据的收集和存储,如各种文本、文档、图像、音频、视频、社交媒体中与出版活动相关的、能产生商业价值的数据。当然,在扩大数据收集范围的同时必须注意数据质量,并根据企业发展需要随时对数据资源进行增减。
2.部署出版企业的云环境
大数据库的建立强调的是出版企业的内部信息化基础建设,借用时髦的概念,可以称之为出版企业的“私有云”建设。但必须指出的是,如果这个大数据库只是做到了自身规模的快速膨胀,却未能有效地嵌入互联网数据链中,那么,它仍然属于“信息孤岛”,并不比传统ERP先进多少,换言之,它的大数据价值十分有限。而且,实事求是地说,出版企业大数据库的容量一定是有限的,因为其无法承担对更高性能基础设备的投资。另一方面,数字时代企业的边界在逐渐消融,“企业应该作为开放的系统与外界进行沟通”,“应有效整合企业、产业、地区、国家甚至全世界高层次的经济系统,以更多的外部资源来谋取更广阔的发展空间”[4]。从这个角度看,出版企业要充分获取大数据商业价值,必须善于借力外部数据资源——各种公共和共享的数据资源,如政务数据源、商务数据源、普查数据等。此外,更加重要的是,大数据必须与云计算结合,才能完成由“数据垃圾”向“信息金矿”的华丽转身。所以,出版企业大数据构建的最终目标是部署自己的云环境,利用云基础架构实现大数据价值挖掘。
出版企业的云环境部署,较为可行的是在私有云的基础上创建混合云,或添加大数据分析至内部服务。同时要善于利用公有云中的重要外部资源和应用程序,借助公有云服务补充内部资源,实现企业内外数据、多方平台数据的整合。比如,可以利用政府公开数据,获取社会经济文化发展数据和相关行业数据;利用银行信息系统,获取读者的金融信息、信用信息;利用亚马逊、当当网、京东商城的用户行为数据,获取有关读者、市场、图书产品方面的信息。随着大数据分析和云计算技术的发展,甲骨文、微软、谷歌以及许多不知名的数据公司,都开始提供专业服务帮助企业部署云环境,其中不乏出版云平台,如云汉公司与IBM打造的“中国出版发行交易云平台”、方正阿帕比公司的“阿帕比云出版服务平台”,出版企业也可通过购买其一揽子解决方案,实现“私有云”与这些云平台的精准对接,构建满足自身需求的云环境。需要提醒的是,云环境的构建强调与外部的关联和对接,可能会带来一些安全隐患,所以,在部署云环境的过程中,出版企业一定要注意保护私有云中的敏感数据。
二、大数据应用层面:从营销领域的试水到全业务覆盖,从数据产品到数据创意服务
大数据的最终意义是“获得洞察力和价值”[5],大数据应用的核心是通过对数据的知识化促成正确决策和高效行动。因此,大数据之于出版企业的应用价值,首先在于通过数据分析优化出版流程,节约运营成本,提高经营管理效率。从当前大数据技术发展现状及出版企业的实际出发,出版企业在这一层面的大数据应用,最好采取与大数据技术供应商或数据分析公司合作的模式,将后者的分析结果应用于出版社的各项活动中。同时,从既有数据基础看,先试水大数据营销,再尝试选题策划与作品创作的创新,最后覆盖全业务链,较为可行。大数据在出版企业的商业应用还有一个重要方面,即“以数据为核心”的产品生产与服务提供,也就是出版企业作为大数据价值的挖掘者和转化者,通过对大数据的有效整合分析和价值挖掘,向社会提供数据产品或数据创意服务。
1. 以大数据分析实现精准营销,促进出版流程优化,提高经营管理效率
在零售、电子商务等领域,借助大数据实施精准营销的成功案例已为数不少。在图书营销方面,亚马逊、当当等网站的荐书服务也广为人知。实际上,当前的技术条件已经能够支持出版企业在大数据营销方面走得更远。《饥饿游戏》在北美上映时,出版商即通过电子阅读器获得了有关读者阅读该书的速度、标注行为、阅读第一册后立即购买第二册等信息[6]。Coliloquy是专为亚马逊kindle提供浪漫小说的电子书公司,它甚至根据对浪漫小说读者阅读状态的统计分析,“勾勒出读者眼中完美男人的标准——有着纯正欧洲口音、30岁上下、黑头发、绿眼睛”[6]。现在,亚马逊、谷歌、苹果及其他很多数据公司都能够有效地捕捉关于读者阅读状态和消费行为的具体数据,如读者的地理分布、对阅读内容的偏好、阅读时长、阅读深度、相关广告点击次数与浏览时长、页面功能按钮点击习惯、价格敏感性等。所以,对出版企业来说,使用数据公司的服务掌握读者浏览、阅读、购买、标注等阅读行为信息,进行大数据营销,增强营销活动的效果,发现更加细腻的营销机会,改善读者消费体验,无疑是掘金大数据最快捷的路径。巴诺书店在销售非小说和长篇纪实类文学作品时,就会根据数据分析采取相应对策,比如,在读者可能产生阅读倦怠的内容节点,添加视频、网页链接或其他多媒体资源,改善读者阅读体验,吸引读者继续阅读[6]。《第一财经》《华尔街日报》《新京报》等国内媒体也开始与数据公司友盟合作,进行类似尝试。
通过大数据分析提高选题策划的市场适应性和作品创作的针对性,是值得出版企业期待的一项大数据应用。虽然出版界还没有《纸牌屋》这种大数据排列组合的直接产物,但“Coliloquy模式”[7]也开启了读者介入作品创作过程之门,作者会根据读者偏好流数据随时调整故事内容,读者可以决定故事的发展和结局。Scholastic的全球畅销书《39条线索》系列,是通过对在线游戏玩家数据的追踪和挖掘,找到其中最吸引人的线索和角色后策划出版的。谷歌图书数据库应用甚至显示,高质量的数据分析可以应用于科学研究并生成部分研究成果。正如豆瓣上一篇日志的观点:“如果我们能量化用户的阅读题材、阅读场所、阅读时长、标注章节和重复浏览内容,大数据时代的快销书指日可待。”[8]可见,以大数据分析为基础创新出版物内容与形式,构思选题,实现内容的个性化定制,甚至在大数据分析的基础上直接完成作品,在不远的将来会是出版企业大数据的核心应用之一。
大数据最终将应用于出版企业的各个业务环节,帮助出版企业优化业务流程,提高运营效率。国内一些学者在这方面多有论述。吴锋指出,“大数据对科技期刊出版具有革命性影响,将推进科技期刊编辑流程的再优化、科技期刊出版业态的多媒体化和科技期刊评价规则的多元化”。[9]王钰通过分析破坏性创新和大数据对图书销售的影响,探讨了大数据时代书店和出版社图书销售改进策略[10]。当然,大数据于出版企业管理效率提升的作用,必须建立在数据打通的基础上,包括读者行为数据、出版者行为数据及出版企业内部销售数据、营销数据、库存数据、选题数据等全部数据的打通。只有数据贯通,出版企业才能有效实施大数据监控,使各部门之间协调一致,最终获得经营管理效率的提高。
需要指出的是,在大数据应用的这一层面,大数据对出版企业是一种商业成本、经济投入,传统出版企业究竟能否获得令人满意的投入产出比尚待验证。而且,如前所述,这一大数据应用通常需要依赖数据公司的外部数据服务,但外部数据服务能否取得良好的效果,取决于出版企业对自己的需求和目标是否有明确清晰的刻画。出版企业如果缺乏明确的大数据应用规划,再好的大数据技术服务也难有用武之地。所以,在大数据应用的这一层面,出版企业的当务之急是设计大数据应用蓝图,从试水大数据营销稳步推广到覆盖全业务领域。
2.数据产品生产与数据创意服务提供
大数据和云计算对出版产业的影响,绝不只是技术变革,而是深刻的产业变革。一方面,“大数据时代使媒介融合集成的全媒体趋势、信息技术与媒体技术交汇的信息媒体化趋势加强”,出版企业需要重新界定出版产品和出版服务的范围;另一方面,“企业界限、定位不再清晰,信息资源被重新分配,合作方式被不断改写”[11],出版企业面临市场边界消失及众多新进入者携信息技术优势不断掠夺、蚕食传统及数字出版市场的挑战,需要充分挖掘大数据价值,重新设计出版产品和出版服务。“以数据为核心”的产品生产和服务提供,成为出版企业应对“经营横向跨界、产业越界混融、生产与消费合一”趋势的重要的大数据应用。
程晓龙与王明亮的“大数据出版”设想可以说是对大数据这一应用的具体描述。程晓龙认为,“数字出版或许应该首先是数据出版,它整合、梳理大量内容资料,全面、细致囊括相关知识,是海量数据、庞大数据库的有效管理。其次,它将是数据关系的智能服务,能够智能挖掘、匹配一切阅读兴趣,为读者的沉浸阅读、深入学习提供内容和工具,是满足阅读需求的数据综合服务。最后,数字出版必将成为大数据出版,即以内容为基准,包含各种服务的PB级大数据;处理速度迅速、涵盖多种类型以及信息感知无处不在、随机变化但智慧关联”。[12]王明亮以《中国统计年鉴数据库》(CSYD)的出版为例提出“大数据出版”构想。在他看来,大数据时代的出版者需要“真正理解内容,不断地深入挖掘各种用户、读者研究和学习的需求,把出版看成是对读者提供知识服务的过程”;“大数据出版”的核心不是出版图书也不是发布数据信息,是“把有意义的每一条数据及其数据关系都看成是一个出版产品”,向读者“提供数据服务”;更进一步,“大数据出版”还可以指微数据与微数据在“大数据云层”中的“强耦合”[13]。一言以蔽之:将数据及其相互关系视为出版产品,为读者提供数据关系的智能服务。
数据产品生产,是指出版企业作为数据整合机构,通过对庞大的结构化、半结构化和非结构化数据的分析挖掘,提炼出有价值的关于各个行业发展趋势、市场行情等预测性信息,以数据图谱或趋势性信息的方式提供给社会,供各行各业决策时参考。数据创意服务的实质类似于咨询服务,出版企业通过对数据的深度挖掘与解读,形成不同领域的创意,然后提供给相关领域的企业或政府部门,由后者付诸实践。数据产品生产与数据创意服务提供对出版企业并非遥不可及。目前出版企业正在尝试的将杂志或图书内容“碎片化”后再根据读者需求重新整合的做法,实际就是一种数据产品生产模式。路透社的金融信息产品,更是典型的数据产品。IBM的创意食谱,已经是数据分析的结果。不少出版企业将产品线延伸至在线服务领域,如中启创科技与南开大学出版社合作开启的“教育云平台”、科大讯飞的“畅言教育资源云服务平台”等,为教师、学生、出版社等提供空间及应用服务,可视为数据创意服务的萌芽。当然,这与“以数据为核心”的数据产品生产与数据创意服务还有较大距离。一则,数据产品与数据创意服务中的“数据”,并不专指传统出版物的内容数据,更意指出版企业在私有云和公有云中能够获取的全部数据;二则,数据产品与数据创意服务是建立在数据关系基础上的,强调数据与数据的精确匹配;三则,数据产品与数据创意服务的提供很多时候是一体的,是一种综合智能服务。
三、 结语
大数据给传统出版企业带来了新的机遇,但传统出版企业要真正通过大数据获得“大利润”“大发展”殊非易事。正如Gartner的调查所显示的,许多企业对于大数据应用其实非常迷茫,不知道要做什么,怎么做。笔者不揣简陋,对出版企业在大数据构建和大数据应用两个层面的规划略作构想,期冀对传统出版企业掘金大数据有所裨益。最后还想强调的一点是,两个层面的工作需要同时展开,数据规模化与数据价值挖掘需要同步。
(作者单位:武汉大学信息管理学院)
参考文献
[1] 涂子沛. 大数据:正在到来的数据革命,以及它如何改变政府、商业和我们的生活[M].桂林:广西师范大学出版社,2012:37.
[2]吴锋.“大数据时代”科技期刊的出版革命及面临挑战[J].出版发行研究,2013(8):66-70.
[3]刘志伟.云计算大数据升温中探模式[N].中国出版传媒商报,2013-11-08(01).
[4]马建光等.大数据的概念、特征及其应用[J].国防科技,2013(2):11.
[5]余建斌,赵展慧.大数据崛起[N].人民日报,2013-02-22(20).
http://whb.news365.com.cn/wh/201207/t20120709_515721.html.
[6]陈砚青,徐璐明.小心:你读书时,“书”也在读你[N/OL].文汇报,2012-07-09. http://whb.news365.com.cn/wh/201207/t20120709_515721.html.
[7]Coliloquy:读者和作者互动 换个方式讲故事[OL].http://tech.qq.com/a/20120119/000286.htm.
[8]杨鑫倢.终有一天 大数据会“颠覆”出版业[N/OL].IT时报,2013-08-19. http://it.sohu.com/20130819/n384494421.shtml.
[9]吴锋.“大数据时代”科技期刊的出版革命及面临挑战[J].出版发行研究,2013(8):66-70.
[10]王钰.破坏性创新、大数据与图书销售[J].科技与出版,2013(6):85-87.
[11][法]乔治·纳汉. 赵春雷编译.“大数据”时代的计算机信息处理技术[J].世界科学,2012(2).
[12]程晓龙. 数字出版的未来:从“小数据”到“大数据”[N].中国新闻出版报,2013-08-29(005).
[13]王明亮.关于“大数据出版”的一些体会和猜想[N].中国新闻出版报,2013-08-29(005).