从纸质出版到数据库建设:出版业转型路径探究
2016-05-14喻发胜张加俊
喻发胜 张加俊
[摘 要] 首先从历史角度考察纸质出版,认为就具体形态而言是以纸为媒介“镌著于版”“印行于世”的行为,其本质是“信息生产与传播”行为。其次指出互联网时代,纸质出版的价值犹在,但基于数据的生产与传播为大势所趋:数据库是面向特定主题,集成的、相对稳定的、具有统一格式的、能反映历史变化的数据集合,数据库建设是将“孤立、静态和碎片化”的文本数据转化为“关联、动态和整体性”的结构化数据工程。最后,以自然灾害类突发事件中的旱灾数据库建设为例,探讨数据库建设的意义,介绍数据库建设的基本步骤,以期为出版业的转型提供新思路。
[关键词] 纸质出版 数据库建设 大数据 出版业转型
[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2016) 06-0090-04
[Abstract] Paper-based publication uses paper as a medium to “engrave in the wood block for printing” and to “publish to the world”. Its essence lies in the process of information production and communication. In the era of the Internet, the value of paper-based publishing remains apparent, yet the production and communication based on data has become a trend. A database is a data set established for a specific topic, and it integrates relatively stable data in a unified format and reflects certain historical changes. Database development is the attempt to translate the “isolated, static and fragmented” text-data into “related, dynamic and integral” structured data. Using “Natural Disasters: Drought” database as an example, this paper discusses the significance of database establishing, and introduces the basic steps of database setup. In doing so, it provides fresh ideas for the possible transformation approaches for the publishing industry.
[Key words] Paper-based publication Database development Big data Transformation of publishing industry
传统的纸质出版,主要是将文字或图表印刷在纸介质上并向公众发行,其生产方式是“物化”复制的过程,其发行方式是实体印刷品基于物理空间的位移过程。随着互联网与大数据时代的到来,纸质出版的价值犹在,但基于数据的生产与传播已是大势所趋。对出版业来说,当下不仅要提升传统的编辑能力和印刷能力,还应大力提升对大数据的处理能力。出版企业大都拥有一笔宝贵的财富,即多年经编辑加工而成的图书或音像制品。它们中的大多数作为非结构化、半结构化的数据“沉睡”在那里,如果仍以“物化”复制的方式重新刊印,未必能获取足够的市场价值;但若将这些数据基于特定主题建设数据库,则可能使其“苏醒”且价值倍增。本文以“自然灾害·旱灾(2001—2010年)数据库”建设为例,介绍如何对非结构化、半结构化数据进行结构化处理,以期为传统出版业的转型提供新思路。
1 “出版”的本质是“信息的生产与传播”
随着以互联网为代表的新媒体技术的广泛普及,传统出版业面临的困境及转型策略一直是学界与业界关注的焦点。探究出路往往需溯本求源,反思何为“出版”?
“出版”一词起源何时目前尚无定论。朱光暄认为“出版”一词最早出现于光绪二十八年(公元1902)梁启超的《敬告我同业诸君》一文中[1];林穗芳认为“出版”一词19世纪末借自日语[2];吉少甫认为“出版”一词最早是在梁启超1899年8月发表的《自由书》一文中使用的[3];王益认为1879年黄遵宪与日本学者龟谷省轩的“笔谈”中最先使用此词[4];王振铎认为“出版”一词最早出现在1833年8月1日创办于广州的《东西洋考每月统记传》的编辑序言中[5],等等。尽管“出版”一词在汉语中的历史并不悠久,但汉语中表示出版行为的词汇却早已有之,如唐宋年间即有“上梓”“梓行”“刊行”“开板”“板印”之说[6]。《辞源》中表示出版行为的用语有“刊行”“板本”“印板”“镌印”“雕版”“刊刻”等[7]。分析上述文献,可以发现“镌著于版”“印行问世”[8]大体表征“出版”之义。
此外,一些法律条文对何为“出版”也进行了界定。日本明治20年(1887年)的《出版条例》规定:“凡以机械、化学或任何其他方法印刷之文书图画予以发售或散布者,均为出版”[9]。《世界版权公约》将“出版”界定为“作品以有形形式复制,并把复制件向公众发行,使作品能供阅读或观赏”[10]。我国北洋政府制定的《出版法》规定:“用机械或印版及其他化学材料印刷之文书图画出售或散布者,均为出版”[11]。我国现行《出版管理条例》规定:“本条例所称出版活动,包括出版物的出版、印刷或者复制、进口、发行”[12]等。上述法规对“出版”的界定虽表述不一,但“印刷”和“发行”是其共有的特征,二者分别对应的是出版过程的生产环节与流通环节,缺其一不能称之为出版。
综上,我们认为将文字与图表印刷在纸媒介上并加以发行只是纸质出版的具体形态。究其本质,出版是“信息的生产与传播”行为。在不同的历史时期、不同的技术条件下,出版的具体形态各异,但生产信息、传播信息的本质不变。
互联网技术对传统的信息生产与信息传播方式所带来的变化是颠覆性的。现今时代对出版企业而言,提升对数据信息的生产能力与处理能力是其转型的重要趋势之一。其中,需要厘清的一个重要问题是出版业的“数字化”转型并不等于“数据化”转型。“数字化”是将原来基于印刷等生产行为生成的符号转换成用“0”和“1”表示的二进制码[13];或者说,是将模拟数据变成计算机可读的数据,从而在传播介质上摆脱了对纸、光盘等有形之物的依赖。而“数据化”是“一种把现象转变为可制表分析的量化形式的过程”[14]。通俗地讲,就是“让数据发声”的过程。二者有本质的区别。因此,对于出版业转型来说,只是将原有出版资源转变为计算机可读的数据(这些数据大多为非结构化、半结构化的)远远不够,还必须在此基础上对这些海量数据进行结构化处理与深度挖掘。这也正是建设数据库的意义和价值所在。
2 数据库建设的意义
数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合[15]。它可以形象地理解为一种格式一致的多元数据存储中心。其数据可以来自出版系统、也可以来自媒体报道和政府部门通报等;可以按统一定义的格式被提取出来,再通过清洗、转换、集成,最后百川归海,加载进入数据库[16]。对出版企业而言,加强数据库的建设主要有以下几个方面的意义。
一是重新定义出版行业的核心竞争力。对于传统出版行业而言,其核心竞争力可能是编辑水平、印制能力和发行能力,但未来出版企业的核心竞争力之一主要体现在对大数据的利用水平上。对大数据的利用需要有两个基本条件:一是拥有庞大的数据规模;二是掌握丰富的数据处理资源(包括专业人才、资金、平台、数据搜集高权限等)。两者缺一不可。一般的自媒体和非专业媒体机构很难同时具备这两个条件。因此在大数据时代传统出版企业依然具备巨大的发展潜能,也就是可以通过大数据重构自身作为专业信息生产与传播机构的核心竞争力。
二是更新出版行业的资源整合方式。过去出版行业主要是按书名或书籍涉及的领域进行资源整合。这种整合方式是表层的,主要作用是易于检索,无法对资源进行深层次利用。数据库建设则是按照不同主题制定统一的数据指标,对所有相关的非结构化、半结构化的数据进行结构化处理。以 “突发事件数据库·自然灾害·旱灾”(以下简称“旱灾数据库”)为例,就是以“干旱”为主题的数据库,需要采集相应时空条件下所有关于干旱的数据,并制定统一的数据处理标准。例如,对干旱的发生时间、持续时间、发生地点、波及地域、对人员生命财产造成的损失等数据进行结构化处理,并将这些数据存储到数据库中,以实现数据资源的持续利用,在数据层面实现信息资源的“完全燃烧”。
三是创新出版行业的服务方式。出版企业搜集数年来关于某类主题的数据建立数据库,通过大数据挖掘可以清楚地了解到某类事件发生的地域分布、时间分布、演化过程等总体趋势,可以与其他数据“叠加”进行相关性分析等,并以此为基础为用户提供大数据服务。用户通过对旱灾数据进行挖掘分析,得出来的结论不仅可以为相关部门的灾害应对提供决策依据,而且可以为广大农民、涉农企业的生产经营提供数据支持。
3 数据库建设的步骤
数据库的建设主要包括数据采集、数据清洗、数据结构化处理、数据存储、数据挖据、可视化呈现等步骤。下面以“旱灾数据库(2001—2010年)”的建设为例作具体介绍。
数据采集。设计网络爬虫程序,按照设定的关键词,自动抓取互联网上相关主题的所有数据信息,并按照一定的规则储存。就“旱灾数据库”而言,主要是通过设定关键词的方式,对目标站点的数据信息自动进行抓取,并将采集后的数据按照相应的规则存储。
数据清洗。对网络爬虫程序采集到的数据“去杂”的过程,也就是将与数据采集规则不符的数据尽可能去除。对旱灾来说,凡不属于对灾害本体进行描述的数据、超出事先规定区域之外的数据等都应去除。
数据处理。这是对采集的非结构化或半结构化数据进行结构化处理的过程。此步骤为数据库建设的关键步骤,直接影响数据挖掘的精确性和数据库价值的大小。具体到“旱灾数据库”,主要由“本体要素表”“影响损失表”“应对措施表”“舆情应对表”4个部分构成,且各部分都有自己特定的填写格式。对干旱灾害的数据处理,即将所有的关于干旱灾害的时间、地点、等级、影响、应急措施、舆情应对等根据各表格的填写格式,按统一的数据指标分别填写到对应的表格中。
数据存储。将结构化数据加载入库的过程。对干旱灾害而言,即统一集成各部分的结构化数据表格,搭建“旱灾数据库”的过程。
数据挖掘。曾一度被称为“基于数据库的知识发现”(Knowledge discovery in database),是指“有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术”[17]。对于出版行业而言,大数据挖掘的最主要应用就是对于不同主题数据库的联机分析和相关关系分析[18]。具体到“旱灾数据库”的数据挖掘,一方面要对干旱灾害的关键要素进行处理、呈现;另一方面要对灾害发生时伴随发生的其他现象进行相关性分析。此举不仅可以使用户从微观上把握某一具体灾害,而且可以从宏观上对干旱灾害的时空分布规律进行准确把握。香港科技大学龚启圣教授曾经收集过去2000余年中原省份的气候数据,包括每年降雨量、旱灾、水灾,以及北方游牧民族攻打中原的时间和次数等,并根据这些数据进行深入挖掘,结果发现:任何十年里,多一年旱灾会使游牧民族在那十年里攻打中原的概率增加26%[19]。
本课题组采集了2001—2010年10年间我国旱灾的全部数据,通过大数据分析,我们发现干旱灾害发生后往往引发相应的自然类衍生灾害、公共卫生类衍生灾害和社会安全类衍生灾害。自然类衍生灾害主要包括水库干涸、河流断流、森林火灾、虫灾、沙尘暴、草场退化、湿地生态破坏、咸潮和蓝藻等。公共卫生类衍生灾害包括肠道传染病、呼吸道疾病、皮肤病等,其中干旱灾害与肠道传染病集中爆发的相关性不易为人们的直观经验所发觉。大数据挖掘显示出的相关性,其背后往往存在因果性——干旱灾害往往会造成河流断流和水库干涸,使饮用水源过于集中,一旦水源受污染,便极易造成肠道传染病的爆发。此外旱灾还会引发社会安全类衍生灾害,如农村村民因抢水械斗、群体上访和围攻水管单位等。
可视化呈现。可视化呈现是指“以图形、图像、地图、动画等更为生动、易于理解的方式来展现数据的大小,诠释数据之间的关系和发展的趋势,以期更好地理解使用数据分析的结果”[20]。就“旱灾数据库”而言,其可视化呈现至少有3种途径可资参考:一是时间线,用以展现干旱灾害在时间维度上的演变;二是数据地图,用以展现干旱灾情基于地理位置的分布;三是交互性图表,用以展现干旱灾害本体及其影响之间的关联性。通过数据的可视化呈现,能够使受众在脑海中迅速形成关于灾害及其相关性的直观印象,提高人们对干旱灾害的认识能力和预测预警能力,将干旱灾害带来的损失降到最低程度。
对传统出版行业来说,从纸质印刷到数据库建设,就信息生产方式而言是一次颠覆性的变革,但这种“颠覆性”会产生巨大的价值。不同专业背景的出版社可根据自身的特点,建设不同主题的数据库。例如,卫生行业的出版社可与医疗行业联合建设若干涉及人体健康的数据库,教育行业的出版社可与各类教育机构联合建设若干关于教育的数据库,如此等等,只要深入挖掘,可谓资源无限、潜力无穷。正如维克托·迈尔-舍恩伯格教授所说,“数据就像一个神奇的钻石矿……它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。”[21]
注 释
[1]朱光暄, 薛钟英, 王益. “出版”探源[J]. 出版发行研究, 1988(5): 51-53
[2][6][9] 林惠芳. 明确“出版”概念 加强出版学研究[J]. 出版发行研究, 1990(6): 13-20
[3]吉少甫. “出版”考(续)[J]. 出版发行研究, 1991(5): 62-62
[4]王益. “出版”再探源[J].出版发行研究,1999(6): 8-9
[5][8]王振铎.“出版”史论[J].出版发行研究,2006(10): 26-29
[7][10][11]胡国祥.“出版”概念考辨[J]. 武汉大学学报(哲学社会科学版),2008(3): 437-442
[12]徐力.“出版”概念及其在数字化网络环境下的再认识[J]. 出版发行研究,2012(7): 55-57
[13][14][21]维克托·迈尔一舍恩伯格,等. 大数据时代[M]. 杭州:浙江人民出版社,2013 : 104-127
[15][16][20]涂子沛. 大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012:86-99
[17]谭磊.New Internet:大数据挖掘[M].北京:电子工业出版社,2013 : 23
[18]张振宇,周莉.“大数据出版”的理念、方法及发展路径[J].出版发行研究, 2015(1): 14-17
[19]陈志武.量化历史研究告诉我们什么? [EB/OL].[2013-09-17]. http://www.21ccom.net/articles/sdbb/2013/0914/91965.html
(收稿日期:2016-09-24)