大数据技术在出版产业中的应用
2019-11-11蒋芳
蒋芳
摘要:目前,出版行业正处在传统出版与数字出版融合发展的阶段,大数据技术在出版体系中的应用加速了融合发展的步伐。通过大数据技术,对用户的消费数据、行为数据进行分析,可以为出版体系提供支持,在信息分析、选题策划、市场需求、精准营销等过程中提供助力,更好地促进我国新时代出版事业的跨越式发展。
关键词:大数据;出版;数字出版;传统出版;融合发展;知识服务
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)27-0003-03
Abstract:At present, the publishing industry is in the stage of integration development between traditional publishing and digital publishing. The application of big data technology in the publishing system accelerates the pace of integration development. Through big data technology, the analysis of user's consumption data and behavior data can provide support for the publishing system, and help in the process of information analysis, topic planning, market demand, precision marketing, so as to better promote the leap-forward development of publishing industry in the new era in China.
Key words:big data;publishing;digital publishing;traditional publishing;integration and development;knowledge service
1 大數据技术及其应用流程
1.1核心概念
关于大数据,至今尚未出现广为接受的统一适用定义。学术界比较认可的是2012年由Gartner机构对大数据进行的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的数量大、高增长率和多样化的信息资产。通常认为大数据具有规模性、多样性、高速性和价值性的特点。而大数据技术,则是指从各种类型的数据中快速获得有价值信息的技术。目前,大数据技术应用广泛,在各行各业中得到了实际的应用,为行业的决策提供了科学指导,推动了行业的发展。
1.2应用流程
大数据的应用流程一般分为数据采集、数据预处理、数据分析和数据挖掘四个阶段。
1.2.1数据采集
随着互联网的快速发展,特别是移动互联网的普及,人们通过网络可以进行发布、浏览、查询信息等操作,每天网络上都会产生海量的数据。数据采集就是通过合理的方法快速、高效地获取有效的数据,并且能够对数据进行处理操作。传感器的出现,实现了自动化系统的采集,可以不用人工控制全天候自动地获取需要的数据。对于出版产业来说,可以采集图书、读者、作者等多方面的信息,用以指导出版工作的开展。
1.2.2数据预处理
采集的数据量庞大,往往种类多样、结构复杂,不但包括有效的数据,还会有错误的、无效的数据。数据预处理就需要从这些数据中排除错误的、无效的数据,提取有效的数据。数据预处理,要尽可能做好数据清洗工作,它将会直接影响到挖掘到的有效信息。在出版工作中,同样需要重视数据预处理,比如,对于获取的作者信息,哪些特征数据是需要保留的,并对数据进行分类处理。
1.2.3数据分析
单纯的大量数据并没有实际的意义,只有通过数据分析,将数据转化成有效的信息,才能够体现数据的价值。大数据的特点之一就是数据量大,并且数据是不断更新的,随着时间的推移,数据量不断增加变化。借助计算机技术,对大数据进行分析,就需要找到数据之间的相关性,发现事物发生的规律,来指导人们的实践。在出版体系中,数据分析就是通过出版方面的数据,找到隐藏在数据后面的市场空白或市场需求,指导选题策划及市场营销工作。
1.2.4数据挖掘
数据挖掘主要是指通过设计的各种算法,进行高级别的数据分析。数据挖掘一般涉及的数据量和计算量都非常大,设计的算法也很复杂。在出版体系中,数据挖掘,需要打通作者、读者、编辑之间的信息屏障,找到各自的需求点并进行满足,从而更好地服务出版产业。
2 出版体系中的大数据来源
出版体系中涉及的数据很多,有来自出版内部的数据,也有来自出版外部的数据。在整个出版流程中,如选题策划、内容编校、印刷发行、售后服务等各个环节,都会产生大量的数据,其主要来源于内容、读者、平台三个方面。出版外部的数据,有来自行业数据机构的数据,还有来自政府、企业、个人的调研数据。这里主要从内容、读者、平台三个方面阐述。
2.1 内容
在“内容为王”的时代,无论是对于传统出版,还是数字出版,内容都是出版公司的核心竞争力。出版是将作品编辑加工后,经过复制向公众发行,这之中本身就会产生大量的数据。人类从印刷术发明以来,经历几千年积累下来的各种图书、期刊、报纸等,涵盖科学、人文、艺术等各个方面,是大数据的重要来源。目前,我国每年出版的图书超过30万种,并且数量每年还在递增,这些都是人类优秀科技文化成果的集结,包含丰富的数据信息。