APP下载

图书出版行业大数据可视化分析

2019-10-21王红丹潘莉

科学与财富 2019年33期

王红丹 潘莉

摘 要:大数据时代背景下,传统纸媒图书出版行业面临新的机遇和挑战。本文拟对淘宝网上销售的图书数据进行数据可视化分析,在阅读和总结以往的数据可视化分析基础上,结合相关的图书出版业文献资料,运用数据可视化平台SaCa DataViz对搜集到的淘宝网上图书的销售数据进行可视化分析,得到图书销售的现状,根据研究结果,为出版编辑提供更多的出版方向,以促进我国图书出版业进一步健康发展。

关键词:数据可视化分析;图书销售;SaCa DataViz

1引言

图书出版业数据可视化分析旨在从庞大复杂、混乱无序的图书销售数据中,利用图形图像的处理方法与技术对其进行视觉呈现,充分挖掘出有价值的内容,给出版编辑提供信息,做出决策,为出版社提供更多的出版方向,对作者的创作信心起积极作用。有利于我国图书出版业经济发展,有利于为出版业理念的转变找到方向。

2研究方法与内容

本文为了对我国图书出版业图书的销售情况进行分析,通过SaCa DataViz平台工具,对数据进行了可视化分析。以期得到出版业未来的发展方向。

研究的具体内容如下:首先,介绍了众多的数据可视化分析工具和平台,选择了对更适合本文研究的数据可视化平台SaCa DataViz。然后,在对众多能反映我国图书出版业销售现状的数据指标中筛选出了最适合的6个指标。其次,对淘宝网上的图书总销售量、总销售额、购买者信息等指标进行SaCa DataViz数据可视化实例分析和研究,得到销售现状。最后,根据得到的研究结果,结合资料,给出版社以及销售商一定的发展建议。

3图书出版业大数据可视化分析实证

出版社获得的图书销售数据很多,基础的数据是销售量、销售额等,错综复杂,数据的准确率较低,分析效率不高。现今,我国图书的销售渠道主要包括线上销售、线下销售以及统一采购这几种,在网络如此发达的社会,网络信息便利的时代,人们越来越依赖于网络,所以,在图书的销售上,线上销售数据具有一定的代表性。并且像当今比较受欢迎的销售书店,类似磨铁、中南图书、文轩等,都选择在淘宝网上进行销售,所以本文以2019年4月在淘宝网上销售的图书数据为例讲解图书出版业大数据可视化分析。

3.1行业数据的选择与搜集

数据的搜集上,本文筛选2019年4月在淘宝网上图书销售的详细数据,从中选择了本文研究所需的可以体现出发展现状以及购买者分布的数据指标,即销售量、销售额、购买者人群画像(包括性别、年龄、职业、购买者地址)这6个数据指标进行研究。

3.2数据预处理

1)数据整理:将原始数据从网站上抓取下来,经过整理,得到淘宝网上销售图书总销售量、总销售额、性别、年龄分布、职业、地理位置等,共6列数据,总共1625条数据。

2)数据去噪:在选择出来的所有数据中,将存在缺失数据的指标进行删除,通过筛选,剩余数据1622个。

3)数据集成:将整理好的数据按照研究目的的不同,需要的数据指标不同,将其分类整理。

3.3数据可视化分析

3.3.1分类图书销量与销售额占比情况

(一)二级类目

本文中,将二级图书分类为:儿童读物/教辅、进口原版书、社会科学、文学、小说和自我实现/励志这6大类。

在二级类目的图书销量中,根据图1看出,我国的儿童读物/教辅这类图书占总销售量的比例最大,多达71.69%,销售量达1087万余本。其次是自我实现/励志类图书,出售200多万本,占总量的13.2%。其他各类图书的占比就比较小了,例如进口原本书只占1%。

(二)三级类目

在二级类目图书分类下,再将图书分类细化,得到三级类目图书为:中国现当代随笔、中国古诗词、中国儿童文学、演讲/口才、心灵与修养、心灵学、现代/当代文学、外国小说、世界名著、青春小说、励志、绘画/漫画、儿童读物原版书、成功这14类。

在细分后的分类图书销量中,我国的中国儿童文学这类图书销量占总销售量的比例最大,基本占一半,多达52.73%,销售量达799万余本。其次是绘画/漫画类图书,出售264万本,占总量的17.39%。其他各类图书的占比就比较小了,基本都有占到5%左右,例如世界名著和现代/当代文学都只有4%。

3.3.2购买者人群画像分布

(一)性别比例

在性别这一分类下,女性占60%,男性占比40%,女性人数是男性购买人数的1.5倍。

(二)年龄占比

在年龄的分类中,本文将其分为最具代表的5类:18-24,25-29,30-39,40-49,50及以上。看图6可知,18-24岁的人数最多,有4.5万人,占总数的约32%,年龄在50及以上的人数占比最少,只有6.5%。其余三个年龄段人数大约都在3万左右,占比20%左右。

(三)职业比例

在职业分类中,本文简单的将购买者分为个体经营/服务人员、公务员、公司职员、学生这4类。看图7可以知道,在我国,图书购买者为公司职员的人数最多,有3.7万左右,学生有3.2万,最少的是公务员,有1.2万左右。

3.3.3购买地分布

在研究购买者所属地区分布时,本文选择了全国图书销售排前7的省份,以及这7个省份的省会的销售量。综合省份与省会两个指标,人数最多的是广东省,其次是江苏省。

4结论与建议

综合实证研究所得结果,为了增加图书出版业的经济收入以及未来发展方向,给出版社提出了以下建议:1)应重视少儿图书出版2)细分图书市场3)谨慎选择线下销售选址。

在本文撰寫过程中,仍存在着如数据获取不够全面,数据挖掘深度及可视化设计深度不够,运用可视化研究方法单一等问题。在今后的研究中,可从图书定价、纸张质量、封面设计等角度做更加详细的可视化分析;呈现更为直观的三维图展示;运用多种可视化方法进行研究。

作者简介:

1.王红丹,成都信息工程大学统计学院学生

2.潘莉,成都信息工程大学统计学院讲师,硕士;研究方向:金融数量分析。