基于ApacheSuperset的商务智能数据可视化研究
2019-07-08陈岳军毛水凌
陈岳军 毛水凌
摘 要:在大数据时代,企业掌握了大量用户信息。为了能够让这些海量信息以一种直观的方式展现在企业管理者面前,从一个数据分析人员的视角,研究基于Apache Superset的商务智能数据可视化问题,并以某手机品牌线上销售数据为例,从不同维度对销售数据进行选择、过滤与转换,最终以适当方式将结果呈现出来,从而达到以可视化方式展示数据的目的。利用Superset可视化工具,不仅为数据分析人员带来了极大便利,而且普通用户也能通过连接数据库自主选择数据可视化操作,从而提高企业整体工作效率。
关键词:商务智能;数据可视化;数据分析;管理决策
DOI:10. 11907/rjdk. 182465
中图分类号:TP319
文献标识码:A文章编号:1672-7800(2019)006-0115-06
Abstract: In the era of big data, the enterprises have a large amount of user information. In order to make this massive amount of information presented to enterprise managers in an intuitive way, this paper studies the visualization of business intelligence data based on Apache Superset from the perspective of a data analyst. Taking the online sales data of a mobile phone brand as an example, the sales data is selected, filtered and converted from different dimensions, and finally the results are presented in an appropriate manner, thereby achieving the purpose of visualizing the data. By using Superset as an efficient visualization tool, it not only brings great convenience to data analysts, but also ordinary users can choose the visualization operation of data by connecting the database, and improve the overall work efficiency of the enterprise.
Key Words: business intelligence; data visualization; data analysis; management decision
0 引言
在如今的大数据时代,企业数据出现爆发式增长,利用大数据分析技术实现对数据的精细化运用,从而驱动业务增长已成为大部分企业的共识。将大数据技术与可视化技术相结合,可为数据分析人员提供一种强大、高效的数据分析工具,其能以一种更加直观的方式揭示数据背后隐藏的商业价值。
國外自建立可视化学科以来,经过几十年的发展,在数据可视化研究方面已取得了很大进展,推出了很多可视化工具。我国近年来针对可视化技术也进行了大量研究,在可视化算法、可视化工具开发等方面也取得了一定成果[1-3]。Tableau[4]是源于斯坦福大学的商业智能软件,其将数据运算与图表完美地嫁接在一起,可帮助用户分析各类数据,其功能强大,且注重细节,但使用者多为专业的数据分析师;QilkView[5]是瑞典的一家商业智能公司推出的集ETL、OLAP分析与数据展示为一体的数据分析工具,该工具比较灵活,展示样式多样,但利用其构建报表对开发人员的技能水平要求很高,且维护成本较高,并不适合大多数企业;FineBI[6]是国内帆软公司研发的一款自主BI工具,其面向企业各个部门提供一套企业数据化管理与可视化BI方案,可有效支持企业对业务数据的应用。
本文研究基于Apache Superset[7]的商务智能数据可视化问题,并以某手机品牌线上销售数据为例,从不同维度对销售数据进行选择、过滤与转换,最终以适当方式将结果呈现出来,从而达到以可视化方式展示数据的目的。主要工作分为以下几个阶段:
(1)数据准备阶段:明确需要哪些商品信息,以及如何获取真实、有效的商品销售数据。
(2)数据提取阶段:对于第一步获取的原始数据,其格式、结构参差不齐,因此如何对这些数据进行清洗、转换并从中提取有效信息,是最为关键,也较为复杂的一步。
(3)数据存储阶段:对提取的原始数据进行数据清洗处理及格式转换,针对有效数据设计数据库结构,建立相应数据库,并且能对数据库中存取的数据表进行查询、更新等操作。
(4)数据可视化阶段:对于不同维度甚至多维度数据,选择高效、灵活的可视化方式进行展示,并且在可视化图表中实现交互,用户可通过图表透视数据库具体内容。最后,将多个数据切片整合到一个可视化仪表盘中。
(5)数据分析总结阶段:可视化图表将数据以直观的方式展现出来,管理者可通过对图表信息的对照分析,总结产品销售情况,并对未来作出合理预测。
1 相关技术基础
1.1 多维数据分析
多维分析是指分析数据时将数据分为两种类型:维度与度量[8]。维度即数据分析的各个出发角度,度量即数据在各维度上的某类属性值。对数据进行多维分析,第一步要对数据进行多维建模,创建多维数据库模型。构建多维模型的过程即构建多维数据库,多维数据库包括两类数据表:事实表和维度表。例如:查询公司某产品在某地区某个时点的销售额,构建多维模型,在其维度产品、地区与时间的交汇处会有一个度量值销售额。在图1中,事实表带有3个外关键字(FK标记),外关键字即外码,连接维度表的主关键字。3个维度表可理解为事实表的分割部分,每个维度表都是对一个维度细节的描述,包含多个维度属性,并具备较强的维度分析能力。
多维数据库构建成功后,必须在该数据库基础上建立多维视图,以实现对数据的查询与分析,而数据cube (数据立方体)提供了数据的多维视图。常见的多维数据分析方法包括:数据切片/切块、数据钻取、数据旋转,可从多个层次对数据进行剖析。
1.2 Python网络爬虫
为获取较大规模且结构复杂的网络数据,可采用爬虫技术。若用户想要获取网络上的数据,可利用代码程序模拟浏览器请求网络站点,站点返回网页上的html代码或Json数据到本地,根据需要提取有用的数据信息,并存放到数据库中。
Python解析网页数据时,根据不同数据形式选择不同方法,解析html数据采用re模块的正则表达式或调用第三方解析库,解析二进制数据可直接以Web方式写入文件,解析JSON数据则调用JSON模块。
1.3 Superset可视化
Superset是由Airbnb公司研发的开源数据分析平台,是一款现代化的企业级商业智能Web应用程序,其具有十分强大的可视化功能。Superset通过直观的界面,提供多种可视化方法进行数据分析,并创建交互式仪表盘,用户可深入挖掘与剖析仪表盘中的数据。同时,该平台还集成了一个SQL编辑器,支持多种数据库连接,能够对大型实时数据集进行快速切片与切割。
Superset可通过连接数据库对数据库中的单个表进行配置,选择可视化样式,如基础的柱状图等统计图样式,以及词汇云图、地图、热力图、树状图等。Superset为数据分析人员提供了丰富的可视化图表,在最新版本中其支持的图表类型已达到36种,而且在选择图表时还可看到每种图表的缩略图。图2展示了部分图表样式。
当Superset成功连接数据库后,需要定义可视化所需的表字段信息,Superset对表的定义主要是通过选择指标(Metric)信息实现的。指标是指对某个字段的统计结果,如求和、均值、最值等。对数据分析人员而言,不是直接在Superset上编辑SQL语句,而是通过选择指标(Metric)、分组条件(Group)与过滤条件(Filter)制作图表。在对数据库中的表数据进行可视化并形成可视化图表后,将其保存为切片(Slice)。创建多个用户切片后,可将多个可视化切片展现在一个仪表盘(Dashboard)上,通過调整各切片大小和位置,构造一个分布合理、外表美观的仪表盘。每个仪表盘上展示的图表都对应一个数据分析主题,如图3中的世界银行数据统计仪表盘展示了可进行交互式计算的数据透视表、时序线型图、时序面积图、旭日图、箱型图及树状图等。该图表不仅多层次地展示了数据背后隐含的实际意义,同时也极大地丰富了视觉效果,使原本枯燥繁琐的数据变得清晰明了。
2 需求分析
2.1 功能需求分析
2.1.1 产品价格对销售额的影响
一般而言,影响销售量的一个重要因素是产品价格,但产品价格对产品销售量的影响并不是简单的线性关系,不是价格越低用户购买量越高、价格越高购买量越低,消费者追求的通常为性价比。但是针对不同层次的消费者而言,性价比的定义又存在差异。因此,在分析产品价格因素的同时,应当综合考虑定位于不同消费层次产品的购买者因素[10],从这两个维度进行分析将更为合理。
2.1.2 产品销售额时序分析
每个产品都存在生命周期,由于消费者消费需求、消费方式、消费心理的变化以及影响市场其它因素导致的商品由盛转衰周期综短,使得产品销售额分析变动更加复杂。产品周期通常分为进入期、成长期、成熟期和衰退期[11]。在生命周期的不同阶段,企业可采取不同措施,以实现产品销售额最大化。
如在产品进入期,可通过加强新产品宣传力度,告知消费者该产品优势,以便在产品投入市场时能够吸引消费者注意;在每年的购物狂欢节推出产品优惠活动,从而提高产品销售额的饱和度;在产品衰退期分析产品衰退原因或性能缺陷,以便更好地在开发新产品时对其进行改进。综合分析华为几种不同系列手机上市至今的销售额,并针对店铺采取的不同措施,分析相关措施产生的效果,从而为产品未来发展作好规划。
2.1.3 产品配置对销售额的影响
电子产品最吸引消费者的通常是其硬件条件,对于手机而言主要包括两个方面:性能和外观。智能手机性能主要通过以下几个数据指标值体现:内核数、运行内存、存储容量、分辨率与摄像头像素等。同时,外观也是消费者购买产品时考虑的重要因素之一,不同性别、年龄层次的消费者对于外观的选择通常有所区别,应当考虑在同一类型消费群体中消费者更偏爱哪种外型。此外,在购买手机时往往还会涉及一个附加增值保障服务,即手机保险,如全保修两年、一年碎屏保险等,由于青年消费者往往容易发生手机碎屏事故,如提前购买碎屏保险,相比更换原装手机屏幕要划算很多。所以针对特定消费群体的手机推出此类增值保障服务,一方面考虑了消费者实际需求,另一方面也能够带来增值消费,从而使双方受益。
2.1.4 用户评价内容分析
在信息化时代,各种信息充斥着人们眼球,网购消费者在选购商品时通常会参考其他顾客的评价信息。同样,对于品牌商家而言,对评论信息进行深入挖掘与分析,一方面可以了解顾客对商品的真实感受,另一方面,评论内容在一定程度上可以反映用户需求,从而使商家能够更好地把握市场趋势,生产出令顾客满意的产品[12]。评论信息往往能反映出用户对商品、服务的关注点及不满意之处,从情感分析角度可将其分为正面和负面,还可对用户负面评价信息从细节粒度上进行分类,例如是对商品某方面不满意,还是对物流、店铺服务态度等不满意,从而更加精准地定位需要改进与优化之处。但是用户评价内容往往多且杂,如何在相关数据中准确挖掘出有效信息,最直接的方法就是提取关键词,并统计不同关键词重复出现的次数。某关键词出现次数越多,表明用户对该商品某个属性或性能关注度很高,并且针对不同系列商品,相应消费群体对商品的关注点也不同,所以找出这些关注点是用户评论内容分析的关键。
2.1.5 产品销售地域数据分析
通过对商品订单地域数据进行分析,可以得到不同地域销售特点,从而实施不同销售策略。分析该品牌商家在不同城市的订单金额和订单数目,一方面,商品订单金额可直观反映某区域人群的消费水平,订单金额越大的城市往往消费水平越高,消费者购买能力越强,其在购物时往往很少将价格作为首要考虑因素,而是更加注重商品质量与售后服务,因此这类消费者群体通常追求高质量的商品。另一方面,电子商务都涉及产品运输问题,通过分析商品订单的地域数据,有利于品牌商家针对不同地域设置不同条件以解决物流问题。对于订单交易额大的区域,可根据实际情况合理选择商品仓库地点,针对该区域用户还可选择包邮策略或多买多降策略,以此吸引顾客,提高订单量和消费金额。
2.2 可视化需求分析
2.2.1 气泡图
气泡图类似散点图,但与散点图的不同之处在于气泡图中的气泡有大小和颜色之分,气泡颜色可以代表一个维度(Series),而气泡实体(Entity)可以代表该维度下的某个属性,气泡大小(Bubble_Size)代表该属性度量值大小,并且度量值越大,气泡颜色越深。气泡图适用于表述某品牌不同类或不同系列商品的属性值差异,并且品牌商品越多,数值型差异越大,气泡图中的区别也更加清晰可见。
2.2.2 南丁格尔玫瑰图
南丁格尔玫瑰图将不同颜色的饼状图与直方图相结合,外形就像一朵绽放的玫瑰,因此称为“玫瑰图”。在分析不同系列手机在不同月份的销售额变化情况时,普通柱状图无法给人以直观感受。南丁格尔玫瑰图用扇形面积大小代替柱形长度,同时结合不同月份购物平台节日活动对不同消费群体的影响对比,能更好地分析消费者心理,针对不同消费群体开展促销活动,从而吸引更多消费者。
2.2.3 旭日图
旭日图是一种现代饼图,其超越了传统饼图和环图,能明确表达层级与归属关系,并以父子结构显示数据构成情况,又称为“太阳图”。越靠近图中心则表示范围更大、等级更高,通常相邻两层是内层包含外层的关系。在很多实际应用场景中都适合使用旭日图,如在销售汇总中展示不同区域各种产品的销售信息等。
在分析消费者对手机性能与外观的喜好时,由于涉及两个类别,而这两个类別又存在相互包含的关系,手机内存属性下包含各种不同颜色,同时也可以理解为各颜色都配有不同内存大小的手机。由于手机内存大小通常只包括32G、64G、128G,故选择手机内存大小为内环数据,外环数据表示手机颜色属性。此外,不同系列手机通常针对不同消费群体,对不同系列手机通过旭日图进行分析对比,可看出不同消费群体对手机性能配置与手机外观的喜好,从而可根据消费群体的不同特点考虑两者之间的取舍,使手机的设计更加个性化。旭日图不仅能清晰、明确地表达数据结构,同时相比于传统饼图与环形图,其图表效果更加美观。
2.2.4 词云图
词云图也称为文字云,用于处理复杂的文本数据,并对其中的关键词按词频高低进行可视化展示。词云分析可过滤掉大量低频且无关的信息,使用户能够清晰看到文本数据主要传达的信息。词云图最常用于对大量文本信息的发掘分析,如对热门文章进行分类统计,通过词云图可以看出近期文章的热点话题,或对某网站购物平台的产品名词汇总后进行词云分析,可以得出热销商品等。词云中词汇有大小与颜色两个特征属性,关键词的词频越高,颜色越醒目、词汇越大。
词云图也可适用于分析手机用户评价信息,用户更多的是关心该款手机运行速度、内存大小,还是外观形状,对手机的使用评价是正面肯定还是缺点吐槽等,相关信息有助于品牌商家未来对产品的改进与优化。
2.2.5 国家地图
分析商品在不同城市的销售额,人们大多数时候最先考虑的是柱状图,由柱形长度表示销售额高低,能直观地看出不同区域的销售差异。但是数据可视化并不仅是统计图表,可视化是借助图形方式展现某一事物的逻辑规律[13],分析商品销往地更重要的是了解某区域销售情况,如国内的沿海城市、中部地区、西北地区等区域,商品在不同地区的销售额一定程度上反映了该地区经济水平。Superset提供了国家地图图表功能,地图上的颜色深浅代表商品度量值大小,由于在地图上数据指标(Metric)可以根据需要进行选择,指标为订单数目时为不同地区销售额差异,国家地图在分析此类区域性数据时更为清晰、直观。
3 可视化过程设计与实现
3.1 概述
本文基于ubuntu系统进行设计,利用Python获取并处理网络订单交易数据后存入MySQL数据库,将数据库与Superset可视化工具连接,从而在Superset上实现对数据库表的可视化投影,最终得到仪表盘如图4所示。
3.2 数据获取与处理
本文的数据可视化研究以华为手机线上销售数据为例,由数据信息可知,华为手机分为4个系列:Mate系列、P系列、畅想系列以及Nova系列,4个系列又分别包含不同机型,如P系列的P10、P20等机型共18种,可以通过数据统计、网络爬虫及商家订单报表等途径获取18种手机的销售信息。
获取源数据后,在其中提取所需信息,如在进行销售额时序分析时,通过对订单时间的统计,以月份为单位观察销售额变化情况,再存入相应数据库中用于可视化。
3.3 可视化实现及结果分析
3.3.1 商品价格对销售额影响气泡图
根据气泡图的3个属性Series、Entity、Bubble_Size,建立bubble数据库,3个列属性分别对应手机系列、手机名称、销售额。将价格—销售额数据表导入Superset后进入可视化界面,选择可视化图表类型(Visualization Type)为气泡图,设置Series属性为手机系列,Entity为手机具体机型,气泡尺寸表示总销售额,同时设置x轴为商品价格,y轴为销售额,点击查询即可生成气泡图,如图7所示。
华为品牌旗下手机分为4个系列:Mate系统、P系列、Nova系列以及畅想系列[14],其中Mate系列主攻高端、商务续航,屏幕大,续航时间长,目标群体为中年商务人士;P系列稍逊于Mate系列,主攻拍照技术以及创新软件,以吸引年轻消费者,目标群体为年轻商务人士;Nova系列价格中等,主攻拍照技术与外型设计,目标群体为普通年轻群体;畅想系列价格实惠、性价比高,适用于中老年群体。
结合上述信息分析气泡图可得出,对于不同消费群体,销售额随价格变化情况也不同,有的价格高购买量多,有的价格低反而购买量多,这是由于不同消费习惯与消费心理决定的。因此,面对不同消费群体,应当采取不同策略,以推出最适合该群体的消费产品。
3.3.2 商品销售额时序分析玫瑰图
南丁格尔玫瑰图中列出了3款手机在2017年3月~2018年3月期间不同月份的销售额,因此需要分别获取3款手机的销售数据。网购商品销售额即商品用户评价数目,只有用户购买并使用了该款产品才能够作出评价。在用户评价页面有购买时间记录,该数据类型为datetime,格式为年-月-日-时-分-秒,因此一个购买时间记录可以代表一个订单,只要统计出不同月份的购买时间记录数量总和即为该月销售额。
玫瑰图展示的是2017年3月~2018年3月期间3款手机的销售额变化情况,这3款手机都是2017年3月上市,从图中可得出以下信息:首先从整体上看,在2017年11月、2018年2月以及2018年3月销售额较高,而这3个月份刚好是双11和春节期间,春节期间销售额达到最高,反而在新品上市期间销售量较少。同时,图中深蓝色部分面积最大,表示Mate9型号手机销量最高。华为手机给大众的感觉是“沉稳、低调”,这也符合其主要目标群体中年商务人士的形象定位。对于Pro10和畅想6s两款手机,销售额一直保持平稳,但Pro10在11月份销量出现大幅增长,主要由于双11活动期间最活跃的消费群体是年轻消费者;畅想6s手机仅在春节期间销量增长,符合中老年群体的消费习惯。根据以上信息,商家可以在不同节日有针对性地开展促销活动,才能实现销售额最大化。
3.3.3 商品销售额配置分析旭日图
旭日图对应数据表信息包括手机颜色、内存大小与销售额。图9中的3张旭日图分别是Mate9、Pro10以及畅想6s手机的购买量分布情况。从内存大小维度看,Mate系列手机的128G大内存机型购买量较多,Pro系列中64G机型占绝大多数,而畅想系列几乎都为普通版(32G);从外观颜色维度看,Mate系列主流颜色为金色和灰色,Pro系列手机颜色较为丰富,蓝色、黑色、金色等5种颜色销量分布均匀,而畅想系列金色手机的销量占绝大部分。从上述数据可以看出,Mate系列手机用户多选择内存大、颜色大气的机型,Pro系列手机用户追求时尚、配置要求中等,畅想系列手机用户大多追求性价比,对外型和内存要求不高。
3.3.4 商品评论内容词云图
从源数据图可以看出,用户评论信息内容多且词汇多样,需对词汇进行中文分词。中文分词是将汉字序列切分为一个个单独词汇,Python提供jieba模块用于对文本数据进行分词[15],但该分词方式效果不佳,分词结果中会出现部分无用信息,且有些特定词组被拆分,故需要为jieba模板加载自定义词典和停用词表。自定义词典包含jieba词库中不存在的词,如“创新软件”、“指纹解锁”等新词汇,以保证分词准确率。停用词是指在分词过程中希望能自动过滤掉的词汇,如“一天”、“时间”等无实际意义的词汇,以确保分词得出的关键词更加符合需求。
采用Superset分别对3款手机的评论信息进行词云图可视化,对比图11中的3张图,可看出用户的不同需求与使用产品的真实感受。从图中可以看出,Mate手机用户对手机续航、拍照、质量要求较高,手机使用评价为“大气”、“流畅”,还可以看到“老公”词汇频率也较高,表明多数情况是女性为其工作的丈夫选购;Pro手机云图中,“外观”、“时尚”、“指纹解锁”字眼醒目,符合年轻消费者对手机的需求,Pro系列手机的“指纹解锁”、“创新软件”等特点也得到了用户的重点关注;由畅想系列手机词云图可以看到,“性价比”是用户关心的主要方面,其次“质量”、“实惠”符合中老年群体消费特点。从用户评价信息可以得出未来产品的发展定位,以及不同系列产品的优化重点。
3.3.5 商品销售城市分布图
Superset提供的城市分布图可更直观地反应不同区域销售额,从商家报表中的用户地址中提取省份名称,并将其转换为对应序列号,最后生成城市地图。
从销售额城市分布图可以得出,沿海地区的浙江、江苏、上海、广东以及北京5个省份(城市)的订单数量最多,其次是福建、四川、重庆以及东北地区,中部地区订单数量一般,最少的是西北地区,因此可根据不同地域的销售特点实施不同销售策略。发达城市客户购买能力强,可以针对相关群体采取网购包邮策略,以进一步提高订单数量;对于其它城市,则可以通过降低商品价格以吸引客流。这里的降低商品价格并不是单纯降低单个商品价格,而是可以采取多买多降策略,以提高消费总量。网购平台并不能只依靠一线城市的消费群体支撑,其它城市的销量也是需要重点关注的,所以应当针对不同区域消费者特点实施差异化的销售策略。
4 结语
商务智能在如今的商业决策领域发挥着越来越重要的作用,继数据仓库、联机分析处理、数据挖掘等技术的广泛应用之后,数据可视化技术也开始应用于商务智能领域。数据可视化技术可帮助企业管理者更加清晰、直观地理解企业数据,掌握企业发展趋势,以便作出关键决策。
本文的数据可视化研究是基于Apache Superset这一强大的可视化工具完成的,但Superset在处理结构复杂的海量数据信息方面仍存在一些不足,其提供的可视化模型并不能完全满足商业数据信息可视化需求。同时,在数据可视化过程中,从数据信息的采集、存储,到分析、处理及可视化,每个阶段都需要人工进行处理,无疑大大增加了数据分析人员的工作量。因此,针对特定的数据分析工作,应当将相关大数据技术进行系统化,建立智能化的信息集成控制平台,将数据处理工作全部交由系统完成,从而提高数据管理工作效率,实现企业信息数据资源利用的最大化。
参考文献:
[1] 史启民,李东辉,何鹏. 大数据可视化技术在智能化行業中的应用[J].软件应用,2017(30): 19-21.
[2] 陈红军. 商务智能基于大数据的有效决策[J]. 企业管理,2018(4):101-103.
[3] 陆遥. 数据可视化探索系统的设计和实现[D]. 杭州:浙江大学,2016.
[4] 蒋晓宇. 基于Tableau的可视化业务报表的设计与实现[J]. 数字通信世界,2017(2):230-231.
[5] 毕万林. 基于BI的电信经营分析系统报表工具[D]. 大连:大连交通大学,2013.
[6] 柏茂源,代福平. 数据可视化在电子商务大数据领域的应用研究[J]. 艺术与设计:理论, 2017(3):76-78.
[7] 何雪莹. 探索性数据可视化分析系统的设计与实现[D]. 成都:西南交通大学,2017.
[8] 杨倩雯. 商务智能主要技术的发展和应用[J]. 信息技术,2015(8):24-25.
[9] 郝希亮,张海鹏. 基于Web的多维数据可视化系统设计[J]. 软件导刊,2018,17 (8): 133-136.
[10] 刘志超,陈勇,姚志立. 大数据时代的电子商务服务模式革新[J]. 科技管理研究, 2014, 34(1):31-34.
[11] 王茜, 钱力. 大数据环境下电子商务个性化推荐服务发展动向探析[J]. 商业研究, 2014(8):150-154.
[12] 董艳,高健飞. 大数据时代下如何打造个性化的商务智能实践[J]. 科技资讯,2015,27(18):18-19.
[13] 崔迪,郭小燕,陈为. 大数据可视化的挑战与最新进展[J]. 计算机应用, 2017(7):226-231,238.
[14] 籍瑞华. 华为手机的定价战略简析[J]. 新商务周刊,2018(7):151.
[15] 林川,王小华. 基于ERP的商务智能系统设计与应用[J]. 航空制造技术,2014(8):113-117.
(责任编辑:黄 健)