网上交易平台数据分析
2018-10-31辛梦阳迟冬祥张媛媛
辛梦阳 迟冬祥 张媛媛
摘要:网购的便利和快捷,催生了众多“买买买”和“剁手党”。冲动消费之后,大量的闲置物品也让二手交易平台的热度变得越来越高。本文将统计58同城二手iPhone价格,作出价格预测并验证。助力商品定价,加快交易速度。
关键词:网络爬虫;python;excle;tableau;数据建模
中图分类号:TP393 文献标识码:A 文章编号:1007-9416(2018)06-0205-02
1 数据获取与分析方法
1.1 数据获取
使用python语言编写爬虫工具是抓取网络数据最快的方法[1]。本课题研究需要爬取58同城二手商品交易信息,将涉及到基础爬虫架构中的 HTML下载器、HTML解析器、数据存储器三大模块。
1.1.1 构造HTML下载器
使用python的“requests”库,模拟用户请求得到相应的回应据。具体来说分为三步。
(1)模拟用户。网站对请求的检测和内容回应,是基于浏览器的“User-Agent”(用户头)标识的。定义requests库中的‘header‘参数为Mozilla/5.0 (Windows NT 10.0; Win64; x64),网站就会返回适用于桌面浏览器的内容。
(2)访问特定url。模拟用户请求后,接下来访问想包含研究数据的链接,比如在本课题中就是访问58同城的二手商品链接。至此,程序便实现了一次网络请求。
(3)编写循环模块。使用循环结构可以完整连续地获取信息,可以连续自动对所有二手商品进行网络请求。
1.1.2 构造HTML解析器
发出网络请求后,网站会返回响应。响应以HTML格式下载到本地,我们需要取出其中的部分信息,比如商品价格。所以需要构造解析器将返回的HTML文本做分析处理,取出需要部分。这里可以分为两大步:
(1)构造正则表达式。根据HTML的元素逻辑,使用正则表达式取出需要数据,而且对于同类型的HTML文本,正则表达式是通用的。
(2)构造解析模块。这里的模块比上一部分的循环模块,多了迭代的功能。采用yield表达式for-in方法,只构建一次表达式,一次的把结果拿出来,实现数据的解析提取。
1.1.3 构造数据存储器
数据存储有三种流行方案:(1)纯文本text存储。优点是方便使用;缺点是不很适合元素较多,数据量比较大的项目。(2)csv格式文本。相对于第一种纯文本,解决了数据格式不够健壮的问题。(3)MongoDB数据库。存储内容更多,可以导出csv文本。
由于不确定最终的数据量,为了保险起见在数据采集阶段使用MongoDB。
1.2 数据清洗
通过网络爬虫得到的数据通常存在数据元素残缺和信息冗余的情况,直接分析难度较高而且会影响最终结果[2]。所以在数据分析之前,使用excle做清洗整理的工作。将MongoDB内容导出csv文件,使用excle实时动态地对csv进行操作。清洗整理的步骤分为两步:去除无效数据;选取研究对象。
1.2.1 去除無效数据
无效的数据可能是:发错版块的信息,比如二手交易板块下出现的求职信息;因为网络原因或者程序错误产生的多条相同数据或者残缺的数据;无意义的数据,比如说我们要做价格分析,但某商品的标价是“面议“,由于我们不可能每个面议都具体了解,所以直接舍去这类数据。如图1。
1.2.2 选取研究对象
为了商业指导和数据分析并实际意义,选取一个数据量和广度足够合适的范围进行分析,合适的原则分为如下两点。
(1)有足够大量的数据支撑。可以避免分析结果偶然性的基础,也是分析结果具有实际意义的保障。二手交易板块几个大类中数据量最大的是手机类。所以直接在使用筛选工具取出了手机类数据。如图2。
(2)商品间可比性高。手机产品存在品牌差别和高中低定位的差异,iphone和老人机可比性较低。所以进一步将分析对象变成了同型号的苹果手机作为研究对象,这个商品数据量较大有接近3000条,发布时间跨度较大,成色差异明显,具有很高的可比性和研究性。如图3。
2 数据分析结果
2.1 数据分析工具与方法
完成了数据的清洗整理之后,我们也就确定了研究的对象。也就是58同城二手交易板块iPhone。对于手机这类商品来说,可以做如下几类分析:二手手机成色对售价的影响;各代手机价格差异;二手手机售价随时间的变化。可视化分析工具选用tableau,其csv支持较好,内置分析工具强大。
对数据进行整体观察可以看出,清洗整理得到的iPhone的商品信息中,有几个满足分析条件的属性。时间跨度较久;型号较为齐全,从比较早的iPhone4一直到iPhone6s都有记录;数据量比较充足,可以避免产生偶然结论。
首先,我们针对不同型号的iPhone做了价格统计,使用tableau可视化工具,并且根据年份整理出可视化图表。
可视化分析后可以得出结论:比较老的型号的二手iPhone售价较为稳定,比较新的型号波动较大。比如iPhone6s 在15年12月的第三第四第五个星期前后价格波动很大,而iPhone5c的售价基本没有变动。
基于价格变动信息做建模拟合的操作,预测不同型号二手iPhone的价格变动,可以得到一类规律。为了做价格预测,我们将信息从时间维度上被划分为两段,我们对前一段段做建模拟合操作,得到价格预测模型。然后预测后一段的售价,并把拟合曲线放到原图中与真实数据做比较[3]。这样可以直观地看出拟合是否准确,这种做法从原理上较为严谨。
2.2 分析结果
對前四个月的数据进行数学建模,使用均值模型得到各个时间段的平均价格,对所有型号的手机应用此模型,可以拟合得出一条平均价格线。在前一个可视化视图的基础之上,添加使用均值模型得到了平均价格线,得到带有预测功能的可视化基础。
根据对前4个时间段的拟合结果可以得出:除了6s和6sPlus机型外,其他机型售价的拟合曲线基本准确,并且对后一段的预测也较为准确,有使用参考意义。而对于6s和6sPlus机型,由于前一段的售价波动巨大,虽然我们的拟合曲线穿过了售价折线图,但对后一段的预测不是很好,对比其他机型的预测结果来看,前一段段的售价波动较大应该是造成预测效果较差的主要原因。
3 结语
本课题分析最终对象选取的是58同城的二手iPhone。对象数据的获取是通过网络爬虫的方式实现了二手iPhone各项商品信息的抓取。在数据清洗部分,使用带有友好图形界面,且可以对数据调整实时反馈的excle进行了数据的清洗筛选。最后的数据分析,通过tableau可视化数据分析工具进行了数据统计和建模,得到了数据的数学模型和预测模型。通过最终拟合曲线来看,得到的拟合曲线较为准确,并且预测效果较好。从成果的具体应用上来说,为苦恼于闲置物品处理的“剁手党”提供了保证性价比的定价策略。让定价过程更轻松,为二手商品交易双方提供了合适的交易价格。如果在卖家发布商品信息时作为参考价格显示,将加速整个二手交易平台的商品流通速度。也会使本课题的研究有现实中的体现。
参考文献
[1]陈胜.基于互联网大数据挖掘的无车日路况分析以苏州古城为例[J].中国地址研究,2006,(3):16.
[2]李家斌.基于开放数据挖掘的杭州公共自行车服务特征研究[C]//中国城市交通规划年会论文集.2007.
[3]张禄,潘鸣宇,田贺平,等.基于数据挖掘技术的电力客户欠费风险预警研究[C]// 2017智能电网发展研讨会论文集.2017.
Abstract:The convenience and speed of online shopping have spawned many "buy and sell" and "chopped hands". After impulsive consumption, a large number of idle goods also make the heat of second-hand trading platform more and more high. This article will calculate the price of second-hand iPhone in 58 cities, make price prediction and verify it. Boost the price of goods and speed up the trading speed.
Key words:web crawler;python;excle;tableau;data modeling