APP下载

基于淘宝某商品销售量监控系统

2016-06-16陈阳

科技经济市场 2016年2期
关键词:网络爬虫销售量淘宝

陈阳

摘要:本系统对网络爬虫获得的数据进行分析,实现对淘宝某商品销量的监控功能,从而达到更深入的了解消费者对于某种商品的喜好程度,以此来判断和决定以后的商品的销售。了解淘宝网的网页架构和一些特定的规则,并依据此来编写相关的代码和特定的规则,编写JAVA代码并使用了网页渲染工具以及浏览器工具。利用编写好的程序下载我们所需要的特定的网页数据,通过DOM解析分析并提取我们所需要的信息,将获取到的信息存入数据库中,最终通过Web展示在网页上。

关键词:网络爬虫;淘宝;销售量

0.引言

伴随着电子商务的迅猛发展,越来越多的人喜欢和趋向于网络购物。基于网络购物成功的典型案例淘宝网来说,在淘宝网进行销售的总经销商来说,能及时的掌握分销商的销售量信息,这样不仅可以帮助他们更好的生产和合理的分配自己的产品分配,还有助于提高企业的效率和利润。目前经销商对于分销商的淘宝商户的数据监控是有需求的,但淘宝却只提供淘宝客户对自己的数据管理和查看,并不允许他人获得这些商业信息。传统的方式是利用人来手动输入网址和查看各个淘宝商户的数据并记录。这就需要大量的人力和时间,还存在效率低出错率高得缺点。基于淘宝商品的监控系统能够帮助经销商系统的、全面的、更加直接的监控分销商的销售信息。系统可以帮助任何一个经销商对自己在淘宝网的各个分销商的销售量进行监控,在功能方面主要可以获取某个商品在淘宝网所有商家的网络地址和每个商家的每月的销售量的展示和查询。

1.需求分析

对于淘宝网的总经销商来说,如何生产和分配自己的产品无疑是重中之重。某知名商品的总经销商为了监控自己淘宝网下的各个分销商的销售量情况,利用人工的手段实时的蹲守在电脑旁查看和记录每个分销商的销售情况,这样的手段太消耗人力和时间,而且没有效率。如果可以利用程序自动的去获得没一家分销商的商家地址,已经他们每个月的销售记录,并对商品的销售量进行实时监控。这样不仅可以帮助他们更好的生产和合理的分配自己的产品分配,还有助于提高经销商的效率和利润。

2.系统设计

(1)功能设计

系统包含的功能有两部分,商家地址的获取功能和网页内容的获取功能。商家地址的获取功能主要是实现商家网址获取的功能。首先由用户键入要监控的产品的名字即关键字。然后由应用端程序获取关键字并在淘宝中搜索关键字,将得到的结果页面进行分析,并按照特定的规则去筛选,符合条件的网址即为商家店铺网址,不符合的则舍弃。网页内容的获取功能主要是首先将保存网页地址的文件读入,将得到的网页地址进行解析,并获取网页内容,利用网页内容生成DOM树。按照之前找好的网页规则,输入要查找的内容所在的节点即唯一的ID。通过ID查找DOM树种是否含有此ID,如果有则提取ID内容并存入数据库中,如果没有则返回null并退出程序。

(2)数据的抓取和存储

系统对数据的抓取和存储使用了两种方式,分别是商家地址的抓取和存储和商家销售量信息的获取和存储。对于商家地址的抓取和存储为外部文件,当用户在服务器端键入关键字的时候,应用服务器端会搜索关键字并将得到的搜索结果页面进行解析。按照特定的规则分析其中包含的网页地址,经过筛选和提取获得我们所需要的商家的地址,将这些商家的地址一一保存在外部文件URL.txt中。对商家销售量信息的获取和存储首先从外部文件URL.txt中获取网页地址,然后在应用服务器端解析地址并获得其内容,服务器端会根据内容生成DOM树,根据之前所给定的ID节点查找DOM树,找到ID之后提取其内容并将提取出来的内容保存如数据库表taobao中。

3.系统实现

(1)商家地址的提取、存储成文件、网页内容的获取。

其中商家地址的提取使用了ItemDemo,Java,是一个实现获取所有商家地址的类。其中main方法是想parseListDocument方法传人商品名参数,和调用SaveUrlToFile类中的writeLinesToFile方法来将得到的结果输出成外部文件。parseListDocument方法是通过处理parseProductUrl返回的参数以此获得所有商家地址。parseProductUrl方法是将getPmductListDocument方法中所获得的所有地址进行解析和分解并进行组装,获得我们所需要的地址。

猜你喜欢

网络爬虫销售量淘宝
2017年美国电动自行车销售量增长了440%
炼铁厂铁量网页数据获取系统的设计与实现
美国豆粕出口销售量预计为0到18万吨
贴吧吧主诋毁淘宝店败诉
第一次“淘宝”
2013年美国钛产品销售量出现大幅下滑
淘宝俱乐部