APP下载

浅谈利用paython语言完成电商网站商品信息的爬取代码设计

2018-03-21梁思远成都市铁路中学

数码世界 2018年2期
关键词:商品信息爬虫代码

梁思远 成都市铁路中学

1 引言

现在网上购物已成为人们生活的一部分,各类购物网站中蕴含着巨大商品信息和商品价格。但是,因为在购物网站中存在大量的商家,同一个商品的报价存在着差异,对于购买客户来说价格比较是一个比较枯燥烦琐的问题,因此,许多技术成熟的科研团队自行开发爬虫系统来获取商品信息和价格供购买客户进行价格比较,我们在这儿只是探讨一下爬虫技术的简单实现。

Python 作为一个语法简洁的程序设计语言,对于爬虫开 发上有得天独厚的优势,在模拟浏览器行为登入网站时,Python 相比于 Java,C#,C++等拥有更简洁抓取接口,当模拟 session/cookie 的存储和设置时,Python 提供诸多优秀的第 三方包譬如 Requests。在进行网页抓取后的处理工作时,Python 提供的 BeautifulSoup 库能用极简短的代码完成过滤html 标签,提取文本的工作。

2 利用Python语言实现的爬虫代码

[1]林晓丽,胡可可,胡青.基于 Python 的微博用户关系挖掘 研究[J].情报杂志,2014,33(6):144-148.

[2]陈政伊 袁云静 贺月锦 武瑞轩基于 Python 的微博爬虫系统研究 [J].大众科技,2017年8月第19卷216期:8-11.

[3]周中华,张惠然,谢 江 . 基于 Python 的新浪微博数据爬虫 [J].计算机应用,2014,34( 11) : 3131 - 3134

[4]Shih-Yu Huang,Yeuan-Kuen Lee,Graeme Bell,Zhan-he Ou,et al. An efficient segmentation algorithm for CAPTCHAs with line cluttering and character warping[J].Multimedia Tools and Applications,2009,48(2):267-289.

猜你喜欢

商品信息爬虫代码
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
备战双十一
基于Scrapy框架的分布式网络爬虫的研究与实现
谁抢走了低价机票
神秘的代码
一周机构净增(减)仓股前20名
一行代码玩完19亿元卫星
电子商务背景下商品信息检索问题研究
近期连续上涨7天以上的股