浅谈利用paython语言完成电商网站商品信息的爬取代码设计
2018-03-21梁思远成都市铁路中学
梁思远 成都市铁路中学
1 引言
现在网上购物已成为人们生活的一部分,各类购物网站中蕴含着巨大商品信息和商品价格。但是,因为在购物网站中存在大量的商家,同一个商品的报价存在着差异,对于购买客户来说价格比较是一个比较枯燥烦琐的问题,因此,许多技术成熟的科研团队自行开发爬虫系统来获取商品信息和价格供购买客户进行价格比较,我们在这儿只是探讨一下爬虫技术的简单实现。
Python 作为一个语法简洁的程序设计语言,对于爬虫开 发上有得天独厚的优势,在模拟浏览器行为登入网站时,Python 相比于 Java,C#,C++等拥有更简洁抓取接口,当模拟 session/cookie 的存储和设置时,Python 提供诸多优秀的第 三方包譬如 Requests。在进行网页抓取后的处理工作时,Python 提供的 BeautifulSoup 库能用极简短的代码完成过滤html 标签,提取文本的工作。
2 利用Python语言实现的爬虫代码
[1]林晓丽,胡可可,胡青.基于 Python 的微博用户关系挖掘 研究[J].情报杂志,2014,33(6):144-148.
[2]陈政伊 袁云静 贺月锦 武瑞轩基于 Python 的微博爬虫系统研究 [J].大众科技,2017年8月第19卷216期:8-11.
[3]周中华,张惠然,谢 江 . 基于 Python 的新浪微博数据爬虫 [J].计算机应用,2014,34( 11) : 3131 - 3134
[4]Shih-Yu Huang,Yeuan-Kuen Lee,Graeme Bell,Zhan-he Ou,et al. An efficient segmentation algorithm for CAPTCHAs with line cluttering and character warping[J].Multimedia Tools and Applications,2009,48(2):267-289.