利用Python语言爬取农产品网站的技术研究
2018-07-27徐东升张昊辰
环球市场信息导报 2018年21期
徐东升 张昊辰
一、刖吾
我国政府非常重视农业的信息化建设,农业信息化已有30多年的历史,特别是近几年,基于物联网技术、传感器、移动通信、云计算等技术为基础的智慧农业…的发展,农业的信息化建设已经融入到农业产业的各个领域。
随着农业信息量的加大,如何利用数据爬取的方法,帮助农业信息需求者从已存在的海量数据中快速定位自身需求的信息,从而使需求与信息匹配,最大程度的发挥农业信息对农业经济的支撑和引导作用是一个研究点。
二、技术研究
从海量的数据中爬取需要的数据并入库是本研究的重点,以从农业信息网( WWW.nongnet.com)获取“苹果”信息为例进行接下来的研究。从农业信息需要者的视角登录并访问该网站,打开任意1条“苹果”的农业信息,需要从首页开始依次点击“水果”一>“苹果”,并点击大图列表才能进入具体的页面。这个过程是非常繁琐和低效的。对有信息需求者而言,最关注的的就是三个信息,即联系人,联系方式和地址,可以看到对应网站上的条目分别是“联系人”、“手机号码”、“所在地区”。加上要查找信息的条件,即“产品品种”,相当于对于任何来自于该网站的信息,最关键的只需要首先获取者以上4条信息即可。
接下来利用python编写一段程序,将该网站下的基于以上4个关键字段进行网页爬取。部分代码如下:
resp=requests.get(url,timeout=30)
resp.encoding= 'utf-8'
print(resp.status_code)
products= re.findall(r'pic_divxinxi_ title.+?