网络爬虫,凶猛来袭
2018-03-13闫珍珍
闫珍珍
“爬虫”,是一个“收集控”,它在各大航空公司的网站收集低价机票,在每个时间每个航段之间对比,选出最便宜的。这对于人类来说是一项非常烦琐复杂的工作,但对于网络“爬虫”来说却可以迅速完成;“爬虫”又是一个“伪装者”,它收集到特价机票后仿冒真人用户抢订机票
网络爬虫、Python语言……这些高科技黑话你懂吗?
懂,说明你可能是折扣秒杀高手;不懂,那你就要看看这篇文章了。或许今年再写年终总结时,用一个“爬虫”软件就可以一“爬”搞定,再也不用一页一页找材料了。
幕后黑手
特价机票轻轻松松被“爬”走
近日,为春节出游做准备的小王正在各大航空公司网站抢购特价机票。然而,设置了闹铃、把家里网速宽带提高到100兆的她还是一无所获。而她的闺蜜却在某“爬虫”软件的帮助下,成功抢到特价机票。
这里所说的“爬虫”,是一个“收集控”,它在各大航空公司的网站收集低价机票,在每个时间每个航段之间对比,选出最便宜的。这对于人类来说是一项非常烦琐复杂的工作,但对于网络“爬虫”来说却可以迅速完成;“爬虫”又是一个“伪装者”,它收集到特价机票后仿冒真人用户抢订机票。
由于“爬虫”的效率远远超过正常的手动操作,导致通过正常操作几乎无法抢到票。代理公司抢到票后不会立即付款,他们会在航空公司允许的账期内,寻找真正客源,然后退订此前使用虚假客源身份预订的低价票,再使用真实身份信息进行订购,最后实现该低价票的加价转售。如果未能在规定账期内找到真正客源,代理公司会在订单失效前再追加虚假身份订单,继续“霸占”该低价票,直至找到真正客源售出为止,而普通用户在航企官网查看时却显示低价票已售罄。
其实,“爬虫”技术并不神秘,无非分为三步:“爬”上网页、“铲”下数据,最后进行加工清洗。
事实上,机票代理公司用“爬虫”抢特价票再加价售卖也不是秘密。在线票务服务公司携程的“反爬虫”专家在技术分享中透露,某网站的一个页面,每分钟的浏览量是1.2万,真实用户只有500个,“爬虫”流量占比为95.8%。很多业内人士也表示,即使在“爬虫”活动的淡季,虚假流量也占到订票网站总流量的50%,高峰期更是占到90%以上。
功能强大
人脸识别舆情监控都靠“爬”
“爬虫”技术刚刚出现时,并不是一个抢票工具,而是采集公开数据、然后进行分析使用的工具。爱济南APP的研发者之一、舜网研发部主任李滨告诉记者,“爬虫”最早应用在搜索引擎领域比如谷歌、百度、搜狗等,因为每天需要抓取数百亿的网页,所以它们需要借助庞大的“爬虫”集群来实现搜索功能。这种信息采集过程很像爬虫或蜘蛛在网络上漫游,因此得名。
随着人工智能时代的到来,网络“爬虫”已是大数据概念的重要组成部分。爬取对象也从一些种子起始网址扩充到整个互联网数据,比如新闻资讯、电商产品、折扣信息等。“爱济南APP就是通过收集用户的阅读习惯,从日常爬取的内容中,进行筛选分析,然后再推荐给用户。”李滨说。一些低价打折的微信群和QQ群,也是通过爬取淘宝和京东等网站的折扣信息,计算出最低价格推荐给群友。
“爬虫”还应用于市政舆情系统,通过爬取论坛、微博、微信内容,自动分析出色情、暴力等信息提交。除此之外,个人征信系统、医院智慧健康系统等都离不开“爬虫”。
大数据带火了网络“爬虫”,网络“爬虫”又带火了Python语言。现在用百度搜索“网络爬虫”,前几条都是Python语言培训广告。山东最新出版的小学信息技术六年级教材,新增了Python语言编写的内容;2018年的全国计算机二级考试,也新增了Python科目。
邪恶一面
非法窃取信息沦为“黑暗武器”
小王终于明白,跟她抢票的根本不是人,而是技术黄牛。既然能抢机票,那么能不能抢火车票?
李滨表示:“不能。飞机票因为有多家民航公司,同一航线、不同公司、不同时段,票价不同;但火车票目前只有铁路部门负责,同一线路票价固定,没有爬取的意义。”其实,“爬虫”的意义在于代替工人来分析和对比各大民航网站和在线平台的票价,通过数据分析得出最低價,而不是抢票。
大数据时代,“爬虫”有时会成为低成本获取数据的捷径,沦为“黑暗武器”。有财经媒体爆料,在现金贷行业,有的平台直接用“爬虫”窃取其他平台的用户注册信息和风控数据,类似于信用卡“以卡办卡”,如果你有别的信用卡,不用自己申请就给你发卡;你在某个现金贷平台注册填写的数据,有可能被别的平台“爬”出来,只需用户授权账号和密码,但这个授权你本人可能并不知情。
而最近几年被爆出的“爬虫”产品远远不止这些。某大数据公司的业务员称,公司最近开发了新项目,可爬取旅行网站、外卖平台、地图、共享单车等平台的个人信息,甚至可以定制化抓取,“拿到第一手鲜活原始数据”。
“爬”支付宝、“爬”微信、“爬”现金贷……“爬虫”看起来无所不能。
法律空白
恶意“爬取”成为监管“灰色地带”
“新技术如果被非法或者不当应用,便会产生严重危害。互联网空间安全需要建立健全完善的保护体系,绝不能裸奔。”李滨说。
李滨介绍说,目前的反爬技术主要有两种:一种是限制同一IP、同一电脑在一定时间内访问网站的次数。另一种是设置复杂的验证码机制,让机器“爬虫”不好识别。对航空公司来说,封IP的做法可能误伤真实用户。“而如果给消费者设置一个非常复杂的验证码,导致他难以输入,可能其就不再购买这个公司的票了。”一名不愿透露姓名的航空公司人士表示。他认为,除了加大技术防范力度之外,司法机关也要通过完善管理和法律法规的手段来共同约束这种行为。
而在恶意“爬取”信息和技术黄牛抢票方面,正是法律法规监管的“灰色地带”。
《网络安全法》规定,未经授权“爬取”用户手机通讯录超过50条记录,公司法人最高可获刑3年;未经授权读取用户公积金社保记录超过5万条的,公司法人最高可获刑7年……但对于高科技“黄牛”倒票行为,尚未有明确规定。
业内人士认为,航企的目标是要提升“爬虫”抢票行为识别的准确率和账期管理,不给“爬虫”提供机会,“反爬虫”不仅要依靠技术防范和业界自律,还应该通过完善管理和法律法规手段来约束,尤其是法律手段。(来源:政法网络舆情)endprint