网络爬虫的专利技术综述

2018-07-12马明阳郭明亮魏留强

科技视界 2018年22期

马明阳郭明亮魏留强

（国家知识产权局专利局专利审查协作河南中心，河南郑州 450000）

1 概述

1.1 网络爬虫原理

网络爬虫技术是许多互联网应用的基础技术[1]，特别是在大数据存储、数据挖掘、网络取证、信息聚合、舆情监控、网页快照等领域有非常普遍的应用。如果把互联网比成一张无形的巨大网络，那么网络爬虫就是一只在这张网上爬来爬去的虫子，网络爬虫因此得名。一个网络爬虫的工作过程，就是从某个网站中的某一个页面开始，读取网页的HTML内容，并在该网页中找到其他网页的链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网络中所有的网页都抓取完为止[2]。如果把整个互联网当成一个网站，那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。在“互联网+”时代，网络爬虫技术将在云计算、大数据分析、电子商务、社交网络、舆情监控等诸多互联网前沿技术领域发挥重要的作用。

1.2 网络爬虫存在的问题

由于互联网上目前存在的网页数量超过百亿，网页的展现形态也是不断出新，导致网络爬虫技术也面临着诸多技术上的难题。

首先，网络爬虫需要解决如何能够在有限的时间内，根据现有的硬件基础获得更全面的数据量；并且需要对采集到的海量网页数据进行有效去重[3]，并为海量的网页数据提供高效的存储和查询方式。

其次，由于多线程并发执行的网络爬虫很可能会造成服务器资源的枯竭，导致对方服务器出现 “拒绝服务”的情况[4]，目前大多数Web服务器会对网络访问请求进行过滤，将短时间内发出大量访问请求的疑似“机器人”或网络爬虫拒之门外，导致网络爬虫的暂时失效。

此外，随着互联网技术的发展，特别是“深网”的出现和“暗网”和泛滥[5]，导致大量有价值的网络页面处于常规网络爬虫无法获取到的状态，这在一定程度上制约了网络爬虫，导致网络爬虫在深网和暗网中无法正常展开工作。

2 专利申请状况分析

本文主要基于专利检索系统平台S系统，分析网络爬虫技术的发展现状，检索数据库为DWPI数据库，采用 web、crawler、spider、robot等关键词进行限定，得到相关专利文献2235篇，检索日期为2018年5月18日。

在2000-2002年，受互联网泡沫破裂的影响，网络爬虫技术专利的相关申请量一度出现了将大幅度的下降，至2006年左右，网络爬虫技术的专利申请量由每年100篇左右快速地增长至每年150-200篇左右，而到了2016年，网络爬虫技术的专利申请量达到了最大值306篇每年。可以看出，目前全球对网络爬虫技术的研究还处于非常活跃的时期。

网络爬虫技术的主要申请人则集中在美国、中国、韩国、日本、欧洲、德国等地区，可以看出，中美两国在网络爬虫技术这一技术领域处于全球领先的地位，这与中美两国互联网技术的普遍应用，以及互联网网络技术的迅速发展有密切关系。

其中，IBM（International Business Machine）的专利申请量最大，微软（Microsoft）、雅虎（Yahoo）、谷歌（Google）等是主要的国外申请人，而在中国主要有国双科技（Gridsum）阿里巴巴（Alibaba）、奇虎（Qihoo）、百度（Baidu）等专利申请人。

可以看出，互联网巨头们都非常重视网络爬虫技术的专利申请和保护，这是由于网络爬虫技术作为互联网应用的基础性、关键性技术而决定的，加强网络爬虫技术的专利储备，积极开展网络爬虫技术领域的专利布局，符合互联网巨头们的发展利益。

3 重要专利技术分析

在网络爬虫技术的发展过程中，网络爬虫技术的发展方向主要包括了硬件提升、算法改进、突破限制、暗网爬虫等多个方向。

为了提升网络爬虫的爬取效率，对实施爬虫的硬件做出改进是最直接有效的。在硬件改进方面，很多申请人引入了分布式系统以增强爬虫的调度效率、存储效率、查询效率。例如，申请人为美国微软公司的申请号为 US20030670681的专利申请（申请日期20030925，公开号为US2005071766A1）利用服务器的客户机的分布式性质来提供快速、准确的web蠕动数据。将服务器的web爬虫所搜集的信息与该服务器的客户机所检索的数据进行比较，以更新该爬虫的数据。该申请通过利用经由搜索引擎结果网页而加以传播的信息，来实现数据比较，由概括web爬虫数据的客户机词典(从服务器发出)来实现数据证实。本发明也通过提供用于抵抗web爬虫的电子欺骗法的方法，以提高数据准确度，来促进数据分析。该专利申请不仅通过分布式的客户机提高了网络爬虫的爬取速度，而且由于客户机的真实性和分散性，很好地解决了网络爬虫在短时间内发出大量访问请求被服务器认定为疑似 “机器人”而拒之门外，导致网络爬虫的暂时失效的问题。

在对爬虫的调度算法进行改进时，一项最重要的工作就是去重。由于互联网上高热度网页内容会被多次转载，为了避免爬取到重复的网页内容，对爬取内容进行去重可以极大地提高爬虫的工作效率。例如，申请人为中国百度网讯科技有限公司的申请号为CN201310078316的专利申请（申请日期 20130312，公开号CN103226568A）请求保护一种用于爬取页面的方法和设备，爬取设备根据已爬取页面，获取对应候选爬取页面的候选页面标识信息；根据所述候选爬取页面与所述已爬取页面的关联性信息，将所述候选页面标识信息添加至对应的待爬页面集合；根据所述待爬页面集合，确定待爬取页面的目标爬取标识信息；爬取所述目标爬取标识信息所对应的目标页面。与现有技术相比，该发明根据所述关联性信息，有效的避免了重复爬取相同或相似网页、浪费系统资源以及爬取效率低下的问题，实现了爬取调度的可配置性，使得爬取能够目的地扩散，控制爬虫在网页间移动的方向和速度，提高了垂直爬虫的爬取效率。

此外，随着本领域对数据保护的意识增强，多数大型网站增加了对爬虫程序或机器人程序的识别检测，提出了多种相应的爬虫防范策略。对此，申请人为中国奇虎科技有限公司的申请号为CN201510901579的专利申请（申请日期20151208，公开号 CN105354337A）请求保护一种网络爬虫实现方法，该方法模拟用户对网页的访问操作发送网页访问请求；根据网页访问请求对应的反馈内容获得相应的网页内容；分析获得的网页内容，获得目标信息。通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源，而是通过模拟正常用户的网页访问请求，在客户端如浏览器获取到网页内容，避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制，并且获取到的内容也是通过正当途径访问网页获取的，既可以满足用户爬取数据的需求，也不违反网站服务提供方的约束。

而随着网络技术的不断发展，特别是“深网”的出现和“暗网”的泛滥，导致大量有价值的网络页面处于常规网络爬虫无法获取到的状态，这在一定程度上制约了网络爬虫，导致网络爬虫在深网和暗网中无法正常展开工作。为此，申请人哈尔滨工业大学提出了一种专门面向暗网数据采集与抽取的网络爬虫方法（CN107808000A），首先通过手动或自动获取暗网 url，构筑基于Hadoop+Nutch的分布式爬虫平台，配置Tor服务，修改Hutch的配置使其与socks协议交互，基于Hutch做进一步的开发，解决其表单登录和Cookie登录的问题，采用基于Hadoop+Nutch的分布式爬虫平台爬取暗网url，得到html文档，对爬取得到的html文档依次进行数据预处理、页面解析树生成、页面结构向量化、hash学习与特征码生成、模板集生成、相似度计算与模板集更新、页面内容抽取，采用数据对齐策略对抽取得到的内容重组，同时将内容相近的数据记录融合存入数据库中。

4 结论

网络爬虫的原理虽然简单，但是网络环境是非常复杂的，因此，网络爬虫的应用必须克服网络环境中的诸多障碍，才能充分发挥出网络爬虫技术的能力。在网络爬虫技术的发展过程中，网络爬虫技术的发展方向主要包括了硬件提升、算法改进、主题爬虫、突破限制、暗网爬虫等多个方向，在这些发展方向上，网络爬虫越来越能够适应最新的网络环境，满足人们多样化的爬虫需求。