APP下载

网络爬虫行政、民事、刑事一体化治理路径构建研究

2024-05-30冯宇轩

关键词:不法爬虫法益

冯宇轩 王 震

(吉林师范大学 经济管理与法学学院,吉林 四平 136000)

0 引 言

在如今多元价值杂糅的数字经济时代,人类社会的价值承载物渐趋从实体化转向数据化,进而使得数据价值的巨大能量得以释放。充盈的经济效能、战略效能和公共效能,使数据成为互联网企业竞相角逐的众矢之的,而网络爬虫便是企业在收集加工数据的过程中所使用的常用技术范式。作为一种系统化浏览网络程序,其运作模式为依照事先设置的规则通过类人工化点击进而自动抓取繁多的互联网数据,从而为企业在大数据鏖战中奠定沉稳坚实的基础。然而在适用网络爬虫这一新兴技术的进程中总会不可避免地显露与之伴生的法律桎梏诸如不当竞争与刑事风险,并进一步陷入数据泄密的泥沼而引发数据犯罪。一方面,网络爬虫这一新兴技术的普及之快、应用之广逾越了人们的设想,使得人们对其缺乏行之有效的防控措施及反制方式;另一方面,实务中对于网络爬虫的治理对策既无明确范式,又缺乏统一口径之规则,对其治理维度倾向于民刑法域且通常以刑法前置为实操标准,如此做法既有违法秩序统一原理之逻辑进路,亦是对网络爬虫标本兼治正向引导的错误示范,因此在行政、民事、刑事一体化视角下综合考察网络爬虫之机理从而形成体系完备的规制体系是科学治理网络爬虫的可行路径。本文在对网络爬虫理论进行细化解析的基础上,进一步阐述网络爬虫的规制现状及引发的治理困局,并从中探求具有中国特色的网络爬虫治理范式。

1 网络爬虫理论探微

1.1 网络爬虫概念廓清

欲对网络爬虫所涉及的相关理论进行拆解探讨,首先要做的便是明晰其概念所指,具言之,网络爬虫是一种按照一定的拟制规则动态化抓取大体量的互联网数据的脚本或者程序,通过代码编辑进而可以自动实现对目标基站项下目标数据的批量获取目的,其编程可控性能包括但不限于信息采集、信息提取、数据存储等。[1]20根据使用场景的不同维度网络爬虫可分为以下三类:一是通用爬虫,其通过搜索引擎的形式抓取整张页面里的所有内容;二是聚焦爬虫,其建立在通用爬虫的基础之上,基于前序设定的条件抓取页面中特定的局部内容;三是增量式爬虫,其旨在检测网站中数据更新的情况,因此只会抓取网站中层级更新的数据。[2]40网络爬虫作为一项极尽网罗互联网数据资源并加以利尽其用的新型数据抓取技术,可使数据采集和传播速度成指数倍递增,其硬核优势也在于通过实现对图片、文本、音频、视频等互联网信息的海量搜集抓取进而为企业掌握数据制衡权保驾护航。[3]67

1.2 网络爬虫的积极效应

网络爬虫作为一类可以通过模仿普通用户高效采集处理互联网数据的数据爬取手段,对于驱动数字化社会发展势必会有不言自明的强大助推力。在数字经济时代裹挟的浪潮下将通过网络爬虫所获取的大容量数据资源予以充分内化开发,从中可能会打造出颠覆认知的科创产品,在一定程度上会促成商业模式的里程碑式变革。[4]72

伴随经营者转变营销理念的基调下,运用网络爬虫进行自主开发应用场景进而拓展经营渠道的情境已然司空见惯,一些较为常规的方式包括但不限于抓取电商网站所呈现的目标商品评价数据并按正负评价度做统计分析,待整理出目标商品的相关市场研究调查报告的制式后卖给对口品牌方牟利等。数据爬取还是实现数据互通至关重要的路径之一,对于掌持数据资源的数据权利人而言,在数据流转下通过不断加工整合再利用的过程中既能对其原始数据进行优化更迭,也能从中享受数据映射出的经济价值。[5]193毫不夸张地说,没有网络爬虫这一“利器”,现阶段宏博兴盛的大数据产业实然可能会陷入停滞困境。由于获悉数据的便捷催化着网络产品的推陈出新和升级换代,网络爬虫无形中也在调整着数据市场和数据价值结构的风向标,从而提振了网络用户获取价值收益的力度和准度。

1.3 网络爬虫的消极风险

网络爬虫在为数字经济发展释放不竭潜能的同时,其掩藏的隐性风险也应当被关注。首先是对爬取目标网站井然有序的运营系统造成极大阻塞,在实践中针对特定网站或个性化数据进行抓取的聚焦爬虫容易产生网站终端的实质风险,由于其可以向单一目标网页服务器持续性、无差别、大额度地爬取关联数据,如此会使得服务器难以维持正常运转进而导致网站崩溃,对网站的常态运行和日常维护都会产生极大的阻碍和破坏。[6]29

其次是所爬取的数据可能因种类各异使得权限开放程度不同,肆意抓取可能会侵犯网站服务器上的普通用户和服务提供商的权益。网站服务提供商会依据所储存数据的特质、性能等将数据划分为开放数据、限制级再使用数据以及保密数据,由于网络爬虫事先设置的运行规制并不会考量数据的授权层级,因此在爬取阶段中极易抓取涉密数据,而此类数据背后涵摄的可能是网络用户隐私信息的个人法益或者是服务提供商作为数据权利者对于内部专有数据的财产法益,对其越权爬取必然会触碰法律红线侵害个人和平台的实际利益。[7]92

最后是互联网企业一旦竞相恣意滥用网络爬虫堆砌数据优势,必然会引发一系列激烈的恶性博弈,如此会演化为不正当竞争乃至衍生刑事风险。在爬取的数据中不乏会有著作权作品和商业机密等客体化的智力成果,企业在进行实践面向的考察后可能会通过一些不当途径形成自身的竞争优势。多数互联网企业为了防止网络爬虫擅自爬取数据往往会采取一定的反爬机制,而游移在爬虫与反爬虫之间的角逐既是对资源的无端浪费,也是对互联网公共管理秩序一定程度上的显性威胁,以至于更深层次加剧不正当竞争的态势触及刑事不法的禁区。[8]185

2 网络爬虫的规制现状及治理困局

2.1 网络爬虫的规制现状

目前我国对于网络爬虫的规制路径通常采取客观违法并合主观故意相统一的方式综合认定,即以违反robots协议通过网络爬虫抓取数据内化客观不法行为以此界分民事不法与刑事不法,在此前提下如果故意绕过或突破事先设置的反爬虫机制强行抓取数据则会直接确证为刑事不法,继而通过所爬取的数据类型映射的法益认定不同罪名。[9]166

2.1.1 以是否违反robots协议认定客观行为

robots协议又称为爬虫协议、机器人协议,是被访问网站与诸如通用爬虫之类的搜索引擎之间的一种互通方式。robots协议作为一项数据权利人依照所存储数据的重要性和机密性程度进行取舍的预设声明,其设计初衷是事先示明网络爬虫可以抓取网页或平台数据的范围进而使所抓取的数据更具针对性,因此robots协议并不是网络爬虫的“驱逐者”而是“引航者”。

然而在现有的网络爬虫规制体系项下比较倾向于将单纯违反robots协议爬取数据的行为界定为民事不法行为即违反数据权利人预先拟定的“合约”,因为robots协议所要表征的思想是数据权利人意图通过协议约定的方式体现普通用户访问获取数据的限制性要求,因此在网络爬虫进行数据抓取时应视为对“合约”默示的意思表示,所以如果只是单纯违反robots协议内容则一般以民事违约责任加以认定而不加持刑事风险。[10]211然而在遵守robots协议的约定下又擅自逾越协议的权限范围爬取数据的行为则会界定为刑事不法。在实务中通常体现为在遵守robots协议的前提下对协议未释明且指向数据请求访问权限的服务端进行针对性爬取的行为,因为较之单纯背弃robots协议的行为而言,超越协议之约定爬取数据权利人可能不想公之于众的底端数据实然会侵犯其数据安全法益,因此不法程度会陡然攀升,故应给予刑事层面的否定性评价。

2.1.2 以是否突破反爬虫机制界定主观心态

如果将是否违反robots协议视为划定民事不法与刑事不法的分水岭,则在此基础上是否突破反爬虫机制抓取数据则会进一步为是否属于恶意网络爬虫予以刑事规制搭建主观层面的参照系。[11]102反爬虫机制指数据权利人依据所持数据的重要程度设置梯次分明的技术障碍以防止恶意网络爬虫对数据资源的荼毒,常见的技术手段包括但不限于UA端识别爬虫、蜜罐资源等。为了规避反爬虫机制对网络爬虫的限制级标准,有些企业便会通过一些反制措施突破反爬虫机制抓取数据,常见的技术方式包括但不限于使用伪造device_id、JS逆向解析等。司法实践中的通常态度是一旦突破反爬虫机制抓取数据,则该行为便视为对前述违反robots协议行为界定为刑事不法的确证。如此做法一定程度上可以限缩网络爬虫的刑事制裁范围防止过度犯罪化,从而试图在考虑数据流动互通的巨大经济潜能与数据持有人权利本位的利益博弈下寻求平衡点。

2.1.3 通过爬取的数据类型适配刑法分则项下不同罪名

如前所述网络爬虫假若在客观层面逾越robots协议的权限范围,有绕过或突破反爬虫机制进而表征其主观层面的故意心态,则依据主客观相统一原则便应付诸刑法加以规制,由于所爬取的数据涵摄的法益不甚相同通常会适用刑法分则项下的异类罪名。

具体而言,如果所抓取的是代码构成的普通数据,则会采取对数据的直接保护方式成立非法获取计算机信息系统数据罪,因为普通数据映射的法益仅仅是数据安全法益而并不牵涉数据背后的具体内容;如果所抓取的数据是各种具体化信息的概括表达,则应当采取对数据的间接保护方式具体分析其背后的法益归属。譬如所抓取的是以手机号、身份证号等具有“可识别性”的个人数据,则会因为侵害个人隐私的实质法益成立侵犯公民个人信息罪;再如所抓取的是商业机密或者著作权作品等具有“创造性”的数据,则会因为侵害公平竞争秩序法益或者著作权法益归属成立侵犯商业秘密罪或者侵犯著作权罪;如果所抓取的系暴力破解网站或平台服务器致使反爬虫防御机制启动这期间所无意抓取的底层数据或者补丁包数据,尽管该数据系维护系统安全的运行代码对爬取者而言并无任何价值作用,但是其行为同样会侵害到计算机系统运行安全法益,因此应当以破坏计算机信息系统罪加以论处。[12]136由于网络爬虫所涉罪行基本是以数据为客体指向的犯罪,因此均可以列入狭义的数据犯罪进行处理。

2.2 网络爬虫的治理困局

我国对于网络爬虫的现行规制路径是对此类新型数据获取工具所可能潜在的法律风险量身打造出较为切实可行的规范指南,但不可否认的是上述认定标准的逻辑推演在网络爬虫的治理实操中实然会产生不可避免的滥觞。

2.2.1 以是否违反robots协议判定客观不法存在偏颇

通过网络爬虫是否违反robots协议进而判定其是否存在客观基础不法行为,对于我国在狭义数据犯罪的罪质罪量规定缺位的情形下树立起了可以遵循的界标,在构成要件该当性的射程范围之内也对数据权利人的权益保障体现出相当的注重,因而具有一定自洽性。[13]159但是与之针锋相对的问题在于该标准使得数据权利人对数据的专享持有权不当扩张,从而将robots协议这类并无强制效力的行业自治规范作为民事不法的认定基点与刑事入罪的界定因素,这实然会产生惩处过于宽泛的恶性效应。而在抬升对于数据权利人的数据保护力度的同时会促使其开列纷繁复杂的权限约款,这既会对善意网络爬虫(如增量式爬虫)施以误击,也会陡升数据权利人与数据访问者之间的法律风险。诚然robots协议所涉及的内容并不总是与数据的访问限制或范围相关联,因而对上述标准的机械适用势必会增添任意性非难的色彩,与其客观认定基础不法的初衷也是相违背的。[14]105

2.2.2 以是否突破反爬虫机制确证主观归责存在疑问

通过网络爬虫是否强行绕开或突破反爬虫机制进一步判断其是否确证为刑事不法行为,其优势在于更具有实务操作性和清晰明确的指引性,同时对司法入罪化倾向给予一定限制,防止对能够提高网站或平台的热度为其引流的善意网络爬虫烙上违法犯罪的印记。[15]22尽管通过主观层面的心态认定确证归责问题的标准进一步明晰了网络爬虫的违法性边界,但是不可否认的是仍然会存在适用问题的失范现象。亟待解决的问题是突破何种类型的反爬虫机制会具有非难可能性,在理论层面对此莫衷一是的情形下主观归责标准作出的回应也是只要突破反爬虫机制均具有惩戒性,实然这是对违法性边界的再度模糊,然而如果对可能予以入罪的反爬虫机制种类进行面面俱到的列明实然也是不切实际之举,如此既会导致社会资源的无端消耗,更会导致数据闭环停滞的困顿局面。

2.2.3 根据爬取的数据类型匹配罪名没有厘定数据的法益归属

当前对于网络爬虫治理罪名的认定规则主要以所爬取数据背后折射的法益为基点兼之保护数据本身所体现的安全法益,然而数据所彰显的复杂属性并不只是单纯以其浅层的代码逻辑所能表征的,对于网络爬虫所爬取的数据实然是具有财产属性的数据,因此我们应当重新审度数据的实质法益归属。对于所抓取的具有“可识别性”的个人数据、商业机密、著作权作品等其背后所映射的现实利益仍然还是财产利益,因而所体现的仍然是财产性数据所蕴含的财产法益面向,所以网络爬虫所爬取的数据具备代码结构和财产价值的双重属性,因而在法益维度上会呈现数据法益和财产法益的耦合式结构。[16]83如此界定既可解决因爬取数据类型的繁杂在适配不同罪名时标准模糊继而可能有违罪刑相适应原则的问题,又可以防止数据犯罪在定性与定量标准难以统一的前提下动辄以计算机信息系统犯罪作为“口袋罪”予以惩戒可能会出现的“罪刑倒挂”现象。

3 行政、民事、刑事一体化的网络爬虫治理范式

在对当前我国网络爬虫的规制现状及其治理困局进行解构剖析后可以发现,其中亟待解决的问题在于如何将散见于民刑领域的碎片式法律规范统一化形成体系性治理模式。由于整治网络爬虫的核心思想需要整体考量数据流通共享共治和维护国家利益、公共秩序,因此将其仅仅纳入民刑视阀下的治理轨道显然是效果欠佳的,故而需要制定精细详实的行政规范作为又一治理手段,如此既可以通过实施行政法层面下的举措释放政府宏观调控的活力,亦能进一步避免民事责任含混和刑事处罚泛化的困窘,如此便可建立起行政、民事、刑事一体化治理网络爬虫的全新模式。

3.1 健全行刑衔接机制,引导网络爬虫正向发展

在面临网络爬虫归责路径的固有弊病和数据犯罪治理体系尚待建构的双重难题下,为了避免数据交互阻塞进而导致数字市场低迷化,通过引入行政规制进而与刑事治理衔接联动势必会激发治理模式新的活性。[17]49为了避免刑罚的恣意滥用,要将网络爬虫予以刑事归责的前提必然是其存在严重的社会危害性且要满足入罪的实然标准,而对于轻微违法的爬取行为除了给予民事领域项下违约责任的评价外还应当通过相应的行政行为进一步明晰其不法边界。

对于网络爬虫治理可以参照援引的行政规范主要散见于《网络安全法》《数据安全法》《计算机信息系统安全保护条例》的相关规定,由于上述规定缺乏直接管制的强制效力因而只能止步于间接治理的地位,因此在笔者看来,如何精确把握行刑衔接机制的切入点及其连结的关键在于切实发挥行政法前置的治理功能,具体而言可以从以下两个方面着手:其一,从行政立法方面来看,政府层面可以制定颁行治理网络爬虫的专项行政法规、规章以及规范性文件,以此对何以称之为违反robots协议及何以界定为突破反爬虫机制等问题进行明晰,如此既可从容应对前述所提及的资源消耗和数据闭环困局,也可避免动辄将刑法作为处理一切制度缺位所必需的“万金油”的错误态度。其二,从行政执法方面来看,对于管治网络爬虫肩负主要职责的网信部门、公安机关可以通过行政指导的方式对恶意网络爬虫进行黑名单公告制度以期警示数据爬取者,也可以通过设置行政奖励的方式激励企业或平台提供防治网络爬虫的相关对策。此外网络爬虫的惩处力度应当遵循比例原则适时调整,对于尚不具备刑事不法性的爬取行为酌情科处轻微行政处罚诸如一定数额的罚款等。综上,通过行政立法和执法层级两相发力既可以合理区分网络爬虫的善恶属性进而精准引导其持续健康发展,又能秉持行政规制的平衡立场缓解治理路径项下行政责任与刑事责任的对接失衡状态,以此使得行刑衔接机制更具针对性和操作性。

3.2 违反广义授权即robots协议与反爬虫机制依照不法程度界分民刑责任

在对网络爬虫治理亟待健全行刑衔接机制的视角进行梳理后,还应当进一步明确民刑领域的罪责界分问题,如前所述以违反robots协议的客观行为作为民事不法的内化,若兼之存在突破反爬虫机制的主观心态则升格为刑事不法的外化,然而如此规制实然在理论与实践层级上均存在致命的模糊性与悖论性,在笔者看来,robots协议与反爬虫机制本质上均隶属于数据权利人对持有数据所设置的授权,因此将二者视为广义层级的授权会使得在认定网络爬虫的违法性边界时更为客观且更具合理性。

具体而言,数据持有人在robots协议或网页中势必会告示数据访问范围以及其他应遵守的义务,如果爬取方未经授权使用善意网络爬虫抓取数据本应属于形式上的不法行为,但基于其维护系统安全的实质目的考量应当阻却不法;如果爬取方未经授权所爬取的仅是公开的普通数据,其目的在于实质性替代数据权利人提供的相关产品或服务进而引发不当竞争问题,则其不法程度较为式微仅需要追究民事责任即可实现损失填平;如果爬取方未经授权爬取映射复杂法益的财产性数据或者暴力爬取致使出现服务器严重故障乃至系统紊乱难以运行的情形时,其不法程度已然处于顶端,此时便需要对其加持刑法的否定性评价。[18]52综上,通过爬取行为的整体客观外化进而规范化剖析不法程度最终梯级适配责任,应是网络爬虫治理在民刑体系化项下的破题之道。

3.3 依据所爬取数据侵害的实质法益认定为数据犯罪或者财产犯罪

由于网络爬虫所爬取的数据背后系财产法益与数据法益的复杂映射,因此该行为可能造成对单一法益或双重法益的侵犯,对于传统财产法益与新兴数据法益呈现交融共存的情形下准确识别受损法益才是规范化适配罪名的应有之义。

具体而言,如果所爬取的数据是非公开的普通数据或者突破反爬虫机制进而触及到维护服务器的底端数据时,由于系对数据法益的直接侵害,因此可以视情形认定为非法获取计算机信息系统数据罪,假若同时造成服务器系统毁损难以运行的情况也可能成立破坏计算机信息系统罪并与前罪发生想象竞合从一重罪论处;如果所爬取的数据系具有“可识别性”的个人数据、商业机密、著作权作品等财产性数据则依照受损的财产法益进而适配传统的侵犯财产类罪名,由于数据权利人对所持有的的数据系规范意义上的纯粹占有,因此本质而言应为财产性利益之属,如果认为盗窃罪指向的客体包括财产性利益,则未经授权利用网络爬虫爬取财产性数据实然属于破除数据权利人对数据的原始占有进而与数据爬取人建立新的占有状态的行为,因此符合针对财产性利益的窃取要件,进而可以成立盗窃罪。[19]57综上,通过精确把握网络爬虫爬取行为所指向的受损法益,以此将其分门别类纳入数据犯罪或者财产犯罪的规制范围内,既可以防止出现计算机信息系统犯罪与财产犯罪适用混淆弥乱的情形,也可以合理避免基于网络爬虫爬取行为产生的同质不法行为定性差异较大致使罪量标准不当,从而产生刑罚失衡的恶性效应。

4 结 语

数据是生产要素的新兴中坚力量,其在驱动社会发展的进程中不自觉地在展现它独特的蓬勃活力,因此在加快构建数据交互市场的宏大愿景下,创制数据生产、运作、调配的流水线型范式已然成为互联网企业趋之若鹜的发力点,而网络爬虫正是催化这一模式可以加速演进的着力杠杆,因此对于网络爬虫的治理务必要采取慎思揣度的态度,审慎把握其与数据勾连下可能关涉的违法性边界,通过健全行刑衔接机制,体现行政法层级应对新兴技术衍生风险的及时治理;通过整体外化授权问题,使得在廓清民刑责任的边界问题上有迹可循;通过准确定位所爬取数据的实质受损法益适配罪名,进而明示刑法作为事后法与保障法的次之地位而不是相反。由此一来将网络爬虫纳入行政、民事、刑事视阀下一体化综合治理势然可以真正创设一套独具特色的治理模式,此举任重而道远却又势在而必行。

猜你喜欢

不法爬虫法益
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
关于禁止盗用《图书馆论坛》名义进行不法活动的严正申明*
侵犯公民个人信息罪之法益研究
刑法立法向法益保护原则的体系性回归
法益中心主义的目的解释观之省思
利用爬虫技术的Geo-Gnutel la VANET流量采集
论侵犯公民个人信息罪的法益
论联大设立叙利亚“国际公正独立机制”的不法性
大数据环境下基于python的网络爬虫技术