大数据时代下网络爬虫行为的刑法规制

2024-02-14李峥妍

市场周刊 2024年1期

李峥妍

(西安财经大学，陕西西安 710100)

0 引言

大数据时代的到来，不同网络平台之间的信息数据交互已成为网络运作的核心，网络爬虫技术在查询、收集信息过程中的重要性日益凸显。网络爬虫在本质上属于一种计算机程序或脚本，能够按照程序编写者预设的触发条件，自动且高效地访问、下载、解析目标计算机信息系统中的数据。它能从广度和深度两个角度来循环遍历链接地址，直到事先设定好的地址全部遍历完为止。这一技术不仅给企业、公民个人精准搜集信息带来极大便利，还在监控、大数据挖掘、检测等各个领域都有广泛的应用。不过，网络爬虫行为作为很多数据类犯罪的上游手段，为犯罪创造了诸多条件，可以说是数据遭受侵害的起源，理应对其进行有效的刑事规制。

1 大数据中网络爬虫行为的刑事风险分析

通过中国裁判文书网，以“爬虫”为关键词进行检索。截至2023 年8 月1 日，共有589 篇相关文书，其中刑事案由共有83 份，其中主要涉及的罪名分别是破坏、侵入计算机信息系统罪、非法获取计算机信息系统数据罪、侵犯公民个人信息罪、侵犯著作权罪。根据爬虫技术在运行过程中的各个环节，可以将其分为访问行为、抓取行为以及提供行为。根据目前司法实践公开的判例，从法益与行为两个维度进行风险分析，可以窥见爬虫行为的各个环节可能招致的刑事风险。

1.1 以数据为载体的法益维度分析

1.1.1 侵犯著作权

以数据为载体的作品，是著作权保护的对象。虽然数据是描述客观事物的数字、字符以及所有能输入到计算机中并能为计算机所接受的符号集，本身不具有独创性。但是以数据为载体的、能够反映信息的网络作品应当受到著作权保护。

以搜索引擎为例，它的运行核心在于:利用爬虫技术将其他网站的网络作品抓取并储存于自己的服务器中，使用户在搜索相关内容时，能够直接在自己的网站中获取到其他网站的信息。这种行为也被叫作网页快照。用户能够直接在该搜索引擎中浏览到其他网页界面的实质性内容，并且无法知悉作品的来源。所以在未得到授权的情况下，抓取他人的网络作品并复制于自己的服务器中的行为，会侵害著作权人的复制权。更甚者，将抓取的网络作品进行擅自传播或提供，则会对权利人的网络传播权造成无法挽回的侵害。

1.1.2 侵犯个人信息

刑法应该直接采用个人信息保护法对个人信息的分类方案[1]:一是具有可识别性。即通过该信息已识别或者可识别特定自然人。二是属于有效的信息。信息必须有效，这是定罪时不能忽略的硬性要求。对信息没有进行匿名化处理，但不能对应到具体公民的不属于本罪的个人信息。三是对某些信息突显与个人行动自由的关联性，弱化可识别性。例如，公民的行踪轨迹等信息，由于与特定个人的行动自由、生命身体安全有紧密关联，侵犯该等信息的入罪标准非常低。除了明确个人信息本身的特征以外，权利人的信息自决权是更重要的判断维度。换言之，如果爬虫在未取得用户授权时对个人信息进行获取，则会有入罪的风险。

1.1.3 侵犯商业秘密

商业秘密，是指不为公众所知悉，具有商业价值，并经权利人采取相应保密措施的技术信息、经营信息等商业信息[2]。但是自2019 年的《反不正当竞争法》修改后，商业秘密的范畴也就不再仅限于技术信息与经营信息了。只要其属于商业活动中具备秘密性、保密性、价值性、合法性的信息，就应当作为商业秘密进行保护，那么刑法的规制范畴也应当同步扩张。即当爬虫行为破坏企业设置的保密措施或者是对保护机制进行绕行时，侵犯了具备以上四个特性的商业信息，则可能构成侵犯商业秘密罪。

1.2 以犯罪构成要件中的行为维度分析

1.2.1 入侵行为破坏信息数据的风险

网络爬虫想要获取万维网中的数据信息，前提条件便是进入计算机信息系统。如果爬虫按照被访问者的授权正常访问，没有对计算机信息及系统造成任何损害，那么就不会有犯罪的风险。而存在犯罪风险的是入侵行为，入侵一词在汉语词典中的意思是未经邀请、允许或欢迎而入或者强行进入。当然对程度不同的“入侵”在具体的犯罪中不应当一概而论，但是抓住入侵行为的实质特性，即爬虫在被拒绝访问时运用某些手段，破坏或者绕过了计算机信息系统的保护措施、防护手段，从而达到访问的目的。

1.2.2 抓取行为使秘密数据被知悉的风险

爬虫对数据的“抓取”与传统的“获取”的区别在于其客体的客观状态不同。传统意义上的“获取”的客体一般是有实质的形状外观，看得见摸得着，比如金钱、产品等。一旦行为人实施了获取行为，也就实现了对物的占有。而爬虫的“抓取”行为并没有改变数据所有权人的占有，重点在于“知悉”。即爬虫的抓取行为改变了数据所有权人对数据设定的“不知悉”状态。通俗言之，就是该数据受到数据所有权人以各种手段进行的保护，想要将数据处于一个不被人知晓的环境中。但是爬虫的非法抓取行为通过破坏计算机系统的保护屏障，将数据有机会被公众所知晓，由此处在了一个能够“被知悉”的状态。

1.2.3 提供行为引发下游犯罪的风险

提供行为是否会构成犯罪应当根据编程者和使用者的行为进行分别讨论:

第一，行为人不具有爬虫技术而需要委托他人定制爬虫程序。当编程者明知他人意图实施侵入、非法控制计算机信息系统或者非法获取数据，但是仍然为其犯罪行为提供网络爬虫技术服务，那么一旦委托人使用爬虫而触犯了侵犯公民个人信息罪等一系列罪名时，该编程者应当作为帮助犯受到刑事处罚。第二种情况是编程者编写的爬虫并不具有入侵与破坏的指令，委托人利用该爬虫合法访问他人计算机系统，获取了授权以外的数据而触犯相关刑法规定时，编程者就不应该就此承担相应的责任。苛责编程者能够明确认识到委托人利用爬虫的行为是否合法是不利于技术的发展进步的。

第二，行为人利用爬虫抓取数据后出售或提供给他人。比如，被告人郭某通过“爬虫”软件从互联网上非法获取淘宝、京东、天猫等多个网络购物平台及其他公民个人信息，用于出售牟利，内含姓名、手机号码、地址等，共计非法获取541 424条。而后郭某将搜集到的个人信息出售或提供给被告冷某，最终被判侵犯个人信息罪。在实务中，利用网络爬虫收集数据的合法性不足以阻却提供信息的非法性。也就是说，利用网络爬虫技术获取公民个人信息时，并没有侵犯用户的信息自决权，但是后续的销售、提供行为法院不认为用户概括同意，所以会有入罪的风险。

2 大数据中网络爬虫行为刑法规制的必要性及困境

通过法益与行为两个维度进行阐述可以明悉的是爬虫行为可能会有入罪的风险。爬虫行为的相关法律规范散见于各个法律之中，不仅没有形成有效规制的体系，刑法规制更是处于缺位的状态，从而在实务中出现了无法可依的情况。在现有规范达不到良好效果的情况下，刑法规制则不可或缺。

2.1 大数据中网络爬虫行为刑法规制的必要性

2.1.1 行业规范之Robots 协议的效力不足

Robots 协议是指网站所有者在建立一个Robots.txt 文件来告诉搜索引擎哪些页面可以抓取、哪些页面不能抓取，而搜索引擎则通过读取Robots.txt 文件来识别这个页面是否允许被抓取[3]。它是对网络爬虫基于行业规范的一种前置约束，不具有强制力，对数据所有者来说也不是一堵防火墙，而是一种自律的规范。它仅仅起到一种指示、引导如何合法的访问网页和爬取数据，本身不具有禁止或阻碍非法爬虫行为的功能。虽然在“百度诉奇虎360”一案中，法官在判例中将其认作行业规则，但是其并没有达到遏制爬虫侵害数据案件增加的效果。

2.1.2 技术规制的手段效果甚微

当Robots 协议无法达到强行禁止恶意网络爬虫行为的效果时，通过技术设定强行制止爬虫程序访问的反爬虫手段应运而生。顾名思义，反爬虫技术就是阻止别人批量获取自己网站信息的一种方式。常见的反爬虫机制为以下几种:第一，是通过识别爬虫的UA 或并发，直接拒绝不符合正常特征的爬虫，封掉爬虫请求；第二，是通过设置IP 访问频率，将超过禁爬时间爬虫拉入黑名单；第三，是通过请求的时间窗口过滤统计；第四，是限制单个ip/api token 的访问量，比如15 分钟限制访问页面180 次；第五，是蜜罐资源，适当在页面添加一些正常浏览器浏览访问不到的资源，比如隐式链接。

但是，即使是被访问的网站有着如此多的反爬虫手段，入侵者依然有策略进行规避、破坏、欺骗或者绕行，比如设置下载延迟、禁止Cookie 使得服务器无法识别爬虫轨迹、使用user agent 池随机从池中选择不一样的浏览器头信息以隐藏爬虫身份、使用IP 池、分布式爬取、模拟登录—浏览器登录的爬取。以上一系列针对反爬虫机制而设置的令其失效的策略表明，用技术规制的手段所起到的效果甚微，技术迭代更新，仅仅利用技术手段去防止带有恶意目的的爬虫是远远不够的。

2.1.3 爬虫行为缺乏行业标准的规制

公约能够反映行业需求，并且能够避免刑法规制的僵化。在各个法律包括刑法的规制不够完善时，行业公约对判定爬虫行为是否非法获取数据造成损失、对判定犯何种罪、受何种刑罚都能够作为一个前置条件，对行业的内部形成约束力，对法院裁判来说也是一个重要参考。目前只有搜索引擎行业存在针对爬虫行为的公约，可是该公约年代久远但技术迭代更新，已经远远不能有效囊括所有的爬虫行为，规制效果可见一斑。没有相应的行业公约对数据种类及其保护力度进行标准地划分，爬虫行为便难以得到有效规范，那么规范数据划分标准就成了刑法在规制爬虫行为的重要前提。

2.2 大数据中网络爬虫行为刑法规制的困境

2.2.1 网络爬虫的刑事司法规制日趋严厉

我国网络爬虫的法律规制此前一直处在民事领域，2017 年出现后，网络爬虫刑事规制的案件数量呈现不断上升的趋势，反映了刑事司法对网络爬虫的规制日趋严厉。网络爬虫的刑事司法规制在一定程度打击了网络爬虫侵害法益的行为，但也存在着将一些网络爬虫的民事违法行为当作刑事犯罪的问题，既有违罪刑法定原则又具有刑事不当扩张的风险。网络爬虫刑事司法规制的严厉性体现在适用对象、量刑情节认定等方面。首先，在适用对象上，扩大数据的范围、不区分数据的类型。其次，网络爬虫刑事司法规制严厉性还体现在重入罪、轻出罪方面。近年来，理论界有关网络爬虫入罪的声音此起彼伏，网络爬虫刑法规制及保护数据安全法益的文章亦不少见；然而，探讨网络爬虫出罪事由的文章却寥寥无几。司法实践受此影响，热衷于网络爬虫的定罪处罚，却忽视了网络爬虫的出罪机制。

2.2.2 爬虫行为的刑法规制界限不明

一是数据的界定混乱。数据是爬虫行为抓取的对象，也是评价爬虫行为是否入罪的根据。现阶段，我国对数据的立法规定较为薄弱，使得计算机信息系统数据的界定、数据及信息的关系两方面存有较大争议。《数据安全法》作为保障数据安全的专门法律，规定数据是指任何以电子或者其他方式对信息的记录。即数据是信息的载体，数据的外延大于信息的外延。《刑法》第285 条中的数据是指计算机内存储、处理或者传输的数据。《危害计算机信息系统安全的解释》将其限缩解释为身份认证信息，该条规定将数据与个人信息高度重叠在一起。立法上的差异导致了司法适用的混乱。

二是刑法立法缺乏数据周期性保护。数据周期是指数据在整个生命周期内的流动:从创建和初始存储，到最终过时被删除的全过程。根据《信息安全技术—数据安全能力成熟度模型》规定，将数据周期划分为采集、传输、存储、处理、交换、销毁六个阶段。《数据安全法》也将数据处理行为分为多个环节，都体现了对数据周期的重视。在数据周期里，每个阶段都存在侵犯数据安全法益的风险，与非法获取数据的社会危害性并无二致。然而，目前我国刑法对数据的保护仅涉及部分阶段，如非法获取属于采集阶段，删除、增加和修改处于处理阶段。对传输和交换环节缺乏相应的保护，导致网络爬虫危害数据后续阶段的行为得不到有力规制。

2.2.3 司法实践中罪名适用口袋化趋势明显

司法实践中，未能区分网络爬虫行为获取数据的属性差异，忽视数据所蕴含的权利属性，片面强调数据的物理属性，多以兜底性罪名(非法获取计算机信息系统数据罪)论处[4]。究其原因:一是实践中多以计算机信息系统安全为重心，以技术限定为中心，多侧重于保护信息网络安全。二是囿于取证难度和证明标准等现实问题，多回避了对所抓取的数据类型、价值、获利和损失等内容的认定，而以证明标准较低的兜底性罪名进行定罪。三是由于刑事立法的被动性与滞后性。从现实来看，刑法应对科技发展带来的挑战略显迟缓，对恶意爬虫行为是否入罪尚存争议，明显难以跟上大数据时代的潮流。

3 大数据中对网络爬虫行为刑法规制的完善

通过上文对爬虫行为的类型化分析，可以明确的是，爬虫的入侵行为、非法获取行为以及后续的提供使用行为，在一定的情况下会使刑法所保护的法益受到不可忽视的损害，对公民个人或者企业带来不可弥补的伤害。当现有的技术规制失效、Robot协议规制不足以及行业规范缺乏的情况下，刑法规制具有相当的必要性与不可替代性。如何完善爬虫行为对数据侵害的刑法规制、如何解决刑法规制的不足，成了亟待解决的、不可避免的重要问题。

3.1 设立网络爬虫的行业公约

由于Robot 协议不具有强制性的效力。那么对公开数据的概念等，应当以设立行业公约的方式，形成统一的规定。对各部门法解决爬虫对数据的侵害的各种案件，都有着前置性的约束。因为设立行业公约不仅能够使行业主体能够明确自己使用技术的合法合理范围，还能够使监督者有了一个明确的评判标准。

3.1.1 明确爬虫行为对数据的合理使用

那么，对善意爬虫行为对数据进行访问、抓取、提供等行为明确合理使用的范围。根据对具体爬取行为可能导致的数据侵权行为的危害性和风险性进行范围限定。若满足以下条件即为合理使用:未对目标网站进行超负荷的爬取行为；爬取的数据是公开数据，且没有任何密码或反爬虫手段的限制；爬取的数据是事实的表达与描述，并不涉及他人的知识产权；对爬取数据的后续使用的目的是研发创造性产品，而不是单纯的数据搬运而形成恶意竞争。根据以上的范围限定，给法院提供了明确的裁判标准以区分恶意诉讼和正当数据权益保护。

3.1.2 明确对数据恶意的爬虫行为具体形态

恶意爬虫行为包括:通过破坏或绕行计算机系统保护机制造成数据破坏的入侵行为；造成目标网站超负荷而无法正常运行的反复抓取行为；对目标网站的非公开数据实施抓取行为；对涉及他人知识产权的网络作品、商标、专利信息等进行抓取；对抓取的数据进行贩卖、提供等行为；还有其他对和谐的网络交互空间造成不良影响，进行不正当竞争或是侵害个人利益的行为。

3.2 明确数据界限与周期性保护

3.2.1 明确非公开数据的非公开性

在实务中，对爬虫行为侵害各类数据的案件的处理可以说是困难重重，其中最主要的问题时存在着很多相关概念的模糊的问题。根据上文所述，爬虫行为侵害数据的入罪前提是，爬虫行为改变了非公开数据不被“知悉”的状态或者是对非公开数据造成了实际的损害，并且该数据所承载的信息为刑法所保护的法益。那么什么是非公开数据? 什么是非公开性? 就是需要明确的重要概念。

公开数据有两层含义:一是不加隐蔽的、面对大家的数据，是数据的一种状态；二是使秘密的数据成为公开的，是一种积极主动的行为。那么非公开数据就是指一种加以隐蔽的、不面对他人的数据或者是使秘密的数据维持一种保密的状态。以下按照“非公开性”的内涵进行分类讨论:

爬虫行为在合法访问计算机系统或是绕行计算机保护机制的情况下浏览数据，在实质上没有改变该数据的非公开性，那么这一行为就不具有可罚性。而爬虫行为通过入侵进入计算机系统，破坏其保护机制，使里面的数据有被其他不特定的用户访问，那么就破坏了数据的非公开的状态，便具有可罚性。

所以对刑法需要保护的重要数据，非公开性是其不可缺少的特性。爬虫行为一旦破坏了该数据不可被知悉的状态时，就具备了启动刑法的必要条件之一，以达到保障数据安全、恢复数据保密状态、赔偿数据损失的目的。

3.2.2 加强数据周期性保护

德国为了加强数据周期性保护，将数据犯罪的上中下游犯罪全部纳入刑法规制的范围，形成了完整性的数据保护链，值得借鉴。基于此，文章建议增设非法持有网络数据罪及非法提供网络数据罪。非法持有网络数据罪规范的是在存储阶段和销毁阶段非法持有数据的行为，即不应存储却擅自存储或者应当销毁却不销毁。非法提供网络数据罪规范的是在传输阶段和提供阶段向他人非法提供数据，侵犯数据安全法益的行为。在使用阶段侵犯数据安全的，根据数据的后续使用情况以及表征的具体法益定罪处罚即可，如利用爬取的个人信息、冒充他人身份骗领信用卡的，构成妨害信用卡管理罪。综上，加强数据周期性保护，既有利于形成完整的数据保护链，又有利于增强网络爬虫刑法规制的针对性。

3.3 网络爬虫罪名适用的精准化

去“口袋化”是完善网络爬虫刑法规制罪名适用的重要环节。去“口袋化”体现为分析网络爬虫爬取数据的行为、爬取对象及后续使用三个方面侵犯的具体法益，依据其侵犯的具体法益，适用具体罪名，最终实现非法获取计算机信息系统数据罪的去“口袋化”。

GPL-1主要受进食和神经内分泌等因素的调节，由回肠和结肠黏膜L细胞分泌。GPL-1作为胰高血糖原基因翻译后加工的裂解产物，其主要组成成分为氨基酸，在人的机体内以 GLP-1（7-37）和 GLP-1（7-36）NH2 两种形式存在[4]。其中，天然GLP-1的主要存在形式为GLP-1(7-36)NH2，且其生物活性最强。此外，GLP-1主要分布于胰腺管、胰岛、甲状腺细胞、肾脏、肺、胃肠道等多种组织中，具有多效性。

3.3.1 依据网络爬虫的行为精准适用罪名

网络爬虫的爬取行为可能构成非法侵入计算机信息系统罪。网络爬虫访问网站是获得数据的前提，在这一过程中可能构成犯罪。网络爬虫访问计算机系统应当具有访问权限，若擅自进入国家事务、国防建设、尖端科学技术三个领域内的计算机信息系统，则构成非法侵入计算机信息系统罪。该罪保护的法益是特定领域内的计算机信息系统安全，一旦侵入，即为犯罪，而无须考虑爬取对象等其他因素。如滕某利用网络爬虫违规进入属于国家事务领域的省公安交警警务云平台，最终以非法侵入计算机信息系统罪追究其刑事责任。根据《刑法》第286条的规定，若网络爬虫进入计算机信息系统后破坏系统功能、应用程序或数据造成严重后果的构成破坏计算机信息系统罪。如被告人王某和黄某共谋利用爬虫程序攻击全运会接待组的计算机信息系统，删除系统内多组信息，导致计算机信息系统“罢工”，严重影响了当日的接待工作，两人构成破坏计算机信息系统罪。

3.3.2 依据网络爬虫的爬取对象精准适用罪名

网络爬虫爬取到数据后，应以数据为核心，关注数据所承载的具体法益，定罪处罚，而不能一律适用“非法获取计算机信息系统数据罪”。数据表征的法益分为传统法益和数据安全新型法益，侵犯传统法益以传统罪名定罪处罚，侵犯数据安全法益的构成数据犯罪[5]。

对个人信息来说，重要、敏感信息一旦被获取，就有可能遭受诈骗等一系列经济损失。当然爬虫行为要构成侵犯个人信息罪，对个人信息的性质、个人信息的数量等需要有证据予以证明。所以最主要的还是明确“情节严重”的要求，在最高人民法院、最高人民检察院发布的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条、第六条已做出明确的规定。

对网络科技公司来说，数据就是该企业生存、经营、发展之根本，没有数据企业将会是一个空壳。若其数据被爬虫非法获取将商业秘密等数据公之于众，将会造成企业无法运行、员工面临失业等重大问题[6]。对“严重后果”的要求，在最高人民检察院、公安部发布的《关于公安机关管辖的刑事案件立案追诉标准的规定(二)》第七十三条做出了明确规定。

对国家秘密来说，关乎国家发展与社会主义事业的前进，国家拥有对其有数据主权，任何个人、组织、外国国家等都不得对其进行侵犯。一旦爬虫行为访问或抓取该数据，即使是没有造成实害结果也应当给予严厉的否定评价。

3.3.3 依据数据使用情况精准适用罪名

数据安全作为新型法益，在刑法中具有独立性地位。对使用数据产生的下游犯罪，应单独评价，也是保护数据生命周期的应有之义。数据的后续使用阶段主要表现为行为人利用爬取的数据侵犯其他法益的行为。如今，数据承载的信息越来越多，各种信息组合便形成超越自身的价值，这些价值有可能成为他人犯罪的工具。例如，行为人将网络爬虫合法爬取的数据整合后进行诈骗的构成诈骗罪，行为人利用爬取的数据敲诈勒索他人的，构成敲诈勒索罪。