大数据时代网络爬虫行为刑法规制限度研究
2022-11-26童云峰
童 云 峰
(东南大学 法学院,江苏 南京 211189)
大数据时代,数据已经成为企业竞争的核心要素,更有信息化时代的“黄金”和“石油”的美誉。数据蕴含的巨大价值诱发了一系列侵犯数据的新型行为,其中以网络爬虫最为典型。实践中关于网络爬虫行为的法律风险,已经由民事侵权、不正当竞争过渡到刑事犯罪,且刑事风险日趋扩张。在已有理论研究中,民法学者拘囿于网络爬虫行为所针对数据的权利属性判断;刑法学者侧重入罪视角,忽视出罪机制的法教义学贯通。理论层面风险化研究盛行,实践中关于网络爬虫的刑事案件也日益增多。在理论与实践对网络爬虫刑法应对的态度均呈现过度犯罪化的背景下,应当坚守刑法谦抑立场,不是要对网络爬虫行为一律出罪,而是要甄别网络爬虫行为的合法性边界,厘清民法和刑法调整网络爬虫行为的界限,避免刑法的过度适用。
一、网络爬虫技术与网络爬虫行为的界分:无好坏与有善恶
网络爬虫(Web Crawler)也被称为网络蜘蛛,是依据特定的规则抓取万维网页信息的程序或脚本。网络爬虫技术是一种数据收集技术,可以在未经数据主体许可下访问或获取大量数据。其运行需要依赖一套高效的下载系统,针对目标网页的信息数据,高速下载到本地并形成在线网页镜像备份。该技术的具体运行原理为,依据特定的检索目标信息,设置有针对性的爬行URL队列,再从中抽出相应的URL,访问与其对应的网络页面,并对页面进行解析,将该特定页面上所有的URL提取并存入相应的爬行队列,通过往复循环爬行,直至队列中所有URL爬行完毕并符合抓取条件后此次爬行即为结束,从而遍览互联网网页[1]。网络爬虫技术分为表层网络爬虫(Surface Web Crawler)与深度网络爬虫(Deep Web Crawler)。传统网络爬虫技术皆为表层网络爬虫技术,以超链接形式搜索静态网页页面,无法挖掘隐藏在表单后的数据;而深度网络爬虫在用户提交关键词后可以探寻隐藏在表单后的网络页面。网络爬虫技术已经运用到社会生活的多个方面,是新闻门户平台(如今日头条)抓取新闻内容的重要方式[2]。
网络爬虫行为是行为人利用网络爬虫技术从网络信息平台检索、收集和获取数据的行为。应当注意,网络爬虫技术和网络爬虫行为并非同一概念,网络爬虫技术作为信息网络技术具有中立性,其本身并无好坏之分,更无讨论合法与非法的必要。而以网络爬虫技术为基础的网络爬虫行为体现着行为人的主观意志,更是受到市场环境和商业偏好的影响,便有善恶之别。易言之,网络爬虫技术具有客观性和中立性,没有法律评价的必要性;而网络爬虫行为具有价值偏好性,即可能存在特定主体将其用于“实质性的侵权用途”,具有法律评价的现实意义。网络爬虫行为具有“两面性”,善意行为可以促进信息交流和共享,有助于数据识别、分析和筛选,发挥数据的基本功能和价值,也是大数据时代的应有之义;恶意行为会带来诸多危害,轻者造成ICP网站拥堵和瘫痪,继而侵犯网络平台和网络用户的数据权利,重者将触犯一系列信息网络犯罪。恶意行为与善意行为在技术层面可能执行相同的操作,区别在于是否侵害数据法益。美国学者提出确立善意爬虫行为的3项标准:(1)爬取已经公开且不受代码保护的数据;(2)目的在于合并数据,以高效率和易访问的方式为用户提供有益的数据;(3)不应当损害数据主体的数据权益[3]。
然而,笔者纵观我国网络爬虫法学层面的现有研究,并未发现准确区分网络爬虫技术和网络爬虫行为的论述,较多研究对两者未加区分、直接混淆或同义使用。有学者认为,网络爬虫行为是一种按照一定的规则,自动抓取万维信息的程序或者脚本[4]16。也有学者将网络爬虫概念翻译为利用“机器人”“蜘蛛”“网络浏览器”等程序从数据网站、手机APP、小程序、搜索引擎中检索、提取、收集数据的行为[5]185。前一种观点将网络爬虫行为视为程序和脚本,后一种观点将网络爬虫直接理解为获取数据的行为。这两种观点实际上都存在“概念偷换”式的理解偏差。实际上,网络爬虫包括网络爬虫技术和网络爬虫行为,网络爬虫技术实为抓取互联网数据的程序和脚本;而网络爬虫行为是利用网络爬虫技术获取互联网数据的行为,既不能将二者混为一谈,亦不能替换使用,后者应当是法学研究关注的重点。
网络爬虫技术和网络爬虫行为的关系实为工具和利用工具的逻辑关系,正如菜刀和使用菜刀之间的关联性。菜刀作为人类的工具,在人类主观层面只有使用性能上的优劣,并无价值判断上的好坏;而菜刀被不同人使用带来的客观效应呈现出善恶之别,被善良之人使用可以成为厨房工具,被穷凶极恶之徒使用便成为犯罪工具。因此,菜刀没有好坏之分,关键在于使用它的人有善恶之别,网络爬虫技术亦是如此。近年来,滥用网络爬虫技术的行为产生的危害日益突显,实践中发生诸多滥用网络爬虫技术的司法判例。在民事领域,发生滥用网络爬虫技术侵犯他人名誉权的纠纷[6];在经济法领域,发生武汉元光科技有限公司滥用网络爬虫技术获取原告深圳市谷米科技有限公司公交车运行的实时数据、给原告造成重大损失的不正当竞争案件(下文简称“元光公司案”)[7];在行政法领域,出现利用网络爬虫技术侵犯知识产权的行政案件[8];在刑事领域,发生全国首例滥用网络爬虫行为入刑案件,上海市晟品网络科技有限公司主管人员利用网络爬虫技术,破解北京字节跳动公司的防护措施,爬取被害公司存储于服务器中的视频数据,法院最终以非法获取计算机信息系统数据罪定罪(下文简称“晟品公司案”)[9]。由此便让人误以为网络爬虫技术等同于法律风险,甚至误将网络爬虫技术与病毒、蠕虫等黑客技术划等号,导致网络爬虫技术被污名化。应当看到,与网络爬虫相关的法律风险实际来源于滥用网络爬虫行为,与网络爬虫技术本身并无直接因果关系。网络爬虫技术与包括病毒、蠕虫在内的黑客技术也存在明显区别,后者从产生之时就与互联网信息系统背道而驰,其诞生的使命和设计的初衷就是为了制造网络故障和破坏数据[10]。而网络爬虫技术本身并无破坏性,正确利用可以产生积极的社会效应。
职是之故,为了防止因滥用网络爬虫行为滋生法律风险而将网络爬虫技术全盘否定,有必要区分网络爬虫技术和网络爬虫行为。必须认清网络爬虫行为法律风险的根源,不能片面归责于网络爬虫技术,这对于防止网络爬虫行为刑法规制的扩张化和正确把握法律规制限度至关重要。
二、网络爬虫行为的刑事风险及其扩张化趋势
滥用网络爬虫行为容易侵犯以数据为载体的诸多法益,符合刑法相关罪名的构成要件,具有一定的刑事风险。然而,我国刑法理论和司法实践出现扩张网络爬虫行为刑事风险的趋势,存在将民事侵权和没有处罚必要性的行为作为犯罪处理的主张,冲击罪刑法定原则的堤坝。
1.网络爬虫行为的刑事风险类型
(1)法益维度:侵犯以数据为载体的法益谱系
网络爬虫行为所针对的对象皆为数据,因此,恶意爬虫行为所侵害的法益皆为以数据为载体的法益谱系。纵观既有司法判决主要涉及以下法益类型:
其一,侵犯他人著作权。数据本身并不受著作权法保护,但数据所反映的信息内容若为他人的信息网络作品,则应当受著作权保护。行为人单纯利用网络爬虫技术访问他人网站、知悉他人著作权信息并不构成侵权,一旦抓取他人网络著作权信息,实为对他人作品的复制,侵犯了著作权人的复制权;如果行为人将通过爬虫非法获取的著作权信息另行传播或使用,则是侵犯著作权人的信息网络传播权。
其二,侵犯公民个人信息权益。若行为人恶意利用网络爬虫爬取的数据中包含他人隐私和个人信息,势必侵犯隐私权和个人信息权益,然而《中华人民共和国刑法》(简称《刑法》)并未对隐私权予以专门保护,但根据《中华人民共和国民法典》(简称《民法典》)第1034条第3款可知,隐私与个人信息具有交叉关系,若行为人非法爬取他人隐私信息,当然构成侵犯公民个人信息罪。应当看到,我国现有的涉公民个人信息的不同法律规范对个人信息范围的划定并不统一。《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(简称《个人信息解释》)第1条和《中华人民共和国网络安全法》(简称《网络安全法》)第76条第(五)项都有关于个人信息的划定。对比二者可以发现,前者的个人信息包含身份识别信息和活动轨迹信息,而后者的个人信息仅包含身份识别信息并无活动轨迹信息。有学者认为,存在如上规制差异源于两法保护法益倾向上的区别,《网络安全法》以保障网络空间安全和有序为己任,更倾向于对网络空间公共法益的保护;而《个人信息解释》作为对刑法规范的解释,侧重于对公民个人人身权益和财产权利的保护,由此,《个人信息解释》对个人信息的理解必然更为广义[11]。本文对此不能完全认同,《网络安全法》颁布于2016年,《个人信息解释》生效于2017年,在法秩序统一视角下,若没有特殊情况,后者关于个人信息范围的界定应当与前者保持一致。《个人信息解释》增加活动轨迹信息不能单纯理解为增强公民人身权利和财产权利的保护力度,实为扩大侵犯公民个人信息罪的处罚广度。换言之,若以《网络安全法》为凭,行为人通过网络爬虫抓取他人活动轨迹信息无罪,但以《个人信息解释》为据,则构成侵犯公民个人信息罪。《民法典》第1034条和《中华人民共和国个人信息保护法》第4条对《个人信息解释》中个人信息范围予以认可。此外,有学者主张,在大数据时代对公民个人信息“合法获取、不当滥用”的行为也应当纳入侵犯公民个人信息罪规制[12]。这一主张在非法获取和非法提供外又增加了滥用行为,即使行为人通过正当爬虫技术获取公民个人信息,其后续的使用行为依旧存在刑事风险,延长了网络爬虫行为刑事风险周期。以上关于公民个人信息的规制和主张都直接或间接地扩张了网络爬虫行为的刑事风险。
其三,侵犯他人商业秘密权益。如果行为人恶意爬取他人已采取保护措施的商业秘密信息,则必然侵害他人商业秘密权益。近年来,我国频繁修改《中华人民共和国反不正当竟争法》(简称《反不正当竞争法》),对“商业秘密”范围也不断修正。在2017年基础上,2019年修订增加了“等商业信息”,即商业秘密不再局限于技术信息与经营信息,但只有同时具备秘密性、经济性、实用性、保密性等4个法律特征的商业信息,才能以商业秘密认定并给予法律保护。应当看到,“商业秘密”属性除了传统意义上的4个法律特征外,还应当加入“合法性”,将某些企业持有的非法性经营机密排除出商业秘密保护范围,最新《反不正当竞争法》关于“商业秘密”具有商业价值的定义修正对此已经体现出来[13]。因此,企业数据并非都是商业秘密,只有同时符合以上5个要件的企业数据才能进行商业秘密保护,恶意利用网络爬虫技术抓取该类企业数据可能构成侵犯商业秘密罪。
(2)行为维度:符合诸多刑事犯罪的行为要件
笔者以“网络爬虫”为关键词在裁判文书网检索(截至2021年10月12日),获取裁判文书共计66篇,刑事案件所定罪名主要包括侵犯公民个人信息罪和非法获取计算机信息系统数据罪等。
梳理现有司法判决,并对恶意网络爬虫行为进行刑法法理学分析,主要可以归入刑法构成要件中的3种行为类型:①非法侵入行为。即行为人利用网络爬虫技术,在违背他人意愿或者突破他人系统防护措施的情形下进入他人计算机信息系统。掌握技术的精明爬虫者在侵入他人普通的计算机信息系统时,完全可以不对数据网站造成任何破坏,对此行为尚无刑事法评价的必要。但是,一旦行为人恶意进入国家事务、国防建设、尖端科学技术领域的计算机信息系统,则会触犯非法侵入计算机信息系统罪。②技术提供行为。即行为人明知他人意图实施侵入、非法控制计算机信息系统,仍然为其犯罪行为提供网络爬虫技术服务。一旦符合情节严重的入罪标准,势必构成提供侵入、非法控制计算机信息系统程序、工具罪。③获取行为。即行为人恶意利用网络爬虫技术侵入他人计算机系统并获取相关数据,通常构成非法获取计算机信息系统数据罪。应当看到,数据犯罪的“获取”与传统犯罪的“获取”存在显著区别:基于数据缺乏法律客体的客观特征,对于数据的获取并非是对他人所有或占有的侵犯,其行为重点在于“知悉”[14]。易言之,行为人非法获取数据实际上并非获得对数据的占有,是非法改变对数据享有权利的主体所设定的数据“不知悉”状态。抓取数据是网络爬虫技术的基本功能,该项功能本身并不具有非法性,只有当行为人利用爬虫技术突破权利人的安全防护措施或违反访问权限抓取数据时,才具有可谴责性。④破坏行为。即行为人利用网络爬虫技术侵入他人计算机信息系统后对系统功能进行删除、修改、增加、干扰等破坏行为,造成计算机信息系统处于瘫痪、死机等不能正常运行状态,后果严重时势必触犯破坏计算机信息系统罪。
2.网络爬虫行为刑事风险扩张化
对既有裁判文书以时间维度进行梳理可知,从2013年百度诉360案、2015年新浪诉脉脉案、2016年大众点评诉百度地图案到2017年元光公司案,在此期间网络爬虫行为一直属于民事领域不正当竞争纠纷。直至2017年首例刑案(晟品公司案)尘埃落定,之后网络爬虫行为刑事案件逐渐增多。应当看到网络爬虫行为的法律风险,由民事侵权向刑事犯罪递升,突显了网络爬虫行为刑事风险的扩张化。自2019年以后,多家数据企业高管因涉嫌数据爬虫犯罪而身陷囹圄,在金融领域甚至掀起一股围剿网络爬虫技术的风潮[15],导致网络爬虫技术被妖魔化和污名化,P2P网贷技术和股权众筹技术的前车之鉴仍历历在目,对于中立的网络信息科技应当保有一定的宽容,法律的过度干预尤其刑法的严厉压制,势必阻滞科技创新和数据流动。我国网络爬虫行为刑事风险扩张化表现在下述4个方面。
其一,对网络爬虫行为处置态度严厉化。国外司法实践对待网络爬虫行为的态度比较宽容和缓和。例如,在美国网络爬虫案件中,著作权侵权诉由很少被提出,即使提出诉求也往往被驳回[16]。再如hiQ实验室公司诉领英公司案(hiQ vs.LinkedIn),网站运营者hiQ公司将领英公司起诉至法院,诉由为后者通过技术手段阻止前者通过爬虫技术获取其客户数据,前者的商业允许模式就是建立在对其他公司用户数据分析基础上,依赖网络爬虫技术对数据进行挖掘和爬取。美国法院的判决指出,后者不得采取措施阻止前者进入其网站和抓取、复制其公开信息,对公开数据抓取并不违法[17]。相反,网络爬虫的禁令会对竞争造成足够的威胁。中国司法实践对类似侵入他人系统获取数据的行为处置更为严厉。如前所述的元光公司案,最开始作为不正当竞争案处理,最终也被认定为刑事犯罪。对于类似案件,中美两国裁判结果折射出对新型网络技术的迥异态度。
其二,对网络爬虫行为对象规制扩大化。首先,数据范围被扩大。我国刑法所保护的“数据”仅限于计算机信息系统中存储、处理或者传输的数据,此种数据限于计算机信息系统内部,附着于计算机信息系统功能,主要指访问受到控制的数据。刑法规范对数据的限定规制使实践中对数据犯罪的适用受到掣肘,为此司法解释通过扩张“关键词”的方式扩充“数据”外延,即将计算机信息系统扩展为“计算机系统”,使受保护的数据不再局限存储于计算机信息系统内,所有与计算机或网络有关的数据都受刑法保护,如网页浏览痕迹、搜索记录等边缘数据也受刑法保护。其次,司法实务中未区分数据类型继而一律入罪。数据包含多种类型:①个人数据、企业数据和公共数据。这是以数据主体不同进行的界分。②公开的数据和非公开的数据。前者如政府官方网站公开的通知,后者如企业内部数据。③可复制的数据和仅浏览的数据。前者允许访客直接复制和抓取,后者仅允许用户登录浏览,但不允许用户另作他用。④可访问的数据和禁止访问的数据。前者网站不仅没有宣布禁止他人访问抓取数据,更没有采取任何防护措施;后者一方面是网站仅宣示禁止访问但未采取任何防护措施的数据,另一方面还包括网站不仅宣示禁止访问更采取严格防护措施的数据。实际上,刑法对不同类型数据的保护模式和程度存在显著差别,防护程度越高刑法保护级别越高,网络爬虫行为法律责任也越重。例如,爬取开放数据被允许和受鼓励,爬取禁止访问的数据可能构成犯罪。遗憾的是,我国司法判决并未对数据类型进行严格区分,导致爬取开放的数据也有入罪之虞。最后,企业数据保护范围被扩大。有学者主张,即使企业数据并非法定的知识产权类型,但可以通过司法解释将其解释为设定的知识产权[18]。然而,若将不符合商业秘密要件的企业数据强行适用商业秘密保护,并对爬取该类信息的行为以侵犯商业秘密罪认定,则势必扩张网络爬虫行为的刑事风险。对于强行爬取商业秘密以外的企业数据,至多属于经济纠纷中的不正当竞争关系,这点在前文所述的元光公司案判决中已有体现。有学者认为,数据企业的数据权利是财产权利的一种新类型,通过反不正当竞争法保护并不恰当,而应当通过绝对权给予更全面的保护[19]。这便涉及数据权利属性的争议,数据权利包含一定的财产权特征、人格权特征和国家主权特征[20]。在大数据时代,大部分的企业内部数据根本不属于商业秘密。但是,这些数据对于企业的经营与发展至关重要,若企业数据失去刑法保护屏障,对企业将是致命打击。于是,对企业数据财产化保护成为一种较受欢迎的主张,但是,大数据本身并不具有价值,不具有转移可能性,若将其直接认定为财物将导致传统法律体系混乱[21]。应当看到,财产化保护或新概念的创设都旨在使数据物化和客体化。然而,数据与传统民法客体相比存在显著区别,缺乏民事客体的确定性和特定性,并不具有现实世界的独立性,也难以解释为民事客体中的无形物[22]。因此,在民事领域,对于侵犯企业数据的行为,不能认定为侵犯物权行为,可以作为不正当竞争纠纷,也契合司法实践的实际操作。在刑事领域,对于爬取企业数据行为不应轻易认定为侵犯商业秘密罪。
其三,对网络爬虫行为认定标准模糊化。前文已述,网络爬虫技术无好坏之分,但网络爬虫行为有善恶之别。实际上,网络爬虫行为还可分为多种类型。第一,有授权的网络爬虫行为和无授权的网络爬虫行为。前者包括明示授权和默示授权,明示授权是指爬取者获得数据网站的协议或公开授权,爬取数据行为合法且正当;默示授权是爬取者虽无数据网站的授权协议,但数据公开且数据网站对于爬取行为并不反对,无论形式授权抑或实质授权的爬虫行为都被法律允许。后者是违背数据网站的意愿爬取数据,如违背爬虫协议(Robots协议)、服务协议和浏览协议的爬虫行为。第二,无授权的网络爬虫行为又分为爬取无防护措施数据行为和爬取有防护措施数据行为。前者是数据网站公开声明拒绝他人爬取其数据,但对网站数据并未采取任何防护措施,行为人径而轻易爬取其数据;后者是行为人突破、绕过他人防护措施,进而对数据进行获取或破坏[23]。无授权的网络爬虫行为根据侵害性程度不同,可依次归为民事不法和刑事不法。然而,我国司法实践并未准确识别网络爬虫行为的不法类型,进而全盘入罪。上述司法现状可能基于两点原因:①刑法典的规定过于抽象和凝练,只能抽象涵摄爬虫行为,无法对其细致和精确评价;②司法解释在细化相关罪名的入罪标准时只关注对象或结果要素,忽视了行为类型要素。因此,欠缺明确的网络爬虫行为类型的界分标准,势必扩张处罚和违背罪刑均衡原则,使得网络爬虫者不知何时会触犯刑法,诸多有益的网络爬虫会被无辜株连。
其四,对网络爬虫行为入刑门槛宽松化。信息法律的核心问题是保障个人享有获取信息的权利,处于优势地位的不是信息社会而是知情社会[24]。网络爬虫是获取数据的重要方式,但在我国刑事司法中其入刑标准较低。一方面,网络爬虫行为的直接目的为获取数据,其触犯的直接罪名为非法获取计算机信息系统数据罪;另一方面,遍览网络爬虫的刑事判决书,适用最多的罪名为侵犯公民个人信息罪。司法解释对两罪设置的入罪门槛显著宽松,即以特定的信息数量和经济损害数额为标准,较其他犯罪明显门槛偏低。而智能化网络爬虫可轻易获取海量数据,达到数量(额)不法实为触手可及。入罪标准趋低化导致网络爬虫行为违反民法、行政法等前置法后就可能径直进入犯罪圈,减缩民法的适用空间。入罪标准趋低化造成网络爬虫行为在两法之间的生存空间过于狭窄,缺乏有效的过渡带,这便是网络爬虫行为具有刑事风险的“先天基因”。此外,加上实践严厉态度的“后天不足”,导致网络爬虫行为刑事风险进一步得到扩张。
三、网络爬虫行为刑法规制的限度
网络爬虫行为的刑事风险扩张,不仅侵蚀罪刑法定原则的堤坝,还会阻滞技术发展与数据流动。因此,亟须逐一甄别不同类型网络爬虫行为的刑事违法性界限,继而坚守网络爬虫行为刑法规制的限度。
1.抓取开放数据:不具有一般违法性
数据包括开放的数据和未开放的数据,对于开放的数据无论何人随时随地都可以点击、访问和使用。应当注意,开放的数据和公开的数据并非同一概念。“开放”意味着对数据获取障碍的解除,开放的数据必然公开,不仅允许他人访问和查阅,也直接授权访客复制和抓取,意味着数据主体放弃对数据的垄断权利,将数据置于公众视野之下并允许他人充分利用。公开的数据实际上是开放数据的上位概念,即数据表现的内容(即信息)能够被公众知悉,包括一些虽然允许公众访问和阅览,但拒绝复制、抓取和使用,或者即使允许抓取也要求访问者充值成为会员或满足其他条件。政府在实行信息公开制度过程中,需要依靠数据开放以实现数据充分利用[25]。
对于开放的数据由于获得权利人的允诺和授权,数据资源即由私有产品变成数字化公共资源[26]。即使最终在数据层面对权利人造成损害,也应当适用被害人允诺原则。法益主体的意志应当被尊重,被害人允诺应当统一定性为阻却构成要件符合性的事由[27]。这种阻却违法,不仅阻却民事违法,也必然阻却刑事违法。在民事领域被害人同意阻却违法的效力更高,更是生成“同意不生违法”的原则。这一原则在我国民事立法和民事司法层面都得以确立和贯彻,司法实践中确立经权利人同意获取个人信息不侵权原则。民事立法对该原则进一步确定,《民法典》第1036条规定:“处理个人信息,有下列情形之一的,行为人不承担民事责任:(一)在该自然人或者其监护人同意的范围内合理实施的行为。”既然民事层面已经阻却爬取开放数据的违法性,在刑事领域也就没有纳入评价的必要性,否则必将造成民刑适用标准的倒挂。总之,数据公开并不意味着数据开放,开放的数据因权利人放弃数据垄断权而使抓取行为合法与适当,故而只有抓取非开放的数据才有讨论是否违法和触犯刑法的必要。
2.违背行业规则抓取数据:未达刑事违法性
获得数据网站单方面授权或合同授权时,用户的爬虫行为皆为合法有效,即使违背或超越授权内容,也只需承担民事责任。但是,双方若不存在授权(合同)关系,数据网站对他人数据爬取行为的态度则迥然不同,有些网站乐于接受而另一些网站则完全拒绝。对此,很多网站会采取阻止网络爬虫行为的措施,即反爬措施。反爬措施主要包括3种类型:第一,主动识别型网络反爬措施。依靠各种辅助资料能够主动识别网络爬虫,进而直接阻止网络爬虫行为,或者将无关的垃圾信息予以打回[28],如,Use-Agent设置。第二,被动间接型网络反爬措施。不主动识别和阻止网络爬虫,而是利用各种复杂的前端数据渲染技术制造网络爬虫障碍和增加网络爬虫难度[29]。例如,有些网站通过设置网页访问口令、JS脚本阻止网络爬虫。第三,宣示型网络反爬措施。对于网络爬虫只是宣布拒绝和反对,但并未采取直接和有效的防范措施,主要是指Robots 协议,即网站所有者使用的文件,提示网络机器人哪些数据可以爬取,哪些数据不能爬取。Robots 协议实际上属于规范网络爬虫行为的行业规则。在Robots 协议范围内抓取数据完全正当,一旦违背Robots 协议抓取数据则是违背行业规则,违反了诚信原则和商业道德,甚至可能作为判定不正当竞争的依据。例如,百度与360诉讼案,法院认为,被告奇虎公司(360)在推出搜索系统的初始阶段就没有遵守百度公司的Robots 协议,其行为显著不当,被告的行为属于不正当竞争行为,应当承担相应的民事责任[30]。因为Robots 协议已经成为业内公认的商业道德标准,将违背Robots 协议作为判断民事违法性依据尚可以被接受。然而,有学者据此认为,Robots 协议也可以作为刑事违法性判断依据,即行为人违背Robots 协议抓取公民个人信息,也构成侵犯公民个人信息罪[4]21-22。概言之,将违反Robots 协议视为侵犯公民个人信息罪中的“非法”。基于体系性解释,《刑法》第253条之一第3款中的“非法”应当与第1款中的“违反国家有关规定”作同义理解。《刑法》第253条之一设定构成侵犯公民个人信息罪以“违反国家有关规定”为前提,根据《刑法》第96条规定可知,“违反国家规定”仅限法律和行政法规级别的规范文件。“违反国家有关规定”范围虽不能等同于“违反国家规定”,但都应当属于国家官方性法律规范。《个人信息解释》第2条对“违反国家有关规定”已有明确界定,包括法律、行政法规、部门规章。虽然有学者认为,司法解释这一规定拓宽了“国家有关规定”的范围,有违罪刑法定原则[31]。但是,仍然还是在人们可接受的范围内,若将行业规则(Robots 协议)纳入“国家有关规定”,则属于类推解释,必然违反罪刑法定原则。
应当看到,爬虫行为单纯违反Robots协议与违约行为效果同质。例如,数据网站在使用条款和登陆协议中明确声明(要约)某些数据不能爬取,行为人同意该协议(承诺)登陆后仍然爬取相关数据,数据网站可据此提起违约诉讼,可通过契约法则和相应措施予以救济。对于纯粹违约和违反自治规则的行为,在前置法能够实现规制效果的情况下,尚无进入刑事评价的必要。可以看出,民事不法和刑事不法并非完全同义,法秩序的统一不是违法概念的形式统一,而是各法领域目的的统一,刑事违法判断首先要考虑的是刑法自身目的的实现[32]。因此,民事违法不能直接作为刑事不法的判断依据。刑事违法性是在量达到了严重的程度,在质上值得科处刑罚的违法性,亦即具备了可罚的违法性时才符合刑事违法性[33]。而单纯违反Robots协议的爬虫行为作为民事违法即可,无需上升至刑事违法。
3.突破技术防护措施未抓取数据:该当构成要件有限性
网络爬虫也可能作为黑客攻击的手段之一,与其他黑客攻击不同,网络爬虫的目的是为了从网站中抓取数据,但利用网络爬虫技术侵入数据网站并非都能抓取到数据。美国理论与实践对利用网络爬虫突破数据网站防护措施的强行访问行为视为非法,甚至认定为无授权访问计算机系统的犯罪,有学者据此认为,在我国故意避开或者强行突破网站技术防护措施的网络爬虫行为需要承担刑事责任[5]195。这种观点实际上是站在国外法律实践指点我国司法适用,并不符合本土化现实。
其一,强行侵入型网络爬虫行为需针对特殊系统才具有构成要件该当性。对信息系统直接侵入型犯罪规定在《刑法》第285条非法侵入计算机信息系统罪,强行突破型网络爬虫行为若要构成犯罪,必须是强行攻入国家事务、国防建设、尖端科学技术领域的计算机信息系统,对于普通数据网站系统的强行侵入行为难以该当《刑法》第285条的构成要件。
其二,强行侵入普通系统需再有其他构成要件要素方能具备构成要件该当性。有学者以晟品公司案作为论据,论证强行突破技术防护措施的网络爬虫构成犯罪[5]196。以该案论证其他案件并不恰当,晟品公司行为构成犯罪并不在于强行侵入行为,实质侵害法益的是侵入后的抓取数据行为,其被以非法获取计算机信息系统数据罪认定就足以说明这点。根据《刑法》第285条第2款可知,侵入普通的计算机信息系统,必须再实施获取数据行为或非法控制行为,才能认定为符合非法获取计算机信息系统数据罪或非法控制计算机信息系统罪的构成要件。同时,《刑法》第285条、第286条规定的犯罪都是以“违反国家规定”为构成要件要素。因此,对《刑法》第285条、第286条所规定犯罪的认定,必须探寻违反哪条法律或行政法规,若无被违反的“国家规定”,则显然不能视为相应犯罪的构成要件。
其三,强行侵入普通系统虽未抓取数据但制造了法不允许的危险时亦有刑事违法性。若行为人本欲利用网络爬虫技术侵入他人网站抓取数据,因意志以外的因素未能抓取到数据,但确对数据法益造成法不被允许的紧迫危险时,对行为人可以认定相应犯罪未遂。质言之,网络爬虫行为侵犯数据法益构罪不限于该当构成要件的实害也包含该当构成要件的危险。对于产生实害的危险,应当是一种具体的危险,不应包含抽象的危险。在互联网上实行的抽象危险犯缺乏符合构成要件该当的结果,因而没有实质结果意义[34]。对数据法益产生高度紧迫危险的爬虫行为,也只能以犯罪未遂论处。
4.突破技术防护措施抓取到数据:刑事不法有限性
对于已经突破数据网站技术防护措施,并且已经爬取到数据的爬虫行为通常具有一般违法性,但并非都要承担刑事责任,要从是否符合入罪标准(形式不法)和是否具有法益侵害性(实质不法)的双重维度进行综合判断。网络爬取行为主要触犯两种类型犯罪:一方面是普通数据犯罪,即非法获取计算机信息系统数据罪;另一方面是特殊数据犯罪,主要包括侵犯公民个人信息罪、侵犯著作权罪、侵犯商业秘密罪等。不能一刀切地认为只要行为人爬取到数据就构成犯罪,还需要结合具体罪名进行场景化分析。
其一,爬取普通数据行为入罪需要兼具形式不法和实质不法。非法获取计算机信息系统数据罪的入罪标准为“情节严重”。《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第1条将“情节严重”细化为具体的信息数量、获益数额以及造成损失的数额,例如,要求行为人非法获利5000元以上即可入罪。从应然立场考察,这一较低的入罪标准不利于网络爬虫技术发展,司法实践应对该标准有所提高,将大量的轻微犯罪降格评价,作为民事案件处理,拓宽网络爬虫技术的发展空间。概言之,通常情况下爬取普通数据行为符合数量不法或数额不法,即具有实质法益侵害性便可归责。但是,某些情形下,即使具有形式不法也可能不存在实质不法,也就不应当追究刑事责任。例如,行为人爬取的支付结算、股票交易等网络金融服务的身份认证信息符合形式数量标准但内容已失效,即使另行使用也不会侵害法益,可根据《刑法》第13条“但书”条款出罪。在综合考察案件形式不法和实质不法的基础上,对确属“情节显著轻微危害不大”的行为以“但书”条款出罪也理所当然。应当注意,对实质不法的判断应坚守行为时的损害标准,当行为人非法爬取普通数据时已导致权利人的数据法益受损则具有实质不法,事后被害人采取技术手段使被抓取数据失效,从事后角度看对被害人而言仅是危险,但在行为发生时即已造成实害,具有实质不法且应当归责。因此,基于实质可罚性立场,对非法爬取普通数据行为归责,应当兼具形式不法和实质不法,二者缺其一则应阻却刑责。
其二,爬取个人信息数据入罪亦需具备形式不法和实质不法。应当看到,侵犯公民个人信息行为入罪标准也是“情节严重”,《个人信息解释》对于获取个人信息的“情节严重”,根据信息类型不同细化为轻重有别的形式化数量标准。对于行踪轨迹信息、通信内容、征信信息、财产信息数量要求在50条以上;住宿信息、通信记录、健康生理信息、交易信息等数量要求在500条以上;其他公民个人信息5000条以上;还包含数额标准,即本人的违法所得要求在5000元以上。越重要的个人信息数量标准越低,法益保护要求越高。应当注意,即使爬取的个人信息符合数量标准和获益标准(形式不法),但是若获取行为本身并未侵害法益(实质不法),也不能作为犯罪处理。例如,马某某、郭某侵犯公民个人信息案[35]。该案争议焦点在于非法获取号码生成器软件生成的手机号码能否构成侵犯公民个人信息罪,法院的判决予以肯定。本文认为,这一判决并不妥当,实际上通过生成器生成的号码超过时限则失效。已无效的手机号码虽然之前可归入个人信息的范畴,之后因无法识别特定自然人的身份不能再视为公民个人信息,后续爬取和使用该信息即使符合形式不法也无任何侵害性,可因法益阙如而阻却不法。
其三,爬取著作权信息入罪也应具备形式不法和实质不法。侵犯著作权罪的入罪标准为“违法所得数额较大或者有其他严重情节”,两高《关于办理侵犯知识产权刑事案件具体应用法律若干问题的解释》(简称《知识产权解释》)第5条对入罪标准都细化为特定的犯罪所得数额和犯罪对象数量,即以数量不法和数额不法作为形式不法的标准。同时,构成要件要素也是形式不法的展现。我国侵犯著作权罪构成要件中的行为方式包括复制发行、出版、制作、出售,而此处的复制和发行并列同在,并非以顿号隔开,说明“复制”与“发行”是并列关系,并非“选择”关系。易言之,单纯复制他人著作权信息并不构成犯罪,只有复制后又发行的才构成犯罪。立法者之所以作出如此设计,正是基于两点考虑:①从结果无价值立场考虑,即单纯利用爬虫技术抓取(复制)著作权信息仅供自己使用,未作为其他公开或牟利使用,不可能侵犯他人著作权法益;②立足合理使用的法律原则,平衡著作权人的私人利益与公众使用的利益。因此,单纯复制著作权信息的行为因不该当侵犯著作权罪的行为要件而阻却形式不法。对于实质不法的判断,主要考察行为对著作权法益是否具有实质的侵害性。若行为人利用爬虫技术强行侵入系统抓取他人著作权信息,但信息内容是法律不予保护的淫秽、色情小说,则即使符合数量、数额标准,也因法益侵害阙如而阻却实质不法。
其四,爬取商业秘密数据入罪以“情节严重”作为形式不法和实质不法的共同标准。《刑法修正案(十一)》在侵犯商业秘密罪的非法获取行为方式中增加了“电子侵入”,利用网络爬虫手段侵犯他人商业秘密行为属于“电子侵入”,但是单纯以电子侵入方式获取商业秘密行为并不能直接入罪,还应当符合“情节严重”的标准。根据《最高人民检察院、公安部关于修改侵犯商业秘密刑事案件立案追诉标准的决定》(高检发〔2020〕15号)的规定,侵犯商业秘密罪的入罪情节包括:“(一)给商业秘密权利人造成损失数额在三十万元以上的;(二)因侵犯商业秘密违法所得数额在三十万元以上的;(三)直接导致商业秘密的权利人因重大经营困难而破产、倒闭的;(四)其他给商业秘密权利人造成重大损失的情形。”综上可见,给权利人造成重大损失应是侵犯商业秘密行为入罪的实质标准。侵犯商业秘密罪的实质侵害性在于非法获取商业秘密后披露、使用或者允许他人使用的行为,这是追究刑责的实质依据,而单纯爬取商业秘密行为对权利人并无实质危害。一方面,数字化商业秘密与有形财产存在本质区别。有形财产一旦被盗,权利人即丧失占有,而数字化商业秘密被他人爬取,权利人并不会失去所持有的商业秘密,仍然可以继续使用,商业秘密自身价值并未受损,重大损失与商业秘密的自身价值不能等同[36]。若将单纯获取数据化商业秘密行为作为犯罪处理,实质上是间接承认商业秘密的财产化属性,这样的解释结论也很难被接受,有类推适用之嫌。另一方面,若将单纯获取商业秘密行为作为犯罪处理,将与非法获取商业秘密后又使用的行为,适用相同的罪名和法定刑,实施一个行为与实施两个行为罪责相同的结论,明显有失均衡。实践中处罚非法获取商业秘密行为,皆因其有后续使用行为,造成权利人重大损失。因此,有学者认为,非法获取商业秘密的行为,作为单独的行为方式是否有必要,确实值得进一步推敲[37]。从实然角度判断,单纯爬取商业秘密行为不会给权利人造成实质损害,也就难以达到造成损失数额在30万元以上的标准,应当阻却刑事不法。但是,若行为人本以后续使用为目的违法抓取他人商业秘密,但因意志以外的原因未能进行后续使用,故而未造成被害人损失达到30万元以上,但已对他人商业秘密法益造成被侵害的紧迫危险,可以侵犯商业秘密罪未遂论处。
综上所述,即使是突破数据网站防护措施爬取到数据的行为也并非均有刑事不法继而一律入罪。既要从形式上考察行为是否合法,是否符合数量不法、数额不法要件,也要从实质上判断爬取数据行为是否具有法益侵害性,不同数据犯罪的形式不法和实质不法的标准存在区别,需要结合具体情境予以场景化分析。对于实质不法应以实害为标准,对未造成实害但产生了具有产生实害的紧迫危险时,亦可以犯罪未遂论处,仅有一般危险时则应当出罪。
四、结 语
大数据与智能化生产、无线网络被称为引领未来繁荣的三大技术变革[38]。当网络爬虫技术成为大数据时代不可或缺的一部分时,网络爬虫行为善恶之分日益突显。善意网络爬虫行为有利于数据资源的流通和共享,而恶意网络爬虫行为滋生了一系列法律风险。在重视网络安全和数据安全的当下,对待侵犯数据行为的态度日趋严厉,网络爬虫行为的刑事风险日渐加剧,让从事数据工作的经营者怯于推动数据的流动和再生,一定程度上阻碍了数据技术的发展,对此有必要明确爬取数据行为的法律边界。在明确网络爬虫行为合法性外部边界、民刑内部界限的基础上,更应坚守刑法谦抑立场、保持刑法规制网络爬虫行为的限度,将更多轻微并无实质法益侵害性的爬虫行为归入前置法调整范围,提高网络爬虫行为入罪标准,拓宽网络爬虫行为在两法之间的生存空间。