大数据时代下网络爬虫的法律适用问题
2021-11-25姜鸿邵励
姜 鸿 邵 励
(杭州市西湖区人民检察院,浙江 杭州 310007)
随着互联网的发展,人类社会已进入网络社会。在“互联网+”时代,社会生活的方方面面都渗透着信息网络,与人们的日常生活、工作都产生了密不可分的关系。人们在享受网络给工作生活带来便利的同时,还可以通过现代科技手段与全世界的知识体系建立联系,利用丰富的信息渠道拓宽自己既有的知识边界。但网络亦是一把双刃剑,伴随着网络进步和生活便利的是频频发生的网络犯罪,它不断侵蚀着社会秩序,同时还引发了《刑法》在信息时代的制裁瓶颈和解释危机,日益显现的网络犯罪问题已对我国信息化发展形成巨大障碍,从1997年《刑法》首次规定计算机犯罪至今,社会各界对网络犯罪问题都给予高度关注和重视。
一、大数据与爬虫
(一)大数据
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。网络犯罪问题的根源,是在网络社会中的信息数据已积累到了一个开始引发变革的程度,社会不仅充斥着比以往更丰富的信息数据,而且信息数据增长的速度也在加快,面对爆发式增长的信息数据该如何加以利用、处理将直接影响着网络社会的基础稳定。大数据开辟的新天地,给我们的生活、日常工作以及思维方式都带来了翻天覆地的变化,它打破了网络空间与现实社会的界限,伴随着更多的风险和挑战,这种挑战不仅限于个人与企业,海量的大数据甚至可以影响社会与国家安全。如何保障大数据安全,是信息化过程中避无可避的难题。
大数据时代,获取数据的常见的方式主要有以下几种:1.企业产生的数据。拥有海量用户的大型互联网公司,可以凭借其用户优势积累数据,部分中小型企业基于数据意识的觉醒,也会收集、整合有用的数据。2.交易获取数据。目前已经有专门的数据平台或数据交易所允许数据交易,通过上述途径也能获取数据。3.权威部门公开的数据。每年国家统计局、央行、世界银行、纳斯达克等机构都会公开相当的数据,这部分数据都能在网络上公开查询。4.专业公司产生的数据。提供商业资讯方案的麦肯锡、埃森哲等公司,采用问卷调查、市场调研、行业合作、样本检测、专家对话等方式来获取数据,从而定制性解决用户问题。5.技术爬取数据。无论是搜索引擎,还是个人或单位获取目标数据,都需要从公开网站上爬取大量数据,在此需求下,爬虫技术应运而生,并迅速成为一门成熟的技术。[1]
(二)爬虫技术与反爬虫措施
爬虫,即网络爬虫,又称网络蜘蛛(Web Spider),是一种按照一定规则,用来自动浏览或抓取万维网数据的程序。可以把爬虫程序看成一个机器人,它的功能就是模拟人的行为去访问各种站点,或者带回一些与站点相关的信息,它可以24小时不间断地做一些重复性的工作,还可以自动提取一些数据。按照使用场景,可将爬虫分为通用爬虫和聚焦爬虫;按照爬取形式,可分为累积式爬虫和增量式爬虫;按照爬取数据的存在方式,可分为表层爬虫和深层爬虫。在实际应用中,网络爬虫系统通常是由几种爬虫技术相结合实现的。
爬虫技术的目的是为自动获取网页数据,而反爬虫则是利用技术手段防止爬虫爬取数据。一些智能爬虫的爬取频率比较合理,不会消耗过多的网站资源,但更多网络爬虫对网页的爬取能力很差,经常并发上百个请求循环重复爬取,对中小型网站造成的访问压力可能导致网站访问速度变慢,甚至无法访问,因此现在的网站会采取一些反爬虫措施来阻止爬虫的不当爬取行为。
1.Robots协议(Robots Exclusion Protocol)
该协议全称是“网络爬虫排除标准”,是互联网界通行的道德规范。[2]网站以符合协议的robots.txt文件让搜索引擎明白允许的爬取范围。robots.txt文件是搜索引擎访问网站时要查看的第一个文件,它会限定网络爬虫的访问范围。当爬虫访问站点时,首先要确认站点根目录下robots.txt文件的存在与否。如果该文件存在,那么网络爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么所有的网络爬虫就能够访问网站上所有没有被密码保护的页面。
2.反爬虫策略
常见的反爬虫策略包括有:(1)User-agent限制:服务端通过识别请求中的User-agent是否为合理真实的浏览器,从而来判断是否为爬虫程序。(2)IP限制:一些网站限制了每个IP在一定时间内访问的频次,超过这个次数就不能访问等。(3)验证码限制:虽然一些网站不登录就能访问,但是它一检测到某IP的访问量有异常,就会马上提出登录要求,并随机提供一个验证码。
二、网络爬虫技术的异化
技术虽然中立,但人的行为却有是非对错、合法与违法之分。遵守网站Robots协议,通过网络公开接口进行爬取,行为不影响网站的正常运行,反而会因为增加了网站的流量受到欢迎,这类爬虫属于善意爬虫。有善即有恶,恶意爬虫忽略协议中Disallow要求,爬取网站的核心抑或保密等禁止爬取的数据,还会造成占用网站服务器带宽资源的情形,从而导致服务器无法正常处理用户访问,出现服务器崩溃的不良后果。
现如今,因缺乏有效行业规范和有力监督,网络爬虫的治理面临着恶意网络爬虫泛滥的窘境,恶意网络爬虫作为新型网络犯罪手段,包括并不限于频繁访问网站,大量占用带宽导致网络服务器无法负荷最终宕机,扰乱计算机信息系统正常运行;侵入计算机信息系统后取得控制权,并对计算机信息系统或系统内文件进行增、删、改,破坏计算机信息系统安全;非法获取公民个人信息,并将所获取信息提供给不法分子,从而触犯《刑法》的现实案例比比皆是。
三、网络爬虫的《刑法》规制
我国《刑法》规定的网络犯罪大致包括四种类型,一为侵入性网络犯罪,规定在《刑法》第二百八十五条第一款、第二款,共同点都在于要求行为人非法侵入计算机信息系统。二为破坏性网络犯罪,规定在《刑法》第二百八十六条,指行为人违反国家规定,对计算机信息功能进行增、删、改或进行干扰,造成相应后果的。三为违背监管义务型网络犯罪,主要是《刑法》第二百八十六条之一(《刑法》修正案(九)第二十八条),主要针对的对象是网络服务提供者,且有前置行政行为,必须是经监管责令改正而并不改正才能定罪处罚。四为辅助性网络犯罪,《刑法》第二百八十五条第三款、第二百二十七条之一提供侵入、非法控制计算机信息系统程序、工具罪,非法利用信息网络罪。
以“爬虫”为关键词查询裁判文书网,发现在司法实践中,使用爬虫技术可能触犯以下罪名:
(一)破坏计算机信息系统罪
案例一:行为人为获得全运会接待服务管理系统安全维护业务,利用提供美工服务时掌握的系统管理后台的URL、管理员用户名及密码,通过向全运会组委会接待服务管理系统植入编写的“爬虫”程序,攻击系统漏洞,导致系统内大量信息被删除。
案例二:一公司为业务需要,有相关行为人开发一款名为“快鸽信贷系统”的软件,该软件采用爬虫功能从深圳市居住证网站上爬取房产地址、房屋编码等信息,为了更便捷地服务主营业务,该软件中的爬虫功能在短时间(2小时内)大量访问深圳市居住证系统,这种机器式的查询使深圳市公安局居住证服务平台服务器遭受到自动化程序攻击,造成系统服务器无法正常运行,因服务器宕机后相应服务平台也无法正常对外提供服务,用户不能正常使用平台业务,极大影响使用方日常工作。
两个案例的判决依据都是《刑法》第二百八十六条第一款。前者在攻击计算机信息系统漏洞时,删除系统内的数据,也是惯常定该罪时出现的“增”“改”“删”三种情形之一,故行为人的行为是符合破坏信息系统罪的犯罪构成要件的。后者因为干扰计算机信息系统正常功能,造成相应后果,而这也是爬虫技术在使用过量时最容易造成的DDOS攻击。
(二)非法经营罪
行为人利用“爬虫”软件从其他网站抓取各类信息放置在其建立的网站后,收取数额不等的费用提供删除网站信息服务,并通过有偿删帖获利数十万元。
正常使用爬虫技术从公开网页爬取允许的数据并不违法,利用网络收集负面信息放大其效应,吸引有需求的人群提出删帖要求,并就此收费的行为,究竟是市场行为还是已经触犯法律,笔者内心尚存疑问,但判决书认为行为人有偿删除网络信息服务,属于违反国家规定,以营利为目的,扰乱市场秩序,情节严重,构成非法经营罪。
(三)非法侵入计算机信息系统罪
行为人通过“爬虫”软件大量爬取各地车管所公告的车牌放号信息,并通过软件将爬取车牌号与“交通安全服务管理平台”车辆报废查询系统内的车牌信息进行对比,筛选出未注册车牌号形成数据库。
之后编写客户端查询软件,通过QQ、淘宝、微信等方式,向有选车牌号需求的人分省市贩卖数据库查阅权限,通过比对未注册车牌号数据库使用抢号软件采用多线程登录,编辑“按键精灵”类软件模拟人工操作,编辑验证码自动识别输入,实现快速抢号,之后选取车牌贩卖。
川3424刑初169号判决书认为:行为人违反国家规定,以牟利为目的,侵入二百八十五条第一款规定的计算机信息系统,应当以非法侵入计算机信息系统罪定罪处罚。
(四)非法获取计算机信息系统数据罪
因爬虫技术更多用于爬取数据,因此,本罪应是不当使用爬虫技术容易触犯的罪名。(2019)浙0602刑初1143号判决书认为行为人利用研发的爬虫软件、加粉软件远程访问运营商数据库中的数据,非法登录用户淘宝、微博账号,进行强制加粉、订单爬取,并从中牟利的行为符合第二百八十五条第二款规定,成为非法获取计算机信息系统数据罪。
但从判决书认定的事实来看,强制加粉的行为应对数据库中的数据进行了修改,仅用非法获取计算机信息系统数据来评价似不够充分。
四、当前刑事司法规制中存在的问题
从上述罪名认定上来看,使用爬虫技术可能触犯网络类罪名,也可能触犯其他罪名,但在此罪与彼罪、一罪与数罪的认识上,存在一定争议,具体如下:
(一)定网络犯罪还是一般性犯罪认识不一
(2019)鲁0213刑初144号、(2020)鲁02刑终108号判决书认定行为人通过SQL注入漏洞以及编写爬虫脚本的方式,侵入计算机信息系统,获取计算机系统内存储的大量数据,后将获取的公民信息数据予以出售的行为认定为非法获取计算机信息系统数据罪。
行为人采用爬虫技术作为手段,非法获取计算机信息系统内数据的行为,符合《刑法》第二百八十五条第二款的规定,但其将获取的公民个人信息出售的行为,同样符合《刑法》第二百五十三条之一第一款的规定,系典型的牵连犯,一般从一重处断,但本案中,行为人在两罪中的量刑均为有期徒刑三年至七年,难分孰轻孰重,笔者认为,在该种情况下,依据主客观相一致原则,行为人通过爬虫程序爬取计算机信息系统内数据的最终目的是将上述数据出售获利,非法获取计算机系统数据只是手段,主观上系侵犯公民个人信息,但裁判文书中未对两罪做出评判且最终以手段行为判处刑罚,似有不妥。
(2019)苏08刑终216号判决书体现了笔者的思路,该判决书认定行为人作为某小额贷款平台的共同经营人,为牟取非法利益,合谋开发具有付费查询获取多家小额贷款平台内公民个人借贷信息、身份证照片信息等功能的“黑爬虫”网站并对外经营。用户充值后,经付费可以通过“黑爬虫”网站查询公民个人信息,判决书最终认定行为人的行为构成侵犯公民个人信息罪。
(二)定此网络犯罪还是彼网络犯罪认识不一
(2019)苏1091刑初157号判决书认定行为人开发“探索云盘搜索”网站和“探索云盘搜索”插件,下载并使用“探索云盘搜索”插件的用户只要在电脑上登录百度网盘账户,插件内的“爬虫”软件会在用户不知情情况下抓取该网盘内的分享链接地址和提取码并上传服务器,行为人将获取的信息收录于“探索云盘搜索”的网站上,向不特定人公开,并收取会费获利的行为违反“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动”①《网络安全法》第二十七条。的规定,判定行为人犯非法获取计算机信息系统数据罪。
但该案中,公诉机关认为应当根据《刑法》第二百八十五条第三款进行评价。
判决书认为提供侵入、非法控制计算机信息系统程序、工具罪中的“提供”应当是为违法犯罪行为提供帮助或创造条件,或者被提供者对所提供的程序、工具的非法属性至少有概括的认知,但使用插件的用户并无违法行为,对于插件中的爬虫程序会爬取自己账户内的网络资源也并不知情,用户也是信息被窃取的被害人,不符合提供侵入、非法控制计算机信息系统程序、工具罪的本质含义,故不支持公诉机关指控。
五、结语
法益是《刑法》保护的利益,虽然这个基础性概念存在争议,但“法益是建立刑罚正当性的前提和特定行为入罪化的实质标准”①提供侵入、非法控制计算机信息系统程序、工具罪。已基本达成共识。法益的保护范围决定着成立犯罪的边界,也界分着此罪与彼罪,它不仅在立法上对什么是犯罪、应当承担多少刑罚起指导作用,在司法层面也对为什么成立此罪而非彼罪进行着解释。
《刑法》第二百八十五条至二百八十七条之二款确定的打击网络犯罪的刑罚规范,其保护的法益除了计算机信息系统外,还包括计算机信息系统中的数据安全以及计算机信息系统所有人与合法用户的合法权益。[3]
“‘计算机信息系统’和‘计算机系统’,是指具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等。”[4]司法解释将“计算机信息系统”和“计算机系统”作为同一概念把握,随着社会的网络化,计算机信息系统的应用领域越发广泛,一些具体情况下计算机信息系统的认定也存在争议。基于此,最高人民法院与最高人民检察院围绕计算机信息系统的认定发布了专门的指导案例。例如,将附属计算机信息系统(徐强破坏计算机信息系统案②两高《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第十一条。)中的大型机械GPS信息服务系统认定为具备自动处理数据功能的通信设备与自动化控制设备,该认定并未超过《解释》第十一条规定的范围和国民预测的可能性。也有将移动终端系统(曾兴亮、王玉生破坏计算机信息系统案③最高人民法院指导案例第103号。),即包括智能手机、笔记本电脑、平板电脑等移动终端因具有特定的操作系统,与《解释》第十一条规定的具备自动处理数据功能的系统具有一致性,认定为计算机信息系统,该认定亦符合网络社会和信息技术的现实发展。④最高人民检察院指导案例第35号。
爬虫的本质是获取数据,工作过程类似于从虚拟浏览器发送请求(获取网页代码),再获取有用数据存放于数据库或文件中。网络爬虫的技术原理必然要求运行爬虫程序的计算机设备不停地与被爬取数据的计算机系统或计算机信息系统发生信息交互,这个数据获取和保存的过程有可能产生严重后果从而成立破坏计算机信息系统罪,也可能只是绕开防范措施而成立非法获取计算机信息系统数据罪,还有可能爬取的数据涉及公民个人信息而成立侵犯公民个人信息罪……[5]
总而言之,爬虫技术在诞生之初有效提高了获取数据的效率,而大数据的合理使用给我们的生活带来了极大便利,在经济社会层面也有正面意义。但随着大数据时代的到来,数据蕴含的利益逐步加大,受利益驱动,爬虫技术被行为人用于违法犯罪的案例同样屡见不鲜。正所谓任何事物都有两面性,在网络爬虫被广泛应用的同时,数据访问获取、使用和分享的规则必然需要进一步明确,在采用“君子协定”的robots协议规范网络爬虫控制者相关行为外,必须存在相应的法律法规来规范其行为,坚决打击越轨行为。由于犯罪形态的不断变化、对法律理解的差异,导致相关行为性质的认定存在不一致的情形,具体到个案,还需要回归法益保护这一根本点,从而最终实现罪责刑相统一的处理结果。