刑法规范视角下的网络爬虫黑色产业链分析
2021-08-10林思婷董昕匀
林思婷 董昕匀
摘 要:网络爬虫黑色产业可以分为上中下游三类行为。上游行为是电子数据爬取的来源问题;中游行为是网络爬虫技术本身;下游行为是数据的运用问题。我国刑法中,利用网络爬虫技术进行的非法活动尚未被规定为独立罪名。在这种情况下,需要对网络爬虫的上述三类行为具体分析,并按照现有刑法规定进行惩治。
关键词:网络爬虫;行为类型;刑法规制
中图分类号:D924.3 文献标志码:A 文章编号:1002-2589(2021)06-0059-03
近年来,有关于网络爬虫相关的违法案件屡见报端,一些业界知名的通过爬虫技术开展大数据信息服务的公司被查。大数据时代,网络爬虫技术的广泛运用对电子商务等活动的发展起到了不可忽视的作用。但在运用网络爬虫技术进行商业或研究活动时,亟须不断强化对其抓取行为合法性的界定,规范互联网创新企业的抓取行为,增强预测行为的法律后果的能力,从而能够在大胆探索创新的同时,兼顾行为的合规性合法性。
在此背景下,本文将以网络爬虫黑色产业作为一个切入口,对运用网络爬虫技术进行一些非法活动、妨害互联网管理秩序的行为如何认定与处罚提出一些思考。
一、网络爬虫概念的界定
网络爬虫又称为网络蜘蛛,是一种通过设置既定规则,实现自动高效地检索互联网并抓取数据的程序或者脚本。由于该技术是通过解析代码的方式工作,故而还有可能抓取到人工访问中被忽略或被限制访问的内容。
爬虫技术被应用于当代网络工业的各个层面。为促进爬虫技术的良性发展,行业内制定了“网络爬虫排除标准”,即“Robots协议”。该协议是针对互联网爬虫技术的一项公认的行业规范,其作用在于限制通用型爬虫的抓取范围。严格遵守Robots协议规范爬取网页数据的行为被称为“善意爬虫”,典型如一般网页中具备的搜索功能,它的存在能够良性增加网站的曝光度,为互联网运营创造生机。与之相反的是“恶意爬虫”,其无视Robots协议,恶意爬取网站隐私数据或不被授权的数据,在爬取数据的同时破坏网站秩序,给网站经营者带来不必要的损失。由于Robots协议只是行业内自我约束约定俗成的条款,针对恶意违背协议的爬虫行为并无任何惩罚性或制裁性措施,因此在当今互联网生态圈中网络爬虫成为一项中立却又游走于法律红线边缘的技术。
二、网络爬虫上游行为分析
互联网时代充斥着海量数据,数据成为当代最优竞争力。以大数据实时更新来推动生产力不断发展离不开网络爬虫的功劳,因此在网络爬虫的适用领域,数据来源的合法性和非法性需要明确界定区分,这与是否构成违法犯罪有着密切联系。
(一)合法的数据来源
合法的数据来源可被理解为被授权数据来源,意指数据权利人或控制者进行授权后方可使用的数据。但一定范围内的有效授权并不代表着数据权利人或控制者失去了相应数据权利。只有数据权利人或控制者允许公众获取数据或者允许他人获取数据并且不限制他人再提供给公众,数据才失去法益保护的必要性,也即允许公众共享才存在。
1.公开数据
公开数据的界定往往存在很大爭议,其与公开信息的概念显然是不同的。公开在网站上的信息并非全部属于公开数据,信息与数据有着不同的价值。信息是表达者运用一些文字、图片或数据来表达其思想,想让别人所感知的客观存在,而数据是表达者享有著作权的作品。笔者认为只有同时具备网站允许爬虫爬取数据和网站未设置反爬虫系统或混淆系统两个条件才能被视为是公开数据。
网络爬虫技术在合法运用的范围下有利于信息的共享与交流,以此来促进行业发展。一些网站出于其经营目的并不拒绝网络爬虫,甚至还欢迎其提取网页信息。但不是每个网站都希望自己的信息被爬虫所爬取,数据提供者有权力决定数据的公开范围和程度。除非出于公共利益或者其他强制性要求,一般网站会设置必要的反爬虫手段防止网站数据被爬取。常见的方式包括限制或禁止某些端口、接口的访问等。
数据权利人一般会在本网站的Robots文件中指明允许爬取的范围。善意爬虫会在抓取相关网络信息前读取该协议,对于禁止抓取的信息不进行下载。若是没有写明是否允许爬取信息,则看该网站是否设置反爬虫系统或混淆系统来禁止爬虫进入,且反爬虫系统或混淆系统的抵御能力不能被视为可进行爬取的借口。
2.个人信息数据
所谓个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括姓名、出生日期、身份证件号码等。其中一部分信息被称之为个人敏感信息,意指一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息,包括身份证件号码、个人生物识别信息等。
近年来,个人信息被广泛运用于各种场景与平台,例如学校收集学生的个人信息以便开展教学活动、外卖平台在注册时会要求用户绑定手机号码及送货地址等。在注册或登录互联网平台时,网站往往会要求用户授权平台收集、使用必要信息以此来实现平台提供产品或服务的基本功能。外部机构对个人信息进行收集时,个人信息主体需要通过书面声明或其他有效的肯定性动作,对个人信息的使用以及特定处理做出明确的授权行为。此外,外部机构在进行个人信息的收集时应当遵循法律,不得恶意欺骗个人信息主体有关其信息的用途。收集者不得私自扩大个人信息适用范围,要在授权之内合理使用他人信息。
如果爬虫控制者在未经个人信息主体同意的情况下大量抓取他人信息,则有可能构成非法收集个人信息。余钢涛使用爬虫技术侵犯公民个人信息案即是如此。
2014年4月至6月,被告人余钢涛在某公司工作,该集团内部的数据安全规范规定,员工个人信息数据属于敏感数据,敏感数据的提取等使用行为必须经过授权。然而被告人余钢涛在职期间违背上述规范的规定,私自使用爬虫技术窃取该集团员工的个人信息共计2万余条。2014年6月,被告人余钢涛离职时,将储存了大量员工个人信息的电脑硬盘秘密带走。不仅未按合同约定返还公司财产,还涉嫌非法收集个人信息。对于该案,法院一审判决认为:被告人余钢涛犯非法获取公民个人信息罪,判处拘役六个月,缓刑六个月,并处罚金人民币二千元。依据《刑法修正案(九)》相关规定,余钢涛利用职务之便窃取其原单位员工的个人信息,不仅依照集团规章这些信息在内部属敏感数据,未经授权不得提取并使用,在刑法中也应当被归罪。
(二)非法的数据来源
1.敏感政府数据
近些年来,随着互联网技术的不断完善,大数据在城市治理中已然发挥了不可替代的作用,相关政府数据也应运而生。值得肯定的是,有许多的政府数据所带来的效果是正面的,由此提高了城市发展的速度与质量。然而,并不是所有的政府数据都是被允许知晓的,如果网络爬虫将其技术的触角延伸到敏感的政府数据领域,那么以此所获取的数据将是非法的。具体来说,政府数据中有许多方面可能牵涉到有关国家利益、商业秘密与个人隐私方面的内容。这些数据往往都会通过一定的加密程序进行储存。而一些以大数据为业的网络公司或网络爱好者,会突破这些加密程序,进而获取到政府数据,并将其用到一些非法领域内,这会给社会治理带来极大的麻烦。因此,笔者认为,这些政府数据是没有被授权的,未经允许的组织和个人都没有权限使用,爬取它们将是违法的。
2.无版权的商业数据
“数据爬虫的违法边界一直是互联网争议的热点,尤其是在大数据时代,随着内容数据价值的日益凸显,爬虫侵权案也越来越多。”大众点评诉百度案就体现了该种情况。
汉涛公司是大众点评网的经营者,该公司发现自2012年以来,百度公司未经许可在百度地图、百度知道中大量抄袭、复制大众点评网的用户点评信息,直接替代大众点评网向用户提供内容。显而易见,百度公司向客户提供的相关内容是从大众点评网上爬取来的数据,并将数据进行包装后通过自己的平台向大众展示。百度公司在未经大众点评网授权的情况下,为谋取利益使用网络爬虫技术窃取别家公司的智力成果以此来发展更大的互联网平台,这种获取数据的方式明显是违法的。
综上所述,合法数据与非法数据的界限判别本质上就是数据是否取得了权利人的授权,是否在权利人的授权范围内开展有关数据的收集运用活动,若是超出限定范围则数据来源被视为非法。
三、网络爬虫中游行为评析
网络爬虫本身是一种中立的技术,只要程序员在使用的过程中遵守行业规则便无可厚非。但某些个体为了效率及利益不自觉地便逾越了法律的红线,从而发生了一系列野蛮的爬取行为致使网站瘫痪、无法访问。
在遭受恶意爬虫攻击的网站中,想必中国裁判文书网很有发言权。许多网友在使用裁判文书网时大多都会遇到相同的问题,进入网站后搜索关键词时久久无法回应或是无法批量下载案例等。最高人民法院对于网友所反映的这些问题曾回应:由于中国裁判文书网公开文书数量和影响力不断增加,访问用户数不断增长。大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。
由此可见恶意爬虫不遵守网站协议肆意收集、爬取相关内容对网站的冲击之大。这种不法侵害不仅危及网站所有者的利益,还侵犯了公众利益,必然是一种违法行为。根据《反不正当竞争法》关于网络的相关条款,如果网站运营者已经采取了一定的反爬虫措施,而爬虫控制者基于经营目的、强行突破网站运营者采取的反爬虫技术措施,并客观导致被抓取网站无法正常运行,则可能构成不正当竞争行为。此外,强行突破某些特定被爬方的技术措施,还可能构成刑事犯罪。
众所周知,爬虫技术是中立的。但爬虫操控者若是不能依据法律法规、行业标准、道德秩序来合理使用该项技术,为了谋取不当的利益,抱着侥幸心理使用爬虫技术,不断试探法律的底线,那么必然会受到法律的制裁。
四、网络爬虫下游行为评析
爬虫技术爬取到的数据其最终都会面临使用行为。如果爬取的数据和爬取手段皆是合法的,但在使用过程中却触犯了法律也被视为违法。
(一)科研学习用途
爬虫控制者若是为了科研学习目的合法地爬取相关数据,笔者认为是合法的。该种行为就比如在进行学术创作时打开中国知网,下载相关文献进行研究从而获取自己创作的灵感。学者在互联网上寻找科研资料是当今学界较为普遍认同的方式。这种行为只要程序正当,合理合法地运用相关数据并且爬取的数据来源是经过授权的便是合理使用。
(二)投放广告用途
平台在用户注册时会要求其同意相关政策,若要享受平台提供的服务就要允许平台收集、使用用户相关个人信息,比如会通过发短信的方式来推销其会员产品等。若是平台在用户授权范围内使用相关信息,采集用户信息的目的是为了构建平台自身的大数据库,以此获取用户在该平台的消费数据来促进该平台更好地为用户服务,投放用户相对感兴趣的内容或投放广告,这种用途只要在用户允许授权的范围内是合法。但平台若将自家的大数据库转手出售,这种行为可能会构成犯罪。
(三)违法犯罪用途
2017年摩羯科技案被曝光,该公司日常行为是爬取同行业的公司数据,根据其他网贷公司的客户借贷信息以此判断借款风险。该公司的存在助长了“套路贷”等违法现象的存在。若爬虫控制者爬取数据是为了进行违法犯罪活动,例如爬取公民个人信息为了实施电信诈骗,这便是将中立的技术用作非法领域,其行为从整体来评价依旧是违法的。目前,运用网络爬虫进行的涉及犯罪的活动大多集中在这个领域,这也是目前互联网领域犯罪的严重地带。这从一个侧面反映出公民个人信息的泄露问题十分严峻,相关爬虫技術者法律意识淡薄,为了有关利益而突破了合法边界。
(四)买卖销售用途
某电商网站上经常会出现批量销售中国裁判文书网数据的现象,商家可提供的销售范围较广,数量也可由消费者自行选择。有些消费者是因为裁判文书网经常出现罢工状态,自己无法下载相关数据;有些消费者是因为自己无法进行大批量下载;有些消费者是因为商家可以爬取到自己无法爬取到的某些数据。然而正是这些爬虫控制者们对裁判文书网大量案件数据的爬取,访客才无法正常地使用裁判文书网开展相关工作。针对此情况,笔者认为裁判文书网公开的数据属于公共资源,数据所有权不属于任何公民,公民可以在国家相关法律的授权下合理合法地使用公共资源,但不能跨越权限使用该公共资源为自身谋取利益,该行为违反法律。笔者认为,这也提醒广大研究人员,在使用数据的同时,一定要在合法的领域内进行活动,强化自己的法律思维。
五、网络爬虫未来运用法律规避
通过对上述有关网络爬虫行为的中上游分析,已大致厘清了在网络爬虫领域,所涉及的相关数据的定性和罪与非罪的界定问题。而互联网时代,运用网络爬虫的现象将会层出不穷,运用相关法律及手段进行一定的规制与监管已经迫在眉睫。我们需要加强相关个人及企业对网络爬虫这一技术深层次内涵的理解,让这一本身中立的技术能最大限度地发挥其应有的作用。
概括而论,没有授权的网络爬虫绝大部分是非法的,这是需要重点规制的领域。而其中的重点就是相关运营商应尽量做到用户授权链的完整,这将有助于从源头控制相关的数据收集问题。更具体地说,有关部门应当尽快制定完善针对网络爬虫的数据安全的法律法规,使网络爬虫行为有法可依。若是运用网络爬虫进行违法活动,应当重拳出击,不断加大涉及相关犯罪的侦查力度,涉及有关刑事犯罪的要重点处理与惩治。
此外,目前国内的网络爬虫产业发展迅猛,有许多游走在灰色边缘,很多数据的来源并不清白,这在业界早已不是秘密,甚者发展成了潜规则。这一现象的出现很大程度上是由于背后巨大的利益驱动,使得许多人即使意识到数据的来源不合法,但为了利益,而选择了无视,从而使得越过红线者越来越多。因此,在加强法制建设的同时,应当统筹推进行业自律与技术监管,增强公民的信息保护意识,齐头并进,从而更好地推动行业的健康发展,使互联网环境更加地澄明清澈。
参考文献:
[1]刘艳红.网络爬虫行为的刑事规制研究——以侵犯公民个人信息犯罪为视角[J].政治与法律,2019(11):16-29.
[2]曹阳.我国对违反“爬虫协议”行为的法律规制研究[J].江苏社会科学,2019(3):159-167.
[3]刘鹏.利用网络爬虫技术获取他人数据行为的法律性质分析[J].信息安全研究,2019(6):548-552.
[4]李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67.
[5]游涛,计莉卉.使用网络爬虫获取数据行为的刑事责任认定——以“晟品公司”非法获取计算机信息系统数据罪为视角[J].法律适用,2019(10):3-10.
[6]朱筱筱.关于网络爬虫监管的思考[J].电子世界,2019(23):70-71.
[7]祝建军.利用爬虫技术盗用他人数据构成不正当竞争[N].人民法院报,2019-05-23(007).
[8]劉清.网络爬虫针对“反爬”网站的爬取策略分析[J].信息与电脑(理论版),2019(3):23-24.
[9]陈兴良.互联网账号恶意注册黑色产业的刑法思考[J].清华法学,2019(6):13-25.
[10]杨华权.论爬虫协议对互联网竞争关系的影响[J].知识产权,2014(1):12-21.