APP下载

数据爬虫侵权行为研究

2021-12-04李凡迪徐家力

关键词:爬虫隐私权网页

李凡迪,徐家力

(1.中国航天系统科学与工程研究院,北京 100037;2.北京科技大学文法学院,北京 100083)

引言

人类自诞生起就在通过各类方式争夺有限的资源,延续生命。科学技术就是竞争的重要手段[1]。社会生产力的发展带来科技的进步,在网络世界中,依托于虚拟网络的互联网企业对于数据、信息资源的争夺激烈,其对象从有形财产转变为无形的虚拟财产。数据爬虫因为快速且有效提取网络中的信息提供解决方案得到广泛应用,但网络技术日新月异,法律在本质上具有滞后性。人们在技术进步与技术应用的狂欢中也产生了大量因获取信息行为和数据使用行为不当引发的纠纷。例如“百度诉360 案”①参见北京市第一中级人民法院(2013)一中民初字第2668 号。、“车来了”APP 网络爬虫技术刑事案②参见深圳市南山区人民法院(2017)粤0305 刑初153 号。等。对数据爬虫应用过程中的侵权行为进行认定,以应对数据爬虫应用中出现的问题成为讨论热点。

一、数据爬虫概述

(一)数据爬虫

数据爬虫(也称作网络爬虫、网络机器人)本质上是通过分析网络路径获取相应数据信息的一系列计算机程序。搜索引擎通过数据爬虫程序访问网站爬取网站信息内容,并将获取的数据信息进行呈现。互联网企业发展迅速,提供的网络服务越来越多样,数据爬虫的应用也越来越广泛。例如利用数据爬虫整合航班信息提供购票服务,通过爬虫程序爬取新闻信息构建聚合式新闻移动客户端等。

(二)数据爬虫工作原理概述

数据爬虫技术最早应用于搜索引擎,其工作的原理是:根据数据爬虫实施目的建立需要抓取数据网页的URL——统一资源定位符队列,按照一定顺序从中取出地址,并对该统一资源定位符对应的网络页面进行访问,解析该页面,再提取该页面中的网址将其加入等待数据爬虫下一步访问的队列中,在经过循环爬行后,访问所有统一资源定位符对应的网页[2]。从应用的角度,可以将其总结为获取网页—解析网页—存储数据三个步骤。

(三)数据爬虫应用现状

网络用户通过键入关键字或者根据网络服务提供者列出的目录索引进行搜索便可以在很短的时间内获得大量的检索结果。在技术应用方面,数据爬虫为搜索引擎工作中提供检索匹配、自动获取网页信息功能提供了非常有力的支持。如今,技术的发展已经将数据爬虫的主要应用场景从搜索引擎扩展到了各类电脑端、移动客户端应用软件中。例如在聚合类软件中的应用,以及企业和个人使用数据爬虫技术进行数据搜集、数据分析,开展商业活动或者学术研究。

二、反爬虫技术与Robot s 协议

(一)反爬虫技术

随着数据爬虫技术应用的深入,大量的网站为了避免其成为除搜索引擎爬虫被实施者之外的恶意数据爬虫被实施者,正在积极努力探索更有效、拦截范围更广的反爬虫技术(Anti-Spider)[3-4]。例如对IP 进行限制(限制IP 访问的频率,当某个IP 访问达到一定频率后对该IP 进行封锁,不允许该IP 再访问网络页面),设置访问验证码(通过使用输入验证码,滑动滑块来判断是爬虫还是人在进行操作,例如Google 的人机验证,各类网站的滑块验证等),利用JavaScript 加密信息等。

除了反爬虫技术,具有互联网行业共识的Robots 协议因为其内容清晰、简单高效等优点,为国内外互联网行业人员所使用,成为国内外互联网行业内普遍通行、普遍遵守的技术规范①参见北京市第一中级人民法院(2013)一中民初字第2668 号。。

(二)Robots 协议的内涵

1994 年6 月30 日,经数据爬虫程序的实施者——搜索引擎服务商和数据爬虫程序的被实施者——网络内容服务商的商讨后,Robots 协议被认为是一项在数据爬虫程序实施过程中被广泛认可的行业规则。Robots 协议(Robots Exclusion Protocol,网络爬虫排除标准)也可以称为爬虫协议,指的是网站构建过程中通过设置robots.txt 对网络爬虫进行指令的协议。各大搜索引擎服务商,例如谷歌、百度,相继表明遵守Robots 协议。我国《互联网搜索引擎服务自律公约》第七条也对Robots 协议进行了明确的规定。

网站依据Robots 协议确定的robots.txt 文件语法规则和公平、开放、促进信息自由流动原则进行robots.txt 文件的编译。robots.txt 是存放于根目录下的ASCII 编码文本文件[5]。该文本文件被用来告知网络机器人在服务器上可被查看文件范围,爬虫程序对目标网页进行访问时,将首先访问网页根目录下的robots.txt,网络机器人根据robots.txt 文件确定可以访问的范围并对网站进行访问。

数据爬虫程序对于robots.txt 文件内限制指令的遵守,会对数据抓取的结果产生直接影响。但是从形式上看,该文件只是存放于根目录下由网站所有者创建和编辑的一个文本文件,并不是命令,无法主动拦截网络机器人对文件声明不可访问内容的访问。换言之,robots.txt 是网站针对爬虫程序依Robots 协议在站点根目录下“张贴”的关于访问权限的“告示”。

(三)Robots 协议的法律性质与效力

Robots 协议中的“协议”与民法上的“协议”有很大的差别。民法上的“协议”与“合同”具有相同的语义。从性质上看,合同是一种协议,该协议的具体内容和目的是合同双方设立、变更、终止财产性民事权利义务关系[6]。从英文名称上看,民法上的“协议”是“Agreement”,与要约承诺有关,对应的是权利与义务;而互联网中Robots 协议中的“协议”是指“Protocol”,只是一种规则。

Robots 协议作为国际互联网通行规则,自诞生以来几乎被所有搜索引擎商承认并使用,但对于Robots 协议的法律效力,一直存在不同的观点,不同的国家在案例中也有不同的态度。

“菲尔德诉谷歌案”①参见Field v.Google,412F.Supp.2d1106(D.Nev.2006)。中,美国法院将有没有设置Robots 协议看作一种默示许可。“谷歌图片搜索案”[7]中德国法院对于Robots 协议的态度与美国法院对Robots 协议的态度相近,都认为有没有设置Robots 协议是一种默示许可。但在“科皮出版社诉谷歌案”[8]中,比利时法院认为,版权是排他性专有权,在谷歌使用网页内容的时候应该事先获得授权,比利时法院虽然表明网络内容提供者可以通过Robots 协议对数据爬虫程序的访问范围进行声明,也可以采取技术措施阻止爬虫访问,但并未将Robots 协议作为判断是否默示许可他人使用的依据。根据国内外案件事实具体情况与判决的分析,可以发现各国均认为Robots 协议并不是一种强制性手段[9]。

我国司法实践目前并没有明确认定Robots协议的法律性质,学术界从不同角度给出了相对肯定的结论。杨华权和曲三强认为Robots 协议是网站可采取的一种技术手段,其主要功能是对数据爬虫程序的实施范围进行引导,是国际通行的行业惯例[10]。张平认为,Robots 协议是权利人为保护网站、用户信息所采取的非强制性手段[9]。蒋舸指出,Robots 协议最开始是在技术应用中使用并具有一定效力的方式,之后发展为具有共识的应当被遵守的行业通行规则或商业道德[11]。在实践当中,违反爬虫协议的行为在业界最受谴责,也最容易引起相关法律争议[12]。然而,如何从法律的角度评价“爬虫协议”的效力,目前尚无定论[13]。

从国外多个案例的判决中可以看出,法院对于Robots 协议法律性质的认定虽然较为一致但并不完全相同,但均对Robots 协议应该得到遵守表示认同[12]。事实上,程序编译中的计算机语句有的用来规定程序运行的逻辑,具有技术上的效力;有的只是用来做出声明,例如,表明程序的名称、对某些功能做出注释,在程序运行上并不会产生效力。显然,作为Robots 协议有实质内容的robots.txt 文件在技术上的效力属于后者。综上,本文认为,Robots 协议在法律上应该被认定为数据爬虫实施过程中应该遵守的非强制性的行业通行规则。

三、数据爬虫程序实施法律边界分析

数据爬虫程序的实施可以分为获取网页、解析网页与存储数据三个步骤。获取网页与解析网页直接通过程序实施实现,具有较强的关联性;数据存储与使用具有连续性,数据存储的情况与数据使用的程度和范围依据数据爬虫程序实施者的意志具有较大差别。

(一)数据爬虫获取网页与解析网页中的法律问题

数据爬虫获取网页与解析网页中的法律问题主要集中在数据爬虫技术实施中访问数据爬虫被实施对象时对该计算机系统和其中数据安全的危害,在侵入、破坏计算机系统,或者获取数据信息的过程都有构成犯罪的可能性。

具体来说,在数据爬虫侵入信息系统的过程中,如果使用该技术的目的在于非法侵入有关例如国家事务、国防建设、尖端科学技术领域的计算机系统,此时的数据爬虫程序可仅仅看作计算机程序,数据爬虫技术使用只要实施了侵入行为就构成非法侵入计算机系统罪。

而在数据爬虫访问目标网站或系统后,针对爬虫技术对系统的破坏,如果利用数据爬虫技术对计算机系统的功能或者其中储存、处理或者传输的数据和应用程序进行破坏,或者故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的行为可构成破坏计算机信息系统罪①参见天津市第一中级人民法院(2018)津01 刑终300 号。。

通过数据爬虫技术获取数据信息,虽然相对于人工查看网络中的信息和对数据进行逐一录入,利用爬虫程序抓取数据只是加快了访问的速度,提高了录入的效率。但是,利用该项技术非法侵入特定的计算机系统,获取了该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,可构成非法获取计算机信息系统数据罪②参见深圳市南山区人民法院(2017)粤0305 刑初153 号。。

针对抓取数据的属性,如果非法抓取(窃取)的数据信息属于公民个人信息,或者该内容是商业秘密并给商业秘密权利人造成重大损失的,可能会构成侵犯公民个人信息罪或侵犯商业秘密罪。

(二)数据爬虫存储数据与使用数据中的法律问题

对数据使用行为的过程进行分类,可以将其具体从数据的储存、数据的传播延伸到数据的分析运用。将数据爬虫获取数据之后的数据使用再进行细分,可以将其划分为数据存储行为、数据分析和数据反馈三个过程。

除2021 年3 月1 日起施行的《中华人民共和国刑法》对一些特定属性的数据内容(例如,属于淫秽物品的数据内容的传播,对公民个人信息的出售、非法提供,有关商业秘密的内容等)进行规制,数据爬虫数据使用中的法律纠纷主要集中在民事侵权纠纷(主要是著作权侵权)和不正当竞争纠纷。根据现有案例的争议内容,数据爬虫侵权行为主要集中在数据存储和利用数据开展其他活动这两个部分。但由于互联网中技术的隐蔽性和法律的滞后性,数据爬虫数据使用中侵权行为的认定往往具有一定的难度,有关数据爬虫的侵权纠纷往往和不正当竞争纠纷同时出现。

侵权行为的认定可从一般侵权责任的构成要件进行分析:以著作权侵权为例,数据爬虫程序的实施者存在侵犯被实施者著作权的行为并在主观上具有过错,该行为造成了损害事实,损害的结果与数据爬虫程序实施者的行为之间具有因果关系。然而,数据爬虫程序具有技术上的特殊性,其实施行为与损害结果具有一定的隐蔽性。对数据主体个人信息权和隐私权的侵犯可能存在于数据的收集和使用行为中,对个人信息权和隐私权侵权的认定除了满足一般侵权责任的构成要件,还需根据场景的不同对数据信息的类型和性质进行判断。

数据爬虫技术实施后数据使用过程是否构成不正当竞争,需要从互联网企业之间的竞争关系和该行为对市场竞争的影响来进行判断。随着“互联网+”行动计划的深入,大量企业通过O2O模式跨界融合,传统商业模式在与互联网的结合中呈现新的面貌,这就要求司法实践需要对网络环境中的竞争关系、市场秩序和商业道德进行更加确切的判断。

在“大众点评诉百度地图案”③参见上海知识产权法院(2016)沪73 民终242 号。的审判过程中,各方对互联网企业竞争关系、商业道德以及行为的正当性与否等问题进行了激烈的讨论。被告百度认为,百度地图上的商家信息服务本质上是搜索引擎,作为搜索引擎服务商,百度通过数据爬虫程序爬取大众点评网的信息,严格遵循行业惯例,并没有违反Robots 协议。二审法院认为,适用《中华人民共和国反不正当竞争法》第二条即一般条款应同时对以下三个方面进行判断:一是无特别规定;二是具有实际损害;三是存在可责性。百度地图和大众点评作为两家长期经营的网站,都累积了大量的用户和用户信息,百度地图截取大众点评商家评论信息的行为将会导致大众点评网站浏览用户分流,已经对大众点评的商户评价信息服务构成实质性替代,会使其利益受损。

不仅是在“大众点评诉百度地图案”中,“百度诉360 违反Robots 协议案”和“腾讯诉360 不正当竞争案”等等案例的审判都是根据互联网行业规则推导出该领域应当遵守的商业道德,对案件中所涉及原被告做法的正当性进行判断。

四、数据爬虫侵权行为认定

(一)著作权侵权

除在数据爬虫程序的编译中可能会有计算机软件著作权侵权行为出现,数据爬虫著作权侵权行为主要集中在数据爬虫程序实施后的数据使用行为。对数据爬虫著作权侵权的分析需要对软件编译和数据使用阶段分别进行讨论。

1.软件著作权侵权。数据爬虫作为一种以通过分析网络路径获取相应数据信息为主要功能的计算机程序,其程序设计目的具有一致性,即访问网页、获取数据。该类程序的编译在逻辑上具有统一性,首先,设定需要访问的URL 范围,然后,获取需要的数据信息,接着将数据进行储存,最后对URL 队列进行重新匹配直至所有的URL 都被访问。我国《计算机软件保护条例》对软件著作权保护的具体内容进行了规定,但由于计算机技术的发展,对软件侵权的认定具有较高难度。

在实践中,对软件侵权认定的标准经过了从镜像复制标准到SSO(Structure、Sequence、Organization)标准,再到AFC(Abstract、Filter、Compare)标准的转变。在技术判断上,计算机软件编译因其表达方式和编译方式的多样在侵权判断上具有一定难度。在司法实践中,法官在认定过程中存在重“实质性相似”、轻“接触”的倾向[14]。数据爬虫程序在功能上具有很高的相似度,其编译代码往往存在较多重合。这就要求法官在判断数据爬虫软件著作权侵权过程中,不仅对技术上的实质性相似进行甄别,更要加大对“接触”和数据爬虫实施行为的综合判断。

2.网络页面中著作权内容的认定。随着互联网技术的深入使用,网页的内容和形态越来越复杂多样。一个网页中很可能包含文字作品、美术作品等多种作品类型,并采取了丰富的信息形态进行组合。从网页构成的形式上,不少网页制作精美、排版巧妙。

我国《著作权法》第三条对作品的种类进行列举和兜底式规定。对于网页进行展示的内容,如果该内容属于文字作品、美术作品等著作权法所保护的作品范围,理应对这些作品内容进行保护。但对于网页整体,是否属于作品?是否也可以受到著作权的保护?

根据有关司法解释①具体为《最高人民法院关于审理涉及计算机网络著作权纠纷案件适用法律若干问题的解释》。表明,对网络中不属于著作权法列举作品范围但属于作品的内容应当将其纳入著作权法保护范围。网站在设计的过程中不仅需要考虑界面的美观感受、操作的逻辑,也需要对人机交互模型进行设计,网站设计是艺术、科学领域的智力成果。网页在代码编译后通过计算机进行呈现,无论是数字的方式还是其他方式,都具有可复制性。而在独创性上,虽然网页的构建在直观感受上具有比较统一的排版方式,但随着网站数量的增多,不少网页在视觉效果、排版编排上具有明显的差异性,无论是在布局、内容分类方面,还是在背景的创作方面,很多地方都体现了网站设计者独特的智力判断和选择。

在司法实践中,法院在裁判中认为①参见南京铁路运输法院(2017)苏8602 民初564 号。,在网页是否具有独创性上,如果该网站的网页在网页文字、图片等内容的挑选、编排布局与表达方式上符合了独创性的要求,就可以认为该网络页面为汇编作品,并通过著作权法对其进行保护。

因此本文认为,网页中的著作权不仅包括了网页内容中的文字作品、美术作品等的著作权,如果网页的选择、协调和编排事实的方式达到了最低限度的创造性[15],就能够将网页整体作为汇编作品。

3.数据爬虫著作权侵权行为认定。判断数据爬虫行为是否侵犯信息网络传播权需要将其中数据使用行为的数据反馈过程进行细分。根据数据反馈的形式不同可以将其分为网络链接、快照和商业活动。

通过网络链接进行数据反馈是指在网页与网页之间通过超文本和超媒体进行链接,其中包含普通外链和内链(也可以称为深链接)两种。普通外链直接跳转到被链网站或者弹出显示内容来源的下载框(主要针对格式为mp3、pdf 等的文件)。内链在不跳转到被链接网络页面的情况下,可以获取该网站的内容,并且设链网站不储存被链网站的内容。快照与网络链接方式不同,通过快照进行数据反馈时,会对网页进行备份,将网页的内容储存在自己的服务器中,再对储存的内容进行展示。具体来说,网页快照针对网页中的文字作品进行显示,缩略图针对图片进行显示。

通过商业活动进行数据反馈是企业、个人在开展商业活动时实施数据爬虫程序的常见反馈形式,是指企业或个人在利用数据爬虫程序抓取数据后,通过数据分析方法对其进行分析,了解本企业、客户和竞争对手的相关信息,并通过分析结论对本企业的商业模式进行优化。其目的是为了获取更大的经济利益。

信息网络传播权是著作权财产权利中的一种。有关法律法规及保护条例②具体指《信息网络传播权保护条例》(国务院,2013 年3 月1 日)。表明,侵害该种权利的行为主要是内容提供行为和网络服务提供行为两类。

内容提供行为具体指网络服务提供者未经著作权人许可,将作品上传至信息网络上,并通过此为网络用户提供诸如美术作品等的各类信息,网络用户能够于受个人意志支配确定的时间、地点浏览或者获取作品的行为。通过此种方式为网络用户呈现数据信息在合理使用之外没有免责条款,也就是说,内容提供者仅需有传播行为就应当被认定为侵权[16]。

网络服务提供行为是指网络服务提供者为信息网络传播提供的中介服务和技术支持,包含接入、储存和传输等多种包含技术的内容。比如说,第三方电子商务平台为商品的买卖提供平台技术支持的行为。对此,避风港规则规定了网络服务的提供者承担责任的情况——网络服务者若是明知或者应知则需要承担侵权责任。在“通知—删除”规则之下,避风港制度对提供技术支持的网络服务提供者给予了较好的保护。同时,其价值也在对著作权人在互联网中的权益保护和互联网行业发展之间平衡的维系中得到体现[17]。

通常,内容提供行为和网络服务提供行为的区分比较明显,能够直接进行判定。但是,数据爬虫的实施不仅包含了技术服务内容,也包含了对网络内容的获取与利用,数据爬虫的行为已经超出了单纯提供数据搜索的技术行为。对数据爬虫侵权行为的判断还是要回到各类数据使用行为中进行。

数据反馈的形式有网络链接、快照和商业活动三类。在提供网络链接的形式中,网络服务提供者通过技术手段将网页进行链接,并没有将具体内容直接呈现在用户面前。例如搜索引擎爬虫在抓取数据后,通过网络链接为搜索引擎用户提供查看网络页面的服务。在这种情形中,网络用户查看的内容仍然是原网页中的内容,在查看的过程中直接跳转到被链接的网站,可以认为该爬虫提供的是一种链接服务。这种情况下,不会被追责。但是如果企业或者个人通过数据爬虫技术将网页中受著作权法保护的的内容进行下载,并长期、稳定地储存在自己的服务器中以便提供用户浏览网页内容的功能,此时可以认为这类爬虫不仅提供了数据抓取行为,还对数据的内容进行了著作权法意义上的复制,可能构成对著作权中复制权的侵犯。即使网络服务提供者为用户呈现的内容标明了播放源,但与检索行为、网页中的链接行为存在本质上的差别,此种行为依旧属于著作权法意义上的复制①参见北京市第二中级人民法院(2014)二中民终字第00919 号。。

(二)个人信息权与隐私权侵权

数据作为信息的载体,以多种形式存在于网络中。数据共享既是一种数据财产的利用、使用行为,也是数据开发与再利用行为[18]。个人信息权与隐私权权利保护范围的交错性,在权利受到侵害后有可能产生责任竞合的现象,所以对数据爬虫个人信息权和隐私权侵权行为同时进行讨论。

1.隐私权和个人信息权的区分。隐私权是人格权的一种[19],包括私人生活安宁和私人信息秘密[20]。隐私权保护的范围包括个人的生活私密领域和信息自主(信息隐私)[21]。

个人信息权与隐私权都是与个人信息密切相关的民事权利。但这两种权利的性质、客体范围等都具有差别,《民法典》第一百一十一条以及第六章对隐私权和个人信息权有关内容分别进行规定[22]。隐私权的客体是隐私。该项权利保护的范围与个人信息的范围有一定的交叉,一方面,有些隐私属于个人信息的范围,例如个人的财务信息、房产信息;另一方面,有些未对外公布个人信息中包含了隐私的内容,比如家庭住址信息。

在网络环境下,作为信息载体的数据量巨大,个人信息自动处理的能力加强,与人的私生活安宁和私人信息秘密相关的内容发生了扩张。个人信息权作为民事权利中的一种,兼具人格权和财产权双重属性。由于隐私权和个人信息权保护范围的交错性,这两种相关权利在受侵害后有可能产生责任竞合的现象。

2.数据爬虫个人信息权与隐私权侵权行为认定。我国的法律体系中,多个法律部门的法律规范如刑法、民法典、网络安全法、电子商务法等对个人信息的有关内容进行了规定。美国法通过隐私的形式保护个人信息,我国法院在案件审判过程中通常也是按照此种方式对个人信息的权利人提供救济[23]。对于数据爬虫隐私权或者个人信息权侵权的判断应当对网络空间的属性进行分析并理清网络空间中个人信息权和隐私权保护的范围。

首先,对于网络空间是否属于公共空间的界定应当根据网络用户的期待、场景的特性综合衡量,不能一概而论。网络空间的信息流通使其具有公开场所的特性,例如网络空间中的信息对于网络服务使用者具有开放性,这也是公共场所的特性之一。曲新久认为,当今社会已经步入了信息社会,对原有概念的理解应当随着社会的变化而变化,互联网中的有些空间具有“公共场所”的属性[24]。网络空间作为信息技术构建的空间,有与其技术特性相关的内部规则。部分学者基于物理性特征将搜索引擎等网络空间排除在公共场所之外[25]。也有学者认为,网络空间是否属于公共空间应当根据场景的不同分别讨论。本文认为,如果将网络空间作为通过技术对现实世界“虚拟化”的呈现,那么对其是否属于公共空间的界定应该根据其网络用户期待、网络场景的属性与功能的实现情况综合衡量。比如说,在同样的社交媒体中,发布于该网站所有用户可见的信息可以认为是发布于公共空间的信息;但是如果在该网站建立了私人的聊天场景,那很有可能进行的是比较私密的话题,很难将这个场景归于公共空间;同样是聊天场景,如果该场景中的人员具有流动性和开放性,例如购物群,那在此场景中用户并不会期待通过此群便可阻断其发布信息的传播,这类场景应该属于公共空间。

其次,在公共空间中,公民有合理的隐私期待,对于在该空间中没有公共价值的部分应该仍然存在隐私权。事实上,自隐私权这一权利在美国侵权法中被确立,对于公共空间是否存在隐私权这一议题的讨论一直存在。沃伦和布兰代斯认为,隐私权是公民享有免受打扰的“独处权”[26]。公民如果将私密的信息发布于公共场所之中,那可以预见的是,该信息很有可能会为不特定多数人所知晓。做出这种行为的人应该能够意识到其发布的信息会有被他人得知并进行传播的风险。因而可以通过物理空间的划定来判断是否存在隐私权。但是,隐私权是隐私主体所享有的权利,其中包括了按照其意愿同意或拒绝他人进入其生活空间两项内容[27]。在公共空间中,公民可以预计到发布信息或者做出某些行为很可能会被不特定多数人知晓或者审视,然而对于其范围和程度无法预计。特别是在网络中,信息的传播方向、传播方式和传播范围往往是网络用户所不能估计的。通过数据爬虫获取用户的网络行为后,可以利用数据挖掘、数据分析等技术对其行为偏好进行分析并加以利用,在用户无意识的情况下得到有关用户隐私的信息。因此,个人对于自我隐私披露的对象、范围的控制应当享有主动权,不应该通过空间划定直接判断。在公共空间中,公民有合理的隐私期待,对于在该空间中没有公共价值的部分应该仍然存在隐私权。数据的属性常常高度依赖于具体场景[28]。因此,数据的权属与其场景相关,网络平台中的数据可能属于公共领域,也可能与个人隐私相关。

最后,对数据爬虫个人信息权和隐私权侵权行为的判断应当分别进行考量。除法律另有规定外,对于隐私信息应该以同意作为合法性判断的标准,而对于个人信息中非隐私信息的部分不必然需要取得信息主体的同意。根据信息的流动,对数据爬虫程序实施过程中个人信息权和隐私权侵权行为的判断应该从信息的源头——数据的获取和信息使用的结果——数据的使用两个阶段进行讨论。

在数据的获取阶段,本文前文论述了在数据爬虫的技术使用过程中入罪的情形。在此过程中,如果非法搜集他人个人信息或隐私,也可能构成对个人信息权和隐私权的侵犯。那么,什么是非法搜集个人信息或隐私?或者换句话说,如何判断个人信息收集行为的合法性?获得数据主体的支持后收集其个人信息的行为当然合法,但是收集的所有个人信息都需要信息主体的同意在包含海量数据的网络世界中并不具有可操作性和正当性。各个国家和地区对个人信息保护进行立法主要是为了弥补个人隐私保护的不足[29]。保护个人信息权的方式主要在于规范其数据的收集、利用等行为,为现有隐私权保护的不足进行补充,达到强化个人信息中隐私利益保护的目的[30]。隐私的侧重点在于私密性,个人信息则在于身份识别[31]。由于身份信息与隐私信息可能存在交叉重叠,个人信息中既包含与隐私有关的内容,也包含不属于隐私的内容。也就是说,对个人信息的收集并不必然会对隐私权造成侵害。因此,除法律另有规定外,对于隐私信息应该以同意作为合法性判断的标准,而对于个人信息中非隐私信息的部分不必然需要取得信息主体的同意。

在数据的使用阶段,对于数据爬虫技术的实施者合法获得的个人信息或隐私信息若使用不当仍然可能对个人信息权和隐私权造成侵害。一方面,在分析、使用数据的过程中如果违背信息主体的意愿利用该信息的行为,应属于非法使用的行为。例如,数据爬虫的实施者未遵守其与数据爬虫程序被实施者之间关于个人信息利用的约定,或者在其抓取数据、利用数据的过程中因其未尽到安保义务使数据爬虫程序被实施者的个人信息中的隐私信息泄露,造成隐私权的侵害[32]。另一方面,对数据的不当使用可能侵害其他人格利益。个人信息在某种程度上可以看作是其“数字身份”或“数字人格”[33],与信息主体在现实世界和网络世界的社会评价密切相连,对个人信息的不准确利用和展示会导致对其他人格利益的侵害。

结语

首先,技术提供者应当承担合理的注意义务。技术具有中立性,但如果技术实施者摒弃其中立的地位恶意实施技术,损害社会公共利益或他人合法权益,应受到法律的制裁。数据资源的共享不仅是互联网开源精神的具体体现,也是实现数字经济发展的必由之路,但是,面对数据价值的日益凸显与私权保护的需要,选择适合我国国情的方式对数据进行保护也是亟待完成的课题[34]。技术的快速发展对原有法律规则发起挑战,在法律适用过程中应当注意对个案特性进行考量。

其次,对法律道路的思考与探索,应该牢牢把握科技之中所蕴含的社会关系。对于科技与法律的关系,传统的法学研究往往先分析技术的特征,然后根据技术的特征提出法律应对,并不过多考虑其中的人文因素[35]。但是,科技由人主导,技术并不是凭空产生,而是由一代代人探索、创造并积累。这也就意味着科技是建立在人、社会关系和社会伦理之上的,科技的发展方向也体现了人类的需求。从这个层面上看,完全客观或者必然的科技并不存在[36]。同样,互联网基于现实社会而建,可以认为是人类传统社会向网络更具有协作性与联通性的迁移。

最后,个人信息保护立法应当更加针对技术使用行为,特别是针对数据信息中个人信息的收集、处理和使用等行为进行制度设计。个人信息权作为一项民事权利,一方面需要获得其他民事主体的尊重,另一方面个人信息主体作为国家公民,国家公权力机构的态度在个人信息保护中也十分重要。相对个人隐私的被动防御,个人信息更侧重积极利用[31]。因此,个人信息权重点在数据信息的收集、使用等行为进行规范,隐私权则更多体现在事后救济上。个人信息保护的立法应当更加针对技术使用行为。对个人信息的保护不仅需要关注立法,也需要数据主体个人信息意识的觉醒。并且,网络数据呈现的多种关系类型、多重属性以及复杂的结构表现[37]对数据权属问题提出了整体性要求。数据确权应当将数据爬虫技术实施逻辑与场景化特点相结合进行综合考量。

猜你喜欢

爬虫隐私权网页
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
基于HTML5与CSS3的网页设计技术研究
妈妈,请把隐私权还给我
谷歌尊重雕像“隐私权”的启示
基于Scrapy框架的分布式网络爬虫的研究与实现
基于HTML5静态网页设计
“人肉搜索”侵害隐私权的法律解析
谁抢走了低价机票
搜索引擎怎样对网页排序