网络爬虫生成物的著作权规制

2023-09-08周瑞平廖石昕

滨州学院学报 2023年3期

肖海,周瑞平,廖石昕

(华东交通大学人文社会科学学院,江西南昌 330013)

互联网时代,随着网络技术与现代科技的深度融合,网络爬虫作为一种自动化数据收集技术,已被广泛应用到诸多领域。互联网正以现代网络信息技术形式推动着人类经济社会的发展,对日常生活工作方式进行全方位的改变,进而导致法学界法律理论的重大变革。网络爬虫是一把双刃剑。一方面,网络爬虫作为抓取数据的实践工具,有其独特功能和价值。其为互联网开放和信息资源共享提供了技术和路径,并为网络空间建设和发展做出了一定的贡献。另一方面,网络爬虫若使用不当,利用非法手段恶意爬取他人数据,导致行为失范,则可能涉嫌民事侵权、行政违法,甚至刑法犯罪。网络爬虫的广泛应用使得网络爬虫生成物应运而生,意味着数字经济的飞跃发展,与此同时,因其引发的侵权纠纷,使得现有法律制度的漏洞凸显,既有的规则秩序的预防功能难以保障网络爬虫生成物规制目的实现。

一、网络爬虫生成物概述

互联网搜索引擎技术起源于万维网上的爬虫漫游者,诞生于1993年。在当前搜索技术理论研究中,搜索引擎爬虫(web crawlers)通常也被人们称为“网络蜘蛛”(web spiders)、“搜索引擎机器人”(web bots)等,与其对应的网络搜索引擎行为常用“抓取”(scraping)或“爬取”(crawling)等其他相关词汇组来进行表达。[1]网络爬虫具有狭义与广义之分。狭义的网络爬虫是指具备抓取互联网数据和信息、提取网页功能,自动化抓取互联网数据的程序或者脚本;广义的网络爬虫的含义相对更加宽广,包括突破反爬机制的技术手段。杨志琼认为,网络爬虫的违法性认定标准主要取决于“授权与否”。如果“未经授权”,则网络爬虫从根本上就没有获得网站的授权机制许可,即是违法的。[2]丁晓东对网络爬虫的法律问题,将突破反爬机制的行为排斥在外,可以认为从狭义上使用这一概念。[3]

网络爬虫是在互联网上进行自动化抓取数据的技术。网络上的图片、视频、文章等,任何想要爬取的数据和信息,只要可以通过浏览器访问,都可以使用爬虫技术进行爬取。网络爬虫抓取数据的基本工作模式是:浏览各个网站,对目的数据、网页进行检索,选取作为“种子”的统一资源定位符URL,将所需数据储存在服务器中,再下载网页,从该网页聚焦和提取更多的URL,并不断地从网页上提取新的URL信息,将其放入队列储存,进行分析记录,建立对应的索引,形成对抓取数据的记忆,为日后检索提供了极大的便利。[4]当下,网络爬虫已被应用到各行各业,成为网民搜集资料、分享数据和信息不可或缺的搜索技术工具。与此同时,不加控制的网络爬虫往往会给被爬取网站带来巨大的负担。2013年,百度以360违反“Robots”协议为由起诉360侵权并索赔1.002亿元一案中,一审法院宣判360赔偿原告百度70万元,就引起业界的广泛关注与担忧。[5]网站管理者试图设置各种反爬虫机制防止恶意爬虫的恶意利用,但是防范效果并不理想,网络爬虫行为并未得到良好监督与规制,网络爬虫生成物泛滥成灾。

网络爬虫生成物是利用网络爬虫抓取互联网数据和信息产生的结果。网络爬虫生成物本质上是否属于《著作权法》中规定的作品呢?现行《著作权法》第三条明确规定:“本法所称的作品,是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果。”可见,现行《著作权法》关于作品的具体定义,更为突出作品的主要判断标准,即“独创性”特征。网络爬虫生成物是否满足著作权法中“独创性”的特征,是确定网络爬虫生成物享有著作权的关键要素。所谓“独创性”,也即作品应具有创造性,不是抄袭而来。网络爬虫生成物若是利用爬虫技术直接爬取他人数据作品产生的结果,其“独创性”特征并不明显。那些直接搬移著作权人作品,作为己身使用的网络爬虫生成物并不满足著作权法中对作品的规定,不是真正意义上的作品。

无论是互联网上的图片、流量视频、文章、歌曲,甚至包括网站自身建立的数据库、聊天记录、用户评论,具备独创性的特征,都可能构成著作权法保护的作品。网络爬虫生成物作为数据作品的集合体或者单一数据创造性表达,表达形式具有独创性,满足作品构成要件,也可受到著作权法的保护。对网络爬虫生成物的规制,需明晰合理使用的判断,判定数据来源是否合法,使用目的是否具有正当性,获取手段是否具有侵入性。由于依靠数字代码可以对数据储存、利用、传输,因此,大部分数据作品都可以利用爬虫技术获取。但是,因网络数据作品“独创性”这一典型特征,对爬虫者的爬取行为具有约束力,未经著作权人许可、授权而非法复制、保存等,可构成侵犯著作权罪。

二、网络爬虫生成物的法律规制现状

恶意爬虫的大肆蔓延,对网络秩序产生了巨大挑战,使得国内网络行业和网络秩序不断变化并产生极大的影响。2022年9月20日,在中国裁判文书网上检索关键词语“爬虫”,分析网络爬虫生成物侵权案例,发现其主要为知识产权侵权、不正当竞争与刑事犯罪案。目前,网络爬虫被广泛应用,受到社会公众的关注和肯定,但是其产物网络爬虫生成物带来的负面影响亦逐渐凸显。我国立法上并没有明确界定网络爬虫生成物的合法边界,确定法律规制的具体措施。但是,网络爬虫生成物带来的法律隐患已经呼之欲出,主要表现为对网络爬虫生成物的合理使用问题,即网络爬虫生成物滥用,对网络空间秩序、数据安全性、权利人财产权的不利影响。对此,相当学者提出通过专门立法的举措来实现对网络爬虫生成物的规制。但是专门立法的举措,难以有效解决日益增长的侵权案件的发生。刑法对网络爬虫的规制,强调的是对法益的保护,即打击网络爬虫行为,侧重点是对网络爬虫行为的规制,以不正当手段抓取数据行为将会受到刑法的规制。网络爬虫生成物的出现,刷新了社会公众对科技的认识,引发的侵权案件层出不穷,因此,有必要对网络爬虫生成物进行合理的规制。

三、网络爬虫生成物著作权规制的必要性与正当性

(一)网络爬虫生成物著作权规制必要性

网络爬虫生成物的出现,打击了作者的创作积极性。互联网的蓬勃发展,为网络爬虫提供了爬取数据的绝佳阵地,受商业价值催动的影响,网站往往对爬虫现象态度漠然,增加了爬虫者肆无忌惮爬取数据的嚣张气焰,网络爬虫生成物随之大量涌现。作者为创作独具特色的作品冥思苦想,成果却被他人轻而易举地窃取,必然挫伤作者创作的积极性。近年,发生的网络爬虫生成物侵权案件,数量让人触目惊心,且不说其带来的法律纠纷,单单就作者创作态度而言,自己在互联网上的作品的安全难以得到有效保障。作者是否能够安心投入创作,是否可以继续激励作者创作的积极性,答案显而易见,作者的创作消极性带来的隐患逐渐显现,富有“灵魂”的作品越来越少。因此,有必要对网络爬虫生成物予以规制,保护作者的著作权,让作者保持创作热情。

(二)网络爬虫生成物著作权规制正当性

数字经济时代,数据的重要性不言而喻,是企业在竞争中取得领先优势的“重要法宝”。网络爬虫生成物是数字经济时代催生的产物,对其规制亦是迫在眉睫。已经发生诸多数据纠纷案件,所争议的核心问题都是数据:使用网络爬虫获取数据形成网络爬虫生成物时,著作权规制是否合理可行?著作权制度可以从源头规制网络爬虫生成物,当然,对其合理使用也会进行保护。郑成思说:“享有法律保护的还只是知识产权所涉及的专有信息。”[6]网络爬虫生成物作为利用网络爬虫抓取互联网数据和信息的结果,应当由著作权规制。但是,传统著作权的规制方式,对于网络爬虫生成物而言,存在着一定局限性。网络爬虫生成物规制制度的漏洞,极易可能受经济利益的驱动引发连锁效应,即网络爬虫生成物的“自由”使得网络秩序混乱、数据的安全性难以得到有效保障、相关著作权人权益屡受侵犯。

网络爬虫生成物作为利用爬虫技术抓取互联网数据和信息的结果产物,其本质上属于法律规范的范围,依然不能脱离法律与科技伦理的制衡。“技术中立”成为当前法学领域的热门话题之一,“技术中立”的认同为网络爬虫生成物的著作权规制带来新挑战。有学者认为,网络爬虫生成物的出现,正是“技术中立”的客观体现,网络爬虫生成物是利用爬虫技术简单地将互联网数据进行收集的结果,其区别不外乎收集形式发生转变,由人工操作转为机器操作而已。(1)Sandvig v.Sessions,No.CV 16-1368(JDB),2018 WL 1568881,at 7 (D.D.C.Mar.30,2018).See Jamie L.Williams,Automation Is Not “Hacking”:Why Courts Must Reject Attempts to Use the CFAA as an Anti-Competition Sword,24(7) B.U.J.Sci.& Tech.L.418 (2018).在一些司法实践中,有人认为网络爬虫生成物并不一定具有侵权,仅仅是一种信息技术工具收集信息的结果产物。但是,对新事物的评断不能仅仅流于表面,而忽视科学发展的深刻内涵。科技伦理告诉人们,任何科技的发展都不能缺失伦理或法律的评判。从法律层面来看,网络爬虫生成物的出现,必不可少与相关主体以及人的行为产生密切的关联,引起的法律纠纷问题不能永远仅仅停留在表面现象评判,需从根本上对网络爬虫生成物“是非”进行专业的判断,并对其合理的规范。

四、网络爬虫生成物的著作权规制问题困境

(一)相关主体侵权责任难明确

网络爬虫生成物作为互联网情景下的一种新的侵权客体,引发一系列侵犯著作权纠纷,其纠纷矛盾主体主要包括网络服务提供商、网络用户及其他相关主体。网络爬虫生成物具有侵权主体集体性的特点,相关责任主体之间侵权关系较为复杂,盘根错节的侵权关系在一定程度上加剧了认定侵权与否的难度。在司法实践中,被爬取数据的网站一般通过可疑访问请求的IP地址对网络爬虫使用者进行定位追踪。有的网站通过对网络爬虫的某些行为模式进行总结,设置反爬取技术方案。比如,部分网站通过投放特异性数据,以此实现对爬虫使用者的定位追踪,但是抑制网络爬虫生成物的效果并不理想。[7]

网络爬虫生成物侵权特点具有侵权证据隐蔽性、侵权手段多样性、侵权对象(数据)无形性。简单来讲,网络爬虫生成物的技术爬取轻而易举,且证据稍纵即逝,认定其侵权困难重重。爬虫者为规避法律制裁,往往在爬虫技术上采取伪装措施,例如,伪造IP地址、代理服务器等手段爬取数据,达到混淆视听的目的。在司法实践中,确定犯罪嫌疑人身份的过程,需有逻辑严谨、真实合法的证据链条来进行证明,查明因果关系,认定其侵权责任。网络爬虫生成物的特质导致非法爬取证据难以收集,很难证明网络爬虫生成物与侵权行为之间存在因果关系,从而造成侵权认定困难的局面,被侵权人的合法权益难以得到有效保护。

(二)网络爬虫生成物侵权判断缺乏明确标准

网络爬虫生成物的侵权界定标准尚未明确,著作权规制能力有限,导致互联网数据和信息被肆意侵犯。依据我国著作权,构成著作权的侵权标准主要包括存在侵权的行为、对著作权人利益造成了损害、侵害行为与造成著作权人利益损害有因果关系。网络爬虫生成物是利用网络爬虫技术抓取互联网数据产生的结果,对其侵权认定的与否,除应当看其爬取行为本身是否合法,更应注重对网络爬虫生成物的合理使用进行专业判断。因此,有必要明确网络爬虫生成物的侵权责任归责原则,特别是在对其归责问题上,当重视规则的适用以及侵权诉讼领域具体规则的完善。在民事侵权诉讼领域中,归责原则是非常重要的法律问题,是确定民事侵权责任基本原则的一个关键钥匙,是确定权利人民事损害侵权责任的基本根据和认定标准。所谓归责原则是确定民事侵权责任行为人侵权赔偿责任的重要认定标准。它指的是在民法损害事实必然发生时,确定民事侵权人自身是否认为应当对其违法行为造成的直接损害的结果承担民事损害赔偿责任的基本原则。网络爬虫生成物属于民法规范范围,且与普通侵犯著作权生成物一般无二,因此,侵权判断标准不应缺失归责原则的明确。

(三)网络爬虫生成物的侵权成本低、维权成本高

网络用户数量大,具有分散性,且匿名者居多,身份信息缺乏可信性,这给权利人维权带来极大困难。因此,权利人在制止侵权的时候就显得极为困难,向侵权人的追偿也是力不从心。与网络用户相较,网络服务提供商的赔偿能力显然更高,权利人一般会选择向网络服务提供商那里寻求赔偿追责。那么,作为侵权的爬虫者可能就此逃避法律责任追究,从而导致爬虫者无须为他的网络爬虫生成物的侵权买单,助长了爬虫者实施侵权的歪风邪气。在现实生活的司法案件中,侵权证据收集较为容易,被侵权人合法权益很容易受到法律保护。而在网络爬虫生成物的侵权案件中,侵权成本非常低,甚至为零,并且侵权证据收集难度大,侵权人很容易逃避法律制裁,这大概是网络爬虫生成物泛滥猖獗的原因之一。

网络爬虫生成物的维权收益远逊于诉讼成本,受制于网络爬虫的特殊性,网络爬虫通过“深度链接”“转码”等方式,获取互联网数据和信息,并对其“复制发行”、保存。从著作权角度分析,获取互联网数据和信息的手段也不具有侵入性,并不能直接推断出其具有违法性,这间接地为权利人维权带来极大的挑战,需要耗费权利人大量的时间与资金来与爬虫者周旋,即使权利人最后胜诉,其所获得的赔偿数额也相对较少,根本难以弥补诉讼成本,在一定程度上抑制了许多权利人的维权积极性。

(四)爬虫协议不具有强制力

爬虫协议(Robots协议)的概念,源自英文的“robots.txt ”,即机器人协议。爬虫协议的目的是保护网站数据和敏感信息,为数据和信息的安全保驾护航。目前,爬虫协议的法律性质定性,普遍承认爬虫协议的行业规范地位。

爬虫协议具有一定程度上的行业规范约束力,但是并不能有效阻止非法爬取数据的行为。虽然在百度诉360违反爬虫协议案中,法院认为爬虫协议是公认的行业准则和应当遵守的商业道德。但是,到目前为止,没有任何国家的法律明确规定爬虫协议具有强制力,必须得到遵守,或者规定爬虫协议是网页所有者与爬虫者之间的具有法律效力的合同。因此,爬虫者普遍认为爬虫协议作为一种行业规范不具有法律效力,并不能成为法院适用的法律规范。这在一定程度上助长了爬虫者铤而走险,违规抓取数据、非合理使用网络爬虫生成物的行为。

(五)权利人维权意识薄弱

在知识经济时代,著作权地位日益提高,但是很多领域权利人著作权维权意识普遍偏低。特别是网络侵权案件的发生,基于网络爬虫生成物的特殊性,权利人实现维权困难重重。究其原因,排除网络爬虫生成物这一客体侵权关系复杂外,单就权利人而言,一方面是权利人对著作权保护概念并非很熟悉,许多人缺乏法律观念,不清楚网络爬虫生成物侵权具体表现,缺乏具体且有效的防范爬取措施。另一方面是权利人被侵权后,不知道采取何种正当方式维权或者寻求何种司法渠道救济,维护自己和相关主体的切身合法权益。权利人本身法律自我保护意识的薄弱,成为网络爬虫生成物侵权案件发生的助推力。

五、规制网络爬虫生成物的建议

(一)落实相关主体法律责任

1.“目的正当性”判定一方面,对网络爬虫生成物的侵权判断除了考察客观构成非法外,还需对爬虫者主观目的进行判断,即考察爬虫者主观上是否具有突破反爬取机制获取相关数据的故意。爬虫者善意爬取数据,即遵守反爬取机制的设定,在授权范围内合理爬取数据,增加网站的流量的同时,提高了网站的知名度;若是恶意爬虫,则强行突破数据安全保护措施,显然违背了权利人的保护意愿,足以证明其行为具有犯罪故意,则网络爬虫生成物是侵权产物。另一方面,全面平衡网络服务提供商、网络用户与其他相关主体侵权责任。这需要明确过错责任认定标准以及无过错责任标准,不能将责任都归为网络服务提供商,根据网络爬虫生成物侵权实际情况,来有效落实网络服务提供商、网络用户以及相关主体侵权责任。

2.侵权证据的认定认定网络爬虫生成物侵权证据与传统证据一样,需对其进行合法性、关联性和真实性认定。司法实践中认定网络爬虫生成物是否构成侵犯著作权时,应注重网络爬虫生成物的爬取证据的审查。证据链条的断裂直接导致权利人维权困难。采取传统取证手段应对网络爬虫生成物侵权案件并不是很契合。但也有先进的“代表”为网络爬虫生成物的侵权解决做出典范。在2020年“网络爬虫非法抓取电子书”侵犯著作权案(一审案号:(2020)京0108刑初237号)中,法院对网络爬虫生成物(侵权产物:电子书)侵权证据的认定,以对比鉴定的形式对侵权作品“同一性”取证、调查、核实。对比实体纸质书与电子书的侵权行为与证据,做出专业的差异论述,法院此举突破了传统办案思维,认定侵权证据的方式合法合理,契合打击网络爬虫生成物著作权犯罪的现实需求。

(二)明确侵权责任归责原则

网络爬虫生成物作为利用网络爬虫技术形成的产物,对其侵权认定不应与普通的生成物相区别。我国《民法典》在侵权责任编第1165、1166、1186条中分别明确规定了四种侵权承担责任原则,分别为过错推定原则、过错责任原则、公平责任原则和无过错责任原则。著作权是民事权利的一种,因而其也适用民事侵权责任原则。目前在我国《著作权法》第52、53条对侵权进行了规定,明确了侵权责任的承担方式。可以依托现有著作权法律体系,加强著作权对恶意爬虫行为的约束力,根据其影响程度的大小划分出不同的等级,对网络爬虫生成物的侵权标准做出界定,规定不同程度的判决结果。

我国著作权以过错责任原则为主,当然由于智力成果本身的无形性特征,其著作权人被他人过失侵权或者无意识侵犯的情形是普遍存在的现象,因而在司法审判中适用无过错原则也时有发生。可见,对网络爬虫生成物的侵权应以贯彻适用过错责任原则为主,无过错责任原则作为补充。在侵犯著作权纠纷案件的司法处理实践中,贯彻适用过错责任原则显然是合理且可以确定的。衡量网络爬虫生成物的侵权主观方面、客观方面、因果关系、侵权程度以及侵权后果,对其进行侵权责任的判断和承担。在我国未来出版的著作权中,应当明确将无过错责任原则作为补充原则,对无过错责任原则的适用具体实际情形,根据其严格的相关法律法规适用性,进行具体明确的适用规定,真正实现适用无过错责任原则有法可依,切实保障权利人的合法权益。

(三)建立完善的监管制度

数据信息蕴含强大的商业价值使得数据成为爬虫者“争相抢夺”的对象,网络爬虫生成物随之“野蛮生长”,继而暴露出网络爬虫生成物的法律纠纷。规制网络爬虫生成物,建立完善网络爬虫生成物监管制度至关重要。

一方面,制定科学的监管手段。监管部门可要求在数据拥有者授权同意的情况下对网络数据进行收集、存储、处理、利用和传递。另外,还要加强对敏感数据的保护,不得以默认授权、功能捆绑等方式误导爬虫者。网站内部也应当建立、健全网站数据保护、防御制度,保护网站数据安全,定时开展数据保护的自查工作,及时反馈问题,整改漏洞之处。另一方面,主导建立网络实名制。由此,实现对被侵权人精准追踪和定位,权利人能够最大限度保护自身合法权益,同时也能落实相关主体的法律责任。监管部门做好网络爬虫生成物的防御网,可以规范网络爬虫生成物的泛滥与合理使用,降低相关侵权案件的发生率,创造安全、有序的网络环境。

(四)提高爬虫协议的规范效力

随着网络爬虫生成物相关风险的不断增长,爬虫协议对其规制亦随之日显必要。爬虫协议作为对数据爬取采取的单方技术措施,为互联网行业普遍遵循,且在一些法院判决中也认可其效力,但是其并非强制性规范,依然无法对网络爬虫生成物进行有效规制。网站管理者可以声明爬虫协议,明确爬虫协议中所记载的禁止爬取范围,若不遵守协议,会面临侵权纠纷。爬虫协议效力的肯定,一方面,以数字代码的形式构建了互联网数据信息的保护屏障,对爬虫者的爬取设置了不可逾越的权限范围;另一方面,为网络爬虫生成物的侵权承担提供了法律依据。

规制网络爬虫生成物,应建立完善的爬虫协议防御制度,扩宽防御范围。爬虫协议配套用户使用协议,使得网站数据的保护能够通过法律文件的形式得以实现。爬取权限的设置,既需要爬虫协议、用户使用协议,还需要设置相应的反爬虫技术措施。比如,设置数据刷脸识别或者声音识别等,使得其能够在评定网络爬虫生成物侵权与否的法律行动中,较为容易地认定是否构成侵权。加强反爬取机制的防御,将其纳入爬虫协议中,若强行规避或突破反爬取措施都是违法的,从而将网络爬虫生成物关在法律的“笼子”里。

(五)强化权利人的维权意识

全面提高权利人对网络爬虫生成物的认知与应对能力,面对侵权手段多样的爬虫者的入侵,要做好事前防御措施和事后救济。一方面,加强权利链条的管理和维护,这需要一个合法且用之有效的管理制度,落实管理措施,保护权利人合法权益。技术上要加强防御和监控,借助区块链等技术,加强数据保护。区块链是一个分布式的数据库和共享账本,具有不可篡改、浏览存证、可追溯的特点[8],能为数据保护提供技术支撑,也为权利人日后维权提供便利。将区块链纳入恶意爬虫防御措施,则网络爬虫生成物侵权也将无处遁形。另一方面,经济状况作为权利人维权的制约因素,迫使权利人放弃维权屡见不鲜,著作权集体管理组织有必要助力维权。网络爬虫生成物的来源范围较为宽泛且爬取的数据作品比较零碎,侵权成本低,维权成本高,著作权集体管理组织刚好可以弥补这一问题,将碎片化式的权利人容纳进来,降低了权利人的诉讼成本。这一举措提高了打击侵权者违法犯罪行为的效果,权利人的合法权益也得到切实保障。

网络爬虫生成物作为爬虫技术抓取网络数据和信息的结果产物,已经逐渐常态化出现并广泛应用。正是如此,引发一系列侵犯著作权案,对著作权的挑战也在不断变化。数据资源对现代社会和国家发展具有举足轻重的地位,其重要性不言而喻。因此,为应对网络爬虫生成物的著作权规制难题,需立足现有法律法规体系,分析网络爬虫生成物的本质,既要在法律层面予以重视,又不能忽视科技本身的发展步伐,从而保证实现数据发展与法律规制之间的平衡。完善著作权的规制制度,明确网络爬虫生成物的侵权责任归责原则,落实相关主体的侵权责任等措施,将有助于促进网络空间的建设与发展,助力我国数字经济的高质量发展。