网络爬虫行为的著作权问题研究
2023-10-10土真玉
土真玉
(南京理工大学知识产权学院,江苏 南京 210094)
1 爬虫技术的基本原理及现实应用
1.1 概念及基本原理
网络爬虫(Web Crawler,简称爬虫)是现阶段一项运用相当广泛的网络信息搜索技术。爬虫技术是运用特定的规则扫描整个互联网的内容后,提取需要的有关数据,并可以保存在本地从而存有该网页备份的一套技术。此技术在搜索引擎中数据获得方面具有很大作用,其运行原理是将符合搜索目标的URL 建立成队列,并将队列中所有URL 循环爬行直至循环完毕或符合特定停止条件为止。
1.2 现实应用
爬虫技术早期在搜索引擎方面运用普遍,随着各类商业模式层出不穷,该技术在聚合媒体与数据信息平台上的运用也越来越多。这些媒体平台通过该技术预先设定关键词的方式在一些目标网站中收集信息,再将搜寻出的网络信息进行整合,进而找出当前最热的新闻并加以推送。除了搜索引擎领域,爬虫技术在互联网金融数据抓取[1]、天气预报信息抓取[2]、招投标信息抓取[3]等很多领域都有现实应用案例。在学术研究领域,也有一些学者高度赞扬该技术的应用。这些学者认为爬虫技术是在海量数据环境下进行高质量学术探索的关键[4]。例如,如果在经济研究中运用该技术,可以更容易和大量地下载储存数据,并且可以自动地将数据分类成试验研究所需的格式。
1.3 反爬虫技术
随着爬虫技术的大量运用,一些问题也随之产生。众多企业与个人通过运用此技术从各式网站中整合信息,其中不乏一些不怀好意者通过该技术实现非法目的,如收集网页中的敏感信息等。因此,现在很多网站也在采取措施防止除搜索引擎之外的爬虫收集信息,使用户的隐私更加安全。目前运用较多的手段有运用Robots 协议、自动内容访问协议、网络爬虫检测、加固Web站点等。
2 著作权法中有关网络爬虫行为的规定
一般来说,网络爬虫主要爬取的内容分为两类,分别为著作权法所说的作品及著作权法以外的数据。而随着网络环境的不断更新,著作权法所说的作品在网络环境和现实环境中又有不一样的内涵,其中的异同点与认定标准是目前亟待解答的。互联网环境下,信息的开放共享是第一要义,这就使网络著作权的范围相比于一般意义上著作权的范围更加宽阔,虽然两者的基本内涵是一致的,但网络著作权又有更多新内容[5]。而这些新内容就导致出现了我国目前的著作权法难以解决的新问题[6]。
上述问题,可以通过现行著作权法的修补与更新来解决。新修订的著作权法将原第三条第九项“法律、行政法规规定的其他作品”修改为:“符合作品特征的其他智力成果”,这一由封闭列举式转向开放式标准的突破性变化,为解决网络环境下关于作品认定及侵权问题提供了依据。除了内容认定之外,网络环境下作者的内涵也极为重要。其主要分为两种类型,分别是著作权法中规定的作品类型所确定的作者和网络管理者,后者主要是指网页设计者或者是我们常说的数据库的所有人。
3 网络爬虫行为著作权侵权的表现形式
3.1 网络爬虫行为著作权侵权案件的数据统计
通过利用中国裁判文书网中的案例搜索功能,选定著作权、网络爬虫等相关关键词进行搜索,对近6 年的案例加以检索和整合,时间跨度为2016—2021 年,搜索结果见表1。近6 年来有关此方面的裁判文书总量为263 件,审级集中在基层与中级人民法院。有关网络爬虫行为著作权侵权案件总体显现出相对攀升的趋势,案件的审级也逐渐从基层法院提升至中级人民法院,这种变化体现出此类案件的审判难度与社会影响已逐渐增大,且该类问题在著作权侵权问题中已初显相当的规模。该类问题的规模扩大,就需要完善和规范法律的适用。
表1 网络爬虫行为著作权侵权案件增长情况
3.2 网络爬虫行为著作权侵权方式归纳
随着科学技术的发展与进步,著作权侵权理论也有了更多的研究。有学者认为,根据直接侵权和间接侵权进行相关著作权侵权的案件并没有理论依据,应当直接依据侵权责任法的相关规定进行处理[7]。而有些有学者认为间接侵权理论的产生是网络时代背景下著作权侵权理论的一种补缺,具有一定的实践意义和合理性[8]。其中,直接侵权的主要形式包括网页快照与缩略图。
3.2.1 直接侵权。直接侵权的概念在著作权法领域之中具体是指行为人通过利用一种途径直接侵犯到了著作权人的权利,对于提供内容的网络服务提供者而言,即本文所述的网络环境中提供爬虫技术的有关主体,该类人员通过爬虫技术将遍历到的作品转化成缩略图和网络快照,展示在搜索界面上。
网络快照是信息被网络爬虫抓取后,网页将抓取到的内容进行整合而成的,这种整合的顺序按照程序的预先设定进行排列,但是,网页快照是否能完全代表原网页内作品仍有争议,缺乏相关的具体标准。所以对于爬虫技术的提供者来说,在享受利用该技术能够加快搜索速度及广度的同时,也应当注意该技术产生的网页快照是否能够实质性替代原作品,这是其是否侵犯著作权的重要依据。
缩略图是将网页中的信息按设定的比例进行缩小并展示网页内容,使浏览者大致得知该网页的概括信息的行为。在实践当中,网络爬虫用户会对网页中的相关作品进行爬取,包括美术或者摄影作品。而这种行为本质上是网络服务提供者制作并存储在服务器上的原图片的缩小版本,实际上并未对网页中的图片内容进行实质性改动,这种行为与著作权法中的“复制”行为相似。除此之外,因为网络服务提供者将网页信息进行缩小进而提供给任何能够接触到相关内容的人,同时这种提供行为可以使公众在其所选的任意时间和地点获取该内容,所以这种行为实际上已经从一种服务的提供转变为内容的提供。根据司法解释,缩略图是否侵权要看其是否构成对作品的实质性代替,是否构成对原作品的使用和权利人的合法权益的影响。在司法实践中,判定快照提供的相关信息是否能够将其构成为实质性替代,关键在于该缩略图是否存储在网络服务提供者的被诉服务器中。除此之外,快照中的信息是否足够清晰到网络用户能够完全通过阅读该快照获知其中全部信息,来源信息存储的服务器停止服务时快照能够浏览与否,也可以成为判定的依据。
3.2.2 间接侵权。间接侵权是指当事人直接将技术与服务交至著作权的直接侵权人等辅助行为,或者当事人与直接侵权人两者有某种特定的管控关系。根据《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》(以下简称《规定》)第七条,我国著作权法所规定的间接侵权主要是指两种:帮助侵权和教唆侵权。帮助侵权主要是指向直接侵权人提供技术的辅助行为。而在网络服务提供者中,具体指的是网络环境中的网络技术提供者,而其做出两种实践中较为频繁出现的帮助侵权行为:信息存储空间服务、搜索及链接服务[9]。
第一种是网络服务提供商,他们提供了数据的存储和存储,并为网络爬虫运行提供了支持。而作为网络爬虫技术的供应商,其在程序后半部分的执行中扮演着重要的角色。信息存储服务的成立,应具备两个基本条件:第一,在现实中,信息存储服务的实际实现;二是空间呈现出完全开放或局部开放的状态。
第二种是将搜索、设置链接供给给他人的网络服务供给行为。《规定》第九条指出,在以下七种情形中,网络服务提供商理应得知网络用户已经产生侵权行为。其中,主观方面的判定角度是决定网络搜索服务者侵权与否的一个重要依据,但并非绝对依据。链接的形式多种多样,通常有浅层链接、深层链接和图文框链接。
深层链接在行业中又被叫作“跳转”。深层链接设链的平台(APP 或网站)之中所提供的链接服务可以令平台使用者在设链平台的控制之下,浏览到被设链平台中的信息与内容,而浏览被设链平台内容的过程中,该页面显示的网络地址仍是设链平台的网址。王迁认为,这一次版权法的修订,并没有将深层链接行为也归为信息网络传播行为[10],在司法实践中,深层链接的认定标准包括了服务器标准、新公众标准和多因子标准[11]。以上准则产生的关键和现实意义是剖析深度链接是否属于著作权法意义上的信息网络传播行为,以及其是否能够被认定为司法解释中所涉及的网络服务提供者提供的“作品”的范围。
当前,我国司法实践中对这类案件适用的判断标准之一是“服务器标准”。服务器标准的内涵在于网络中数据访问具有长期性这一明显特征及需要进行搜索的关键词条具有相当意义上的重复性这两方面的性质。在结合这两方面的性质的基础上,以爬虫技术具有的长期性和重复性这两点为目标,然后整合和提取用户需要采集的网页信息,并将其的大部分存于服务器里。这样不仅可以将关于复制权的矛盾排除之外,也可以把爬虫技术提供商对于网络信息抓取的主观态度涵盖其中。
4 网络爬虫行为著作权侵权问题的解决路径
从上述的阐述中可以看出,网络爬虫行为所侵犯的著作权本身与传统意义上的著作权有很大的区别,但由于网络自身的特点,司法实践中对网络爬虫行为的著作权侵权问题的认定和具体处罚仍有待商榷。在平衡网络爬虫行为推动信息网络传播与著作权保护这个问题上,司法实践仍有许多内容需要整合及总结。
4.1 明确网络爬虫行为著作权侵权的判定标准
一方面,上文所涉及的有关网络爬虫行为侵权的一些概念及规定,如信息储存空间提供者、网页快照及缩略图、设链行为等,都是现行法律中加以规制的。虽然上文提到的服务器标准在理论和实务中都较为符合目前著作权法对于信息网络传播权的相关认定,但是现行法中仍未对该标准做出具体的条文规定,难以形成具有说服力且明晰准确的准则。
另一方面,在司法实践中,由于设链行为较为简单,在筛查过程中,网络服务的提供商难以对服务器中全部的内容进行查验,而查验难度会提升侵权风险,这就导致判定依据较为单方面,也即运用《规定》中的“常识”对服务器中的数据进行判断。而由于这种依据过于简单,所以著作权法对网络爬虫行为侵权的判定标准和内涵进行进一步划分也就显得格外重要。
4.2 著作权人维权机制的完善
在网络环境下,著作权侵权行为相对隐蔽与复杂,并且网络中信息杂糅,这对于权利人而言具体判定哪一部分属于著作权法中保护的部分就更具难度。针对这个问题,首先,要解决的就是将网络信息中的哪一部分具体认定为符合著作权法中作品的概念;其次,将作品登记制度继续推行及落实,对于解决网络环境中用户信息难以明晰的问题也有良好成效,这种方式可以使提供爬虫技术的主体进一步了解著作权主体,降低纠纷出现的概率。
此外,要完善网络著作权权利保障机制。2020年6 月11 日召开的十三届全国人大常委会第十七次会议审议通过了新版的著作权法,李学勇和左中一都提出,要做好著作权与科技发展之间的平衡,在强化网络著作权创作的同时,也要构建和健全网络著作权保护机制。其中,与“网络爬虫”联系最密切的就是在网络传播上,建立起一套完整的网络著作权侵权防范机制,不仅可以减少侵权行为的产生,还可以对著作权人的著作权进行合法保护。
笔者认为,保护网络著作权是本次著作权法讨论的关键,作品在网络传播的过程中与网络爬虫技术是息息相关、密切联系的。而在网络环境中,作者将其作品上传的那一刻,就有被侵权的风险,这种风险会导致著作权人损失本应获取的作品利益。在这种情况下,建立全套的网络著作权侵权防范机制,不仅能够提前规避相关风险,也能更好地保护著作权人对作品所拥有的利益。
5 结语
在当前的网络环境中,一部分主体运用网络爬虫技术进行信息的快速传播,有利于公众更快、更方便地获取网络信息;另一部分主体却利用该技术侵犯他人著作权,其不仅侵害著作权人的权利,还会导致网络服务的提供者产生间接侵权。因此,现行法应当就这两方面进行平衡规制,在立法方面完善相关法律制度,划清著作权中“作品”的范围,健全著作权人的权利保护机制。只有在立法明确规范的环境中,著作权人才能更好地保护自己的权利,激发创作热情,提升国家数字经济的发展水平。