数据生产理论下爬虫技术的法律规制路径*
2022-02-09高富平冉高苒
高富平 冉高苒
(华东政法大学法律学院,上海 200042)
一、引言
在诸如人工智能、云计算、区块链等纷繁复杂的新兴技术之中,爬虫技术(Data Scraping)似乎难以“新技术”自居。简单说来,爬虫技术就是从一个或多个网站上扫描和提取大量数据副本的过程。[1]从起源时间来看,早在20世纪90年代末,美国出现的账户聚合服务(Account Aggregation)中就已经使用了早期的屏幕爬虫(Screen Scraping)技术,使客户能够在一个地方查看自己来自不同机构的账户信息。[2]而我们惯常使用的谷歌搜索引擎也是在这个时期出现,它也是爬虫技术的早期技术形态。[3]2-3从技术普及情况来看,爬虫技术已经在众多互联网领域开始普遍使用。有机构统计,目前有将近二分之一的网络流量来自爬虫技术。[4]爬虫技术已经成为被普遍使用的网络技术之一。
新技术会提高生产力,促进经济发展,会带来巨大的社会进步,但同时也会带来在政治制度、社会制度以及经济制度之上的不平等。[5]对于爬虫技术而言,由于其获取散落数据的便捷性与低成本性,一方面成为需求者高效获取数据的主要途径,其重要性之于特定网络商业模式不言而喻,但另一方面又因为其近似“盗窃”“掠夺”的资源获取方式,给被爬者带来了极大的防范成本和经营困局,甚至由于其违背Robots协议(1)等“君子协定”而成为网络世界人人喊打的“害虫”。因此,对于技术与法律的研究者来说,需要谨慎、客观地推进我们对新兴技术领域的连续性观察,及早发现既有模式存在的问题并加以改进,从而探索出符合人类社会普遍认知与行为准则的途径。[6]
本文将按照如下逻辑展开讨论。首先,爬虫技术呈现出从表层内容爬虫到底层原始数据爬虫的流变趋势。爬虫技术的原始性、寄生性等特质导致了目前的巨大争议,而实践中单纯依靠现有法律规范并不能完全化解这些争议。其次,从生产性的维度来看,爬虫技术的流变是互联网生产活动由内容生产向数据生产深化的结果与体现。其中网络运营者(或称网络平台)发挥着重要的组织核心作用。(2)但现有法律并未对代码层面的数据生产活动进行必要的规范,这在一定程度上导致了以爬虫技术为代表的数据生产、利用秩序的混乱。理性对待爬虫技术负面影响的同时,我们必须认识到其本质是获取数据生产活动所需的生产要素,核心目的系为实现数据重用。最后,通过对于各国探索与中国实践的经验总结,本文将讨论如何超越数据权属争论,从数据利用秩序上解决爬虫争议的问题。网络运营者基于数据生产活动事实上控制了数据,法律应当承认并尊重这种事实上的财产性权益。为防止“反公地悲剧”的出现,法律还需要赋予网络运营者一定的数据分享义务,以实现数据要素的充分流通和利用,从而从根本上实现对于非法爬虫的科学规制。
二、爬虫技术的流变与争议
(一)爬虫技术的发展流变
从技术目的上来说,爬虫技术主要是为了方便、快捷地获取网络上海量的数据/信息应运而生的。网络可以承载传输海量的信息,为了获取相关的有价值的信息,有许多公司专门雇用员工从互联网上手动收集相关内容。(3)这样的方式看起来似乎原始至极,但却是爬虫技术的初始形态。随着技术成本的降低,爬虫技术很快摆脱了人工的束缚,进入程序/代码或者机器爬虫的阶段。(4)
爬虫技术从人工走向机器,其爬虫对象也从浅层信息走向了底层数据。从数据/代码角度来说,网络提供的以任何形式呈现的内容,包括网页、超文本语言、文字、照片、视频等等都是由结构化、半结构化和非结构化的定量或定性数据组成。[7]这些数据,首先是用泽字节(Zettabytes)测量的海量数据;其次,这些数据存储有各种各样的格式,并依赖于各种技术和标准;再次,这些数据并不是静态的,它是以极快的速度生成、流通和修改变化的。[8]为了应对上述的技术挑战,现阶段的爬虫技术开始被广泛地定义为一种数据收集技术,包括从一般的屏幕输出中收集数据,或从大多数网站显示的HTML代码中提取数据,更为流行的是在通过解析对底层网络数据进行访问时,在没有数据主机许可甚至感知的情况下爬取大量数据。[9]也正因此,如今爬虫技术已经从获取网页数据转移至底层数据,成为许多所谓的大数据公司获取数据、从事大数据挖掘的最主要的手段[10]8,因此也被称为数据爬虫。
一开始,爬虫技术看起来是一种简单的信息获取技术,或者更接近于一般的传播媒介技术,而“媒介是人的延伸”[11],爬虫技术为网络用户提供了器官与思维上获取半径的扩展,这种技术对任何网络用户而言具有积极意义。后来,人们逐渐发现如果爬虫技术应用于以信息聚合为代表的互联网新兴产业中,就不难看出其技术价值已经由简单的信息获取走向新的聚合价值的生产,由此,爬虫技术成为了一种基础数据资源的获取(或者采集)工具。随着网络用户开始习惯通过这种方式接受网络服务,传统的(或者拥有先发优势的)网络服务提供商就难以继续沿用一般的网络服务模式和生产模式开展商业活动。因为爬虫技术开始妄图成为一个一般性的商业模式基础技术进入已有的网络生产组织系统,并妄图以改变现有的法律态度以使得自身可以获得合法的生产性地位。在这一阶段,两者之间的张力开始显现,传统的生产商渴望揭示其背后的原始性与侵入性,削弱技术本身的合法性与正当性,从而对其使用场景和空间进行压缩。
(二)爬虫技术的价值争议与适法困境
爬虫技术带来的争议可以从数据生产机制本身与法律规范两个维度来分析。
一是数据生产机制层面的争议。网络运营者的构架设计是一种面向长期的市场性的激励机制,还为这种机制找到了稳定的市场和法律环境,通过各种方法来组织维护它,以确保“平台经济”的各参与方可以得到确定的收益。这种机制的生产性成本和“交叉收益”[12]都是巨大的,但爬虫技术“寄生虫”般的技术逻辑却打破了这一平衡。首先,爬虫技术具有原始性。此处与原始性相对应的概念是市场性,就是指遵循所谓“市场的逻辑”,即“以利人之行,实现利己之心”。(5)在成熟的市场性生产机制中,为生产作出贡献的主体都恰当地获得了相应的贡献对价。从用户角度来看,作为UGC(User Generated Content)的贡献者,用户一方面获得了来自网络运营者的激励补贴,同时也可以直接获取源于自身IP的广告利益;而网络运营者则在“交叉收益”的机制下获得了源自广告商的收益,同时也可以直接向消费型用户收取平台服务的相关费用作为提供内容产品的对价。对于爬虫技术来说,由于获取目标数据是不需要向被爬者支付对价的,利益的获取方只有爬虫者。作为原始数据的生产者和控制者,用户和网络运营者在整个爬虫的生产流程中处于利益缺位的状态。这样的数据生产方式类似于“掠夺式”的原始积累,具有生产要素获取机制上的原始性。
其次,爬虫技术具有寄生性。此处与寄生性相对应的概念是共生性,体现在各个机制主体(即共生单元)之间可以进行物质、信息和能量的双向交流,这种交流是否存在或是否顺畅是共生关系得以实现的基础条件。[13]具体来看,就是用户、平台、广告商之间可以实现资金、技术、信息的流通,可以构建维持一个共生环境和共生界面。因此,有学者曾言,“共生,是运用科技增加社会福祉,用社会诉求推动科技创新的基本法则。”[14]而爬虫这样的数据获取方式是寄生性的,它的存在完全依赖于被爬平台,甚至给被爬者以破坏。爬虫程序可以在未经用户和平台同意的情况下爬取数据,并可以依靠数据的重用来获取具有竞争性的用户和广告收入,以削弱被爬平台的收入。此外,爬虫技术可能收集、侵害用户的隐私信息,甚至可能直接损害被爬者的数据主机。[3]3这样一种数据资源的获取是单向度的,是缺乏生态持续性的。
最后,爬虫技术具有不稳定性。生产要素供给的稳定带来产品供给的稳定,这样的稳定既体现在产品的质量上,同时也体现在供给的持续性上。而爬虫面临着技术与法律的双重挑战,反爬虫技术可以阻碍、中断数据获取,法律的立场和态度也可以从市场规范和商业模式的合法性上阻碍、中断数据获取。在数据要素市场中,数据要素的供给需求是动态持续且稳定的,而爬虫技术是获取静态数据的,且随时面临持续性挑战,其获取的数据质量低,稳定性低,持续性差。这既是爬虫技术天生的缺陷,也是数据生产机制自我保护的体现。由于网络数据中存在大量虚假或不完整、不标准化数据,当通过爬虫技术手段获取的数据呈现多源异构性时,数据资源的时效性、关联性、准确性无法保障,当其被再利用后,不但造成数据分析计算价值的下降,还会造成数据资源的“污染”,严重危害数据要素市场的健康运行。
二是现行法律的局限性导致了爬虫技术规制问题上的巨大争议与不确定。首先,版权制度无法解决数据权益问题。平台数据来源具有多样性,以微信公众号为例,平台所管理的数据就包括用户登记的账号信息、用户发布的信息内容以及平台产生的用户与平台互动数据,当平台因为这些数据被爬而提起版权诉讼时,基本无法得到支持。因为,微信公众号平台不“拥有”其网站上的所有数据,特别是当它是用户生成的内容时,平台并没有得到权利的专有许可或者转让。更为重要的理由是,思想不能受到版权法保护——只有这些思想的具体形式或表达可以,原创性成为平台不可能达成的举证义务,而且,这种爬虫技术所得数据的再利用,很可能构成版权法上的合理使用。
其次,Robots协议的效力存在巨大争议。对于诉诸合同法(典型的如用户服务协议、Robots协议)的案件来说,针对任何使用网站的用户来说,都会被要求签署一份“用户服务协议”。这样的协议通常面临两个方面的质疑。一是关于协议效力的问题,是否属于“格式条款”(6);二是协议对象的问题,用户服务协议往往只是针对自然人用户,而爬虫技术是以机器人的身份出现的,这就导致爬虫技术者事实上并不是所谓“用户服务协议”的相对人,因为它并不是用户。也正是由于后者的原因,网络运营者专门针对机器人/脚本设计了专门的Robots协议,但针对Robots协议的法律性质和强制力效力的问题也争议不断。一些学者认为其系一种集体协议,一些认为其是一种宽泛的契约关系,一些认为其是网站所有者与搜索引擎间是一种事实上的信息服务合同关系,还有一些认为Robots协议是体现了相关细分领域公认商业道德的行业惯例。因此,当被爬者希望通过合同法的路径取得利益保护的时候,受制于合同主体、效力等问题,并不总是能得到法律积极的反馈。
最后,技术控制面临巨大的成本和合法性挑战。在缺失法律从社会层面保障的情况下,网络运营者自身的技术防御措施也会面临成本和法律的挑战。对于反爬虫技术来说,网络运营者为了实现对于其平台上数据的控制,愿意付出一定的技术成本来采取反爬虫技术。更为严峻的现实是,网络运营者的技术措施并不一定会得到法律的积极认可。例如,美国在HiQ与Linkedln的案件中,HiQ主动提起诉讼,认为LinkedIn的技术手段系违反信息自由的基本原则,要求通过法律手段强制允许自己继续持续爬取LinkedIn的数据,而该请求在地区法院和巡回法院获得了初步禁令的支持。由此,被爬者单方意思和技术措施不再能发生法律上禁止他方数据爬取的效果,其对数据的封闭将面临反不正当竞争法、宪法第一修正案、开放互联网之公共利益的挑战。[15]正如本案所反映的,网络运营者的反爬虫技术同样需要法律的确认,而在法律缺失明确态度的情况下,这样的方式与爬虫技术一样会面临合法性的质疑,例如信息自由价值、市场竞争价值等。
三、爬虫技术的生产性意涵
(一)互联网生产活动与数据生产
以互联网为基本载体的数字经济已经成为国民经济的重要组成部分,各产业的数字化改革推动着国家数字经济的发展,也成为我国未来数字经济的主要方向。互联网的这种特殊的创造力被称为:生产性(Generativity)。这种依靠网络从事的生产性活动被概括性地称为互联网生产活动。互联网的生产性被认为是一项技术的总体能力,它能够在大量、多样和不协调的网络用户的推动下产生非预期的变化。[16]特别是对于商业互联网平台而言,当用户消费需求异质化、技术分散、整体市场轨迹不确定的时候,这种生产能力尤为重要,甚至成为某一商业互联网平台得以生存的技术支撑架构。这也就形成了诸如微信公众号、头条号、知乎、抖音等相对独立、封闭,却又生产异质性内容的网络运营者,并成为支撑我国数字经济的重要力量。
从网络分层理论来看,上述这样的互联网生产活动表面上是一个独立的生产行为,却在不同的层级具有不同的生产机制和生产结果,当然也会产生不同的市场作用与价值。(7)它揭示了网络生产活动可以在内容层(具有一定信息意义的内容)、代码层(原始数据和数据集的产生),或者通过物理载体,以不同的产品形式予以呈现。这三个层次当然是联系在一起的,因为物理层承载代码层,代码层蕴含内容层意义。然而,从生产性的法律角度来看,每一层都代表着定义一定“产品”和生产活动的相对独立。
因此,除去物理层之外,可以在内容层和代码层中分别定义互联网生产活动。对于内容层而言,互联网生产的活动价值在于信息与知识的加工创造。互联网内容生产者通过创造性的思维结合标准化的过程来更便捷地创造内容和信息商品。这样的生产活动起源于非常早期的人类历史,随着生产技术的不断推进,从打字机、摄影、电报、电话、录音录像到广播电视,最后是互联网信息技术,产品的呈现以文字、图片、音频、视频等出现,本质仍是直接生产人类可以识读的,以降低人类活动不确定性为价值的信息。
对于代码层而言,互联网的生产活动就是数据生产活动。数据是对客观世界的数字化映射,是信息和知识的数字化表达。随着互联网、人工智能等技术的发展,数据的价值开始逐渐被人类发觉。首先,人类通过网络实施的各种行为活动越来越多地被数据化。例如,网络用户的Cookies等“数字痕迹”开始被数据化记录。其次,联网的智能设备(物)可以产生、存储和传输数据,成为大数据主要的来源。例如,智能汽车、智能电话、智能家居和可穿戴设备等等。再次,数据自身也被当作某种类“资源”进行交易。因此,数据经济不仅是指数据驱动或数据控制的经济,还是一种以数据为基本生产要素的经济模式。正是基于这种具有机读性,非人类可直接识读的数据的价值爆发,才使得传统的互联网内容生产具有了数据生产的价值意味。
可见,之前停留在内容层的互联网生产活动已经突破了语义、信息的界限,在代码层完成了数据生产的价值创造过程。网络运营者为了创造激发互联网生产的活力,为了在内容层创造差异性、功能分化的竞争价值,在代码层生产更多可供计算分析的数据,更多地担负起中介与组织的双重功能,它们的供给支持创新和创造力,为内容生产提供了构架和行为模式上的基础,但同时也限制了参与,并将其引导到有利于平台创造者的生产活动中。[17]正是在此种数据生产理论的视域下,爬虫技术具有了一种生产性意义上的表征,需要得到法律的正视与回应。
(二)数据重用:爬虫技术的生产性表征
尽管当下数据的生产要素性质已经得到了政策制定者和产业界、学界不同程度的认同。但如何实现数据要素的生产性价值,人们似乎并无定论。“这些数据最好是结构化的,但不一定是结构化的”,因此“实现大数据的潜力需要从所有来源进行更多的数据重用”[18]。数据(或者信息)的创生性、涌现性、相互性与共享性决定了相同的数据用于不同的场景(或者与不同的数据进行匹配),会创造不同的价值。(8)因此,与数据(一次)使用相对应,数据重用就成为数据生产与数据价值创造的重要途径。数据重用主要有数据循环(Data Recycling)、数据目的重用(Data Repurposing)和数据场景重用(Data Recontextualization)三种主要形式[18],而爬虫技术是实现后两者数据重用的重要技术手段。
从技术机制来看,将爬虫技术的技术过程进行细致划分,现阶段的爬虫技术一般包含网站解析(Website Analysis)、网站爬行(Website Crawling)和数据组织(Data Organization)三个步骤。首先,网站解析就是通过检查一个网站(或多个网站)或网络存储库(例如在线数据库)以了解所需数据的网络架构和存储方式。其次,通过开发和运行一个程序脚本,自动浏览网站和检索所需的数据来进行对于底层数据的爬取。具体使用怎样的代码语言与这些语言在数据科学的可用性有关,它们的目的是自动抓取和选择数据。最后,从选定的网络存储库中爬取出必要的数据后,需要对其进行清理、预处理和组织,以便能够对这些数据进行进一步分析。[8]
结合数据生产和重用理论的分析,上述三个过程可以清晰地体现出爬虫技术的技术逻辑。一方面,网站解析和网站爬行实现了数据网络存储库(就如同蕴含资源的矿藏)和数据(资源本身)的分离,实现了初始的数据要素获取的过程,即通过对网站代码层的数据化解析、筛选和复制,实现对于网络内容、网络活动的数据化映射,从而为数据本身成为资源或者商品[19]进行流通,提供了基本的可能。另一方面,随着技术的深化,爬虫技术也不单单扮演“搬运工”的角色,数据组织过程让爬虫技术具有了价值创造和价值添付的功能,组织标准、组织范围、组织语言等的选择与确定[8],使得数据的可携性与互操作性的统一成为可能,更是实现了“基于需求的数据供给”成为可能。[20]这一阶段,爬虫者通过将爬虫得到的数据以某种标准进行分类、组织,甚至还涉及不同数据源的数据要素匹配和融合的过程,以生产出新的数据要素。事实上,这一过程已经完成了数据不同语境的变换,实现了场景化(或者语境化)重用与价值添付的过程。加之,若被爬数据的最终用途与数据源不同,则又实现了数据目的的重用。(9)
从生产对象来看,如前所述,用户利用平台主动生成的数据和网络行为的“数字痕迹”都是数据资源的重要组成,但不可否认的是,如同原始采集来的能源资源未经“清洗”难以高效使用一样,上述两种原始数据由于质量、用途、采集方式、使用目的等各方面因素的差异性,直接用于数据分析/挖掘的可用性并不高。打破不同类型原始数据的孤立性,实现原始数据的互通、再提炼,将原始数据汇集成为更有价值的数据集(Dataset)的过程同样具有价值创造上的重要意义。[21]
从爬虫技术的结果来看,爬虫的过程就是通过不同的数据汇集与重用,以形成新的数据集。爬虫技术的价值就在于发现这些海量数据的某些特征,为特定目的、以可识别标准创建不同的原始数据之间的联系,将它们汇聚起来。基于特定的标准和意图,出于效率和良好系统运行的考虑,当这些原始数据在大多数情况下以一种标准类型的“数据包”的形式存在时,它们所包含的计算价值通常才是特定的(或者说是可以量化的),才可以用以支持收集、创建它们的直接目的。因此,对于商业数据竞争而言,真正的竞争优势往往来自那些生产出的具有独特性的数据集,而不是原始数据。[22]“数据生产实现数据从无到有,数据集生产则实现关于某个对象的数据汇聚和优化。”因此,爬虫技术在原始数据“数据集化”的过程中扮演了极为重要的角色。[21]
综上,爬虫技术是一种典型的数据重用技术,具有一定意义上的生产性意涵。但需要强调的是,本文把爬虫技术定义为数据重用行为,这里的重用只是事实判断意义上的,因为其确实付出了生产上的劳动,实现了从1到多(或者从分散到聚集、从粗放到优化)的价值创造的跨越。[23]但这样的行为或者技术能否得到价值判断上的正当性确认,则是另一个层面的问题。因此,在法律上如何对待爬虫技术需要更为系统的分析论证。
(三)法律回应的缺失
从生产性的视角来看,作为数据生产者的网络运营者,希望其生产性贡献得到法律的确认和保护,这种合法性的确认既是商业模式的考量,也是利益分配的考量。从现实来看,网络运营者对于自身生产行为的控制存在于技术与法律两个维度。
从技术维度来看,自发的技术控制是网络运营者自力救济(自我保护)的体现。网络运营者对于自身生产活动控制是高度依赖技术构架的。以微信公众号为例,微信公众号设置有登陆限制、IP访问限制、验证机制等技术措施。诸如此类网络运营者设置的登陆机制,其目的就是在于通过限制非真人的访问。对于IP频率访问限制而言,网络运营者会设置IP访问频率限制。如果一个访问者访问太快了,网络运营者就会认为你不是一个人,而是一个机器人或者其他脚本程序。除了上述对于访问者主体身份的控制外,对于平台内容来说,网络运营者也会通过分享控制、编辑限制、“白名单”、原创声明等方式,在不违背信息自由的基本前提下,一定程度上实现对内容生产的技术控制。
从法律维度来看,内容层的法律规范是网络运营者的社会性保护,同时也是对平台内容生产技术控制的确认。通过知识产权保护由人类思想创造性的信息,如发明创造、艺术作品或专利设计;通过合同(典型的如用户服务协议等)实现与平台用户的法律关系的确认并明确两者之间的权利义务关系;通过反不正当竞争实现对于市场竞争者、竞争利益与竞争环境的规范等等。因此,法律通过对于平台技术的规制和确认,从人类的网络行为规范层面实现了对于内容生产活动正当性的保护,确认了这种知识生产的新模式及其背后所代表的商业利益与价值。
而对于代码层或者数据来说,法律的应对体现出了其自身固有的保守性和滞后性。当可被人直接识读的信息、知识,被数据化为仅机器可读的数据时,其价值也从单纯的信息价值向更复杂的计算价值跨越,由此,网络运营者相应地用于生产和管理数据并据此控制数据生产过程的逻辑也发生了变化。因此,正是代码层法律的缺失导致了数据生产活动的混乱。一方面,网络运营者自发的技术控制未得到法律的认可,典型的体现如美国《计算机欺诈与滥用法案》(CFAA)对于突破技术防线访问计算机系统是否构成“未经授权访问”的争议,Robots协议性质与效力的争议等。另一方面,无论是因为法律的体系局限性还是法律适用的有限性,传统法律(如前述知识产权、竞争法等)又无法像规范内容生产一样应对数据代码层面的争议。因此,以数据争议为表现的数据生产活动秩序的混乱由此产生。
综上,限于时间、技术或者其他众多原因的影响,人们对于内容层的探讨与思考较多,而对于代码层面的数据生产认识尚浅。而用乔纳森·齐特林(Jonathan Zittrain)的话来说,“入侵者可以在一层工作,而无需了解另一层工作,和另一层工作之间不需要任何协调或关系。”[24]随着大数据、传感等技术的深化,内容(信息)可以轻松实现数据化的转化,从而使存在于内容层的问题延伸、扩展至代码层。(10)由此,当爬虫技术出现时,现行法律在代码层面的不完善成为网络运营者对于数据生产活动法律上控制的难题,这也导致了未经授权的爬虫技术被大量应用,成为网络运营者眼中人人喊打的“害虫”。
四、规制路径的各国探索与我国实践
为化解爬虫技术的争议,世界各国都进行了各具特色的制度创新与尝试。其中,美国法律在面对爬虫技术时的,动用了几乎法律“武器库里”任何可以想象到的“武器”。其中最具美国特色的法律就是《计算机欺诈与滥用法案》(以下简称CFAA)。CFAA是一项联邦法规,规定任何“在未经授权的情况下故意访问计算机或超出授权访问范围”的主体都应承担刑事责任。与合同法的理论没有很大的差异,适用CFAA的案例通常取决于用户是否对网站用户服务条款的限制性条款有实际或建设性的了解(即明知爬虫是“未经授权的”)。在过去二十年中,大量的爬虫技术案件涉及CFAA的适用问题,但法院并未达成共识,特别是针对“未经授权访问”的理解与解释问题上仍存在巨大分歧。[25]372-415但总体的趋势是,对于构成CFAA所描述的“未经授权”,美国法院的态度越来越谨慎,以防止其适用范围的无限扩大,对正常的网络信息流通产生不利影响。典型如备受关注的HiQ与Linkedln的案件,经过初审、上诉和重审的立场摇摆,美国第九巡回法院的第二次裁决,依然坚持并重申了其最初的裁决意见,认为爬取互联网上已公开的数据并不违反CFAA,并强调“未经授权”的概念不适用于公共网站。(11)由此可见,美国法院对于爬虫技术是否适用CFAA的看法动摇。正如安德鲁·塞勒斯(Andrew Sellars)教授所言,“爬虫技术的法律地位经历了二十年的不确定性——这不是像一些学者所说的那样一片混乱,而是在不同时刻摇摆的状态。”[25]412
最具欧洲特色的法律应对是通过“数据库权(Database Right)”来实现对于爬虫技术的规制。为了对“数据库”施加保护,欧盟在既有知识产权法的体系框架之下设置了一种特殊的专有权——数据库权,并通过颁布《关于数据库法律保护的第96/9/EC指令》(以下简称“数据库指令”)确认了该项专有权,该项权利旨在保护以系统或方法方式排列并通过电子或其他方式单独访问的独立作品、数据或其他材料的集合。(12)在数据生产的语境下,数据库权所保护的数据至少需要具备两个条件,第一个是该数据必须是以系统或有条理的方式排列并通过电子或其他方式单独获取的数据,即结构性。第二个条件是在获取、验证或呈现内容方面的质量和/或数量上的大量投资,即投入性。尽管《数据库指令》的出发点不可谓不积极,但在实际的运用中还是出现了巨大的争议。很明显,《数据库指令》忽略了对于非结构化数据和经营行为衍生数据(即经营副产品)的保护,这使得当下真正占据大多数的网络活动的“单一数据源数据库(Solo-source Database)”无法被视为《数据库指令》保护的对象。这就导致目前大多数网络运营者在面对爬虫技术时,依然不能依据确定的财产权路径进行保护。2017年欧盟颁布《构建欧洲数据经济》(Building a European Data Economy)文件,提出构建“数据生产者权”(Data Producer's Right)的财产权保护路径以解决机器生成数据的权属问题,是否可以有效解决爬虫技术所带来的冲突问题,还需要更多的研究与思考。(13)
结合我国的司法现状,我国法院采用最为常见的路径是通过反不正当竞争法和刑法来对爬虫技术行为进行规制。对于法院认定爬虫技术构成反不正当竞争行为的案件不胜枚举。但总体看来,法院并没有直接对于爬虫技术本身做出任何价值判断,而是坚持从反不正当竞争行为的一般判定要件出发,对于利用Robots协议或者爬虫所得数据进行的市场活动,(14)进行行为性质的合法性判断。这就导致行为人对于爬虫技术行为的行为预期始终处于不确定的状态。尽管很多案件的原告都取得了胜诉判决,但在法律适用问题上的争议并不鲜见。[26]因此,适用《反不正当竞争法》来规制爬虫技术行为总体上是一种“曲线救国”的应对方式。
在“谷米公司诉元光公司不正当竞争案”中,元光公司为提升本公司的APP软件“车来了”的服务质量,利用网络爬虫技术爬取了谷米公司“酷米客”APP软件上的公交信息数据,将之用于“车来了”APP并提供给公众查询。法院认为,“元光公司利用网络爬虫技术大量获取并无偿使用‘酷米客’APP实时公交信息数据的行为,是一种不劳而获的行为,破坏他人的市场竞争优势,具有主观过错,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争。”(15)在“新浪微博诉蚁坊公司不正当竞争案”中,由于新浪微博与蚁坊公司之间并无明显的商业模式和用户对象的竞争关系,法院在认定两者的竞争关系,明显扩大了解释与适用的范围,认为“只要经营者的行为不仅具有对其他经营者利益造成损害的可能性,且其同时会基于该行为获得现实或潜在的经济利益,则可以认定二者具有竞争关系”,“在当前的市场环境下,这种竞争并不限于同业竞争,显然也包括非同业竞争但仍对交易机会、交易能力存在争夺的情形;因此,如一方经营者为了提高自己的交易能力而直接侵占或损害另一方经营者的合法权益,即便双方并非同业竞争者,仍然构成了竞争关系。”(16)
由此可见,互联网反不正当竞争法的保护已经明显向市场主体合法利益的侵权法方向发展。[27]针对爬虫技术来说,就是指网络运营者所主张的数据权益,这种权益除其对数据本身所享有的权益之外,还包括运营网络平台,维护数据安全而产生的成本控制,以及基于所享有权益的数据进行衍生性利用或开发所获得经营利益等。(17)
另一条重要的路径是刑法路径。据不完全统计,爬虫技术涉案主要罪名为侵犯公民个人信息罪、侵犯著作权罪、非法获取计算机信息系统数据罪与破坏计算机信息系统罪等。(18)罪名的多样性,也意味着对于爬虫技术本身性质的模糊性。总体看来,《刑法》对于爬虫技术非法与合法的判断,重点是从形式层面进行的。[28]因此,有学者提出要从实质的法益侵害性来进行罪与非罪的判断。[28]以关系最为紧密的非法侵入计算机系统罪来看(19),我国是否会陷入如CFAA一样对于“入侵”和“非法”等关键概念的解释困境,爬虫技术能否被认定为黑客行为,还需要司法的实践以于验证。[29]
事实上,不论是从哪个侧面进行的探索,都体现了法律制度本身对于爬虫技术外部性的积极回应。法律还应当发挥出一种具有导向性的作用,从而寻找和确定我们面对爬虫技术的应然态度和价值取向。因此,有必要将爬虫技术放置于更大更宏观的整个数据生产与数据要素资源市场化配置的体系之中予以分析和讨论,才可以摆脱单纯的技术主义视角,对爬虫技术做出全面而恰当的法律应对。
五、控制与分享:爬虫技术的法律应对
通过对我国司法实践的观察,我们不难得出以下结论:利用反不正当竞争法来规制爬虫技术行为,表面上是对于市场竞争性秩序的保护,但实质上却有明显的数据财产性权利保护的趋势。现行法虽然暂时缺乏有名财产性权益来明确,但在案件裁判上仍然会不知不觉地借用财产性权益的分析框架来完成判断与说理。所以,不论是理论上还是现实需要,为数据构建相应的财产性利益保护规则是解决爬虫技术争议的根本路径。只是这种财产性价值的利用与分配规则最终会以何种形式被法律体系表达出来需要探讨。本文主张的制度方案主要包括“控制”与“分享”两个方面。
(一)控制:数据持有者权
爬虫技术之所以争议巨大,究其根本是数据权属的争议问题。无论是传统的法学理论还是经典的经济学理论,解决产权问题一直都是资源配置、利益分配的基础与核心问题。[30]但由于数据这一权利客体本身的非竞争性与非排他性[31],加上数据利益相关者的多样性,导致在数据权属这一重大学术议题的讨论中往往无法形成基本共识。在笔者看来,超越传统的权利范式,从数据资源的利用角度,为网络运营者配置数据持有者权,以实现资源的有序利用是切实可行的制度路径。
1.技术视角。其一,数据持有者权的正当性在于数据生产活动。如前所述,网络运营者通过内容层的组织架构和内容生产机制客观上实现了代码层的数据生产活动,一方面实现了数据源对于原始数据的自主性供给,另一方面通过分离数据源和数据,实现元数据的生产和处理,数据价值的添付。从这个数据生产活动的意义上来说,数据持有者权就是生产组织者对于生产过程全流程的管控,其当然性地包括生产者与生产要素。关于数据生产与内容生产前文已具体论述,此处不再重复。
其二,数据持有者权的边界是平台。数据资源的流动性问题,直接关系互联网的生产机制和过程的成败。[32]流动性既是数据价值产生、汇集的关键,但也客观上成为数据控制基本难题。而平台相对意义上的封闭性就成为实现数据控制技术上的关键。基于前文对于互联网生产机制中网络运营者的组织核心地位,我们不难看出,互联网的开放是建立在各个平台的相对封闭性之上的,从架构技术上来说,平台内部的通用标准和架构模块往往只在本平台内部使用,要想实现跨平台的互通往往具有使用标准上的复杂性和困难度,这也不难解释诸如阿里、腾讯、谷歌总是被认为进行事实上的“垄断”。从网络运营者主观上来看,这种构架上的差异性是内容异质性和商业活动竞争性的要求。他们希望通过控制核心构架和标准上的差异,来满足不同的市场需求。而且随着各种新技术、新的组织和人类行为模式的共同发展,这种持续的相对封闭性可能会继续下去。而这种相对的封闭性就成为数据持有者权相对清晰的边界,一面为财产划定的边界,一面可以匹配数据的供求关系。例如针对爬虫技术的“反爬虫”诉求的实质是要求构建一种新的生产秩序,并由在先的、往往拥有大量信息内容的平台主导。
其三,数据持有者权的实现途径是访问控制。由于数据的非物质性,技术上实现对于数据的控制就是访问控制,它的意义相当于有形财产中占有的价值。从互联网生产性活动的视角来看,访问控制就是限制对资源的访问。通过访问控制,可以识别个人(或计算机),验证他们的身份,授权他们拥有所需的访问级别,然后针对用户名、IP地址或其他识别信息记录他们的操作,以实现流程的可追溯。访问控制最大限度地降低了授权访问平台或者数据库,接触到数据的风险,构成了信息安全、数据安全和网络安全的基础部分,同时也是实现数据有效控制的基本手段。
2.法律视角。其一,数据持有者权是对于平台生产性投入的确认。目的是法律的创造者,而目的本身就是利益……利益是权利构成的本质要素。[33]而分配权利的标准之一可以是考虑已完成的投资和用于创建数据的资源。这一点与欧盟《数据库指令》的立法思想基本一致,但其内涵应该是广义的。此类投资通常由两方进行:配备传感器的机器、工具或装置(生成数据)的制造商,他们投资于机器、工具或装置的开发和市场商业化,以及使用此类机器的经济运营商,支付购买价格或租赁的工具或设备,并必须摊销机器、工具或设备。这也符合数据生产理论中为价值创造者配置权利的逻辑。因为只有这样才能平衡网络运营者对于组织数据生产的成本,保证数据的有效供给,才可以促进数据的后续分析与利用。
其二,数据持有者权旨在实现一定程度的排他性。典型的财产权必然包括三个核心特征:对世、排他和追及。其中对世是自动创设与全世界所有其他人之财产关系;排他为物权人与他人之间的法律关系之内容,即他人有不侵犯财产权的义务;追及则是在同一物上的多个权利人之间发挥作用。[34]由于数据的非物质性和非独占性,不能排除他人对合法取得的同样数据的使用,因此数据控制不应包括完全的对世性。由于数据的范围和能产生的价值都具有不确定性,如果赋予数据持有者无限的追及效力,会导致权利界分与识别的复杂化,让数据流通产生极高的交易成本。因此,该权利没有追及力,丧失控制即丧失权利。综上,数据持有者权实际上主要的权利效果是有限的排他效力,以防止无权使用数据的第三方首次使用数据,包括因未经授权访问和使用数据而要求损害赔偿的权利。
其三,数据持有者权负有数据合法管理义务。法律上得以确认的数据控制必须是合法的。这既是数据生产的前提,也是数据流通的前提。对于数据生产活动来说,要想取得对于数据的合法控制,就要在生产过程中遵守《民法典》《网络安全法》《数据安全法》等规范数据处理行为的法律规定,只有这样生产/获得的数据才是合法的财产。反之,不遵守法律会导致侵权责任、行政处罚甚至刑事责任,导致数据持有丧失法律基础。[35]而对于后续的流通供应来说,合法性同样是数据进入流通环节的前提。因为数据上存在的利益多样性,即使合法取得的数据也并不能消灭或忽视数据上存在的合法利益。[35]因此,数据使用环节仍然需要维护数据上所承载的利益主体的利益,只有每个环节都保证自己的数据控制合法合规,且可以追溯到流通前手,才能保证整个数据流通过程的合法合规性,保证数据要素市场的运行秩序。又由于这样的财产权是纯粹的防御性权利,它也可以通过增加防御元素来增强平台对于数据的控制,从而更好地实现数据的流通共享。
(二)分享:数据分享义务
当多重专有权导致公共资源的低效利用时,“反公地悲剧”就会发生。[36]因此,我们在构建数据持有者权时,有意地限制了传统所有权的对世、排他、追及权能,并使权利人尽量明确,但这还远远不够。由于庞大的网络运营者事实上控制着用户的网络活动和海量的数据,其性质已经越来越接近具有公共性的基础设施,因此,解决数据资源供给问题的另一条途径,就是让数据资源的控制者分享(Data Sharing)或开放其数据资源,从而使更多的数据需求者得到满足,而不是“自产自销”。
1.基于公共利益的数据分享(开放)。赋予网络运营者数据开放义务的正当性理由主要有以下两个方面。一方面,很多网络平台已逐渐具备准公共基础设施的属性。要满足传统的公共基础设施的定位,一般需要满足双重条件:一是“自然垄断(Natural Monopoly)”[37],二是“受到公众利益的影响”。[38]这两种要件完全可以适用到目前的大型网络平台,因为它们的作用往往是“嵌入的,大部分是不可见的,通常被认为是理所当然的、高度标准化的信息传播系统”[39],具有自然的垄断地位和高度的社会依赖性。结合我国实际来看,对于网络平台的准公共基础设施地位的讨论也有涉及,在《个人信息保护法》第58条(也被称为互联网“守门人条款”)[40]“互联网平台个人信息保护特别义务”规定中的三个条件“基础互联网服务”“用户数量巨大”和“业务类型复杂”,就从平台规模、力量、持续性与生态影响等几个方面事实上划定了一个网络平台是否为准公共基础设施的标准,在实现从“开放资源到基础服务”[41]的过程中,事实上接受了一种公共信任和公共责任。
另一方面,很多具有公共利益的数据存在“私人控制”的情况。由于数据价值的凸显,数据开放带来的好处已经得到了世界各地政府的普遍承认,受益于政府信息公开制度的借鉴价值[42],政府数据开放率先成为国际社会的热潮,并逐渐掀起一项开放政府数据运动。我国也于2015年印发《促进大数据发展行动纲要》将“加快政府数据开放共享”作为大数据发展的主要任务。显而易见,公共利益因素是早期数据开放,尤其是政府数据开放的重要出发点。结合近年各地方政府纷纷出台相关的“公共数据管理办法”,其中的一个重要目的旨在“加强公共数据管理,促进公共数据应用创新……保障数字化改革……推进省域治理体系和治理能力现代化”(20)。简单而言,就是出于公共管理、社会治理等公共利益的目的而推进公共数据的分享与开放。
但上述举措都没有解决一个基础性的缺陷,即具有公共利益的数据的私人控制的问题。在我国,无论是政府数据还是公共数据都依据“数据控制者”标准,被界定为被政府或者公主体实际控制的数据。这就造成很多作为私主体的网络运营者,特别是典型的“互联网巨头”们,即使由于其业务类型和用户数量,事实上控制了很多涉及公共利益的数据,却无法在满足特定条件的情况(如环境恶化、疫情防控等突发事件)下被分享使用,以满足公共利益的目的。因此,为化解“公益数据的私人控制”问题,网络运营者被赋予一定意义上的数据分享(开放)义务具有正当性与合理性。事实上,在欧盟委员会最新立法建议《关于公平获取和使用数据的协调规则(数据法)》(Data Act)中,已经明确规定,基于突发公共事件、重大自然灾害以及重大网络安全事件等公共利益的目的,使用数据的公共利益将超过数据持有者自由处置其持有数据的利益。在这种情况下,私人的数据持有者有义务根据公共部门、工会等相关机构的要求向其分享(开放)数据。(21)
2.基于市场需求的数据分享。严格意义上来说,基于市场需求的数据分享更具有鼓励数据控制者积极参与数据流通(包括数据开放、共享、交换、交易等形式)的意味,这不是一般意义上的赋予社会责任或义务。从获取数据资源的数据生产角度出发,市场化的数据分享是获得生产要素,规范数据流通的必由之路和主要途径。随着越来越多的网络运营者开始进行数据市场化的数据分享时,其对于削弱爬虫技术的需求具有不可替代的作用。因此,本文亦对此部分作简要论述。
由于前述数据持有者权的存在,(除公共数据外)网络运营者应当自主决定自身所管理的数据资源的开放方式。[10]5-16,254最大的可能是为了服务于网络运营者的利益,会决定自愿与其他市场主体进行合作。为此,应向这些网络运营者提供适当的激励措施,以鼓励这种自愿的合作与分享。事实上,作为开放数据运动的深化,很多政府在激励、推广、普及数据分享方面取得了重大进展,而这些网络运营者(包括企业、社会组织、学术机构等等)通过免费开放、共享和数据交易为更多的数据市场利益相关者带来切实的利益。(22)另一种形式的激励措施可以包括建立相关的税收政策。推动包含激励因素的税务制度设计,探索实施“以数抵税”政策,对于积极开放、共享数据并产生较大经济价值的网络运营者,在因数据带来的增值性收入中,给予适当比例税收减免,对于具有较大社会公益价值的,给予一定的税收优惠。综上,政府可以通过培养和传播机构数据能力、阐明价值并建立影响证据库、支持新的数据中介机构、建立治理框架、创建可重用的技术基础设施等方式实现对于数据市场化流通的激励。[20]
此外,具有我国特色的“公共数据授权运营”制度也为公共数据参与数据要素市场分享活动提供了重要的制度途径。公共数据除了前述公共性价值,同时也具备了无限的经济价值与商业利用可能性。为了激发这部分数据价值的转化,以市场化的方式实现公共数据的分享与流通,“公共数据授权运营”可以说是一种极具中国特色的数据要素分享模式。授权运营单位通过取得公共数据管理机构的授权,对授权运营的公共数据进行加工,形成的数据产品和服务,以实现向市场化的主体提供符合标准要求的数据要素的目的。这种具有“特许经营”性质的市场化数据分享模式[43],一方面协调了公主体及其他社会主体之于公共数据之上的利益关系,同时也在可控、可监督的数据安全监管范畴内实现了高质量数据要素产品的供给,实现了市场化价值与效率的提升。包括上海、浙江、成都等在内的地方政府都在积极进行“公共数据授权运营”的实践层面的探索与尝试。这一制度与公共数据开放、共享制度相结合,将完整构建关于公共数据分享利用的制度框架,对化解爬虫技术所面临的数据“获取难”问题大有裨益。
六、结语
互联网不仅仅是通信和活动开展的工具,还是感知和记录客观世界的系统。由此形成的数字化记录(数据)正成为新的知识生产方式的原料。人类文明所呈现出的“数据→信息→知识→智慧”的递进式结构[44],已经随着数字技术发展而发生了重要变化,人类认知世界的对象也由人类观察和描述的信息、知识向底层数据——可机读数据、语义元数据,不断地深化,关于客观世界的机读数据、语义元数据开始成为数字时代的生产要素。
正因为互联网产生的数据具有巨大的重用价值,以爬虫技术为代表的“代码层”争议不断出现。对此,本文论证了爬虫技术的两面性。显然,目前的理论与司法实践都更加关注其负面影响,而未正视其生产性的数据重用价值。爬虫技术对于便利要素流动,扩展要素重用场景、拓展要素使用目的,实现数据要素计算循环价值有着与生俱来的特殊技术优势。因此,爬虫技术的问题本质是对于数据要素市场主体合法利益分配治理的制度性问题,是解决创制数据和添附价值的数据生产者对数据重用权益保护问题。
通过“控制”与“分享”的二元路径,既可以实现对于数据利益的合理分配,促进数据要素市场的稳定供给和生产,又可以帮助促成更加公平的数据利益分享机制,为全社会主体有效获取利用数据开辟道路。推而广之,数据要素的“控制”与“分享”应当是所有数字经济社会主体围绕数据流通使用的“社会契约”,以保障公平实现社会主体参与数据价值的转化,共同探索建立数据治理的信任框架。
注释:
(1)Robots协议,也称爬虫协议、爬虫规则等,是约定俗成的规范,不具有强制力。指网站通过建立robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
(2)《网络安全法》规定:网络运营者是指网络的所有者、管理者和网络服务提供者。另外需要说明的是,网络可以实现各种社会活动,在实现或组织实现这些活动过程会形成数据这种“副产品”,内容平台或者具有内容生产功能的社交平台只是其中典型。本文以内容平台为例进行相关分析论述,相关结论同样适用于其他的网络运营者,特在此予以强调说明。
(3)一些公司主要是依靠员工手动浏览网站,并每天将数据从一个或多个网站复制/粘贴到电子表格或表单中。这种方法有许多缺点,包括支付人工费用、数据准确性较低以及时间限制等。
(4)相关研究参见刘艳红:《网络爬虫行为的刑事规制研究——以侵犯公民个人信息犯罪为视角》,《政治与法律》2019年第11期;Myra F.Din.Breaching and Entering:When Data Scraping Should Be a Federal Computer Hacking Crime.Brook.L.Rev.2015,(81)等。
(5)参见张维迎.理念的力量[M],西安:西北大学出版社,2014.本书中张维迎教授具体区分了“市场逻辑”与“宗教逻辑”。
(6)关于网络服务协议、服务政策效力的相关研究参见王叶刚:《论网络隐私政策的效力——以个人信息保护为中心》,《比较法研究》2020年第1期;姚黎黎:《网络服务协议中动态条款的异质性规则与权利平衡》,《学习与实践》2017年第4期。
(7)参见L.Lessig.The Future of Ideas:The Fate of the Commons in a Connected World,New York:Random House,2002.在谈到现代网络信息技术中的信息传递时,莱斯格教授(Lawrence Lessig)所提出的这三个层面区分的经典理论至今起着至关重要的作用。
(8)参见王天恩:《信息及其基本特征的当代性开显》,《中国社会科学》2022年第1期。信息既不是物质也不是能量,而是一种基于物能的感受性关系,其成熟形态即信宿和信源间的感受性关系过程。
(9)相关案例参见杭州铁路运输法院(2021)浙8601民初309号民事判决书。事实上,在我国的司法审判中,数据的用途与数据源的用途是否具有实质性替代的效果,成为判断爬虫技术是属于不正当竞争行为的重要考量因素。
(10)内容生产活动一方面创造了UGC数据,一方面也基于用户的生产活动客观产生了观测数据和衍生数据。从数据生产角度来说,进行内容生产就是一种数据生产活动。
(11)参见HiQ Labs,Inc.v.LinkedIn Corp.No.17-16783 D.C.No.3:17-cv-03301-EMC.
(12)参见Directive 96/9/EC of the European Parliament and of the Council of 11 March 1996 on the Legal Protection of Databases.
(13)参 见P.Hugenholtz.Against‘Data Property’.Kritika,2018,(3).对于数据生产者权,学界质疑的声音比较大。
(14)参见(2017)京民终487号民事判决书。
(15)参见(2017)粤03民初822号民事判决书。
(16)参见(2019)京73民终3789号民事判决书。
(17)参见(2019)京73民终3789号民事判决书。
(18)据苏青教授统计,截至2020年12月31日,网络爬虫涉罪刑事案件共有31件,涉案主要罪名为侵犯公民个人信息罪、侵犯著作权罪、非法获取计算机信息系统数据罪与破坏计算机信息系统罪,案件数量分别为13件、8件和7件。参见苏青:《网络爬虫的演变及其合法性限定》,《比较法研究》2021年第3期。
(19)《刑法》第285条规定了非法侵入计算机信息系统罪,非法获取计算机信息系统数据与非法控制计算机信息系统罪,提供侵入、非法控制计算机信息系统程序、工具罪。
(20)参见《浙江省公共数据条例》第1条。
(21)参见REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL on Harmonised Rules on Fair Access to and Use of Data(Data Act),{SEC(2022)81 final}-{SWD(2022)34 final}-{SWD(2022)35 final},Brussels,23.2.2022,COM(2022)68 final,2022/0047(COD).
(22)例如,美国专利商标局(USPTO)也可能为声称从数据池获得新创新的专利申请者提供快速途径,从而激励平台公司参与数据池。