企业数据爬取行为的法律适用困境及完善

2023-01-21蔡秉坤

重庆开放大学学报 2022年5期

蔡秉坤，晶晶

（兰州大学法学院，甘肃兰州 730000）

一、问题的提出

互联网的蓬勃发展使得各种应用场景及用户的行为都在互联网留下许多痕迹，形成了海量的数据。如何利用好这些数据并发挥其最大价值，成为各个企业机构必须要面对的问题。爬虫技术一般用于采集企业内部或外部的数据，再经过梳理、清洗和转换后形成标准化的数据，通过对数据的分析和挖掘进而得到商业价值。企业数据本身是一个包含了很多内容的相对混合的概念，因此在目前的企业数据保护的司法实践中遇到的很多问题往往是混合性的。企业数据本身包含了多种类型的数据，有些可能是企业本身自创的，有些是企业在法律法规规定下收集和保存的个人信息，还有一些则是企业在这些数据基础之上通过自己的劳动或投入开发整理出来的延伸数据。实现数据共享开放，是数据要素市场化的前提。数据流通包括多方合意的数据共享和单方非合意的数据爬取［1］80。随着互联网技术日渐成熟，数据爬取已成为企业间数据流通的重要方式。但企业数据的利益关系交织复杂，企业数据的形成涉及多个主体的贡献，数据的所有权分配归属是个难题。对于企业非法数据爬取的行为，应当以《反不正当竞争法》规制。本文拟从数据爬取纠纷的规制困境入手，梳理司法实践中的企业数据纠纷典型案件裁判，理解《反不正当竞争法》规制的实质内涵及利益关切，完善我国对企业数据爬取行为的反不正当竞争法规制。

二、我国近年来企业数据爬取纠纷司法实践的变化

（一）对企业数据的分类保护进行了有益探索

在《反不正当竞争法》的框架下进行分析，要判断原告是否对数据享有竞争法上的合法权益以及这种权益应受保护的程度。司法实践中案件的审理以原告因数据而起的商业利益为逻辑起点，辅之以投入积累资本和劳动的价值增强原告利益应受保护的合理性［2］。数据的类型不同，受保护程度也存在差异。按照获取手段的不同，数据可分为合法数据和非法数据，但如果数据本身是非法收集的，那就无法得到保护。按照加工程度的不同，数据可分为原始数据和衍生数据。原始数据有收集的成本，但没有后续的开发创新成本；衍生数据不仅有收集成本，后续的创新成本更高，受保护程度也应更强。按照公开程度的不同，数据可分为公开、部分公开和非公开数据。非公开数据可能构成商业秘密，部分公开数据是指需要通过付费、提高活跃度等方式才能获取的数据，这部分数据对原告而言商业价值更大，比公开数据的受保护程度更强。

但笔者认为，企业数据分为两大类就可以较好地解决一些问题，即将企业数据分为自生数据与非自生数据。自生数据，就是企业投入了一定的财力和物力制成的数据，不涉及用户的个人信息或数据，也即机器生成的非个人数据。例如，在“谷＊诉元＊”案①参见广东省深圳市中级人民法院（2017）粤03民初822号民事判决书。中，数据仅承载财产利益，通常是由机器形成的非个人数据。在原始数据的基础上通过算法技术而产生的预测数据，这种数据一般是数据控制者在控制，其他企业不能通过第三方获取该数据，因此数据控制者对其数据产品享有独立排他性的财产权益，可以对抗第三方主体不劳而获的不当竞争行为。

而非自生数据可分为两类，第一类是经脱敏化、去识别化形成的可以流通的企业数据，即平台生成的企业数据。例如，在“大众点＊网诉爱＊网”案②参见北京市第一中级人民法院（2011）一中民终字第7512号民事判决书。中法官运用了一般条款进行判决：法院首先确定了经营者的法益需要受到保护，随后对竞争行为的正当性予以评价，认为经营者投入了劳动、金钱、时间、精力等，而被告未经允许擅自使用构成了不正当竞争，该行为违反诚实信用原则和商业道德。这类案件的共性在于，法官借用数据产品或服务的“非实质性替代”规则，且在使用他人网站的数据时应当遵循“最少、必要”的原则。

第二类是与个人信息或数据密切相关的未进行脱敏的数据，且企业对该类数据并没有进行加工，也可以理解为用户直接提交的数据。在2020年8月的微＊诉群＊软件案③参见杭州中院（2020）浙01民终5889号判决书。中，法院认为，应当区分数据资源整体和单一用户数据，微信产品数据资源是原告投入了大量的精力且合法经营而形成的，能够给原告带来商业利益和竞争优势，原告对于整体数据资源应当享有竞争权益［3］。而对于单一用户数据，其实并未脱离用户个人信息本身，背后折射出来的社会价值依旧来自用户。对于该类数据，微信平台仅享有有限的控制权。

（二）判定竞争损害的标准发生变化，平衡数据流动与技术创新

在“大众点＊诉百＊”案④参见上海知识产权法院（2016）沪73民终242号民事判决书。中，大众点＊网对网站的经营投入了大量的人力、物力、财力、时间等，应当属于上述非自生数据分类的第一种。虽然百＊在网页中设置了超链接，但是消费者逐一阅读用户评论信息的概率很低，百＊这一个网站就可以提供大致清晰的点评信息，所以百＊的行为已经造成了对大众点＊业务的实质性替代。就该类案件来看，原被告双方之间在一定的经营范围内存在直接竞争关系。法院对该案引用了一般条款进行判决，认为因经营者投入了劳动、金钱、时间等，被告在利用数据的时候不得实质性替代原告的业务，应采取对原服务影响更小，并能在一定程度上实现积极效果的措施对数据进行利用。除此之外，对于爬取方破坏用户黏性以及商品服务生态的被破坏都是对被爬取方商业模式和潜在利益的损害。

例如，在“新＊微博诉字节＊＊”案①参见北京知识产权法院（2017）京73民初2020号民事判决书。中，法院认为，字节＊＊公司的“复刻搬运”行为降低了新＊微博的美誉度和用户黏性，构成对新＊微博的实质性替代，以不劳而获、搭便车的方式恶意抢夺新＊微博平台用户及流量热度，从而实现今日头＊相关板块短期内的迅速发展。再如，在企业自生数据中，也不能未经原告允许直接爬取原告的数据。在“谷＊诉元＊”案中，被告元＊科技未经谷＊科技许可，利用网络爬虫技术进入“酷米＊”后台非法获取数据的方式，显然违背了谷＊科技的意志，不具有合法性。被告元＊科技大量抓取并无偿使用原告数据从而提高己方“车来＊”信息准确度的行为，实际上是一种“不劳而获”的行为。原告收集、分析、整合具有商业价值的行为，应该受到反不正当竞争法保护。被告未经许可就擅自爬取，并应用于同类应用程序，为自己谋取竞争优势的行为具有主观上的恶意，违反了诚实信用原则，扰乱了竞争秩序，构成不正当竞争行为［4］。

但是法院意识到，企业数据爬取行为并不一定都带来负面影响，也可能带来积极影响［5］。对于非自生数据中的第二种分类（即“用户提交的个人数据”），互联网企业在获取用户数据时，首先要征得用户同意，并且只能在用户授权的范围内使用。但如果爬取数据方与用户之间也有知情同意协议，被爬取方可以阻碍爬取行为吗？在前＊网络信息技术（上海）有限公司诉上海逸＊信息科技有限公司案②参见上海知识产权法院（2019）沪73民终263号民事判决书。中，用户在使用企业提供的服务过程中生成注册信息、操作数据等，而这些数据其实是用户授权给前一企业的，后企业只是照原样爬取过来再进行加工处理，但在这层关系中不会涉及竞争关系。后企业基于自身的经营活动正当收集和整理数据资源，那么经过深度开发和系统整合形成的那些独立于网络用户信息、原始网络数据之外，能够为网络的经营者带来可观的商业利益和市场竞争优势的数据，实际上是可以基于他在经营过程当中作为搜集数据的权利主体来主张权益。

有学者在批评“新＊微博诉脉＊案”③参见北京知识产权法院（2016）京73民终588号民事判决书。中提出，“实质性替代”标准不再适用，保护用户信息不仅是判断经营者数据合法来源的重要依据，还是反不正当竞争法意义上尊重消费者权益的重要内容［6］。可识别的原生数据指企业从用户处收集的，可识别用户身份的信息，包括用户的ID名称、头像、教育信息、网页浏览记录等。由于此类信息属于人格权的个人信息权，理应高于作为财产权的数据权，这正是“用户同意作为个人数据处理正当性基础”的逻辑前提［7］25。所以，可识别的原生数据并不需要企业授权，而是要经过用户的同意。后企业爬取用户提交的数据再进行加工并不会严重抑制相关产业的投资与创新，也不会对前一企业的任何权益造成侵害，用户授权、平台授权、用户再次授权三者并不构成层层深入的递进链条，三方之间的逻辑关系尚待明确［8］84。因此，这类案件主要涉及用户的个人信息与企业数据间的利益冲突，不必然影响市场竞争关系［9］。因此，在原被告双方之间并不存在直接竞争关系的情况下，法院应当将行为对消费者的福利影响、市场竞争以及是否促进创新作为竞争行为的重要因素予以考虑。

三、企业数据爬取纠纷的法律适用困境

（一）《反不正当竞争法》一般条款的适用困境

最高人民法院确立了适用《反不正当竞争法》第2条的三要件：法律对该种竞争行为未作出特别规定；其他经营者的合法权益确因该竞争行为而受到了实际损害；该种竞争行为因确属违反诚实信用原则和公认的商业道德而具有不正当性或可责性。法院认为，经营者投入了劳动、金钱、时间等，被告未经允许擅自使用，这种“不劳而获”“搭便车”等行为构成了不正当竞争，违反诚实信用原则和商业道德［10］。该裁判思路凸显出权利侵害判断范式，即先判断原告是否享有受保护的合法权益，再认定被告的行为是否造成该种利益损害以及被告的主观态度，最终判断是否构成不正当竞争［11］。

此种模式易使人陷入一个误区，即对竞争行为正当性的评判实质等同于捍卫了原告对于劳动成果具有排他权。该裁判思路忽略了数据权属本身就存在较大不确定性，也轻视了数据在流动过程中发挥的潜在效益。一般竞争利益的特定权利化与反不正当竞争法的立法目的相脱离。反不正当竞争法应当是首先维护公平秩序，其次才是对经营者的保护，但是该“权利侵害式”的路径着重保护经营者的利益。在该模式中，经营者利益、消费者利益以及公共利益存在明显的价值位阶次序。

（二）数据爬取行为违法性认定标准不明

1.竞争关系的认定

爬取方与被爬取方之间是否存在业务上的竞争关系并不是唯一影响因素。将数据视为一种生产经营要素，数据爬取行为作为一种新型的互联网竞争行为，与传统的竞争行为存在一定的区别，用户黏性和流量才是评价商品和服务竞争力的核心指标［12］。例如，在上述“谷＊诉元＊”案中，法院对被告主张的双方都不是市场中的经营者，不存在竞争关系的抗辩不予支持。法院认为，对经营者的认定不以某项产品或服务是否具有营利性为标准，而且对基于公共数据的再利用的竞争性利益给予了肯定。数据爬取方利用被爬取方的数据生成另一个功能上不同的数据集，数据爬取方和被爬取方就不会争夺同一个市场，爬取方的数据则会变成被爬取方数据的补充而不是替代。

2.爬取行为正当性判断基准不明

在司法实践中，多以《反不正当竞争法》“一般条款”中的商业道德和诚实信用作为请求权基础。但商业道德尚未形成统一标准，模糊的道德标准和伦理标准应当如何适用于个案是个难题。在司法实践中，对于如何认定不符合商业道德没有一个统一的规定，有法院将行业惯例作为认定商业道德的重要参考［1］82。但是，行业惯例往往会忽视中小企业的相关利益诉求，且对行业惯例进行简单的演绎推理，并没有深入解释它的精神和内涵。只要认定违反了商业道德，继而就直接得出违反诚实信用原则的结论。“一般条款”具有极大的不确定性，弹性太大，不能完全覆盖数据保护的独特要求［13］。

根据一般条款规定，市场竞争秩序、经营者合法权益和消费者合法权益是认定不正当竞争行为的基本要素。三者的利益衡量是判断、论证竞争行为正当性的核心话题。商业道德方法和利益衡量方法是不正当性判断的两种路径。在有的行业领域内存在公认的商业道德或能够找到证明商业道德的证据，比如互联网协会出台的一些自律公约，但在更多的案件中商业道德并不清晰，此时需要用利益衡量的方法来判断。市场竞争是把双刃剑，在激活市场活力的同时也会带来一定的利益损害。数据的反不正当竞争法规制路径是形成市场有序竞争，实现数据多方主体以及社会公共利益最大化的关键［14］。因此，在数据权属不明的企业数据爬取实践中，寻找利益衡量的路径尤为重要。

（三）《反不正当竞争法》与其他相关法律的衔接不足

目前，我国已出台了《电子商务法》《数据安全法》及《个人信息保护法》等与互联网经济发展密切相关的各类基础性法律。虽然这些法律并非市场竞争领域的专门法，但是，可以在一定程度上对互联网新型不正当竞争行为形成有效约束［15］。在数据抓取行为中对企业数据的权属认定是个难题。对企业数据进行赋权保护必须要确定权利主体，但这无疑难度颇大，企业数据的利益关系交织复杂。企业数据的形成涉及多个主体的贡献，数据的所有权分配给谁都不合适。对于企业自生数据的爬取纠纷，可以借助《反不正当竞争法》来解决，但对于非自生数据而言，可以控制该数据的前提在于合法持有［16］。用户的个人数据可以通过清洗脱敏、匿名化处理最终归属于添附者［17］。而针对来源于用户的企业未进行深度加工的公开数据的权益问题，目前争议还是比较大。

这就产生了一个基本问题，即在经营活动中作为个人信息处理者的企业对自己所掌握的整体意义上的个人信息数据享有怎样的权益，这是一个非常重要的争议点，也并未形成统一的共识。例如，“新＊微博诉脉＊”案中，“三重授权原则”有无存在的必要？从具体内容上来看，该原则所要求企业收集用户数据的时候首先需要先获得用户授权，还要获得原告方的授权，还要再次获得用户授权［7］22。那“用户授权”与《个人信息保护法》中的“知情同意”原则有无区别，所以便有必要探明将它作为不正当竞争行为分析因素的合理性和理论根据［18］。一方面，就企业数据利益与人格利益的关系而言，《反不正当竞争法》侧重于维护市场竞争秩序，而《个人信息保护法》则侧重于保护个人信息安全，应该适用哪一部法律？另一方面，公共利益和企业利益发生冲突时，《数据安全法》以国家数据和企业数据为保护对象，这时又该作何抉择？

四、企业数据爬取行为法律适用的完善

（一）确立一般条款适用的谦抑原则

在我国司法实践中，相关裁判凸显权利侵害式的侵权法思维。竞争行为正当性评价的泛道德化是将“搭便车”“不劳而获”“食人而肥”作浅层的理解，简单地将其与违反商业道德画等号。法院忽略了对有关竞争价值深层因素的考量，并未体现出不正当竞争行为认定的特性［19］。道德权衡只能是辅助性的手段，更多的关注点还应落在行为对竞争秩序的客观影响上［20］。《反不正当竞争法》的使命在于规制不正当的竞争行为，而不是直接保障合同条款的实施，如果被告存在违反合同获取数据的行为，法院在论证的时候最终的落脚点还是市场竞争是否因该行为而受到扭曲。

首先，就一般条款的过度适用而言，究其根本原因，不外乎是理论界与司法实践都严重忽略了《反不正当竞争法》内在的谦抑性。竞争自由是市场经济的核心，《反不正当竞争法》作为一部保护竞争自由的法律，其法律性质决定了必须保持谦抑之内涵，从而避免对市场竞争的过度干预［21］。竞争法适用数据爬取行为时，需要考察的基本要件已从行为人之间的关系扩大到市场竞争秩序本身是否受损，是否需要权力介入的维度上。竞争法关注的是交易机会的动态公平，最终还是要回归到市场机制中，看是否对市场机制和竞争机制构成损害。最终所有问题的核心仍在于对市场机制的保障问题，如果其实质性损害了市场机制，就应认为其构成不正当竞争，不一定要达到“实质性替代”的程度。

其次，利益衡量是一种有效的裁判方法，不正当竞争涉及经营者和消费者利益、社会公共利益以及市场竞争秩序等多个方面，适用利益衡量原则可以有效弥补一般条款适用过程中的不足。利益平衡原则是指，“以法律的权威协调各方面的冲突，确保各方利益的平衡，以达到当事人利益合理的最优状态”［22］。利益平衡非常契合数据的场景化保护理念。它要求法院根据数据来源的不同，细化数据纠纷各方之间的利益冲突，使各方的利益在共存和相容的基础上形成利益协调关系。为避免利益衡量方法的恣意性，应当以坚持法定价值、追求经济价值和实现社会价值为基本原则［23］。

（二）竞争行为正当性评价误区之矫正

1.规范“一般条款”中商业道德的认定标准。

如果平台使用的数据是通过搜索引擎自然抓取并且遵守了相关的通用技术规则，同时各方对于通过这些公开技术手段来获得数据本身也没有什么异议，我们可以认为获得数据的过程是正当的。作为一种大规模高效获取数据的手段，很多案件都涉及爬虫技术正当性的讨论。然而，爬虫技术并不当然具有或不具有正当性。个案中，通常以被告是否突破平台方的技术限制为标准，也有部分案件考虑是否违背权利人的意志。几乎每个涉及爬虫方式获取数据的案件都会讨论Robots协议。Robots协议的法律评价最初出现在涉及360和百度搜索引擎的一系列不正当竞争案件中。法院认为，《互联网搜索引擎服务自律公约》以及Robots协议作为信息网络行业的特定行业惯例或行业公约，可以被认定为商业道德。此后，在多个案件中均认定Robots协议是互联网行业公认商业道德的具体体现，也是互联网行业在生产经营活动中遵守诚信原则的具体表现［24］。

2.数据获取手段正当性的评价

首先，从技术维度来看，如果通过合法途径没有办法获取，必须通过非法的技术措施等手段，这种情况下我们可能认为其是不正当的。破坏平台技术措施获取数据的不正当性认定是重要的一方面，例如，突破加密算法的爬虫、通过技术手段绕开平台的验证程序、突破原告平台针对爬虫采取的异常账号封禁和IP访问限制策略等行为均具有不正当性。合法的爬虫技术不应具有侵入性，不应避开或突破被访问网站的技术防护措施。

其次，应当判断数据的访问和获取是否获得授权，爬虫协议与合同约定是最常见的授权形式。上述Robots协议，是通过在网站根目录下放一个robots.txt文本文件，里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面，指定的页面由正则表达式表示。网络爬虫在采集这个网站之前，首先获取这个robots.txt文本文件，然后解析其中的规则，根据规则采集网站的数据。虽然从外在形式上看，robots.txt是一种技术措施，但是其本身并没有强制性。Robots.txt只是约定，爬虫遵守或者不遵守完全在于爬虫作者的意愿，因而，爬虫协议是一种允许或不允许数据访问的单方意思表示，而非为保护数据设置的技术防护措施［25］。但Robots协议是对使用数据网站的限制［26］，在搜索引擎领域已经作为信息网络行业的特定行业惯例或行业公约，因此如果爬取方绕过该协议进行爬取，也可以认定其获取手段不具有正当性。

因此，实际上对于数据流通而言，根据互联网互联互通的精神，所有平台经营者应当是在一定程度上容忍他人合法收集和利用平台中已经公开的数据。同时，数据具有合法性的关键还是在于数据本身具有合法来源，也即是否经过授权和许可，这实际上是一个基本的规则。

（三）构建多法协同的法律适用机制

回归到上述分类，企业数据来源无外乎分两种：用户直接提供的一手数据和经企业自行加工的生成数据。按照这个思路，对于用户公开提供的个人数据，被爬取的数据为用户授权数据平台存储于自身服务器中的，假如爬取方同时获得了用户的授权，就应当认为该爬取行为具有正当性，因为用户公开数据保护的本质是对个人信息的保护。这时《个人信息保护法》对竞争法介入保护短板的补强功能就发挥了作用，当前个人隐私信息既有人格属性，也有财产属性。就数据爬取行为涉及个人用户信息的时候，以“告知—同意”的授权协议作为权利来源基础。“告知—同意”是实现可控性与自主利用的重要手段，用户对自己的数据具有自决权，这是维护人格利益的最基本的要求［27］。通常情况下，数据收集的合法性要件表现为在先权利人的授权许可，此种许可分为“明示许可”与“默示许可”两种类型。“明示许可”就是在得到用户明确的许可下收集用户的个人数据，“默示许可”是指用户对自行公开的数据允许企业利用或不明确反对其使用。企业收集数据的时候一定要遵循“可及性”原则，不能超出必要限度去收集个人数据，且企业数据的一系列权利受到在先权利的限制［8］83。

在两个不具有直接竞争关系的企业中，数据持有者往往是具有市场垄断地位的大企业。爬取方爬取数据后进行加工并不会抢夺同一市场，但实践中数据持有者铸造数据壁垒防止爬取方挖掘和使用，实行数据封闭［28］，这就会导致数据持有者与其他企业之间的互操作性降低，数据要素单向流动，从而引发对数据垄断的担忧［29］。适用《反不正当竞争法》来保护数据控制者的利益，就意味着数据控制者享有独立排他的财产权益，这就会限制竞争，减少社会福利［30］。因此，《反不正当竞争法》应当与《反垄断法》的基本原则结合起来，打破数据流通壁垒［31］。对于真的需要保护的核心数据，数据持有者可以通过商业秘密保护路径来解决。①参见上海市高级人民法院（2011）沪高民三（知）终字第100号民事判决书。符合“秘密性”“价值性”和“保密性”三要件的企业核心数据，用商业秘密条款来保护，这样既不会阻碍数据流通，也不会侵害数据持有方的利益。我国司法实践中也有通过该条款来保护企业数据权益的例子。

对于企业自生数据来说，大多都是企业通过机器自动生成的，而这些原始数据大多来自共享的公共数据，企业可以根据自身需要获取和利用［32］。例如，在“谷＊诉元＊”案中，法院既为各市场经营主体划分了公共数据的范围，也保护了经营者的竞争利益。除此之外，《上海市数据条例》《上海市公共数据开放暂行办法》《深圳经济特区数据条例》等地方性法规、规章都明文规定，依照法律、法规规定开放公共数据，不得收取任何费用。因此，在法律适用竞合的情况下，要在特定应用场景分析竞争行为，就数据爬取方利益、用户方、被爬取方、社会公共利益进行比较，看其涉及的哪一方的法益更值得保护，进行衡量后选择合适的法律规范。

五、结语

近些年，关于企业数据纠纷的裁判路径也逐渐发生变化。一是对企业数据的特殊性有了新的认识，强调企业对企业数据的整体享有竞争上的合法权益，这是一个很重要的创新。二是对于竞争法的适用提到了一般条款适用的谦抑性原则。在一般条款的适用中，法官要秉持比例原则中利益衡量的方法，综合考量各方因素作出判决。数据爬取的平衡和竞争其实就是对公共利益的解读，所以把公共利益纳入考量因素中无可厚非。企业数据应予以类型化与场景化保护，平衡利益关切。除此之外，企业间数据爬取纠纷已经从反不正当竞争法延伸至反垄断层面和个人信息保护层面，这些问题仍有待进一步探讨。