大数据时代下智能化算法侵权的认定规则

2023-11-06解庭峰

中阿科技论坛(中英文) 2023年9期

解庭峰

（安徽大学法学院,安徽合肥 230039）

1 问题的提出

在大数据时代，智能化算法不仅可以针对用户的兴趣爱好进行个性化推送，还可以用于推测人的财务状况和工作能力等情况，除此之外还被应用于互联网搜索、产品推荐、自动驾驶等多个领域，其在现代的政治、经济领域已经产生了巨大的影响，深刻改变了人们的行为模式和商业的经营模式。但智能化算法造成的负面影响也屡见报端，比如近期广州一女子地铁照片被人工智能（AI）“一键脱衣”[1]；OpenAI推出的人工智能ChatGPT在与用户沟通过程中频频发表种族歧视和性别歧视言论等[2]。如何规避智能化算法的负面效应，对智能化算法的使用进行合理规制，是进一步发展智能化算法需要解决的重要问题。

在现有的算法侵权纠纷案件中，存在两种观点，一种观点认为智能化算法的控制人应当对算法侵权承担相应的民事侵权责任，但对其为何要承担侵权责任，适用的是何种归责原则并没有一致意见。另一种观点则认为智能化算法的控制人无需承担侵权责任，其理论依据为算法黑箱。国内学界主张以算法透明和算法解释进行分析，从技术角度探究智能化算法的决策过程，从而避免算法黑箱问题[3]，但此种方式并不能解决智能化算法决策的归责问题。故本文尝试以现有的法律规范来分析智能化算法侵权行为，从而确定智能化算法侵权情形下的归责原则和认定侵权的构成要件。

2 智能化算法的侵害形式

智能化算法的决策基础是可以数据化的概念，对无法数据化的信息智能化算法不具有处理的能力，现实世界的复杂性在算法的输入阶段就被简化了，由此得出的算法决策模式自然与真实的场景相去甚远。而且智能化算法运作的底层逻辑就是自我编程，一方面存在外部数据输入的片面性，另一方面智能化算法具有学习功能，在运行中会不断修正计算结果，难以实时监测，因此人类并不能理解算法决策的过程和其逻辑，其自我优化的方向也可能与控制者的意图不同。由此就产生了智能化算法造成损害的问题。

智能化算法构成侵害的形式包括：对个人的犯罪风险和财务风险进行大数据算法评估形成算法标签；对不同的个体采取差别化对待形成的算法歧视；利用算法个性化推送和检索过滤等方式影响个人的意思形成与行为抉择的算法操纵；此外还包括算法因设计缺陷和输入数据的片面性或第三人滥用而作出错误决策[4]。上述算法侵权形式首先会对个人的人身或财产权益造成损害，且由于智能化算法的应用具有系统性和规模性，因此又会对整个社会造成巨大的负面影响。

3 智能化算法控制者担责的义务基础

智能化算法的决策范围是有限的，算法的使用环境、如何设计算法模型以及如何利用算法的输出结果都在控制者的预知范围之内。对人脸识别技术的应用即是如此，在管理较为宽松的场景，如小区、校园通过人脸识别管理进出人员，对人脸识别技术的精度并无过高的要求。但在金融领域或执法领域应用人脸识别技术就需要其具备极高的精度和准确度，因为只要人脸识别出错，就可能造成个人的人身或财产损失。因此控制者有提供与使用场景相符的算法的义务。总而言之，即便是在算法越发智能化的大数据时代，算法控制者对最终决策的产生仍然有不可替代的影响力，算法控制者担责的义务基础就在于此。

3.1 智能化算法应具备合法性

首先，智能化算法本身应当具备合法性。任何在设计之初就以侵犯他人合法权益从而谋取利益为目的的算法都应当明令禁止，如网约车平台所使用的“杀熟”算法利用大数据信息对不同消费者区别定价侵犯了消费者的合法权益。其次，中立算法的应用场景应当具备合法性。若本身中立的算法被用于违法目的，则此时该算法也就不具备合法性。如某男子利用深度合成技术①的换脸功能合成自己与女明星亲吻的视频，更有甚者使用深度合成技术制作淫秽视频。该种算法本身不合法或应用场景不合法，说明算法控制者的主观意图必然不具备正当性。

3.2 用于算法训练的数据应具有合理性

智能化算法具有机器学习功能，通过对输入数据进行识别与分析，从而在面对相似类型的数据时可以作出相应的决策。输入数据须满足以下条件：首先，数据必须真实且完整。如果输入的数据存在瑕疵或者不完整，那么必然会导致算法作出的决策出现误差，因此必须保证输入到智能化算法中的数据真实且完整②。其次，用于算法训练的数据要与算法的应用场景相契合。任何算法都具有特定的目的和应用场景，只有符合具体的应用场景的数据才能用于算法的训练。最后，在算法训练过程中需要人为地对数据进行归类和纠正。算法在对数据进行分类和标签化的过程中有出现错误的可能性，就会导致原来真实、完整的数据可能不具有合理性，因此有必要采用人工干预的方式对算法进行引导。

3.3 智能化算法应具备可控性

由于算法黑箱的存在，智能化算法在输入数据、分析数据和作出决策的过程中存在造成损害的可能性，与此具有一定相似性的是饲养的动物，动物和智能化算法一样，均具有一定的不可控性和危险性，针对饲养的动物，相关法律法规规定动物饲养人必须对饲养的动物进行有效控制，防止其对他人造成损害。而智能化算法一旦应用于网络，与之接触的人以百万计，就更需要控制者对其进行有效控制。为了对智能化算法进行有效监督和控制，可以鼓励非营利的第三方机构介入其中，要求算法控制者进行算法认证[5]。现在用于算法认证的工具是算法测试，该工具的适用不需要算法的程序设计和底层代码，而是通过对算法运算反推来进行测试。

4 智能化算法控制者的主观意志解析

智能化算法的编写和运作流程包括建立算法模型、进行数字化编码、输入数据信息并训练算法、输出结果。智能化算法所输出的结果取决于设计者在建构算法时的主观目的、输入的数据样本、学习阶段用户提供的数据信息等多重因素。判断算法控制者是否对算法所造成的损害具备主观意志需要对控制者在各个阶段的主观状态都有所了解，包括设计算法模型时具备明确的目标、在算法运行阶段知晓算法运作进程、能够预见算法在运作过程中产生的逃逸风险。

4.1 由算法的设计目的可知算法控制者的主观意志

智能化算法自身不具有构建算法模型的能力，是算法控制者基于其应用要求来确定目标、指令和用于机器学习的训练数据，且算法控制者可以任意设定算法的分析边界，算法对边界内的因素予以考虑，忽略边界外的因素，从而限定运算结果。比如，“if … then”是最基本的算法规则，“if”是算法控制者预设的算法分析边界，“then”则是算法控制者的决策目标。在网络招聘算法中，如果设定的算法包含“若候选人患有乙肝，则候选人不合格”的运算逻辑，该算法就体现了算法控制者对乙肝人群的歧视。因此即便存在算法黑箱，算法控制者亦明确知晓算法的设计目的，由此便可得知算法控制者的主观意志。

4.2 由算法训练进程可知算法控制者的主观意志

智能化算法的机器学习包括监督学习和非监督学习两种形式，算法控制者会根据算法的目标和类型选择其中一种学习形式。若用于算法训练的数据中已经包含了决策结果的相关特征，则采用监督学习形式较为适宜。监督学习所使用的数据都是已标签化的数据，算法控制者能够把控机器学习过程，也就对该算法具有更强的控制能力。但如果用于算法训练的数据是尚未标签化的数据，算法则要对杂乱的数据进行聚类，就需要采用非监督学习形式。该种学习形式需要智能化算法自行分析数据进行机器学习，在数据存在瑕疵或偏见的情况下，利用该数据训练的算法就必然会存在瑕疵或带有偏向性。此外在算法设计过程中，若以单一、简单的数据作为学习样本，智能化算法会将单一特征当作整体性特征，形成算法偏见。当学习样本是庞大而多变的数据时智能化算法会降低偏见，却可能会将大量正确却无关的数据纳入其中。算法控制者是选择监督学习还是非监督学习，选取单一、简单的学习样本还是庞大、多变的学习样本都体现了算法控制者对算法训练进程的了解和控制，进而可知算法控制者的主观意志。

4.3 由算法逃逸风险可知算法控制者的主观意志

算法逃逸是指算法运行出乎算法控制者的预料，产生了预设目标之外的结果。智能化算法具有机器学习的功能，是一个对外界数据开放的系统。因此智能化算法会受到外部数据的影响，出现算法逃逸的情况。出现算法逃逸一般存在两种原因：一是算法在设计或学习阶段存在不足，在机器学习阶段输入数据较为单一或算法设计层面存在纰漏。如2020年10月，在苏格兰足球冠军联赛中，智能转播系统误将裁判的光头识别为足球，导致摄像头总是追随着这位裁判，该比赛也因此成为一场被高科技毁掉的比赛。二是外界存在数据干扰，并且往往攻击安全性最薄弱的环节，即算法学习系统。对于具有机器学习功能的算法而言，输入数据出现轻微变动，都可能导致算法的学习结果与设想结果大相径庭。作为智能化算法的控制者必然知晓算法存在的逃逸风险可能会侵害用户的合法权益。

综上所述，智能化算法控制者知晓算法的设计目的、算法的训练过程以及算法在具体应用场景中可能出现的负面效应。尽管由于算法黑箱的存在，难以判定智能化算法控制者对算法侵权是否有明确的主观过错，但在智能化算法存在安全风险并可能损害用户权益的情况下，算法控制者未采取相应的纠正措施，这就为对智能化算法控制者进行归责提供了相应的依据。

5 智能化算法控制者的行为与损害结果的因果关系

侵害行为和损害结果之间存在因果关系是认定侵权责任的关键要素，但智能化算法决策的产生过程和推演逻辑因算法黑箱的存在而无从得知。因此智能化算法控制者的行为与损害结果之间因果关系的认定要比普通侵权案件中因果关系的认定复杂得多。传统学说中有多种认定因果关系的理论，如法规目的说、近因理论、相当因果关系说等。判断智能化算法控制者的行为与损害结果之间因果关系选择何种理论应结合算法的特性。鉴于智能化算法的自我学习特性、内部的复杂性和算法黑箱的存在，笔者认为以相当因果关系说作为判断标准较为适宜。相当因果关系说主张构成损害的原因需满足两个条件：一是该原因是损害发生的必要条件，该条件的检验方法一般为“若无，则不”，即若无此行为，就不会发生损害[6]。二是该原因导致损害的发生存在高度的盖然性。即以一般理性人能够预见或应当预见该原因会导致损害发生，和一般人虽不能预见但因行为人的职业而能够预见或应当预见该原因会导致损害发生。

5.1 算法模型缺陷和损害结果之间的直接因果关系

算法控制者所设计的智能化算法本身存有缺陷是造成损害结果的直接原因。从智能化算法的外部观察，智能化算法似乎是中立性的技术工具，但若算法控制者设计的算法本身所追求的目标违反法律法规或通过侵犯他人权益而获益，此时智能化算法作出的决策必然会造成损害结果。如典型的大数据“杀熟”算法、信息茧房式的推荐算法以及违法收集个人隐私信息的算法等，其设计初衷就在于侵犯他人权益，无论其内部决策过程如何，该智能化算法的控制者设计算法的行为与最终的损害结果都存在直接的因果关系。

5.2 数据瑕疵和损害结果之间存在间接因果关系

数据是智能化算法进行决策的基础，智能化算法的决策和数据的特征选择、训练数据的标签、目标变量等因素相关，不准确、不全面的数据都有可能造成数据瑕疵。数据瑕疵分为以下两种情况：一是数据固有瑕疵，智能化算法在繁杂的大数据中提取出的数据要素必然带有社会对事实的普遍认知，如果这些普遍认知本身具有偏见性，那么智能化算法处理后的数据必然也会存在相应的瑕疵。二是数据标注和处理瑕疵。智能化算法在进行机器学习的过程中需要先对收集到的数据进行标签化处理从而建立变量之间的相关性，数据的分类、数据的标签化及对数据标签化的纠偏都有可能导致数据出现瑕疵，从而造成算法作出的决策致人损害。

6 探索智能化算法侵权的认定规则

前文对传统侵权责任归责原则中的构成要件进行的分析表明，尽管智能化算法存在很强的技术性，但仍未超出现有的侵权法律体系范畴。但传统责任理论在面对算法黑箱、机器学习、自动决策等新型技术时，也存在一些适用上的难题，因此有必要针对智能化算法的技术特性选择合适的归责原则，并对其进行一定的限制和修改，为解决智能化算法侵权的归责问题构建适当的责任承担方式。

6.1 一般侵权责任条款适用检视

一般侵权责任原则要求受害方证明构成侵权的全部要件，但算法黑箱的存在使得受害人难以证明智能化算法控制人存在主观过错和其行为与损害结果之间存在因果关系，而且智能化算法控制人了解智能化算法的运作原理并且能够对智能化算法进行技术控制，因此为保障受害人合法权益，有学者主张利用算法解释权③制度要求智能化算法控制人对算法的决策原理进行披露[7]。但笔者认为算法解释权制度无法解决一般侵权责任条款在智能化算法侵权的适用困境。

首先，智能化算法是智能化算法控制者投入大量金钱和时间研发的产物，往往是智能化算法控制者掌握的核心技术秘密。将智能化算法认定为商业秘密是学界和司法实务界普遍持有的观点。而且在保护智能化算法相关的商业秘密和支持算法解释权之间，法官往往会选择保护公司的商业秘密。如在一例大数据“杀熟”案件中，原告主张美团通过大数据“杀熟”技术向其多收取1元的配送费，要求美团承担侵权责任，在该案中法院未要求美团对其算法进行解释，而是判定由原告承担全部的举证责任④。因为如果法院强制算法控制者公开并解释算法决策可能会导致企业商业秘密的泄露，因此在司法实践中要求算法控制者对算法决策进行解释不具有可行性，但也引起了使算法不透明合法化的争议[8]。其次，对算法的事后解释也并不能完全解释算法黑箱。智能化算法作出决策的算法逻辑与智能化算法控制者的决策逻辑并不一定相同，即便通过算法解释权受害人能够知晓算法内部的运行逻辑，智能化算法控制者还是能够以算法黑箱来抗辩。最后，受害方对智能化算法的理解能力有限，无法对解释结果进行有效分析和判断。假设法院通过算法解释权，算法解释权制度要求智能化算法控制者解释智能化算法决策的运作逻辑，只凭一般受害人对智能化算法的理解水平很难找出算法模型缺陷或者数据瑕疵，更遑论证明智能化算法控制者的侵权责任。即便受害人聘请相关专业人士协助举证，也极难证明其中微小的数据瑕疵与损害结果之间存在因果关系，还会极大地加重受害人的诉讼负担。故一般侵权责任条款不能解决智能化算法侵权归责问题。

6.2 适用产品责任规则的可行性分析

6.2.1 形式要件：智能化算法的产品属性

我国《产品质量法》将产品界定为“经过加工、制作，用于销售的产品”，智能化算法是否属于产品，需以立法界定的产品概念来判断。首先，“加工、制作”所指的是通过人的介入来改变物质的行为，智能化算法是人为设计的产物，当然满足“加工、制作”这一要件。其次，“销售”是指以营利为目的将产品交由用户使用的行为，现如今将智能化算法提供给用户有多种方式，其中与实物相结合通过售卖的方式提供给用户，自然属于销售行为。而对于包含算法的软件供用户免费下载并使用是否属于销售则颇具迷惑性。事实上，软件的免费下载和使用并非真正的免费，在大数据时代，平台的访问量、用户数量以及用户在平台上的行为所产生的数据就是核心竞争力，用户使用软件的行为本身就是在向经营者支付费用。最后，产品的范畴是否限于有体物？在民法学说中对物的定义就包含了有体物和无体物两种形式，电磁波也被认定为物。通过电磁波进行运作的智能化算法自然也属于物。并且在大数据时代，产品已经不再局限于硬件设施，软件也具备产品属性，如有的算法已经可以作为虚拟装置申请专利。因此，智能化算法可以被看作智能化算法控制者提供的一项电子产品。

6.2.2 实质要件：智能化算法适用产品责任规则的理论基础

产品致人损害适用的是严格责任归责原则。我国一般称严格责任为无过错责任，无过错责任原则的发展经历了漫长的历史演进，而产品责任从适用一般的过错原则转变为适用无过错责任原则，源于法学界对产品责任的新的认识。首先，民法并非纯粹的交易法，其同时也保护自然人的生命和健康等人格权益，以免产品消费者受到因产品导致的伤害。因此在法律层面产品提供者就负有保证产品不具有危险性的保证义务，即使其已经尽到了一定的注意义务。其次，随着科学技术的发展，产品的内部结构越发复杂，一般人很难证明产品存在瑕疵，若仍适用过错原则，受害人将难以举证。只有采取无过错责任原则，由最了解产品的生产者来举证，才符合公平原则的要求[9]。

综上所述，智能化算法相比于普通产品具有更复杂的内部结构，受害人基本没有举证的能力和条件。并且由智能化算法控制者承担举证责任同样存在相应的义务基础和主观意志基础，因此智能化算法侵权适用产品责任规则并无理论上的阻碍。目前国外已经出现要对智能化算法侵权适用产品责任规则的声音，欧洲议会曾在相关会议中提出要撤销对新兴数字技术适用的举证责任的规则，转而适用产品责任规则。未来我国可以结合智能化算法的监管经验，以《民法典》的产品责任条款为归责基础，再辅之以行政管理规范，针对智能化算法侵权构建多元协同的法律责任机制。

注释：

①合成技术是指利用以深度学习、虚拟现实为代表的生成合成类算法制作文本、图像、音频、视频、虚拟场景等信息的技术。

②《互联网信息服务深度合成管理规定》第14条：深度合成服务提供者和技术支持者应当加强训练数据管理，采取必要措施保障训练数据安全。

③指当算法所输出的自动化结果对算法相对人产生法律上或其他方面的重大影响时，算法相对人有权要求算法背后的行为人对该结果的来源进行解释。

④刘权、北京三快科技有限公司侵权责任纠纷二审民事判决书，湖南省长沙市中级人民法院（2019）湘01民终9501号民事判决书。