算法解释制度的体系化构建

2024-04-01苏宇

东方法学 2024年1期

苏宇

内容摘要：算法解释在算法治理中举足轻重。算法解释承载着权益保障、社会交往和风险治理三重意义，其在技术层面上的障碍正在逐渐被突破，可以通过多种技术机制实现。在算法治理活动中，应根据常规场景、关键场景和争议场景分别限定选择解释的路径选择和技术方案，通过冻结机制、抽样机制和镜像机制固定算法解释，并使之接受外部的验证与审查，确保算法解释真实、有效。算法解释的系列机制应被进一步构建为体系化的算法解释制度，在这一制度框架内，对解释路径与精度、解释时限、解释瑕疵责任等要素的合理配置，可以实现社会效益与规制负担的精细平衡。

关键词：算法解释算法验证算法黑箱算法透明度机器学习算法治理

中图分类号：DF0 文献标识码：A 文章编号：1674-4039-（2024）01-0081-95

算法解释在算法治理研究及法律实践中正逐渐成为最引人注目的主题之一。在理论上，算法解释方面的法律关系早已“成为算法法学研究的核心命题之一”；〔1"〕在实践中，“各国立法者纷纷要求算法决策具备可解释性，并将其置于算法治理议程的首要位置”。〔2"〕以机器学习为代表的人工智能算法带来了“算法黑箱”的新问题，并将算法解释议题一举推至焦点位置。〔3"〕由于规则清晰、逻辑分明，传统的自动化决策在损害归责和权益救济等问题上并未带来太多挑战，而带有“黑箱”性质的算法模型则不然，机器学习和决策的过程隐遁于众多“隐层”背后，使算法决策的归责、监督与救济均面临重重困难。〔4"〕如能清晰地解释算法决策的因素考量范围及权重等实际依据，则人工智能算法决策的关键难题就可以被解决，算法决策的风险就可以在很大程度上在已有的治理体系中得到防范和化解。因此，国内外学界对算法解释、算法解释（请求）权、算法可解释性以及算法透明、算法公开等相关议题的研究，短短几年内即已热浪滔天。

与此同时，算法解释相关制度实践和技术研究也在持续推进。例如，欧盟通用数据保护条例（以下简称GDPR）有关算法解释权的条款早已备受瞩目，美国总统签署的《关于安全、可靠、可信地开发和使用人工智能的行政命令》也提出了人工智能模型透明度及受监管实体对模型的解释能力之要求。在我国，除个人信息保护法第24条外，国内有关部门发布的《互联网信息服务算法推荐管理规定》（以下简称《算法推荐规定》）、《生成式人工智能服务管理暂行办法》（以下简称《暂行办法》）及《关于加强互联网信息服务算法综合治理的指导意见》等规章及规范性文件也已将算法解释的相关制度纳入算法治理的制度实践。在技术层面，算法解释的技术研究可谓如火如荼，多元化的技术路线各擅胜场，其基本数学原理也正得到逐步揭示。

然而，这远不意味着算法解释的研究已“大功告成”，尤其法学人对算法解释的研究尚远不足以回应实践的需求与挑战。算法解释或算法公开透明的原则性规定，远不足以规范和指引头部平台企业主要算法模型的算法解释，因为这些超大型复杂算法模型往往包含数以亿计原始特征及向量特征（或规模类似的数据图），〔5$〕生成式人工智能大模型的规模和特性使算法解释变得更为困难，〔6$〕而企业对于提供算法解释拥有几乎不受限制的自由度；算法模型的不断修改和迭代使算法解释可能迅速失效；用户无法判断算法解释的准确性和有效性；司法机关也往往缺乏审查算法解释的能力。这一切都使得居于算法治理研究中心位置的算法解释在制度实践中面临重重困难。伴随生成式人工智能兴起，算法解释及相关机制的地位进一步面临质疑，〔7$〕算法解释制度是否还具备足够的重要性和现实意义，亟待深入探讨。

上述一系列难题归根到底可以被归结为四个基础性问题：算法解释何以可能？算法解释为何必要？算法解释何从实现？算法解释如何保真？逐一清楚回答这四个问题，算法解释制度的整体轮廓也将随之历历可见。

一、算法解释何以可能：算法解释的技术原理

（一）算法解释的逻辑前提：“黑箱型”算法导致决策规则模糊

“算法解释”是一个内涵特定的专业术语，其中的“解释”是指人类与（机器）决策者之间的一个交互面，同时满足既是决策者的精确代理，又能为人类所理解，〔8$〕这就使算法解释不同于算法披露、算法公开或算法透明等概念。本质上，算法解释致力于提供一种中介机制，致力于以人类思维能理解的方式，揭示何种输入变量或变量的组合会在何种程度上影响到输出的结果。用户、相对人或社会公众渴望理解算法系统为何如此决策，理解不同因素通过何种过程、以何种程度影响到系统的判断和决定，进而了解是否可能存在歧视、偏见等伦理或法律风险。

算法解释以“黑箱型”算法的存在和应用为前提。并非所有算法都是“黑箱型”的算法，也并非所有算法模型都需要解释。传统的自动化判断或决策往往是基于因果关系作出，人类主体只需要知晓决策规则，即可获悉输入与输出之间的因果关系，继而发现系统的缺陷或可能致使自身承受不利后果的因素，进而采取有利于责任追究或权益保障的行动。然而，以深度学习为代表的人工智能算法判断或决策建基于相关性而非因果性，而输入与输出之间的相關性又具有强烈的非线性特征，使决策逻辑模糊化，不能通过简单的规则推知或衡量输入与输出之间的关系，因此当机器学习算法兴起后，“算法黑箱”的问题才真正被提出，而算法解释的需求也才随之出现。〔9$〕不同算法在自身可解释性及算法解释需求方面存在巨大差异。决策树、贝叶斯推理等基于明确因果规则的算法本身具有较强的可解释性，〔10+〕甚至本身就被认定为所谓“自解释模型”，无须再进行算法解释。〔11"〕需要进行解释的对象是随机森林、支持向量机等带有“黑箱”色彩的模型，而尤以深度学习算法模型为最典型的代表。

各种机器学习算法都试图让机器寻求尽可能逼近（approximate）算法决策目标函数的方案，“算法黑箱”的存在主要源于用大量简单函数的复合形态逼近复杂的目标函数之算法设计思路。柯尔莫哥洛夫—阿诺德表示定理（Kolmogorov-Arnold"Representation"Theorem）表明多元连续的复合函数可以被表示为单元连续函数的有限复合，基于这一定理，深度神经网络等“黑箱型算法”就可以采取堆叠单元连续函数的方式逼近目标函数，从而实现“万有逼近”（universal9approximation）之能力。〔12"〕这些单元连续函数的复合形态呈现出典型的“黑箱”特征，完全脱离了人类的常规分析思路和决策逻辑，远离了人类的直观理解。〔13"〕在客观世界中，输入变量与输出结果之间的关系往往是高度非线性化的关系，要逼近此种关系，就需要往单元连续函数的复合过程中插入若干次非线性化计算过程（如神经网络中的非线性激活函数），线性与非线性计算的复杂交替，导致输入与输出之间的关系难以通过单一的显性表达式体现，造成所谓的“不可解释性”。与人类的逻辑思维过程格格不入。算法决策过程中的各种中间变量和参数并不对应生活世界的任何意义载体，不能如同规则树等自解释算法一样，用生活世界的概念或对象构成规则以解释算法决策的逻辑过程。即便是后来居上的Transformer等自解释能力较强、同样拥有“万有逼近”能力的算法，〔14"〕决定其输出结果的Query、Key、Value和WO等向量通常也没有生活世界的直接对应概念及意义，〔159〕需要人为建立认知上的转化和连接。

“万有逼近”能力造就了机器学习的辉煌，也塑成了人工智能的“算法黑箱”。人类需要寻找理解“黑箱型”算法模型的道路。算法解释本质上就是为人类建立一套可以理解算法模型的概念、意义和结构，以符合人类思维的认知图式反过来“再逼近”算法模型在某一时刻所呈现的状态，从而对算法模型的运行建立一定预期的活动。

（二）算法解释的实现机理：全局因果关系的弱化表达

人类习惯通过以“为什么”形式的因果式追问来理解一个决策者的逻辑，然而，“算法黑箱”的技术特点决定了人类难以直接从中获取有效的决策规则和因果知识，导致人类在寻求回答“为什么”的因果性问题上遭遇显著困难。〔169〕不过，即便在不易获得因果解释时，解释者也可以通过提供其他有价值的关系以促进人类主体的理解。〔179〕只要人类能够理解全部或其所关心的局部变量如何影响了算法模型的最终输出，就足以满足人类主体理解算法的需求并指引其采取行动，这就使算法解释成为可能。

不可否认，“当下算法治理领域多以算法解释权作为核心突破点，但当算法架构变得极度复杂和自主时，对算法进行预测和解释都将变得十分困难”；〔189〕然而，算法解释的障碍也在不断被突破。因果解释是人类理解决策机制的习惯方式，虽然非因果解释仍然可以对模型的运作方式提供有效和有用的解释，但许多解释者仍然热衷于优先追求因果解释。〔199〕不过，如果解释者执着于追求精确的、全局性的因果关系，在某些场合将面临巨大的困难。退而求其次，人类理解世界的思维工具并不必然需要借助十分精确的全局因果关系，人类主体也可以通过相对“弱化”的版本去表达和理解算法模型的思路，例如通过相关关系、近似关系、局部因果关系等将算法模型的计算过程转化为人类能理解的某种思维图式，针对性地服务于权益保障、社会交往、风险治理乃至算法优化等目标。这就为算法解释的实施提供了广阔的可能空间。

1.基于可靠归因的解释

精准可靠的归因解释是对因果理解的最优替代。主流的归因解释算法包括三条主要路线：基于梯度的归因、基于逐层反向传播的归因和基于遮挡的归因，这些归因算法已经可以被统一到泰勒交互体系中，并且形成了归因解释可靠性的评价标准。〔20%〕输入变量与输出结果之间的归因评价结果也可以通过“贡献度”或“预测力”衡量，只要能精确计算出每一种输入变量对输出结果的贡献度，也能有效帮助人类理解算法认知和决策的原因，这一思路引出了沙普利值方法等算法解释方案。〔21%〕可靠归因解释的问题是计算量巨大，但通过近似估计、局部计算、优化算法等方式，可以根据解释需求策略性地降低计算负担。〔22%〕

如果人类主体关心的并不是各种输入变量如何一般性地影响最终的输出结果，而是改变既有的特定事实是否会导致改变输出结果，则可以诉诸基于“反事实解释”的算法解释方案，例如寻找穿越决策边界的最短路径或特定路径。〔23%〕人类主体有时特别关注如何最简洁地改变某一现实因素（如性别、年龄、种族等）以扭转决策结果，基于反事实解释提供局部的因果理解可一定程度上满足算法解释需求，在判断隐藏偏见、衡量机器学习算法公平性方面尤其具有优势。〔24%〕

2.基于相关性的解释

相关性是人类在因果性之外认识事物之间关系的又一重要路径。统计学上可以刻画相关关系的工具已经比较成熟，例如统计学上的Pearson函数可以完全地刻画变量之间的整体线性相关关系，而基于Sklar定理的Copula函数可以进一步发现和计算变量之间的非线性相关关系。〔257〕面对机器学习算法，测量一系列输入与输出之间的相关关系比测量因果关系更为容易，此种相关关系主要可以从受控输入与观测输出之间的统计结果得到测量，例如在保持其他变量不变或对其他所有变量进行积分的前提下，通过随机置换或搜索网格等方式多次改变指定特征变量的取值，观察指定特征变量对输出结果的边际影响，这一思路引出了局部依赖图（Partial%Dependence%Plot，PDP）、个体条件期望（Individual7Conditional7Expectation，ICE）等算法解释方案。〔267〕此类解释往往具有模型无关性，并且要求不甚严苛，因此，也可以在量化的算法解释中得到适用。

3.基于近似值的解释

在不要求提供精确解释的条件下，解释者可利用某种可解释的“白箱模型”（如线性模型）从局部“再逼近”目標算法模型，即从关键局部提供一种近似的理解。这一思路可以针对不同类型的算法模型进行比较便利的解释，引出了模型无关的局部解释（LIME）方法等算法解释方案，〔277〕适用范围广且简单易用。LIME方法还可以比较便利地用于解释图像分类算法的关键细节并生成识别标签，提供可视化的图像解释，例如对卷积神经网络智能诊断肺部疾病的图像识别机制进行解释和标识，〔28#〕因此在实践中也经常被应用，欧盟《算法问责及透明度监管框架》对这一解释方法亦予以肯定。不过LIME方法理论上并不严谨，即便提供近似解释也不是十分稳定。

以上不同解释思路共同奠定了算法解释的技术基础。对于中小规模的算法模型，“算法黑箱”已逐渐不再阻碍人类对算法运行逻辑的探知。当然，算法的系统性解释，往往意味着算法决策机制一定程度的公开，会对企业知识产权保护带来一定的挑战。〔29#〕不过，算法解释针对的是算法模型的最终性能和效果，并不要求披露知识产权及反不正当竞争法所保护的动力学机制及学习过程设计。只要算法模型自身对商业秘密采取一定防护措施，能够避免攻击者利用公开输入输出结果通过建立“影子模型”的方式实现模型窃取，前述不同路线的算法解释亦同样无法暴露算法模型中的关键参数及技术细节，从而确保了消费者/公众知情权、监管利益及商业秘密保护的平衡。

质言之，人类主体可以通过相当丰富的手段使算法模型的行为和结果尽可能为人类所理解，而此种解释活动对于算法治理而言有着不可替代的基础性意义。不仅如此，人工智能算法模型还可能实现自我解释，例如Transformer算法中的多头注意力机制可能会一定程度上导致“算法黑箱”的消解：尽管注意力并不直接等同于解释，但注意力可以被转化为比较可信的、富有意义的解释，〔30#〕这就使得大模型以后有可能实现“自解释”。不过，在自解释人工智能彻底实现以前，外部算法解释所能提供的治理价值仍然难以被替代。

二、算法解释为何必要：算法解释的法理意义

算法解释的法理意义可以被概括为权益保障意义、社会交往意义和风险治理意义，每一种意义都有助于使人工智能算法回归人类可理解、可交流、可控制的范围，使算法治理能够彻底穿透技术上的“黑箱”而落到实处。

（一）权益保障意義

基于算法在公共领域和私人领域的不同应用，算法解释与知情权、平等权、申辩权、隐私权、个人信息法益乃至人格尊严等多种法益的保障密切相关，隐含着新型的规范诉求和法律关系。在“黑箱”面前，用户、相对人和公众想要了解的主要是算法判断或决策的具体原因，这关涉到背后的人类主体是否正确地按照法律伦理和价值考虑了相关因素，并将其准确地通过算法设计及模型训练体现出来。在社会生活中，有大量权利或尚未被权利化的利益亟待算法解释的保障。〔31#〕对算法相关信息的理解有助于其规避风险、作出合理选择乃至寻求法律救济。

这一需求的权利化所对应的权利即算法解释权或算法解释请求权。算法解释权既可以是要求对算法模型的系统功能进行一般性解释的权利，也可以是要求对个案决策基础进行个别解释的权利。〔32#〕这一权利的法理意义日益凸显，其在最基础的层面可以被归属于某种“知情权”（the8right# to#know），更可以被进一步强化为“理解权”（the#right#to#understand），〔338〕还可以在更深的层次被构建为跨越公私法的某种正当程序权利，即与算法决策结果存在利害关系的当事人，在自己的命运或利益被算法决定之前，应当有了解算法决策的逻辑和原因、进而向自动化系统或其背后的实际决策者提出陈述和申辩的合理机会。在世界范围内，已有许多学者在类似意义上探讨“技术性正当权利”（technological，due，process），这一概念日益得到公法学界的认可。〔34，〕面对“算法黑箱”，算法解释是保障上述正当程序价值必不可少的基础性工具，它使人有机会认识和理解算法决策的逻辑，尽可能避免遭受“黑箱型技术”的操作或剥削，〔35，〕并在涉及自身的不利决定中采取最有利于保障自身权益的行动。

然而，由于算法解释技术与实践暂未成熟，算法解释的权利化始终面临难题。在世界范围内，GDPR的制定激发了算法解释权的研究热潮。在GDPR的制定过程中，算法可解释性的重要性不断被强调，然而其正式文本却未直接规定算法解释权；与算法解释权最为相关的是第22条及序言第71条，但相关规定是否以此种形式真正确立了算法解释权，尚面临一定争议。〔36，〕我国个人信息保护法第24条第3款规定：“通过自动化决策方式作出对个人权益有重大影响的决定，个人有权要求个人信息处理者予以说明，并有权拒绝个人信息处理者仅通过自动化决策的方式作出决定。”有观点认为这一规定确立了算法解释权，〔37，〕但此处的“说明”是否必然包含算法解释，尚无确切结论。

在其他相关国内外立法中，美国信贷机会均等法（ECOA）与公平信用报告法（FCRA）中规定的不利行动告知条款，以及2017年《关于算法透明性和可问责性的声明》中提及的算法解释原则，似乎从立法上肯定了算法解释权，但三项法律文件均未真正确立算法解释权，至多仅仅是“鼓励使用算法决策系统的机构主动对算法过程和特定决策提供解释”，而这一鼓励性要求在该《声明》中的七项原则中是唯一一项并非“应当”实现的原则。〔38，〕美国算法问责法（草案）中规定了有限的算法解释权，但这一草案迟迟未能成为正式立法。我国《算法推荐规定》的征求意见稿试图将优化算法可解释性和透明度作为一项义务加以规定，但正式生效的版本则将其改为一项鼓励性的要求。

上述立法实例表明，算法解释尽管对于算法社会中的权益保障有着不可替代的重要价值，但其作用仍未能完全在法治实践中得到发挥。目前，国内外多种规制思路及相应法律规范均着眼于通过算法解释要求研发者履行算法透明义务，〔39，〕如果能够从制度层面为不同应用场景设定合理的算法解释方案，能够保证算法解释的可靠、可行、可得，算法解释的权益保障意义将更加彰显。

（二）社会交往意义

算法解释在加深技术信任、促进社会和谐方面也有丰富的社会交往意义。涉及个人切身利益的算法决策系统可以被视为某种“技术驱动的规则制定行为”，〔40，〕而人难以遵从其不能理解的规则。〔41，〕人对算法决策的不知情、不理解、不接受，容易引发社会纠纷和矛盾，甚至在某些事件的推动下可能引发与算法决策的群体对抗。对人工智能系统为什么以某种方式工作的解释有助于消除对人工智能和相关算法应用的误解，进而建立起社会各界对人工智能产业发展的准确认知和良好信心。〔42，〕在更深层意义上，所谓“算法黑箱”使算法决策的思维基础抽离于语义世界和交往行为体系之外，割裂了社会交往中连接人与人的主体际性，可能引发深刻的矛盾。我国算法治理实践已经意识到了这一点，如《算法推荐规定》第12条鼓励算法推荐服务提供者“优化检索、排序、选择、推送、展示等规则的透明度和可解释性”，以达到“避免对用户产生不良影响，预防和减少争议纠纷”的目标。算法解释是增强算法可解释性和算法透明度要求的重要基础，即便算法解释结果不能直接地被所有受众理解，只要能使接受过良好教育的非专业受众理解，在算法应用相关公共利益和个体权益足够重要时，从专业群体到普罗大众的多级社会传播机制也有助于扩展算法解释相关知识和结论的理解范围，〔43%〕进而提升社会对相关算法的认知、理解和共识。

算法解释不仅能提升人对算法及其合理应用的接受度，更有助于弥合“数字鸿沟”。就社会内部不同群体之间的“数字鸿沟”而言，这一理论最初包含“接入沟”与“使用沟”的区分，其后，学者又将1970年的“知识沟”学说也引入“数字鸿沟”理论之中。“知识沟”的形成取决于交往技能、知识基础及社会关系等要素，〔44%〕信息供给上的差异、信息使用上的差别以及不同的信息接收策略都可能导致“知识沟”的出现或加深。〔45%〕“知识沟”意味着获取信息的能力和结果上的不平等，最终会导致在社会中产生一种信息危机，形成信息落差、知识分割、贫富分化等深层后果。〔46+〕算法解释具备弥合“数字鸿沟”的力量，因为不同路径和精度的算法解释有助于使不具备算法相关知识的公众对算法设计的逻辑及决定算法判断结果的因素建立比较直观的认识，进而一定程度上弥合信息差与“知识沟”。

（三）风险治理意义

算法解释之所以成为算法治理研究者日益关注的中心议题之一，离不开算法解释的风险治理意义。在最根本的层面上，为人工智能提供解释有两个层面的正当性理据：内在主义层面关注受影响的人的权利，因为算法解释尊重了一个人对自由意志和自我控制的需求；工具主义层面则关注算法的可解释性（亦包括算法解释本身）作为改进人工智能并纠正其错误的工具。〔47%〕由此，算法解释可以成为一种贯通主观与客观需求的风险治理机制。早在2019年，欧盟《算法问责及透明度监管框架》就反复强调算法解释的重要性，并注意到了算法解释的风险治理意义。2023年美国国家标准与技术研究院发布的《人工智能风险管理框架》，更不仅专门设置可解释性要求，还将一个算法模型是否得到有效解释作为风险测量依据之一。〔48%〕

整体上，算法解释可以在三个层面上防御、消减和规制算法风险：首先，算法解释有助于凸显算法决策的逻辑和影响因素，为用户、相对人和监管者识别、规避或控制算法风险提供必要信息，甚至大幅增加风险预防时间和能力、大幅缩短规制距离及降低监管成本；其次，算法解释有助于向外界传递算法模型中包含的关键有用信息，不仅有利于外部专业人士及时判断和发现潜藏风险，更有利于算法应用运营者和专业第三方发现真实的算法决策逻辑及效果，促使其及时推动算法模型的纠偏与完善；最后，算法解释有助于加强算法问责，通过量化和反事实的解释，算法决策的责任存否及归属问题可以得到比较清晰的认识，进而通过精准到位的问责倒逼相关方强化算法风险的防御和应对机制。对于应用算法的政府活动而言，算法解释还有助于遏制滥用公权力之风险，使借助人工智能算法的政府决策与行政行为接受更充分的监督。在美国的一些案件中，算法解释的缺失被视为违反正当程序的要求，行政机关因此而需要承担法律责任；行政机关盲目依赖算法系统的判断造成医疗补助接受者的家庭护理时间被无端大幅削减等危害后果，也因此而为司法裁判所纠正。〔49#〕

算法解释的风险治理意义，关键在于算法解释一定程度上消减了“算法黑箱”所造成的信息差，为多方主体提供必要的基础性信息，从而消减不确定性。只要掌握了一定程度的信息，基于信息论的研究，不确定性可以通过多种途径被度量和约简，从而使治理主体能够在不确定性条件下获得最优的规制策略或治理方案。〔50#〕

算法解释的三重意义使其在算法治理中占据不可替代的基础性地位。然而，法律人关心的是算法解释如何能够被建构为一种预期明确、行之有效的制度，使之嵌入一定法律关系框架中，确保其权益保障、社会交往及风险治理意义得到稳定、充分实现。制度是人类设计出來的、用以形塑人们相互交往的一系列约束，界定并限制了人们的选择集合，能减少社会生活的不确定性。〔51#〕

三、算法解释何从实现：算法解释的主要实现路径与场景适配

迄今为止，人类对算法解释路径的探索已经发现了多种能够一定程度上揭示算法决策机理的方式。尽管还没有一种方式能够精确衡量人类在这方面的理解度，〔52#〕也难以为算法解释建立统一的评价与审查机制，但却也使算法解释可以灵活、开放地尝试更丰富的思路和方法。整体上，算法解释研究业已探索出花样繁多的技术路线和实施方案，有助于算法解释的场景化、制度化实现。

（一）算法解释的主要实现路径

算法解释的基本路径可以在最宽泛的含义上划分为两种：一是基于算法模型本身的逻辑，提供不能通过数值计量精确验证的图文说明；二是提供对“输入———输出”之间相关关系或因果关系的量化描述。我们不妨将有具体技术路线、可以量化准确性及精确度的解释称为“硬解释”，将仅提供难以精细量化及评估的图文说明称为“软解释”。两类解释的内容与方法显然不同，适用场景亦显然有别。

1.硬解释

“硬解释”要求能对输入与输出之间的关系提供量化的分析结果，此种结果可以为风险治理与权益保障提供比较精确的证据或决策参考依据。由于某一输入变量对输出结果的影响可能是强烈非线性的，特定输入变量对输出结果的影响程度可以允许用某种统计数值（如平均值）、区间（如上下界）或粗颗粒指标（如影响力等级）表示。

在“硬解释”的范围内，尽管发展历程不长，算法解释的技术路线已经相当丰富。例如，基于可阐释解释器的研究，算法解释的主要方案包括决策树（Decision# Tree，DT）、决策规则集（Decion#Rules，DR）、特征重要性（Features8 Importance，FI）、显著性掩码（Saliency#Mask，SM）、敏感性分析（Sensitivity8Analysis，SA）、局部依赖图、原型选择（Prototype8 Selection，PS）及激活最大化（Activation8Maximization，AM）等几种。〔538〕不同解释方案的基本路径归根到底是两种机制的组合：一种是转述，即使用可解释性更强的模型及方式（如规则化模型和可视化方式等）近似地表述原模型的“输入———输出”间关系，如DT、DR、PS均包含通过系列规则或典型实例之类能使人类更容易理解方式的转述；另一种是干扰，即通过对输入变量的人为控制和调整，发现不同输入对输出的影响方式与程度，如SA、AM均包含对输入变量的调整策略。各种解释方案基本上都是两种基本工作机制不同程度结合的结果。值得注意的是，干扰（干预）也是因果发现的基本进路之一，〔54#〕在解释大型算法模型时，即便仅靠对输入变量的干扰很难还原算法决策的整个因果关系，但对于算法中每一个特定的分类结果解释而言，通过干扰的手段却完全可以在输入与分类结果之间建立对其归因情况的认识，〔55#〕还可以进一步由此提供量化的算法透明度报告。

在林林总总的“硬解释”路径中，一些技术路线越来越显示出特殊的重要价值。以沙普利值方法为例，该方法能够清晰显示每一输入变量对任意输出二元分类结果的影响方向及程度（量化贡献度）。沙普利值方法与其他FI、SA路线的算法解释方法的不同之处在于，它是能够无偏地满足线性可加、冗员性、对称性和效能性四个良好性质的贡献量化指标，〔56#〕这使得它能够全面、确定、可靠、有效地揭示全部输入变量对输出结果的量化贡献，尽管其计算成本暂时相对较高，〔57#〕亦已成为理论和实践密切关注的关键解释方法。未来可以满足这些性质或类似标准的“硬解释”方法将有机会在关键场景发挥决定性作用。

2.软解释

“软解释”在具体表述形式和详略程度方面有相当高的自由度，主要是致力于实现算法解释的社会交往意义，兼顾权益保障和风险治理需求。“软解释”可以在不需要精确计算的权益保障场景下，通过更为生动、形象的解说方式，面向不具备专业知识和能力的相对人、用户或公众说明其关心的问题，尤其有利于针对个体的特点进行通俗易懂的个性化解释。对基于关系沟通的立场、以信任原则为基础的算法解释权行使场景而言，〔58#〕“软解释”更是必不可少的。2021年9月，美团通过图文说明的方式，披露了骑手配送时间的计算规则，阐述了预估送达时间背后的算法逻辑，〔591〕就是一个典型的“软解释”实践。对于许多缺乏专业知识和数理思维的用户或相对人，“软解释”有时更加灵活和实用。

不仅如此，“软解释”还可以和“硬解释”相结合，在“硬解释”提供的相关关系或因果关系结构及数值基础上进行比较深入的说明和讲解。“软解释”并不必然排斥对相关数值的表述，不过，为保证算法解释的有效性，法律规范也应对“软解释”提出基础性的要求。

（二）算法解释路径的选择

人工智能算法及其应用的多样性极为丰富，不同场景对算法性能和特点的要求差别巨大，因此算法解释的路径选择也应当基于算法规制的场景化规制原理而具体确定。〔60#〕自静态的权益保障视角观之，在涉及重大公共利益或个体生命权、健康权、人格权、个人敏感信息等重要法益的关键场景，算法解释显然应当尽可能保证精度和时效性；自动态的权益保障视角观之，在发生法律纠纷或争议的场景中，算法解释应能在一般化的阐释和说明之外，针对争议点作出专门回应。因此，算法解释路径的选择至少需要区分三种场景，不妨命名为“常规场景”“关键场景”和“争议场景”，分别适用不同的算法解释路径。

1.常规场景

在并不涉及重大公共利益或个体重大法益，也不存在法律纠纷的常规场景中，算法解释只需要满足基础性的知情需求即可，此时应当允许算法应用运营者自行选择算法解释路径。即便解释者提供了相对充分的算法解释，普通人也极少愿意花时间和精力去了解，因此并无必要设置过高的规制负担。〔61#〕英国信息专员办公室和艾伦·图灵研究所共同编制的《人工智能决策解释》（Explaining#Decisions#Made#with#AI）中列举的算法解释类型中，第一种类型“原理解释”就仅仅要求“以可访问、非技术性的方式说明人工智能作出决策的理由”。〔62#〕盖因在常规场景中，算法解释的社会交往意义更为突出，只要普通人能够了解算法决策的基本思路即可满足要求。在常规场景中，“软解释”甚至可以是主要的算法解释路径，因为算法的解释技术和解释效果之间存在间隙，还需综合考虑用户的能力以实现最佳沟通效果，〔63#〕“软解释”所包含的文字说明乃至图示等在此可以发挥良好作用。近年来，域外大型互联网平台如亚马逊、谷歌、YouTube、Uber等在其隐私政策中包含一定程度的算法披露，基本上可被视为在常规场景中提供“软解释”的实践，〔64#〕类似机制亦可在国内的算法治理中应用。

2.关键场景

在涉及重大公共利益或个体重大权益保障的关键场景中，数值化的信息无论对于权益保障还是风险治理目标的实现都有举足轻重的价值，因此应当要求算法应用运营者尽可能提供“硬解释”。如果算法不太复杂，一些更为简洁的“硬解释”也是可接受的，例如欧盟2019年通过的《提升网络中介服务商业用户公平性与透明度规定》（EU#2019/1150）第5条规定“网络中介服务的提供者应在其条款和条件中规定决定排名的主要参数，以及这些主要参数相对于其他参数的相对重要性的原因”，如果商户的直接或间接付费可能影响排名，则还需要根据这些参数“说明这些可能性以及此类报酬对排名的影响”。此种“硬解释”也是目前国外算法披露实践的重要构成部分，致力于保护平台商戶或用户的合法权益。〔65#〕只要解释结果能够确切地包含法律规范所关注的因果关系或相关关系，解释者在具体解释方法的选择上应有合理的自主决定空间。

3.争议场景

在涉及法律纠纷或争议的场景中，算法解释必须能够针对争议个案的关键因素提供翔实、清晰的解释。此种解释应当满足法律救济的需求，即能够对算法模型输出的某种结果是否由某一因素所导致提供有足够置信度的证明。即便由于技术所限，暂时无法产生足够的证明力，也应当能够使其具备作为证据的条件。对此，算法解释应当指向特定的因果关系，要求算法应用运营者提供针对争议事实的反事实解释则是目前最为直观的选择。反事实解释试图发现对输入变量作何种改变能够获得特定输出结果，并且还不需要打开“算法黑箱”从而没有导致数据泄露的风险。〔66#〕一些国家的律师已经非常熟悉在民事诉讼中运用反事实解释构建因果证明，而澳大利亚的监管机构和法院已由此种路径深入分析人工智能信息工具的算法细节以保护消费者权益。〔67#〕在引人注目的澳大利亚竞争与消费者委员会诉优栈案中，包括PDP、ALE（Accumulated#Local#Effect，累积局部效应）和反事实解释等方法均被用于探讨优栈公司的算法考虑各种因素的优先性和影响力，而包括反事实解释在内的算法解释方法为法院认定优栈公司的算法误导消费者提供了坚实的依据。〔68#〕

要求解释者提供此种反事实解释并不排斥其可同时提供其他类型的算法解释，各种算法解释可以相互印证，为纠纷解决提供充分的事实根据，但反事实解释应属其中的必选项。尤其是在当事人对某一关键变量的作用提出质疑的权益救济场景中，此种反事实解释可以清晰表明此种变量的改变在多大程度上能实质性地影响算法模型的输出结果，〔69#〕从而更加坚实地表明算法模型中是否包含了不适当的考量。

目前，多种算法解释方案在技术和实践层面正不断走向成熟，算法解释逐渐具备作为人工智能算法应用运营者之法律义务的现实基础。然而，算法解释的实际效果和作用可能备受质疑，“因为算法本身不断学习、不断变化，在算法披露的那一刻过后，披露的算法就已经过时”。〔70#〕更多的挑战或已接踵而至：形成算法解释以后，面对不断迭代和调整的算法模型，算法解释会不会迅速失效？如何避免“滥竽充数”的算法解释？面对大型乃至超大型算法模型，如何在有限的时间和技术条件下确定算法解释是否准确？只有解决这些问题，才能确保算法解释真实、有效，在算法治理中发挥基础性的作用。

四、算法解释如何保真：算法解释的固定、验证与审查

为解决前述系列挑战，算法解释至少应有三重配套机制：第一，由于机器学习算法的相关代码往往处于不断进化、迭代和修改等变动过程之中，为避免作出解释后马上修改算法模型而使解释失去意义，应当规定算法解释作出后一定时间内的固定机制，便于验证和固定证据；第二，为判断算法解释是否真实、准确，在某些对于权益保障有精确计量需求的场景下，应当引入算法验证机制；第三，基于监管问责和权益救济的需要，对于算法解释引致相关损害或引发争议的，应当建立公正、专业的审查机制。对于在权益保障和风险治理（尤其是算法问责）中起到关键作用的“硬解释”而言，这些机制尤其不可或缺。

（一）算法解释的固定

代码和参数的持续变动始终是算法解释的难题，算法解释很容易陷入“刻舟求剑”的困境。〔71#〕必须使算法解释能够以某种方式被固定，才能避免刚解释就失效乃至临时修改算法以捏造解释的问题。技术上，可以固定算法解释的主要方案有三：一是规定作出算法解释后一定时间内冻结算法的迭代演化和人为修改；二是规定作出算法解释时须采取一定的技术措施，封存或完整提供算法模型（含主要参数）的镜像；三是提供足够丰富的参数样本且采取保真措施，供监管者和用户对算法模型在一定时间截面内的运行情况进行验证。

1.冻结机制

对于不涉及公民重要权益保障的算法模型（如休闲娱乐内容的算法推荐），如需要进行算法解释，可以要求算法应用运营者在提出解释后一定时间内限制（冻结）模型的改动和参数的变化，使用户、相对人或监管方有时间进行有效的算法验证操作。当然，在技术条件允许的情况下，可以对开放式的大型语言模型等不便完全冻结的算法模型实行更为灵活的“弱冻结机制”，即不是完全禁止算法模型和参数的变化，但算法模型和参数的变动幅度不能达到影响相应精度之算法解释的程度。

对于通过冻结机制固定的算法模型，无论是解释本身不实，还是解释后因擅自修改算法模型导致解释不对应原始的真实模型，都应当同等承担算法解释失实的法律责任。为更严谨地区分这两类解释失实的原因，也可以依托技术性正当程序理论中强调的完整留存“审计轨迹”（audit-trail）之类的规则，〔72#〕要求算法应用运营者留存作出算法解释前直至规定冻结时间结束的完整审计轨迹或系统操作流水记录，确保算法应用运营者如实履行义务。

2.镜像机制

对于需要频繁修改和迭代但体量不大的算法模型，可以要求算法应用运营者提供作出算法解释之时算法模型的镜像以供监管机构审查；在不涉及商业秘密保护或公平竞争风险的情况下，也可以开放给用户或相对人以接受验证。这一镜像应当真实、完整地包含算法模型的所有代码和参数。对于成熟的人工智能企业而言，备份算法模型镜像是必备的基础能力之一，对于实现容器化的云平台而言，训练过程所需的框架、工具库和依赖库也都可以集成到镜像环境中。〔73&〕因此要求企业提供镜像尽管可能增加企业的规制负担，但亦属基本可行。

算法模型镜像的提供有助于深入和精确地验证算法解释的准确性，但算法应用运营者提供镜像后，在算法和数据方面的商业秘密面临显著风险。对此，除强调监管部门的保密义务外，还可以采取技术保护措施，在确保数据安全的环境中自行或委托可信第三方保存算法模型镜像并开放验证接口，保证商业秘密不受侵犯。

3.抽样机制

解释者如不方便提供镜像，也可以按相关标准或规范的要求，由专业机构或监管者在不干扰算法模型运行前提下持续征集、采集和留存一定数量的真实输入输出样本，并在算法解释作出后核验相关时段样本，检验算法解释是否真实有效。如果样本中输入输出之间的关系分布明显偏离算法解释所提供的量化贡献影响，或者改变特定输入变量所观察到的输出结果变化总體情况与反事实解释不符，就可以认为算法解释存在真实性或准确性问题。更加确切的判断结论可以由算法审计机制提供。

抽样机制操作成本低，但技术难度较高。如果样本采集量较大，采样过程中算法模型可能发生修改和迭代，则应当考虑小幅调整算法解释的精度要求，使之能够容纳一定时段内算法模型及参数的微小变化，或者结合前文提及的“弱冻结机制”，保证样本采集的有效性。面对丰富多样的算法模型，如何基于尽可能小的数据采集量，对算法解释的真实性和准确性作出精准判断，需要精深的统计学研究支持，这是一项非常专业且前沿的挑战。

（二）算法解释的验证与审查

算法解释一旦被有效固定，用户、相对人、利害关系人乃至公众就可以在一定条件下对算法解释进行验证，负有监管或救济职责的机关则可以对算法解释进行审查。

1.算法解释的验证

对于实质性影响用户/相对人重要权益或社会公共利益的人工智能算法应用及其解释，理论上应当允许当事人、利益相关方或社会公众验证算法解释的真实性和准确性。然而，有观点担心解释算法可能会导致商业秘密和技术秘密的泄露，〔74&〕为保护商业秘密和竞争法益，可以利用前述“安全环境+开放验证接口”的方式或其他类似方法构建可信验证流程，使相关主体在不接触源代码及参数的情况下有条件进行验证。不过，即便如此，算法解释的验证也面临“模型窃取”的风险：攻击者通过观察输入与输出之间的关系，可以训练影子模型（shadow#model）模拟目标算法模型的性能，进而获取目标算法模型的关键参数或超参数，从而完成对算法模型的窃取，甚至倒推其中的部分原始训练数据。〔75&〕对此，算法验证的实施仍需谨慎，可以规定部分限制措施，例如推行实名制、限制操作次数、保留操作记录的验证机制，防止恶意竞争对手利用算法验证的机会实施模型窃取或其他恶意攻击行为。

2.算法解释的审查

算法解释的审查要求相当强的专业性，审查者必须对人工智能算法知识及统计学原理有比较深入的了解。在行政监管和向上级主管部门提出申请的行政复议案件中，网信、公安、工信等监管机构通常应当有专业工作人员承担算法解释审查相关工作；在涉及算法解释审查的复议和诉讼中，应当探索借助行政复议中的专家咨询制度和专家陪审员机制发挥作用，例如引入可以承担审查职责的专业人士，经过严格筛选后进入特定的专业子库以供抽选，〔76%〕通过陪审和合议等制度发挥作用。

算法解释的审查要点应当因算法解释路径不同而异。对于不包含算法模型相关数值的“软解释”，由于其难以提供细颗粒度的解释结果且缺乏较为精确的衡量尺度，审查者只要判断其是否符合算法解释的基础性要求即可，重点是审查其内容是否与算法设计的实际逻辑相一致，有无虚假或夸大陈述，能否有效消除一般相对人或用户的怀疑、增强相对人或用户的信任。对于包含数值的“软解释”以及各种“硬解释”，则需要有一定的标准和规范指引算法审查的进行。相关审查一般需要算法决策翔实数据的支持。例如在美国，广泛使用的申请人跟踪系统（applicant%tracking%system，%ATS）及类似工具为算法雇佣决策下的合规审计追踪提供了支持，公司借助ATS可以依法获取求职者一系列身份和行为数据并依此作出决策、接受合规审计等外部审查，在算法决策过程中全程记录的相关数据对于向审查者证明不存在歧视情形起到关键作用。〔778〕由于算法解释路径和方法较为丰富，相关的标准和规范也应当包含多元化的规则及指标，采取类似于《人工智能算法金融应用评价规范》（JR/T%0221-2021）第7部分的设计，根据算法模型的不同种类，提供广泛覆盖现有技术路线的可选规则。〔788〕惟有当相关标准或技术性规范确立了各种主要解释方法的审查要点及解释符合度指标，对算法解释的审查才能真正实现有据可依、预期清晰、令人信服。

五、构筑算法解释制度：算法解释机制的体系化整合

算法解释的路径选择、固定、验证与审查等机制的建立，不仅有助于实现算法解释的三重意义，还可以使算法解释成为算法治理的枢纽，构建体系化的算法解释制度，有力支撑算法备案审查、算法影响评估、算法审计、算法问责等其他算法治理制度的运行。

（一）算法解释制度的基本构造

算法解释制度以算法解释的技术原理为基础，通过算法解释权和算法解释义务嵌入法律关系之中，将《算法推荐规定》等既有法律规范中的算法可解释性和透明度要求整合为算法模型设计和运行的标准，使之通过算法解释义务的适当履行而得以实现。算法应用运营者履行算法解释义务应符合法律规定的内容与相关技术标准之要求，作出解释后，部分情况下须通过冻结、抽样或镜像机制使算法解释得到固定，进而接受基于算法解释权或算法解释义务的验证与审查。

首先，此种制度可以充实算法解释权和算法解释义务的内容，使其根据不同场景联结于不同的标准和要求，建立明确的、有层次的规范预期。算法解释权和算法解释义务并不必然需要完全对应，对于部分涉及重大公共利益的算法应用，即便法律规范未赋予用户算法解释权，也可以径行赋予算法应用运营者以算法解释义务。当算法解释权发动时，解释义务的履行原则上不需要向用户详细讲解系统的整体技术架构和运作细节，而是主要提供与用户或相对人利益密切相关的内容，但解释者愿意主动作出更丰富或更深入解释说明的亦应为法所容许乃至鼓励。〔798〕

其次，此種制度可以连结优化算法可解释性和算法透明度之要求，并使这两种要求各展所能。算法可解释性是算法模型的客观属性，即某一算法在技术架构上是否具备了作算法解释的条件；算法透明度则是算法运行结果与主观预期的关系，即对某一算法应用所作的解释说明在多大程度上能够展现算法决策的内在逻辑以及特定因素在算法中的实际影响力，使用户对算法运行的原理与结果建立明确的认识与稳定的预期。〔80#〕显然，算法透明度要求通过算法解释即可实现，因而其可直接与不同精度的算法解释标准相联结，面向用户、相对人或公众发挥作用；算法可解释性要求则可以指引算法应用运营者采取便于履行算法解释义务的算法设计方案，在更靠前的算法治理阶段发挥引导作用。当然，算法透明度要求或算法透明原则的落实还应辅之以算法影响评估等事后规制手段，〔81#〕而精准可靠的算法解释对于算法影响评估也可以起到重要的参考作用。

再次，此种制度有助于明确算法责任。其一，体系化的算法解释制度有助于确定算法解释责任，评判算法应用运营者是否准确、完整、及时地按照相应要求和标准提供算法解释，是否履行了数据和算法治理方面的合规义务。其二，如果错误的算法解释有可能被用户、相对人或公众信赖而导致其遭受损害，此种制度中包含的固定、验证和审查机制还有助于评估算法解释如何以及多大程度上导致了损害、是否具有相应的主观过错，进而确定算法解释者所承担的责任。其三，算法解释还可以在许多场合帮助行政和司法机关判断算法致害的归因情况、责任归属及分配问题。

最后，此种体系化的算法解释制度还有助于支撑算法备案审查、算法影响评估、算法审计等其他算法治理制度的运行。其一，此种制度可以使部分重要算法模型在备案时同步提供算法解释成为可能，强化算法备案审查的深度和实效。其二，合乎一定标准且有证据支持的算法解释结果对于评估算法的实际影响而言非常有利，伴随算法解释的验证报告可以成为算法影响评估结果的主要依据。其三，算法解释和验证可以一定程度上为算法审计提供便利，例如算法验证的入口可以为审计方法中的“抓取审计”“马甲审计”和“协作式审计”等开启通道，〔82#〕尤其是有利于第三方审计的进行。

（二）算法解释制度的价值平衡要素

1.解释路径与精度

算法解释路径与精度是算法解释制度中平衡规制负担和规制收益的最重要因素。算法解释的路径不仅需要包括“软解释”与“硬解释”，还需要充分关注“软”“硬”解释的中间路径。易言之，“软解释”与“硬解释”之间可以存在一个过渡性的谱系。不同场景中，当事人权益保障的精确计量需求越高，算法解释就应当越趋向于“硬解释”，反之，就可以更多地趋向于“软解释”。

这个过渡性的谱系可以体现为“硬解释”的“相对软化”：如果难以精确获得输入变量对输出结果的影响权重或贡献度，或者担心提供此种解释会泄露算法模型中隐含的商业秘密，就应当允许解释者引入权重区间或权重等级的方式，放宽量化贡献表示的精度。例如，对信贷额度评估算法模型的输出结果，假设在各种影响因素中，学历因素的影响为0.231、收入因素的影响为0.889，那么就既可以将学历因素的影响表述为0.2-0.3、将收入因素的影响表述为0.8-0.9，也可以将学历因素标记为“2星”影响因子、将收入的重要程度标记为“4星半”影响因子等。这样既不容易导致算法模型被专业攻击者通过推理破解，也使得企业形成和维护算法解释变得相对简便和稳定。采取“相对软化”解释时，算法解释的精度可以根据权益保障需求动态调整，在用户或相对人的知情权、理解权或正当程序权利越重要的场景中，算法解释的精度就越需要提升。

2.解释时限

由于算法模型处于不断迭代和演化之中，算法解释必须及时提供，时滞越长，解释失真而产生误导风险的可能性越大。伴随算法模型调整的实时解释固然是最优选项，但并非所有业态中的算法模型都有条件实现实时解释，尤其是算法模型的非凸性（不能通过局部最优解获得全局最优解）限制了算法解释的速度。〔837〕在算法解释固定机制的辅助下，可以考虑“变动解释”和“定期解释”二者择一的制度设计，由算法应用运营者自行选择算法解释时效保证方案：既可以选择每次算法模型变动后同步提供算法解释，也可以选择定期解释，解释频率的确定则取决于算法解释时效性与公共利益及个体权益的相关程度。在法律设置算法解释请求权的前提下，解释时限的设置则应首先考虑权益保障需求，要求解释者建立在较短时限内完成算法解释的技术机制。

3.解释瑕疵责任

算法解释如果出现缺漏、偏差或错误，一定程度上设置解释瑕疵责任是必要的。对于公权力主体而言，法律应当设置相应的补救乃至赔偿机制。由于公众存在特殊信赖，解释瑕疵如果足以导致相对人基于误信而采取错误选择、引致合法权益的损失，公权力主体应承担与信赖利益相称的补救或赔偿责任。对于市场主体而言，对产品或服务的解释瑕疵可能涉及对消费者知情权的侵害，在构成警示瑕疵时可以适用产品责任规则；尤其是明知算法系统存在缺陷与风险而未告知的，应承担惩罚性赔偿责任。〔847〕其他情况下，应区分算法解释是否可以被算法应用运营者与用户缔结的合同涵盖、是否侵害用户合法权益，根据具体情况分别适用合同法或侵权法之责任形式。

算法解释制度的运行必然对算法应用运营者造成一定的规制负担，目前的技术发展仍然难以兼顾模型的预测性能和自动化决策过程结果的全面留痕及可解释性，部分情形下追求算法解释的程度越高则模型的性能越差。〔857〕如果解释瑕疵责任过轻，则算法应用运营者可能宁愿承受惩罚而避免充分履行解释义务；责任设置過重，则又将降低算法性能、增加规制成本，甚至产生“寒蝉效应”，妨碍市场主体积极开发和利用创新的、前沿的复杂算法模型。轻重两端之间的平衡点，应当取决于具体算法解释场景中公共利益和个体权益保障的重要性，使解释瑕疵责任显著高于规制负担而又符合比例原则之要求。

本文系2022年度国家社会科学基金一般项目“算法解释制度的体系化构建研究”（项目批准号：22BFX016）的阶段性研究成果。