论算法黑箱的规制
——基于算法解释视角
2024-01-08刘子荷
宋 伟 刘子荷
(中国科学技术大学 知识产权研究院,安徽 合肥 230041)
智能社会,算法与人们的生活结合得愈发紧密。一方面,算法的技术属性和价值体现引发保护需求;另一方面,算法应用所造成的负面影响反映问责需求。算法是一把双刃剑,对其加以保护的同时也不能忽视其滋生的各种社会问题,如算法歧视、侵害个人数据信息和司法救济危机等。算法规制与算法保护共同构成智能社会治理的关键内容,二者相辅相成,算法规制是保障算法发挥积极、公正作用的题中之义。
在算法知识产权保护模式的激烈学术争论中,众多学者提出算法可专利化的观点。然而,专利制度的保护范式与黑箱算法的秘密性之间存在冲突,并会进一步加深其不透明之处,具体表现为二:一是专利保护对算法源代码的公开易破坏其商业秘密效能;二是专利制度不披露用户的个人数据,算法决策相对人的相关权益缺乏保障。可见,算法规制面临的主要困境为算法所有者的商业秘密利益与社会公众权益的冲突与协调。以此为出发点,本文结合算法应用阶段的利益保护特征,构建算法的事前与事后解释制度,以期丰富其规制路径。
一、算法黑箱的秘密性
在人工智能输入的数据和输出的答案之间,存在公众无法洞悉的“隐层”,可称为“黑箱”。黑箱是控制论中的概念,作为一种隐喻,它指的是那些不为人知的、不能打开、不能从外部直接观察其内部状态的系统,①陶迎春:《技术中的知识问题——技术黑箱》,《科协论坛》2008年第7期。即黑箱在输入端输入数据并在输出端产生结果,但该数据的运作过程则只为部分人掌握。这意味着算法并不是透明的,主要体现在以下两个方面。
二是算法所有者有目的地不披露商业秘密和其他信息。对于算法的法律性质,学者莫衷一是,其中就包括将其视为商业秘密。法律文本一般将商业秘密定义为不为社会公众所知晓、能为权利人带来经济回报、具有实用性并经权利人采取保密措施的技术信息和经营信息。也就是说,商业秘密具有秘密性、实用性、保密性、价值性。④梁志文:《论算法排他权:破除算法偏见的路径选择》,《政治与法律》2020年第8期。算法作为人工智能的核心技术具有严格的秘密性。算法运作以大量数据作为支撑,这些数据中承载着用户的标签信息和行为信息。单纯的用户数据并不构成商业秘密,但经过海量获取和分析总结后,便可以依此做出预测,为用户提供参考信息,借以获得巨额的商业利润。此时,这些数据就具备了商业秘密的属性。事实上,各大平台如新浪、抖音等几乎都会建立自己独立的数据库并禁止他人擅自使用这些数据,新浪就曾以淘友技术公司和淘友科技公司非法抓取、使用新浪微博用户信息为由控告其不正当竞争并最终获赔200余万元。⑤宋心蕊、赵光霞:《非法抓取新浪微博用户信息 脉脉被判赔二百万》,http://media.people.com.cn/n1/2017/0114/c40606-29022810.html, 最后访问时间:2022年3月16日。2016年,美国威斯康星州的Wisconsin vs Loomis 案中,法官也将COMPAS算法视为商业秘密。该案中,被告Loomis否认参与犯罪,但通过同意认罪协议放弃了受审的权利。他签订的认罪协议将实际判刑留给威斯康星州巡回法院法官酌情决定。法官接受了被告的认罪,并下令进行风险评估,评估采用的算法是COMPAS系统,其预测被告具有高审前风险、高再犯风险和高暴力再犯风险。因而,与控方和辩方商定的缓刑一年不同,巡回法院以被告未经车主同意驾驶机动车辆为由判处被告“七年监禁四年缓刑”。被告进而要求披露COMPAS 风险报告中的信息包括访问软件代码和算法权重。两个请求都被法院拒绝,理由是COMPAS算法是专有的且涉及商业秘密。①Washington A L.,“How to Argue with an Algorithm: Lessons from the COMPAS-ProPublica Debate”,Colorado Technology Law Journal,NO.17(2018).
黑箱不透明性的两项内容各有所指、各有侧重,本文主要针对算法黑箱在有监督学习下产生的不透明性进行分析和解决。一方面,就当今算法的发展状态与应用范围来看,在运行算法中有监督学习仍占据主要地位,大部分算法需要人工的预先干预,有监督学习算法的应用范围无疑更为广泛。另一方面,无监督学习的最大特点在于只有机器了解内部的运行逻辑和规则,而人无法了解,算法自身在做出上一个决定后的不特定时间内可能会有所不同,并且当算法自动更新多次时,难以确定决策的具体时间点。在这种情况下讨论无监督学习的不透明性存在严重的技术障碍,不具备可行性。
二、专利制度与算法黑箱的冲突
(一)法可专利化的提出
随着以算法为运作核心的人工智能大量出现并占据重要地位,实务界不断呼吁将基础算法纳入专利法的保护范围之中。据《2021—2022 中国人工智能计算力发展评估报告》统计,我国2020 年发布的GPT-3 深度学习模型参数高达1750 亿,是当时全球最大的AI巨量模型;2021 年发布的“源1.0”参数升至2457 亿,参数增长高达40%,是当前全球最大规模的中文AI 巨量模型。②浪潮服务器公众号:《〈2021—2022 中国人工智能计算力发展评估报告〉AI 城市算力TOP10 再出黑马》,https://mp.weixin.qq.com/s/icf8o8g1M-XK2333J83SiQ,最后访问时间:2022年7月8日。人工智能产业持续发展,针对算法改进及应用的研发投入也逐步增加,使得算法发明获得专利保护的需求也逐步提高。③刘强:《人工智能算法发明可专利性问题研究》,《时代法学》2019年第4期。实现算法的可专利化有利于提高企业对人工智能核心技术的自主掌控能力,从而进一步提高科技领域的创新积极性。1972 年美国最高法院判决Gottschalk vs Benson 一案中,法院裁定计算机程序算法不可申请专利。④Gottschalk v.Benson, 409 U.S.63, 93 S.Ct.253, 34 L.Ed.2d 273,1972 U.S.LEXIS 129,175 U.S.P.Q.(BNA)673.然而,1994 年到2003 年间,美国授予的包含算法的发明数共79390件。⑤Zoracki A C.,“When Is an Algorithm Invented? The Need for a New Paradigm for Evaluating an Algorithm for Intellectual Property Protection ”. Albany Law Journal of Science and Technology,NO.15(2004).自此之后,理论界掀起关于算法是否可专利化的讨论热潮。除此之外,对于算法采取何种知识产权保护模式众说纷纭——版权保护模式也囊括其中。总体来看,学界的观点主要聚焦于算法的专利适格性之上,尽管可专利性判断的具体标准尚未达成一致,但将算法纳入可专利对象的态度却是相同的。
(二)专利公开性与算法黑箱的冲突表现
如前所述,黑箱算法中往往涉及企业的商业秘密和大量用户的隐私数据。而公开性是专利的一大特征,算法可专利化则意味着算法的公开。在这一层面,专利和商业秘密对算法的保护手段是截然不同的,专利制度旨在以技术信息的公开来获取限期垄断地位,而商业秘密则具有相反的功能即通过保密来获得更大的竞争优势。专利制度公开源代码蕴含对算法商业价值的挑战,而保留个人数据则有损私主体的权益。
1.破坏商业秘密效能
在大数据时代,算法源代码是企业据以保持竞争优势的关键所在。一个成功的算法源代码需要投入巨额成本加以开发,重要性不言而喻。从企业强烈抗拒披露源代码的态度可以窥见公开的不利影响。例如,在Williams vs Apple 一案中。Aconfora 的证词详细介绍了苹果公司iCloud 存储算法的工作原理,对此苹果公司向加州法院提出了不予披露该项信息的请求,理由是公开披露这些工作原理会损害苹果公司的利益。具体而言,会泄露决定数据上传优先级和区域位置的算法参数,而这些信息与苹果公司的竞争能力密切相关。①Williams v.Apple, Inc, 2021 U.S.Dist.LEXIS 114028, *1, 2021 WL 2476916.
考虑到专利制度是为获得对某一发明创造的限期垄断而放弃保密的权衡,专利权的丧失甚至专利权的限期性都会导致围绕算法技术的保密性增加。资本增殖与商业利益增加是商业公司的建立初衷。当社会公共利益与公司的竞争优势发生冲突时,为维系公司的存在和运行,公共利益的实现不会是商业公司的首要选择。②李晓辉:《算法商业秘密与算法正义》,《比较法研究》2021年第3期。可以理解的是,相较于以向公众尤其是竞争对手公开源代码换取短期的垄断地位,算法所有者将更希望对该算法保密。已有研究也表明:当技术先发优势很大时,发明者通常会使用保密措施来扩大领先优势;当逆向工程很简单时——例如在制药行业——公司将倾向于依靠专利来保护先发优势。③Levine D S, Sichelman T,“Why do Startups Use Trade Secrets”,Notre Dame Law Review,NO.94(2018).而算法作为一种专业信息,很难实施逆向工程,公开将严重降低算法所有者的竞争能力。
2.个人私权利受损
协商民主经历统一战线的孕育和生长后,发展为一种独立的社会主义协商民主形式,成为我国社会主义民主政治的特有形式和独特优势。它以自身丰富的内涵和制度优势促进统一战线的发展。
我国对专利说明书的具体要求为:发明或实用新型的权利说明书做出的说明应当清楚、完整,以所属技术领域的技术人员能够实现为准。尽管我国对专利充分公开的判断标准限定为“能够实现”,但“清楚、完整”的要求是否能与“能够实现”这一条件等同成为独立的要求向来备受争议,我国“清楚、完整”的要求与《美国专利法》中的“书面描述”要求类似,有学者对此持肯定意见,认可“书面描述”和“能够制造和使用”是两个独立的要求。在此背景下,美国联邦巡回上诉法院以“全席审理”的方式审理了Ariad vs Lilly案,探讨《美国专利法》中是否存在单独的书面描述要求。④吕炳斌:《专利说明书充分公开的判断标准之争》,《中国发明与专利》2010年第10期。但无论持哪方观点,不可否认的是专利说明书中仅对客体结构进行公开,而并不涉及到其中所收集到的数据。
在信息技术领域,谷歌既利用其专利搜索技术生成的数据为其提供竞争优势,也利用用户的大量信息,如以前的搜索查询、位置、社交网络数据和其他个人信息,而这些信息可能会在其专利到期之后仍作为商业秘密保留,以改善其当前的搜索查询及针对这些用户的定向广告。⑤Simon B M:“Sichelman T.Data-generating Patents”,Northwestern University Law Review & NULR Online,NO.111(2016).当今,个人信息早已明码标价,数据成为“新型货币”。谷歌搜索引擎专利在有效期内以及期限到期时以商业秘密的方式保留大量用户数据,结合用户的青睐方向、个人喜好和消费水平向用户推送个性化产品,这些商品质量和种类相同却实行不同的定价。我国2022年3月1日施行的《互联网信息服务算法推荐管理规定》(下文简称《规定》)对该现象做出了明确规制。《规定》第十七条说明:算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。至3月15日,抖音、今日头条、微信、淘宝、百度、大众点评、微博、小红书等App均已上线算法关闭键,允许用户在后台一键关闭“个性化推荐”。《规定》第二条中所说的算法推荐技术是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。推荐算法的核心在于向用户提供信息,但决策权仍掌握在用户手中,例如,视频平台根据用户的收藏夹推荐其他类似高分电影,导航软件综合车辆数量、路况等因素向用户推荐最优路线,在这类算法推荐服务中,算法与用户之间经历互动过程,用户享有选择自由而非算法单方面决定,此时算法作为工具被算法使用者控制。然而,在算法自动化决策领域,用户的主体性不断丧失。数据主体无法真正参与决策的形成过程,算法基于用户提供的数据与衍生信息生成最终结果,而用户无力对结果提出异议或改变。可见,现有的法律规定无法充分解决算法损害个人私权利的问题。
算法已经成为各个领域的重要参与者。根据自动化偏差理论,算法越无处不在,人们就越发依赖它。①Packin N G,“Consumer Finance and AI: The Death of Second Opinions?”,New York University Journal of Legislation and Public Policy,NO.22(2019).算法服务以不同的方式嵌入人们的日常生活,并不止步于推荐服务。借助技术的优势与用户对大数据计算能力的信任,算法的工具属性逐渐减弱。在诸多领域中限制乃至消除用户的决策自主性与能动性,重构了算法平台、用户和个人数据之间的关系。某公民就曾被美国联邦寻亲处使用的算法误认定为“拒付抚养费的父母”,莫名得到一张20.6万美元的罚单。②卢克·多梅尔:《算法时代:新经济的新引擎》,中信出版社,2016。据《中国日报》双语新闻报道,随着疫情形势的严峻,许多公司的办公模式改成了居家远程办公。而一家名为enaible的科创公司开发了一款AI 技术,它可以远程衡量员工的工作速度,提出更高效的工作方法。一家致力于阻止政府和大公司滥用技术的非营利法律公司Foxglove 的联合创始人Cori Crider 认为,enaible 公司的机器学习算法在训练的数据集中也会存在偏差,也就是说算法的原始数据可能就天然地将不公正因素纳入其中,如果这些算法被用来评估员工的表现,当出现不公正的考核时,员工就很难对这样的考核提出申诉。③《“云监工”软件上线!网友:再也不能愉快地“摸鱼”了》,https://cloud.tencent.com/developer/news/644856,最后访问时间:2022年7月8日。在这些领域,算法权力不断扩张并滋生风险,却欠缺相应的规制与救济措施,原因在于:算法对个人数据的使用隐含在黑箱之中不为人所知,所作决策的依据无需告知公众,公众难以质疑算法的错误决策。算法歧视并不仅仅停留在价格领域,在刑事定罪量刑、医学治疗领域也广泛存在。算法歧视引致的权利失衡,不仅是抽象层面平等权的失衡,还包括具象层面隐私权、选择权的失衡。④张莉莉、朱子升:《算法歧视的法律规制:动因、路径和制度完善》,《科技与法律(中英文)》2021年第2期。在涉及到算法歧视的救济时,由于用户数据未公开,算法所有者往往以算法错误等借口搪塞权利人,权利人寻求损失赔偿受阻。
(三)冲突的解决:开展算法解释
算法作为一门技术本身具有中立性,而算法一旦应用所产生的社会效应则必然具备双面性。倡议以知识产权保护算法自无不可,但不能忽视算法黑箱在实际生活中引起的私主体平等权危机、私人资本支配公权力、司法救济危机和侵害个人数据信息等重重风险。相较于算法保护,算法规制的优先级更高。若不加以辨别和筛选便将所有算法纳入保护对象,将危及一众算法决策相对人。
正如前文所述,以专利制度来保护算法并不意味着私主体知晓对本人有重大影响的决策是如何做出、个人数据是否被滥用、当算法发生决策失误和隐性歧视时该如何救济自身权利。在私人领域,在线零售巨头亚马逊就曾开发出一种算法用以做出招聘决策,该算法可以依据求职者的简历对其进行排名,从而实现招聘的自动化。结果该算法挑选的男性求职者数量远超于女性,原因在于开发者以过去十年提交的技术工作简历作为设计算法挑选候选人的标准,而担任该工作的员工大部分都是男性。①Bornstein S,“Antidiscriminatory Algorithms”.Alabama Law Review,NO.70(2018).在公共领域,管理美国密歇根州逃犯重罪犯政策的算法不正当地取消了超过19000 名居民获得食品援助福利的资格,而没有使其得到足够的通知或听取意见的机会。管理科罗拉多州公共福利系统的算法中发现了900多个错误,导致数十万个不正确的医疗补助、食品券和福利资格确定。②Bunnell N.Remedying Public-Sector Algorithmic Harms,“The Case for Local and State Regulation via Independent Agency”,olumbia Journal of Law and Social Problems,NO.54(2020).据股城网2018 年3 月的报道,某位用户经常通过旅行网站预订某酒店的房间,一晚价格通常在380—400元左右;而在淡季的某日,该旅客以自己的账号登录该网站查询到该酒店价格仍为380元,但随后登录其朋友账号查询,酒店价格却显示为300 元。③股城网:《同一酒店两个价格 小心掉入大数据“杀熟”圈套》,https://consumer.gucheng.com/201803/3383747.shtml,最后访问时间:2022年5月29日,这些例子足以说明黑箱算法产生的负面影响之广泛。需要看到的是,算法被所有者赋予了公平正义的价值内涵,希望借以做出客观决策,从而克服人类的主观偏见。但欠缺透明度的算法非但不能实现公正价值的应然到实然转变,反倒会置算法决策相对人于不利地位。在此背景下,算法解释应运而生,其旨在破除算法黑箱的屏障,通过解释算法的自动化决策来规制算法黑箱,进而达到缓和乃至消除算法决策隐私以及歧视风险的目的。④张恩典:《大数据时代的算法解释权:背景、逻辑与构造》,《法学论坛》2019年第4期。
专利保护算法以公开代码为指向,所有者又往往将代码作为商业秘密予以严格保护,拒绝使公众知晓具体内容。代码的完全公开无疑会打击所有者的创造积极性,但一味不披露又会造成一系列负面影响。代码的商业秘密属性确实对算法的解释构成一定的限制,但这种限制是相对的而不是绝对的。平衡二者之间的紧张关系可以借鉴比例原则,比例原则是指通过比较利益的位阶高低寻找平衡点,并最终以最缓和的方式侵害低位阶利益,这种侵害同时也不得超过必要限度。落实到算法解释与商业秘密的冲突之中,则是为了保护算法决策相对人的正当利益,了解算法模型的内部运作与考虑因素从而评估该算法的公平程度,可以适当的方式有限度地突破算法的商业秘密保护。狭义的比例原则也要求以最缓和的手段来实现算法说明的目的。由此,算法说明应当以最缓和的方式进行,减少对商业秘密的破坏和侵害。⑤吕炳斌:《论个人信息处理者的算法说明义务》,《现代法学》2021年第4期。
总而言之,算法解释制度是解决算法歧视、算法不可责性、个人平等权保护以及算法所有者维护竞争优势等问题的共同需求,有助于促进算法自动化决策中公正价值的充分发挥,是算法所有者利益和算法决策相对人利益的平衡点,对于双方都具有重要意义。解决该问题的关键在于构建一个事前解释和事后解释相结合的机制,既要注重面对特定相对人、特定具体决策的解释,也应当着眼于一般意义上的系统功能说明,只有这种贯穿于算法自动化决策全过程的算法解释才能切实保障社会公众的个人权益。
三、算法解释制度的具体构建
(一)算法事后解释制度的构建
本文中算法的事后解释指的是:当算法自动化决策对算法决策相对人产生法律上或者经济上的显著影响时,相对人向算法所有者提出请求,要求其提供具体决策解释,并更新数据或错误,算法所有者以不同方式回应算法直接影响者和间接影响者请求的制度。①张凌寒:《商业自动化决策的算法解释权研究》,《法律科学(西北政法大学学报)》2018年第3期。
1.算法事后解释的形式
主体对解释的关注以对算法透明度和自身权益保障的需求为驱动力,算法决策相对人的救济困境产生算法的问责需求。而从逻辑学的角度考虑:问责需要理由,理由需要解释。为了证明算法生成结果的合理性,算法所有者有必要对该算法的运行过程进行解释。那么,算法决策相对人需要什么形式的解释?举例来说,在Selex vs Google 一案中,唯一公开的算法是以三层流程图的结构展现,它概述了控制模块将根据指定的考虑因素确定是直接还是间接发出呼叫的三步过程。然而,除非结合包含在说明书中的查找表来查看该结构,否则,本领域普通技术人员将无法辨别本发明的参数。②Selex Communs, Inc.v.Google Inc., 2013 U.S.Dist.LEXIS 50061, 2013 WL 1412334.谷歌的这类解释是不可取的,它具有真实性但毫无意义。衡量需要什么形式的解释,很大程度上取决于权利主体的请求内容。为了回应算法决策相对人的纠错和权利救济需求,算法所有者要对算法进行解释,以便一个普遍不具有算法专业知识的群体理解。可见,在算法的事后解释中,相关的技术细节并不是解释的重点,需要披露的是算法是如何利用用户的相关数据得出决策结果,哪些因素被考量在内。
2.必要时的反事实解释
受算法自动化决策影响的主体范围十分普遍,算法决策的具体相对人为该决策的直接影响对象,除此之外还包括大量间接影响对象。以招聘算法为例,若应聘者A对招聘结果提出异议并得到支持,A 是该招聘算法的直接影响对象,其他应聘者则是间接影响对象。面向具体决策相对人的事后解释无法解决用户隐私与他人知情权之间的冲突。前者以打开算法黑箱的方式,向数据主体说明其具体隐私数据在算法中的运用与考量,期间无需向第三人披露数据主体的相关信息,因而并不侵犯个人隐私权。而当解释对象转变为间接影响者后,该类主体同样具有对算法决定提出异议的权利,但受个人信息保护权益限制,前文提及的解释方法已不适用。对此,本文提出反事实解释应对该困境。反事实解释并不试图以个人隐私数据为基础阐述算法决策的工作原理,它旨在通过提供最少的影响决策的关键性信息,使无权知悉相关个人数据的主体在不打开算法黑箱的情况下了解该决策的合理性与公正性,期间无需透露任何敏感信息。其克服了在保护数据主体隐私的情况下对间接影响者做出解释的挑战,以便其理解算法依据何种理由做出决定、对不利决定进行反驳并可以根据现有的决策逻辑做出相应转变从而在未来获得期望结果。
在伍德沃德(Woodward)看来“解释是一个阐明反事实依赖系统模式的事情”,也就是说,解释必须能够用来回答解释项的“如果情况不同”(what if things had been different)问题或反事实问题。①初维峰:《因果解释的反事实理论与自然律》,《科学技术哲学研究》2019年第4期。反事实解释是指通过阐述导致该决定所依赖的事实变量,当该变量发生变化后所导致的结果的说明。如前述的招聘算法中,其他应聘者请求算法所有者对应聘者A 改变的结果进行解释时,得到的答案形式为:如果A 的工作经验低于5 年,那么他将不会获得这份工作。而应聘者A 本人得到的解释将会为:因为你的工作经验为8年,符合岗位要求,因而获得该岗位。反事实解释通过识别影响决策的变量,这种变量是一种概括性概念而非具体数值,联系算法工作的逻辑,描述当算法内部变量发生变化时所产生的不同结果。反事实解释的陈述形式由两部分组成,即决定变量(如工作经验)和结论(如得到工作),其特点为结论与现存事实相反,解释并不涉及决策相对人的数据信息。内部逻辑构成为现有影响决策的关键变量的具体值导致了现存事实即结论,当该变量发生变化满足某种条件且其他变量保持不变时,结论随之发生改变。
受解释对象和范围的限制,反事实解释的适用场景有限。其无法揭示黑箱算法的内部逻辑,作为因果解释的属概念,反事实解释以最直接的途径将主体的数据与算法所有者植入算法的筛选标准相结合,相对模糊地反映了算法中的因果关系。但对于算法系统基本原理的阐述仍有诸多欠缺。从反事实解释的陈述形式来看,一个乃至多个反事实的存在,表面上反映了该算法纳入的多种考虑因素,但从算法所有者的利益立场出发,诸如种族、性别等歧视性因素势必置身于阴影之下。为了根除算法系统的不公平性,应增加其他形式的解释制度克服相关挑战。
(二)算法事前解释制度的构建
算法的事后解释是给予用户个人的私法请求权。②刘云:《论可解释的人工智能之制度构建》,《江汉论坛》2020年第12期。用户可以通过提起个案诉讼来满足自己的具体需求,但是这种事后解释仅适用于算法决策相对人的权益被侵害之后的司法救济,其普适性不高。其在算法纠错效率、公共利益的保护等方面也存在一定的局限性,难以实现对算法权力的有力规制,需要引入算法的外部监管和运营方负有说明义务的模式对算法进行事前解释,从而实现对算法的全面治理。个人权益的保护应始于算法投入应用之前,通过外部监管力量的介入和算法所有者的自律从根源上防范算法可能导致的种种风险。
与黑箱算法相似的是,药品数据的保护同样面临该问题:首先,从企业视角出发,药品的开发也需要长时间的测试与人力金钱投入,具备商业秘密的属性;其次,药品的作用机制如同一个黑盒不可预测。人体是现存最复杂的系统之一,具有的遗传变异、生物途径、蛋白质表达模式、代谢物浓度和运动模式(仅举出几十个变量中的几个)对每个人的影响都不同,而这些变量中只有少数被科学家充分理解。当一种药物不起作用或患者患上罕见疾病时,原因可能是某些遗传变异、代谢物浓度或环境差异——或者这些变量中的几个以医生可能永远无法理解的方式共同作用。③Ford R A, Price W, Nicholson I I.,“Privacy and Accountability in Black-Box Medicine”,MichiganTechnology Law Review,NO.23(2016).这带来的挑战——药品数据的保护与问责之间的矛盾,与本文所探讨的算法事前解释制度所要克服的困难不约而同。对此,以美国的药品数据保护模式为例,1997 年《食品、药品和化妆品条例》第355 节、1984 年《药品价格竞争与专利期延长法》以及1983 年《孤儿药品法》规定了对药品试验数据的排他权利保护。④冯洁菡:《TRIPS 协议下对药品试验数据的保护及限制——以国际法和比较法为视角》,《武大国际法评论》2010年第1期。该保护模式的重点就在于安全性与有效性,其保护目的正与构建算法事前解释制度的要求相契合。
1.算法外部监管:公开源代码的审核与测试
算法的事前解释建立在保护算法的秘密性利益的基础之上,因而外部的监管力量重点在于主管机关对算法所有者向其公开的源代码进行审核和监督,确保算法并没有将种族等不公平因素纳入评估机制之中。如拉姆和艾萨克(Lum & Isaac)在研究预测性警务系统(PredPol)时就发现了其存在严重偏见,该系统标记可能发生犯罪的区域时,输入该算法的数据似就已经存在偏差——虽然毒品犯罪分布在各个城市,但警察逮捕的毒品犯罪却不成比例地位于非白人地区,这就表明该算法不恰当地将来自代表性不足的群体的人标记为有犯罪风险。①Castets-Renard C.Accountability of Algorithms in the GDPR and Beyond,“A European Legal Framework on Automated Decision-Making”,Fordham Intellectual Property, Media & Entertainment Law Journal,NO.30(2019).
算法行业的高创新率与理解的专业性要求算法监管机关必须具备独立的法律地位与专业的知识人才,从而有效应对算法进入市场之前广泛的测试与评估。与药品数据保护制度类似,算法所有者在享有一定期限的市场排他权的同时,需要向特定群体公开源代码,确保其维持一定的竞争优势,保证其获得足够的经济回报,实现激励算法创新的目标。②前引④,第103页。考虑到民主透明度和商业竞争之间的紧张关系,算法的公开只要求最低限度的必要披露——源代码披露对象仅限于行政主管机关,源代码对于非专家人员来说是难以辨认的,因而无需向公众尤其是竞争对手公开源代码,从而适当地保护公司的商业秘密。
出于保护公共利益的考虑,对于算法所有者申报的源代码,主管机关可对其进行静态与动态测试,判断该算法是否合理且公正,确保算法决策过程符合管理决策的社会道德及法律标准。算法的隐性歧视可能难以发现,但可以通过分析算法的源代码,以便事前审查算法的运作标准,并在运行中进行验证。静态测试着重于确定程序的运行逻辑,例如接收的数据的性质、可以产生的输出类型、程序的一般形式以及程序实施中涉及的技术。特别是,静态分析可以揭示出导致程序以特定方式运行的输入类型。③Kroll J A, Huey J, Barocas S, et al,“Accountable Algorithms”,University of Pennsylvania Law Review, NO.165(2017).在这种情况下,主管机关可以初步判断出在输入端输入相同的数据类型可产生一样的结果。尽管源代码是对自身程序的精确说明,但仍然不能保证其在现实世界发生变化时会保持准确。因此需要结合输入数据对信息进行动态分析——它可以针对不同的输入表现出截然不同的输出或行为,而静态分析没有考虑到具体的运行场景。动态运行是指在运行算法程序的同时通过特定输入的数据来评估输出,该法是对静态审查的结果进行二次判断,即算法在运行实践中是否符合审查标准。
算法事前解释的核心内容在于以何种激励方式鼓励算法所有者公开源代码。正如现代交换理论代表人物之一霍曼斯所言:人类行为是个人之间进行报酬和惩罚的交换,交换理论的核心是工具理性。④戴丹:《从功利主义到现代社会交换理论》,《兰州学刊》2005年第2期。与此相对应,美国的药品数据保护同样体现出药品所有者相关数据的保密利益与用药安全等公共利益之间的矛盾,其保护的具体规定为:新药申请人为了获得首次上市批准而向食品药品监督管理局提交的证明药品安全性和有效性的未公开实验数据,食品药品监督管理局在有效保护期内不得再利用该数据批准其他仿制药的上市。①杨莉、李野、岳晨妍:《美国的药品数据保护及启示》,《中国药房》2007年第10期。算法所有者也应享有类同权利——源代码一旦上报主管机关并审核通过,算法所有者可以获得一定保护期内的排他使用权,在该保护期内禁止目标代码相同或高度相似的算法进入人工智能市场,除非其能获得前申请人的使用授权。由此,披露要求给算法所有者带来的成本将显著减少,有利于成功建立算法解释制度并使算法所有者遵守增加的披露负担。
2.算法内部规制:面向使用者的披露与说明
算法的公开程度因披露对象的不同而有所变化,与面向主管机关的披露不同,算法所有者面向公众的事前解释类似于美国证券交易监督委员会的披露内容,这些披露不涉及算法源代码等方面的商业秘密或其他技术细节,但提供算法如何运作、什么因素是有意义的变量、采用何种逻辑等信息。无形的“算法之手”对特定个人或群体进行不公平推断或将他们“标签化”,如今大数据分析技术在分类筛选时很可能会因种种不恰当的理由将主体划分入某种类型,并限制其权利或排除其机会。②解正山:《算法决策规制——以算法“解释权”为中心》,《现代法学》2020年第1期。此类算法的运作过程隐蔽性强,单纯依赖事后的个案救济无法有效对抗算法带来的危害。在这种情况下,相关的披露义务将会促使算法所有者对算法进行可持续的管理。信息披露使公众更容易发现公司的非法或不道德行为并比较它们的表现,因此公司将面临更广泛的监控,避免不满足公众标准而在竞争激烈的人工智能市场失去市场份额。
以算法推荐服务设置的披露说明为例:中国青年报社会调查中心联合问卷网,对1144 名受访者进行的一项调查显示,75.3%的受访者曾被算法推荐服务困扰过。③王品芝、潘泽强:《75.3%受访者曾被算法推荐服务困扰》,《中国青年报》2022年3月24日,第10版。《规定》出台之后,53.8%的受访者表示会选择关闭算法推荐功能。④王品芝、潘泽强:《算法新规施行53.8%受访者表示会选择关闭算法推荐》,《中国青年报》2022 年3 月24 日,第10版。目前,包括抖音在内的多个平台上线的算法关闭键,多无明显提示或说明,算法平台将关闭键掩藏于软件深处。个性化推荐使平台可预测或推断消费者的数据与其提供的产品和服务之间的关系,进而实现商业追求。部分APP如抖音、小红书的商业模式本身就建立在个性化推荐的基础之上,依托于今日头条团队开发的供需匹配程序,为每位短视频观看者推荐他更喜欢的视频是抖音短视频平台的竞争优势之一。⑤王水莲、李志刚、杜莹莹;《共享经济平台价值创造过程模型研究——以滴滴、爱彼迎和抖音为例》,《管理评论》2019年第7期。与此同时,抖音在个性化推荐设置界面强调了用户可以通过长按不感兴趣的选项调整所看内容,且关闭个性化推荐之后可能会降低使用体验。受该模式吸引的用户困于有限的关闭动机和理性,个人数据的保护难以真正实现。实证研究表明,简化的披露或警告标签对消费者了解隐私披露与否、披露信息的意愿或对隐私权的期望几乎没有影响。⑥Busch C.,“Implementing personalized law ”,The University of Chicago Law Review,NO.2(2019).目前的通知范式作为算法规制工具的有效性存疑。
个性化推荐说明算法技术不仅有能力基于个人数据向用户提供个性化推荐的设置通知且产生积极效果,且表明用户倾向于以个性化方式获取信息。奥尔波特说,“社会范畴化主导着我们整个思维生活……人类心智必须在范畴的帮助下才能思考……范畴一旦形成,就会成为平常的预前判断的基础。我们不可能避免这个过程,生活中的秩序端赖这个过程”。⑦高明华:《偏见的生成与消解:评奥尔波特〈偏见的本质〉》,《社会》2015年第1期。所谓的以个人兴趣为核心的“信息茧房”本身,其实是由个人的选择和注意所决定的。当前的个性化推荐设置界面,无论是什么形式,都没有考虑到用户的隐私数据使用倾向。个性化推荐服务收集的数据类型众多(包括浏览记录、收藏、发布信息、关注信息、访问日期和时间等),不同人的隐私保护意愿程度、使用目的(如排序精选、检索过滤等)不同。目前的通知方式并未考虑到用户的隐私保护意愿,对于个性化推荐服务设置的通知应当突破现有的标准范式而改为个性化通知,采取分层通知的办法,可借助弹窗等工具明显告知用户该类算法需要利用何种数据提供何种信息,在保证用户充分知情权的基础上实现选择权。
结语
构建算法的事前与事后解释制度有助于破除算法黑箱的屏障,维护算法社会的公平正义。算法规制在兼顾所有者商业秘密利益的同时,需协调社会公众利益,站在二者的中间立场,用算法保护察算法问责,以算法问责促算法保护。具而言之,即在算法实际应用之前有限度地披露相关信息并审查其公正性;并在算法进入市场之后,赋予特定人救济权利,确保公众知情权的同时妥善处理其与个人隐私数据之间的紧张关系。