可信任：人工智能伦理未来图景的一种有效描绘

2019-08-27闫宏秀

理论探索 2019年4期

〔摘要〕可信任人工智能的构建发端于人对技术伦理旨趣的审度，可信任的存在逻辑在于人工智能创建了基于任务和基于目标信任得以产生的可能条件，并在与人类的交互之中呈现出某种关联性的信任。可信任人工智能应基于信任边界厘清的前提下，兼顾技术伦理学的通用原则和人工智能自身的技术特性，在有效监督和对技术动态的发展与应用的审慎批判中，确保人工智能向善。反观欧盟的“可信任人工智能的伦理框架”，其所阐述的技术与非技术两个方面的构建路径、判别标准为可信任人工智能实现提供了有效的实践保障，但其对信任邊界问题的搁置或排除则使其有效性遭遇质疑。

〔关键词〕信任度，人工智能，伦理

〔中图分类号〕N1 〔文献标识码〕A〔文章编号〕1004-4175（2019）04-0038-05

人工智能伦理研究的本质是对人与技术关系的再度厘清与辨析。在人工智能的背景下，人与技术的关系是基于某种信任而形成的一种新型深度融合。这种信任是人与人工智能关系存在的前提条件。但这种信任除了传统意义上的人际信任之外，还涉及人对人工智能以及人工智能系统间的信任。关于这种信任的哲学考察，可以借助信任的表征——可信任来进行。即通过可信任来解码人与人工智能的关系，描绘人工智能伦理的未来图景。但这种描绘是否有效呢？对此，本文将从伦理旨趣、存在逻辑、实现途径三个方面，解析可信任人工智能何以可能，以推进人工智能向善。

一、可信任人工智能的伦理旨趣

对人工智能未来发展图景的伦理描绘是基于人工智能技术的发展目标与伦理观念的有机融合。因此，人工智能的伦理问题研究既应包括对现有伦理问题的哲学反思，也应涵盖对技术未来发展的一种框定。这种反思与框定源自人类对技术伦理旨趣的审度。如，斯坦福大学“以人为中心的人工智能”（Human-Centered AI Initiative，简称HAI）研究计划就是旨在通过多学科的携手合作，导引人工智能造福人类，共筑人类美好未来〔1 〕。易言之，该计划的伦理目标通过技术追求人类福祉。欧盟委员会在其所发布的“可信任人工智能的伦理框架”（Ethics Guidelines For Trustworthy AI）〔2 〕中，以追求人性和善、谋求人类福祉和自由的目标为导向，对人工智能信任机制建立的原则与路径进行了详细阐述，进而确保可信任人工智能的实现。因此，该框架的出发点不是对人工智能的发展是否需要伦理进行探讨，而是指向人工智能需要以何种伦理为框架，以及如何实现其伦理目标。

与“可信任人工智能的伦理框架草案”（Draft Ethics Guidelines For Trustworthy AI）相比，该框架关于可信任人工智能组成部分的界定由伦理和技术两部分变为法律、伦理和技术三部分，且每个部分自身均为实现人工智能信任度的必要但非充分条件。即可信任人工智能应当是合乎法律的、合乎伦理的、且技术方面是稳健的。但鉴于法律部分在伦理和技术这两个部分已经有某种程度的体现，且上述两部分的全面实现也将超越现存的法律要求。因此，该框架的目标主要是为促进和确保人工智能的发展能合乎伦理，并为实现技术方面的稳健性提供指南〔2 〕。从中可见，可信任人工智能的核心所在是伦理和技术，而伦理与技术并非是割裂开来的，技术具有反映与实现某种伦理旨趣的功能。如该框架所描述：其之所以可信任，是在于其“能通过产生新的财富、创造价值以及将福利最大化的方式来改善个体和群体的生活状态。其能通过“促进经济机会、社会机会以及政治机会的平等分布，来提升公民健康和福祉，进而构建公平的社会” 〔2 〕。

就可信任而言，吉登斯（Anthony Giddens）在其关于抽象体系中的信任解读中，将可信任（trustworthiness）分为“建立在彼此熟悉的个人之见和基于很长时间了解，从而互相从对方的眼中看出可信度证据的个人之间” 〔3 〕73两类。这两类主要在于人与人之间，而“可信任人工智能的伦理框架”中所言的可信任已经超出上述两类，将可信任延伸到了技术之中。这种延伸一方面体现了基于主客体二元对立的视角，由作为主体的人对作为客体的技术所进行的信任度预判;另一方面则体现了新技术所蕴含的能动性对传统信任产生的条件、语境等的冲击。依据弗洛里迪（Luciano Floridi）和桑德斯（Jeff W. Sanders）关于人工道德行动者的判别标准 ①，面对诸如自动驾驶等对人类行为所产生的助推、导引、甚至规约与牵制等现象，人工智能已经呈现出行动者所应具有的诸多特质，并和人一样参与到道德的构建之中。

反观该框架所言的“可信任人工智能”，其包括人对技术的态度和技术本身的可信任两个维度。其中，技术自身的可信任，即技术的稳健性既是获得人对其信任的技术保障，也是人对其发展目标的预设。易言之，在人类对技术进行信任度评判的同时，技术也在进行信任度的构建。因此，可信任是人类对人工智能发展旨趣的伦理诉求，也是其本身所应遵循的伦理原则。

毫无疑问，可信任人工智能的构建发端于人对技术伦理旨趣的审度，但技术的能动性又将人类的伦理旨趣与技术自身的发展逻辑关联在一起。如果说卡普的器官投影说是将技术与人之间进行了物化层面的关联，那么，伴随新兴技术的涌现，这种关联已经不仅仅是将人的功能进行了物质性的外化，而是走向了技术对人的嵌入式内化，并出现了主体客体化与客体主体化的迹象。如果说对技术价值中立说的质疑揭示出了技术与伦理之间的内在关联性，那么，将技术道德化的尝试则是基于技术能动性而走向技术对伦理的塑型与构建;伦理辅助性设计的出现则意味着人类的伦理观念已经被嵌入到具体的技术实践之中。

当下智能体、深度学习、人机融合等的发展，使得人类社会的泛智能化日趋普遍，人与技术的关联也日趋内化。这种内化体现为技术越来越逼近人的本质。也正是在这种内化的过程中，人作为“技术性与价值性二重本质的共在” 〔4 〕94。在人与技术共在的语境中人自身的本质与技术的本质进行着伦理维度的构连。这种构连表现为人对技术的伦理审视与技术对人类伦理观念的调节两个方面。但无论是这种构连的哪个方面，都涉及人对技术的信任度。然而，无条件的怀疑与无条件的信任一样都不是人与技术共同应有的合理方式。

虽然“对人工智能的伦理反思可以用于不同的目的。首先，能激发对个人和群体的最基本层级需求的反思;其次，有助于激发产生实现某种伦理价值观的新型创新方式” 〔2 〕，但该框架重点在于上述第一个目的，即面对人工智能所蕴含的巨大技术潜能及其对人类社会的深度影响，该框架以对人类需求的厘清为切入点，基于以人为中心的视角，力图规避与预防技术风险，谋求技术为人类所能带来的最大福祉，并确保其为人类服务的伦理旨趣来构建可信任人工智能。

二、可信任人工智能的存在逻辑及其合理性

对可信任人工智能的存在逻辑及其合理性的解析，首先需要对人工智能信任的合理性展开探讨。若对其信任是不合理的，则其可信任性也就无从谈起，可信任人工智能伦理框架的构建也将是无意义的。而对其信任是否合理的追问，则需要先对其何以产生进行考察。因为如果没有产生信任人工智能的语境，对其信任的探讨也就不存在。

（一）人工智能信任的语境。从产生的维度来看，传统意义上的信任是委托者（人）与受托者（人）之间的某种关联，其“产生于心理系统和社会体系影响的交互之中” 〔5 〕7，是“减少复杂性的一种有效方式” 〔5 〕9。事实上，信任的产生可以是目标导向性的，即A和B有一个共同的目标C，但A和B之间本来无信任可言，但鉴于C目标，A和B产生了某种信任，但这种信任并非是A认为B是值得信任的，或者B认为A是值得信任的;信任的产生也可以是任务导向性的，如A需要完成任务C，而B有完成任务C的能力，进而产生了A对B的某种信任，这种信任可以是A对B具有完成某种能力的信任，也可以是A对B的整体性信任。但无论是目标导向性还是任务导向性，信任所表达的是“一种态度，相信某人的行为或周围的秩序复合自己的愿望。它可以表现为三种期待：对自然与社会的秩序性、对合作伙伴承担的义务、对某角色的技术能力” 〔6 〕14。

在智能革命的背景下，人类对人工智能有所期待，且这些期待伴随人工智能的发展已经在人类社会中逐步被现实化，并呈现出代替人类某些能力的趋势。如基于人工智能系统的导航、自动识别、安防等的研发与应用。与此同时，人工智能以人类合作伙伴的形式参与到人类事物中，与人类共同承担某种义务，完成某个任务。即人类对其承担的义务有所期待。如基于人工智能系统的儿童看护、情感交流等的研发与应用等。因此，人工智能与人的深度融合提供了产生信任的语境，但上述这些现象是否可以被称作是信任呢？

（二）人工智能信任的出场方式及其存在的判别依据。一般而言，信任的出现需要满足如下三个条件：“（1）行动者（agent）之间的直接交互;（2）在交互环境中，有共同的规范和伦理价值观;（3）参与交互的各个部分是可以识别的” 〔7 〕。但在新技术发展的背景下，非直接交互的信任出场，如电子信任。因此，应当重新审视信任存在的判别依据。塔迪欧（Mariarosaria Taddeo）在其关于电子信任的论述中，指出上述三个条件并不能成为数字环境中存在电子信任的障碍。因为在数字环境中，行动者之间的交互虽然并非都是直接的物理接触，但却真实存在，并可识别;在数字环境中，共同的规范和伦理价值观由来自不同区域的不同文化形成〔7 〕。同样地，依据上述三个条件以及对电子信任的判别，在人工智能的环境中，人与人工智能之间的交互与数据环境中一样，真实存在却并非完全直接的物理式，且可识别;就共同的规范和伦理价值观而言，阿西洛马人工智能原则（ The Asilomar AI Principle）、负责任人工智能的蒙特利尔宣言（The Montreal Declaration for Responsible AI）、人工智能合作组织原则（The Tenets of the Partnership on AI）等都是对此的响应。

因此，通过对信任出现条件的解析可得出：人工智能已经呈现了基于任务导向和目标导向的信任意蕴，虽然这与传统意义上的信任以及电子信任的出现条件有所不同。但无论如何，当人工智能以（准）智能体的形式展现出其完成任务、实现目标的能力时，毫无疑问，一种策略性信任也随之而至。这种源自人类对人工智能的期望，以及人类与人工智能的交互之中所产生的某种信任，恰恰也就是吉登斯所言的与知识体系、专家系统、抽象系统打交道的过程中所产生的信任。这种信任被解读为“一个人或一个系统之可依赖性所持有的信心，在一系列给定的后果或事件中，这种信心表达了对诚实和他人的爱的信念，或者对抽象原则（技术性知识）之正确性的信念” 〔3 〕30。然而，这样的信任是否是合理的呢？

（三）反思人工智能可信任存在的合理性。當人工智能创建了信任得以产生的可能条件，并在与人类的交互中呈现出某种关联性的信任时，如果人类面对“在抽象体系的交汇口，连接非专业人士与信任关系的当面承诺，通常表现出明白无误的可信任性与诚实性，并伴随着一种‘习以为常或镇定自如的态度” 〔3 〕74时，就意味着默认了技术信任的合理性。但事实并非一直如此，哲学一直在对此展开反思。

伴随基于技术启蒙与技术理性的现代性，“外界对科学和技术知识的态度又具有某种心理。这种矛盾心理居于所有信任关系——无论是抽象体系还是对个人的信任关系——的核心” 〔3 〕78。这种矛盾心理源自人类对技术的依赖以及对这种依赖的反思。如，在米切姆（Carl Mictham）关于古代怀疑论（怀疑技术）、启蒙时代的乐观主义（促进技术发展）和浪漫主义的焦虑（对技术的矛盾心理）〔8 〕406这三种人与技术共在关系的分析中，对技术活动的不信任或不安的伦理方面〔8 〕378一直贯穿其中;在海德格尔（Martin Heidegger）对技术与人类存在天命的乡愁式解析中，人与世界的存在关系、人的存在语境均由技术来决定，所有的一切都变成了持存物，甚至人类连自身生命的本质也被交付给技术。在这种交付中，由技术对人类席卷而产生的对技术的无奈式被迫信任、以及对这种信任的质疑与破除均被裹挟其中;在伊德（Don Ihde）关于人、技术与世界四种关系的解读中，如通过眼镜、温度计等对外部世界进行感知时，人与技术的融合或者世界与技术的融合是具身、诠释、它异、背景等关系的前提条件。而这种融合需要基于人类对技术或技术产品予以某种信任才能形成，虽然信任度有所不同。

然而，从现实主义的视角来看，“自然赋予人类以无数的欲望和需要，而对于缓和这些需要，却给了他以薄弱的手段” 〔9 〕521。因此，人必须依赖社会。社会以协作、分工、互助这三种方式对人的缺陷进行了补救。在这种补救中，技术作为人类需要的一种表征进入到对这些需要的缓和之中，并成为人类社会的一种必备品。因此，无论人类对技术的信任是否合理，技术已经成为人类在世的方式，并参与到了人类的事务之中。与此同时，对技术的某种信任也悄然而至。但这并不意味着技术必然是可信任的，也并不意味着对其的信任就是合理的，对其的哲学思考是徒然的。恰恰相反，对实然问题的思考是哲学的应有之义，且对这种既有现实的思考是通向应然性的一条有效进路。但与以往技术不同的是，人工智能对人类事物的参与是以可植入的方式进入到与人深度融合之中，其所呈现出的实然问题，与其说是亟需展开人类对技术信任问题反思，倒不如说是亟需展开人类对自身信任问题的反思。因为当我们说“可信任人工智能”包括人类对人工智能的信任和人类对自身的信任两个方面时，事实上，这两个方面归根到底是人类对自身所制造产物是否可以有效应对的解答，即关于可信任人工智能实现途径的探讨。

三、可信任人工智能实现途径的有效性与局限性

在欧盟的“可信任人工智能的伦理框架”中，信任视为人工智能发展的前提条件，但这种信任并不是机器的一种特性。事实上，信任不仅仅在于人工智能系统是合乎法律的、合乎伦理的和稳健的，还在于信任可被归因到与人工智能全生命周期中相关的每个人和每个过程〔2 〕。因此，对人工智能信任的考察应当走出外在主义的立场与批判主义的情结，走向伦理学的后思式批判功能与前思式导引功能有效整合，从内在主义与外在主义的融合之中，展开对可信任人工智能实现途径探讨。

反观欧盟“可信任人工智能的伦理框架”的探讨，其预设了两个条件。一是，将可信任定位为人工智能未来发展的一种图景。关于人工智能的不信任应当或被悬置或被排除。显然，该框架在力图将这种不信任排除;二是，可信任应当是人工智能的一种应有属性，信任度的提升既是人工智能未来发展一个重要的技术考量，也是其未来发展的一个伦理考量。在此背景下，该框架展开关于如何确保人工智能是可信任的探讨。事实上，这种探讨也就是关于“可信任人工智能”的构建逻辑与构建方式有效性、以及如何正确地看待可信任的探讨。

就该框架的构建逻辑而言，其依据概念阐述、路径解析、判别依据界定三者之间的递进层级关系，阐述可信任人工智能的实现途径。其中，该框架关于可信任人工智能组成部分的厘清、其所需必要条件的阐释为后续其构建的展开框定了边界。关于技术和非技术两个方面的构建路径解析为如何走向可信任提供了实践维度的保障。即通过技术维度的可信任与伦理维度的可信任来确保可信任人工智能的实现。其中，技术维度的可信任是伦理维度可信任的基础与保障，伦理维度的可信任是技术发展的主旨与目标;而关于可信任人工智能关键条件的解码则为可信任的判定提供了可供参考的标尺。

就该框架所提出的构建路径而言，其所提出的技术方法和非技术方法这两个维度，与其关于可信任人工智能组成部分厘清的邏辑一致。上述方法旨在满足可信任人工智能的七个必要条件。这七个必要条件是基于基本权而产生的人工智能系统伦理框架的伦理律令，即人类自治、不伤害、公平和可解释性（explicability）为基础而提出的。该伦理律令兼顾了通用伦理原则和人类智能伦理的特殊性两方面。其中，前三项为技术伦理学的通用原则，而可解释性则是直接指向人工智能伦理，并被视为构建用户对人工智能信任的关键所在。在这里，可解释性意指人工智能系统过程的透明性、能力和目标的公开性、决策的可说明性。在当下，由人工智能系统的不可解释性所带来的不确定性而引发的焦虑与恐惧，是对其质疑的核心所在。因此，人工智能伦理的构建必须对不可解释性进行解码。虽然人工智能系统中算法和模型黑箱使得基于其所作出决策的可信任（即信任度）遭遇质疑，但这并不意味着其不可解释。如通过人工智能架构的设计、通过对参与决策因素的追溯与审计等技术方法来促进其可解释性，提升其信任度。

这种构建路径将可信任置于技术、设计与伦理的调节之中，通过设计走向伦理的构建。“道德法则在我们的心中，但它也在我们的仪器中。在到达超我（Super-ego）的传统之前，为了阐述我们行动的正确性、信任度和延续性，我们可能要增加技术的隐我（under-ego）” 〔10 〕。这种“隐我”就是隐藏在技术背后的某种自我，其可以通过设计将伦理带入，实现对技术的调节。但这种隐我背后的自我需要一个给定的理念。“可信任人工智能的伦理框架”将这个理念设定为可信任，将对其的构建进入到技术之中，这种方法是在借助技术来构建人类对技术的信任，进而构筑对人类自身的信任。该框架通过伦理学通用规则与技术自身特性的结合来确保其实现的同时，还借助监管、问责、治理、伦理教育等非技术方法来推进技术层面信任度的构建，进而确保可信任人工智能的实现。但类似于甘贝特（Diego Gambetta）对我们能否信任的追问一样，我们该如何正确看待“可信任人工智能”中的可信任呢？若我们不能正确地看待可信任，则会降低该框架的实践效用。因此，该框架虽然阐述了实现可信任人工智能的有效方式，但却未指出看待可信任的正确方式。

在“可信任人工智能的伦理框架”中，信任被界定为“（1）由与仁慈、能力、诚信以及可预测性有关的特定信念组成的集合（信任信念）;（2）在某个有风险的情景中，一方依赖另一方的意愿（信任意向）;或者（3）这些要素的组合” 〔11 〕。因此，信任是人类基于相关伦理规则，对不确定性以及风险作出的主观判断，是一方对另一方的态度。就人工智能而言，这种判断不是直接发生在人际之间，是在人与技术的交互之中。一般意义上，人与技术之间的信任可以还原为人与人之间的信任，但这种还原是基于人对技术有能力掌控的前提下。

可信任人工智能作为人类对其的一种伦理诉求，与其相对应的是不可信任的人工智能。恰如奥妮尔（Onora O'Neill）所言“信任危机不能用盲目信任来克服” 〔12〕69，同样地，可信任人工智能不是走向盲目的信任，也不是将不可信任盲目地遮蔽，而应当是：

1.基于有效监督的可信任。虽然人际之间最理想的信任模式是受托人在委托人不监督的情况下完成任务，但人与人工智能之间的信任则恰恰需要有效监督，以避免造成对人类基本权的伤害。虽然技术维度的透明性与可解释性等有助于提升人工智能的信任度，但人类的有效监督是人工智能之所以被视为可信任的根源所在，因为可信任究其本质而言，是人类对其的一种价值评判。

2.基于动态视角的可信任。可信任是基于人类对人工智能的伦理诉求而对技术未来发展作出的框定，关于其判别标准制定基于通用伦理原则的框架而制定的，但这些标准并非静态的意义完全枚举，而是动态式的开放体系。因此，应当基于技术的发展与应用来审视可信任的判别标准。

3.基于批判视角的可信任。可信任本身就是对不可信任、信任以及错误信任等的批判性思考，进而，对可信任本身也应当持有审慎的批判态度，而不是非此即彼式的断然。特别在人工智能与人易交互和深融合情境中，不能因技术的强势性、便利性而忽视其风险性以及人的主体性;也不能因其巨大潜能所蕴含的不确定性而忽视其给人类社会所带来的益处。因为可信任本身就包含着期望、焦虑、承诺与风险。

综上可见，当人工智能的拟人性、准主体性、对人的深度内在嵌入性等带来了一种颠覆性的人与技术关系，即一种深度融合式的新型合作关系时，信任问题也随之而至。因为“合作常常需要信任，特别是相互信任。如果是完全不信任，那么，在自由行动者之间的合作则将失败。进一步说，如果信任仅仅在单方面，合作也是无效的;如果信任是盲目的，则将诱发欺骗” 〔13 〕219。

在人工智能与人的合作中，诸如由人工智能对人类决策行为的多层级介入，出现了辅助性、导引性、甚至牵制性等多种合作模式，特别是导引性与牵制性的合作模式，带来了新的信任问题与信任模式，并将信任的边界不断拓宽，而这种拓宽却亟需人类为其设定边界。因此，信任边界的重新界定、以及人与技术之间信任的重新解析成为人工智能伦理构建研究的新论域。

“可信任人工智能的伦理框架”将人工智能的能动性纳入到了对其伦理的考察之中，将关于信任的问题转换为信任的一种表征即可信任，并将其作为人工智能未来图景的一个伦理描绘。该框架将伦理观念融入关于人工智能的评判标尺之中，并提出了信任度的构建路径，但其所描述的可信任人工智能构建，事实上是在将信任问题暂且悬置或排除的基础上，借助一种反向的模式，而进行的一种自下而上的伦理夯实。可以说，该框架将可信任作为一种人工智能未来图景的伦理描绘，并为人工智能时代的人与技术深度融合提供了有效的伦理导引，但其所搁置或排除的问题恰恰是人工智能伦理构建必须面对的终极问题。这表现为：当该框架对信任的边界进行拓宽时，信任边界的设定问题即该框架的局限性也随之而来。

因此，可信任作为人工智能未来发展图景的一种有效描绘，应当是在厘清信任边界的前提下，界定其概念的内涵与外延，指出可行的构建路径，制定合理且有效的判断标准，并以理性的方式对待可信任来确保可信任人工智能的实现。

注释：

①弗洛里迪和桑德斯基于行动者的互动关系标准，将相互作用性（interactivity）、自主性（autonomy）和适应性（adaptability）作为判别行动者的标准。参见：Floridi， L. and Sanders， J.W. On the Morality of Artificial Agents 〔J〕.Minds and Machines，2004（14）：357-358.

參考文献：

〔1〕Adams，A. Stanford University launches the Institute for Human-Centered Artificial Intelligence〔EB/OL〕. https：//philosophy.stanford.edu/news/stanford-university-launches-institute-human-centered-artificial-intelligence.

〔2〕European Commission. Ethics Guidelines for Trustworthy AI 〔EB/OL〕. https：//ec.europa.eu/futurium/en/ai-alliance-consultation/guidelines.

〔3〕安东尼·吉登斯.现代性的后果〔M〕.田禾，译.南京：译林出版社，2007.

〔4〕闫宏秀.技术过程的价值选择研究〔M〕.上海：上海世纪出版社集团，2015.

〔5〕Luhmann，N.Trust and Power〔M〕. Cambridge： Polity Press，2017.

〔6〕郑也夫.信任论〔M〕.北京：中信出版社，2015.

〔7〕Taddeo，M. Defining Trust and E-Trust：From Old Theories to New Problems〔J〕.International Journal of Technology and Human Interaction，2009 （2）：26.

〔8〕卡尔·米切姆.通过技术思考——工程与哲学之间的道路〔M〕.陈凡，朱春艳，等译.沈阳：辽宁人民出版社，2008.

〔9〕大卫·休谟.人性论〔M〕. 关文运，译.北京：商务印书馆，2016.

〔10〕Latour， B.Morality and Technology： The End of the Means〔J〕.VEENC.Theory， Culture & Society： Explorations in Critical Social Science，2002（19）：254-255.

〔11〕Siau， K.andWeiyu，W.Building Trust in Artificial Intelligence Machine Learning and Robotics〔J〕.Cutter Business Technology Journal，2018（2）：47.

〔12〕奥妮尔.信任的力量〔M〕.闫欣，译.重庆：重庆出版社， 2017.

〔13〕Gambetta，D.Trust：Making and Breaking Cooperative Relations〔M〕.Oxford：Basil Blackwell，1988.

责任编辑苏玉娟