人工智能社会实验的基础理论与方法
——《社会实验理论与方法评介》新著概要
2022-09-30清华大学公共管理学院浙江大学公共管理学院
□文/ 苏 竣 清华大学公共管理学院 黄 萃 浙江大学公共管理学院
伴随人工智能社会实验工作在全国的快速推进,学术界也围绕人工智能社会实验的基础理论与方法创新进行了深入研究,梳理了社会实验的基础理论、方法体系、数理分析模型、经典案例,形成了学术专著《社会实验理论与方法评介》。
本文针对杭州建设国家新一代人工智能创新发展试验区,开展人工智能社会实验工作的现实需求,通过提炼该专著中的精彩观点与论述,对人工智能社会实验的基础理论与方法进行系统介绍。
人工智能社会实验的时代背景
人类社会智能化转型的新态势,各个领域涌现出的新问题、新挑战,急剧增长的新知识,给国家治理体系和治理能力现代化建设提出了新的要求。如何更加科学、准确地把握人工智能等新技术的社会影响,加强人工智能等新技术发展的潜在风险研判和防范,建立健全保障人工智能健康发展的法律法规、制度体系、伦理道德,维护人民利益和国家安全,促进智能社会治理的现代化,是当前社会各界亟须解决的关键问题。
在这场人工智能掀起的人类社会巨变中,用科学的方法来研究和应对科学技术带来的种种风险和问题尤为重要。解决人工智能应用与发展的问题,不但要关注技术本身,更需要关注技术的社会影响,需要做长期、长线的观察研究,深度理解人类社会转型的过程机理。
混合实验设计是前述两种实验设计的结合,同时考虑了是否受到干预和干预前后的影响。混合设计关注的核心点是实验组改变量和对照组改变量的大小关系。不难看出,混合设计结合了被试内和被试间设计的优势,因而具有最高水平的信度和效度,是理想情况下研究者的首选。其主要缺陷是,严格的实验分组设计将推动实验成本的进一步提升,可能造成实验难度的加大。
在国家的高度重视下,经过两年多的努力,社会各界积极克服新冠肺炎疫情与国际形势变化的影响,通过统筹规划、顶层设计、重点发展、示范推动,人工智能社会实验的学术研究、组织建设、队伍建设、人才培养、基地建设等已经在全国有序展开、稳步起飞,实现了公共政策研究“理论研究—政策建议—政治决策—行政执行—组织实施—科学反馈”的全循环。
人工智能社会实验的基本原理
人工智能社会实验是实验研究方法在新时代的创新。实验主要有两方面的作用:一是发现以往未知或未加解释的事实;二是判断社会现象间或变量间的因果关系,检验为某一理论所提出的假设。
一项完整的人工智能社会实验研究一般由三个阶段组成:
图1 被试内实验设计
科学测量。研究者随机选取特定人工智能技术应用场景下的组织和个人作为实验组,同时选取未被该人工智能技术影响的组织和个人作为对照组,通过文献梳理和理论对话,以及对相关研究场景的扎根研究,将人工智能可能引致的社会影响,如组织和个人运转模式、行为轨迹、社会网络、心理动态等泛意性概念,转变为经济收入、出行方式、机构调整、公众满意度、技术接受度等可测量的数据指标,依据科学、规范的社会科学测量手段,综合利用观察记录、问卷调查、大数据捕捉与社会计算等方法,进行数据收集和处理,采用回归、匹配等统计方法确立影响机制和模式,厘定各种影响因子,揭示背后的作用机制。
被试间实验设计通过将全体研究分为实验组和对照组,研究者主要测量实验后实验组和对照组的水平差异。本质上,被试内和被试间设计的关注点互为一枚硬币的两个方面,因此其优势与劣势也恰好完全互补。相比较而言,被试间设计可以避免外在环境因素以及多次干预间(如果有)的相互干扰,但整体上对于样本数量和分组的要求更高。
图2 被试间实验设计
近年来从“扶贫”到“共享”的政策目标切换在生存照顾之外向社会救助权注入了平等促进、自立发展两种新的价值,政策目标的变化也导致法律体系中对社会救助权塑造的宪法基点的变迁,即不同于西方社会救助权以生存权为基点的情形,具有本土色彩的社会救助权应当建立在《宪法》规定的物质帮助权、平等权和人格尊严三个基点之上。
图3 混合实验设计
社会实验是最接近真实社会情境的实验性研究方法。它是以现实情境下的人、组织、社会环境等方面作为研究对象,以某种社会经济、政治或技术要素变化为干预条件,在理论层面构建出近似于实验室实验的场景,通过对研究对象的前后比较和实验组与对照组的横向对比,分析、推断干预条件在真实世界产生的影响。从研究内容上,社会实验旨在于对现实世界所发生的事件之间的联系给出科学的检验;从研究方法上,社会实验的主要特征是利用实验的操作技巧(如随机化被试、控制相关变量),来评估干预事件的处理效应或者说变量之间的因果效应。社会实验的核心在于将“控制-对照-比较”的实验效应的测量逻辑引入到现实世界,运用科学的实验方法去检验真实世界中(或者说自然发生的环境下),而不是在实验室里发生的扰动对人们行为决策的因果影响,发掘因果推论,获取基于现实情境的经验知识。它可以为理论研究提供有力的实证依据,并指导和解决实际问题,兼具“理论建构”与“实践应用”的双重属性。
人工智能社会实验的内涵、形态与分析框架
在人工智能技术广泛应用推动社会转型的背景下,利用社会实验深入研究人工智能的社会影响,是有效防范人工智能等变革性新兴技术社会风险、超前研判智能化时代社会发展新态势的重要途径。
人工智能社会实验的核心价值是以人为本、人民利益至上。它关注和研究的不是技术应用本身,而是以大数据、云计算、人工智能等为代表的技术在应用过程中,对个人、组织和社会产生的影响。对受众真实感受和体验的忽视是很多创新实践失败的根源。将新技术广泛应用在生产生活、政府治理的实践当中,只是人工智能社会实验得以开展的前提条件。还需要利用科学的实验设计,对技术应用给公众的心理与行为、组织的使命与结构、社会的制度与政策等要素带来的变化和影响进行系统测量与评估,并将结论及时反馈给一线。只有完成了这一系列任务,才能实现人工智能社会实验的研究闭环。
为了实现发现事实和解释因果的功能,实验法的核心是严格遵循“控制-对照-比较”的实验效应测量逻辑。根据实验组与对照组划分以及实验效应的测量逻辑,实验研究可以分为被试内实验设计(within-subject design)、被试间实验设计(between-subjects design)和混合实验设计(mixed design)等三类。图1、2、3 分别展示了3种设计的基本逻辑。
组织应用。政府和市场联动,构建人工智能应用示范区,推动人工智能技术在某些领域、区域、行业形成应用,如城市大脑、乡村智治、智能教育、智能医疗、智慧环保等。这些应用场景不仅改变了社会的治理结构和运行机制,而且对参与者的行为轨迹、社会网络、心理动态等产生了影响,进而影响社会个体的价值观和世界观。
人工智能技术应用正在从微观层面技术与人的双向互动和认知变化、中观层面行业与组织的形态变革和流程再造、宏观层面制度变迁和政策回应等多个层次产生丰富而深刻的影响。我们可以构建一个基于场景生态的人工智能社会影响整合分析框架,该框架涵盖研究人工智能社会影响在微观、中观、宏观三个层次需要关注的研究对象与应用场景,所形成影响的具体表征以及相应的观测界面、数据来源和采集指标,如图4所示。
三是基于数据仿真模拟的计算实验。基于数据仿真模拟的计算实验需要在利用已有智能应用开展的自然实验和人为创设干预条件开展的实地实验都已经具备完善的规模体系的背景下,通过对不同地区、不同领域开展相关实验形成的标准化数据进行汇交整合,构建系统全面的人工智能社会实验数据平台,并在此数据平台基础上,借助荟萃分析、数据仿真、政策模拟等方法工具,综合利用不同实验形成的大样本真实数据和多元化因果推论。这是人工智能社会实验的高级形态,目的在于使人工智能社会实验摆脱地域、领域等时间空间限制,形成系统、真实、科学的总体性研究结论,全面反馈和服务于治国理政,促进技术发展路径优化,推动国家治理体系和治理能力现代化。
社会实验方法具体可以分为自然实验、实地实验、计算实验三大类型,不同方法类型对于实验干预条件产生形式的要求各不相同。根据组织应用阶段智能技术引入方式的差异,可以将人工智能社会实验研究划分为三种形态。
一是利用已有智能应用的自然实验。在人工智能社会实验开展的早期阶段,可以首先利用当前已经部署使用的智能技术应用作为实验干预条件。将受相关智能技术应用影响、已经发生一定社会变革的场景作为实验组,同时选择与该场景其他条件类似但未受智能技术应用影响、未发生社会变革的邻近场景作为对照组。对实验组的前后测数据以及对照组的前后测数据进行横向和纵向双重比较,判定相关智能技术应用的社会影响。这种形态的人工智能社会实验特别适用于此类地区:智能技术应用基础条件较好,但实施者对于社会实验的知识相对缺乏,需要通过一定时期的实践探索积累经验,以寻找最适宜的实施路径。
少数民族基础数学教育对民族教育有着极为重要的影响。空间几何、代数以及函数等都是数学学习中比较抽象的内容,少数民族学生在学习这些内容时,往往感到力不从心[4]。这就会导致少数民族学生对数学的学习逐渐失去兴趣,最后直接放弃。而在基础教育阶段学生数学成绩差,就会导致学生在初中、高中阶段的理科学习变得困难,最终会导致少数民族学生发展不平衡,而这有违民族教育的教育目标。因此,发展民族教育首先需要提升少数民族基础数学教育的质量。
综合反馈。研究者综合技术发展可能性、社会个体的接受程度、经济文化环境等因素,形成技术标准、技术规范、政策建议等,反馈给技术研发者和政府实践应用部门,保障相关治理措施的跟进,以降低人工智能技术发展过程中的不适应性,促进人工智能技术良性发展,提升治理体系和治理能力现代化。
被试内实验设计不考虑全体受试样本的分组问题,而直接比较实验前后总体在核心变量上的水平差异。被试内数据的测量相对简便,准确性较高,但更容易受到混淆变量的干预。例如,经过整个实验期,天气可能发生很大的变化,影响潜在的实验结果。另一个典型案例是,对于某些经济类指标,实验前后的宏观经济环境也可能存在很大的差异,这些因素都会影响潜在实验结果。此外,如果涉及到多次被试内设计,可能出现练习效应(随着时间的推移,受试者越发了解了实验环境)、疲劳效应(随着时间的推移,受试者越发对实验产生厌烦)等。
图4 人工智能社会实验整合分析框架
人工智能社会实验的实施要点
以人为本,关注影响
2.署名及排序由作者在投稿时确定,投稿后一般不得改动。通讯作者非第一作者时,须注明通讯作者;不注明者,默认第一作者为通讯作者。有多个作者而非同一单位的,单位表述必须清楚、准确,中英文表述均应使用官方名称。
选定明确的干扰变量
在具备了新技术应用的前提条件后,开展人工智能社会实验的第一步,是选定明确的干扰变量。由于不同地区、不同领域、不同场景的现实条件存在差异,给受众造成影响的关键干扰变量也可能不同。干扰变量的选择可以是应用于实践的新技术本身,也可以是建立在某种新技术上的新举措、新模式、新政策等。只有干扰变量明确了,才能根据干扰变量的具体特点,设计出科学的实验实施方案,开展人工智能社会实验研究。
保障样本随机分组
社会实验研究的一个难点是保障样本的随机分组,使样本被分配到实验组和对照组的概率一致。在人工智能社会实验中,这一问题仍旧突出。因此,在组织应用阶段引入相关新技术、选定干扰变量时,就需要构建和维护一个高质量的抽样框,尽可能保证抽样框内所有样本受到特定人工智能社会应用影响的概率是一致的,从而增强社会实验的内外部效度与信度。
确立实验组和对照组
“控制-对照-比较”的实验效应检验逻辑是人工智能社会实验开展循证研究的前提和基础,因此,在选定需要研究的人工智能社会实验干扰变量和样本框后,就要对受到该干扰变量影响的个人和组织,以及未受到该干扰变量影响的个人和组织进行区分,在满足平行假设的基础上,确立实验组和对照组,使实验组和对照组在其他变量上尽可能接近,而是否受到待检验干扰变量的影响成为实验组和对照组之间的关键差异。
强化伦理审查
由于人工智能本身具有高度不确定性和较大伦理风险,新引入的干扰变量对社会公众产生的影响可能长期持续并且无法有效调控。因此,开展人工智能社会实验需要特别重视伦理问题。研究者要严格谨慎地遵循尊重、不伤害、有利、公正等基本科研原则,加强对实验流程、实验对象选择、实验数据采集等各个环节的伦理审查。充分尊重受试者的自主性,确保受试者的知情同意权、数据信息隐私权得到有效保护,尽可能降低受试者需要承担的风险和伤害,维护研究的程序公正、回报公正、分配公正,强化对弱势群体的保障机制,防止引发新的不平等现象。
注重数据采集的标准化
人工智能社会实验是对技术变革、治理创新与社会转型的综合性检验,具有长周期、跨领域、多学科的特征,涉及的研究对象涵盖不同类型的个人和组织,需要采集的数据种类繁多,结构复杂。因此,在数据采集过程中,要特别注重数据的标准化和完备性,为实现不同区域、不同行业人工智能社会实验数据的交流共享提供便利,使人工智能社会实验成为一项系统性科学研究工程,也为后人开展研究留下可供参考和利用的资料。
本文系浙江省科技厅中央引导地方科技发展资金项目“百城百园-杭州市国家新一代人工智能创新发展试验区建设”(编号2021ZY1004)课题成果。■