人机协同背景下建议来源和建议寻求动机对建议采纳的影响
2024-12-07毕艺菲 冯利 彭丽婷 杜秀芳
摘 要 来自算法的建议并不总是由AI独立给出的,还有可能是专家使用AI(即人机协同)给出的。而目前少有研究探讨人机协同背景下决策者的建议寻求动机对建议采纳的影响。本研究采用疾病预测材料探讨人机协同背景下建议来源和建议寻求动机对建议采纳的影响。研究1采用单因素(建议来源:专家/AI/人机协同)被试间设计,发现相对于AI给出的建议,决策者更多采纳人机协同给出的建议,而对人机协同给出的建议和专家单独给出的建议,建议采纳没有显著差异。研究2采用2(建议来源:专家/人机协同)×3(建议寻求动机:关系动机/准确动机/控制组)被试间设计,发现决策者对人机协同的建议采纳多于对专家的建议采纳,关系动机条件下的建议采纳多于准确动机条件下的建议采纳。研究结果表明人们愿意采纳人机协同给出的建议。
关键词 人机协同;关系动机;准确动机;建议采纳
分类号 B849
DOI:10.16842/j.cnki.issn2095-5588.2024.12.001
1 引言
日常生活中,人们做出决策时往往会参考他人建议以提高决策质量(Gino & Schweitzer,2008)。影响建议采纳的因素很多,但很少有研究探讨决策者的动机对建议采纳的影响,尤其是当建议来源不同时,决策者的动机是否影响其对建议的采纳?本文对此进行了探讨。
Ji等(2017)通过质性研究探讨了决策者寻求建议的动机,结果发现,获取信息确实是寻求建议的主要动机之一,如解决手头的问题、获得替代视角或确认决定;同时,决策者还可能会为了建立、维持或改善关系而寻求建议。建议采纳过程既是信息加工过程,也是人际互动过程,如果决策者期望获得最优的解决方案或做出最佳决定(Jonas, 2005)而评估他人建议,或将自己的初始决策和他人建议进行比较分析,则说明其采纳建议时是出于准确性动机或认知动机。如果建议者和决策者关注人际关系,说明在建议采纳中存在关系动机或社会性动机,即采纳建议是为了建立或维持积极的人际关系(Blunden et al., 2019)。Dreu和Boles(1998)发现,持亲社会动机的谈判者倾向于合作策略,易采纳他人提供的信息。决策者基于准确性动机采纳建议时,如果其不信任建议者,则多采用系统式加工,并对建议信息反复权衡,从而可能导致建议采纳程度降低(Chen et al., 1996)。因此,本研究探讨的第一个问题是决策者的建议采纳程度是否因动机不同(准确vs. 关系)而存在差异。
在数字化时代,专家和AI都能给出建议,如医疗专家和医疗AI(杜秀芳等, 2023)。已有研究探讨了人类专家与算法的建议对决策者的建议采纳的影响,并发现存在算法厌恶(Dietvorst et al., 2015; Kaufmann et al., 2023)。人们不愿意采纳算法的建议一方面是因为AI能力不足(Mahmud et al., 2022)。相比于人类给出错误建议的后果,人们对AI给出错误建议后的信任损失得更快(Bogert et al., 2021);另一方面涉及AI的责任主体性问题(Hakli & Mäkelä, 2019; Parthemore & Whitby, 2014),即如果AI给出了错误的建议,人们无法追究责任。但现实情况是,往往只有少数人拥有并使用AI,尤其是一些高级的AI,普通人可能并不拥有也不会使用。也就是说,有一部分来自算法的建议并不是AI独立给出的,而是专家使用AI后给出的,是人机协同的结果。对于这部分建议,人们的采纳情况如何?前人对人机协同决策的研究(Sowa et al., 2021; Zhang et al., 2023)发现,相比与人协同,与高质量的AI协同所作出的决策表现更佳。我们推测,人机协同给出的建议一方面可以提高建议接受者对AI的信任,另一方面在一定程度上可以削弱人们对AI是否可以作为责任主体的疑虑。因此,决策者对人机协同的建议采纳程度是否高于来自AI的建议或来自专家的建议,这是本研究要探讨的第二个问题。
人机协同给出的建议类似集体商议的结果,决策者可能会认为它更准确,那么在准确性动机条件下是否会对其采纳程度更高?而在人机协同中,专家和AI的责任都会降低,这是否会削弱关系动机条件下决策者的建议采纳程度?因此,本研究要探讨的第三个问题是不同动机条件下,决策者对来自专家和人机协同的建议的采纳程度是否存在差异。
近几年,医疗领域的AI技术得到了突破性发展。如2023年10月,科大讯飞的星火医疗大模型已经在全国400个县区取得了规模化应用,并且该模型在国家执业医师资格考试中的表现优于96%的参加考试的医生。另外,被试对医疗情境均较为熟悉,该领域的研究成果较多,便于比较,如Bossen和Pine(2023)发现,在医疗健康领域中,在人类监督下提供医疗服务的AI更易被人们接受。因此,本研究将以医疗情境的疾病预测为实验材料,首先探讨当决策者出于准确性的建议寻求动机时,建议采纳程度是否因建议来源(人机协同vs. AI vs. 专家)不同而存在差异。其次,动机(准确性vs. 关系)是否影响对不同来源建议(专家vs. 人机协同)的采纳。实验1采用单因素的被试间设计,探讨人们对人机协同的建议采纳程度是否高于专家或AI的建议采纳程度;在此基础上,实验2采用3×2的被试间实验设计,探讨不同动机条件下对专家和人机协同的建议采纳程度是否存在差异。
本研究的程序材料、数据、分析代码已在https://osf.io/gbtw9/?view_only=b1ba0b5d9a9b46c791bf7946c8c7800f公开。
2 研究1 人机协同对建议采纳的促进作用
2.1 研究方法
2.1.1 被试
使用G*power计算效应量f=0.25, α=0.05,1- β=0.8时的单因素方差分析所需样本量,结果需要159名被试。本实验在Credamo在线实验平台上招募259名被试,删除六轮任务中建议采纳程度(Weight of Advice, WOA)无效的被试67人以及3个标准差以外的极端值被试19人,最终有效被试为173人(男性78人, 女性95人, 年龄31.90±8.71岁)。
2.1.2 研究设计
采用单因素(建议来源:专家/AI/人机协同)的被试间设计,因变量是被试的建议采纳程度,参照Yaniv(2004)的计算公式:WOA=|决策者最终估计-决策者初始估计|/|建议值-决策者初始估计|,WOA=0表示决策者完全不接受建议,WOA=1表示决策者完全接受建议,被试初始估计与建议值相同时,公式的分母为0,则WOA无效,数据被剔除。
2.1.3 材料
(1)疾病预测材料
改编自杜秀芳等(2023)的实验材料,包括肺癌、特发性肺动脉高压(IPAH)、前列腺癌、心脏病、糖尿病以及高血压六种疾病患病概率的材料,每种材料给出了在特定人群中的患病概率以及检出率,要求被试预测某项检查异常的个体患该疾病的概率。如前列腺癌的材料:
曹爷爷,84岁,前列腺特异性抗原(PSA)测试的结果异常。PSA测试是检测前列腺癌的一种手段。据统计,我国80岁以上的老人中每1000个有15人患前列腺癌。对这15人进行PSA测试会有11人结果异常;由于这种测试不是特别准确,其余985人进行该测试时也会有25人结果异常。如果曹大爷PSA测试结果异常,那么他实际患前列腺癌的概率是多少?
2.1.4 程序
被试被随机分到三个实验组。然后主试依次向其呈现六个情景,被试按照JAS范式完成建议采纳任务。每个情景开始时,被试先独立做出预测估计,然后呈现专家、AI或人机协同的预测结果,被试根据该结果再做一次预测,最初的预测可以修改,也可以保持。最后收集人口学信息。
2.2 结果
将被试在六种疾病预测材料中的建议采纳程度平均值作为因变量,建议来源为自变量,性别作为协变量,采用单因素方差分析,结果发现,建议来源的主效应显著,F(2, 169)=4.15,p=0.017,η2p=0.06,专家组(M=0.62, SD=0.25, t(110) =2.17, d=0.40, p=0.048)和人机协同组(M=0.64, SD =0.28, t(115)=2.51, d=0.46, p=0.040)的建议采纳程度显著高于AI组(M=0.50, SD=0.32)的建议采纳程度,专家组和人机协同组的建议采纳程度无显著差异。
该结果说明,即使在AI技术得到大幅度发展的今天,算法厌恶仍然存在,而人机协同可以避免算法厌恶。鉴于与高质量的AI进行协同决策时的联合表现优于单独个体决策时的表现(Zhang et al., 2023),研究2将进一步探讨不同动机条件下建议来源对建议采纳的影响。
3 研究2 决策者动机与建议来源对建议采纳的影响
3.1 研究方法
3.1.1 被试
使用G*power计算效应量f=0.25, α=0.05,1-β =0.8时的3×2方差分析所需样本量,结果需要158名被试。本实验在Credamo在线实验平台上招募400名被试,删除答题不符合规范(如以文字而非数值进行答题)的12人、六轮任务中WOA无效(被试初始估计与建议值相同)的33人、动机操纵未成功的(准确性动机操纵条件下准确性动机检验得分低于关系动机检验的被试和关系动机操纵条件下关系动机检验得分低于准确动机检验的被试)28人以及3个标准差以外的极端值被试4人,最终有效被试为323人(男性110人,女性213人,年龄32.73±9.31岁)。
3.1.2 研究设计
采用3(建议寻求动机:准确性动机/关系动机/控制组)×2(建议来源:专家/人机协同)的被试间设计,因变量是建议采纳程度(同研究1)。
3.1.3 材料
(1)疾病预测材料同研究1。
(2)动机操纵材料
准确动机操纵材料:“本研究的目的是探究采纳他人建议时如何保持客观的态度。建议互动过程是多方面收集信息,减少决策中不确定性的过程。采纳他人建议的目的是作出准确的决策。建议互动过程越客观,最终的决策越准确”。
关系动机操纵材料:“本研究的目的是探究采纳他人建议时如何主动追求与他人之间的亲密和良好关系,建议互动过程是建立与他人之间的联系,并互相支持的过程。采纳他人建议体现了对于人际关系的认知和重视。这个过程越和谐、越顺利,双方的关系也就越好”。
控制组动机操纵材料:“本研究的目的是探究采纳他人建议时的行为特点。建议互动过程是决策者和建议者共同作出决策的过程。在下面的建议互动情景中,请按照指导语和主试的指引进行”。
(3)动机操纵检验材料
准确动机操纵检验题目是“请问在本次测验中,你追求自己的决策结果准确性的程度是”。关系动机操纵检验题目是“请问在本次测验中,你有意维持你和建议者的关系的程度是”。均为7点计分,1表示非常低,7表示非常高。
3.1.4 程序
基本同研究1。与研究1的不同之处在于在呈现情景之前,先对动机进行操纵,在完成六个情景任务后,进行动机的操纵检验和人口学信息测量。
3.2 结果
3.2.1 动机的操纵检验
不同的建议寻求动机组在两种动机检验问题上的平均数和标准差如表1所示。
重复测量的方差分析结果发现,动机感知效果检验问题的主效应显著,F(1, 320)=8.39, p=0.004,η2p=0.03;决策者动机的主效应不显著;不同决策者动机诱发和动机感知效果检验问题之间的交互作用显著,F(2, 320)=94.08, p< 0.001,η2p=0.37。进一步的简单效应分析表明,准确性动机组在准确性动机检验问题上(M=5.39, SD=0.12)的得分显著高于关系性动机的检验问题得分(M=4.21, SD=0.12), t(105) =9.85, p<0.001, d=1.03;关系性动机组的被试在准确性动机检验问题上的得分(M=4.01, SD=0.12)显著低于关系性动机的检验问题得分(M=5.30, SD=0.11), t(109) =-13.37, p<0.001,d=-1.13;控制组的被试在准确性动机检验问题上(M=4.54, SD=0.12)的得分显著低于关系性动机的检验问题得分(M=5.05, SD=0.11), t (106)=-3.06, p=0.003, d=-0.37。
换个方向来看,在准确性动机的检验问题上,准确性动机组(M=5.39, SD=0.99)高于控制组(M=4.54, SD=1.44, t(189)=5.00, p<0.001, d=0.68)和关系动机组(M=4.01, SD=1.28, t(205) =8.86, p<0.001, d=1.20),而且控制组也显著高于关系动机组(t(211)=2.88, p=0.013, d=0.39);在关系动机检验问题上,关系动机组(M=5.30, SD=0.97, t(195)=6.97, p<0.001, d=0.95)和控制组(M=5.05, SD=1.26, t(211)=4.81, p<0.001, d=0.66)显著高于准确性动机组(M=4.21, SD=1.28),关系动机组与控制组的差异不显著。综上,决策者动机的操作是成功的。
3.2.2 决策者动机与建议来源对建议采纳的影响
被试在六种疾病预测材料中的建议采纳程度平均值和标准差见表2。
以建议寻求动机、建议来源为自变量,性别作为协变量,建议采纳程度为因变量,进行方差分析。结果显示,建议寻求动机的主效应显著,F(2, 316)=8.79, p<0.001,η2p=0.05。事后检验发现,关系性动机组(M=0.71, SD=0.27, t (213)=4.42, p<0.001, d=0.60)和控制组(M=0.65, SD=0.28, t(201)=2.54, p=0.035, d=0.35)显著高于准确性动机组(M=0.55, SD=0.28);控制组和关系性动机组无显著差异。建议来源的主效应显著,F(1, 316)=4.86, p=0.028,η2p=0.016,被试对人机协同(M=0.67, SD=0.30)的建议采纳程度显著高于对专家(M=0.60, SD=0.29)的。决策者动机与建议来源的交互作用不显著,F(2, 316)=0.79,p=0.456。
4 讨论
研究1发现,建议来源对决策者建议采纳具有显著影响,决策者对专家和人机协同的建议采纳程度显著高于对AI的。有研究认为AI不能作为责任主体,因为他们缺乏自由意志和认知条件(Hakli & Mäkelä, 2019),因此人们不愿意把重要任务指派给它们。在AI技术得到大幅度发展的背景下,尽管AI的确在很多方面表现优异,但人们仍然不愿意使用AI的建议(Schmitt, 2020)。算法的黑盒属性也会阻碍算法的使用。Longoni等(2019)的研究认为医疗领域中出现算法厌恶是因为就医者担心算法不能考虑到个人的独特情况。Bonezzi等(2022)的研究发现人们对人类决策的理解比对算法决策的理解容易,因为我们会更多把自己对决策过程的理解投射到人类给出的建议。然而专家使用算法为决策者提供建议则表明了专家对算法的信任,决策者会认为该建议具有较高的可靠度,降低了对AI能否作为责任主体的疑虑,因而采纳程度更高。研究2虽然发现决策者对人机协同的建议采纳程度高于对专家的,但差异的效应量很低。
研究2发现出于关系动机的决策者对他人的建议采纳程度显著高于出于准确性动机的决策者对他人的建议采纳程度。这很可能是由于准确性动机的目的是了解问题的本质,作出正确的决策,重点在于建议本身的质量和可靠性程度。这导致决策者在决定是否采纳时更加谨慎,甚至会对建议产生质疑,从而降低了对建议采纳的程度。另外,如果决策题目太难,操纵准确性动机可能会使被试有意质疑专家或人机协同给出的建议,进一步降低准确性动机条件下的建议采纳程度。而关系性动机的目的在于与他人建立或保持亲密友好的关系,因此,作出决策时考虑的重点不在建议本身,而是与他人的关系,所以决策者对他人建议的质疑较少,并且倾向于通过采纳建议以建立或维持与他人良好的关系。
此外,我们发现,在关系动机条件下,决策者对人机协同的建议采纳程度显著高于对专家的建议采纳程度。我们认为,首先,基于关系动机寻求建议的人对关系更加重视,这能够减少人们的防御性(Van Tongeren et al., 2014),进而增加对人机协同的接受程度;其次,建议由多位“专家”给出,体现了群体的智慧,使得建议更让人信服。Mannes(2009)的研究发现人们认为多位专家给出的建议比一位专家给出的建议好。
本研究具有重要的理论意义和实践价值。从理论角度来看,将动机与人机协同结合起来,拓展了决策领域的研究范畴。从实践角度出发,本研究对促进人工智能建议的应用提供了指导意义。正如党的二十大报告所指出的,要让人工智能助力健康中国建设。高质量人工智能的使用可以极大缓解目前面临的就医压力。然而,以往研究发现,医疗领域是算法厌恶最严重的领域之一(Jussupow et al., 2020)。因此,专家在决策过程中使用AI辅助工具,能够显著提高诊断的速度和质量,同时也更容易被患者接受。
本研究也存在局限。第一,研究采用医疗情景材料,未来可以在其他领域中验证本研究的结果。第二,研究2中,对动机的操纵过于直接,有可能存在被试效应。因此,未来的研究,可以换一种动机操纵方式来验证本结果的稳健性。第三,研究2将决策者的动机区分为准确性动机和关系性动机两个维度,但是人们的决策过程是复杂的,不止受到这两种动机的影响,还可以归纳出其他类型的动机。因此,未来可在本研究的基础上,更加深入细致地探讨动机对建议采纳的影响。
参考文献
杜秀芳, 王静, 李方, 王亚婷(2023). 算法厌恶还是算法欣赏?——不同建议来源对个体建议采纳的影响. 中国临床心理学杂志, 31(1), 75-79, 95.
Blunden, H., Logg, J. M., Brooks, A. W., John, L. K., & Gino, F. (2019). Seeker beware: The interpersonal costs of ignoring advice. Organizational Behavior and Human Decision Processes, 150(3), 83-100.
Bogert, E., Schecter, A., & Watson, R. T. (2021). Humans rely more on algorithms than social influence as a task becomes more difficult. Scientific reports, 11(1), 8028.
Bonezzi, A., Ostinelli, M., & Melzner, J. (2022). The human black-box: The illusion of understanding human better than algorithmic decision-making. Journal of Experimental Psychology: General, 151(9), 2250-2258.
Bossen, C., & Pine, K. H. (2023). Batman and robin in healthcare knowledge work: Human-AI collaboration by clinical documentation integrity specialists. ACM Transactions on Computer-Human Interaction, 30(2), 1-29.
Chen, S., Shechter, D., & Chaiken, S. (1996). Getting at the truth or getting along: Accuracy-versus impression-motivated heuristic and systematic processing. Journal of personality and social psychology, 71(2), 262.
Dietvorst, B. J., Simmons, J. P., & Massey, C. (2015). Algorithm aversion: People erroneously avoid algo-rithms after seeing them err. Journal of Experimental Psychology: General, 144(1), 114.
De Dreu, C. K., & Boles, T. L. (1998). Share and share alike or winner take all?: The influence of social value orientation upon choice and recall of negotiation heuristics. Organizational behavior and human decision processes, 76(3), 253-276.
Gino, F., & Schweitzer, M. E. (2008). Blinded by anger or feeling the love: How emotions influence advice taking. Journal of Applied Psychology, 93(5), 1165.
Hakli, R., & Mäkelä, P. (2019). Moral responsibility of ro-bots and hybrid agents. The Monist, 102(2), 259-275.
Ji, L. J., Zhang, N., Li, Y., Zhang, Z., Harper, G., Khei, M., & Li, J. (2017). Cultural variations in reasons for advice seeking. Journal of Behavioral Decision Making, 30(3), 708-718.
Jonas, E., Schulz-Hardt, S., & Frey, D. (2005). Giving advice or making decisions in someone else’s place: The influence of impression, defense, and accuracy motivation on the search for new information. Personality and Social Psychology Bulletin, 31(7), 977-990.
Jussupow, E., Benbasat, I., & Heinzl, A. (2020, June). Why are we averse towards algorithms? A comprehensive lite-rature review on algorithm aversion. Paper presented at the meeting of the Proceedings of the 28th European Conference on Information Systems (ECIS), An Online AIS Conference, Marrakech, Morocco.
Kaufmann, E., Chacon, A., Kausel, E. E., Herrera, N., & Reyes, T. (2023). Task-specific algorithm advice accep-tance: A review and directions for future research. Data and Information Management, 7(3), 100040.
Longoni, C., Bonezzi, A., & Morewedge, C. K. (2019). Resistance to medical artificial intelligence. Journal of Consumer Research, 46(4), 629-650.
Mahmud, H., Islam, A. N., Ahmed, S. I., & Smolander, K. (2022). What influences algorithmic decision-making? A systematic literature review on algorithm aversion. Technological Forecasting and Social Change, 175(49), 121390.
Mannes, A. E. (2009). Are we wise about the wisdom of crowds? The use of group judgments in belief revision. Management Science, 55(8), 1267-1279.
Parthemore, J., & Whitby, B. (2014). Moral agency, moral responsibility, and artifacts: What existing artifacts fail to achieve (and why), and why they, nevertheless, can (and do!) make moral claims upon us. International Journal of Machine Consciousness, 6(2), 141-161.
Schmitt, B. (2020). Speciesism: An obstacle to AI and robot adoption. Marketing Letters, 31(1), 3-6.
Sowa, K., Przegalinska, A., & Ciechanowski, L. (2021). Cobots in knowledge work: Human-AI collaboration in managerial professions. Journal of Business Research, 125(24196), 135-142.
Van Tongeren, D.R., Green, J.D., Hulsey, T.L., Legare, C.H., Bromley, D.G., & Houtman, A.M. (2014). A meaning-based approach to humility: Relationship affirmation reduces worldview defense. Journal of Psychology and Theology, 42(1), 62-69.
Yaniv, I. (2004). Receiving other people’s advice: Influence and benefit. Organizational behavior and human decision processes, 93(1), 1-13.
Zhang, G., Chong, L., Kotovsky, K., & Cagan, J. (2023). Trust in an AI versus a Human teammate: The effects of teammate identity and performance on Human-AI coop-eration. Computers in Human Behavior, 139(1), 107536.