文本聊天机器人对话回复策略研究
2020-11-30谭孟华潘晓彦
谭孟华 潘晓彦
摘 要: 探究以用户为中心的聊天机器人对话回复策略。通过设计思维中的用户体验方式,运用发散-收敛的聚类分析方式分析6款聊天机器人的对话策略,从解决问题层面和人工智能层面针对30个问题进行测试和打分,并评估6款聊天机器人面对6类问题的回答,计算其均值并分析数据。基于三轮聚类后提取的19条优秀的回复策略和12条差劲的回复策略,提出在日常表达层面、情感化层面的以用户为中心的对话回复策略,提出机器人在日常对话中应该避免的关键点,如避免机器人和用户聊天时的自娱自乐和答非所问等。从用户角度规范机器人的对答回复策略并探究可能的改进方向,为未来聊天机器人对话回复准则的建立了基础。
关键词: 人工智能;聊天机器人;以用户为中心;对话回复
中图分类号: TP18 文献标识码: A DOI:10.3969/j.issn.1003-6970.2020.09.014
本文著录格式:谭孟华,潘晓彦. 文本聊天机器人对话回复策略研究[J]. 软件,2020,41(09):5155
【Abstract】: Explore a user-centered chatbot conversation response strategy. Based on the user experience in design thinking, this paper analyzes the dialogue strategies of 6 chat robots by using the divergence convergence clustering analysis method, then test and score 30 problems from the problem-solving level and artificial intelligence level, and evaluates the answers of 6 chat robots from 6 kinds of questions. Based on the 3 rounds clustering of 19 excellent recovery strategies and 12 poor recovery strategies, puts forward the user-centered dialogue reply strategy in the daily expression level and emotional level, as well as the key points that the robot should avoid in the daily conversation, such as avoiding self-entertainment and non-answers. From the user's point of view, this paper standardizes the robot' reply strategy and explores the possible improvement direction, which establishes the basis for the future chat robots reply rule.
【Key words】: Artificial intelligence; Chat robot; User-centric; Conversation reply
0 引言
近年来,针对人工智能的研究尤为重要,人工智能技术在医疗、交通、环境等领域实现飞速的发展,可以预见的是人工智能未来会对各领域产生巨大的革新和变革。尤其是在自然语言处理(Natural Language Processing,NLP)领域,NLP现在已经被预测为人工智能(Artificial Intelligence,AI)应用程序最重要的技能。在日渐重视用户的今天,用户体验在AI中的表现也被日渐重视。然而现阶段聊天机器人问答系统的回答在表达、思想和理解层面都有所欠缺。因此,本文运用聚类分析的用户体验方法,研究聊天机器人对话回复策略如何设定才能够有效提升用户体验。通过对八款人工智能聊天机器人提问相同的30个问题(问题来自6个维度),并记录他们的对话回复,分析他们的回复并进行打分和评估,从用户体验角度探究“优秀的”和“差劲的”对话回复策略的表现形式,分析他们出现的原因,改进文本聊天机器人的用户体验。
1 研究背景
聊天机器人作为NLP领域的重要组成部分,它可以为用户提供框架性的即时消息传递服务,也可以为用户提供快速的机器会话服务,解决用户工作和生活中的问题。本文基于纯文本的聊天机器人研究,相比于复杂的聊天机器人,用户和简单的文本机器人聊天产生的负面影响较小,较难对用户造成强烈的心理、生理反应[1]。因此基于文本聊天机器人的研究,能够在影响因素较小的情况下,较好地研究用户对机器不同回答的不同感受,更好地研究聊天机器人回答策略。
2 相关研究
2.1 聊天机器人
最早的聊天机器人可以追溯到1966年。麻省理工学院的Joseph Weizenbaum开发了一款可以在臨床治疗中模仿心理医生的聊天机器人。经过60多年的发展,聊天机器人的功能设计在不断被重视。除了针对聊天机器人技术的研究,几十年来,聊天机器人的图形界面研究主要被应用在个人助理和公司服务中,如苹果Siri和亚马逊Alexa研发的个人助理等。
21世纪以来,人机交互开始关注人的感受,注重使机器适应人而不是人适应机器[2]。虽然近几年,人机交互领域研究转向了通过字符串交流的自然语言用户界面[3],但是文本聊天机器人作为人机交互(Human– Computer Interaction,HCI)领域的基础研究,针对它的研究仍然具有必要性。因此,本文将基于以用户为中心的聊天机器人,研究如何基于对话回复策略,提升用户的体验。
2.2 以用户为中心的聊天机器人
现阶段以用户为中心的聊天机器人研究,主要分为用户体验因素研究、人机交互方式研究和聊天机器人设计三类。用户体验的研究方法也可以应用在AI的聊天机器人研究中。
用户体验因素研究指针对机器人不同表现形式的研究。通过针对某一聊天机器人某一变量的实验设计,运用访谈、问卷等定性定量相结合的用户研究方式调查用户,探究其不同表现形式对用户满意度的影响,进而提升聊天机器人的用户体验。人机交互方式研究主要聚焦人与机器的交互方式。聊天机器人设计更多地侧重于具体应用场景的机器人设计,如Cameron等人在医疗领域研发了可以帮助维持心理健康、在线学习、阅读心理健康相关书籍的聊天机器人[4]。现阶段针对聊天机器人对话回复的研究较少,因此本研究将基于聊天机器人对话回复进行。
2.3 聊天机器人的对话回复
如何设计基于用户问题的聊天机器人的回复是十分重要的。但是现阶段针对聊天机器人对话回复研究集中在单一的因素,如Fang研究对话对吸引力的影响[5],缺少针对策略的研究,且聊天机器人对用户回复的好坏影响用户体验,因此本文最终落脚于以用户为中心的文本聊天对话策略研究。
同时,在针对聊天机器人的可用性研究整理中,Ren等人曾采用系统制图的可用性研究方式,整理170條引文和19篇文章,度量聊天机器人的用户体验情况[6]。然而,在聊天机器人对话回复相关研究中,还没有发现运用设计思维方法的研究。设计思维是一个由可行性、可取性和可用性三个重叠的空间组成的系统思考方式[7-8],发散-收敛作为设计思维的方法之一,发散有助于产生更多灵感,收敛有助于聚焦某一问题,一个有效的设计思维过程也需要有发散和收敛两种模式。由于目前还没有运用发散-收敛式的聚类分析方法来解决人工智能领域问题的相关研究,因此,本研究计划运用设计思维中的聚类分析方法,研究以用户为中心的聊天机器人对话回复策略。
3 研究设定
3.1 研究对象
基于六款文本聊天机器人,分别为小冰机器人、小度机器人、小明机器人、小影机器人、小i机器人、trio机器人。六款聊天机器人的应用涉及个性对话、智能聊天、开放域对话、情感聊天、专业服务和企业服务等。小冰机器人是微软于2014年在中国推出的一款个性化聊天机器人[9],小度机器人是由百度于2014年研发的智能聊天机器人,小明机器人是由字节跳动研发的专业服务聊天机器人,小影机器人是由竹间智能科技公司研发的一款情感聊天机器人,小i机器人是由智臻智能科技公司研发的企业服务机器人,Trio机器人是由三角兽科技公司推出的开放域对话聊天机器人。通过对不同应用的聊天机器人进行测试,能够全面地测试现阶段聊天机器人的应用水平,了解其现阶段用户体验情况。
本研究使用六款聊天机器人的微信公众号作为测试平台。微信公众号能为聊天机器人提供第三方平台服务,并能为Chatbot开发者和运营商保护数据隐私,相比购买聊天机器人实体进行测试,微信公众号具有便捷方便、成本低的特点。其中,小冰机器人、trio机器人、小明机器人、小影机器人和小i机器人在各自的微信公众号进行测试,小度机器人由于微信接口暂时停用,故使用接入了小度机器人接口的trio001微信公众号平台进行测试。
3.2 研究设计
研究问题的设定选择参考了由中国电子标准化研究院和中国电子音箱行业协会颁布的《消费电子产品智能音箱评测及标准化研究报告》[10],最终选定6个维度,30个问题进行测试(见图1)。日常生活对话问题和助手类问题主要考察机器人解决日常生活的能力,如是否能解答用户的天气问题和交通问题,担任用户的生活管家,满足用户生活中的日常基本需求等。模糊检测和智能推荐则研究聊天机器人是否聪明,如在歌手和歌手的歌曲不相对应的时候机器人能否反应过来,能否及时修改用户的问题并理解用户真实的需求等。
评分设定主要关注解决问题和人工智能两个层面。按照程度不同将它们划分为四个等级,并按照1分到4分,从低到高给它们进行评分。在解决问题层面中,划分标准为是否有效解决用户问题。1分为解决不了问题,并回答错误;2分为解决不了问题,但推荐其它功能;3分为引导用户换种问法解决问题;4分为有效解决问题。在人工智能层面,划分标准为回答是否亲切和拟人。1分为回答干巴;2分为回答亲切;3分为回答拟人不亲切;4分为回答亲切且拟人。综合评分为解决问题层面和人工智能层面的评分均值。
针对打分策略,例如歌手歌曲名称正确但是不相互对应的模糊检测问题“播放林俊杰的《来自天堂的魔鬼》”,小冰机器人第一次回答“目前没找到哎,别急,回头一找到就告诉你”,第二次回答“哪里?咳咳,要不咱换首别的吧←(其实是没找到这首)”,第三次回答“这首歌可不好找啊,以后找到了告诉你[心]”。综合评价小冰机器人的三次回答,从解决问题层面来看,由于这个问题本身就没有正确答案,《来自天堂的魔鬼》是歌手邓紫棋所唱,并不是林俊杰所唱,因此小冰回答“没找到这首歌”是没有错误的,所以小冰回答有效解决了问题,且暗示可能是因为用户的问法不对,继而导致没找到歌曲。因此综合三次回答,解决问题层面评分为4分。从人工智能层面来看,小冰的回答运用 “哎”、“咳咳”等多种拟声词,使回答更具亲和力,且小冰在知道自己无法很好地解决问题的时候,通过“要不咱换首别的吧”、“别急”等词语转移用户注意力,调节用户情绪,具有较高的拟人化倾向,故人工智能层面评分为4分。小冰机器人在该问题的综合评分为均值4。
3.3 研究步骤
详细的研究步骤见图2。通过给六款人工智能聊天机器人发送三次同样的问题,记录同样问题下机器人的对话回答,依照评分标准对其进行打分,并将分数进行汇总统计,计算其综合平均值并分析数据,生成以用户为中心的聊天机器人的对话策略。
例如,在针对“星座运势”的问题中, 给六款聊天机器人同时发送“处女座今天的运势?”这个问题,不同聊天机器人有不同的回复策略,6种聊天机器人对话回复见图3。
结合人工智能层面评分和解决问题层面评分,本研究在分析数据的过程中,运用聚类分析归纳总结得分高和得分低的对话特征,通过三轮聚类,针对聊天机器人对话中“优秀的点”和“差劲的点”,总结其規律,得出以用户为中心的文本聊天机器人对话回复策略。
4 研究分析和结果
4.1 研究分析
六款聊天机器人的评分如下(见表1)。
基于评分对机器人对话进行三轮聚类分析。第一轮聚类分析是将每个问题中综合评分最高和综合评分最低的聊天机器人回复全部分别归纳总结,将其“优秀的点”和 “差劲的点”的原因通过定性的方式分别总结,分析综合评分高的“优秀的点”和综合评分低的“差劲的点。归纳过程中注意查漏补缺,确保已经总结过规律的点,不再总结第二遍,没有总结过的规律,则将其补上,直到再也无法发现新的“优秀的点”和“差劲的点”为止。
例如,助手问题中的提醒问题为“提醒我15分钟后摘面膜”和取消提醒问题的“不要提醒我了”。针对“优秀的点”,小冰机器人的回答是“欧啦~我会在2019年6月26日 18点41分提醒你:摘面膜”和“3、2、1……成功删除(·ω·)?”,得分4分。经过分析,小冰机器人高分原因有:第一,卖萌。通过颜文字形式的卖萌方式,增加用户对小冰机器人的好感度,提升用户和聊天机器人对话沟通的体验。第二,有代入感且口语化。借助“欧拉”“3、2、1”等拟声词,营造人与人沟通中的口语化情境氛围,增添亲和力。第三,识别了问题且拟人化抒发了感情。小冰机器人准确识别用户需求,并给予准确时间点反馈,有效解决用户需求。针对“差劲的点”,小明机器人的回答是“她跪地40分钟,膝盖破了都不顾,就为…这是我见过最美的伤疤!”和“国家货运平台第一时间向震区货车司机发送提醒”,得分1分。经过分析,小明机器人低分原因有:第一,答非所问。小明机器人的回答不仅没有解决用户的提醒需求,且提供了跟用户期待完全相反的回答,十分影响用户体验。第二,给用户不想要的帮助。用户跟小明机器人聊天是希望得到提醒服务,而小明机器人提供了新闻服务,与用户期待不相关。因此,在第一轮聚类分析中,将“卖萌”“有代入感且口语化”和“识别了问题且拟人化抒发了感情”放入“优秀的点”,将“答非所问”和“给用户不想要的帮助”放入“差劲的点”。其它问题依次类推,最后得出第一轮聚类分析下的“优秀的点”和“差劲的点”。
在第二轮聚类分析中,将“优秀的点”和“差劲的点”进一步精简,将长句转变为短句子。例如,将“有代入感且口语化”拆分为“代入感”和“口语化”,其它长句依次类推。针对不同表达但意思相同的重复长句,取最能概括其主旨的长句并将其简化。第三轮聚类分析主要是针对简化过后的短句合并同类项,将第二轮聚类后“优秀的点”和“差劲的点”中相似性较高的放进一组,做到组内对象相似性较高、组间对象相似性较低,如“口语化”“代入感”“提建议”和“发相关(歌曲、新闻)给用户”同属于日常表达层面,故将其放入同一类别。第三轮聚类后得到的19条“优秀的点”和12条“差劲的点”即为以用户为中心的对话策略,详见 图4。
4.2 研究结论
由表2可知,小冰机器人和小影机器人均分最高,达到2.7分,紧随其后的是小i机器人、小度机器人、trio机器人和小明机器人。除小明机器人得分较低,其它机器人评分差异不大。通过上述分析,以用户为中心的对话策略应该做到:
(1)在表达层面,要让人工智能的表达更具口语化,让用户有代入感。当聊天机器人遇到难回答问题时,可以给用户发一些相关的歌曲或新闻,转移用户注意力,通过巧妙地引发新话题,化解矛盾,提升聊天机器人对话的用户体验,使用户和聊天机器人交互有更好的满足感。聊天机器人也可以在对话过程中,通过给用户提一些小建议,例如建议用户换一种聊天机器人能理解的方式提问,或者换一种话题,提升用户对聊天机器人的惊喜度。
(2)在情感化层面,卖萌、幽默的回复方式,能提升用户对聊天机器人的好感。聊天机器人在对话过程中,适当的卖萌能够缓解尴尬,使用户更加喜欢跟聊天机器人聊天。且逗比、幽默的性格,能使用户愿意持续跟聊天机器人聊天,也能使用户更容易原谅和忽视现阶段聊天机器人在功能服务面上的缺陷。如果聊天机器人可以拟人化地抒发感情、引导用户与之互动,使用户体验到智能化聊天机器人服务,也能提升用户对聊天机器人的喜爱。聊天机器人也可以在对话中增添部分情感化回复,如使用“亲爱的”“爱你”等词语,拉近和用户之间的距离。
(3)避免机器人的自娱自乐和答非所问,聊天机器人可以主动引导用户谈论机器人熟悉的话题。聊天机器人可以在表达层面拒绝官方话术和尴尬聊天,避免让用户产生距离感。所以避免机器人的自娱自乐,是我们需要关注的一个问题。其次,在理解层面,聊天机器人首先应该做到不要答非所问和频繁推送跟用户需求不相关的信息。当面对没有准确回答的问题时,聊天机器人可以跟用户解释暂时不知道如何回答这个问题,主动引导用户开展新的话题,并推荐用户自己熟练的功能,将用户的话题引到聊天机器人熟悉的领域中,提升用户体验,实现聊天机器人体验的良性循环。
5 结语
本文运用设计思维的发散-收敛法,创新性地研究聊天机器人的对话策略,经过三轮聚类提出以用户为中心的对话策略。由于策略来源于科学的、计划的评分设定,且研究过程紧跟机器人对话,依据三轮聚类分析,研究结论具有极强的可实践性和可操作性,可以运用到医疗、企业服务、生活助手等领域的聊天机器人对话回复策略设计中。通过改进聊天机器人对话回复策略,可以使聊天机器人进一步拟人化,进一步提升用户和聊天机器人对话过程中的满意度。
在未来的研究中,可以从评分设定、打分、评估方面进一步改进对话策略。在评分设定中,可以增加新的评分指标,从多方角度来评估聊天机器人的对话,在打分环节,可以邀请更多被试者参与给聊天机器人的打分,通过计算多人的评分均值,降低误差,使结论更加趋于稳定。在评估方面,可以邀请专家和用户共同评估,从聊天机器人使用者和聊天机器人生产者两个角度来改进聊天机器人对话策略。通过优化聊天机器人对话策略,并邀请各行各业专家、机构参与评定,在未来可逐渐形成如尼尔森十大交互原则[11]一般的聊天机器人对话策略准则,规范全球聊天机器人对话回复策略设计。同样,未来也可以同医疗领域相结合,针对老年人用户,研发专业型、应用型的聊天机器人对话,提供智能医疗聊天机器人对话服务,满足他们在疾病治疗、健康养生等方面的需求。
参考文献
[1]Ciechanowski L, Przegalinska A, Magnuski M, & Gloor P. (2019). In the shades of the uncanny valley: An experimental study of human–chatbot interaction. Future Generation Computer Systems, 92, 539-548.
[2]Bullinger H J, Ziegler J, & Bauer W. (2002). Intuitive human-computer interaction-toward a user-friendly information society. International Journal of Human-Computer Interaction, 14(1), 1-23.
[3]F?lstad A, & Brandtz?g P B. (2017). Chatbots and the new world of HCI. interactions, 24(4), 38-42.
[4]Cameron G, Cameron D, Megaw G, Bond R, Mulvenna M, ONeill, S., ... & McTear, M. (2018, July). Best practices for designing chatbots in mental healthcare–A case study on iHelpr. In Proceedings of the 32nd International BCS Human Computer Interaction Conference 32 (pp. 1-5).
[5]Fang H. (2019). Building A User-Centric and Content-Driven Socialbot (Doctoral dissertation).
[6]Ren R, Castro J W, Acu?a S T, & de Lara J. (2019, July). Usability of chatbots: A systematic mapping study. In Proc. 31st Int. Conf. Software Engineering and Knowledge Engineering (pp. 479-484).
[7]Chasanidou D, Gasparini A, & Lee E. (2014, October). Design thinking methods and tools for innovation in multidisciplinary teams. In Workshop Innovation in HCI. Helsinki, Finland: NordiCHI (Vol. 14, No. 2014, pp. 27-30).
[8]Chasanidou, D., Gasparini, A. A., & Lee, E. (2015, August). Design thinking methods and tools for innovation. In International Conference of Design, User Experience, and Usability (pp. 12-23). Springer, Cham.
[9]劉蓉, 陈波. 基于微信公众平台的招生咨询智能聊天机器人[J]. 软件, 2018, 39(6): 49-57.
[10]消费电子产品智能音箱评测及标准化研究报告[R]. 北京:中国电子技术标准化研究院, 2018: 1-61.
[11]Nielsen J. (1995). 10 usability heuristics for user interface design. Nielsen Norman Group, 1(1).