自动驾驶汽车-行人交互研究综述*
2021-09-29胡宏宇刁小桔高菲高振海
胡宏宇 刁小桔 高菲 高振海,
(1.吉林大学,汽车仿真与控制国家重点实验室,长春 130022;2.吉林大学,汽车工程学院,长春 130022)
主题词:自动驾驶汽车 人机交互 行人意图识别 行为预测
1 前言
自动驾驶是影响未来移动出行的关键技术之一[1-2],可带来高效、便捷的出行体验[3]。国际自动机工程师学会(Society of Automotive Engineers,SAE)详细定义了驾驶自动化的6 个级别[4]。其中,L3 级以上的高级别自动驾驶是目前产业界与学术界关注的重点。随着自动驾驶的核心技术,如环境感知、路径决策规划、运动控制技术的不断成熟,以及车载硬件算力、通信性能的进一步提升,自动驾驶汽车已在部分城市开放道路进行测试应用[5]。由于行人等交通参与者的运动行为具有随机性,城市道路场景涉及的人、车混行交通对于自动驾驶汽车来说极其复杂。因此,为了加快自动驾驶汽车在城市路况下的安全高效应用,自动驾驶汽车与其他交通参与者的交互问题逐渐成为研究热点,受到众多汽车企业及科研机构的关注。
自动驾驶车外人机交互旨在通过有效的交互显示方式,使其他交通参与者快速有效地理解当前车辆的行驶意图并做出合理决策,提升交通参与者对自动驾驶汽车的信任度和接受度。这项技术对于确保交通使用者安全、提高交通运输效率、减少拥堵具有重要的意义。
本文针对自动驾驶车外人机交互关键内容开展综述研究,阐述交互的分类和意义,着重探讨行人与智能汽车的交互,从行人检测与跟踪、意图识别及行为预测,自动驾驶汽车的决策、意图表达和人机交互界面设计等方面展开现状调研,进而总结车外人机交互方式质量评估的方法,最后提出车外人机交互界面未来的发展需求。
2 自动驾驶人机交互分类
自动驾驶人机交互技术可以划分为车内人机交互与车外人机交互。本文重点关注后者。
2.1 车内人机交互
车内人机交互可以分为被动式和主动式交互。被动式交互即由人向机器输入指令,机器执行并输出结果反馈给人,这种交互方式通常需要驾驶员将视线从路面上移开,可能会带来安全隐患。主动式交互是指机器可以主动从外界获取信息并进行决策判断,这种交互方式可以使驾驶员专心完成驾驶任务甚至非驾驶任务,精确和无感知的主动交互可以减少驾驶干扰和提升信息传递效率。
2.2 车外人机交互
2.2.1 人工驾驶时期
人工驾驶时期,车辆由驾驶员控制,驾驶员与行人之间的互动成为交通正常运行的一个关键问题。在没有信号灯的情况下,为保证混合交通的高效性及驾驶员与行人双方的安全,驾驶员和行人通常会预测其他道路使用者的意图和轨迹[6],并寻求通过有意的交流互动建立相互的情景意识[7]。通过检测和分析行人在各种条件下穿越(或试图穿越)街道时的行为[8]及驾驶员对意图通过人行横道的行人的反应[9],可以确定驾驶员与行人成功交互的影响因素,如驾驶员的行为、与驶近车辆的距离、车速等。在距离较近且速度较低的情况下,驾驶员和行人能够通过手势、头部动作、目光接触、车辆信号(例如闪光灯或喇叭)以及表示意图的身体动作来相互交流[6,10]。但当远距离交互时,明确的沟通很少或根本不存在,此时车辆的运动模式和行为对行人起着更重要的作用[11]。
2.2.2 自动驾驶时期
随着车辆自动化水平的提高,驾驶员可以从事与驾驶无关的任务,例如阅读、社交或睡觉,此时驾驶任务部分甚至全部由车辆承担,驾驶员与其他交通参与者的交互变成了自动驾驶汽车与其他道路使用者的交互,人机交互因此也从车内扩展到车外,由此产生了新的设计挑战,包括从驾驶员到道路使用者的视角变化,以及从由人操纵的系统到在公共空间主动做出决策的智能系统的视角变化[12]。研究发现,随着控制权的转移,行人感知的安全性可能会降低,过马路的意愿下降,沟通需求发生了变化,为了确保安全地交互,亟需以其他方式(例如通过外部车辆接口)向行人提供相应的信息[13]。
3 自动驾驶车外交互意义
保证道路交通安全是自动驾驶的第一要务。交互的目的是在混合交通环境中确保所有道路使用者,特别是弱势道路使用者(Vulnerable Road Users,VRUs)的安全[1]。其次,自动驾驶汽车与其他道路使用者的有效互动可以提高交通运输的效率,减少拥堵。
由于行人是道路使用者中的重要组成部分,且行人经常不遵守交通规则穿行道路,他们的行为具有高度不可预测性,由行人不恰当地穿越道路而导致的死亡人数约占行人总死亡人数的50%[14]。研究结果表明,与车辆的意图未知时相比,当车辆的意图被传达时,行人的反应更积极、更具可预测性[15],行人更有信心过马路[16]。当行人与自动驾驶车辆相遇时,如果车辆的行驶模式和意图能够有效地传达给行人,行人感知安全性将大幅提高,进而增加自动驾驶汽车的接受度[17]。
因此,可靠有效的交互对于所有道路使用者来说均具有重要的意义,到目前为止,自动驾驶技术尽管取得了良好的进展,但仍有许多困难有待克服,例如在恶劣天气条件下的精准识别,可靠地预测行人和自行车骑行者的意图和行为[18]等。除此以外,由于我国交通法规并没有规定车辆在任何情况下都要让路于行人,特别是在无信号灯的交叉路口,如何使自动驾驶汽车像驾驶员一样能够与行人互动并做出合理决策也是本文探讨的主要内容。
4 自动驾驶车外人机交互支撑技术概况
自动驾驶车外人机交互的前期支撑技术主要包含交通参与者的检测与跟踪及其行进意图识别与行为预测等几个组成模块。
4.1 行人检测与跟踪
自动驾驶的环境感知系统主要包括目标检测、道路和车道检测、目标跟踪[3]。行人检测是目标检测的典型实例,如图1 所示,由于其研究成果在汽车安全、监控、机器人、老年人和残疾人护理方面的潜在应用[19-20],近年来引起了广泛关注。行人属于动态对象,行为随机,外表颜色多样,对行人的检测相对较难。目前行人检测主要通过传统机器学习和深度学习的方法。
图1 行人检测实例[21]
基于传统机器学习的方法主要基于特征构建结合浅层分类器的方式实现,具体的方法主要有Viola &Jones检测器、梯度方向直方图结合支持向量机、可变局部检测器等。大多数行人检测方法基于手工提取特征,在复杂场景下准确率较低[21],且运算成本很大,较难在实车计算平台上普及应用。随着深度学习算法,特别是卷积神经网络的不断发展,许多计算机视觉任务(如图像分类、目标检测和分割)的准确性得到提升[22],行人检测和跟踪已经成为计算机视觉研究的一个重要领域[19],逐步出现了基于深度卷积神经网络及其改进形式等诸多方法[20]。Zhao 等人利用基于快速反应神经网络框架的卷积神经网络提取鲁棒的行人特征,实现复杂环境下高效的行人检测[21]。Tomè 等人提出了一种基于深度学习并采用通用卷积网络的行人检测系统,该系统优于传统方法的体系结构,实现了较高的任务精度和较少的计算时间[22]。除了采用深度学习,Toker 等人提出毫米波雷达算法,通过从雷达图像中提取某些特征区分雷达视场中的行人和车辆,其在不同的光照和环境条件(例如白天、夜晚、雾天等)下运行无需进行大量的计算[23]。
在各种可跟踪对象中,人体跟踪除与图像分割相关的问题外,还需考虑大量条件和变量,因而变得非常困难。视频跟踪允许在一段时间内使用多个传感器定位和跟踪单个或多个对象,来自立体视觉或深度相机的三维附加信息可用于跟踪行人在三维空间中的位置,其中感兴趣区域(Regions of Interest,ROIs)的识别是大多数计算机视觉应用(包括目标跟踪)中最重要的一步[19]。
4.2 行人意图识别与行为预测
行人是VRUs之一,其意图识别及行为预测对智能汽车的主动安全系统与车外人机交互至关重要[24]。
对行人进行意图识别与行为预测,首先要了解影响行人对过马路进行决策的因素。研究结果表明,行人的穿越决策除了与接近的车辆的距离、道路基础设施特征如道路宽度和斑马线的存在外,还受到参与者的年龄、性别、对自动驾驶车辆的熟悉程度以及接近的车辆是否为自动驾驶车辆的显著影响[25-26]。此外,个体的特定特征,如冒险和违反交通规则的意愿,以及对自动驾驶车辆的信任也是影响决策的主要潜在因素之一[25-26]。
行人的意图可以通过观察其过去和现在的行为来评估,包括运动轨迹、当前的活动和环境,如图2 所示。纯粹依赖于数据意味着假设在所有相关信息都为系统所知的情况下对行人行走方向进行建模,这些模型要么基于动态信息,例如行人的位置和速度,要么考虑场景的上下文信息,例如行人单独行走或是成群行走,以及他们到路缘的距离等[27]。Camara 等人提出了一种新的基于在受控实验室环境中跟踪真实人类的经验协议,该协议能够推断人类对相互作用的偏好,即如何权衡时间成本和碰撞成本,将顺序鸡模型(Sequential Chicken Model)的参数与从半结构化试验环境中收集的人类行为相匹配,可以用来预测和控制行人的行为[28]。
图2 行人意图识别实例[27]
预测行人的运动尤其困难,因为与车辆相比,他们在结构化程度较低的环境中运动的随机性较高,并且惯性较小。考虑到这种不确定性,Wu等人提出了一种使用马尔可夫链对行人运动进行概率预测的方法,明确地根据与其他交通参与者的碰撞概率来调整预测,如图3所示[24]。Camara等人通过建立识别行人的肢体语言、手势和人口统计信息的系统以预测他们可能的目标和行为,目前主动控制行人互动的模型,包括博弈论模型,仍处于起步阶段,可靠地感知、检测、识别和跟踪行人可以为建模交互和博弈论模型提供足够的数据[29]。
图3 行人轨迹预测[24]
4.3 自动驾驶汽车的决策
在无信号灯的路口发生过街行为时,并没有交通法规规定一方必须让路于另一方,由此行人和自动驾驶汽车通过争夺此道路共享空间获得优先使用权,利用交互进行协商,这是一个基于博弈论的互动[30]。所以对行人行为进行预测后,自动驾驶汽车也应根据当前情境进行分析决策,而不是在决策算法中被设计为每当行人进行阻碍时就停止。由于在无信号的路口几乎没有针对行人的交通法规,发生交通事故很难判定责任,如果自动驾驶汽车总是让步于行人,行人可能会以为自己在每次交互中都被优先考虑和让行而无理由地横穿马路[31]。此外,自动驾驶汽车的发展也将停滞不前。为了使自动驾驶汽车能够决定何时采取行动,Camara等人收集和分析了来自真实世界人类道路交叉口的详细的、手动注释的时间数据,并结合这些数据开发了新的实时视听控制器[30]。
5 自动驾驶汽车行驶意图表达
5.1 交互需求及表达方式
自动驾驶汽车行驶意图的表达主要有2种方式:一是隐性交互,即车辆自身的运动,例如减速则行人知道汽车将会让行[32];二是显性交互,即通过车外人机交互界面进行,非正式通信不足时,外部人机界面(External Human-Machine Interface,eHMI)可以通过向其他交通参与者提供相关信息来增强行人与自动驾驶汽车之间的安全和有效通信[33]。研究发现,行人更可能使用运动信息了解车辆的意图[34],隐性沟通(即车辆速度、轨迹和距离)被认为是主要的沟通方式[5],然而,Song等人的试验证明了隐性(仅靠车辆自身运动而无eHMI)和显性(有eHMI)通信的交叉频率和反应时间存在显著差异[35]。Lagström 等人的调查发现,行人很容易理解eHMI 传递的信号,并认为其沟通更清晰,更可用[36]。外部界面与车辆物理行为的良好结合有助于提高行人在互动中的安全感和舒适感[32],隐式和显式沟通的结合更加有助于行人理解车辆的意图[37]。
车辆与行人交互时行人需要的通信信息可以分为车辆的状态、车辆的意图和车辆对行人的建议,如图4所示。其中状态信息可分为识别信息、速度信息和驾驶模式信息,识别信息意味着eHMI 表示它是否已经识别或感知到行人,速度信息表明车辆行驶的速度以及车速是否在变化,驾驶模式信息表明此时车辆是自动驾驶还是手动驾驶;意图信息描述了车辆在下一时刻将做什么;对行人的建议表示自动驾驶汽车对行人是否可以安全通过的指示[32]。
图4 自动驾驶汽车的车外交互信息表达
如图4所示,相关信息的传递普遍使用视觉或听觉通信通道,视觉信息可以以文字、图标或灯光图案的形式显示在屏幕上或投射在路上[38],听觉信息可以通过信号音或语音表达。Montalvo 等人[39]认为目前eHMI 主要包括如下几个部分:文本信息,通常显示在车辆前风窗玻璃上且有颜色;符号,与人行横道中使用的符号类似的绿色或红色的“人”;发光二极管照明,表示情感,例如微笑;穿过车辆前方的条带,利用不同颜色及灯光变换来表示“走”与“停”,如图5所示。考虑到视觉或听觉受限的行人的需求和某种形式的限制[32],使用视觉、听觉和车辆物理运动模式的组合,可以最清晰、最准确地解释自动驾驶的行为含义。
图5 灯光信号所传达的信息实例[17]
5.2 外部人机交互界面(eHMI)
5.2.1 设计原则
5.2.1.1 考虑人的心理需求和交流习惯
自然界中生物的交流方式有姿势、手势、面部表情、颜色和生物发光等,Oudshoorn 等人根据自然界中生物通过视觉信号的意图交流,观察到手势和颜色可用于所有意图交流,并提出了将生物学上的交流方式转化为eHMI 的设计理念,如仿照章鱼、老鼠遇敌时的行为,采用调节车身高度位置表示让行与否[40]。人类互动时更倾向于进行眼神交流,由此一些研究人员认为拟人化的交流更能提升行人过街体验,但其设计形式及有效性还有待评估。
5.2.1.2 保证传达信息易于理解且直观明确
无人驾驶汽车的行为和意图应通过直观、容易理解和能被普遍理解的方式来传达,否则可能会导致这些交互者之间的混淆和互动冲突,降低交通效率[41]。Liu等人总结了外部自动驾驶汽车与行人(Autonomous Vehicle to Pedestrian,AV2P)通信接口设计的注意事项,揭示了通信接口应该是可理解的、简洁的、突出的和明确的[32]。Lee 等人[42]评估了10 个不同的eHMI 信号,如“我将让行”“我在自动驾驶模式”“我将起步”、360°光带的变体、定向灯和听觉信号传达信息的程度,结果表明,设计eHMI时需要避免呈现误导性的、潜在不安全的信息。
5.2.1.3 颜色与外观的标准化使用
为了方便行人理解,应用于eHMI上的文字、灯光或者图标的颜色应该类似于当前各种交通信号的国际标准颜色,如红色表示停止[43]、绿色表示通行等,同时这也符合长期以来人类的使用习惯。Montalvo 等人建议为其他道路使用者和执法机构提供车辆以自动模式行驶的外部指示,这一指示的外观应标准化[39]。颜色和外观的标准化也有利于自动驾驶汽车在不同文化背景的国家使用时行人能够快速理解显示信息。
5.2.1.4 合理设计eHMI的放置位置和可见度
eHMI 的放置位置对交互的成功与否有重要影响,Troel.Madec 等人对自动驾驶车辆的哪些部分在行人视野中最突出做了调查,结果表明,只有当车辆是第1辆时,视觉反馈在车辆前部放置才是最佳的[44]。在其他情况下,车辆前部的能见度随着车辆在车流中的排位而降低。此外,由于天气、路面条件等客观因素对eHMI可见度产生的影响也不容忽视,eHMI设计时应考虑显示信息在不同环境下的亮度和清晰度。
5.2.2 交互方式质量评估
目前,已有多项研究通过设置不同的eHMI 作为试验变量,通过统计试验参与人员的决策时间等对eHMI的交互质量进行评估,如表1所示。
表1 不同车外人机交互界面试验设置与结论
通过对这些研究的试验结论进行梳理,结果表明,在有eHMI 的情况下行人可以更快地做出决策,但不同eHMI 都具有各自优缺点。例如,文本信息被认为是最清楚的[45],但是需要翻译成不同的语言,且很难从远处阅读且需要时间阅读[5]。Löcken 等人的研究发现,试验参与者认为最为安全的互动方式为在街道上投射一条斑马线[46],表示他们可能会穿过,但基于增强现实的投影可见度却容易受到天气或者路面等环境因素的干扰。一些人认为附加信息,例如关于行人的当前感知位置或汽车的当前状态等是不必要的[46],但是某些研究则认为拟人化的信息表达可以增强行人对自动驾驶汽车的信任。对行人的指示比其他信息具有更高的主观清晰度等级[47],但在多个交互对象存在时可能会产生混淆,所以Liu 等人认为eHMI 应该传达车辆的状态,表明车辆预期的行动,而不是干预行人自己的决策[32]。相比实际道路场景实车试验,通过虚拟现实设置实验变量进行不同试验条件的组合对eHMI进行质量评估更为快速高效,可操作性强,如图6所示。
图6 虚拟仿真验证中30种车外人机交互界面设计实例[55]
5.2.3 eHMI发展面临的挑战
5.2.3.1 交互为一对多的情况发生信息传达的混淆
由于行人分散分布,针对性的交流将导致对象混淆,所以eHMI 应该传达他们的状态,仅在需要时传达附加信息[46],不是指示VRUs做什么,告诉行人穿越或停车,干预行人自己的决策,而应该表明车辆预期的行动[32]。目前对于多行人的复杂通信情况,如何使AV2P通信有效工作而不产生任何不明确和误解的研究仍然不足[32]。
5.2.3.2 eHMI的设计尚未考虑特殊的用户群体
设计额外的指示信息时,需要考虑特殊的用户群体(例如视力受损、听力受损等残疾人士)[39,46]。残疾人是交通中最脆弱的道路使用者,发生事故的风险要高得多,需要某种特殊形式的外部通信,以便传达自动驾驶车辆意图[46-47]。
5.2.3.3 eHMI受环境因素的影响
不同的环境条件,如明亮的阳光、雪、雾和沙尘[46]会造成显示器可见度降低,路面条件对于采用投影人行横道等方式也有一定影响,当由此发生显示问题如何确保行人不会误解还有待探讨。
5.2.3.4 行人过度依赖eHMI
当行人不加思考地遵循eHMI 的信息而进入道路,过度依赖eHMI而不观察车辆自身的运动和减少对交通状况的关注[32]时,可能会发生误用,因此需要对VRUs进行eHMI能力教育[48]。
5.2.3.5 eHMI的规范与标准化
人们对eHMI 的理解会受到文化的影响,为了检验跨文化环境eHMI 的潜力,Weber F 在德国、美国和中国进行了3项虚拟现实研究,研究表明,当向行人让步时,eHMI 在德国和美国的意图识别方面表现出优势,然而在中国,eHMI 并没有表现出这些效果[49]。当汽车制造商面临产品出口多个国家的情况时,为了不针对不同文
化背景的国家进行不同的eHMI的开发,国际上对eHMI的规范使用标准的制定应提上日程。
5.2.3.6 法律责任问题
eHMI 的使用并非强制行人决策,而是基于建议的沟通,这可能会引起责任问题[32]。当行人并未按照指示行动时若发生事故,责任方的归属等问题还待进一步讨论以及完善相关法律体系。
5.2.3.7 更多eHMI应用场景的开发
随着汽车的共享化和电动化发展,eHMI 将有希望应用在更多的场景。如:充电场景下,通过外部屏幕来显示充电量;共享出行场景下,车辆可以显示时间、地点、天气情况等,更好地与乘客进行交互。
6 结束语
本文讨论了车内人机交互、人工驾驶时期和自动驾驶与人工驾驶混行交通时期的车外人机交互,详细阐述了自动驾驶汽车车外人机交互在交通安全和运输效率方面的重要意义,展开了以行人为中心的车外人机交互支撑技术的概况,从隐式和显式沟通两个方面分析了车外人机交互的通信需求,论述了eHMI的4个设计原则,结合多项前沿研究展现了虚拟现实技术在交互质量评估上的重要应用,最后提出了7 个目前eHMI 面临的挑战并对其发展提出了展望。