特斯拉距离自动驾驶还差几步?
2022-06-13马点秋
马点秋
特斯拉轭式方向盘
对于中外同行而言,特斯拉是公认的行业标杆,实现了产品的垂直整合、全栈自研,因而在制造智能电动汽车方面,具有最大的灵活性和高效率。
近日,特斯拉首席执行官马斯克在All in Summit技术峰会上表示,要在今年年底将参加FSD Beta测试的人数,从现在的10万人扩大到100万人。
这一在2020年10月发布的自动驾驶测试版软件,至今已历经数十次更新,可以看作特斯拉在实现L5级自动驾驶这一终极目标上的垫脚石。但该计划目前仅对北美地區用户开放,候选车辆需要搭载特斯拉HW3.0自动驾驶硬件平台,并且对申请人的驾驶习惯评分也有一定要求。
那么,为何马斯克选择在今年,大幅降低FSD Beta的申请门槛?特斯拉所采用的纯视觉自动驾驶路线,又有何特殊价值?
虽然FSD Beta几乎代表着目前家用级乘用车在自动驾驶领域的最高水准,但本质上来说,其仍然属于L2自动驾驶的范畴,出现紧急情况时,仍然需要驾驶员及时接管,并且车企不对开启状态下发生的事故负责。
根据驾驶自动化分级标准,“是否驾驶人在驾驶车辆”,是L2与L3及以上自动驾驶技术的分水岭。L3自动驾驶意味着发生事故以后的责任,要由车企承担。
目前世界上仅有一家乘用车企奔驰,宣布对旗下的Drive Pilot L3自动驾驶系统导致的驾驶事故负责,且其约束条件极为苛刻。而特斯拉旗下车辆在“Autopilot”(自动驾驶)状态下发生的亡人事故已有多起,为何还要在此时宣布将大规模增加测试用户的数量呢?
这还要从当前自动驾驶技术的核心—深度学习—讲起。
深度学习并不是一个新概念。其所依赖的神经网络早在1943年,就由美国心理学家麦卡洛克和数学家皮茨提出,在上世纪末计算机蓬勃发展的时期,受到学界的重视。
最近麻省理工(MIT)计算机科学和人工智能实验室公布的一段视频显示,人工智能领域大神Yann LeCun在1990年代初,便创造了速度极快的AI数字识别系统。而2006年杰弗里·辛顿发表的一篇文章,则让人们意识到,通常用来渲染游戏等3D画面的GPU图形处理器,可被用于大大加速神经网络的学习速度。
特斯拉首席执行官马斯克
使用Mobileye技术的无人驾驶汽车
左图:自动驾驶巨头Waymo发布会。右图:英伟达Xavier自动驾驶芯片
之后的AlphaGo与韩国棋手李世石的世纪大战,更是让深度学习“出圈”—全世界的人们意识到,只要拥有足够多的样本与算力,深度学习可谓无所不能。
而深度学习技术应用到自动驾驶中,就是通过收集的大量路测数据,在经过人工和自动化标注后,放到超级计算机上进行反复训练,得到训练完毕的自动驾驶模型,从而赋予车载人工智能理解道路状况的能力。
然而,基于深度学习的自动驾驶技术,实际上非常依赖于其训练样本。机器首先需要理解车辆所能遇到的所有可能的危险状况,才能相对应做出正确的决策。
针对这一问题,自动驾驶巨头Waymo和绝大多数车企的做法,都是以尽量多的路测里程,尝试覆盖所有可能出现的长尾场景。
而特斯拉作为全球范围内汽车保有量最多的自动驾驶企业,在这一点上具备独一无二的优势:每一个用户实际上都可以成为其数据收集员,将自身的日常行驶数据进行脱敏处理后,上传到特斯拉的“超级大脑”—由25个特斯拉自研深度学习处理器D1组成的“Dojo”道场超级计算机中,进行日夜无休的重复训练。
道场超级计算机1.1 EFLOPS的运算速度,是上述1990年代MIT实验室那台用于数字识别的计算机算力的550亿倍。如此恐怖的计算能力,自然具备同时处理大量训练样本的能力。这大概就是特斯拉放开自动驾驶系统测试名额限制的一大原因。
而有了更多的参与测试者与强大的超级计算机,特斯拉的自动驾驶系统迭代将更快,也就能尽早摘得L5级自动驾驶的桂冠。
有趣的是,成为一个优秀的人类驾驶员,并不需要学习大量的长尾场景,因为和如今的人工智能相比,人脑的“泛用性”更强一些,在很多小概率事件面前可以做出相对合理的选择。
然而,自动驾驶对于模型内已经覆盖到了的危险场景,往往能够处理得相当完美与从容,而且能让汽车在面对道路突发状况时,在极短的时间内完成信息收集、感知预测、决策执行这三个关键步骤,实现超越人类认知能力与反应速度极限的规避动作。这也是马斯克坚信自动驾驶比人类驾驶更加安全的原因。
聊完了软件,我们再来聊聊硬件。
自动驾驶的硬件江湖,目前大致可分为两大阵营:以国产造车新势力为代表的多传感器融合路线,和以特斯拉为代表的纯视觉感知路线。
马斯克从其著名的“第一性原理”出发,坚持认为纯视觉方案是人眼与机器达成和谐统一的唯一路径。北美地区自2021年5月起交付的Model 3和Model Y上的辅助驾驶系统,就只装配了8颗摄像头;而2022年2月起,交付的高端车型Model S和Model X,不再配备雷达。
取消了所有的雷达配置,显示了马斯克将纯视觉方案死磕到底的决心。而这一方案的基石,便是由设计了AMD“Zen”系列架构的硅谷芯片大神Jim Keller,与Jim的继任者,曾负责苹果A5到A9处理器的Pete Bannon共同设计的FSD自动驾驶芯片。
这颗芯片于2018年底宣布研发成功,单颗算力达到了72 TOPS(万亿次每秒,衡量自动驾驶芯片算力的单位),并在2021年初作为HW3.0硬件平台的核心,搭载在特斯拉旗下一众车型上,代替了此前使用的算力仅为1 TOPS的英伟达Parker系列芯片。
相对应的,国产造车新势力近年的自动驾驶配置,仿佛也成为了各大厂商“秀肌肉”的舞台:激光、毫米波、超声波雷达和摄像头数量不断刷新上限,而自动驾驶芯片的算力更可谓进展神速。
英伟达在2017年公布的Xavier自动驾驶芯片,以32 TOPS的算力碾压了当时算力普遍在2 TOPS徘徊的竞争对手。但在2020年量产上市后,以小鹏P7为代表的诸多车型中搭载的Xavier在车主的手里还没捂热,英伟达就宣布其下一代自动驾驶芯片Orin将在2022年初交付车企,算力高达252 TOPS。
Mobileye的三维立体环境模型
特斯拉自动驾驶示意图
在去年的GTC图形技术大会上,英伟达又宣布将在2025年推出算力高达1000 TOPS的Atlan自动驾驶芯片。而以华为200 TOPS的MDC610,和地平线128 TOPS的征程5为代表的国产阵营,以及高通预计明年上市的Ride系列,也都在這片市场中挣扎求生。
车载芯片的算力指标,仿佛代替了发动机的马力,成为了智能车时代各大车企新的发力点。
但在如今自动驾驶芯片“百花齐放”的盛况背后,却是以色列老牌自动驾驶技术解决方案厂商Mobileye长达十余年的技术垄断。
直到2014年,特斯拉宣布研发初代自动驾驶技术时,所采用的仍然是Mobileye所提供的“黑箱式”自动驾驶算法。车企仅能得到Mobileye自动驾驶系统所给出的计算结果,无法得知算法的具体逻辑,也无法针对使用地区的特点,对算法进行更改与调校。
取消了所有的雷达配置,显示了马斯克将纯视觉方案死磕到底的决心。
这样的模式,在传统车企间流行了很长一段时间,但显然不能让技术狂人马斯克满意。
特斯拉研发出第一代自动驾驶芯片后,造车新势力纷纷转向自研或开放式芯片的怀抱;Mobileye也日渐式微,在2017年被芯片巨头英特尔收购;其在2020年推出的Eye Q5芯片,也给予了汽车厂商自定义算法的权限。
Mobileye并非没有技术实力,其在Eye Q5芯片上应用的解决方案Super Vision,实现了用7个远距单目摄像头构建完整的SFM(Structure From Motion,三维立体环境模型)的壮举,将其单目摄像头与传统算法的技术优势地位发挥到了极致。
但其前几年的“不思进取”,让各大厂商纷纷研发出了自己基于多传感器融合的深度学习算法。虽然Mobileye在相比深度学习困难得多的传统算法领域,仍然无人能敌,但其在自动驾驶市场的垄断地位已经一去不归了。
理性来看,融合方案与纯视觉之争,其实是成本与效率之争。融合方案能够得到更加确切的车身周围的环境信息,但激光雷达的高成本,与对来自多重数据源数据的时空标记和汇聚,成为了车企当下面临的难题。
而纯视觉方案采用的摄像头虽然成本较低,但需要在浩如烟海的样本数据中,寻找到有效场景,并对其进行标注,再将其作为模型训练。这对企业的数据收集和深度学习能力,提出了极高要求。
这场比拼,鹿死谁手犹未可知,但它带动着激光雷达、机器人、自然语言理解等领域在近几年飞速发展,至少能让人们相信,我们正走在一条光明的道路上。