2024年已过去一半,今年能否成为“端到端”上车元年?面对终局之战,几家新势力代表车企立下“端到端”上线时间表。
小鹏、理想、蔚来的策略,有别于特斯拉提出的借助完全依赖神经网络处理的“端到端”大模型,解决长尾问题(corner case)——神经网络只是其中一个环节。说起来,国内智驾行业论坛聊起来都没人知道特斯拉到底是怎么做到的?英伟达汽车事业部副总裁吴新宙认为,“端到端”正是智驾三部曲的最终曲。
“端到端”量产进行时
2023年8月,特斯拉FSD V12版本问世,成为首家成功量产“端到端”架构的车企。今年2月,特斯拉将基于“端到端”架构的FSD V12版本向部分普通用户推送,启动商业化运营。
FSD V12的流畅性、令人惊艳的体验感,初露锋芒。2024年5月,小鹏宣布“端到端”架构上车。
整体来说,以车企为代表,“端到端”有三大派:整车厂、自动驾驶企业、学术机构。学术界和工业界切入“端到端”大模式甚至早于特斯拉。
车企方面,蔚来、理想、小鹏、小米、极越、智己、广汽、长城、极氪等,成为国内第一批公开行动或表态者。蔚来采取的是渐进式“端到端”大模型技术路线。目前,理想正在做“端到端”架构的封闭开发。小鹏的“端到端”大模型,据说未来能实现2天一次迭代;未来18个月内,智驾能力提升30倍。
除了“蔚小理”,还有几家车企态度比较明确。
去年12月28日,雷军在小米汽车发布会上宣布:“小米汽车首次运用自研的‘端到端’感知决策大模型。”他还称,这是全球首次将“端到端”感知决策大模型应用于量产车。极越CEO夏一平表示,“下一步的研发重点将是‘端到端’大模型。”
智己汽车联席CEO刘涛称,“目前,智己汽车正在全力推动‘端到端’架构应用,创造更像人的智能驾驶体验。”据悉,智己正在和Momenta合作,推动“端到端”智驾大模型量产应用。
广汽研究院也表示,正在探索“端到端”自动驾驶方案,并取得了初步成效。
长城(毫末智行)表示,将对自动驾驶认知决策模型进行持续优化,实现“端到端”自动驾驶。
一些车企采取了比较谨慎的措施,比如极氪。极氪内部认为,在数据量不充分、安全性难以保证的当下,更多将“端到端”技术路线作为预研项目。
整体来说,大部分车企和极氪类似,认可“端到端”的发展趋势,方向非常明确。
二是智驾供应商,已经有多家供应商发出比较坚定的技术转向声音,并有方案正在推出。目前,包括华为、Momenta、元戎启行、商汤绝影在内的头部企业已经公开“端到端”自动驾驶方案在2024-2025年上车的规划。
三是学术界方面,以上海人工智能实验室、跨界合作的华中科技大学(与地平线合作)、南洋理工大学(和英伟达合作),以及剑桥大学工程系团队创办的Wayve等为代表,推出多篇优秀论文。
上海人工智能实验室的自动驾驶全栈可控“端到端”方案UniAD相关研究,获得人工智能顶级会议CVPR(国际计算机视觉与模式识别会议)2023 年最佳论文,是“端到端”架构最受关注的项目之一。实际上,早在几年前,英伟达就已经在使用“端到端”深度学习,并开发出了无人驾驶的Demo系统。“端到端”的出现是相关技术长期积累的结果,但仍处于上车的初级阶段。
应对长尾问题的能力更强,不少车企或许都能实现。但是,背后容易忽视的是“端到端”大模型系统实现所要付出的成本。
“端到端”走向高端还是低端?
“端到端”架构正在分出不同的发展脉络。
在特斯拉FSD V12中,依靠神经网络模型完成的运营效果已经收到不少追捧的声音。
曾备受关注的上海人工智能实验室的自动驾驶全栈可控“端到端”方案 UniAD的提出者李弘扬,在2021年注意到自动驾驶系统开源项目 Openpilot——一个“端到端”的系统设计。相比特斯拉,他惊叹于Openpilot低成本实现的良好效果,这是他开启UniAD研究的一个关键节点。
同样是“端到端”,如果说特斯拉的“端到端”是高“端”,那么与李弘扬相关的这种低成本“端到端”可谓低“端”。这个对比或许有不恰当之处,但是仍然是一个好解释。那么,哪家的“端到端”效果最好?如何用一个简单的指标来衡量“端到端”大模型的有效性?何小鹏说,对于“端到端”大模型的硬指标,最终看接管率。今天在高速公路上行驶如果没有续航里程问题,那就可以做到1000公里接管一次。
如果在城区道路行驶100公里、300公里、500公里接管一次,那体验完全不一样。
可以对比的是,特斯拉应用“端到端”神经网络架构的FSD V12平均接管里程从此前的166英里(约267公里)提升到了333英里(约537公里)。“端到端”的实现,与BEV+Transformer模型关系十分密切。BEV+Transformer模型规模化应用,也是今天“端到端”有可能迅速成为现实的一大原因。
但是,对“端到端”怀疑的声音一直存在。
早在2016年,Momenta创始人曹旭东在回复无人驾驶“端到端”的学习(end-to-end learning)是否靠谱时指出:对于无人驾驶,“端到端”不适合开发实用无人驾驶系统,可以做Demo。然而,大规模商用却非常困难。当时,曹旭东否定“端到端”的原因有以下三点:一是不聪明。“端到端”会产生大量冗余数据和计算。与之对比,如果把整个无人驾驶拆解成感知、地图、决策三个部分,分别独立学习再融合,可以大大减少需要的数据和计算。二是不灵活。在做一些系统调整后,收集数据学习的过程,往往需要推倒重来。三是难理解。相比模块化,对于整体“端到端”学习,一旦出现问题,因为无法对症下药,容易产生黑箱难题。
时隔多年,这些问题直到今天或多或少仍然存在。时至今日,曹旭东对“端到端”的态度完全转变,Momenta 成为最看好“端到端”实现应用的积极派中的一员。
这个案例,正是“端到端”近年来在自动驾驶领域境遇变化的最好实例。
打赢“端到端”战核心靠算力?
刺激2024年2月至年中“端到端”这波话题关注度走高的根源,源于特斯拉FSD 12.0版本开启推送,以及Sora的大火。Sora是基于“端到端”的Transformer实现的。
而它生成视频像素的能力,是解决“端到端”自动驾驶问题的关键。“端到端”自动驾驶训练的核心是视频生成。因此,Sora富有质感的视频,在一定程度上证明“端到端”路线的正确性。
特斯拉CEO马斯克自信地对外宣称:特斯拉拥有世界上最好的现实世界模拟和视频生成能力。
与此同时,他也指出:我们的FSD训练算力不足。实际上,算力难题一直存在。2023年8月,马斯克指出,FSD AI的实现进程是“眼下的限制因素在于训练的算力,而非工程师人力”。
算力的稀缺和昂贵,已经成为制约AI发展的核心因素。发展“端到端”,首先要考虑提升算力的实力。从大模型之战开始,囤算力成为各家行业公司的基本操作。在华为全联接大会2023期间,华为发布昇腾AI计算集群Atlas 900 SuperCluster,并表示:“中国有一半的大模型算力由华为提供。”
即便如此,若特斯拉如期达成最新算力目标,中国的智算中心的算力都将落后。
从10EFLOPS,再到下一步计划的100EFlops,特斯拉正在以5到10倍的增速实现算力扩张。
当特斯拉已经在训练“端到端”大模型时,国内车企及自动驾驶企业才刚起步。
预计到2024年10月,特斯拉的Dojo智算中心总算力将达到 100EFLOPs(10万PFLOPS),相当于约30万块英伟达A100的算力总和。以小鹏“扶摇”自动驾驶智算中心为例,算力可达600PFLOPS。
毫末智行表示,要实现全国都能开,2000-5000块GPU已经足够。
整体来说,尽管和特斯拉存在较大差距,但是中国车企到2024年年底实现算力的倍数级增长,并非不可能,并且能够接近1-2年前的特斯拉。
数据、算力、算法,人工智能发展的三件套中,仅算力一项,就有可能让各大车企或自动驾驶企业拉开距离。但中国车企并不悲观。城市NOA的刺激,让中国车企及智驾供应商拿出各自新方案,同台竞技,决出胜负为时不远。(文章来源:第一电动网)